@进行中{lovenia-etal-2022提升,title=“{ASCEND}:用于多回合对话中代码切换的自发{C}汉语-{E}英语数据集”,author=“Lovenia、Holy和Cahyawijaya、Samuel和Winata、Genta和徐鹏Xu、Yan和刘子汉和弗里斯克、丽塔和于铁正和戴文良Barezi、Elham J.和陈、奇峰和马晓娟和Shi、Bertram和Fung,Pascale“,editor=“Calzolari、Nicoletta和B{\'e}切特,Fr{\e}d{\ee}ric和Blache、Philippe和Choukri、Khalid和Cieri、Christopher和Declerck、Thierry和戈吉、萨拉和Isahara、Hitoshi和Maegaard、Bente和玛丽亚尼、约瑟夫和Mazo、H{\'e}l{\`e}ne和Odijk、Jan和Piperidis,Stelios“,booktitle=“第十三届语言资源与评价会议论文集”,月=六月,年=“2022”,address=“法国马赛”,publisher=“欧洲语言资源协会”,url=“https://aclantology.org/2022.lrec-1.788”,pages=“7259--7268”,abstract=“语码转换是说话人在会话中转换语言时发生的一种言语现象。尽管会话口语中的语码转换具有自发性质,但现有的大多数作品都是从阅读语音而非自发语音中收集语码转换数据。ASCEND(一个自发的汉英数据集)是一个高质量的汉语-汉英码转换语料库,建立在香港收集的自发多回合对话源上。我们报告了ASCEND{'}收集语音数据(包括注释)的设计和过程。ASCEND共有10.62小时的干净演讲,收集了23名中英文双语者的演讲。此外,我们使用预处理的wav2vec 2.0模型进行了基线实验,获得了22.69{\%}字符错误率和27.05{\%{混合错误率的最佳性能。",}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“lovenia-etal-2022-ascent”><标题信息>ASCEND:一个用于多回合对话中代码切换的自发性汉英数据集</titleInfo><name type=“personal”><namePart type=“given”>神圣</namePart>洛维尼亚<角色>作者</角色></name><name type=“personal”>塞缪尔Cahyawijaya<角色>作者</角色></name><name type=“personal”><namePart type=“given”>根塔Winata公司<角色>作者</角色></name><name type=“personal”>彭<namePart type=“given”><namePart type=“family”>徐</namePart><角色>作者</角色></name><name type=“personal”>严(Yan)<namePart type=“family”>徐</namePart><角色>作者</角色></name><name type=“personal”>紫韩刘<角色>作者</角色></name><name type=“personal”>丽塔弗里斯克<角色>作者</角色></name><name type=“personal”>铁正<namePart type=“given”><namePart type=“family”>余</namePart><角色>作者</角色></name><name type=“personal”>文良<namePart type=“given”>傣族<角色>作者</角色></name><name type=“personal”>Elham公司<namePart type=“given”>J巴雷齐<角色>作者</角色></name><name type=“personal”>奇峰<namePart type=“family”>陈</namePart><角色>作者</角色></name><name type=“personal”><namePart type=“given”>小娟</namePart><namePart type=“family”>马</namePart><角色>作者</角色></name><name type=“personal”>贝特伦史<namePart type=“family”><角色>作者</角色></name><name type=“personal”><namePart type=“given”>帕斯卡尔</namePart>冯<角色>作者</角色></name><originInfo>2022-06发布日期</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>第十三届语言资源与评估会议记录</titleInfo><name type=“personal”>尼科莱塔卡尔佐拉里<角色>编辑器</角色></name><name type=“personal”>弗雷德里克贝歇<角色>编辑器</角色></name><name type=“personal”>菲利普布莱切<角色>编辑器</角色></name><name type=“personal”>哈立德乔克里<角色>编辑器</角色></name><name type=“personal”>克里斯托弗Cieri公司<角色>编辑器</角色></name><name type=“personal”>蒂埃里Declerck公司<角色>编辑器</角色></name><name type=“personal”>萨拉戈吉<角色>编辑器</角色></name><name type=“personal”>HitoshiIsahara<角色>编辑器</角色></name><name type=“personal”>Bente(本特)梅加德<角色>编辑器</角色></name><name type=“personal”>约瑟夫<namePart type=“family”>玛丽安</namePart><角色>编辑器</角色></name><name type=“personal”>Hélène<namePart type=“family”>马祖<角色>编辑器</角色></name><name type=“personal”>一月<namePart type=“family”>Odijk</namePart><角色>编辑器</角色></name><name type=“personal”>Stelios公司哌啶虫<角色>编辑器</角色></name><originInfo>欧洲语言资源协会<位置>法国马赛</place></originInfo>会议出版物</relatedItem>代码切换是说话人在对话中切换语言时发生的一种语音现象。尽管会话口语中的代码转换具有自发性质,但现有的大多数作品都是从阅读语音中收集代码转换数据,而不是从自发语音中收集。ASCEND(一个自发的汉英数据集)是一个高质量的汉语-汉英码转换语料库,建立在香港收集的自发多回合对话源上。我们报告了ASCEND收集语音数据的设计和过程,包括注释。ASCEND共有10.62小时的干净演讲,收集了23名中英文双语者的演讲。此外,我们使用预处理的wav2vec 2.0模型进行了基线实验,获得了22.69%的字符错误率和27.05%的混合错误率的最佳性能</摘要>爱情故事-2022-ascent<位置><网址>https://aclantology.org/2022.lrec-1.788</url></位置><部分>2022-06年<扩展单元=“page”><开始>7259</开始><end>7268</范围></部分></mods></modsCollection>
%0会议记录%T ASCEND:一个用于多回合对话中代码切换的自发性汉英数据集%A Lovenia,天哪%A Cahyawijaya,塞缪尔%A Winata,Genta公司%阿旭,彭%阿旭、燕%刘子翰%A Frieske,丽塔%阿玉、铁正%阿岱、文亮%A Barezi,Elham J。%A Chen,奇峰%阿玛,小娟%伯特伦·阿什%阿丰,帕斯卡%Y Calzolari,尼科莱塔%Y Béchet,Frédéric%Y Blache,菲利普%哈立德·朱克里%克里斯托弗·西埃里%Y Declerck,蒂埃里%萨拉·戈吉%Y Isahara,Hitoshi%Y Maegaard,本特%约瑟夫·马里亚尼%耶鲁·马佐%Y Odijk,简%Y Piperidis、Stelios%第十三届语言资源与评价会议论文集%D 2022年%6月8日%I欧洲语言资源协会%C马赛,法国%F lovenia-etal-2022上升%X代码切换是一种语音现象,发生在说话人在对话中切换语言时。尽管会话口语中的代码转换具有自发性质,但现有的大多数作品都是从阅读语音中收集代码转换数据,而不是从自发语音中收集。ASCEND(一个自发的汉英数据集)是一个高质量的汉语-汉英码转换语料库,建立在香港收集的自发多回合对话源上。我们报告了ASCEND收集语音数据的设计和过程,包括注释。ASCEND共有10.62小时的干净演讲,收集了23名中英文双语者的演讲。此外,我们使用预处理的wav2vec 2.0模型进行了基线实验,获得了22.69%的字符错误率和27.05%的混合错误率的最佳性能。%U型https://aclantology.org/2022.lrec-1.788%电话7259-7268
降价(非正式)
[ASCEND:一个用于多回合对话中代码切换的自发性汉英数据集](https://acl选集.org/2022.lrec-1.788)(Lovenia等人,LREC 2022)
国际计算语言学协会
- Holy Lovenia、Samuel Cahyawijaya、Genta Winata、Peng Xu、Yan Xu、Zihan Liu、Rita Frieske、Tiezheng Yu、Wenliang Dai、Elham J.Barezi、Qifeng Chen、Xiaojuan Ma、Bertram Shi和Pascale Fung。2022年。ASCEND:一个用于多回合对话中代码切换的自发性汉英数据集.英寸第十三届语言资源与评价会议记录,第7259–7268页,法国马赛。欧洲语言资源协会。