上升:自发的C类中文-E类用于多回合对话中代码切换的nglish数据集

神圣的洛维尼亚,塞缪尔·卡海亚维贾亚,Genta Winata公司,彭旭,严旭,刘子汉,丽塔·弗里斯克,铁正宇(Tiezheng Yu),戴文良,埃尔哈姆·J·巴雷齐,陈奇峰,马晓娟,伯特伦·施,帕斯卡尔·冯


摘要
代码切换是说话人在对话中切换语言时发生的一种语音现象。尽管会话口语中的代码转换具有自发的性质,但大多数现有的工作都是从朗读语音而不是自发语音中收集代码转换数据。ASCEND(一个自发的汉英数据集)是一个高质量的汉语-汉英码转换语料库,建立在香港收集的自发多回合对话源上。我们报告了ASCEND收集语音数据的设计和过程,包括注释。ASCEND共有10.62小时的干净演讲,收集了23名中英文双语者的演讲。此外,我们使用预处理的wav2vec 2.0模型进行了基线实验,获得了22.69%的字符错误率和27.05%的混合错误率的最佳性能。
选集ID:
2022.lrec-1.788年
体积:
第十三届语言资源与评价会议记录
月份:
六月
年份:
2022
地址:
法国马赛
编辑:
尼科莱塔·卡尔佐拉里,弗雷德里克·贝歇(Frédéric Béchet),菲利普·布莱切,哈立德·乔克里,克里斯托弗·西埃里,蒂埃里·德克勒克,萨拉·戈吉,Hitoshi Isahara先生,本特·梅加德,约瑟夫·马里亚尼,赫莱内·马佐,简·奥迪克,Stelios Piperidis公司
地点:
LREC公司
SIG公司:
出版商:
欧洲语言资源协会
注:
页:
7259–7268
语言:
网址:
https://aclantology.org/2022.lrec-1.788
内政部:
双钥匙:
引用(ACL):
Holy Lovenia、Samuel Cahyawijaya、Genta Winata、Peng Xu、Yan Xu、Zihan Liu、Rita Frieske、Tiezheng Yu、Wenliang Dai、Elham J.Barezi、Qifeng Chen、Xiaojuan Ma、Bertram Shi和Pascale Fung。2022年。ASCEND:一个用于多回合对话中代码切换的自发性汉英数据集.英寸第十三届语言资源与评估会议记录,第7259–7268页,法国马赛。欧洲语言资源协会。
引用(非正式):
ASCEND:一个用于多回合对话中代码切换的自发性汉英数据集(Lovenia等人,LREC 2022)
复制引文:
PDF格式:
https://aclantology.org/2022.lrec-1.788.pdf
代码
HLTCHKUST/ASCEND公司+附加社区代码
数据
上升