基于多语言词典的核心词汇构建

温斯顿·吴,加勒特·尼古莱,大卫·亚罗斯基


摘要
基于目标概念在数千个双语词典中的相对覆盖率,我们提出了一种新的多应用核心词汇集的功能定义和构造方法。我们新开发的核心概念词汇表源自这些词典共识方法,与针对第一语言和第二语言学习或领域语言学等应用的现有广泛使用的核心词汇表高度重叠。我们的深入分析说明了我们新提出的核心词汇集的多种理想属性,包括它们的非组合性。我们使用同源预测方法来恢复大规模多语言词典构建中该核心词汇的缺失覆盖率,我们认为,在为包括机器翻译和语言学习在内的多个下游任务创建低资源语言的新词典时,应该优先考虑这些核心词汇,以便启发。
选集ID:
2020.lrec-1.519年
体积:
第十二届语言资源与评价会议记录
月份:
五月
年份:
2020
地址:
法国马赛
编辑:
尼科莱塔·卡尔佐拉里,弗雷德里克·贝歇(Frédéric Béchet),菲利普·布莱切,哈立德·乔克里,克里斯托弗·西埃里,蒂埃里·德克勒克,萨拉·戈吉,Hitoshi Isahara先生,本特·梅加德,约瑟夫·马里亚尼,赫莱内·马佐,亚松森·莫雷诺,简·奥迪克,Stelios Piperidis公司
地点:
LREC公司
信号:
出版商:
欧洲语言资源协会
注:
页:
4211–4217
语言:
英语
网址:
https://aclantology.org/2020.lrec-1.519
内政部:
比比键:
引用(ACL):
Winston Wu、Garrett Nicolai和David Yarowsky。2020基于多语言词典的核心词汇构建.英寸第十二届语言资源与评价会议记录,第4211-4217页,法国马赛。欧洲语言资源协会。
引用(非正式):
基于多语言词典的核心词汇构建(Wu等人,LREC 2020)
复制引文:
PDF格式:
https://aclantology.org/2020.lrec-1.519.pdf