论英语中的发音W公司iktionary:多语言教学大纲的提取与实验及应力预测

温斯顿·吴,大卫·亚罗斯基


摘要
我们为五个非英语版本的Wiktionary构建了解析器,这些解析器结合了英语版本的发音,包含530多万个IPA发音,是同类中最大的发音词典。该数据集是一个独特的可比较语料库,语料库中的国际音标发音由多个来源注释而成。我们分析数据集,注意到机器生成发音的存在。我们开发了一种新的可视化方法来量化音节化。我们对多语言IPA音节化和重音预测这一新的组合任务进行了实验,发现训练具有复制注意的大规模多语言神经序列-序列模型可以提高高资源和低资源语言的性能,而关于重音预测的多任务训练有助于音节化。
选集ID:
2021.颊-1.9
体积:
第14届建立和使用可比公司研讨会会议记录(BUCC 2021)
月份:
九月
年份:
2021
地址:
联机(虚拟模式)
编辑:
莱因哈德·拉普,谢尔盖·沙洛夫,皮埃尔·兹韦根鲍姆
地点:
BUCC公司
信号:
出版商:
收入有限公司。
注:
页:
68–74
语言:
网址:
https://aclantology.org/2021.bucc-1.9
内政部:
比比键:
引用(ACL):
Winston Wu和David Yarowsky。2021Wiktionary中的发音:多语音节化和重音预测的提取与实验.英寸第十四届构建和使用可比语料库研讨会会议记录(BUCC 2021),第68–74页,在线(虚拟模式)。INCOMA有限公司。。
引用(非正式):
Wiktionary中的发音:多语音节化和重音预测的提取与实验(Wu&Yarowsky,BUCC 2021)
复制引文:
PDF格式:
https://aclantology.org/2021.bucc-1.9.pdf