构建双语平行推文语料库

哈米·穆巴拉克,萨比特·哈桑,艾哈迈德·阿卜杜拉利


摘要
为了吸引更多、更多样化的受众,推特用户经常发布并行推特,即包含相同内容但使用不同语言编写的推特。并行推文可以是开发机器翻译(MT)系统以及其他自然语言处理(NLP)任务的重要资源。在本文中,我们介绍了一种收集并行推文的通用方法。使用这种方法,我们收集了英语-阿拉伯语平行推文的双语语料库和定期发布英语-阿拉伯语推文的推特账户列表。由于我们的方法是通用的,它还可以用于收集包含资源较少的语言(如塞尔维亚语和乌尔都语)的并行推文。此外,我们还为推特账户的一个子集添加了原籍国和感兴趣的主题注释,以了解发布并行推特的人群。后面的信息对于作者分析任务也很有用。
选集ID:
2020年bucc-1.3
体积:
构建和使用可比语料库第13次研讨会会议记录
月份:
五月
年份:
2020
地址:
法国马赛
编辑:
莱因哈德·拉普,皮埃尔·兹韦根鲍姆,谢尔盖·沙洛夫
地点:
BUCC公司
SIG公司:
发布者:
欧洲语言资源协会
注:
页:
14–21
语言:
英语
网址:
https://aclantology.org/2020.bucc-1.3
DOI(操作界面):
比比键:
引用(ACL):
哈米德·穆巴拉克(Hamdy Mubarak)、萨比特·哈桑(Sabit Hassan)和艾哈迈德·阿卜杜拉利(Ahmed Abdelali)。2020构建双语平行推文语料库.英寸构建和使用可比语料库第13次研讨会会议记录,第14-21页,法国马赛。欧洲语言资源协会。
引用(非正式):
构建双语平行推文语料库(穆巴拉克等人,BUCC 2020)
复制引文:
PDF格式:
https://aclantology.org/2020.bucc-1.3.pdf
数据
阿拉伯语-英语平行推文双语语料库