标题 |
从多语言网站自动构建英语-克罗地亚平行语料库的两种习得系统比较 |
作者 |
米奎尔·埃斯普拉-戈米斯,菲利普·克鲁比奇卡,尼古拉·卢贝什奇,塞尔吉奥·奥尔蒂兹·罗哈斯,瓦西里斯·帕帕瓦西里奥和普罗科皮斯 |
摘要 |
本文比较了两种自动从多语言网站获取位文本的工具:bitextor和ILSP-FC。我们使用这两种工具从旅游领域爬行21个多语言网站,以构建特定领域的英语-克罗地亚平行语料库。对这两种工具尝试了不同的设置,获得了10662个唯一的文档对。对其中大约10%的样本进行手动检查,并根据每个设置检测到的成对文档的收集来计算成功率。我们比较了这些设置的性能以及每个设置检测到的不同语料库的数量。此外,我们描述了通过设置和人类评估获得的资源,这些资源已作为高质量的并行语料库发布。 |
话题 |
收购,计算机处理 |
全文 |
从多语言网站自动构建英语-克罗地亚平行语料库的两种习得系统比较 |
Biptex公司 |
@会议记录{ESPLGOMIS14.529, 作者={Miquel Esplà-Gomis和Filip Klubička和Nikola Ljubešić和Sergio Ortiz Rojas和Vassilis Papavassiliou和Prokopis Prokopidis}, title={比较两种习得系统以从多语言网站自动构建英语-克罗地亚平行语料库}, booktitle={第九届国际语言资源与评价会议(LREC’14)会议记录}, 年份={2014}, 月={may}, 日期={26-31}, address={冰岛雷克雅未克}, editor={尼科莱塔·卡尔佐拉里(会议主席)、哈立德·乔克里(Khalid Choukri)、蒂埃里·德克勒克(Thierry Declerck)、拉芬·洛夫松(Hrafn Loftsson)、本特·马加德(Bente Maegaard)、约瑟夫·马里亚尼(Joseph Mariani)、亚松森·莫雷诺(Asuncion Moreno), publisher={欧洲语言资源协会(ELRA)}, isbn={978-2-9517408-8-4}, 语言={英语} } |