UTFPR at WMT 2018: Minimalistic Supervised Corpora Filtering for Machine Translation

Gustavo Paetzold

doi:10.18653/v1/W18-6483

UTFPR公司在WMT公司2018年：机器翻译的最小监督语料库过滤

摘要

我们在WMT2018并行语料库过滤任务中介绍了UTFPR系统。我们的监督方法通过在人工生成的二进制分类数据集上训练经典的二进制分类模型来区分好翻译和坏翻译，该数据集源自高质量的翻译集，以及由6个语义距离特征组成的最小集，这些特征仅依赖于易于收集的资源。我们根据“好”标签的概率对翻译进行排名。我们的结果表明，logistic回归对与我们的方法最为吻合，在评估的不同环境中产生更一致的结果。

选集ID：: 带18-6483
体积：: 第三届机器翻译会议记录：共享任务文件
月份：: 十月
年份：: 2018
地址：: 比利时、布鲁塞尔
编辑：: Ondřej Bojar公司,拉金·查特吉,克里斯蒂安·费德曼,马克·费舍尔,伊维特·格雷厄姆,巴里·哈多,马蒂亚斯·哈克,安东尼奥·吉梅诺·耶佩斯,菲利普·科恩,克里斯托夫·蒙兹,马泰奥·内格里,奥雷利·内维尔,玛丽亚娜·奈维斯,马特·波斯特,露西娅·斯佩西亚,马可·图尔奇,卡林·弗斯波尔
地点：: WMT公司
SIG公司：: SIGMT公司
发布者：: 计算语言学协会
注：
页：: 923–927
语言：
网址：: https://aclantology.org/W18-6483
内政部：: 10.18653/v1/W18-6483
比比键：
引用（ACL）：: 古斯塔沃·帕特佐德（Gustavo Paetzold）。20182018年WMT上的UTFPR：机器翻译的极简监督语料库过滤.英寸第三届机器翻译会议记录：共享任务文件，第923–927页，比利时，布鲁塞尔。计算语言学协会。
引用（非正式）：: 2018年WMT上的UTFPR：机器翻译的极简监督语料库过滤（Paetzold，WMT 2018）
复制引文：
PDF格式：: https://aclantology.org/W18-6483.pdf

PDF格式引用搜索