15发现的研究成果

    Samanantar:最大的公开可用平行语料库11种印度语

    全文链接
    我们提供了最大的公开平行语料库Samanantar印度语的集合。该系列共包含4970万个英语和11种印度语之间的句子对(来自两种语言家族)。具体来说,我们从现有的、,公开可用的平行语料库,另外还有我的3740万个来自网络的句子对,增加了4倍。我们挖掘了相似之处通过结合多种语料库、工具和方法从web中提取句子:(a)网络搜索的单语语料库,(b)文档OCR,用于从中提取句子扫描文档,(c)用于对齐的多语言表示模型句子,以及(d)近似最近邻搜索句子集合。人类对新开采样品的评估语料库验证了11个平行句的高质量语言。此外,我们在所有55个印度语之间提取了8340万个句子对以英语为中心的平行语料库中的语言对pivot语言。我们训练了跨所有这些语言的多语言NMT模型萨曼纳塔尔在公开方面优于现有模型和基线可用的基准,如FLORES,用于建立Samanantar的实用程序。我们的数据和模型可在以下网址公开获取:https://indicnlp.ai4bharat.org/samanantar网站/我们希望他们能帮助我们前进印度语NMT和多语言NLP研究。注释:接受计算协会交易语言学(TACL

    重新审视机器中印度语言的低资源状态翻译

    全文链接
    印度语言机器翻译性能因缺乏大规模多语言句子对齐语料库和强大的基准测试。通过本文,我们提供并分析了一个自动化框架,以获得这样一个印度语神经机器翻译(NMT)系统的语料库。我们的管道由基线NMT系统、检索模块和对齐模块,用于处理公开可用的网站,例如政府发布的新闻稿。对这项工作的主要贡献是以获得使用上述管道进行迭代的增量方法改进语料库的大小以及我们的每个组件系统。通过我们的工作,我们还评估了设计选择,如旋转语言的选择和迭代增量的影响语料库大小。我们的工作除了提供自动化框架之外与现有语料库相比,生成的语料库相对较大可用于印度语言的语料库。这个语料库帮助我们获得大幅改善了公开可用的WAT评估结果基准和其他标准评估基准。注释:10页,少数数字,修改后预印

    在中间任务中利用辅助域并行数据低资源翻译的微调

    全文链接
    根据预先训练的多语言序列(PMSS)训练NMT系统当无法获得足够数量的并行数据时,模型会陷入困境微调。这特别适用于在这些模型。当数据来自不同的域。在本文中,我们证明了PMSS模型对特定领域的NMT极为有利,尤其是当目标域数据有限/不可用,考虑的语言为PMSS模型中缺失或未充分体现。我们量化特定领域使用区域离散度检验结果差异,并表明ITFT可以在一定程度上减轻了领域差异的影响。评论:接受在实际机器学习中进行海报演示发展中国家(PML4DC)研讨会,ICLR 202

    通过分离位置信息改进零炮平移

    获取PDF
    多语言神经机器翻译直接显示了在训练中看不见的语言对之间进行翻译,即零射门翻译。尽管在概念上很有吸引力,但它经常受到输出质量。推广到新的翻译方向的困难表明模型表示非常特定于这些语言对在训练中看到。我们证明了导致特定于语言的表示是与输入的位置对应代币。我们表明,通过去除残留物可以很容易地缓解这种情况编码器层中的连接。通过此修改,我们获得了18.5BLEU在零快照翻译上得分,同时在监督下保持质量指示。这些改进在相关语言,其中我们提出的模型优于基于数据透视的翻译。此外,我们的方法允许轻松集成新语言大大扩大了翻译覆盖面。通过彻底检查隐藏层输出,我们表明我们的方法确实会带来更多与语言无关的表征。注释:ACL 202

    “一点点就够了”:基于语料库过滤的少快照质量估计改进机器翻译

    全文链接
    质量评估(QE)是评估参考翻译不可用时的翻译。QE的目标一致在语料库过滤任务中,我们将质量分数分配给伪平行语料库中的句子对。我们提出质量基于估计的滤波方法从中提取高质量的并行数据伪平行语料库。据我们所知,这是一部小说QE框架的适配,以从伪平行语料库。通过使用过滤后的语料库进行训练,我们观察到机器翻译(MT)系统的性能提高了1.8BLEU分数,针对英语-马拉地语、汉语-英语和印地语-班加利语对,超过基准模型。基线模型是经过训练的模型在整个伪平行语料库上。我们的小批量QE模型转移学习从英式马拉地量化宽松模型出发,仅对500 Hindi-Bengali进行微调训练实例表明与基线模型相比,Hindi-Bengali语言对。这表明在讨论的环境中进行迁移学习的承诺。QE系统通常需要(7K-25K)的训练数据。我们的Hindi-BengaliQE只接受了500次培训,是正常情况的1/40并达到可比性能。所有脚本和数据集本研究中使用的将公开

    IndicTrans2:走向高质量和可访问的机器翻译所有22种预定印度语言的模型

    全文链接
    印度拥有丰富的语言景观,有四种主要语言超过10亿人谈论家庭。其中22种语言列在《印度宪法》(简称附表语言)是这项工作。考虑到语言的多样性,高质量和易访问的机器翻译(MT)系统在印度这样的国家至关重要。在此之前工作中,(i)没有跨越所有22种语言的平行培训数据,(ii)没有涵盖所有这些语言并包含内容的可靠基准与印度相关,以及(iii)没有支持所有印度的22种预定语言。在这项工作中,我们旨在解决这一差距通过专注于实现广泛、简单和开放所需的缺失部分为所有22个预定的印度人提供良好的机器翻译系统语言。我们确定了四个关键的改进领域:策划和创建更大的培训数据集,创建多样化和高质量的基准,培训多语言模型,发布开放访问的模型。我们的第一个贡献是发布了巴拉特平行语料库(BPCC),印度语最大的公开并行语料库。BPCC公司共包含230M个位文本对,其中126M个是新的添加了,包括644K个手动翻译的句子对,这些句子对是作为我们的第二个贡献是发布了第一个n路并行涵盖所有22种印度语言的基准,具有不同的领域,印度原住民含量和源原住民测试集。接下来,我们介绍IndicTrans2是第一个支持所有22种语言的模型,超过了现有的作为这项工作的一部分,创建了多个现有和新基准的模型。最后,为了促进可访问性和协作,我们发布了我们的模型和与许可证相关的数据https://github.com/ai4bharat/IndicTrans2

    IndicBART:一种预训练的印度语自然语言生成模型

    全文链接
    在本文中,我们研究了一组预训练序列到序列模型相关语言,重点是印度语。我们介绍IndicBART以11个指标为重点的多语言、序列到序列预训练模型语言和英语。IndicBART利用了印度语脚本,用于改善类似印度语之间的转换学习。我们在两个NLG任务上评估IndicBART:神经机器翻译(NMT)和极端概括。我们在NMT和极端总结方面的实验表明特定于相关语言(如IndicBART)的模型与大型预训练模型,如mBART50,尽管其尺寸明显较小。在资源非常少的翻译场景中也表现良好,其中语言不包括在预培训或微调中。脚本共享,多语言培训和更好地利用有限的模型能力有助于紧凑型IndicBART模型的良好性能。评论:发表于ACL 2022,15页
    核心核心