15,330发现的研究成果

    基于短语的机器翻译动态主题自适应

    获取PDF
    翻译来自不同来源的文本对当前的机器翻译系统提出了挑战,这些系统很少适应语料库以外的结构。我们探索了不同数据集上的主题适应,并提出了一种新的双语变量潜在Dirichlet分配,以适应通用主题的概率短语翻译特征。我们动态地为未知来源的测试集传递文档特定的翻译概率,从而捕获文档上下文对短语翻译的影响。我们在基线上显示了高达1.26 BLEU的增益,在领域适应基准上显示了1.04 BLEU。我们进一步分析了特定领域的数据,并显示了我们的模型与其他类型的主题适应特征相结合的附加增益。

    统计机器翻译中的领域适应策略

    获取PDF
    ©剑桥大学出版社,2015年。统计机器翻译(SMT)越来越受到关注,因为它可以很容易地适应任何一对语言。SMT的主要挑战之一是领域适应,因为当测试条件偏离训练条件时,翻译性能会下降。面对这一挑战,许多研究工作正在兴起。研究的重点是试图利用各种可用的材料。本文概述了SMT领域适应挑战的研究概况。同行评审的海报(作者的最终草案

    英语-印度语SMT领域适应实验

    获取PDF
    统计机器翻译(SMT)系统通常针对大量的双语文本和单语目标语言文本进行训练。如果向训练数据中添加大量域外数据,翻译质量可能会下降。另一方面,在给定indomain数据的少量训练材料上训练SMT系统会导致词汇覆盖范围狭窄,从而导致翻译质量低下。在本文中,(i)我们探索了域自适应技术,以将大型域外训练数据与小规模域内训练数据相结合,用于英印统计机器翻译;(ii)我们对大量域外训练数据进行聚类,以提取与域内句子相似的句子,并应用自适应技术合并聚类子语料库将域内训练数据纳入一个统一的框架,达到0.44绝对值,相当于BLEU相对基线提高4.03%

    PLuTO:MT用于在线专利翻译

    获取PDF
    PLuTO——专利语言在线翻译——是一个部分由欧盟资助的商业化项目,专门从事专利文件的自动检索和翻译。PLuTO框架的核心是机器翻译(MT)引擎,通过该引擎提供基于web的翻译服务。完全集成的PLuTO架构包括一个将机器翻译与翻译记忆(TM)耦合的翻译引擎,以及一个专利搜索和检索引擎。在本文中,我们首先描述了提供这种服务背后的激励因素。接下来,我们概述了整个PLuTO框架,特别强调了MT组件,并提供了一个利用PLuTO MT服务的真实用例场景

    多语言神经机器翻译中的迁移学习动态词汇

    全文链接
    我们提出了一种跨神经机器翻译传递知识的方法(NMT)通过共享动态词汇表建立模型。我们的方法允许通过以下方式扩展给定语言对的初始模型以覆盖新语言只要有新数据可用,就调整其词汇表(即引入如果初始模型中没有包含新词汇表项)。这个参数传递机制在两种情况下进行评估:i)适应经过培训的单语言NMT系统与新的语言对一起工作,ii)不断添加新的语言对,以发展成为多语言NMT系统。我们的目标是提高翻译性能,而最小化训练收敛时间。五项初步实验具有不同训练数据大小的语言(即5k和50k并行句子)表现出从+3.85到+13.63的显著性能提升不同语言方向的BLEU。此外,与培训相比从头开始的NMT模型,我们的转移学习方法允许我们达到训练后的表现更高,达到总训练步骤的4%。评论:发表于国际口语研讨会翻译(IWSLT),201

    应用数字内容管理支持本地化

    获取PDF
    诸如万维网(WWW)上的数字内容的检索和呈现是一个重要的研究领域。虽然近年来商业搜索引擎可以有效搜索的基于web的存档的规模大幅扩大,但潜在相关内容的呈现仍然局限于由简单文本片段或图像关键帧代理表示的排名文档列表。人们对个性化内容呈现的技术越来越感兴趣,以提高用户体验的丰富性和有效性。实现这一目标的最重大挑战之一是,该数据的多语言性质越来越强,需要根据该内容向用户提供适当的本地化响应。下一代本地化中心(CNGL)的数字内容管理(DCM)轨道正在寻求开发技术,通过结合自适应超媒体和信息检索现有研究领域的要素,支持先进的个性化访问和信息呈现。这些技术的结合旨在显著改进用户访问信息的方式。我们回顾了这些技术的关键功能,并介绍了这些技术如何支持本地化和本地化内容的早期想法,然后对DCM的未来方向进行了一些总结
    核心核心