跳到内容

钩舌-MT/钩舌

文件夹和文件

姓名姓名
上次提交消息
上次提交日期

最新提交

 
 
 
 
 
 
 
 
 
 
 
 
 

存储库文件导航

THUMT:一个用于神经机器翻译的开源工具包

目录

引言

机器翻译是一种自然语言处理任务,旨在使用计算机自动翻译自然语言。近几年来,端到端神经机器翻译发展迅速,已成为实际机器翻译系统中新的主流方法。

THUMT是一个用于神经机器翻译的开源工具包,由清华大学自然语言处理小组。THUMT的网站是:http://thumt.thunlp.org/

在线演示

THUMT的在线演示位于网址:http://translate.thumt.cn/所涉及的语言包括古代汉语、阿拉伯语、汉语、英语、法语、德语、印度尼西亚语、日语、葡萄牙语、俄语和西班牙语。

启动位置

THUMT目前有三种主要实现:

下表总结了三种实现的功能:

实施 模型 标准 优化器 轻轨列车
西雅娜 RNN搜索 MLE、MRT、SST SGD、AdaDelta、Adam RNN搜索
TensorFlow公司 Seq2Seq、RNN搜索、变压器 MLE公司 亚当 RNN搜索,变压器
PyTorch公司 变压器 MLE公司 SGD、Adadelta、Adam 不适用。

我们建议使用THUMT-PyTorch火炬THUMT-张力流,其翻译性能优于THUMT-Theano公司。我们将继续向添加新功能THUMT-PyTorch火炬THUMT-张力流

显著特征

  • 变压器(Vaswani等人,2017年)
  • 多GPU训练和解码
  • 多人分散培训
  • 混合精度训练和解码
  • 模型集合与平均
  • 梯度聚集
  • 用于可视化的TensorBoard

文档

PyTorch实现的文档可在在这里

许可证

源代码是双重授权的。开放源代码许可是在BSD-3条款,允许免费用于研究目的。有关商业许可,请发送电子邮件thumt17@gmail.com

引用

请引用以下文件:

谭志兴、张嘉诚、黄宣成、陈刚、王朔、孙茂松、栾焕波、杨柳。THUMT:一个用于神经机器翻译的开源工具包AMTA 2020年。

张嘉诚、丁燕卓、沈世奇、郑勇、孙茂松、栾焕波、杨柳。2017THUMT:一个用于神经机器翻译的开源工具包.arXiv:1706.06415。

开发团队

项目负责人:孙茂松,杨柳、环波栾

项目成员:

Theano:张嘉诚、丁彦卓、沈世奇、郑勇

TensorFlow:谭志兴、张嘉诚、黄宣成、陈刚、王朔、杨宗翰

火炬手:谭志兴、陈刚

联系人

如果您有问题、建议和错误报告,请发送电子邮件thumt17@gmail.com

衍生存储库

  • UCE4BT型(使用基于不确定性的置信度估计改进回译)
  • L2副本4APE(学习复制以进行自动后期编辑)
  • 变压器文件(利用文档级上下文改进变压器翻译模型)
  • PR4不高于(使用后验正则化进行神经机器翻译的先验知识集成)

关于

清华自然语言处理集团开发的开源神经机器翻译工具包

话题

资源

许可证

星星

观察者

叉子

发布

未发布版本

包装

未发布包

语言文字