摘自语料库列表“发布:专利文本中23M个德语-英语平行句”

纽尔计算机语言研究所——海德堡大学

我们很高兴地宣布发布专利文本的平行语料库用于德语-英语语言对。语料库已经构建来自欧洲专利局、知识产权组织和美国专利商标局的专利文件,摘自MAREC收集并包含2300万个来自所有专利文本的句子对部分。

所有句子都标有元数据:专利文件id、专利专利族、专利分类和发布日期。

语料库是根据知识共享许可证分发的。更多信息信息和下载,请参阅http://www.cl.uni-heidelberg.de/statnlpgroup/pattr网站

当做,凯萨琳娜·瓦施勒

-- 法国计算机语言研究所海德堡大学Im Neuenheimer Feld 325,D-69120海德堡网址:http://www.cl.uni-heidelberg.de/~waeschle先生