@正在进行{guo-etal-2019-分级,title=“用于并行语料库挖掘的分层文档编码器”,author=“Guo、Mandy和Yang、Yinfei和史蒂文斯、基思和Cer、Daniel和Ge、Heming和Sung、Yun-hsuan和Strope、Brian和雷·库兹韦尔”,editor=“Bojar,Ond{\v{r}}ej和Chatterjee、Rajen和费德曼、克里斯蒂安和费舍尔、马克和格雷厄姆、伊维特和哈多、巴里和哈克、马蒂亚斯和是的,安东尼奥·吉梅诺和Koehn、Philipp和马丁斯、安德烈和蒙兹、克里斯托夫和Negri、Matteo和N{\'e}v{\'e}ol,Aur{\e}谎言和内维斯、玛丽安娜和Post、Matt和图尔奇、马尔科和卡琳·弗斯普尔”,booktitle=“第四届机器翻译大会论文集(第一卷:研究论文)”,月=八月,year=“2019”,address=“意大利佛罗伦萨”,publisher=“计算语言学协会”,url=“https://aclantology.org/W19-5207”,doi=“10.18653/v1/W19-5207”,pages=“64--72”,abstract=“我们探索使用多语言文档嵌入进行并行数据的最近邻挖掘。研究了三种文档级表示:(i)通过简单平均多语言句子嵌入生成的文档嵌入;(ii)神经bagof-words(BoW)文档编码模型;(iii)基于句子级模型的层次化多语言文档编码器(HiDE)。结果表明,从句子级平均得到的文档嵌入对干净数据集的效果出人意料,但表明在文档级分层训练的模型对噪声数据更有效。分析实验表明,我们的层次模型对潜在句子嵌入质量的变化非常鲁棒。使用经过HiDE培训的文档嵌入实现了联合国(UN)并行文档挖掘的最新水平,94.9{\%}P@1用于en-fr,97.3{\%{P@1表示en-es。”,}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“guo-etal-2019-hierarchical”><标题信息>并行语料库挖掘的分层文档编码器</titleInfo><name type=“personal”>曼迪郭<namePart type=“family”><角色>作者</角色></name><name type=“personal”>银飞<namePart type=“given”>杨<角色>作者</角色></name><name type=“personal”>基思史蒂文斯<角色>作者</角色></name><name type=“personal”>丹尼尔证书<角色>作者</角色></name><name type=“personal”><namePart type=“given”>海明<namePart type=“family”>Ge</namePart><角色>作者</角色></name><name type=“personal”>云算<namePart type=“given”>宋楚瑜<角色>作者</角色></name><name type=“personal”>布莱恩笔划<角色>作者</角色></name><name type=“personal”>射线<namePart type=“family”>库兹韦尔</namePart><角色>作者</角色></name><originInfo>发布日期:2019-08发布日期:</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>第四届机器翻译会议论文集(第1卷:研究论文)</titleInfo><name type=“personal”>Ondřej博加尔<角色>编辑器</角色></name><name type=“personal”>拉詹查特吉<角色>编辑器</角色></name><name type=“personal”>克里斯蒂安<namePart type=“family”>费德曼</namePart><角色>编辑器</角色></name><name type=“personal”>标记费舍尔<角色>编辑器</角色></name><name type=“personal”><namePart type=“给定”>Yvette</namePart>格雷厄姆<角色>编辑器</角色></name><name type=“personal”>巴里哈多<角色>编辑器</角色></name><name type=“personal”>马提亚斯哈克<角色>编辑器</角色></name><name type=“personal”>安东尼奥Jimeno是的<角色>编辑器</角色></name><name type=“personal”>飞利浦科恩<角色>编辑器</角色></name><name type=“personal”>安德烈马丁斯<角色>编辑器</角色></name><name type=“personal”>克里斯托夫蒙兹<角色>编辑器</角色></name><name type=“personal”>马蒂奥Negri(奈格里)<角色>编辑器</角色></name><name type=“personal”>奥雷利内维尔<角色>编辑器</角色></name><name type=“personal”>玛丽安娜内维斯<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>马特帖子<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>马可图尔奇<namePart type=“family”><角色>编辑器</角色></name><name type=“personal”>卡琳Verspoor公司<角色>编辑器</角色></name><originInfo>计算语言学协会<位置><placeTerm type=“text”>意大利佛罗伦萨</placeTerm></地点></originInfo>会议出版物</relatedItem><abstract>我们探索使用多语言文档嵌入进行并行数据的最近邻挖掘。研究了三种文档级表示:(i)简单平均多语言句子嵌入生成的文档嵌入;(ii)神经bagof-words(BoW)文档编码模型;(iii)基于句子级模型的分层多语言文档编码器(HiDE)。结果表明,从句子级平均得到的文档嵌入对干净数据集的效果出人意料,但表明在文档级分层训练的模型对噪声数据更有效。分析实验表明,我们的层次模型对潜在句子嵌入质量的变化非常鲁棒。使用经过HiDE培训的文档嵌入在联合国(UN)并行文档挖掘方面达到了最先进的水平,94.9%P@1用于en-fr,97.3%P@1适用于en-es。</abstract><identifier type=“citekey”>guo-etal-2019分级</identifier>10.18653/v1/W19-5207<位置><网址>https://aclantology.org/W19-5207</url></位置><部分><日期>2019-08</日期><扩展单元=“page”><开始>64<end>72</范围></部分></mods></modsCollection>
%0会议记录%用于并行语料库挖掘的分层文档编码器%曼迪·A Guo%阿扬、尹飞%基思·史蒂文斯%A Cer,丹尼尔%阿格、鹤鸣%阿宋、云算%A Strope,布莱恩%A Kurzweil,雷%Y Bojar,Ondřej%拉金·查特吉%Y Federmann,克里斯蒂安%Y Fishel,马克%伊维特·Y·格雷厄姆%巴里·Y·哈多%Y哈克,马提亚斯%Y Yepes,安东尼奥·吉梅诺%Y Koehn,菲利普%安德烈·马丁斯%克里斯托夫·蒙兹%Y Negri,马蒂奥%奥雷利·Y·内维尔%玛丽亚娜·尼维斯%Y Post,马特%马尔科·图尔奇%Y Verspoor,卡琳%第四届机器翻译会议论文集(第一卷:研究论文)%D 2019年%8月8日%计算语言学协会%C意大利佛罗伦萨%F guo-etal-2019-分层%我们探索使用多语言文档嵌入进行并行数据的最近邻挖掘。研究了三种文档级表示:(i)简单平均多语言句子嵌入生成的文档嵌入;(ii)神经bagof-words(BoW)文档编码模型;(iii)基于我们的句子级模型的分层多语言文档编码器(HiDE)。结果表明,从句子级平均得到的文档嵌入对干净数据集的效果出人意料,但表明在文档级分层训练的模型对噪声数据更有效。分析实验表明,我们的层次模型对潜在句子嵌入质量的变化非常鲁棒。使用使用HiDE训练的文档嵌入实现了联合国(UN)并行文档挖掘的最先进水平,en-fr为94.9%P@1,en-es为97.3%P@1。%10.18653/v1/W19-5207兰特%U型https://aclantology.org/W19-5207%U型https://doi.org/10.18653/v1/W19-5207%电话64-72
降价(非正式)
[用于并行语料库挖掘的分层文档编码器](https://aclantology.org/W19-5207)(Guo等人,WMT 2019)
国际计算语言学协会
- Mandy Guo、Yinfei Yang、Keith Stevens、Daniel Cer、Heming Ge、Yun-hsuan Sung、Brian Strope和Ray Kurzweil。2019用于并行语料库挖掘的分层文档编码器.英寸第四届机器翻译会议记录(第1卷:研究论文),第64-72页,意大利佛罗伦萨。计算语言学协会。