@正在进行{gao-etal-2021-simcse,title=“{S} 即时消息{CSE}:句子嵌入的简单对比学习”,author=“高、天宇和姚兴成和陈丹奇”,editor=“Moens、Marie Francine和黄、玄静和Specia、Lucia和Yeh,Scott Wen-tau“,booktitle=“2021年自然语言处理实证方法会议记录”,月=11月,年=“2021”,address=“多米尼加共和国Online和Punta Cana”,publisher=“计算语言学协会”,url=“https://aclantology.org/2021.emnlp-main.552",doi=“10.18653/v1/2021.emnlp main.552”,pages=“6894--6910”,抽象=“本文介绍了SimCSE,这是一个简单的对比学习框架,它极大地提高了最先进的句子嵌入技术。我们首先描述了一种无监督的方法,它采用输入句子并在对比目标中预测自己,只使用标准的辍学作为噪声。这种简单的方法工作得出奇地好,性能良好ng与之前的监管同行不相上下。我们发现,数据丢失是一种最小的数据增强,删除它会导致表示崩溃。然后,我们提出了一种有监督的方法,将自然语言推理数据集中的注释对合并到我们的对比学习框架中,使用{`}蕴涵{''}对作为积极成分,使用{`}矛盾{''对作为硬否定成分。我们在标准语义文本相似度(STS)任务上对SimCSE进行了评估,我们使用BERT基的无监督和监督模型分别获得了76.3{\%}和81.6{\%{Spearman{'}的平均相关性,与之前的最佳结果相比,提高了4.2{\%neneneep和2.2{\%neneneei。我们还展示了{---}两者理论上和经验上{---}那对比学习目标将预训练的嵌入{'}各向异性空间正则化,使其更加均匀,并且在有监督信号的情况下更好地对齐正对。",}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“gao-etal-2021-simcse”><标题信息>SimCSE:句子嵌入的简单对比学习</titleInfo><name type=“personal”>天宇<namePart type=“given”>高<namePart type=“family”><角色>作者</角色></name><name type=“personal”>兴城<namePart type=“given”>姚明<角色>作者</角色></name><name type=“personal”>丹琦<namePart type=“family”>陈</namePart><角色>作者</角色></name><originInfo>发布日期:2021-11发布日期:</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>2021年自然语言处理实证方法会议记录</titleInfo><name type=“personal”>玛丽·弗朗辛莫恩斯<角色>编辑器</角色></name><name type=“personal”>轩辕<namePart type=“given”>黄<namePart type=“family”><角色>编辑器</角色></name><name type=“personal”>露西娅Specia系列<角色>编辑器</角色></name><name type=“personal”>斯科特文涛<namePart type=“given”>文涛</namePart><namePart type=“family”>Yih</namePart><角色>编辑器</角色></name><originInfo>计算语言学协会<位置>在线和多米尼加共和国卡纳角</place></originInfo>会议出版物</relatedItem>本文介绍了SimCSE,一个简单的对比学习框架,它极大地促进了最先进的句子嵌入。我们首先描述了一种无监督的方法,它采用一个输入句子,并在对比目标中预测自己,只使用标准的辍学作为噪声。这种简单的方法工作得出奇地好,与以前的监管同行表现不相上下。我们发现,数据丢失是一种最小的数据增强,删除它会导致表示崩溃。然后,我们提出了一种有监督的方法,该方法将自然语言推理数据集中的注释对合并到我们的对比学习框架中,使用“隐含”对作为积极成分,使用“矛盾”对作为硬否定成分。我们在标准语义文本相似性(STS)任务上评估了SimCSE,并且我们使用BERT库的无监督和有监督模型分别实现了平均76.3%和81.6%的Spearman相关性,与之前的最佳结果相比,分别提高了4.2%和2.2%。我们还从理论和实证两方面表明,对比学习目标使预训练嵌入的各向异性空间更加均匀,并且在有监督信号的情况下,它能更好地对齐正对</摘要><identifier type=“citekey”>gao-etal-2021-simcse10.18653/v1/2021.emnlp-main.552<位置><网址>https://aclantology.org/2021.emnlp-main.552</url></位置><部分>2021-11年<扩展单元=“page”><开始>6894</开始><end>6910</范围></部分></mods></modsCollection>
%0会议记录%T SimCSE:句子嵌入的简单对比学习%天宇阿高%阿瑶、兴城%A Chen、Danqi%玛丽·弗朗辛·Y·莫恩斯%Y Huang,宣景%露西娅·Y·斯佩西亚%Y Yih、Scott Wen-tau%2021年自然语言处理实证方法会议论文集%D 2021年%11月8日%计算语言学协会%C Online和Punta Cana,多米尼加共和国%F高电位-2021-simcse%X本文介绍了SimCSE,这是一个简单的对比学习框架,极大地促进了最先进的句子嵌入。我们首先描述了一种无监督的方法,它采用一个输入句子,并在对比目标中预测自己,只使用标准的辍学作为噪声。这种简单的方法工作得出奇地好,与以前的监管同行表现不相上下。我们发现,数据丢失是一种最小的数据增强,删除它会导致表示崩溃。然后,我们提出了一种有监督的方法,该方法将自然语言推理数据集中的注释对合并到我们的对比学习框架中,使用“隐含”对作为积极成分,使用“矛盾”对作为硬否定成分。我们在标准语义文本相似度(STS)任务上对SimCSE进行了评估,使用BERT基的无监督和监督模型分别达到76.3%和81.6%的Spearman相关性,与之前的最佳结果相比,分别提高了4.2%和2.2%。我们还从理论和实证两方面表明,对比学习目标使预训练嵌入的各向异性空间更加均匀,并且在有监督信号的情况下,它能更好地对齐正对。%R 10.18653/v1/2021年5月52日%U型https://aclantology.org/2021.emnlp-main.552%U型https://doi.org/10.18653/v1/2021.emnlp-main.552%电话:6894-6910
降价(非正式)
[SimCSE:句子嵌入的简单对比学习](https://aclantology.org/2021.emnlp-main.552)(Gao等人,EMNLP 2021)
国际计算语言学协会
- 高天宇、姚兴成和陈丹琪。2021SimCSE:句子嵌入的简单对比学习.英寸2021年自然语言处理实证方法会议记录,第6894–6910页,在线和多米尼加共和国卡纳角。计算语言学协会。