S公司感应电动机CSE公司句子嵌入的简单对比学习

天宇高,兴城瑶,陈丹琪


摘要
本文介绍了SimCSE,一个简单的对比学习框架,它极大地提高了最先进的句子嵌入。我们首先描述了一种无监督的方法,它采用一个输入句子,并在对比目标中预测自己,只使用标准的辍学作为噪声。这种简单的方法工作得出奇地好,与以前的监管同行表现不相上下。我们发现,数据丢失是一种最小的数据增强,删除它会导致表示崩溃。然后,我们提出了一种有监督的方法,该方法将自然语言推理数据集中的注释对合并到我们的对比学习框架中,使用“隐含”对作为积极成分,使用“矛盾”对作为硬否定成分。我们在标准语义文本相似度(STS)任务上对SimCSE进行了评估,使用BERT基的无监督和监督模型分别达到76.3%和81.6%的Spearman相关性,与之前的最佳结果相比,分别提高了4.2%和2.2%。我们还从理论和实证两方面表明,对比学习目标使预训练嵌入的各向异性空间更加均匀,并且在有监督信号的情况下,它能更好地对齐正对。
选集ID:
2021.emnlp-main.552
体积:
2021年自然语言处理实证方法会议记录
月份:
十一月
年份:
2021
地址:
多米尼加共和国Online和Punta Cana
编辑:
玛丽·弗朗辛·莫恩斯,黄宣景,露西娅·斯佩西亚,Scott Wen tau Yih(斯科特·温陶一)
地点:
EMNLP公司
SIG公司:
出版商:
计算语言学协会
注:
页:
6894–6910
语言:
网址:
https://aclantology.org/2021.emnlp-main.552
DOI(操作界面):
10.18653/v1/2021.emnlp-main.552
比比键:
引用(ACL):
高天宇、姚兴成和陈丹琪。2021SimCSE:句子嵌入的简单对比学习.英寸2021年自然语言处理实证方法会议记录,第6894–6910页,在线和多米尼加共和国卡纳角。计算语言学协会。
引用(非正式):
SimCSE:句子嵌入的简单对比学习(Gao等人,EMNLP 2021)
复制引文:
PDF格式:
https://aclantology.org/2021.emnlp-main.552.pdf
视频:
 https://aclantology.org/2021.emnlp-main.552.mp4网址
代码
普林斯顿nlp/SimCSE+附加社区代码
数据
澳大利亚国立理工学院Flickr30k手机MultiNLI公司SICK公司SNLI公司STS基准SentEval公司