×

DeCLUTR公司

swMATH ID: 47046
软件作者: 约翰·乔治;奥斯瓦尔德·尼茨基;王波;加里·巴德
描述: DeCLUTR:针对无监督文本表征的深度对比学习。句子嵌入是许多自然语言处理(NLP)系统的重要组成部分。与单词嵌入一样,句子嵌入通常在大型文本语料库中学习,然后转移到各种下游任务,例如聚类和检索。与单词嵌入不同,学习句子嵌入的最佳解决方案需要标记数据,这限制了它们在标记数据丰富的语言和领域中的用途。在本文中,我们提出了DeCLUTR:无监督文本表征的深度对比学习。受深度度量学习(DML)最新进展的启发,我们仔细设计了一个自我监督的目标,用于学习不需要标记训练数据的通用句子嵌入。当用于扩展基于变换器的语言模型的预训练时,我们的方法缩小了通用句子编码器的无监督和有监督预训练之间的性能差距。重要的是,我们的实验表明,学习嵌入的质量随着可训练参数的数量和未标记训练数据的数量而变化。我们的代码和预处理模型是公开的,可以很容易地适应新的领域或用于嵌入看不见的文本。
主页: https://arxiv.org/abs/2006.03659
源代码:  https://github.com/JohnGiorgi/DeCLUTR网站
依赖项: 蟒蛇
关键词: arXiv_cs。;机器学习;arXiv_cs。LG公司;自然语言处理;自然语言处理
相关软件: SimCSE公司;SimCLR公司;亚当;ViT公司;张紧器2传感器;新加坡存托凭证;N2D气体;Noisier2噪音;自我2自我;掌中宽带;噪音2噪音;噪音2无效;SwAV软件;噪音2自身;时尚-MNIST;UMAP公司;PyTorch公司;ImageNet公司;CIFAR公司;SBERT公司
引用于: 2文件

连载1篇

1 神经网络

按年份列出的引文