Tweet2Vec公司

Tweet2Vec:面向社交媒体的基于字符的分布式表示。来自社交媒体的文本提供了一系列挑战,这些挑战可能导致传统的NLP方法失败。非正式语言、拼写错误、缩略语和特殊字符在这些帖子中司空见惯,导致单词级方法的词汇量过大。本文提出了一种基于非特征向量序列的局部组合学习模型。该模型在预测与帖子相关的用户注释标签方面优于单词级别的基线,当输入包含许多词汇表外的单词或不寻常的字符序列时,该模型的性能明显更好。我们的tweet2vec编码器是公开的。

此软件的关键字

这里的任何内容都将在支持canvas元素的浏览器上被替换