×

文字网2秒

swMATH ID: 15443
软件作者: 罗曼·巴图西亚克(Roman Bartusiak)、乌卡斯·奥古斯丁尼亚克(ukasz Augustyniak)、托马斯·卡伊达诺维奇(Tomasz Kajdanowicz)、普尔泽米斯·瓦夫·卡齐恩科(Przemys aw Kazienko)、马西耶·皮亚塞基
描述: WordNet2Vec:语料库不可知词矢量化方法。大数据资源的复杂性要求新的结构化方法,尤其是文本内容的结构化方法。WordNet是对自然语言进行全面抽象的一个很好的知识源,因为它在许多语言中都有很好的实现。由于WordNet以复杂网络的形式嵌入自然语言,本文提出了一种转换机制WordNet2Vec。它为WordNet中的每个单词创建向量。这些向量封装了给定单词对自然语言中所有其他单词的一般位置-作用。任何此类向量的列表或集合都包含有关其组件在整个语言中的上下文的知识。这样的单词表示可以很容易地应用于许多分析任务,如分类或聚类。WordNet2Vec方法的有用性在情感分析中得到了证明,即对真实的亚马逊意见文本数据集进行转移学习的分类。
主页: http://arxiv.org/abs/1606.03335
关键词: WordNet(文字网);自然语言;单词矢量化
引用于: 0个文档