×

中文文本处理中基于概念相似度的一种新的相似度计算方法。 (英语) Zbl 1147.68767号

摘要:在中文文本处理中,提出了一种基于概念相似度的文本相似度计算方法。该方法首先将文本转换为单词向量空间模型,然后将单词分解为一组概念。通过计算概念之间的内积,得到单词之间的相似度。该方法最后根据单词的相似性计算文本的相似性。本文的贡献包括:1)提出了一种新的词间计算公式;2) 提出了一种基于词语相似度的文本相似度计算方法;3) 将该方法成功应用于WEB新闻的相似度计算;4)通过大量实验验证了该方法的有效性。

MSC公司:

68T50型 自然语言处理
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Nirenburg S.基于实例的机器翻译中的两种匹配方法。摘自:第四届机器翻译理论和方法问题国际会议(TMI-93),京都,1993年。47–57
[2] 李世杰,张杰,黄霞,等。汉语问答系统中的语义计算。计算机科学技术杂志,2002,17(6),933-939·Zbl 1095.68708号 ·doi:10.1007/BF02960786
[3] Ristad E S,Yianilos P N.学习字符串编辑距离。IEEE PAMI,1998,20(5):522-532
[4] 查特吉N.2001。EBMT句子间相似性度量的统计方法。摘自:翻译支持系统研讨会论文集STRANS-2001。坎普尔:印度理工学院,2001年
[5] Corley C,Mihalcea R.测量文本的语义相似性。摘自:ACL语义等价和蕴涵实证建模研讨会论文集。莫里斯敦。新泽西:计算机语言学家协会,2005,13-18
[6] Dagan I,Glickman O,Magnini B。PASCAL识别文本隐含的挑战。摘自:PASCAL研讨会论文集。柏林:Springer-Verlag,2006年。3944: 177–190
[7] Zhang Z,Otterbacher J,Radev D.使用助推学习跨文档结构关系。摘自:第十二届信息和知识管理国际会议记录。新奥尔良:ACM,2003年。124–130
[8] Dagan I,Lee L,Pereira F.基于相似性的单词并发概率模型。Mach Learn,机器学习和自然语言专刊,1999年,43–69·Zbl 0928.68111号
[9] Dolan W B,Quirk C,Brockett C。大型转述语料库的无监督构建:利用大规模平行新闻来源。收录于:第20届国际计算语言学会议论文集。莫里斯敦:计算机语言学家协会,2004年。350–356
[10] Budanitsky A,Hirst G.《wordnet中的语义距离:五种度量的实验性、面向应用的评估》。收录:NAACL Word-Net和其他词汇资源研讨会论文集。莫里斯敦:计算机语言学家协会,2001年·Zbl 1234.68399号
[11] Liu Q,Li S J.基于How-net的单词相似度计算。In:计算语言学和汉语处理。台湾:计算机语言学家协会Chin Lang Proc,2002年。7(2): 59–76
[12] 范兴华、孙茂松。一种高性能的两类中文文本分类方法。中国计算机杂志,2006,29(1):124–131
[13] 潘千红,王菊,石忠志。基于属性理论的文本相似性计算。中国计算机杂志,1999,22(6):651–655
[14] 徐晓玲,彭静,石宝梅,等。一种新的基于边缘列表的全路径最短路径算法。计算工程应用,2005,41(29):88–90
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。