文件Zbl 1147.68767-zbMATH Open

中文文本处理中基于概念相似度的一种新的相似度计算方法。（英语） Zbl 1147.68767号

科学。中国，Ser。F。 51，第9期，1215-1230（2008）.

摘要：在中文文本处理中，提出了一种基于概念相似度的文本相似度计算方法。该方法首先将文本转换为单词向量空间模型，然后将单词分解为一组概念。通过计算概念之间的内积，得到单词之间的相似度。该方法最后根据单词的相似性计算文本的相似性。本文的贡献包括：1）提出了一种新的词间计算公式；2）提出了一种基于词语相似度的文本相似度计算方法；3）将该方法成功应用于WEB新闻的相似度计算；4）通过大量实验验证了该方法的有效性。

MSC公司：

68T50型

自然语言处理

关键词：

概念相似性;相似性计算;向量空间;内部产品空间

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Nirenburg S.基于实例的机器翻译中的两种匹配方法。摘自：第四届机器翻译理论和方法问题国际会议（TMI-93），京都，1993年。47–57
[2]	李世杰，张杰，黄霞，等。汉语问答系统中的语义计算。计算机科学技术杂志，2002,17（6），933-939·Zbl 1095.68708号 ·doi:10.1007/BF02960786
[3]	Ristad E S，Yianilos P N.学习字符串编辑距离。IEEE PAMI，1998，20（5）：522-532
[4]	查特吉N.2001。EBMT句子间相似性度量的统计方法。摘自：翻译支持系统研讨会论文集STRANS-2001。坎普尔：印度理工学院，2001年
[5]	Corley C，Mihalcea R.测量文本的语义相似性。摘自：ACL语义等价和蕴涵实证建模研讨会论文集。莫里斯敦。新泽西：计算机语言学家协会，2005，13-18
[6]	Dagan I，Glickman O，Magnini B。PASCAL识别文本隐含的挑战。摘自：PASCAL研讨会论文集。柏林：Springer-Verlag，2006年。3944: 177–190
[7]	Zhang Z，Otterbacher J，Radev D.使用助推学习跨文档结构关系。摘自：第十二届信息和知识管理国际会议记录。新奥尔良：ACM，2003年。124–130
[8]	Dagan I，Lee L，Pereira F.基于相似性的单词并发概率模型。Mach Learn，机器学习和自然语言专刊，1999年，43–69·Zbl 0928.68111号
[9]	Dolan W B，Quirk C，Brockett C。大型转述语料库的无监督构建：利用大规模平行新闻来源。收录于：第20届国际计算语言学会议论文集。莫里斯敦：计算机语言学家协会，2004年。350–356
[10]	Budanitsky A，Hirst G.《wordnet中的语义距离：五种度量的实验性、面向应用的评估》。收录：NAACL Word-Net和其他词汇资源研讨会论文集。莫里斯敦：计算机语言学家协会，2001年·Zbl 1234.68399号
[11]	Liu Q，Li S J.基于How-net的单词相似度计算。In：计算语言学和汉语处理。台湾：计算机语言学家协会Chin Lang Proc，2002年。7(2): 59–76
[12]	范兴华、孙茂松。一种高性能的两类中文文本分类方法。中国计算机杂志，2006，29（1）：124–131
[13]	潘千红，王菊，石忠志。基于属性理论的文本相似性计算。中国计算机杂志，1999，22（6）：651–655
[14]	徐晓玲，彭静，石宝梅，等。一种新的基于边缘列表的全路径最短路径算法。计算工程应用，2005，41（29）：88–90

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：书本；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

中文文本处理中基于概念相似度的一种新的相似度计算方法。（英语） Zbl 1147.68767号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

中文文本处理中基于概念相似度的一种新的相似度计算方法。 （英语） Zbl 1147.68767号

MSC公司：

关键词：

参考文献：

中文文本处理中基于概念相似度的一种新的相似度计算方法。（英语） Zbl 1147.68767号