×

用于消除列表中名称歧义的网络分析模型。 (英语) Zbl 1108.91348号

摘要:在研究和应用中,社交网络越来越多地从基于文本的文档中的姓名搭配推断出的关系中提取出来。尽管名称代表真实的实体,但名称并不是唯一的标识符,而且通常不清楚两个名称观察值何时对应于同一个基础实体。一个混淆源于歧义,在歧义中,相同的名称正确地引用了多个实体。先前的名字消歧方法测量了两个名字之间的相似性,并将其作为各自文档的函数。在本文中,我们提出了一种基于在由所有文档构建的社交网络中随机行走从一个模糊名称到另一个模糊名字的概率的替代相似性度量。我们通过实验验证了我们从互联网电影数据库中导出的演员-演员关系模型。通过使用全局相似性阈值,我们证明了与之前的模型相比,随机行走在消歧能力上有了显著提高。

理学硕士:

91天30分 社交网络;意见动态
91C20个 社会和行为科学中的集群
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Adamic,L.和E.Adar(2003),“网络上的朋友和邻居”,《社交网络》,25(3),211–230·doi:10.1016/S0378-8733(03)00009-1
[2] Airoldi,E.,A.Slavkovic,S.Fienberg(2005),“交互式四面体小程序:探索2{\(\times\)}2列联表几何结构的工具”,统计系技术报告CMU-STAT-05-824,卡内基梅隆大学:宾夕法尼亚州匹兹堡。
[3] Airoldi,E.和B.Malin(2004),“电子安全的数据挖掘挑战:电子邮件中的欺诈意图检测案例”,摘自英国布莱顿IEEE数据挖掘隐私和安全问题研讨会论文集,第57-66页。
[4] Albert,R.和A.L.Barabási(2002),“复杂网络的统计力学”,《现代物理学评论》,第74、47–97页·Zbl 1205.82086号 ·doi:10.1103/RevModPhys.74.47
[5] Bagga,A.和B.Baldwin(1998),《使用向量空间模型进行基于实体的跨文档协同参考》,《计算语言学协会第36届年会论文集》,加利福尼亚州旧金山,第79-85页。
[6] Banko,M.和E.Brill(2001年),“利用超大语料库进行自然语言消歧”,《计算语言学协会第39届年会论文集》,法国图卢兹,第26-33页。
[7] Barabási,A.L.和R.Albert(1999),“随机网络中尺度的出现”,《科学》,286509-512·Zbl 1226.05223号 ·doi:10.1126/science.286.5439.509
[8] Bekkerman,R.和A.McCallum(2005),“消除社交网络中人们的网络外观歧义”,《2005年万维网会议论文集》,日本千叶。
[9] Bhattacharya,I.和L.Getoor(2004a),“用于清洁和集成的迭代记录链接”,载于第九届ACM SIGMOD数据挖掘和知识发现研究问题研讨会论文集,法国巴黎,第11-18页。
[10] Bhattacharya,I.和L.Getoor(2004b),“使用链接的重复数据消除和组检测”,《2004年ACM SIGKDD链接分析和组检测研讨会论文集》,西雅图,华盛顿州。
[11] Bishop,Y.、S.Fienberg和P.Holland(1975),《离散多元分析:理论与实践》,麻省理工学院出版社,马萨诸塞州剑桥·Zbl 0332.62039号
[12] Brill,E.和P.Resnick(1994),“基于规则的介词短语附加消歧方法”,《第十五届计算语言学国际会议论文集》,日本京都,第1198-1204页。
[13] Brown,P.、S.Della Pietra、V.Della Petetra和R.Mercer(1991年),“使用统计方法消除词语歧义”,《计算语言学协会第29届年会论文集》,加州伯克利,第264-270页。
[14] Chan,S.和J.Franklin(1998),“自然语言消歧中的符号连接主义”,IEEE神经网络汇刊,9(5),739-755·doi:10.1109/72.712149
[15] Chao,G.和M.G.Dyer(2000),“使用概率网络消除形容词的词义歧义”,《第17届计算语言学国际会议论文集》,德国萨尔布鲁克,第152-158页。
[16] Coffman,T.、S.Greenblatt和S.Marcus(2004),“基于图形的智能分析技术”,《ACM通信》,47(3),45-47·数字对象标识代码:10.1145/971617.971643
[17] Cohen,W.、P.Ravikumar和S.Fienberg(2003),“名称和地址字符串匹配任务的比较”,载于墨西哥阿卡普尔科国际计算机学会网络信息集成研讨会论文集。
[18] Culotta,A.、R.Bekkerman和A.McCallum(2004),“从电子邮件和网络中提取社交网络和联系信息”,载于加利福尼亚州山景城第一届电子邮件和反垃圾邮件会议记录。
[19] Diesner,J.和K.Carley(2005),“从安然电子邮件语料库探索通信网络”,摘自2005年SIAM链接分析、反恐和安全研讨会论文集,加利福尼亚州纽波特海滩,第3-14页·Zbl 1108.91346号
[20] 杜达·R.O.、P.E.哈特和D.G.斯托克(2001),《图案分类》,第2版,威利,纽约州纽约市·Zbl 0968.68140号
[21] Fienberg,S.(1970),“列联表中估计的迭代程序”,《数理统计年鉴》,41(3),907-917·Zbl 0198.23401号 ·doi:10.1214/aoms/1177696968
[22] Gale,W.A.,K.W.Church和D.Yarowsky(1992),“大型企业中消除词义歧义的方法”,计算机与人文,26415-439·doi:10.1007/BF00136984
[23] Ginter,F.、J.Boberg、J.Jarvinen和T.Salakoski(2004),“自然语言消歧新技术及其在生物文本中的应用”,《机器学习研究杂志》,第5605–621页。
[24] Girvan,M.和M.Newman(2002),“社会和生物网络中的社区结构”,《美国国家科学院院刊》,99,7821–7826。
[25] Hatzivassiloglou,V.,P.A.Duboue和A.Rzhetsky(2001),“文本中消除蛋白质、基因和RNA的歧义:机器学习方法”,生物信息学,17,97–106。
[26] 互联网电影数据库。http://www.imdb.com。2004年6月20日查阅。
[27] Harada,M.、S.Sato和K.Kazama(2004),“在网络上寻找权威人士”,摘自亚利桑那州图森市数字图书馆联合会议记录。
[28] Hiro,K,H.Wu和T.Furugori(1996),“基于语料库的语义网络的词义消歧”,《定量语言学杂志》,第3244-251页·doi:10.1080/09296179608599631
[29] Jaro,M.(1989),“应用记录链接方法匹配佛罗里达州坦帕市1985年人口普查的进展”,《美国统计协会期刊》,第89、414–420页。
[30] Jensen,K.和J.L.Binot(1987),“使用在线定义消除介词短语附件的歧义”,计算语言学,13(3/4),251–260。
[31] Jensen,D.和J.Neville(2000),“关系数据中的迭代分类”,《AAAI-2000从关系数据学习统计模型研讨会论文集》,第13-20页。
[32] Kalashnikov,D.、S.Mehotra和Z.Chen(2005),“利用关系进行域相关数据清理”,载于2005年SIAM国际数据挖掘会议记录,加利福尼亚州纽波特海滩,第262-273页。
[33] Klimt,B.和Y.Yang(2004),“安然电子邮件语料库:电子邮件分类研究的新数据集”,载于《第十五届欧洲机器学习会议论文集》,意大利比萨,第217-226页·Zbl 1132.68562号
[34] Larsen,B.和C.Aone(1999),“使用线性时间文档聚类进行快速有效的文本挖掘”,载于第五届ACM SIGKDD知识发现和数据挖掘国际会议论文集,加利福尼亚州圣地亚哥,第16-22页。
[35] Lesk,M.(1986),“自动意义消歧:如何区分松果和冰淇淋果”,载于1986年ACM SIGDOC会议记录,纽约,第24-26页。
[36] Malin,B.(2005),“通过社交网络相似性进行无监督的姓名消歧”,载于《2005年SIAM链接分析、反恐和安全研讨会论文集》,加利福尼亚州纽波特海滩,第93-102页。
[37] Mann,G.和D.Yarowsky(2003年),“无监督个人姓名消歧”,《第七届计算自然语言学习会议论文集》,加拿大埃德蒙顿,第33-40页。
[38] Neville,J.、M.Adler和D.Jensen(2003年),“使用属性和链接信息对关系数据进行聚类”,载于《IJCAI文本挖掘和链接分析研讨会论文集》,墨西哥阿卡普尔科。
[39] Newman,M.(2003),“复杂网络的结构和功能”,《SIAM评论》,第45、167–256页·Zbl 1029.68010号 ·doi:10.1137/S003614450342480
[40] Ng,H.T.(1997),“基于范例的词义消歧:一些最近的改进”,载于新泽西州萨默塞特计算语言学协会自然语言处理实证方法第二届会议论文集,第208-213页。
[41] Shetty,J.和J.Adibi(2004),“安然电子邮件数据集:数据库模式和简要统计报告”,南加州大学信息科学研究所技术报告,2004年。
[42] Sweeney,L.(2004),“在网络上查找人员列表”,ACM计算机与社会,34(1)。
[43] Thompson,P.(2005),“文本挖掘、名称和安全”,《数据库管理杂志》,16(1),54–59·doi:10.4018/jdm.200501004
[44] Vronis,J.和N.Ide(1999),“利用从机器可读词典中提取的超大神经网络进行词义消歧”,《第13届计算语言学国际会议论文集》,芬兰赫尔辛基,第389-394页。
[45] Wacholder,N.、Y.Ravin和M.Coi(1997),“文本中专有名词的消歧”,《第五届应用自然语言处理会议论文集》,华盛顿特区,第202-208页。
[46] Wei,J.(2004),“马尔可夫编辑距离”,IEEE模式分析和机器智能汇刊,26(3),311-321·doi:10.1109/TPAMI.2004.1262315
[47] Winkler,W.(1995),“匹配和记录关联”,摘自Cox,B.等人(编辑),《商业调查方法》,纽约州威利,第355-384页。
[48] Yarowsky,D.(1992年),“使用大型语料库上训练的罗杰类别统计模型进行词义消歧”,载于法国南特计算语言学协会第30届年会会议记录,第454-460页。
[49] Zelnik-Manor,L.和P.Perona(2004),“自调节光谱聚类”,《神经信息处理系统进展》17,加拿大温哥华,第1601–1608页。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。