×

文本模式的解释。 (英语) Zbl 1411.68092号

摘要:在许多文本挖掘应用程序中,模式被用作分析数据的基本手段。已经开发了许多有效的技术来发现模式。然而,发现的模式数量过多,缺乏扎根(例如先验定义的)语义,这使得用户很难解释和探索模式。深入了解模式的含义可以让用户在探索模式的过程中受益匪浅。为此,本文提出了一个自动解释模式的模型,实现了两个目标:(1)根据本体概念提供模式的含义;(2)提供一种从本体生成和提取特征的新方法,以更有效地描述相关信息。利用领域本体和一组相关统计信息(例如文档中的术语频率、领域本体中的反向术语频率等),我们提出的模型可以洞察模式的隐藏含义。通过在三个标准数据集上与不同基线模型进行比较,对模型进行评估。结果表明,该模型的性能明显优于基线模型。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68吨10 模式识别、语音识别
68立方英尺 知识表示
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Afrati F,Gionis A,Mannila H(2004)对频繁集合的近似。摘自:第十届ACM SIGKDD知识发现和数据挖掘国际会议论文集,美国华盛顿州西雅图ACM,第12-19页
[2] Agrawal R,Imieliñski T,Swami A(1993)大型数据库中项目集之间的关联规则挖掘。1993年ACM SIGMOD国际数据管理会议记录,第22卷。ACM,美国华盛顿特区,第207-216页
[3] Anderson JR(1983)记忆的扩散激活理论。语言学习与语言行为杂志22(3):261-295·doi:10.1016/S0022-5371(83)90201-3
[4] Banko M、Cafarella MJ、Soderland S、Broadhead M、Etzioni O(2007)《从网络中提取开放信息》。摘自:第20届国际人工智能联合会议论文集,第7卷。Morgan Kaufmann Publishers Inc.,美国加利福尼亚州旧金山,第2670-2676页
[5] Bayardo Jr RJ(1998)从数据库中高效挖掘长模式。收录:ACM Sigmod记录,第27卷。ACM,美国华盛顿州西雅图,第85-93页
[6] Bengio Y,Ducharme R,Vincent P,Jauvin C(2003)神经概率语言模型。J Mach Learn Res 3(2月):1137-1155·Zbl 1061.68157号
[7] Blei DM、Ng AY、Jordan MI(2003)《潜在的dirichlet分配》。J Mach学习研究3:993-1022·Zbl 1112.68379号
[8] 布隆道恩,S。;Cimiano,P。;Hotho,A.,《学习本体论以改进文本聚类和分类》,334-341(2006),马格德堡·doi:10.1007/3-540-31314-1_40
[9] Brewster C、Alani H、Dasmahapatra S、Wilks Y(2004),数据驱动本体评估。In:语言资源和评价国际会议(LREC 2004)。葡萄牙里斯本
[10] Buckley C,Voorhees EM(2000)评估评估措施的稳定性。收录:第23届ACM SIGIR信息检索研究与开发国际年会会议记录。ACM,希腊雅典,第33-40页
[11] 布内斯库,R。;Mooney,RJ,关系提取的子序列核,171-178(2006),剑桥
[12] Calders T,Goethals B(2007)《非衍生项集挖掘》。数据最小知识盘14(1):171-206·doi:10.1007/s10618-006-0054-6
[13] Calegari S,Pasi G(2013)个人本体:基于yago本体的用户配置文件生成。信息流程管理49(3):640-658·doi:10.1016/j.ipm.2012.07.010
[14] Caropreso MF,Matwin S,Sebastiani F(2001)《统计短语对自动文本分类有用性的学习者依赖性评估》。文本数据库文档管理理论实践5478:78-102
[15] Chemudugunta C、Holloway A、Smyth P、Steyvers M(2008a)通过将语义概念与无监督统计学习相结合来建模文档。In:国际语义网络会议。施普林格,卡尔斯鲁厄,第229-244页
[16] Chemudugunta C,Smyth P,Steyvers M(2008b)结合概念层次结构和统计主题模型。摘自:美国加利福尼亚州纳帕谷ACM第17届ACM信息和知识管理会议记录,第1469-1470页
[17] Collins AM,Loftus EF(1975)语义处理的一种传播激活理论。《心理学评论》82(6):407·doi:10.1037/0033-295X.82.6.407
[18] Collobert R,Weston J(2008)自然语言处理的统一架构:具有多任务学习的深度神经网络。摘自:第25届机器学习国际会议论文集,ACM,第160-167页
[19] Crestani F(1997)传播激活技术在信息检索中的应用。Artif Intell版本11(6):453-482·doi:10.1023/A:1006569829653
[20] Deerwester SC、Dumais ST、Landauer TK、Furnas GW、Harshman RA(1990)《潜在语义分析索引》。美国社会科学杂志41(6):391-407·doi:10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9
[21] Del Corro L,Gemulla R(2013)Clausie:基于子句的开放信息提取。收录于:第22届万维网国际会议记录。ACM,第355-366页
[22] Egozi O,Gabrilovich E,Markovitch S(2008)《信息检索中基于概念的特征生成和选择》。摘自:AAAI人工智能会议,第8卷。伊利诺伊州芝加哥,第1132-1137页
[23] Egozi O,Markovitch S,Gabrilovich E(2011)使用显式语义分析的基于概念的信息检索。ACM传输信息系统(TOIS)29(2):1-38·数字对象标识代码:10.1145/1961209.1961211
[24] Fader A、Soderland S、Etzioni O(2011)《确定开放信息提取的关系》。摘自:《自然语言处理实证方法会议论文集》,计算语言学协会,第1535-1545页
[25] Gabrilovich E,Markovitch S(2005)使用世界知识进行文本分类的特征生成。摘自:第19届国际人工智能联合会议记录,第5卷。苏格兰爱丁堡,1048-1053页
[26] Gabrilovich E,Markovitch S(2007a)使用基于wikipedia的显式语义分析计算语义相关性。摘自:第20届国际人工智能联合会议记录,第6卷。印度海得拉巴,第1606-1611页
[27] Gabrilovich E,Markovitch S(2007b)利用70000名人工编辑的专业知识:基于知识的文本分类特征生成。J Mach学习研究8(10):2297-2345
[28] Gabrilovich E,Markovitch S(2009),基于维基百科的自然语言处理语义解释。Artif Intell Res杂志34(2):443-498·Zbl 1182.68319号 ·doi:10.1613/jair.2669
[29] Gallo A,De Bie T,Cristianini N(2007)Mini:挖掘信息性非冗余项集。参加:关于数据挖掘和知识发现原则的欧洲会议。施普林格,第438-445页
[30] Gauch S、Chaffee J、Pretschner A(2003)基于Ontology的个性化搜索和浏览。Web智能代理系统1(3):219-234
[31] Glorot X,Bordes A,Bengio Y(2011)用于大规模情绪分类的领域自适应:一种深度学习方法。摘自:第28届机器学习国际会议记录(ICML-11),第513-520页
[32] Goutsias J、Mahler RP、Nguyen HT(2012)《随机集:理论与应用》,第97卷。柏林施普林格
[33] Grossman DA(2004)《信息检索:算法和启发式》,第15卷。柏林施普林格·Zbl 1066.68041号 ·doi:10.1007/978-1-4020-3005-5
[34] Guns T,Nijssen S,De Raedt L(2013)约束下的k模式集挖掘。IEEE Trans Knowl Data Eng 25(2):402-418·doi:10.1010/TKDE.2011.204
[35] Han J,Wang J,Lu Y,Tzvetkov P(2002)在没有最小支持的情况下挖掘top-k频繁闭合模式。In:IEEE数据挖掘国际会议(ICDM),IEEE,日本前桥市,第211-218页
[36] Hennig L,Umbrath W,Wetzker R(2008)基于本体论的文本摘要方法。在:IEEE/WIC/ACM关于网络智能(WI)和智能代理技术(IAT)的国际联合会议,第3卷。电气与电子工程师协会。澳大利亚新南威尔士州悉尼,第291-294页
[37] Hofmann T(1999)概率潜在语义索引。摘自:第22届ACM SIGIR信息检索研究与开发国际年会论文集,ACM,第50-57页
[38] Hopfield JJ(1984)具有分级响应的神经元具有与二态神经元类似的集体计算特性。国家科学院院刊81(10):3088-3092·Zbl 1371.92015年 ·doi:10.1073/pnas.81.10.3088
[39] Hotho A,Nürnberger A,PaaßG(2005)文本挖掘的简要概述。Ldv论坛20:19-62
[40] Hulpus I、Hayes C、Karnstedt M、Greene D(2013)《使用dbpedia的非监督基于图形的主题标注》。摘自:第六届ACM网络搜索和数据挖掘国际会议记录,ACM,罗马,意大利,第465-474页
[41] Ingaramo D,Pinto D,Rosso P,Errecalde M(2008)《短文语料库内部效度评估》。In:计算语言学和智能文本处理,Springer,Haifa,Israel,pp 555-567
[42] Karp,RM,组合问题中的可约性,85-103(1972),柏林·Zbl 1467.68065号 ·doi:10.1007/978-1-4684-2001-2_9
[43] Knobbe AJ,Ho EK(2006)模式团队。In:欧洲数据挖掘和知识发现原则会议,Springer,第577-584页
[44] Kriegel HP、Borgwardt KM、Kröger P、Pryakhin A、Schubert M、Zimek A(2007)《数据挖掘的未来趋势》。数据最小知识盘15(1):87-97·doi:10.1007/s10618-007-0067-9
[45] Kruse R,Schwecke E,Heinsohn J(1991),基于知识的系统中的不确定性和模糊性。Springer,纽约公司,纽约·Zbl 0755.68129号 ·doi:10.1007/978-3-642-76702-9
[46] Kruse R,Schwecke E,Heinsohn J(2012)基于知识的系统中的不确定性和模糊性:数值方法。柏林施普林格·Zbl 0755.68129号
[47] Lau JH,Newman D,Karimi S,Baldwin T(2010)主题标签最佳主题词选择。在:第23届计算语言学国际会议论文集:海报,计算语言学协会,中国北京,第605-613页
[48] Lau JH,Grieser K,Newman D,Baldwin T(2011)主题模型的自动标记。摘自:计算语言学协会第49届年会论文集:人类语言技术,第1卷。计算语言学协会,美国俄勒冈州波特兰市,第1536-1545页
[49] Lewis DD,Yang Y,Rose TG,Li F(2004)Rcv1:文本分类研究的新基准集合。J Mach学习研究5:361-397
[50] Li G,Zaki MJ(2016)《抽样频繁和最小布尔模式:分类中的理论和应用》。数据最小知识盘30(1):181-225·Zbl 1411.68114号 ·doi:10.1007/s10618-015-0409-y
[51] 李毅,钟恩(2006)自动获取web用户信息需求的本体挖掘。IEEE Trans Knowl Data Eng 18(4):554-568·doi:10.1109/TKDE.2006.1599392
[52] Li Y,Algarni A,Zhong N(2010)挖掘积极和消极模式以发现相关性特征。摘自:第16届ACM SIGKDD知识发现和数据挖掘国际会议论文集,ACM,华盛顿特区,美国,第753-762页
[53] Li Y,Algarni A,Albathan M,Shen Y,Bijaksana MA(2015)文本挖掘的相关性特征发现。IEEE Trans Knowl Data Eng 27(6):1656-1669。https://doi.org/10.109/TKDE.2014.2373357 ·doi:10.1109/TKDE.2014.2373357
[54] Liu B,Zhao K,Benkler J,Xiao W(2006)使用olap操作进行规则兴趣度分析。摘自:第十二届ACM SIGKDD知识发现和数据挖掘国际会议论文集,美国宾夕法尼亚州费城ACM,第297-306页
[55] Liu J,Shang J,Wang C,Ren X,Han J(2015)从海量文本语料库中挖掘质量短语。摘自:2015年ACM SIGMOD国际数据管理会议记录,ACM,第1729-1744页
[56] Liu J,Ren X,Shang J,Cassidy T,Voss CR,Han J(2016)通过潜在关键词推理表示文档。摘自:第25届万维网国际会议记录,国际万维网会议指导委员会,第1057-1067页
[57] Mao XL,Ming ZY,Zha ZJ,Chua TS,Yan H,Li X(2012)《自动标记层次主题》。摘自:第21届ACM信息和知识管理国际会议记录,ACM,第2383-2386页
[58] Mei Q,Liu C,Su H,Zhai C(2006a)基于概率的博客时空主题模式挖掘方法。摘自:第15届国际互联网会议记录,ACM,苏格兰爱丁堡,第533-542页
[59] Mei Q,Xin D,Cheng H,Han J,Zhai C(2006b)使用上下文分析生成频繁模式的语义注释。摘自:第十二届ACM SIGKDD知识发现和数据挖掘国际会议论文集,美国宾夕法尼亚州费城ACM,第337-346页
[60] 梅Q,沈X,翟C(2007a)多项式主题模型的自动标注。附:第13届ACM SIGKDD知识发现和数据挖掘国际会议论文集,美国加利福尼亚州圣何塞ACM,第490-499页
[61] 梅Q,辛德,程赫,韩J,翟C(2007b)频繁模式的语义注释。ACM事务处理知识发现数据(TKDD)1(3):11:1-11:30
[62] Michelson M,Macskassy SA(2010)在推特上发现用户感兴趣的主题:第一眼。在:关于噪声非结构化文本数据分析的第四次研讨会论文集,ACM,第73-80页
[63] Mielikäinen T,Mannila H(2003)模式排序问题。In:欧洲数据挖掘和知识发现原则会议,Springer,pp 327-338
[64] MihelčićM,ŠimićG,Leko MB,LavračN,Džeroski S,Šmuc T(2017)使用重新描述挖掘来关联认知障碍和阿尔茨海默病患者的临床和生物学特征。公共图书馆综合频道12:1-35。https://doi.org/10.1371/journal.pone.0187364 ·doi:10.1371/journal.pone.0187364
[65] Mikolov T(2012)基于神经网络的统计语言模型。4月2日在谷歌山景城的演示
[66] Mikolov T,Chen K,Corrado G,Dean J(2013a)向量空间中单词表示的有效估计。参加:学习代表国际会议(ICLR)研讨会
[67] Mikolov T、Sutskever I、Chen K、Corrado GS、Dean J(2013b)《单词和短语的分布式表示及其组成》。主题:神经信息处理系统的进展,第3111-3119页
[68] Mikolov T,Yih Wt,Zweig G(2013c)连续空间词表征的语言规律。摘自:计算语言学协会北美分会2013年会议记录:人类语言技术(NAACL-HLT),第13卷,第746-751页
[69] Molchanov I(2006)《随机集理论》。柏林施普林格
[70] Navigli R、Velardi P、Gangemi A(2003)《本体学习及其在自动化术语翻译中的应用》。IEEE智能系统18(1):22-31·doi:10.1109/MIS.2003.1179190
[71] Parida L,Ramakrishnan N(2005)《重新描述挖掘:结构理论和算法》。收录:AAAI,第5卷,第837-844页
[72] Parthasarathy S、Zaki MJ、Ogihara M、Dwarkadas S(1999)增量和交互式序列挖掘。摘自:美国密苏里州堪萨斯城ACM第八届信息和知识管理国际会议记录,第251-258页
[73] Pasquier N,Bastide Y,Taouil R,Lakhal L(1999)发现关联规则的频繁闭项集。摘自:第七届数据库理论国际会议论文集。英国伦敦施普林格,第398-416页·Zbl 0983.68511号
[74] Pennington J,Socher R,Manning CD(2014)《手套:单词表征的全球向量》。摘自:2014年自然语言处理经验方法会议记录,第14卷,第1532-1543页
[75] Porter MF(1980)后缀剥离算法。电子图书馆信息系统项目14(3):130-137·doi:10.1108/eb046814
[76] Quillan MR(1966)语义记忆。技术报告、DTIC文件
[77] Raedt LD,Zimmermann A(2007)基于约束的模式集挖掘。摘自:2007年SIAM数据挖掘国际会议记录,SIAM,第237-248页
[78] Ramakrishnan N、Kumar D、Mishra B、Potts M、Helm RF(2004)《旋转车轮:挖掘重新描述的交替算法》。摘自:第十届ACM SIGKDD知识发现和数据挖掘国际会议论文集,ACM,第266-275页
[79] Robertson SE,Soboroff I(2002)trec 2002过滤跟踪报告。在:TREC,2002卷,美国马里兰州盖瑟斯堡,第27-39页
[80] Rocchio JJ(1971)《信息检索中的相关性反馈》。智能检索系统——自动文档处理实验,第313-323页
[81] Rose T,Stevenson M,Whitehead M(2002)路透社语料库第1卷,从昨天的新闻到明天的语言资源。摘自:第三届语言资源与评价国际会议记录,第2卷,西班牙加那利群岛,第827-832页
[82] Ruggieri S(2010)《频繁规则项集挖掘》。在:第16届ACM SIGKDD知识发现和数据挖掘国际会议论文集,ACM,第263-272页
[83] Rumelhart DE、Hinton GE、Williams RJ(1988)通过反向传播错误学习表征。Cognit模型5(3):1·Zbl 1369.68284号
[84] Salton G(1968)《自动信息组织和检索》。McGraw-Hill,纽约
[85] Schmitz M、Bart R、Soderland S、Etzioni O等(2012)《信息提取的开放式语言学习》。摘自:《2012年自然语言处理和计算自然语言学习实证方法联合会议记录》,计算语言学协会,第523-534页
[86] Schwenk H(2007)连续空间语言模型。计算机语音语言21(3):492-518·doi:10.1016/j.csl.2006.09.003
[87] Shen Y,Li Y,Xu Y(2012)采用关联特征学习个性化本体。收件人:澳大利亚悉尼斯普林格澳大利亚人工智能联合会议,第457-468页
[88] Siebes A、Vreeken J、Leeuwen Mv(2006)压缩项目集。摘自:2006年SIAM数据挖掘国际会议记录,SIAM,第395-406页
[89] Sieg A、Mobasher B、Burke R(2007)《使用本体用户配置文件的网络搜索个性化》。摘自:第十六届ACM信息和知识管理会议记录,ACM,葡萄牙里斯本,第525-534页
[90] Socher R,Lin CC,Manning C,Ng AY(2011)用递归神经网络分析自然场景和自然语言。摘自:第28届机器学习国际会议记录(ICML-11),第129-136页
[91] Song Y,Wang H,Wang Z,Li H,Chen W(2011)《使用概率知识库的短文概念化》。摘自:第二十二届人工智能国际联合会议论文集第三卷。AAAI出版社,巴塞罗那,第2330-2336页
[92] Spasic I,Ananiadou S,McNaught J,Kumar A(2005)《生物医学中的文本挖掘和本体:理解原始文本》。生物信息简介6(3):239-251·doi:10.1093/bib/6.3.239
[93] 孙旭,肖毅,王浩,王伟(2015)关于词袋的概念标注。摘自:第24届国际人工智能会议记录。布宜诺斯艾利斯AAAI出版社,第1326-1332页
[94] Tan AH等人(1999)文本挖掘:现状和挑战。摘自:PAKDD 1999年高级数据库知识发现研讨会论文集,第8卷,第65-70页
[95] Tao X,Li Y,Zhong N(2011)网络信息收集的个性化本体模型。IEEE Trans Knowl Data Eng 23(4):496-511·doi:10.1109/TKDE.2010.145
[96] Thiel K,Berthold MR(2010)《扩散激活的节点相似性》。参加:第十届数据挖掘国际会议(ICDM)。IEEE,第1085-1090页
[97] Tran T,Cimiano P,Rudolph S,Studer R(2007)基于本体的语义搜索关键词解释。语义网,第523-536页
[98] Turney PD(2013)《超越词语的分布语义:类比和转述的监督学习》。Trans-Assoc计算语言学家1:353-366
[99] Turny PD,Pantel P(2010)《从频率到意义:语义的向量空间模型》。人工智能研究杂志37:141-188·Zbl 1185.68765号 ·数字对象标识代码:10.1613/jair.2934
[100] Verma R,Chen P,Lu W(2007)使用本体知识的语义自由文本摘要系统。In:美国纽约州罗切斯特市Citeser文件理解会议记录,第5页
[101] Vo DT,Bagheri E(2016)开放信息提取。Encycl Semant计算机机器人智能。https://doi.org/10.1142/S2425038416300032 ·doi:10.1142/S2425038416300032
[102] Wang P,Domeniconi C(2008)使用维基百科构建文本分类的语义内核。摘自:美国内华达州拉斯维加斯ACM第14届ACM SIGKDD知识发现和数据挖掘国际会议记录,第713-721页
[103] Wang X,McCallum A(2006)《随时间变化的主题:主题趋势的非马尔可夫连续时间模型》。摘自:第十二届ACM SIGKDD知识发现和数据挖掘国际会议论文集,美国宾夕法尼亚州费城ACM,第424-433页
[104] Weston J,Bengio S,Usunier N(2011)Wsabie:扩大到大词汇图像注释。附:第二十二届国际人工智能联合会议记录,第11卷,第2764-2770页
[105] Wortsman J,Matsuoka LY,Chen TC,Lu Z,Holick MF(2000),肥胖患者维生素D生物利用度降低。美国临床营养学杂志72(3):690-693·doi:10.1093/ajcn/72.3690
[106] Wu F,Weld DS(2010)使用维基百科进行开放信息提取。摘自:计算语言学协会第48届年会会议记录,计算语言学协会,第118-127页
[107] Wu ST(2007)文本挖掘中使用模式分类模型的知识发现。昆士兰理工大学电气工程与计算机科学博士论文
[108] Wu ST,Li Y,Xu Y(2006)文本挖掘中模式细化的部署方法。In:第六届数据挖掘国际会议,ICDM’06,IEEE,pp 1157-1161
[109] Xin D,Han J,Yan X,Cheng H(2005)挖掘压缩频率模式集。摘自:挪威特隆赫姆VLDB捐赠基金会第31届超大数据库国际会议记录,第709-720页
[110] Xue GR,Zeng HJ,Chen Z,Yu Y,Ma WY,Xi W,Fan W(2004)使用网络点击数据优化网络搜索。摘自:第十三届ACM信息和知识管理国际会议记录,ACM,第118-126页
[111] 严X,程H,韩J,辛D(2005)《项目集模式概述:基于轮廓的方法》。摘自:美国伊利诺伊州芝加哥市ACM第十一届ACM SIGKDD数据挖掘知识发现国际会议论文集,第314-323页
[112] Yi K,Chan LM(2009)《将民俗学与国会图书馆主题标题联系起来:一项探索性研究》。J Doc 65(6):872-900·电话:10.1108/00220410910998906
[113] Zaki MJ,Ramakrishnan N(2005)使用重新描述挖掘进行集合推理。摘自:第十一届ACM SIGKDD数据挖掘知识发现国际会议论文集,ACM,第364-373页
[114] Zhong N,Li Y,Wu ST(2012)文本挖掘的有效模式发现。IEEE Trans Knowl数据工程24(1):30-44·doi:10.1109/TKDE.2010.211
[115] Zhou G,Qian L,Fan J(2010)基于树核的语义关系提取,具有丰富的句法和语义信息。信息科学180(8):1313-1325·doi:10.1016/j.ins.2009.12.006
[116] 朱J,聂Z,刘X,张B,文JR(2009)Statsnowball:提取实体关系的统计方法。摘自:第18届国际互联网会议记录,ACM,第101-110页
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。