×

NetSDM:带网络分析的语义数据挖掘。 (英语) Zbl 1483.68350号

摘要:语义数据挖掘(SDM)是一种关系数据挖掘形式,它使用带注释的数据和复杂的语义背景知识来学习易于解释的规则。SDM的缺点是现有SDM算法的计算复杂性很高,即使应用于相对较小的数据集,也会导致运行时间过长。本文提出了一种有效的SDM方法,称为NetSDM,它首先将可用的语义背景知识转换为网络格式,然后基于网络分析的节点排序和剪枝,以显著减少原始背景知识的大小。对NetSDM方法在急性淋巴细胞白血病和乳腺癌数据上的实验评估表明,NetSDM实现了根本性的时间效率改进,并且学习的规则与原始SDM算法获得的规则相当或更好。

理学硕士:

68T09年 数据分析和大数据的计算方面
68兰特 计算机科学中的图论(包括图形绘制)
68T05型 人工智能中的学习和自适应系统
68立方英尺 知识表示
PDF格式BibTeX公司 XML格式引用
全文: 链接

参考文献:

[1] Prem Raj Adhikari、Anéze Vavpeti´c、Jan Kralj、Nada Lavra´c和Jaakko Hollm´en。通过语义模式挖掘和带状矩阵可视化解释混合模型。机器学习,105(1):3-392016·Zbl 1392.68336号
[2] Rakesh Agrawal和Ramakrishnan Srikant。大型数据库中关联规则挖掘的快速算法。《第20届超大数据库国际会议论文集》,第487-499页,美国加利福尼亚州旧金山,1994年。
[3] Michael Ashburner、Catherine A.Ball、Judith A.Blake、David Botstein、Heather Butler、J.Michael Cherry、Allan P.Davis、Kara Dolinski、Selina S.Dwight、Janan T.Eppig等,《基因本体:生物学统一的工具》。《自然遗传学》,25(1):25-292000。
[4] 亚历克斯·巴韦拉斯。任务导向型团队中的沟通模式。《美国声学学会期刊》,22:725-7301950。
[5] 罗纳德·S·伯特(Ronald S.Burt)和迈克尔·J·米诺(Michael J.Minor)。应用网络分析:方法导论。Sage出版社,1983年。
[6] Alison Callahan、Jose Cruz-Toledo、Peter Ansell和Michel Dumoniter。Bio2RDF Release 2:生命科学相关数据的覆盖范围、互操作性和来源得到改进。在ESWC中,《计算机科学讲义》第7882卷,第200-212页。施普林格,2013年。
[7] Alison Callahan、Juan Josée Cifuentes和Michel Dumonier。鉴定秀丽隐杆线虫阴道相关基因的循证方法。BMC生物信息学,16(1):2015年1月。
[8] 萨比娜·齐亚雷蒂(Sabina Chiaretti)、李晓春(Xiaochun Li)、罗伯特·绅士(Robert Gentleman)、安东内拉·维塔莱(Antonella Vitale)、马可·维格内蒂(Marco Vignetti)、弗兰科·曼德利(Franco Mandelli)、杰罗姆。成人T细胞急性淋巴细胞白血病的基因表达谱确定了对治疗和生存有不同反应的患者的不同亚群。《血液》,103(7):2771-27782004。
[9] Lynne S.Cox和Richard Faragher。从旧生物到新分子:加速人类衰老的综合生物学和治疗靶点。细胞和分子生命科学,64(19-20):2620-26412007。
[10] F.克雷斯坦尼。传播激活技术在信息检索中的应用。《人工智能评论》,11(6):453-4821997年12月。
[11] L.De Raedt先生。逻辑和关系学习。施普林格,2008年·兹比尔1203.68145
[12] 窦德静、王浩和刘海山。语义数据挖掘:基于本体的方法综述。语义计算(ICSC),2015 IEEE国际会议,第244-251页。IEEE,2015年。
[13] 萨索·德泽洛斯基(Sa’so D’zeroski)和纳达·拉夫拉(Nada Lavra’c),编辑。关系数据挖掘。斯普林格,2001年。39 ·Zbl 1003.68039号
[14] 劳里·埃罗宁和汉努·托沃宁。BioMine:使用异构数据库的网络模型预测生物实体之间的链接。BMC生物信息学,2012年13月119日。
[15] 林顿·C·弗里曼。基于中间性的一组中心性度量。社会计量学,40:35-411977年。
[16] 林顿·C·弗里曼。社交网络概念澄清的中心性。社会网络,1(3):215-2391979。
[17] Johannes F¨urnkranz、Dragan Gamberger和Nada Lavra´c。规则学习基础。施普林格,2012年·Zbl 1263.68002号
[18] Aditya Grover和Jure Leskovec。node2vec:网络的可扩展特性学习。2016年,在美国加利福尼亚州旧金山举行的第22届ACM SIGKDD知识发现和数据挖掘国际会议记录中。
[19] 米哈·格里(Miha Gr’a car)、内杰克·特丁(Nejc Trdin)和纳达·拉夫拉(Nada Lavra’c)。一种挖掘文档丰富的异构信息网络的方法。《计算机杂志》,56(3):321-3352013。
[20] 尼古拉·瓜里诺(Nicola Guarino)、丹尼尔·奥贝尔(Daniel Oberle)和斯特芬·斯塔布(Steffen Staab)。什么是本体?在《本体论手册》中,第1-17页。施普林格,2009年。
[21] 罗伯特·霍恩多夫(Robert Hoehndorf)、米歇尔·杜蒙蒂尔(Michel Dumoniter)和乔治奥斯·格库托斯(Georgios V.Gkoutos)。通过药物基因组学知识的综合分析识别异常途径。生物信息学,28(16):2169-21752012。
[22] Da Wei Huang、Brad T.Sherman和Richard A.Lempicki。利用DAVID生物信息学资源对大基因列表进行系统和综合分析。《自然议定书》,4(1):44-572008。
[23] Wilhelmiina H¨am¨al¨ainen。在二进制数据中高效搜索具有统计意义的依赖规则。芬兰赫尔辛基大学计算机科学系博士论文,2010年。
[24] 格伦·杰赫(Glen Jeh)和詹妮弗·威登(Jennifer Widom)。SimRank:结构-内容相似性的度量。第八届ACM SIGKDD知识发现和数据挖掘国际会议论文集,第538-543页。ACM,2002年。
[25] 米哈伊尔·吉林(Mikhail Jiline)、斯坦·马特温(Stan Matwin)和马塞尔·特科特(Marcel Turcotte)。注释概念合成和浓缩分析:一种基于逻辑的高通量实验解释方法。生物信息学,27(17):2391-23982011。
[26] 利奥·卡茨(Leo Katz)。根据社会计量分析得出的一个新的地位指数。《心理学》,18(1):39-431953年·兹比尔0053.27606
[27] Jon M.Kleinberg。超链接环境中的权威来源。美国医学会杂志,46(5):604-6321999·Zbl 1065.68660号
[28] Willi Kl¨osgen。Explora:一个多模式、多策略的发现助理。《知识发现和数据挖掘的进展》,第249-271页。美国人工智能协会,1996年。
[29] Risi Imre Kondor和John D.Lafferty。图和其他离散输入空间上的扩散核。《第19届机器学习国际会议论文集》,第315-322页,2002年。
[30] 纳达·拉夫拉和安泽·瓦夫佩蒂。关系和语义数据挖掘。《第十三届逻辑编程和非单调推理国际会议论文集》,第20-31页,美国肯塔基州列克星敦,2015年·Zbl 1467.68046号
[31] 纳达·拉夫拉·c、布兰科·卡夫斯克、彼得·弗拉奇和卢普·科·托多罗夫斯基。CN2-SD.《机器学习研究杂志》,5:153-1882004。
[32] 阿格涅斯卡·劳里诺维奇和杰德泽·波托涅克。Fr-ONT:一种使用形式本体进行频繁概念挖掘的算法。InFoundations of Intelligent Systems,《第19届智能系统方法学国际研讨会论文集》(2011年),计算机科学讲稿第6804卷,第428-437页,2011年。
[33] Paea LePendu、Srinivasan V.Iyer、Anna Bauer-Mehren、Rave Harpaz、Jonathan M.Mortensen、Tanya Podchiyska、Todd A.Ferris和Nigam H Shah。使用临床笔记进行药物警戒。临床药理学与治疗学,93(6):547-5552013。
[34] 刘冰,徐文英,马一鸣。集成分类和关联规则挖掘。《第四届知识发现和数据挖掘国际会议论文集》(KDD’98),第80-861998页。
[35] 刘海山、窦德景、金若明、佩亚·勒彭杜和尼甘·沙阿。使用RDF超图挖掘生物医学本体和数据。《第12届国际机器学习与应用会议论文集》,2013年,第1卷,第141-146页。IEEE,2013年。
[36] 斯维特兰娜·利亚利纳(Svetlana Lyalina)、贝萨尼·珀夏(Bethany Percha)、佩亚·勒彭杜(Paea LePendu)、斯里尼瓦桑·伊耶(Srinivasan V.Iyer)、罗斯·B·奥尔特曼(Russ B.Altman)和尼加姆·。从电子病历中识别神经精神疾病的表型特征。美国医学信息学协会杂志,20(e2):e297-e3052013。
[37] 唐娜·马格洛特(Donna Maglott)、吉姆·奥斯特尔(Jim Ostell)、金·普鲁伊特(Kim D.Pruitt)和塔蒂亚娜·塔图索娃(Tatiana Tatusova)。Entrez Gene:NCBI以基因为中心的信息。核酸研究,33(数据库问题):D54-D58,2005。
[38] 斯蒂芬·马格尔顿(Stephen Muggleton)。逆蕴涵和程序。新一代计算,13(3-4):245-2861995。
[39] Athanasios N Nikolakopoulos和John D Garofalakis。NCDawareRank:一种新的排名方法,利用了网络的可分解结构。第六届ACM网络搜索和数据挖掘国际会议论文集,第143-152页。ACM,2013年。
[40] 绪方裕久(Hiroyuki Ogata)、铃木(Susumu Goto)、佐藤(Kazushige Sato)、藤桥和太郎(Wataru Fujibuchi)、博诺(Hidemasa Bono)和菅直人(Minoru Kanehisa)。KEGG:京都基因和基因组百科全书。核酸研究,27(1):29-341999。
[41] 大卫·佩奇(David Page)、桑托斯·科斯塔(V´ñtor Santos Costa)、斯里拉姆·纳塔拉扬(Sriraam Natarajan)、奥布里·巴纳德(Aubrey Barnard)、佩吉·佩西格(Peggy Peissig)和迈克尔·考德威尔。通过关系学习识别不良药物事件。《第二十六届AAAI人工智能会议论文集》,2012年卷,第790页,加拿大多伦多,2012年。
[42] 劳伦斯·佩奇、谢尔盖·布林、拉杰夫·莫特瓦尼和特里·温诺格拉德。PageRank引文排名:给网络带来秩序。技术报告,斯坦福信息实验室,1999年11月。
[43] 佩吉·佩西格(Peggy L Peissig)、维托尔·桑托斯·科斯塔(Vitor Santos Costa)、迈克尔·D·考德威尔(Michael D Caldwell)、卡拉·罗特谢特(Carla Rottscheit)、理查德·贝尔格(Richard L Berg)、恩奈达·A Mendonca(Enei。电子健康记录驱动表型的关系机器学习。《生物医学信息学杂志》,52:260-2702014年。
[44] 格雷戈里·皮亚特斯基·沙皮罗。发现、分析和呈现强大的规则。数据库中的知识发现,第229-248页。加利福尼亚州门罗公园:AAI/MIT,1991年。
[45] Vid Podpe-can、Nada Lavra’c、Igor Mozeti’c、Petra Kralj Novak、Igor-Trajkovski、Laura Langohr、Kimmo Kulovesi、Hannu Toivonen、Marko Petek、Helena Motaln等。Orange4WS中语义微阵列数据分析的SegMine工作流。BMC生物信息学,12(1):4162011。
[46] 莫妮卡·普齐亚诺夫斯卡·库兹尼卡和杰切克·库兹尼基。加速老化综合征的遗传改变:它们在自然老化中起作用吗?国际生物化学与细胞生物学杂志,37(5):947-9602005。
[47] 斯特芬·伦德尔。将因子分解机器缩放为关系数据。VLDB捐赠会议记录,6(5):337-3482013年3月。ISSN 2150-8097。
[48] Christos Sotiriou、Pratyaksha Wirapati、Sherene Loi、Adrian Harris、Steve Fox、Johanna Smeds、Hans Nordgren、Pierre Farmer、Viviane Praz、Benjamin Haibe-Kains等。乳腺癌基因表达谱分析:了解组织学分级的分子基础以改善预后。国家癌症研究所杂志,98(4):262-2722006。
[49] 阿什温·斯里尼瓦桑。Aleph手册,1999年http://www.cs.ox.ac.uk/activities/machinelearning/Aleph/Aleph。
[50] 孙一舟和韩嘉伟。挖掘异构信息网络:原理和方法。摩根&克莱普尔出版社,2012年。
[51] 汉娜·蒂普尼和劳伦斯·亨特。介绍富集分析软件的有效使用。人类基因组学,4(3):12010。
[52] 杭杭通、克里斯托斯·法洛索斯和潘家瑜。带重启的快速随机行走及其应用。《第六届数据挖掘国际会议论文集》,第613-622页,美国华盛顿特区,2006年。
[53] 伊戈尔·特拉伊科夫斯基(Igor Trajkovski)、纳达·拉夫拉·c和雅库布·托拉尔(Jakub Tolar)。SEGS:在微阵列数据中搜索丰富的基因集。生物医学信息学杂志,41(4):588-6012008a。
[54] 伊戈尔·特拉伊科夫斯基(Igor Trajkovski)、菲利普·泽莱兹尼(FilipáZelezn´y)、纳达·拉夫拉·c和雅库布·托拉尔(Jakub Tolar)。学习差异表达基因组的关系描述。IEEE系统、人与控制论汇刊,C部分,38(1):16-252008b。
[55] 奥伦·瓦努努(Oron Vanunu)、奥德·马格尔(Oded Magger)、伊坦·鲁宾(Eytan Ruppin)、托默·什洛米(Tomer Shlomi)和罗德·沙兰(Roded Sharan)。通过网络传播将基因和蛋白质复合物与疾病联系起来。《公共科学图书馆·计算生物学》,6(1),2010年。
[56] An’ze Vavpeti’c、Vid Podpe’can和Nada Lavra’c。语义子组解释。智能信息系统杂志,42(2):233-2542014。
[57] 安泽·瓦夫佩蒂和纳达·拉夫拉。SDM-toolkit中的语义子组发现系统和工作流。《计算机杂志》,56(3):304-32013。
[58] 安泽。瓦夫佩蒂c、佩特拉·克拉吉·诺瓦克、米哈·格罗汽车、伊戈尔·莫泽蒂c和纳达·拉夫拉c。金融新闻文章的语义数据挖掘。《第十六届发现科学国际会议论文集》(DS 2013),计算机科学讲义第8140卷,第294-307页,新加坡,2013年。
[59] 莫妮卡·扎科娃、菲利普·泽莱兹尼、哈维尔·塞达诺、西里尔·马西亚·蒂索特、纳达·拉夫拉·c、彼得·克莱门和哈维尔·莫利纳。关系数据挖掘应用于产品设计的虚拟工程。《第16届归纳逻辑编程国际会议论文集》(ILP’06),第439-453页,西班牙圣地亚哥·德孔波斯特拉,2006年。
[60] Ian H.Witten和Eibe Frank。数据挖掘:实用机器学习工具和技术。Morgan Kaufmann,2005年·Zbl 1076.68555号
[61] Stefan Wrobel。子群的多关系发现算法。《第一届欧洲数据挖掘和知识发现原则会议论文集》(PKDD’97),第78-87页。施普林格,1997年。
[62] Xing Wenpu和Ali Ghorbani。加权PageRank算法。《第二届通信网络与服务研究年会论文集》,第305-314页。IEEE,2004年。
[63] 张亮、马炳鹏、李国荣、黄清明、祁天。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。