×

改进了干预数据因果结构学习的基线。 (英语) Zbl 1517.62044号

摘要:因果结构学习(CSL)是指从数据中估计因果图。ROC曲线等工具的因果版本在CSL方法的实证评估中发挥着重要作用,性能经常与“随机”基线(如ROC分析中的对角线)进行比较。然而,这些基线没有考虑到图形上下文产生的约束,因此可能表示“低标准”。本文以系统生物学中的例子为动机,重点评估多元数据的CSL方法,其中部分图形结构通过介入实验已知。在这种情况下,我们提出了一类新的基线,称为基于图形的预测器(GBPs)。与“随机”基线相反,GBP利用已知的图形结构,利用简单的图形属性来提供改进的基线,以便与CSL方法进行比较。我们对GBP进行了一般性讨论,并在传递闭图的背景下进行了详细研究,介绍了该设置的两个概念上简单的基线,即观察度预测(OIP)和传递性假设预测(TAP)。虽然前者计算简单,但对于后者,我们提出了几种模拟策略。此外,我们从理论上研究和比较了所提出的预测因子,包括一个结果,该结果表明,在边缘概率呈正相关的潜在网络模型的子类上,OIP在预期上优于“随机”基线。使用模拟和实际生物数据,我们表明,拟议的GBP在实践中通常会大大优于随机基线。一些英镑甚至优于标准的CSL方法(但实际上计算成本较低)。我们的结果为评估介入数据的CSL方法提供了一种新的方法。

MSC公司:

62-08 统计问题的计算方法
05C80号 随机图(图形理论方面)
62D20型 观察性研究的因果推断
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Anari,N.,Hu,N..,Saberi,A.,Schild,A.:平行树木群落采样(2020年)。arXiv:2012.09502
[2] Artzy-Randrup,Y。;Stone,L.,《生成均匀分布的随机网络》,Phys。E版,72,5(2005)·doi:10.1103/PhysRevE.72.056708
[3] 巴布,MM;卢斯科姆,新墨西哥州;Aravind,L。;Gerstein,M。;Teichmann,SA,转录调控网络的结构和进化,Curr。操作。结构。生物学,14,3,283-291(2004)·doi:10.1016/j.sbi.2004.05.004
[4] 布利茨坦,J。;Diaconis,P.,生成具有指定度的随机图的序列重要性抽样算法,网络数学。,6, 4, 489-522 (2011) ·Zbl 1238.60084号 ·doi:10.1080/15427951.2010.557277
[5] Bollobás,B。;Janson,S。;Riordan,O.,非均匀随机图中的相变,随机结构。算法,31,1,3-122(2007)·兹比尔1123.05083 ·doi:10.1002/rsa.20168
[6] 布罗德,亚利桑那州,生成随机生成树,FOCS,89,442-447(1989)
[7] 布鲁拉德,P。;Lachapelle,S。;鳄鱼,A。;鳄鱼朱利安,S。;Drouin,A.,从介入数据中发现不同的因果关系,Adv.Neural。信息处理。系统。,33, 21865-21877 (2020)
[8] 科伦坡,D。;Maathuis,MH,基于有序依赖约束的因果结构学习,J.Mach。学习。研究,15,3741-3782(2014)·Zbl 1312.68165号
[9] 科伦坡,D。;Maathuis,MH;Kalisch,M。;Richardson,TS,《学习具有潜在和选择变量的高维有向无环图》,《Ann.Stat.》,40,1,294-321(2012)·Zbl 1246.62131号 ·doi:10.1214/11-AOS940
[10] Cortes,C.,Mohri,M.:roc曲线下面积的置信区间。高级神经信息处理。系统。17 (2004)
[11] 迪克西,A。;奥兰多·帕纳斯。;李,B。;陈,J。;富尔科,CP;杰比·阿诺恩,L。;新泽西州马尔亚诺维奇;迪翁,D。;伯克斯,T。;Raychowdhury,R。;亚当森,B。;TM诺曼;兰德,ES;JS韦斯曼;弗里德曼,N。;Regev,A.,《Perturb-seq:用可扩展的单细胞RNA分析来剖析分子回路》,《细胞》,167,7,1853-1866.e17(2016)·doi:10.1016/j.cell.2016.11.038
[12] Eigenmann,M.,Mukherjee,A.,Maathuis,M.:通过风险估计评估因果结构学习算法。载于:《无人机情报》,第151-160页。PMLR(2020)。http://proceedings.mlr.press/v124/eigenmann20a.html
[13] Fornito,A。;Zalesky,A。;Bullmore,E.,《大脑网络分析基础》(2016),剑桥:学术出版社,剑桥·文件编号:10.1016/C2012-0-06036-X
[14] Fortunato,S.,图中的社区检测,Phys。众议员,486,3-5,75-174(2010)·doi:10.1016/j.physrep.2009.11.002
[15] Fosdick,BK;拉雷莫尔,DB;西村,J。;Ugander,J.,用固定度序列配置随机图模型,SIAM Rev.,60,2,315-355(2018)·Zbl 1387.05235号 ·doi:10.1137/16M1087175
[16] Gauvin,L.、Génois,M.、Karsai,M.,Kivelä,M..、Takaguchi,T.、Valdano,E.、Vestergaard,C.L.《时间网络的随机参考模型》(2018年)。arXiv:1806.04032·Zbl 1502.05230号
[17] Greenhill,C.:不规则图采样的切换马尔可夫链。摘自:第二十六届ACM-SIAM离散算法年会论文集,第1564-1572页。SIAM(2014)·Zbl 1371.60126号
[18] JA Hanley;麦克尼尔,BJ,接收器工作特性(ROC)曲线下面积的含义和使用,放射学,143,1,29-36(1982)·doi:10.1148/放射学.143.1.7063747
[19] 豪泽,A。;Bühlmann,P.,有向非循环图的介入马尔可夫等价类的刻画和贪婪学习,J.Mach。学习。第13号、第1号、第2409-2464号决议(2012年)·兹比尔1433.68346
[20] Heinze-Deml,C。;马图伊斯,MH;Meinshausen,N.,因果结构学习,Annu。修订状态申请。,5, 1, 371-391 (2018) ·doi:10.1146/annurev-statistics-031017-100630
[21] Hill,S.M.,Heiser,L.M.,Cokelaer,T.,Unger,M.,Nesser,N.K.,Carlin,D.E.,Zhang,Y.,Sokolov,A.,Paull,E.O.,Wong,C.K.,Graim,K.,Bivol,A.,Wang,H.,Zhu,F.,Afsari,B.,Danilova,L.V.,Favoov,A.V.,Lee,W.S.,Taylor,D.,Hu,C.W.,Long,B.L.,Noren,D.P.,Bisberg,A.J.,Consortium,H.-D.,Mills,G.B.,Gray,J.W.,Kellen,M.、诺曼、,T.,Friend,S.,Qutub,A.A.,Fertig,E.J.,Guan,Y.,Song,M.,Stuart,J.M.,Spellman,P.T.,Koeppl,H.,Stolovitzky,G.,Saez-Rodriguez,J.,Mukherjee,S.:推断因果分子网络:通过基于社区的努力进行经验评估。《自然方法》13(4),310-318(2016)。doi:10.1038/nmeth.3773
[22] 山姆·希尔;欧茨,CJ;布莱斯,DA;Mukherjee,S.,通过流形正则化进行因果学习,J.Mach。学习。研究:JMLR,20,127(2019)·Zbl 1434.68414号 ·doi:10.17863/凸轮.44718
[23] 霍夫,PD;Raftery,AE;Handcock,MS,社会网络分析的潜在空间方法,《美国统计协会期刊》,97,460,1090-1098(2002)·Zbl 1041.62098号 ·doi:10.1198/016214502388618906
[24] Hyttinen,A.、Eberhardt,F.、Järvisalo,M.:基于约束的因果发现:用答案集编程解决冲突。UAI(2014)。http://www.its.caltech.edu/fehardt/papers/HEJ_UAI2014.pdf
[25] Ideker,T。;Galitski,T。;胡德,L.,《解读生命的新方法:系统生物学》,年。基因组学评论。,2, 343-372 (2001) ·doi:10.1146/annurev.genom.2.1.343
[26] Kalisch,M。;Mächler,M。;科伦坡,D。;Maathuis,MH;Bühlmann,P.,使用图形模型和R包pcalg进行因果推断,J.Stat.Softw。,47, 11, 1-26 (2012) ·doi:10.18637/jss.v047.i11
[27] Karp,RM,随机有向图的传递闭包,随机结构。算法,1,173-93(1990)·Zbl 0712.68076号 ·doi:10.1002/rsa.3240010106
[28] Kemmeren,P。;Sameith,K。;van de Pasch,洛杉矶;Benschop,JJ;Lenstra,TL;玛格丽蒂斯,T。;O'Duibhir,E。;阿普韦勒,E。;van Wageningen,S。;Ko,顺时针;van Heesch,S。;卡沙尼,MM;米氏Ampatziadis Michailidis,G。;布罗克,密苏里州;NACH Brabers公司;迈尔斯,AJ;布梅斯特,D。;van Hooff,SR;van Bakel,H。;泥浆,E。;巴克尔,LV;斯内尔,B。;利恩扎德,P。;van Leenen,D。;格罗特·科尔坎普,MJA;Holstege,FCP,大尺度遗传扰动揭示了调控网络和丰富的基因特异性阻遏物,Cell,157,3,740-752(2014)·doi:10.1016/j.cell.2014.02.054
[29] 克里夫列维奇,M。;Sudakov,B.,随机图中的相变:一个简单的证明,随机结构。算法,43,2,131-138(2013)·Zbl 1272.05181号 ·doi:10.1002/rsa.20470
[30] Maathuis,MH;Kalisch,M。;Bühlmann,P.,《从观测数据估计高维干预效果》,《Ann.Stat.》,37,6,3133-3164(2009)·兹比尔1191.62118 ·doi:10.1214/09-AOS685
[31] Magliabane,S.,van Ommen,T.:因果迁移学习(2017)。https://staff.science.uva.nl/j.m.mooij/articles/1707.06422.pdf
[32] Magliabane,S.、Claassen,T.、Mooij,J.:观测和实验数据集的联合因果推断(2016a)。https://staff.fnwi.uva.nl/j.m.mooij/articles/1611.10351v2.pdf ·Zbl 1507.62224号
[33] Magliabane,S.,Claassen,T.,Mooij,J.M.:祖先因果推断。收录:Lee,D.,Sugiyama,M.,Luxburg,U.,Guyon,I.,Garnett,R.(编辑)《神经信息处理系统进展》,第29卷。Curran Associates,Inc.(2016年b)。https://proceedings.neurips.cc/paper/2016/file/f3d9de86462c28781cbe5c47ef22c3e5-paper.pdf
[34] Malinsky,D.,Spirtes,P.:用祖先图马尔可夫模型估计因果效应。参见:概率图形模型会议,第299-309页。PMLR(2016)
[35] 明绍森,N。;豪泽,A。;Mooij,J。;彼得斯,J。;Versteeg,P。;Bühlmann,P.,《基因扰动实验和验证的因果推断方法》,Proc。国家。阿卡德。科学。美国,113,27,7361-7368(2016)·doi:10.1073/pnas.1510493113
[36] Milo,R.,Kashtan,N.,Itzkovitz,S.,Newman,M.:关于具有规定度序列的随机图的一致生成(2003)。https://arxiv.org/abs/cond-mat/0312028
[37] Mooij,J.M.,Claassen,T.:在存在循环的情况下,使用部分祖先图进行基于约束的因果发现。摘自:人工智能不确定性会议,第1159-1168页。PMLR(2020年)
[38] 纽曼,ME,网络中的混合模式,物理。E版,67,2(2003)·doi:10.1103/PhysRevE.67.026126
[39] 纽曼,ME;Girvan,M.,《发现和评估网络中的社区结构》,Phys。E版,69,2(2004)·doi:10.1103/PhysRevE.69.026113
[40] 阿联酋诺盖拉;Pugnana,A。;Ruggieri,S。;佩德莱斯基,D。;Gama,J.,因果发现和因果推断的方法和工具,Wiley Interdiscip。版本:Data Min.Knowl。发现。,12, 2 (2022)
[41] O'Donnell,R.T.,Korb,K.B.,Allison,L.:因果KL:评估因果发现(2021)。arXiv:2111.06029
[42] Parikshak,NN;MJ甘达尔;Geschwind,DH,《神经发育和神经退行性疾病中的系统生物学和基因网络》,自然科学出版社。,16, 8, 441-458 (2015) ·doi:10.1038/nrg3934
[43] Pearl,J.,因果关系(2009),剑桥:剑桥大学出版社,剑桥·Zbl 1188.68291号 ·doi:10.1017/CBO9780511803161
[44] 彼得斯,J。;Bühlmann,P。;Meinshausen,N.,《使用不变预测进行因果推断:识别和置信区间》,J.R.Stat.Soc.:Ser。B(Stat.Methodol.),78,5,947-1012(2016)·Zbl 1414.62297号 ·doi:10.1111/rssb.12167
[45] Phillips,PC,Epistasis-基因相互作用在遗传系统结构和进化中的重要作用,《自然遗传学评论》。,9, 11, 855-867 (2008) ·doi:10.1038/nrg2452
[46] Rau,A。;贾夫雷齐克,F。;Nuel,G.,《从观察和干预基因表达数据对因果效应的联合估计》,BMC系统。生物学,7111(2013)·doi:10.1186/1752-0509-7-111
[47] Richardson,T.:有向循环图的发现算法。摘自:《第十二届人工智能不确定性国际会议论文集》,第454-461页(1996)
[48] Rothenhäusler,D.,Bühlmann,P.,Meinshausen,N.:因果Dantzig:在加性干预下具有隐藏变量的线性结构方程模型中的快速推理。《Ann.Stat.47》(3),1688-1722(2019)。doi:10.1214/18-AOS1732·Zbl 1420.62309号
[49] 萨克斯,K。;佩雷斯,O。;佩尔,D。;劳芬伯格,DA;Nolan,GP,《从多参数单细胞数据导出的因果蛋白信号网络》,《科学》,308,5721,523-529(2005)·doi:10.1126/science.1105809
[50] Sanguinetti,G。;弗吉尼亚州Huynh Thu,《基因调控网络:方法和协议》(2019),纽约:施普林格,纽约·Zbl 1417.92005年 ·doi:10.1007/978-1-4939-8882-2
[51] O.沙勒姆。;东北部桑贾纳;Zhang,F.,使用CRISPR-Cas9的高通量功能基因组学,《自然评论遗传学》。,16, 5, 299-311 (2015) ·doi:10.1038/nrg3899
[52] Spencer,SE公司;山姆·希尔;Mukherjee,S.,《从介入时间过程实验推断网络结构》,《应用年鉴》。统计,9507-524(2015)·Zbl 1454.62403号 ·doi:10.1214/15-AOAS806
[53] Spirtes,P.:因果推理导论。J.马赫。学习。第11(5)号决议(2010年)·Zbl 1242.62009年
[54] Spites,P.、Glymour,C.N.、Scheines,R.、Heckerman,D.:因果关系、预测和搜索。麻省理工学院出版社,剑桥(2000)·Zbl 0806.62001
[55] O.乌苏。;Neal,JT;Shea,E。;塔科雷,PI;杰比·阿诺恩,L。;Nguyen,L。;迪翁,D。;迪亚兹,C。;鲍曼,J。;Mosaad,MM,《癌症编码变异体的大规模并行表型分析与扰动seq》,国家生物技术。,40, 1-10 (2022)
[56] Wang,Y。;Solus,L。;Yang,K。;尤勒,C。;盖恩,I。;卢克斯堡,UV;Bengio,S。;瓦拉赫,H。;弗格斯,R。;Vishwanathan,S。;Garnett,R.,《基于排列的因果推理算法与干预》,《神经信息处理系统进展》(2017),纽约:Curran Associates Inc.,纽约
[57] Zhang,J.,利用祖先图进行因果推理,J.马赫。学习。第9号决议,1437-1474(2008年)·Zbl 1225.68254号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。