×

高效正则等渗回归及其在基因-基因相互作用搜索中的应用。 (英语) Zbl 1235.62046号

附录申请。斯达。 6,第1期,253-283(2012); 更正同上9,第4号,2266-2267(2015)。
摘要:等渗回归是一种非参数方法,用于将单调模型拟合到已经从理论和实践角度进行了广泛研究的数据。然而,这种方法在更高维度上遇到了计算和统计过拟合问题。为了解决这两个问题,我们提出了一种算法,我们称之为等渗递归划分(IRP),该算法基于通过求解逐渐变小的“最佳切割”子问题递归划分协变量空间。这将创建一个正则化的等渗模型序列,该序列将增加模型复杂性,并收敛到全局等渗回归解。由于其提供的复杂性控制,沿序列的模型通常比非正则等渗回归模型更准确。我们通过估计路径上的自由度来量化这种复杂性控制。通过一系列模拟和实际数据实验,证明了正则化模型在预测方面的成功以及IRP良好的计算特性。我们讨论了IRP在搜索基因-基因相互作用和上位性问题上的应用,并在三种常见疾病的全基因组关联研究数据上进行了演示。

MSC公司:

62克08 非参数回归和分位数回归
62-08 统计问题的计算方法
62G05型 非参数估计
92C40型 生物化学、分子生物学
62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Auh,S.和Sampson,A.R.(2006年)。等渗逻辑判别。生物特征93 961-972·Zbl 1436.62237号 ·doi:10.1093/biomet/93.4.961
[2] 巴切蒂,P.(1989)。加性等渗模型。J.Amer。统计师。协会84 289-294。
[3] Barlow,R.E.和Brunk,H.D.(1972年)。等张回归问题及其对偶问题。J.Amer。统计师。协会67 140-147·Zbl 0236.62050号 ·doi:10.2307/2284712
[4] Block,H.、Qian,S.和Sampson,A.(1994年)。部分有序等渗回归的结构算法。J.计算。图表。统计师。3 285-300.
[5] Boyd,S.和Vandenberghe,L.(2004)。凸优化。剑桥大学出版社,剑桥·Zbl 1058.90049号
[6] Breiman,L.、Friedman,J.、Stone,C.J.和Olshen,R.A.(1984年)。分类和回归树。查普曼和霍尔/CRC,佛罗里达州博卡拉顿·Zbl 0541.62042号
[7] Chandrasekaran,R.、Ryu,Y.U、Jacob,V.S.和Hong,S.(2005)。等渗分离。INFORMS J.计算。17 462-474. ·Zbl 1241.90157号 ·doi:10.1287/ijoc.1030.0061
[8] Cordell,H.J.(2009)。检测人类疾病背后的基因相互作用。Nat.Rev.基因。10 392-404.
[9] de Leeuw,J.、Hornik,K.和Mair,P.(2009)。R中的同位素优化:池邻接违规算法(PAVA)和活动集方法。加州大学洛杉矶分校统计系。可在上获取。
[10] DeLong,E.R.、DeLong、D.M.和Clarke-Pearson,D.L.(1988年)。比较两个或多个相关接收器工作特性曲线下的面积:非参数方法。生物计量学44 837-845·兹比尔0715.62207 ·doi:10.2307/2531595
[11] Dykstra,R.L.和Robertson,T.(1982年)。两个或多个自变量的等渗回归算法。安。统计师。10 708-716. ·Zbl 0485.65099号 ·doi:10.1214/aos/1176345866
[12] Efron,B.(1986年)。预测规则的明显错误率有多大偏差?J.Amer。统计师。协会81 461-470·Zbl 0621.62073号 ·doi:10.2307/2289236
[13] Eichler,E.E.、Flint,J.、Gibson,G.、Kong,A.、Leal,S.M.、Moore,J.H.和Nadeu,J.H(2010)。缺乏遗传力和寻找复杂疾病潜在原因的策略。Nat.Rev.基因。11 446-450.
[14] Emily,M.、Mailund,T.、Hein,J.、Schauser,L.和Schierup,M.H.(2009年)。使用生物网络搜索全基因组关联研究中的相互作用位点。《欧洲遗传学杂志》。17 1231-1240.
[15] Frank,A.和Asuncion,A.(2010年)。UCI机器学习库。自动MPG数据集。可从获取。
[16] Galil,Z.和Naamad,A.(1980年)。一个O(EV日志2V)最大流问题的算法。J.计算。系统科学。21 203-217. ·Zbl 0449.90094号 ·doi:10.1016/0022-0000(80)90035-5
[17] Gneiting,T.(2011)。做出并评估点预测。J.Amer。统计师。协会106 746-762·Zbl 1232.62028号 ·doi:10.198/jasa.2011.r10138
[18] Goldstein,D.B.(2009)。常见的遗传变异和人类特征。北英格兰。《医学杂志》,第360卷,1696-1698页。
[19] Hastie,T.、Tibshirani,R.和Friedman,J.(2001年)。统计学习的要素:数据挖掘、推理和预测。纽约州施普林格·Zbl 0973.62007号
[20] He,X.,Ng,P.和Portnoy,S.(1998年)。二元分位数平滑样条。J.R.Stat.Soc.系列。B统计方法。60 537-550. ·兹比尔0909.62038 ·doi:10.1111/1467-9868.00138
[21] Hindorff,L.A.、Junkins,H.A.、Hall,P.N.、Mehta,J.P.和Manolio,T.A.(2011年)。已发表的全基因组关联研究目录。可从获取。
[22] Hochbaum,D.S.和Queyranne,M.(2003)。最小化凸成本闭包集。SIAM J.离散数学。16 192-207(电子版)·兹比尔1041.68070 ·网址:10.1137/S0895480100369584
[23] Kruskal,J.B.(1964年)。通过优化非计量假设的拟合优度进行多维缩放。《心理测量学》29 1-27·Zbl 0123.36803号 ·doi:10.1007/BF02289565
[24] Lee,C.I.C.(1983年)。min-max算法和保序回归。安。统计师。11 467-477. ·Zbl 0521.62060号 ·doi:10.1214/aos/1176346153
[25] Luss,R.、Rosset,S.和Shahar,M.(2010年)。分解等渗回归以有效解决大型问题。《神经信息处理系统会议进程》(J.Lafferty、C.K.I.Williams、J.Shawe-Tylor、R.S.Zemel和A.Culotta编辑)1513-1521。
[26] Mani,R.、Onge,R.P.S.、Hartman,J.L.、Giaever,G.和Roth,F.P.(2007)。定义遗传相互作用。程序。美国国家科学院。科学。美国105 3461-3466。
[27] Maxwell,W.L.和Muckstadt,J.A.(1985)。在生产分销系统中建立一致且现实的再订购间隔。操作。第33号决议1316-1341·兹比尔0579.90048 ·doi:10.1287/opre.33.6.1316
[28] Meyer,M.和Woodroof,M.(2000年)。形状限制回归中的自由度。安。统计师。28 1083-1104. ·Zbl 1105.62340号 ·doi:10.1214/aos/1015956708
[29] Monteiro,R.D.C.和Adler,I.(1989年)。内部路径遵循原对偶算法。二、。凸二次规划。数学。程序。44 43-66. ·Zbl 0676.90039号 ·doi:10.1007/BF01587076
[30] Obozinski,G.、Lanckriet,G.,Grant,C.、Jordan,M.I.和Noble,W.S.(2008)。蛋白质功能预测的一致概率输出。基因组生物学9 247-254。
[31] Pardalos,P.M.和Xue,G.(1999)。一类等渗回归问题的算法。算法23 211-222·Zbl 0921.68045号 ·doi:10.1007/PL00009258
[32] Roth,F.P.、Lipshitz,H.D.和Andrews,B.J.(2009年)。问与答:上位。生物学杂志。8 35.
[33] Roundy,R.(1986年)。A 98型·Zbl 0613.90041号 ·doi:10.1287/门11.4.699
[34] Schell,M.J.和Singh,B.(1997年)。简化单调回归方法。J.Amer。统计师。协会92 128-135·Zbl 0890.62035号 ·doi:10.2307/2291456
[35] Shao,H.、Burrage,L.C.、Sinasac,D.S.、Hill,A.E.、Ernest,S.R.、O'Brien,W.、Courtland,H.-W.、Jepsen,K.J.、Kirby,A.、Kulbokas,E.J.、Daly,M.J.、Bromang,K.W.、Lander,E.S.和Nadeau,J.H.(2008)。复杂性状的遗传结构:大型表型效应和普遍上位性。程序。美国国家科学院。科学。美国50 11910-19914。
[36] Sleator,D.D.和Tarjan,R.E.(1983年)。动态树的数据结构。J.计算。系统科学。26 362-391. ·Zbl 0509.68058号 ·doi:10.1016/0022-0000(83)90006-5
[37] Spouge,J.、Wan,H.和Wilbur,W.J.(2003)。二维最小二乘等渗回归。J.优化。理论应用。117 585-605. ·Zbl 1043.90011号 ·doi:10.1023/A:1023901806339
[38] Stein,C.M.(1981)。多元正态分布平均值的估计。安。统计师。9 1135-1151. ·Zbl 0476.62035号 ·doi:10.1214/aos/1176345632
[39] Stout,Q.(2010年)。一种计算多维等渗回归的方法。未出版的手稿。可从获取。
[40] WTCCC(2007)。对7种常见疾病的14000例病例和3000例共享对照进行全基因组关联研究。自然447 661-678。
[41] Ye,J.(1998)。关于测量和纠正数据挖掘和模型选择的影响。J.Amer。统计师。协会93 120-131·兹伯利0920.62056 ·doi:10.2307/2669609
[42] Zhang,Y.、Zhang、J.和Liu,J.S.(2011)。基于块的贝叶斯上位性关联映射及其在WTCCC 1型糖尿病数据中的应用。附录申请。统计师。5 2052-2077. ·Zbl 1228.62152号 ·doi:10.1214/11-AOAS469
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。