×

通过稳健的参数调整改进了跨数据源的结果预测。 (英语) Zbl 07413945号

摘要:在许多应用领域,基于高维数据训练的预测规则随后被应用于对其他来源的观测进行预测,但在这种情况下,它们并不总是表现良好。这是因为来自不同来源的数据集可能具有(稍微)不同的分布,即使它们来自相似的人群。在高维数据和更高维数据的背景下,大多数预测方法都涉及一个或多个调谐参数。通常通过最大化训练数据的交叉验证预测性能来选择它们的值。然而,此过程隐含地假设预测规则最终将应用到的数据与训练数据遵循相同的分布。如果不是这样,那么稍微低于训练数据的不太复杂的预测规则可能更好。事实上,调整参数不仅控制预测规则对训练数据的调整程度,而且更一般地,控制预测规则对训练数据的调整程度分布培训数据。基于这一思想,本文比较了各种方法,包括选择调整参数值的新程序,与基于交叉验证获得的方法相比,这些新程序能够更好地推广预测规则。这些方法大多使用外部验证数据集。在我们基于大量15个转录组数据集的广泛比较研究中,根据外部数据进行调整和使用调整后的稳健性参数进行稳健调整是两种能够更好地推广预测规则的方法。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 伯瑙,C。;里斯特,M。;阿拉巴马州Boulesteix;Parmigiani,G。;Huttenhower,C。;Waldron,L。;Trippa,L.,预测算法评估的交叉研究验证,生物信息学,30,12,i105-i112(2014)·doi:10.1093/bioinformatics/btu279
[2] Bischl,B。;朗,M。;Kotthoff,L。;希夫纳,J。;J.Richter。;Studerus,E。;卡萨利基奥,G。;Jones,ZM,mlr:R中的机器学习,《机器学习研究杂志》,17,170,1-5(2016)·Zbl 1392.68007号
[3] Bischl,B.、Richter,J.、Bossek,J.,Horn,D.、Thomas,J.和Lang,M.(2017年)。mlrMBO:一个用于基于模型优化昂贵黑盒函数的模块化框架,arXiv:1703.033373。
[4] Bleeker,SE;HA莫尔;斯泰尔伯格,EW;资助者,ART;Derksen-Lubsen,G。;德国格罗比;Moons,KGM,《预测研究中需要外部验证:一个临床示例》,《临床流行病学杂志》,56826-832(2003)·doi:10.1016/S0895-4356(03)00207-5
[5] Breiman,L.,《随机森林》,机器学习,45,5-32(2001)·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[6] Buehlmann,P。;Yu,B.,《二语损失助推:回归与分类》,《美国统计协会杂志》,98324-339(2003)·Zbl 1041.62029号 ·doi:10.1198/0162145003000125
[7] 沙佩尔,O。;Vapnik,V。;O.布斯克。;Mukherjee,S.,为支持向量机选择多个参数,机器学习,46,131-159(2002)·Zbl 0998.68101号 ·doi:10.1023/A:1012450327387
[8] Claesen,M.和De Moor,B.(2015)。机器学习中的超参数搜索,arXiv:1502.02127。
[9] 柯林斯,GS;德格罗特,JA;达顿,S。;Omar,O。;Shanyinde先生。;Tajar,A。;沃西,M。;沃顿,R。;Yu,LM;月亮,KG;Altman,DG,《多变量预测模型的外部验证:方法学行为和报告的系统回顾》,BMC医学研究方法,14,40(2014)·doi:10.1186/1471-2288-14-40
[10] 科尔特斯,C。;Vapnik,V.,支持向量网络,机器学习,20,273-297(1995)·Zbl 0831.68098号
[11] Dondelinger,F。;穆克吉,S。;阿尔茨海默病神经成像倡议,联合套索:群体结构数据的高维回归,生物统计学,21,219-235(2020)·doi:10.1093/biostatistics/kxy035
[12] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,通过坐标下降广义线性模型的正则化路径,统计软件杂志,33,1,1-22(2010)·doi:10.18637/jss.v033.i01
[13] Goh,WWB;Wang,W。;Wong,L.,《为什么批次效应在组学数据中很重要,以及如何避免它们》,《生物技术趋势》,35498-507(2017)·doi:10.1016/j.tibtech.2017.02.012
[14] 霍尔,AE;Kennard,RW,Ridge回归:非正交问题的有偏估计,技术计量学,12,55-67(1970)·Zbl 0202.17205号 ·网址:10.1080/00401706.1970.10488634
[15] 霍农,R。;伯瑙,C。;Truntzer,C。;威尔逊,R。;斯塔德勒,T。;Boulesteix,AL,《CV不完整性对预测误差估计影响的度量及其PCA和归一化应用》,BMC医学研究方法,15,95(2015)·doi:10.1186/s12874-015-0088-9
[16] Hornung,R.(2016)。高维生物医学数据的准备,重点是预测和误差估计。论文:慕尼黑大学。
[17] 霍农,R。;Causeur,D。;伯瑙,C。;Boulesteix,AL,通过附加批次效应调整或附加标准化改进交叉研究预测,生物信息学,33,397-404(2017)
[18] Hothorn,T.、Buehlmann,P.、Kneib,T.,Schmid,M.和Hofner,B.(2018年)。mboost:基于模型的boosting,R包版本2.9-1。
[19] 虹膜,RA;沃伦博士。;斯宾塞,F。;Kim,IF;比斯瓦尔,S。;不列颠哥伦比亚省弗兰克;加布里尔森,E。;加西亚,JG;Geoghegan,J。;Germino,G。;格里芬,C。;南卡罗来纳州希尔默;霍夫曼,E。;杰德里卡,AE;川崎,E。;Martinez-Murillo,F。;Morsberger,L。;Lee,H。;彼得森,D。;Quackenbush,J。;A.斯科特。;Wilson,M。;杨,Y。;Ye,SQ;Yu,W.,微阵列平台的多实验室比较,自然方法,2345-350(2005)·doi:10.1038/nmeth756
[20] Leek,JT;谢尔夫,RB;布拉沃,HC;Simcha,D。;Langmead,B。;约翰逊,WE;Geman,D。;巴格利,K。;Irizarry,RA,处理高通量数据中批量效应的广泛和关键影响,《自然评论遗传学》,11733-739(2010)·doi:10.1038/nrg2825
[21] 林,SW;Ying,KC;陈,SC;Lee,ZJ,支持向量机参数确定和特征选择的粒子群优化,应用专家系统,351817-1824(2008)·doi:10.1016/j.eswa.2007.08.088
[22] 爱,密歇根州;Huber,W。;Anders,S.,利用DESeq2对RNA-seq数据的倍数变化和离散度进行适度估计,基因组生物学,15550(2014)·doi:10.1186/s13059-014-0550-8
[23] 马修斯,A。;西米,I。;Kizhakkethottam,JJ,通过消除批量效应从组织病理学图像高效诊断癌症,Procedia Technology,241415-1422(2016)·doi:10.1016/j.procy.2016.05.165
[24] Meyer,D.、Dimitriadou,E.、Hornik,K.、Weingessel,A.和Leisch,F.(2019)。e1071:概率理论小组统计部杂项职能(原:e1071),TU Wien,r包版本1.7-0.1。
[25] 罗哈特,F。;埃斯拉米,A。;Matigian,N。;Bougeard,S。;LáCao,KA,MINT:一种跨独立实验和平台识别可复制分子特征的多元综合方法,BMC生物信息学,18,128(2017)·doi:10.1186/s12859-017-1553-8
[26] Scherer,A.(编辑)。(2009). 微阵列实验中的批量效应和噪声:概率和统计中的威利序列的来源和解决方案。威利:霍博肯。
[27] 西奥蒂斯,GCM;Tzoulaki,I。;卡斯塔尔迪,PJ;Ioanidis,JPA,《新风险预测模型的外部验证并不常见,并且显示出更差的预后判别能力》,《临床流行病学杂志》,68,25-34(2015)·doi:10.1016/j.jclinepi.2014.09.007
[28] Snoek,J.、Larochelle,H.和Adams,R.P.(2012)。机器学习算法的实用贝叶斯优化。In Pereira,F.、Burges,C.J.C.、Bottou,L.和Weinberger,K.Q.(编辑)《神经信息处理系统进展》(第25卷,第2951-2959页):Curran Associates,Inc。
[29] Tibshirani,R.,《通过拉索进行回归收缩和选择》,《皇家统计学会期刊》,B辑,58,267-288(1996)·Zbl 0850.62538号
[30] JA汤姆;Reeder,J。;福雷斯特,WF;格雷厄姆,RR;亨卡皮勒,J。;贝伦斯,TW;Bhangale,TR,《识别和缓解全基因组测序数据中的批量效应》,BMC生物信息学,18,351(2017)·doi:10.1186/s12859-017-1756-z
[31] 瓦尔马,S。;Simon,R.,使用交叉验证进行模型选择时的误差估计偏差,BMC生物信息学,7,91(2006)·doi:10.1186/1471-2105-7-91
[32] 明尼苏达州赖特;Ziegler,A.,ranger:C++和R中高维数据随机森林的快速实现,统计软件杂志,77,1,1-17(2017)·doi:10.18637/jss.v077.i01
[33] Zhang,Y。;伯瑙,C。;Parmigiani,G。;Waldron,L.,不同异质性来源对基因组预测模型准确性损失的影响,生物统计学,21253-268(2020)·doi:10.1093/biostatistics/kxy044
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。