×

修正两阶段病例对照研究中样本选择偏差的分类器。 (英语) Zbl 1398.92012

摘要:流行病学研究通常使用分层数据,其中罕见的结果或暴露被人为地丰富。这种设计可以提高关联测试的精度,但在对非层叠数据应用分类器时会扭曲预测。有几种方法可以纠正这种所谓的样本选择偏差,但是它们的性能仍然不清楚,特别是对于机器学习分类器。我们以两阶段病例对照研究为重点,旨在评估在何种设置下进行哪些校正,并获得适合机器学习技术,特别是随机森林的方法。我们提出了两种新的基于重采样的方法来模拟原始数据和协方差结构:随机逆概率过采样和参数反概率bagging。我们比较了随机森林和其他分类器的所有技术,包括理论上的,模拟的和真实的数据上的。实证结果表明,随机森林仅从我们提出的参数反概率装袋中获利。对于其他分类器,校正是最有利的,并且方法的性能是一致的。我们讨论了不恰当的分布假设的后果以及随机森林和其他分类器之间不同行为的原因。综上所述,我们为在有偏样本上训练分类器时选择校正方法提供了指导。对于随机森林,如果大致满足分布假设,我们的方法优于最先进的程序。我们在R包sambia中提供了我们的实现。

理学硕士:

92B15号 一般生物统计学
第62页 统计学在生物学和医学科学中的应用;荟萃分析
6205年 抽样理论,抽样调查
92日30分 流行病学
PDF格式 BibTeX公司 XML 引用
全文: 内政部

参考文献:

[1] 罗西特,哥伦比亚特区。;Schlesselman,J.J.,病例对照研究。设计、执行、分析。,生物特征学,393821,(1983)
[2] 斯特耶伯格,E.W。;博尔斯博姆,G.J.J.M。;van Houwelingen,华盛顿州。;艾克曼,M.J.C。;哈比马,J.D.F.,预测逻辑回归模型的验证与更新:样本量与收缩的研究,医学统计学,23,16,2567-2586,(2004)
[3] 黄,Y。;Pepe,M.S.,使用半参数和非参数方法评估病例对照研究中的风险预测模型,医学统计学,29,13,1391-1410,(2010)
[4] 罗斯,S。;van der Laan,M.,病例对照研究的风险预测注释,2008年
[5] 詹森,K.J.M。;维古威,Y。;卡尔曼,C.J。;格罗比,D.E。;Moons,K.G.M.,根据当地情况调整临床预测模型的简单方法,加拿大麻醉杂志,56,3,194-201,(2009)
[6] 怀特,J.E.,《研究罕见接触与罕见疾病关系的两阶段设计》,美国流行病学杂志,115,1191,128,(1982)
[7] 萨塔戈潘,J.M。;文卡特拉曼,E.S。;Begg,C.B.,基因疾病相关研究的两阶段设计,样本大小限制,生物特征。国际生物识别学会杂志,603589-597,(2004)·兹布1274.62868
[8] 萨雷拉,O。;Kulathinal,S。;Karvanen,J.,《使用条件似然法进行队列抽样设计下的二次分析》,《概率与统计杂志》(2012年)·Zbl 1246.62220
[9] 塞德尔,T。;阿迪卡里,R。;梅因卡尔,M。;戴尔,J。;卢奥,V。;拉赫曼,M。;拉梅什,B.M。;Paranjape,R.S.,《印度六个高患病率州高危人群的基线综合行为和生物评估:设计和实施挑战》,艾滋病,22,5,S17-S34,(2008)
[10] 米尔斯,T.C。;失速,R。;波拉克,L。;保罗,J.P。;宾森,D。;坎科拉,J。;卡塔尼亚,J.A.,《与男性发生性关系的男性的健康相关特征:生活在“同性恋聚居区”的人与其他地方的人的比较》,《美国公共卫生杂志》,91,6980-983,(2001)
[11] 肯德尔,C。;克尔,L.R.F.S。;刚果民主共和国冈迪姆。;沃内克,G.L。;马塞纳,R.H.M。;庞特斯,M.K。;约翰斯顿,L.G。;萨宾,K。;McFarland,W.,《与男性发生性关系的男性行为监测的受访者驱动抽样、时间地点抽样和滚雪球抽样的实证比较》,巴西福塔莱萨,艾滋病与行为,12,1,S97-S104,(2008)
[12] Zadrozny,B.,样本选择偏差下的分类器学习与评价,第21届机器学习国际会议论文集(ICML'04)
[13] Heckman,J.J.,《样本选择偏差作为规范误差》,经济计量学,47,1153-161,(1979)·Zbl 0392.62093
[14] 科尔特斯,C。;莫赫里,M。;莱利,M。;Rostamizadeh,A.,样本选择偏差校正理论,算法学习理论。算法学习理论,计算机课堂讲稿。科学。,5254,38-53,(2008),柏林斯普林格·Zbl 1156.68524
[15] 国王,G。;曾丽萍,等。罕见事件资料的逻辑回归分析,政治分析,9,2,137-163,(2001)
[16] Lumley,T.,复杂调查样本分析,统计软件杂志,9,1-19,(2004)
[_17_]_ 杜穆切尔,W.H。;Duncan,G.J.,在分层样本的多元回归分析中使用样本调查权重,美国统计协会杂志,78383535-543,(1983)·Zbl 0533.62011
[18] 扎德罗兹尼,B。;兰福德,J。;Abe,N.,按成本比例示例加权的成本敏感学习,第三届IEEE数据挖掘国际会议论文集(ICDM'03)
[19] 风扇,W。;戴维森,I.,《样本选择偏差及其通过模型平均和未标记实例的有效校正》,第七届暹罗国际数据挖掘会议论文集(2007年暹罗)
[20] Elkan,C.,成本敏感学习的基础,第17届国际人工智能联席会议论文集(IJCAI'01)
[21] 霍维茨,D.G。;汤普森,D.J.,《有限宇宙中无替换抽样的推广》,美国统计协会期刊,47663-685,(1952)·Zbl 0047.38301
[22] 罗宾斯,J.M。;罗特尼茨基,A。;赵,L.P.,《当某些回归因子不总是被观测时回归系数的估计》,美国统计协会杂志,89427846-866,(1994)·Zbl 0815.62043
[23] Breiman,L.,装袋预测,机器学习,24,2,123-140,(1996)·Zbl 0858.68080
[24] 纳霍尼亚克,M。;拉森,D.P。;沃尔克,C。;Jordan,C.E.,在基于模型的不等概率样本分析中使用逆概率bootstrap抽样消除样本诱导偏差,PLoS ONE,10,6,(2015)
[25] 查拉,新罕布什尔州。;鲍耶,K.W。;洛杉矶霍尔。;Kegelmeyer,W.P.,SMOTE:合成少数过采样技术,人工智能研究杂志,16321-357,(2002)·Zbl 0994.68128
[26] 法赫米尔,L。;克奈布,T。;Lang,S.,回归,统计与国际关系研究所(2009),柏林,海德堡,德国:斯普林格柏林海德堡,柏林,海德堡,德国·Zbl 1258.62076
[27] 布雷曼,L.,随机森林,机器学习,45,1,5-32,(2001)·Zbl 1007.68152号
[28] 黑斯蒂,T。;蒂比拉尼,R。;Friedman,J.,《统计学习的要素》(2001年),纽约,美国:斯普林格,纽约,纽约,美国
[29] Fawcett,T.,《ROC分析导论》,模式识别信函,27,8,861-874,(2006)
[30] Core Team,R.,R:统计计算的语言和环境,(2015),奥地利维也纳:R统计计算基金会,奥地利维也纳
[31] 赖特,M.N。;Ziegler,A.,ranger:用C++和R快速实现高维数据的随机森林,统计软件杂志,77,1,1-17,(2017)
[32] 迈耶,D。;迪米特里阿杜,E.K。;霍尼克,A。;温格塞尔。;Leisch,F.,e1071:统计部的其他职能,概率论小组(前身:e1071),(2015),奥地利维也纳:奥地利维也纳TU Wien
[33] Siriseriwan,W.,smotefamily:基于SMOTE的类不平衡问题的过采样技术集合
[34] 罗宾,X。;图尔克,N。;海纳德,A。;蒂比提,N。;利萨塞克,F。;桑切斯,J。;Müller,M.,pROC:R和S+用于分析和比较ROC曲线的开源软件包,BMC生物信息学,12,1,(2011)
[35] 唱歌,T。;桑德,O。;比伦温克尔,N。;林高尔,T.,ROCR:R语言中分类器性能的可视化,生物信息学,21,20,3940-3941,(2005)
[36] 范肖伦,J。;范瑞恩,J.N。;比什尔,B。;Torgo,L.,OpenML:机器学习中的网络科学,SIGKDD探索,15,2,49-60,(2014)
[37] 德隆,E.R。;德隆,D.M。;Clarke Pearson,D.L.,比较两个或更多相关接收器工作特性曲线下的面积:非参数方法,生物特征学,44,3837-845,(1988)·Zbl 0715.62207
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。