×

针对大量不平衡数据的融合变量筛选。 (英语) Zbl 1507.62190号

摘要:不平衡数据普遍存在于许多科学领域,其应用范围包括生物信息学、文本分类、人脸识别、欺诈检测等,其中数据在其类别/类别之间呈现出不均匀或高度扭曲的分布。现代科学中的不平衡数据通常具有巨大的规模和高维度,例如用于诊断罕见疾病的基因表达数据。为了解决这个问题,提出了一种融合筛查程序,用于在重复病例对照采样下,利用大规模高维不平衡数据进行降维。所提出的方法有几个优点:它是无模型的,没有任何底层分布的模型规范;使用子采样技术,计算成本相对较低;它对预测值中的异常值具有鲁棒性。理论性质是在正则条件下建立的。包括大量仿真和实际数据示例在内的数值研究证实,该方法在实际环境中表现良好。

MSC公司:

62-08 统计问题的计算方法
62页第10页 统计学在生物学和医学中的应用;元分析

软件:

打击
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Anderson,J.A.,单独样本逻辑判别,Biometrika,59,19-35(1972)·Zbl 0231.62080号
[2] 东北部布雷斯洛。;Day,N.E.,《病例对照研究分析》(1980年),国际癌症研究机构:里昂癌症研究国际机构
[3] Chang,J。;Tang,C.Y。;Wu,Y.,边际经验似然和确定独立性特征筛选,Ann.Statist。,41, 2123-2148 (2013) ·Zbl 1277.62109号
[4] Chawla,J。;鲍耶,K.W。;洛杉矶霍尔。;Kegelmeyer,W.P.,《SMOTE:合成少数民族过采样技术》,J.Artif。因特尔。第16号决议,第321-357页(2002年)·Zbl 0994.68128号
[5] Chen,K.,响应偏差抽样的参数模型,J.R.Stat.Soc.Ser。B统计方法。,63 (2001) ·Zbl 0988.62013号
[6] Chen,K。;Lin,Y。;姚,Y。;周春霞,响应偏差抽样回归分析,统计学家。Sinica,271699-1714(2017)·Zbl 1392.62022号
[7] Chen,K。;Lo,S.H.,用Cox模型进行病例对照分析,Biometrika,86,755-764(1999)·Zbl 0940.62108号
[8] Cosslet,S.R.,基于选择的样本的最大似然估计,计量经济学,49(1981)·兹伯利0494.62097
[9] 崔,H。;李,R。;Zhong,W.,超高维判别分析的无模型特征筛选,美国统计学杂志。协会,110,630-641(2015)·Zbl 1373.62305号
[10] 丹泽格,S.A。;巴罗尼奥,R。;Ho,L。;霍尔,L。;鲑鱼,K。;哈特菲尔德,G.W。;Kaiser,P。;Lathrop,R.H.,使用信息量最大的阳性MIP主动学习预测阳性p53癌症救援区域,《公共科学图书馆·计算》。生物学,5,文章e1000498 pp.(2009)
[11] 丹泽格,S.A。;斯瓦米达斯,S.J。;曾杰。;Dearth,L.R。;卢奇。;Chen,J.H。;Cheng,J。;Hoang,V.P。;Saigo,H。;罗,R。;巴尔迪,P。;Brachmann,R.K。;Lathrop,R.H.,突变序列空间的功能普查:p53癌症拯救突变体的例子,IEEE/ACM Trans。计算。生物信息。,3, 114-125 (2006)
[12] 丹泽格,S.A。;曾杰。;Wang,Y。;Brachmann,R.K。;Lathrop,R.H.,《在突变序列空间中选择下一步的方向:积极学习信息丰富的p53癌症救援突变体》,生物信息学,23,104-114(2007)
[13] 范,J。;Feng,Y。;Song,R.,稀疏超高维可加模型中的非参数独立筛选,J.Am.Statist。协会,106,544-557(2011)·Zbl 1232.62064号
[14] 范,J。;Li,R.,通过非冲突惩罚似然进行变量选择及其预言性质,J.Amer。统计师。协会,96,1348-1360(2001)·Zbl 1073.62547号
[15] 范,J。;Lv,J.,超高维特征空间的确定独立筛选,J.R.Stat.Soc.Ser。B统计方法。,70, 849-911 (2008) ·Zbl 1411.62187号
[16] 范,J。;Song,R.,具有NP维的广义线性模型中的确定独立筛选,Ann.Statist。,38, 3567-3604 (2010) ·Zbl 1206.68157号
[17] Fawcett,T.,ROC分析简介,模式识别。莱特。,27, 861-874 (2006)
[18] Fithian,W。;Hastie,T.,《局部病例-控制抽样:不平衡数据集中的有效子抽样》,Ann.Statist。,421693-1724(2014)·Zbl 1305.6206号
[19] He,H。;Garcia,E.A.,从不平衡数据中学习,IEEE Trans。知识。数据。工程师,21263-1284(2009)
[20] 何,X。;Wang,L。;Hong,H.G.,分位数——自适应模型——高维异质数据的无变量筛选,Ann.Statist。,41, 342-369 (2013) ·Zbl 1295.62053号
[21] Hong,H.G。;Kang,J。;Li,Y.,超高维协变量与生存结果的条件性筛选,寿命数据分析。,24, 45-71 (2018) ·Zbl 1468.62386号
[22] Hong,H.G。;Li,Y.,超高维协变量的特征选择与生存结果:选择性综述,应用。数学。序列号。B、 32379-396(2017)·Zbl 1399.62178号
[23] Kim,J.P。;卢,W.B。;坐下,T。;Ying,Z.L.,一般有偏抽样方案下半参数变换模型的统一方法,J.Am.Statist。协会,108,217-227(2013)·Zbl 06158337号
[24] Kim,J.P。;坐下,T。;Ying,Z.L.,一般偏差抽样方案下的加速失效时间模型,生物统计学,17576-588(2016)
[25] Lawless,J.F.,基于反应偏差观察的似然和伪似然估计,Lect。笔记。蒙哥。,32, 43-55 (1997) ·Zbl 0905.62015
[26] 李·G。;彭,H。;张杰。;朱磊,基于稳健秩相关的筛选,安统计学家。,40, 1846-1877 (2012) ·Zbl 1257.62067号
[27] 李,R。;钟伟。;Zhu,L.,通过距离相关学习进行特征筛选,J.Am.Statist。协会,1071129-1139(2012)·Zbl 1443.62184号
[28] Liu,Y.H.,Chen,Y.T.,2005年。基于全边缘的自适应模糊支持向量机用于多视角人脸识别。摘自:《系统、人与控制论》,2005年IEEE国际会议,第2期,第1704-1711页。;Liu,Y.H.,Chen,Y.T.,2005年。基于全边缘的自适应模糊支持向量机用于多视角人脸识别。载于:《系统、人与控制论》,2005年IEEE国际会议第2期,第1704-1711页。
[29] 麦,Q。;Zou,H.,高维二元分类中用于变量筛选的Kolmogorov滤波器,Biometrika,100229-234(2013)·Zbl 1452.62456号
[30] Mai,Q。;Zou,H.,融合Kolmogorov滤波器:一种非参数无模型筛选方法,Ann.Statist。,43, 1471-1497 (2015) ·Zbl 1431.62216号
[31] Manski,C.F.,《计量经济学和统计学中的选择问题》,《统计学手册》。,11, 73-84 (1993) ·Zbl 0827.62102号
[32] 曼斯基,C.F。;Lerman,S.,《基于选择样本的选择概率估计》,《计量经济学》,1977-1988年第45期(1977年)·Zbl 0372.62094号
[33] Mazurowski,医学硕士。;哈巴斯,P.A。;Zurada,J.M。;Lo,J.Y。;贝克,J.A。;Tourassi,G.D.,为医疗决策训练神经网络分类器:不平衡数据集对分类性能的影响,神经网络。净值。,21, 427-436 (2008)
[34] 宁,J。;秦,J。;Shen,Y.,有偏抽样右删失数据的非参数检验,J.R.Stat.Soc.Ser。B统计方法。,5, 609-630 (2010) ·Zbl 1411.62282号
[35] 潘,R。;Wang,H。;Li,R.,通过两两确定独立筛选进行超高维多类线性判别分析,J.Am.Statist。协会,111,169-179(2016)
[36] Pio,G。;Malerba,D。;D’Eila,D。;Ceci,M.,《整合微RNA靶点预测以发现基因调控网络:半监督集成学习方法》,BMC生物信息学,15,S4(2014)
[37] 普伦蒂斯,R.L。;Pyke,R.,Logistic疾病发病率模型与病例对照研究,Biometrika,66,403-411(1979)·Zbl 0428.62078号
[38] Qin,J.,《偏倚抽样、过度识别的参数问题及以后》(2017),Springer:Springer New York·Zbl 1441.62008年
[39] 斯科特·A·J。;Wild,C.J.,《在病例对照或基于选择的抽样下拟合逻辑模型》,J.R.Stat.Soc.Ser。B统计方法。,48, 170-182 (1986) ·Zbl 0608.62084号
[40] 斯科特,A.J。;Wild,C.J.,通过最大似然将回归模型与病例对照数据拟合,Biometrika,84,1,57-71(1997)·兹比尔1058.62505
[41] 沈毅。;宁,J。;秦,J.,用半参数变换和加速失效时间模型分析长度偏差数据,J.Am.Statist。协会,104,1192-1202(2009)·Zbl 1388.62294号
[42] 宋,R。;卢·W。;马,S。;Jeng,X.J.,高维生存数据的审查等级独立性筛选,Biometrika,101799-814(2014)·Zbl 1306.62207号
[43] 孙,Y。;Chan,K.C.G。;秦,J.,《右删失长度偏差数据和后向复发时间的简单快速高估秩估计》,《生物统计学》,74,77-85(2018)·Zbl 1415.62137号
[44] Tibshirani,R.,通过套索进行回归收缩和选择,J.R.Stat.Soc.Ser。B统计方法。,58, 267-288 (1996) ·Zbl 0850.62538号
[45] 王海杰。;Wang,L.,长度偏差生存数据的分位数回归分析,Stat,3,31-47(2014)
[46] Wu,Y。;Yin,G.,超高维异质数据中的条件分位数筛选,Biometrika,102,65-76(2015)·Zbl 1345.62097号
[47] 谢军。;Lin,Y。;严,X。;Tang,N.,超高维异质分类数据的类别自适应变量筛选,J.Amer。统计师。协会(2019)
[48] 徐,G。;坐下,T。;Wang,L。;黄春云,有偏抽样下生存数据分位数回归的估计与推断,美国统计学杂志。协会,1121571-1586(2017)
[49] Yu,H。;美国,香港。;杨,X。;Ni,J。;Dan,Y。;秦,B.,使用集成分类器基于DNA微阵列数据识别多种不平衡癌症类型,BioMed。Res.Int.,2013,1-13(2013)
[50] 袁,M。;Lin,Y.,《分组变量回归中的模型选择和估计》,J.R.Stat.Soc.Ser。B统计方法。,68, 49-67 (2006) ·Zbl 1141.62030号
[51] 张杰。;刘,Y。;Wu,Y.,超高维生存数据的相关秩筛选,计算机。统计师。数据分析。,108, 121-132 (2017) ·Zbl 1466.62226号
[52] 张杰。;尹,G。;刘,Y。;Wu,Y.,超高维生存数据的删失累积残差独立筛选,寿命数据分析。,24, 273-292 (2018) ·Zbl 1468.62421号
[53] 赵博士。;Li,Y.,超高维协变量Cox模型的原则确定独立性筛选,J.Mult。分析。,105, 397-411 (2012) ·Zbl 1233.62173号
[54] 周,T。;Zhu,L.,超高维删失回归的无模型特征筛选,统计计算。,27, 947-961 (2017) ·Zbl 1384.62144号
[55] 朱丽萍。;李,L。;李,R。;Zhu,L.X.,超高维数据的无模型特征筛选,J.Am.Statist。协会,1061464-1475(2011)·兹比尔1233.62195
[56] Zou,H.,自适应套索及其预言性质,美国统计学家J。协会,101,1418-1429(2006)·Zbl 1171.62326号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。