谢金汉;郝美玲;刘文新;林媛媛 针对大量不平衡数据的融合变量筛选。 (英语) Zbl 1507.62190号 计算。统计数据分析。 141, 94-108 (2020). 摘要:不平衡数据普遍存在于许多科学领域,其应用范围包括生物信息学、文本分类、人脸识别、欺诈检测等,其中数据在其类别/类别之间呈现出不均匀或高度扭曲的分布。现代科学中的不平衡数据通常具有巨大的规模和高维度,例如用于诊断罕见疾病的基因表达数据。为了解决这个问题,提出了一种融合筛查程序,用于在重复病例对照采样下,利用大规模高维不平衡数据进行降维。所提出的方法有几个优点:它是无模型的,没有任何底层分布的模型规范;使用子采样技术,计算成本相对较低;它对预测值中的异常值具有鲁棒性。理论性质是在正则条件下建立的。包括大量仿真和实际数据示例在内的数值研究证实,该方法在实际环境中表现良好。 引用于2文件 MSC公司: 62-08 统计问题的计算方法 62页第10页 统计学在生物学和医学中的应用;元分析 关键词:病例对照抽样;高维;不平衡数据;无模型筛选;秩相关 软件:打击 PDF格式BibTeX公司 XML格式引用 \textit{J.Xie}等人,计算。统计数据分析。141、94-108(2020年;Zbl 1507.62190) 全文: 内政部 参考文献: [1] Anderson,J.A.,单独样本逻辑判别,Biometrika,59,19-35(1972)·Zbl 0231.62080号 [2] 东北部布雷斯洛。;Day,N.E.,《病例对照研究分析》(1980年),国际癌症研究机构:里昂癌症研究国际机构 [3] Chang,J。;Tang,C.Y。;Wu,Y.,边际经验似然和确定独立性特征筛选,Ann.Statist。,41, 2123-2148 (2013) ·Zbl 1277.62109号 [4] Chawla,J。;鲍耶,K.W。;洛杉矶霍尔。;Kegelmeyer,W.P.,《SMOTE:合成少数民族过采样技术》,J.Artif。因特尔。第16号决议,第321-357页(2002年)·Zbl 0994.68128号 [5] Chen,K.,响应偏差抽样的参数模型,J.R.Stat.Soc.Ser。B统计方法。,63 (2001) ·Zbl 0988.62013号 [6] Chen,K。;Lin,Y。;姚,Y。;周春霞,响应偏差抽样回归分析,统计学家。Sinica,271699-1714(2017)·Zbl 1392.62022号 [7] Chen,K。;Lo,S.H.,用Cox模型进行病例对照分析,Biometrika,86,755-764(1999)·Zbl 0940.62108号 [8] Cosslet,S.R.,基于选择的样本的最大似然估计,计量经济学,49(1981)·兹伯利0494.62097 [9] 崔,H。;李,R。;Zhong,W.,超高维判别分析的无模型特征筛选,美国统计学杂志。协会,110,630-641(2015)·Zbl 1373.62305号 [10] 丹泽格,S.A。;巴罗尼奥,R。;Ho,L。;霍尔,L。;鲑鱼,K。;哈特菲尔德,G.W。;Kaiser,P。;Lathrop,R.H.,使用信息量最大的阳性MIP主动学习预测阳性p53癌症救援区域,《公共科学图书馆·计算》。生物学,5,文章e1000498 pp.(2009) [11] 丹泽格,S.A。;斯瓦米达斯,S.J。;曾杰。;Dearth,L.R。;卢奇。;Chen,J.H。;Cheng,J。;Hoang,V.P。;Saigo,H。;罗,R。;巴尔迪,P。;Brachmann,R.K。;Lathrop,R.H.,突变序列空间的功能普查:p53癌症拯救突变体的例子,IEEE/ACM Trans。计算。生物信息。,3, 114-125 (2006) [12] 丹泽格,S.A。;曾杰。;Wang,Y。;Brachmann,R.K。;Lathrop,R.H.,《在突变序列空间中选择下一步的方向:积极学习信息丰富的p53癌症救援突变体》,生物信息学,23,104-114(2007) [13] 范,J。;Feng,Y。;Song,R.,稀疏超高维可加模型中的非参数独立筛选,J.Am.Statist。协会,106,544-557(2011)·Zbl 1232.62064号 [14] 范,J。;Li,R.,通过非冲突惩罚似然进行变量选择及其预言性质,J.Amer。统计师。协会,96,1348-1360(2001)·Zbl 1073.62547号 [15] 范,J。;Lv,J.,超高维特征空间的确定独立筛选,J.R.Stat.Soc.Ser。B统计方法。,70, 849-911 (2008) ·Zbl 1411.62187号 [16] 范,J。;Song,R.,具有NP维的广义线性模型中的确定独立筛选,Ann.Statist。,38, 3567-3604 (2010) ·Zbl 1206.68157号 [17] Fawcett,T.,ROC分析简介,模式识别。莱特。,27, 861-874 (2006) [18] Fithian,W。;Hastie,T.,《局部病例-控制抽样:不平衡数据集中的有效子抽样》,Ann.Statist。,421693-1724(2014)·Zbl 1305.6206号 [19] He,H。;Garcia,E.A.,从不平衡数据中学习,IEEE Trans。知识。数据。工程师,21263-1284(2009) [20] 何,X。;Wang,L。;Hong,H.G.,分位数——自适应模型——高维异质数据的无变量筛选,Ann.Statist。,41, 342-369 (2013) ·Zbl 1295.62053号 [21] Hong,H.G。;Kang,J。;Li,Y.,超高维协变量与生存结果的条件性筛选,寿命数据分析。,24, 45-71 (2018) ·Zbl 1468.62386号 [22] Hong,H.G。;Li,Y.,超高维协变量的特征选择与生存结果:选择性综述,应用。数学。序列号。B、 32379-396(2017)·Zbl 1399.62178号 [23] Kim,J.P。;卢,W.B。;坐下,T。;Ying,Z.L.,一般有偏抽样方案下半参数变换模型的统一方法,J.Am.Statist。协会,108,217-227(2013)·Zbl 06158337号 [24] Kim,J.P。;坐下,T。;Ying,Z.L.,一般偏差抽样方案下的加速失效时间模型,生物统计学,17576-588(2016) [25] Lawless,J.F.,基于反应偏差观察的似然和伪似然估计,Lect。笔记。蒙哥。,32, 43-55 (1997) ·Zbl 0905.62015 [26] 李·G。;彭,H。;张杰。;朱磊,基于稳健秩相关的筛选,安统计学家。,40, 1846-1877 (2012) ·Zbl 1257.62067号 [27] 李,R。;钟伟。;Zhu,L.,通过距离相关学习进行特征筛选,J.Am.Statist。协会,1071129-1139(2012)·Zbl 1443.62184号 [28] Liu,Y.H.,Chen,Y.T.,2005年。基于全边缘的自适应模糊支持向量机用于多视角人脸识别。摘自:《系统、人与控制论》,2005年IEEE国际会议,第2期,第1704-1711页。;Liu,Y.H.,Chen,Y.T.,2005年。基于全边缘的自适应模糊支持向量机用于多视角人脸识别。载于:《系统、人与控制论》,2005年IEEE国际会议第2期,第1704-1711页。 [29] 麦,Q。;Zou,H.,高维二元分类中用于变量筛选的Kolmogorov滤波器,Biometrika,100229-234(2013)·Zbl 1452.62456号 [30] Mai,Q。;Zou,H.,融合Kolmogorov滤波器:一种非参数无模型筛选方法,Ann.Statist。,43, 1471-1497 (2015) ·Zbl 1431.62216号 [31] Manski,C.F.,《计量经济学和统计学中的选择问题》,《统计学手册》。,11, 73-84 (1993) ·Zbl 0827.62102号 [32] 曼斯基,C.F。;Lerman,S.,《基于选择样本的选择概率估计》,《计量经济学》,1977-1988年第45期(1977年)·Zbl 0372.62094号 [33] Mazurowski,医学硕士。;哈巴斯,P.A。;Zurada,J.M。;Lo,J.Y。;贝克,J.A。;Tourassi,G.D.,为医疗决策训练神经网络分类器:不平衡数据集对分类性能的影响,神经网络。净值。,21, 427-436 (2008) [34] 宁,J。;秦,J。;Shen,Y.,有偏抽样右删失数据的非参数检验,J.R.Stat.Soc.Ser。B统计方法。,5, 609-630 (2010) ·Zbl 1411.62282号 [35] 潘,R。;Wang,H。;Li,R.,通过两两确定独立筛选进行超高维多类线性判别分析,J.Am.Statist。协会,111,169-179(2016) [36] Pio,G。;Malerba,D。;D’Eila,D。;Ceci,M.,《整合微RNA靶点预测以发现基因调控网络:半监督集成学习方法》,BMC生物信息学,15,S4(2014) [37] 普伦蒂斯,R.L。;Pyke,R.,Logistic疾病发病率模型与病例对照研究,Biometrika,66,403-411(1979)·Zbl 0428.62078号 [38] Qin,J.,《偏倚抽样、过度识别的参数问题及以后》(2017),Springer:Springer New York·Zbl 1441.62008年 [39] 斯科特·A·J。;Wild,C.J.,《在病例对照或基于选择的抽样下拟合逻辑模型》,J.R.Stat.Soc.Ser。B统计方法。,48, 170-182 (1986) ·Zbl 0608.62084号 [40] 斯科特,A.J。;Wild,C.J.,通过最大似然将回归模型与病例对照数据拟合,Biometrika,84,1,57-71(1997)·兹比尔1058.62505 [41] 沈毅。;宁,J。;秦,J.,用半参数变换和加速失效时间模型分析长度偏差数据,J.Am.Statist。协会,104,1192-1202(2009)·Zbl 1388.62294号 [42] 宋,R。;卢·W。;马,S。;Jeng,X.J.,高维生存数据的审查等级独立性筛选,Biometrika,101799-814(2014)·Zbl 1306.62207号 [43] 孙,Y。;Chan,K.C.G。;秦,J.,《右删失长度偏差数据和后向复发时间的简单快速高估秩估计》,《生物统计学》,74,77-85(2018)·Zbl 1415.62137号 [44] Tibshirani,R.,通过套索进行回归收缩和选择,J.R.Stat.Soc.Ser。B统计方法。,58, 267-288 (1996) ·Zbl 0850.62538号 [45] 王海杰。;Wang,L.,长度偏差生存数据的分位数回归分析,Stat,3,31-47(2014) [46] Wu,Y。;Yin,G.,超高维异质数据中的条件分位数筛选,Biometrika,102,65-76(2015)·Zbl 1345.62097号 [47] 谢军。;Lin,Y。;严,X。;Tang,N.,超高维异质分类数据的类别自适应变量筛选,J.Amer。统计师。协会(2019) [48] 徐,G。;坐下,T。;Wang,L。;黄春云,有偏抽样下生存数据分位数回归的估计与推断,美国统计学杂志。协会,1121571-1586(2017) [49] Yu,H。;美国,香港。;杨,X。;Ni,J。;Dan,Y。;秦,B.,使用集成分类器基于DNA微阵列数据识别多种不平衡癌症类型,BioMed。Res.Int.,2013,1-13(2013) [50] 袁,M。;Lin,Y.,《分组变量回归中的模型选择和估计》,J.R.Stat.Soc.Ser。B统计方法。,68, 49-67 (2006) ·Zbl 1141.62030号 [51] 张杰。;刘,Y。;Wu,Y.,超高维生存数据的相关秩筛选,计算机。统计师。数据分析。,108, 121-132 (2017) ·Zbl 1466.62226号 [52] 张杰。;尹,G。;刘,Y。;Wu,Y.,超高维生存数据的删失累积残差独立筛选,寿命数据分析。,24, 273-292 (2018) ·Zbl 1468.62421号 [53] 赵博士。;Li,Y.,超高维协变量Cox模型的原则确定独立性筛选,J.Mult。分析。,105, 397-411 (2012) ·Zbl 1233.62173号 [54] 周,T。;Zhu,L.,超高维删失回归的无模型特征筛选,统计计算。,27, 947-961 (2017) ·Zbl 1384.62144号 [55] 朱丽萍。;李,L。;李,R。;Zhu,L.X.,超高维数据的无模型特征筛选,J.Am.Statist。协会,1061464-1475(2011)·兹比尔1233.62195 [56] Zou,H.,自适应套索及其预言性质,美国统计学家J。协会,101,1418-1429(2006)·Zbl 1171.62326号 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。