谢本怀;潘伟;沈晓彤 基于惩罚模型的聚类中的变量选择,通过对分组参数的正则化。 (英语) Zbl 1146.62101号 生物计量学 64,第3期,921-930(2008). 摘要:基于惩罚模型的聚类已被提出用于高维但小样本数据,如基因组研究产生的数据;特别是,它可以用于变量选择。提出了一种新的正则化方案,将同一变量的多个参数跨簇组合在一起,这在分析和数值上都表明比传统的L_1罚更有效。此外,我们还开发了一种策略,将这种分组方案与结构化变量分组相结合。用于癌症亚型发现的微阵列基因表达数据的模拟研究和应用证明了新提议相对于几种现有方法的优势。 引用于18文件 MSC公司: 62页第10页 统计学在生物学和医学科学中的应用;元分析 62号02 生存分析和删失数据中的估计 92 C50 医疗应用(通用) 65立方厘米60 统计中的计算问题(MSC2010) 关键词:银行识别码;对角协方差;混合物模型;惩罚可能性 软件:ElemStatLearn(电子状态学习);KEGG公司 PDF格式BibTeX公司 XML格式引用 \textit{B.Xie}等人,《生物计量学》64,第3期,921--930(2008;Zbl 1146.62101) 全文: 内政部 参考文献: [1] Choi,N.H.Zhu,J.2006强层次约束变量选择及其在基因-基因和基因-环境相互作用鉴定中的应用密歇根大学统计系,密歇根州安娜堡 [2] Dempster,通过EM算法获得不完整数据的最大似然(带讨论),《皇家统计学会杂志》,B系列39第1页–(1977)·Zbl 0364.62022号 [3] Dudoit,《使用基因表达数据进行肿瘤分类的鉴别方法比较》,《美国统计协会杂志》97 pp 77–(2002)·Zbl 1073.62576号 ·doi:10.1198/016214502753479248 [4] Efron,最小角回归,《统计年鉴》32,第407页–(2004)·Zbl 1091.62054号 ·doi:10.1214/009053604000000067 [5] Eisen,全基因组表达模式的聚类分析和显示,PNAS 95第14863页–(1998)·doi:10.1073/pnas.95.25.14863 [6] Friedman,属性子集上的聚类对象(含讨论),《皇家统计学会杂志》,B辑66 pp 1–(2004)·Zbl 1060.62064号 ·文件编号:10.1111/j.1467-9868.2004.02059.x [7] Ghosh,微阵列实验中基因表达数据的混合建模,生物信息学18 pp 275–(2002)·doi:10.1093/bioinformatics/18.2.275 [8] Golub,《癌症的分子分类:通过基因表达监测进行分类发现和分类预测》,《科学》286,第531页–(1999)·doi:10.1126/science.286.5439.531 [9] Hastie,《统计学习的要素》。数据挖掘、推断和预测。(2001) ·Zbl 0973.62007号 [10] Hoff,二元序列的子集聚类,及其在基因组异常数据中的应用,《生物统计学》第61页第1027页–(2005年)·兹比尔1087.62125 ·文件编号:10.1111/j.1541-0420.2005.00381.x [11] Hoff,基于模型的子空间聚类,Bayesian Analysis 1 pp 321–(2006)·Zbl 1331.62309号 ·doi:10.1214/06-BA111 [12] Kanehisa,KEGG:《京都基因和基因组百科全书》,核酸研究28页27–(2000)·Zbl 05435931号 ·doi:10.1093/nar/28.1.27 [13] Kim,Dirichlet过程混合模型聚类中的变量选择,Biometrika 93 pp 877–(2006)·Zbl 1436.62266号 ·doi:10.1093/biomet/93.4.877 [14] 李,基因组生物学2(2001) [15] Liu,带变量和转换选择的贝叶斯聚类(讨论),贝叶斯统计7 pp 249–(2003) [16] Mangasarian,SIAM国际数据挖掘会议记录,高维数据聚类及其应用研讨会,第23页–(2004) [17] McLachlan,基于混合模型的微阵列表达数据聚类方法,生物信息学18第413页–(2002)·doi:10.1093/bioinformatics/18.3.413 [18] Pan,基于惩罚模型的聚类及其在变量选择中的应用,《机器学习研究杂志》,第8页,1145页–(2007年)·Zbl 1222.68279号 [19] Pan,通过惩罚混合模型进行半监督学习,并应用于微阵列样本分类,生物信息学22,第2388页–(2006)·doi:10.1093/bioinformatics/btl393 [20] Park,广义线性模型的L1正则路径算法,《皇家统计学会杂志》,B辑69,第659页–(2007)·文件编号:10.1111/j.1467-9868.2007.00607.x [21] Raftery,基于模型聚类的变量选择,《美国统计协会期刊》101第168页–(2006)·Zbl 1118.62339号 ·doi:10.1198/016214500000113 [22] 兰德,聚类方法评估的客观标准,《美国统计协会杂志》66页846–(1971)·doi:10.2307/2284239 [23] Shipp,通过基因表达谱和监督机器学习预测弥漫性大B细胞淋巴瘤结果,《自然医学》第8页,68–(2002)·doi:10.1038/nm0102-68 [24] Tadesse,高维数据聚类中的贝叶斯变量选择,《美国统计协会杂志》100页602–(2005)·Zbl 1117.62433号 ·doi:10.1198/0162145000001565 [25] Tibshirani,《通过Lasso回归收缩和选择》,《皇家统计学会杂志》,B辑58,第267页–(1996)·Zbl 0850.62538号 [26] Wang,S.Zhu,J.2006基于模型的高维聚类变量选择及其在微阵列数据中的应用 [27] Wang,最近收缩质心分类器的改进质心估计,生物信息学23 pp 972–(2007)·doi:10.1093/bioinformatics/btm046 [28] Wu,关于EM算法的收敛性,《统计年鉴》11第95页–(1983)·Zbl 0517.62035号 ·doi:10.1214/aos/1176346060 [29] Xie,B.Pan,W.Shen,X.2007年基于惩罚模型的聚类,具有簇特定的对角协方差和分组变量http://www.biostat.umn.edu./rrs.php明尼苏达大学明尼阿波利斯分校 [30] 杨,基因表达数据的基于模型的聚类和数据转换,生物信息学17页977–(2001)·doi:10.1093/生物信息/17.10.977 [31] 袁,分组变量回归中的模型选择和估计,《皇家统计学会杂志》,B辑68,第49页–(2006)·Zbl 1141.62030号 ·doi:10.1111/j.1467-9868.2005302.x [32] Zhao,P.Rocha,G.Yu,B.2006通过复合绝对处罚进行分组和分级模型选择加利福尼亚大学 [33] Zhou,N.Zhu,J.2007通过分层Lasso及其Oracle属性选择组变量·Zbl 1245.62183号 [34] 邹,《关于套索的“自由度”》,《统计年鉴》第35卷第2173页–(2007年)·Zbl 1126.62061号 ·doi:10.1214/009053600700000127 此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。