×

数学ZBZ-数学第一资源

用格子混合模型进行聚类的高维变量选择。(英语) Zbl 1417.62171
摘要:对于高维数据,协变量的数量远远大于样本量。我们提出了一个合理的方法来分析这些数据。它同时执行聚类和变量选择。该方法的灵感来自格子模型。它可以看作是一个允许重叠聚类的乘法混合模型。与传统的聚类不同,在这个模型中,一个观察可以用几个聚类来解释。这一特性使得它特别适用于基因表达数据。参数估计采用蒙特卡罗期望最大化算法和重要性抽样。通过大量的模拟和与竞争方法的比较,我们展示了我们的方法在变量选择和聚类方面的优势。我们的方法应用于肾癌基因组图谱中肾细胞癌的基因表达数据,验证了一些先前确定的癌症生物标志物。
理学硕士:
62小时30分 分类和区分;聚类分析(统计方面)
15层62层 贝叶斯推理
第62页 统计学在生物学和医学科学中的应用;荟萃分析
65立方英尺 统计计算问题(MSC2010)
PDF格式 BibTeX公司 XML 引用
全文: 内政部
参考文献:
[1] 阿凯克,H,统计模型辨识的新观点,IEEE Trans Autom Control,19716-723,(1974)·Zbl 0314.62039
[2] Allan J,Carbonell J,Doddington G,Yamron J,Yang Y(1998)主题检测和跟踪试点研究:最终报告。美国国防高级研究计划局广播新闻转录与理解研讨会论文集,第194-218页·14562ZB1543
[三] Bhattacharya,AK,头痛评估,印度医学会临床医学杂志,6,17-22,(2005)
[4] 比尔纳基,C;塞勒克斯,G;Govaert,G,用综合完全似然评估聚类的混合模型,IEEE Trans-Pattern Anal-Mach-Intell,22719-725,(2000)
[5] 布思,JG;霍伯特,JP,用自动蒙特卡罗EM算法最大化广义线性混合模型概率,J R Stat Soc Ser B(Stat Methodol),61265-285,(1999)·Zbl 0917.62058
[6] Chekouo,T;Murua,A,惩罚双聚类模型及相关算法,应用统计,421255-1277,(2015)
[7] Fu Q,Banerjee A(2008)重叠聚类的乘性混合模型。2008年:第八届IEEE数据挖掘国际会议。2008年ICDM,第791-796页
[8] Fu Q,Banerjee A(2009)贝叶斯重叠子空间聚类。2009年第九届IEEE数据挖掘国际会议论文集,第776-781页·Zbl 1004.62084
[9] 乔治,EI;McCulloch,RE,《贝叶斯变量选择方法》,Stat Sin,7339-374,(1997)·Zbl 0884.62031
[10] 哈勒,加州;Ghahramani,Z,一种非参数贝叶斯方法来模拟重叠簇,J Mach Learn Res Proc Track,2187-194,(2007)
[11] Hinton,GE,通过最小化对比差异的专家培训产品,神经计算,141771-1800,(2002)·Zbl 1010.68111
[12] Hoff,PD,基于模型的子空间聚类,贝叶斯分析,1321-344,(2006)·Zbl 1331.62309
[13] 休伯特,L;Arabie,P,比较分区,J Classif,2193-218,(1985)·Zbl 0587.62128
[14] 金,S;塔迪斯,MG;Vannucci,M,《通过Dirichlet过程混合模型进行聚类的变量选择》,Biometrika,93877-893,(2006)·Zbl 1436.62266
[15] 拉泽罗尼,L;Owen,A,基因表达数据的格子模型,Stat Sin,12,61-86,(2002)·Zbl 1004.62084
[16] 莱文,R;《蒙特卡罗电磁算法的实现》,计算机图形统计杂志,10422-439,(2001)
[17] 李,F;张恩瑞,高维结构协变量空间中的贝叶斯变量选择及其在基因组学中的应用,美国统计学杂志,1051202-1214,(2010)·Zbl 1390.62027
[18] 莱茵汉,W;斯里尼瓦桑,R;《肾脏疾病的遗传基础》,第285-7版
[19] 马德拉,南卡罗来纳州;Oliveira,AL,Biclustering algorithms for biological data analysis:a survey,IEEE/ACM Trans Comput Biol Bioinform,1,24-45,(2004)
[20] 毛吉斯,C;塞勒克斯,G;Martin Magniette,ML,高斯混合模型聚类变量选择,生物特征学,65701-709,(2009)·Zbl 1172.62021
[21] 毛吉斯,C;塞勒克斯,G;Martin Magniette,ML,《基于模型的聚类中的变量选择:一般变量角色建模》,计算机统计数据分析,533872-3882,(2009)·Zbl 1453.62154
[22] 麦卡洛奇,CE,广义线性混合模型的最大似然算法,J Am Stat Assoc,92162-170,(1997)·Zbl 0889.62061
[23] 潘,W;沈,X,基于惩罚模型的聚类及其在变量选择中的应用,J Mach Learn Res,81145-1164,(2007)·Zbl 1222.68279号
[24] Raftery,青铜币;Dean,N,基于模型聚类的变量选择,J Am Stat Assoc,101168-178,(2006)·Zbl 1118.62339
[25] Rand,WM,聚类方法评价的客观标准,J Am Stat Assoc,66846-850,(1971)
[26] Robert C,Casella G(2004)蒙特卡罗统计方法。斯普林格的统计学文本。柏林斯普林格
[27] 罗伯特,CP;雷顿,T;Titterington,D,MCMC算法的收敛控制及其在隐马尔可夫链中的应用,J Stat Comput Simul,64327-355,(1999)·Zbl 0968.62049
[28] 施瓦兹,通用电气,估计模型的维数,安统计,6461-464,(1978)·Zbl 0379.62005
[29] 斯皮格尔哈尔特,DJ;最佳,NG;血压,卡林;林德,A,模型复杂性和拟合的贝叶斯度量(附讨论),J R Stat Soc Ser B,64583-639,(2002)·Zbl 1067.62010
[30] 张建华,张国荣,张国荣(2005)高维数据聚类中的贝叶斯变量选择。美国统计协会杂志100:602-617。http://EconPapers.repec.org/repec:bes:jnlasa:v:100:y:2005:p:602-617年·Zbl 1117.62433
[31] 塔奈,A;沙兰,R;沙米尔,R;Aluru,S(编辑),《双聚类算法:调查》(2005年),伦敦
[32] 癌症基因组图谱研究网络,透明细胞肾癌的综合分子特征,自然,499,43-49,(2013)
[33] 蒂比拉尼,R;沃尔特,G;Hastie,T,无文章标题,通过差距统计估计数据集中的聚类数,63411-423,(2000)
[34] 特罗扬斯卡亚,O;康托,M;夏洛克,G;布朗,P;黑斯蒂,T;蒂比拉尼,R;博茨坦,D;Altman,RB,DNA微阵列缺失值估计方法,生物信息学,17520-525,(2001)
[35] 王,S;Zhu,J.基于模型的高维聚类变量选择及其在微阵列数据中的应用,生物特征学,64440-448,(2008)·Zbl 1137.62041
[36] 卫,GCG;《EM算法和穷人数据扩充算法的蒙特卡罗实现》,J Am Stat Assoc,85699-704,(1990)
[37] 维滕,DM;Tibshirani,R,《聚类中特征选择的框架》,J Am Stat Assoc,105713-726,(2010)·Zbl 1392.62194
[38] 谢,乙;潘,W;沈,X,基于分组参数正则化的惩罚模型聚类中的变量选择,生物特征学,64921-930,(2008)·Zbl 1146.62101
[39] 周浩(2009)潘、W、沈X算法程序手册(2007)。http://www.biostat.umn.edu/weip/项目。html。2016年6月访问·Zbl 0889.62061
[40] 周,H;平移,W;沈,X,基于惩罚模型的无约束协方差矩阵聚类,电子统计,31473-1496,(2009)·Zbl 1326.62143
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。