×

用于亚型识别的贝叶斯半参数因子分析模型。 (英语) Zbl 1371.92055号

疾病亚型识别(聚类)是生物医学研究中的一个重要问题。基因表达谱通常用于推断疾病亚型,这通常会导致对疾病有生物学意义的见解。尽管取得了许多成功,但当基因高度相关,并且由于高维性,许多无信息的基因被包括在聚类中时,现有的聚类方法可能表现不佳。在这篇文章中,我们介绍了一种新的基于基因表达谱的贝叶斯亚型识别方法。该方法称为BCSub,采用一种创新的半参数贝叶斯因子分析模型,将数据降维为几个因子得分进行聚类。具体而言,假设因子得分遵循Dirichlet过程混合模型以诱导聚类。通过广泛的仿真研究,我们表明,与常用的聚类方法相比,BCSub提高了性能。当应用于两个基因表达数据集时,我们的模型能够识别出比现有方法识别出的亚型更具临床相关性的亚型。

MSC公司:

92C40型 生物化学、分子生物学
第92页第15页 普通生物统计学
62页第10页 统计学在生物学和医学中的应用;元分析
62小时30分 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Binder,D.A.(1978):“贝叶斯聚类分析”,《生物统计学》,65,31-38。;Binder,D.A.,贝叶斯聚类分析,生物统计学,65,31-38(1978)·Zbl 0376.62007号
[2] Boutou,A.K.,Z.Zoumot,A.Nair,C.Davey,D.M.Hansell,A.Jamurtas,M.I.Polkey和N.S.Hopkinson(2015):“同质与异质性肺气肿对重度COPD患者动态过度充气的影响,评估为肺容量减少,”COPD J.慢性阻塞。肺。数字化信息系统。,12, 598-605.; A.K.Boutou。;Zoumot,Z。;奈尔,A。;戴维,C。;Hansell,D.M。;贾穆塔斯,A。;波尔基,M.I。;Hopkinson,N.S.,《同质与异质性肺气肿对重度COPD患者动态过度充气的影响》,COPD J.慢性阻塞性肺病。肺。Dis,12598-605(2015)
[3] Caliński,T.和J.Harabasz(1974):“用于聚类分析的枝晶方法”,Commun。统计,3,1-27。;Caliánski,T。;Harabasz,J.,聚类分析的枝晶方法,Commun。统计,3,1-27(1974)·Zbl 0273.62010
[4] Carvalho,C.M.,J.Chang,J.E.Lucas,J.R.Nevins,Q.Wang和M.West(2008):“高维稀疏因子建模:在基因表达基因组学中的应用”,美国统计协会,103,1438-1456。;卡瓦略,C.M。;Chang,J。;卢卡斯,J.E。;Nevins,J.R。;王,Q。;West,M.,《高维稀疏因子建模:在基因表达基因组学中的应用》,美国统计协会,103,1438-1456(2008)·Zbl 1286.62091号
[5] Craddock,R.C.、G.A.James、P.E.Holtzheimer、X.P.Hu和H.S.Mayberg(2012):“通过空间约束光谱聚类生成的全脑fMRI图谱”,《人脑映射》。,33, 1914-1928.; Craddock,R.C。;James,G.A。;霍尔茨海默,体育。;胡晓平。;Mayberg,H.S.,《通过空间约束光谱聚类生成的全脑fMRI图谱》,《大脑映射》,第33期,1914-1928页(2012年)
[6] Dahl,D.B.(2006):“通过Dirichlet过程混合模型对表达数据进行基于模型的聚类”,《基因表达和蛋白质组学的贝叶斯推断》,剑桥:剑桥大学出版社,第201-218页。;Dahl,D.B.,通过Dirichlet过程混合模型对表达数据进行基于模型的聚类,基因表达和蛋白质组学的贝叶斯推断,201-218(2006)
[7] Drasgow,F.和R.I.Lissak(1983年):“改进的平行分析:检查两分评分项目回答潜在维度的程序”,J.Appl。心理医生。,68, 363-373.; Drasgow,F。;Lissak,R.I.,《改进的平行分析:检查二元评分项目回答潜在维度的程序》,J.Appl。《心理医生》,68,363-373(1983)
[8] Erosheva,E.A.和S.M.Curtis(2011):“处理贝叶斯验证因子分析中的旋转不变性”,华盛顿大学589号技术报告。;Erosheva,E.A。;Curtis,S.M.,《处理贝叶斯验证因子分析中的旋转不变性》,技术报告589,华盛顿大学(2011年)·Zbl 1402.62041号
[9] Ferguson,T.S.(1973):“一些非参数问题的贝叶斯分析”,《Ann.Stat.》,1209-230。;Ferguson,T.S.,一些非参数问题的贝叶斯分析,Ann.Stat,1209-230(1973)·Zbl 0255.62037号
[10] Fraley,C.和A.E.Raftery(2002):“基于模型的聚类、判别分析和密度估计”,《美国统计协会期刊》,第97期,第611-631页。;弗雷利,C。;Raftery,A.E.,基于模型的聚类、判别分析和密度估计,美国统计协会,97,611-631(2002)·兹比尔1073.62545
[11] Fritsch,A.和K.Ickstadt(2009):“基于后验相似矩阵的改进聚类标准”,贝叶斯分析。,4, 367-391.; 弗里奇,A。;Ickstadt,K.,基于后验相似矩阵的改进聚类标准,贝叶斯分析,4367-391(2009)·Zbl 1330.62249号
[12] Garcia Aymerich,J.,F.P.Gómez,M.Benet,E.Farrero,X.Basagaña,±。Gayete,C.Paré,X.Freixa,J.Ferrer,A.Ferrer和J.Roca(2011年):“临床相关慢性阻塞性肺病(COPD)亚型的识别和前瞻性验证”,Thorax,66,430-437。;Garcia-Aymerich,J。;Gómez,F.P。;贝内特,M。;Farrero,E。;巴萨加尼亚,X。;阿拉巴马州盖耶特。;巴雷,C。;弗雷萨,X。;费雷尔,J。;费雷尔,A。;Roca,J.,《临床相关慢性阻塞性肺病(COPD)亚型的识别和前瞻性验证》,Thorax,66,430-437(2011)
[13] Geweke,J.和G.Zhou(1996):《衡量套利定价理论的定价误差》,《金融评论》。螺柱,9557-587。;Geweke,J。;周刚,《套利定价理论的定价误差测量》,《金融评论》。螺柱,9557-587(1996)
[14] Hartigan,J.A.和M.A.Wong(1979):“算法AS136:k均值聚类算法”,J.R.Stat.Soc.Ser。C申请。统计,28,100-108。;Hartigan,J.A。;Wong,M.A.,《算法AS136:k均值聚类算法》,J.R.Stat.Soc.Ser。C申请。《统计》,第28卷,第100-108页(1979年)·Zbl 0447.62062号
[15] Hoadley,K.A.,C.Yau,D.M.Wolf,A.D.Cherniack,D.Tamborero,S.Ng,M.D.Leiserson,B.Niu,M.D.McLellan,V.Uzunangelov和J.Zhang(2014):“12种癌症类型的多平台分析揭示了起源组织内和跨组织的分子分类,”Cell,158,929-944。;霍德利,K.A。;Yau,C。;Wolf,D.M。;Cherniack,A.D。;Tamborero,D。;Ng、S。;医学博士Leiserson。;牛,B。;医学博士麦克莱伦。;乌祖南格洛夫。;Zhang,J.,12种癌症类型的多平台分析揭示了起源组织内和跨组织的分子分类,Cell,158929-944(2014)
[16] Hoyle,R.H.和J.L.Duvall(2004):“确定探索性和验证性因素分析中的因素数量”,in:Kaplan,D.(Ed.),《社会科学定量方法手册》,第16章,千橡树,加利福尼亚州:Sage,第301-315页。;霍伊尔,R.H。;杜瓦尔,J.L。;Kaplan,D.,《在探索性和验证性因子分析中确定因子数量》,《社会科学定量方法手册》,第16章,千橡树,301-315(2004)
[17] Hubert,L.和P.Arabie(1985):“比较分区”,J.Classif。,2, 193-218.; 休伯特,L。;Arabie,P.,《分区比较》,古典文学,2193-218(1985)·Zbl 0587.62128号
[18] Jain,S.和R.M.Neal(2004):“Dirichlet过程混合模型的分裂大马尔可夫链蒙特卡罗程序”,J.Compute。图表。《统计》,第13卷,第158-182页。;Jain,S。;Neal,R.M.,Dirichlet过程混合模型的分裂大马尔可夫链蒙特卡罗程序,J.Compute。图表。统计,13,158-182(2004)
[19] Jasra,A.、C.Holmes和D.Stephens(2005):“马尔可夫链蒙特卡罗方法和贝叶斯混合建模中的标签切换问题”,《统计科学》。,20, 50-67.; Jasra,A。;霍姆斯,C。;Stephens,D.,马尔可夫链蒙特卡罗方法和贝叶斯混合建模中的标签切换问题,《统计科学》,20,50-67(2005)·Zbl 1100.62032号
[20] Jeste,S.S.和D.H.Geschwind(2014年):“通过基因发现揭示自闭症谱系障碍的异质性”,《神经科学杂志》。,10, 74-81.; Jeste,S.S。;Geschwind,D.H.,《通过基因发现揭示自闭症谱系障碍的异质性》,《国家神经科学评论》,第10期,第74-81页(2014年)
[21] Johnson,S.C.(1967):“层次聚类方案”,《心理测量学》,32,241-254。;Johnson,S.C.,《分层聚类方案》,《心理测量学》,32,241-254(1967)·兹比尔1367.62191
[22] Kalli,M.、J.E.Griffin和S.G.Walker(2011):“切片取样混合模型”,《统计计算》。,21, 93-105.; 卡利,M。;格里芬,J.E。;Walker,S.G.,切片取样混合模型,统计计算,21,93-105(2011)·Zbl 1256.65006号
[23] Kim,S.、M.G.Tadesse和M.Vannucci(2006):“通过Dirichlet过程混合模型进行聚类的变量选择”,《生物特征》,93,877-893。;Kim,S。;Tadesse,M.G。;Vannucci,M.,通过Dirichlet过程混合模型进行聚类的变量选择,Biometrika,93,877-893(2006)·Zbl 1436.62266号
[24] Lee,D.D.和H.S.Seung(2001):“非负矩阵分解算法”,《神经信息处理系统进展》,第13卷,马萨诸塞州波士顿,美国:麻省理工学院出版社,第556-562页。;Lee,D.D。;Seung,H.S.,非负矩阵分解算法,神经信息处理系统进展,第13卷,556-562(2001)
[25] Liu,W.,K.Yuan和D.Ye(2008):“通过非负矩阵因式分解减少微阵列数据以进行可视化和聚类分析”,J.Biomed。通知。,41, 602-606.; 刘伟。;袁,K。;Ye,D.,通过非负矩阵分解减少微阵列数据,用于可视化和聚类分析,J.Biomed。Inform,41,602-606(2008)
[26] Lock,E.F.和D.B.Dunson(2013):“贝叶斯共识聚类”,生物信息学,292610-2616。;锁定,E.F。;邓森,D.B.,贝叶斯共识聚类,生物信息学,292610-2616(2013)
[27] Lopes,H.F.和M.West(2004):“因子分析中的贝叶斯模型评估”,《统计罪》。,第14页,第41-67页。;Lopes,H.F。;West,M.,因子分析中的贝叶斯模型评估,Stat.Sin,14,41-67(2004)·Zbl 1035.62060号
[28] MacEachern,S.N.(1994):“用共轭型Dirichlet过程估计正常平均值”,Commun。统计模拟。计算。,23, 727-741.; MacEachern,S.N.,用共轭型Dirichlet过程先验估计正态均值,Commun。统计模拟。计算,23727-741(1994)·Zbl 0825.62053号
[29] Medvedovic,M.,K.Y.Yeung和R.E.Bumgarner(2004):“基于贝叶斯混合模型的重复微阵列数据聚类”,生物信息学,第20期,第1222-1232页。;Medvedovic,M。;Yeung,K.Y。;Bumgarner,R.E.,基于贝叶斯混合模型的重复微阵列数据聚类,生物信息学,20,1222-1232(2004)
[30] Murray,J.S.,D.B.Dunson,L.Carin和J.E.Lucas(2013):“混合数据的贝叶斯-高斯copula因子模型”,美国统计协会,108,656-665。;J.S.穆雷。;邓森,D.B。;Carin,L。;Lucas,J.E.,混合数据的贝叶斯-高斯copula因子模型,美国统计协会,108,656-665(2013)·Zbl 06195968号
[31] Neal,R.M.(1992):“贝叶斯混合建模”,《In:最大熵和贝叶斯方法》,第197-211页。柏林:施普林格。;Neal,R.M.,贝叶斯混合建模,最大熵和贝叶斯方法,197-211(1992)·Zbl 0829.62033号
[32] Pan,W.和X.Shen(2007):“基于惩罚模型的聚类及其在变量选择中的应用”,J.Mach。学习。决议,81145-1164。;潘·W。;Shen,X.,基于模型的聚类及其在变量选择中的应用,J.Mach。学习。Res,81145-1164(2007年)·Zbl 1222.68279号
[33] Papaspiliopoulos,O.和G.O.Roberts(2008):“Dirichlet过程层次模型的回顾性马尔可夫链蒙特卡罗方法”,《生物统计学》,95,169-186。;O.帕帕斯皮利奥普洛斯。;Roberts,G.O.,Dirichlet过程层次模型的回顾性马尔可夫链蒙特卡罗方法,生物统计学,95169-186(2008)·Zbl 1437.62576号
[34] Parker,J.S.,M.Mullins,M.C.Cheang,S.Leung,D.Voduc,T.Vickery,S.Davies,C.Fauron,X.He,Z.Hu和J.F.Quackenbush(2009年):“基于内在亚型的乳腺癌风险预测因子监管”,J.Clin。Oncol.公司。,271160-1167年。;J.S.帕克。;马林斯,M。;Cheang,医学博士。;Leung,S。;Voduc,D。;维克里,T。;戴维斯,S。;Fauron,C。;他,X。;胡,Z。;Quackenbush,J.F.,基于内在亚型的乳腺癌风险预测值监管,J.Clin。Oncol,27,1160-1167(2009)
[35] Perou,C.M.、T.Sörlie、M.B.Eisen、M.van de Rijn、S.S.Jeffrey、C.A.Rees、J.R.Pollack、D.T.Ross、H.Johnsen、L.A.Akslen和Ø。Fluge(2000):“人类乳腺肿瘤的分子肖像”,《自然》,406747-752。;佩罗,C.M。;瑟利,T。;艾森,M.B。;van de Rijn,M。;杰弗里,S.S。;Rees,C.A。;Pollack,J.R。;Ross,D.T。;Johnsen,H。;洛杉矶阿克斯林。;Fluge,Ø。,人类乳腺肿瘤的分子肖像,《自然》,406747-752(2000)
[36] Qin,Z.S.(2006):“利用加权中餐馆过程聚类微阵列基因表达数据”,生物信息学,1988年至1997年22月。;Qin,Z.S.,使用加权中餐厅过程聚类微阵列基因表达数据,生物信息学,1988年至1997年22月(2006年)
[37] Rodriguez,A.和D.B.Dunson(2014):“嵌套设计中的功能聚类:生殖流行病学研究中的可变性建模”,Ann.Appl。统计,81416-1442。;罗德里格斯,A。;Dunson,D.B.,《嵌套设计中的功能聚类:生殖流行病学研究中的可变性建模》,Ann.Appl。统计,81416-1442(2014)·Zbl 1303.62040号
[38] Rousseeuw,P.J.(1987):“轮廓:聚类分析解释和验证的图形辅助”,J.Compute。申请。数学。,20, 53-65.; Rousseeuw,P.J.,《Silhouettes:聚类分析解释和验证的图形辅助》,J.Comput。申请。数学,20,53-65(1987)·兹伯利0636.62059
[39] Schwarz,M.I.和T.E.King(2003):间质性肺病。第五版,谢尔顿,康涅狄格州:美国人民医学出版社。;M.I.施瓦兹。;King,T.E.,间质性肺病。第5版,谢尔顿(2003)
[40] Sethuraman,J.(1994):“狄利克雷先验的建设性定义”,《法律总汇》。,4, 639-650.; Sethuraman,J.,《Dirichlet priors的构造性定义》,Stat.Sin,4639-650(1994)·Zbl 0823.62007号
[41] Sorlie,T.,C.M.Perou,R.Tibshirani,T.Aas,S.Geisler,H.Johnsen,T.Hastie,M.Eisen,M.Van de Rijn,S.Jeffrey和T.Thorsen(2001):“乳腺癌的基因表达模式区分具有临床意义的肿瘤亚类,”Proc。国家。阿卡德。科学。,98, 10869-10874.; Sorlie,T。;佩鲁,C.M。;Tibshirani,R。;Aas,T。;盖斯勒,S。;Johnsen,H。;哈斯蒂,T。;艾森,M。;Van de Rijn,M。;杰弗里,S。;Thorsen,T.,乳腺癌的基因表达模式区分具有临床意义的肿瘤亚类,Proc。国家。阿卡德。科学,98,10869-10874(2001)
[42] Tamayo,P.,D.Scanfeld,B.L.Ebert,M.A.Gillette,C.W.Roberts和J.P.Mesirov(2007):“跨平台的元基因投影,全球转录状态的跨物种表征”,Proc。国家。阿卡德。科学。,104, 5959-5964.; Tamayo,P。;Scanfeld,D。;Ebert,B.L。;Gillette,医学硕士。;罗伯茨,C.W。;梅西洛夫,J.P.,跨平台元基因投影,全球转录状态的跨物种表征,Proc。国家。阿卡德。科学,104,5959-5964(2007)
[43] 癌症基因组图谱网络(2012):“人类乳腺肿瘤的综合分子肖像”,《自然》,49061-70。;《人类乳腺肿瘤的综合分子肖像》,《自然》,49061-70(2012)
[44] Vestbo,J.(2014):“慢性阻塞性肺病:定义和表型”,临床。胸部医学,35,1-6。;Vestbo,J.,COPD:定义和表型,临床。《胸科医学》,35,1-6(2014)
[45] Walker,S.G.(2007):“用切片取样Dirichlet混合模型”,Commun。统计模拟。计算。,36, 45-54.; Walker,S.G.,带切片的Dirichlet混合模型采样,Commun。统计模拟。计算,36,45-54(2007)·Zbl 1113.62058号
[46] West,M.(2003):“大p,小n”范式中的贝叶斯因子回归模型”,in:Bernardo,J.,M.Bayarri,A.Dawid,D.Heckerman,A.Smith和M.West(编辑),贝叶斯统计,第7卷,牛津:牛津大学出版社,第723-732页print“>West,M.2003“大p,小n”范式中的贝叶斯因子回归模型Bernardo,J.Bayarri,M.Dawid,A.Heckerman,D.Smith,A.West,M Bayesian Statistics,第7卷牛津大学出版社723732
[47] Wigle,D.A.,I.Jurisica,N.Radulovich,M.Pintile,J.Rossant,N.Liu,C.Lu,J.Woodgett,I.Seiden,M.Johnston和S.Keshavjee(2002年):“非小细胞肺癌的分子剖析及其与无病生存的相关性”,《癌症研究》,62,3005-3008。;Wigle,D.A。;法学,I。;Radulovich,N。;Pintile,M。;罗桑特,J。;刘,N。;卢,C。;伍德盖特,J。;塞登,I。;约翰斯顿,M。;Keshavjee,S.,非小细胞肺癌的分子特征及其与无病生存率的相关性,癌症研究,623005-3008(2002)
[48] Wold,S.、K.Esbensen和P.Geladi(1987):“主成分分析”,《化学计量学》。智力。实验室系统。,2(1-3), 37-52.; 沃尔德,S。;Esbensen,K。;Geladi,P.,主成分分析,化学计量学。智力。实验室系统。,2, 37-52 (1987)
[49] Yang,M.和D.B.Dunson(2010):“带潜在变量的贝叶斯半参数结构方程模型”,《心理测量学》,75,675-693。;杨,M。;邓森,D.B.,带潜在变量的贝叶斯半参数结构方程模型,《心理测量学》,75,675-693(2010)·Zbl 1208.62048号
[50] Yeung,K.Y.和W.L.Ruzzo(2001):“聚类基因表达数据的主成分分析”,生物信息学,17,763-774。;Yeung,K.Y。;Ruzzo,W.L.,聚类基因表达数据的主成分分析,生物信息学,17,763-774(2001)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。