×

将用于聚类分析的多维数据与癌症患者数据应用程序集成。 (英语) Zbl 1457.62358号

摘要:高通量基因组技术的进展,加上包括癌症基因组图谱(TCGA)项目在内的大规模研究,产生了丰富的各类组学数据资源,以更好地了解癌症病因和治疗反应。与使用单一数据类型相比,使用多种组学数据类型将患者分为具有类似疾病病因和/或治疗反应的亚型有可能提高聚类的精确度。然而,在实践中,患者聚类仍然主要基于单一类型的组学数据或个别数据类型的聚类结果的临时集成,从而导致潜在的信息丢失。通过将每个组学数据类型视为来自患者的不同信息表示,我们提出了一种新的多视图光谱聚类框架,以集成来自同一对象的不同组学数据。我们通过一个非凸优化框架学习每个数据类型的权重以及患者之间的相似性度量。我们使用ADMM算法迭代求解所提出的非凸问题,并显示了算法的收敛性。从理论上和通过各种合成数据对所提出的聚类方法的准确性和鲁棒性进行了研究。当我们的方法应用于TCGA数据时,通过我们的方法推断出的患者集群在集群之间的生存时间上显示出比现有聚类方法推断的更显著的差异。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
62甲12 多元分析中的估计
62M15型 随机过程和谱分析的推断
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Andrew,Y.N。;M.I.乔丹。;Weiss,Y.,《神经信息处理系统的进展》,“光谱聚类:分析和算法”,849-856(2001),麻省理工学院出版社
[2] 贝利,P。;Chang,D.K。;Nones,K。;约翰斯,A.L。;Patch,A.M。;Gingras,M.C。;米勒,D.K。;Christ,A.N。;Bruxner,T.J。;奎因,M.C。;Nourse,C.,“基因组分析识别胰腺癌的分子亚型”,《自然》,531,47-52(2016)·doi:10.1038/nature16965
[3] Bastien,R.R。;阿拉巴马州罗德里格斯-莱斯库雷。;艾伯特,M.T。;普拉特,A。;Munárriz,B。;罗,L。;米勒,P。;Ruiz-Borrego,M。;安德森,D。;Lyons,B。;阿尔瓦雷斯,I.,“通过RT-qPCR和与标准临床分子标记的一致性对PAM50乳腺癌进行分型,BMC医学基因组学,5,44(2012)·doi:10.1186/1755-8794-5-44
[4] Beyer,K。;Goldstein,J。;罗摩克里希南,R。;Shaft,U.,《第七届数据库理论国际会议论文集》,何时“最近邻”有意义,217-235(1999),伦敦:Springer-Verlag,伦敦
[5] 博伊德,S。;北卡罗来纳州帕里赫。;朱,E。;佩莱托,B。;Eckstein,J.,“通过乘数的交替方向方法进行分布式优化和统计学习,机器学习的基础和趋势,3,1-122(2011)·Zbl 1229.90122号 ·doi:10.1561/220000016
[6] 陈,G。;苏利文,P.F。;Kosorok,M.R.,“具有异质方差的双聚类,美国国家科学院学报,110,12253-12258(2013)·Zbl 1292.92002年 ·doi:10.1073/pnas.1304376110
[7] 克里斯特斯库(Cristescu,R.)。;Lee,J。;Nebozhyn,M。;Kim,K.M。;Ting,J.C。;Wong,S.S。;刘杰。;Yu,Y.G。;Wang,J。;Yu,K。;Xiang,S.Y.,“胃癌分子分析确定与不同临床结果相关的亚型,自然医学,21449-456(2015)·doi:10.1038/nm.3850
[8] da Cunha Santos,G。;达尼,N。;图·D。;Chin,K。;卢德科夫斯基,O。;卡梅尔,S.R。;Squire,J。;西帕鲁莱卡。;摩尔,M.J。;Tsao,M.S.,“吉西他滨和厄洛替尼治疗晚期胰腺癌患者第3阶段研究结果的分子预测因素:加拿大国家癌症研究所临床试验小组研究PA.3,癌症,116,5599-5607(2010)·doi:10.1002/cncr.25393
[9] Dattoro,J.,《凸优化与欧几里德距离几何》(2005),加利福尼亚州帕洛阿尔托:美国梅布出版社,加利福尼亚州巴洛阿尔托
[10] 加贝,D。;Mercier,B.,“通过有限元近似求解非线性变分问题的对偶算法,计算机和数学及其应用,217-40(1976)·Zbl 0352.65034号 ·doi:10.1016/0898-1221(76)90003-1
[11] 吉尼,J。;丁斯曼,R。;王,X。;De Reyniès,A。;Schlicker,A。;Soneson,C.公司。;Marisa,L。;罗普曼,P。;Nyamunda,G。;Angelino,P。;Bot,B.M.,“公认的结直肠癌分子亚型,自然医学,211350(2015)·数字对象标识代码:10.1038/nm.3967
[12] 霍德利,K.A。;Yau,C。;Wolf,医学博士。;Cherniack,A.D。;Tamborero,D。;Ng、S。;医学博士Leiserson。;牛,B。;医学博士麦克莱伦。;乌祖南格洛夫。;Zhang,J.,“12种癌症类型的多平台分析揭示了起源组织内和跨组织的分子分类,细胞,158929-944(2014)·doi:10.1016/j.cell.2014.06.049
[13] Houle,M。;Kriegel,H。;克罗格,P。;舒伯特,E。;Zimek,A。;格茨,M。;Ludäscher,B.,《科学和统计数据库管理:第22届国际会议》,德国海德堡SSDBM,《共享邻里距离能否战胜维度诅咒》,482-500(2010),施普林格-柏林-海德堡
[14] Imangaliyev,S。;Levin,E.,《肿瘤亚型识别的无监督多视图特征选择》,第八届ACM生物信息学、计算生物学和健康信息学国际会议论文集,491-499(2017)·数字对象标识代码:10.1145/3107413.107413
[15] Kristensen,V.N。;俄亥俄州林加尔德。;Russnes,H.G。;Vollan,香港特别行政区。;弗里吉斯,A。;Börresen-Dale,A.L.,“癌症综合基因组分析的原则和方法”,《自然评论癌症》,14,299(2014)·doi:10.1038/nrc3271
[16] 库马尔,A。;Rai,P。;Daume,H.,协同正则化多视图光谱聚类,24(2011)
[17] Lee,J。;Jang,K.T。;Ki,C.S。;Lim,T。;帕克,Y.S。;Lim,H.Y.,“表皮生长因子受体(EGFR)激酶突变、EGFR基因扩增和KRAS突变对胰腺癌、癌症生存的影响,109,1561-1569(2007)·doi:10.1002/cncr.22559
[18] 刘,H。;赵,R。;方,H。;Cheng,F。;Fu,Y。;Liu,Y.Y.,“基于熵的患者分层共识聚类,生物信息学,33,2691-2698(2017)·doi:10.1093/bioinformatics/btx167
[19] 刘,Y。;Devescovi,V。;陈,S。;Nardini,C.,“癌症细胞系中的多级Omic数据集成:高级注释和紧急特性”,BMC系统生物学,7,14(2013)·doi:10.1186/1752-0509-7-14
[20] 卢,C。;Yan,S。;Lin,Z.,“凸稀疏光谱聚类:单视图到多视图,IEEE图像处理汇刊,252833-2843(2016)·兹比尔1408.94438 ·doi:10.1109/TIP.2016.2553459
[21] Markert,E.K。;Mizuno,H。;A.巴斯克斯。;Levine,A.J.,“利用治愈的表达特征对前列腺癌进行分子分类,美国国家科学院学报,10821276-21281(2011)·doi:10.1073/pnas.1117029108
[22] 松冈,T。;Yashiro,M.,“胰腺癌治疗的分子靶点:临床和实验研究”,《世界胃肠病学杂志》,22,776(2016)·doi:10.3748/wjg.v22.i2.776
[23] Mermel,C.H。;舒马赫,S.E。;希尔,B。;Meyerson,M.L。;Beroukhim,R。;Getz,G.,“GISTIC2.0促进人类癌症局部体细胞拷贝数改变靶点的敏感和自信定位,基因组生物学,12,R41(2011)·doi:10.1186/gb-2011-12-4-r41
[24] 蒙蒂,S。;Tamayo,P。;梅西洛夫,J。;Golub,T.,“共识聚类:基于重采样的基因表达微阵列数据类发现和可视化方法,机器学习,52,91-118(2003)·Zbl 1039.68103号
[25] Netanely,D。;Avraham,A。;Ben-Baruch,A。;埃夫隆,E。;Shamir,R.,“表达和甲基化模式将Luminal-A乳腺肿瘤划分为不同的预后亚组,乳腺癌研究,18,74(2016)·doi:10.1186/s13058-016-0724-2
[26] 南帕克。;Zhao,H.,“缺少观测值的稀疏主成分分析,应用统计年鉴,第13期,1016-1042页(2019年)·Zbl 1423.62057号 ·doi:10.1214/18-AOAS1220
[27] J.S.帕克。;马林斯,M。;Cheang,M.C。;Leung,S。;Voduc,D。;维克里,T。;戴维斯,S。;Fauron,C。;何,X。;胡,Z。;Quackenbush,J.F.,“基于内在亚型的乳腺癌监督风险预测因子”,《临床肿瘤学杂志》,271160-1167(2009)·doi:10.1200/JCO.2008.18.1370
[28] 佩罗,C.M。;瑟利,T。;艾森,M.B。;Van De Rijn,M。;杰弗里,S.S。;Rees,C.A。;Pollack,J.R。;Ross,D.T。;Johnsen,H。;洛杉矶阿克斯林。;Fluge,Ø。,“人类乳腺肿瘤的分子肖像,《自然》,406747-752(2000)·doi:10.1038/35021093
[29] 拉斐尔,B.J。;Hruban,R.H。;Aguirre,A.J。;莫菲特,R.A。;Yeh,J.J。;斯图尔特,C。;Robertson,A.G。;Cherniack,A.D。;古普塔,M。;盖茨,G。;Gabriel,S.B.,“胰腺导管腺癌的综合基因组特征,癌细胞,32,185-203(2017)·doi:10.1016/j.cell.2017.07.007
[30] Rudelson,M。;Vershynin,R.,“Hanson-Wright不等式和亚高斯浓度,概率电子通信,18,1-9(2013)·Zbl 1329.60056号 ·doi:10.1214/ECP.v18-2865
[31] 塞拉,A。;弗拉特罗,M。;弗蒂诺,V。;Raiconi,G。;Tagliaferri,R。;Greco,D.,“MVDA:一种多视图基因组数据集成方法,BMC生物信息学,16,261(2015)·doi:10.1186/s12859-015-0680-3
[32] 沈,R。;Olshen,A.B。;Ladanii,M.,“使用联合潜在变量模型对多种基因组数据类型进行集成聚类,并应用于乳腺癌和肺癌亚型分析,生物信息学,222906-2912(2009)·doi:10.1093/bioinformatics/btp543
[33] 斯特雷尔,A。;Ghosh,J.,“集群集成——用于组合多个分区的知识重用框架”,《机器学习研究杂志》,3583-617(2003)·Zbl 1084.68759号
[34] 癌症基因组图谱网络,人类乳腺肿瘤的综合分子肖像,《自然》,49061-70(2012)
[35] Verhaak,R.G.公司。;霍德利,K.A。;Purdom,E。;王,V。;齐,Y。;医学博士威尔克森。;Miller,C.R。;丁·L。;Golub,T。;梅西洛夫,J.P。;Alexe,G.,“综合基因组分析确定以PDGFRA、IDH1、EGFR和NF1异常为特征的胶质母细胞瘤临床相关亚型,癌细胞,17,98-110(2010)·doi:10.1016/j.ccr.2009.12.020
[36] 维涅斯瓦兰,K。;尼尔,S。;Hadjipanayis,C.G.,“超越世界卫生组织渗透性胶质瘤分级:胶质瘤分类的分子遗传学进展”,《转化医学年鉴》,3,95(2015)
[37] von Luxburg,U.,“光谱聚类、统计和计算教程,17,395-416(2007)·数字对象标识代码:10.1007/s11222-007-9033-z
[38] Vu,V.Q.,Cho,J.,Lei,J.和Rohe,K.(2013),《范托普投影和选择:稀疏PCA的近最优凸松弛》,NIPS。
[39] 瓦格纳,S。;Wagner,D.,《集群比较——概览》(2007年),卡尔斯鲁厄:卡尔斯鲁赫大学,法库特富尔信息技术学院,卡尔斯鲁厄
[40] 王,B。;朱,J。;皮尔逊,E。;拉马佐蒂,D。;Batzoglou,S.,“基于核的相似性学习对单细胞RNA-Seq数据的可视化和分析,自然方法,14,414-416(2017)·doi:10.1038/nmeth.4207
[41] Wang,J.P。;Wu,C.Y。;Yeh,Y.C。;害羞,Y.M。;Wu,Y.Y。;Kuo,C.Y。;Hung,Y.P。;Chen,M.H。;Lee,W.P。;罗,J.C。;Chao,Y.,“厄洛替尼对表皮生长因子受体突变的胰腺癌有效:一项随机、开放标记的前瞻性试验,Oncotarget,618162-18173(2015)·doi:10.18632/目标4216
[42] 韦恩斯坦,J.N。;Collisson,E.A。;米尔斯,G.B。;Shaw,K.R.M。;Ozenberger,B.A。;Ellrott,K。;施穆列维奇,I。;桑德,C。;斯图亚特·J·M。;癌症基因组图谱研究网络,“癌症基因组图谱泛癌分析项目,自然遗传学,451113-1120(2013)·数字对象标识代码:10.1038/ng.2764
[43] Xu,Y。;Yin,W.,“正则化多凸优化的块坐标下降法及其在非负张量分解和完成中的应用,SIAM成像科学杂志,61758-1789(2013)·Zbl 1280.49042号 ·数字对象标识代码:10.1137/120887795
[44] 张,S。;Liu,C.C。;李伟(Li,W.)。;沈,H。;Laird,P.W。;周小杰,“通过癌症基因组数据的综合分析发现多维模块,核酸研究,409379-9391(2012)·doi:10.1093/nar/gks725
[45] 张伟。;刘,Y。;Sun,N。;王,D。;博伊德·柯卡普,J。;窦,X。;Han,J.D.J.,“整合基因组、表观基因组和转录组特征揭示卵巢癌预后不良的模块化特征,细胞报告,4542-553(2013)·doi:10.1016/j.celrep.2013.07.010
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。