×

乳腺癌组织学图像和基因组协变量的联合和个体分析。 (英语) 兹比尔1498.62197

摘要:乳腺癌研究的两种主要方法是组织病理学(分析肿瘤的视觉特征)和基因组学。虽然组织病理学和基因组学都是癌症研究的基础,但这些领域之间的联系相对肤浅。我们通过开发一个综合性、探索性的分析框架来调查卡罗来纳州乳腺癌研究,从而弥合了这一差距。我们的分析提供了一些对病理学家和遗传学家都有吸引力的见解——一些已知的,一些新颖的。我们的分析框架基于用于统计数据集成的基于角度的联合和个体变异解释(AJIVE),并利用卷积神经网络(CNN)作为强大的自动图像特征提取方法。CNN提出了可解释性问题,我们通过开发新的方法来探索应用于CNN特征的统计算法(例如PCA或AJIVE)捕获的视觉变化模式来解决这些问题。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
62H25个 因子分析和主成分;对应分析
68T07型 人工神经网络与深度学习
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Adebayo,J.、Gilmer,J.,Muelly,M.、Goodfellow,I.、Hardt,M.和Kim,B.(2018年)。检查显著性映射的合理性。神经信息处理系统研究进展9505-9515.
[2] Aeffner,F.、Zarella,M.D.、Buchbinder,N.、Bui,M.M.、Goodman,M.R.、Hartman,D.J.、Lujan,G.M.、Molani,M.A.、Parwani,A.V.等人(2019年)。全滑动成像中数字图像分析简介:数字病理协会的白皮书。《病理学杂志》。通知。10
[3] Allott,E.H.、Geradts,J.、Cohen,S.M.、Khoury,T.、Zirpoli,G.R.、Bshara,W.、Davis,W.,Omilian,A.、Nair,P.等人(2018年)。AMBER联合会中非裔美国妇女乳腺癌亚型的频率。乳腺癌研究。20 12.
[4] Ash,J.、Darnell,G.、Munro,D.和Engelhardt,B.(2018年)。基因表达水平和组织学图像的联合分析确定了与组织形态学相关的基因。生物Rxiv458711
[5] Backenroth,D.、Goldsmith,J.、Harran,M.D.、Cortes,J.C.、Krakauer,J.W.和Kitago,T.(2018)。使用异方差函数主成分分析对运动学习建模。J.Amer。统计师。协会。113 1003-1015. ·Zbl 1402.62350号 ·doi:10.1080/01621459.2017.1379403
[6] Beck,A.H.、Sangoi,A.R.、Leung,S.、Marinelli,R.J.、Nielsen,T.O.、van de Vijver,M.J.,West,R.B.、van der Rijn,M.和Koller,D.(2011)。乳腺癌形态学的系统分析揭示了与生存相关的基质特征。科学。翻译。医学。3 108ra113·doi:10.1126/scitranslmed.3002564
[7] Bejnordi,B.E.,Mullooly,M.,Pfeiffer,R.M.,Fan,S.,Vacek,P.M.、Weaver,D.L.、Herschorn,S.、Brinton,L.A.、van Ginneken,B.等人(2018年)。在诊断性乳腺活检中使用深度卷积神经网络识别和分类肿瘤相关基质。国防部。病态。31 1502.
[8] Benjamini,Y.和Hochberg,Y.(1995年)。控制错误发现率:一种实用且强大的多重测试方法。J.罗伊。统计师。Soc.序列号。B类57 289-300. ·Zbl 0809.62014号
[9] Bishop,C.M.和Tipping,M.E.(1998年)。用于数据可视化的分层潜在变量模型。IEEE传输。模式分析。机器。智力。20 281-293.
[10] Caldarella,A.,Buzzoni,C.,Crocetti,E.,Bianchi,S.,Vezzosi,V.,Apicella,P.,Biancalani,M.,Gianini,A.,Urso,C.等人(2013)。侵袭性乳腺癌:组织学类型和分子亚群之间的显著相关性。癌症研究临床杂志。肿瘤。139 617-623.
[11] Carey,L.A.、Perou,C.M.、Livasy,C.A.、Dressler,L.G.、Cowan,D.、Conway,K.、Karaca,G.、Troester,M.A.、Tse,C.K.等人(2006年)。卡罗莱纳州乳腺癌研究中的种族、乳腺癌亚型和生存率。日本汽车制造商协会295 2492-2502.
[12] Carmichael,I.(2020年)。pyjive:AJIVE的Python包。可在https://github.com/idc9/py_jive。 ·doi:10.5281/zenodo.4091752
[13] Carmichael,I.、Calhoun,B.C.、Hoadley,K.A.、Troester,M.A.、Geradts,J.、Couture,H.D.、Olsson,L.、Perou,C.M.、Niethammer,M.、Hannig,J.和Marron,J.S.(2021年)。补充“乳腺癌组织学图像和基因组协变量的联合和个体分析”https://doi.org/10.1214/20-AOAS1433SUPA网站https://doi.org/10.1214/20-AOAS1433SUPB网站https://doi.org/10.1214/20-AOAAS1433SUPPC。
[14] Chen,C.、Li,O.、Tao,C.、Barnett,A.J.、Su,J.和Rudin,C.(2018a)。这看起来像是:可解释图像识别的深度学习。预印。可从arXiv:1806.10574获取。
[15] Chen,P.-H.C.、Gadepalli,K.、MacDonald,R.、Liu,Y.、Nagpal,K.和Kohlberger,T.、Dean,J.、Corrado,G.S.、Hipp,J.D.等人(2018b)。显微镜2.0:具有实时人工智能集成的增强现实显微镜。预印。可从arXiv:1812.00825获取。
[16] Chen,R.J.、Lu,M.Y.、Wang,J.、Williamson,D.F.、Rodig,S.J.、Lindeman,N.I.和Mahmood,F.(2019年)。病理融合:融合组织病理学和基因组特征用于癌症诊断和预后的综合框架。预印本。arXiv:1912.08937提供。
[17] Cholet-Hinton,L.、Puvanesarajah,S.、Sandhu,R.、Kirk,E.L.、Midkiff,B.R.、Ghosh,K.、Brandt,K.R.、Scott,C.G.、Gierach,G.L.等人(2018年)。基质改变了良性乳腺中风险因素暴露和年龄相关上皮退化之间的关系。国防部。病态。31 1085.
[18] Colleoni,M.,Rotmensz,N.,Maisonneuve,P.,Mastropasqua,M.G.,Luini,A.,Veronesi,P.、Intra,M.、Montagna,E.、Cancello,G.等人(2011年)。特殊类型管腔型乳腺癌的预后。安·昂科尔。23 1428-1436.
[19] Cooper,L.A.D.、Kong,J.、Gutman,D.A.、Dunn,W.D.、Nalisnik,M.和Brat,D.J.(2015)。通过先进的分子平台和整个幻灯片图像的计算分析,实现了人类癌症中新的基因型-表型关联。实验室投资。95 366-376. ·doi:10.1038/lipinvest.2014.153
[20] Coudray,N.、Ocampo,P.S.、Sakellaropoulos,T.、Narula,N.,Snuderl,M.、Fenyö,D.、Moreira,A.L.、Razavian,N.和Tsirigos,A.(2018年)。利用深度学习对非小细胞肺癌组织病理学图像进行分类和突变预测。自然医学。24 1559-1567. ·文件编号:10.1038/s41591-018-0177-5
[21] Couture,H.D.、Williams,L.A.、Geradts,J.、Nyante,S.J.、Butler,E.N.、Marron,J.S.、Perou,C.M.、Troester,M.A.和Niethammer,M.(2018)。图像分析与深度学习预测乳腺癌分级、ER状态、组织学亚型和固有亚型。npj乳腺癌4 30。
[22] Deng,J.,Dong,W.,Socher,R.,Li,L.-J.,Li.,K.和Fei-Fei,L.(2009)。Imagenet:大规模分层图像数据库。2009年计算机视觉和模式识别大会上248-255. 电气与电子工程师协会。
[23] Di Saverio,S.、Gutierrez,J.和Avisar,E.(2008)。回顾性分析11400例纯粘液性乳腺癌的长期随访。乳腺癌研究治疗。111 541-547.
[24] Diab,S.G.、Clark,G.M.、Osborne,C.K.、Libby,A.、Allred,D.C.和Elledge,R.M.(1999)。管状和粘液性乳腺癌的肿瘤特征和临床转归。临床杂志。肿瘤。17 1442-1448. ·doi:10.1200/JCO.1999.17.5.1442
[25] Draper,B.、Kirby,M.、Marks,J.、Marrinan,T.和Peterson,C.(2014)。混合维数的子空间的有限集合的标志表示。线性代数应用。451 15-32. ·Zbl 1326.14118号 ·doi:10.1016/j.laa.2014.03.022
[26] Eiro,N.、Gonzalez,L.O.、Fraile,M.、Cid,S.、Schneider,J.和Vizoso,F.J.(2019年)。乳腺癌肿瘤基质:细胞成分、表型异质性、细胞间通讯、预后影响和治疗机会。癌症11 664.
[27] Elmore,J.G.、Longton,G.M.、Carney,P.A.、Geller,B.M.、Onega,T.、Tosteson,A.N.、Nelson,H.D.、Pepe,M.S.、Allison,K.H.等人(2015)。病理学家解释乳腺活检标本的诊断一致性。日本汽车制造商协会313 1122-1132.
[28] Elston,C.W.和Ellis,I.O.(2002年)。乳腺癌的病理预后因素。乳腺癌组织学分级的价值:一项长期随访的大型研究的经验。CW Elston&IO Ellis公司。组织病理学1991;19;403-410:作者评论。组织病理学41 151-151.
[29] Feng,Q.、Jiang,M.、Hannig,J.和Marron,J.S.(2018)。解释了基于角度的关节和个体变化。《多元分析杂志》。166 241-265. ·Zbl 1408.62113号 ·doi:10.1016/j.jmva.2018.03.008
[30] Gaynanova,I.和Li,G.(2019年)。多视图数据的结构学习和集成分解。生物计量学75 1121-1132. ·兹比尔1448.62163 ·doi:10.1111/biom.13108
[31] Goodfellow,I.、Pouget-Abadie,J.、Mirza,M.、Xu,B.、Warde-Farley,D.、Ozair,S.、Courville,A.和Bengio,Y.(2014)。生成性对抗网络。神经信息处理系统研究进展2672-2680.
[32] Heng,Y.J.,Lester,S.C.,Tse,G.M.,Factor,R.E.,Allison,K.H.,Collins,L.C.,Chen,Y.-Y.,Jensen,K.C.,Johnson,N.B.等人(2017年)。乳腺癌病理表型的分子基础。《病理学杂志》。241 375-391.
[33] Holzinger,A.、Langs,G.、Denk,H.、Zatloukal,K.和Müller,H.(2019年)。医学中人工智能的因果性和解释性。威利公司(Wiley Interdiscip)。版本数据最小知识。发现。e1312。
[34] Hotelling,H.(1936)。两组变量之间的关系。生物特征. ·JFM 62.0618.04号
[35] Hunter,J.D.(2007)。Matplotlib:一个二维图形环境。计算。科学。工程师。9 90.
[36] Ilse,M.、Tomczak,J.M.和Welling,M.(2018年)。基于注意力的深度多实例学习。预印。arXiv:1802.04712提供。
[37] Jiménez,G.和Racceanu,D.(2019年)。计算病理学中语义分割与分类的深度学习:应用于乳腺癌分级中的有丝分裂分析。前面。生物工程。生物技术。7 145.
[38] Johnstone,I.M.(2008)。多元分析和雅可比系综:最大特征值、Tracy-Widom极限和收敛速度。安。统计师。36 2638-2716. ·Zbl 1284.62320号 ·doi:10.1214/08-AOS605
[39] Jones,E.、Oliphant,T.和Peterson,P.(2014)。SciPy:Python的开源科学工具。
[40] Kettering,J.R.(1971)。多组变量的规范分析。生物特征58 433-451. ·Zbl 0225.62072号 ·doi:10.1093/biomet/58.3433
[41] Kim,B.、Wattenberg,M.、Gilmer,J.、Cai,C.、Wexler,J.和Viegas,F.等人(2018年)。超越特征属性的可解释性:用概念激活向量(TCAV)进行定量测试。机器学习国际会议2673-2682.
[42] Kingma,D.P.和Welling,M.(2013)。自动编码变分贝叶斯。预印。可从arXiv:1312.6114获取。
[43] Komura,D.和Ishikawa,S.(2018年)。用于组织病理学图像分析的机器学习方法。计算。结构。生物技术。J。16 34-42. ·doi:10.1016/j.csbj.2018.01.001
[44] Lacroix-Triki,M.、Suarez,P.H.、MacKay,A.、Lambros,M.B.、Natrajan,R.、Savage,K.、Geyer,F.C.、Weigelt,B.、Ashworth,A.等人(2010年)。乳腺粘液癌在基因组上与无特殊类型的浸润性导管癌不同。《病理学杂志》。222 282-298.
[45] Lazard,D.、Sastre,X.、Frid,M.G.、Glukhova,M.A.、Thiery,J.-P.和Koteliansky,V.E.(1993)。正常和恶性乳腺组织的肌上皮和基质肌成纤维细胞中平滑肌特异性蛋白的表达。程序。国家。阿卡德。科学。美国90 999-1003.
[46] Liu,Y.、Gadepalli,K.、Norouzi,M.、Dahl,G.E.、Kohlberger,T.、Boyko,A.、Venugopalan,S.、Timofeev,A.,Nelson,P.Q.等人(2017)。在gigapixel病理图像上检测癌症转移。预印本。可在arXiv:1703.02442上获得。
[47] Liu,Y.,Kohlberger,T.,Norouzi,M.,Dahl,G.E.,Smith,J.L.,Mohtashamian,A.,Olson,N.,Peng,L.H.,Hipp,J.D.等人(2018年)。基于人工智能的乳腺癌淋巴结转移检测:病理学家的黑匣子洞察力。架构(architecture)。病态。医学实验室。.
[48] Livasy,C.A.、Karaca,G.、Nanda,R.、Tretiakova,M.S.、Olopade,O.I.、Moore,D.T.和Perou,C.M.(2006)。浸润性乳腺癌基底样亚型的表型评估。国防部。病态。19 264.
[49] Lock,E.F.、Hoadley,K.A.、Marron,J.S.和Nobel,A.B.(2013)。用于多数据类型综合分析的联合和个体差异解释(JIVE)。Ann.应用。斯达。7 523-542. ·Zbl 1454.62355号 ·doi:10.1214/12-AOAS597
[50] Lu,M.Y.、Chen,R.J.、Wang,J.、Dillon,D.和Mahmood,F.(2019年)。使用深度多实例学习和对比预测编码进行半监督组织学分类。预印本。arXiv:1910.10825提供。
[51] Macenko,M.、Niethammer,M.,Marron,J.S.、Borland,D.、Woosley,J.T.、Guan,X.、Schmitt,C.和Thomas,N.E.(2009年)。一种用于定量分析的组织切片标准化方法。2009年IEEE生物医学成像国际研讨会以下为:从纳米到宏1107-1110. 电气与电子工程师协会。
[52] Mahmood,F.、Yang,Z.、Ashley,T.和Durr,N.J.(2018年)。多模密度。预印。可从arXiv:1811.07407获取。
[53] Mahmood,F.、Borders,D.、Chen,R.、McKay,G.N.、Salimian,K.J.、Baras,A.和Durr,N.J.(2019年)。组织病理学图像中多器官细胞核分割的深度对抗训练。IEEE传输。医学图像。.
[54] McKinney,W.(2011)。Pandas:用于数据分析和统计的基本Python库。Python高性能科学。计算。14
[55] Molnar,C.等人(2018)。可解释机器学习以下为:黑盒模型解释指南.电子书位于https://christophm.github.io/cinterpretable-ml-book/,版本日期为10。
[56] Network,C.G.A.等人(2012年)。人类乳腺肿瘤的全面分子肖像。自然490 61.
[57] Oh,D.S.、Troester,M.A.、Usary,J.、Hu,Z.、He,X.、Fan,C.、Wu,J.,Carey,L.A.和Perou,C.M.(2006)。雌激素调节基因预测激素受体阳性乳腺癌的生存率。临床杂志。肿瘤。24 1656-1664.
[58] Olah,C.、Satyanarayan,A.、Johnson,I.、Carter,S.、Schubert,L.、Ye,K.和Mordvintsev,A.(2018)。可解释性的构建块。蒸馏3 e10。
[59] Oord,A.v.d.,Li,Y.和Vinyals,O.(2018年)。用对比预测编码进行表征学习。预印本。可从arXiv:1807.03748获得。
[60] Otsu,N.(1979)。从灰度直方图中选择阈值的方法。IEEE传输。系统。人类网络。9 62-66.
[61] Parker,J.S.、Mullins,M.、Cheang,M.C.、Leung,S.、Voduc,D.、Vickery,T.、Davies,S.和Fauron,C.、He,X.等人(2009年)。基于内在亚型的乳腺癌风险预测值的监测。临床杂志。肿瘤。27 1160.
[62] Paszke,A.、Gross,S.、Chintala,S.,Chanan,G.、Yang,E.、DeVito,Z.、Lin,Z.和Desmaison,A.、Antiga,L.等人(2017年)。PyTorch中的自动区分。
[63] Pedregosa,F.、Varoqueux,G.、Gramfort,A.等人(2011年)。Scikit-learn:Python中的机器学习。J.马赫。学习。物件。12 2825-2830·Zbl 1280.68189号
[64] Perou,C.M.、SØrlie,T.、Eisen,M.B.、Van De Rijn,M.、Jeffrey,S.S.、Rees,C.A.、Pollack,J.R.、Ross,D.T.、Johnsen,H.等人(2000年)。人类乳腺肿瘤的分子肖像。自然406 747.
[65] Pourzanjani,A.A.、Wu,T.B.、Jiang,R.M.、Cohen,M.J.和Petzold,L.R.(2017)。在亚队列中使用多视图数据了解凝血病:一种分层子空间方法。医疗保健机器学习会议338-351.
[66] Román-Pérez,E.,Casbas-Hernández,P.,Pirone,J.R.,Rein,J.,Carey,L.A.,Lubet,R.A.,Mani,S.A.,Amos,K.D.和Troester,M.A.(2012年)。肿瘤外微环境中的基因表达可预测乳腺癌患者的临床结局。乳腺癌研究。14 R51·doi:10.1186/bcr3152
[67] Rosen,P.P.(2001年)。Rosen乳腺病理学巴尔的摩Williams&Wilkins。
[68] Selvaraju,R.R.、Cogswell,M.、Das,A.、Vedantam,R.、Parikh,D.和Batra,D.(2017)。Grad-cam:通过基于梯度的本地化从深层网络中进行可视化解释。2017年IEEE国际计算机视觉会议(ICCV公司) 618-626. 电气与电子工程师协会。
[69] Sharif Razavian,A.、Azizpour,H.、Sullivan,J.和Carlsson,S.(2014)。美国有线电视新闻网(CNN)的特写是:一个令人震惊的识别基线。IEEE计算机视觉和模式识别研讨会会议记录806-813.
[70] Simonyan,K.和Zisserman,A.(2014)。用于大规模图像识别的深度卷积网络。预印本。可在arXiv:1409.1556上获得。
[71] Springenberg,J.T.、Dosovitskiy,A.、Brox,T.和Riedmiller,M.(2014)。力求简单:全卷积网络。预印本。可从arXiv:1412.6806获得。
[72] Srivastava,A.、Kulkarni,C.、Mallick,P.、Huang,K.和Machiraju,R.(2018)。建立跨组学证据:使用成像和“组学”来描述癌症特征。公共安全局377-388. 新加坡世界科学。
[73] Sundararajan,M.、Taly,A.和Yan,Q.(2017年)。深层网络的公理属性。会议记录34第十届国际机器学习会议. 70 3319-3328. JMLR.org。
[74] Troester,M.A.、Sun,X.、Allott,E.H.、Geradts,J.、Cohen,S.M.、Tse,C.-K.、Kirk,E.L.、Thorne,L.B.、Mathews,M.等人(2017年)。卡罗来纳州乳腺癌研究中PAM50亚型的种族差异。J.国家。癌症研究所。110 176-182.
[75] Van Der Walt,S.、Colbert,S.C.和Varoquaux,G.(2011年)。NumPy数组:一种用于高效数值计算的结构。计算。科学。工程师。13 22.
[76] van der Walt,S.、Schönberger,J.L.、Nunez-Iglesias,J.、Boulogne,F.、Warner,J.D.、Yager,N.、Gouillart,E.和Yu,T.(2014)。scikit-image:Python中的图像处理。同行J2 e453·doi:10.7717/peerj.453
[77] Vellido,A.、Martín-Guerrero,J.D.和Lisboa,P.J.(2012)。使机器学习模型具有可解释性。ESANN公司12 163-172. Citeser。
[78] Veta,M.、Heng,Y.J.、Stathonikos,N.、Bejnordi,B.E.、Beca,F.、Wollmann,T.、Rohr,K.、Shah,M.A.、Wang,D.等人(2019)。从全切片图像预测乳腺肿瘤增殖:TUPAC16挑战。医学图像分析。.
[79] Wang,C.,Pécot,T.,Zynger,D.L.,Machiraju,R.,Shapiro,C.L.和Huang,K.(2013)。使用多个数据集确定三阴性乳腺癌的生存相关形态学特征。《美国医学杂志》。协会。20 680-687.
[80] Wang,D.,Khosla,A.,Gargeya,R.,Irshad,H.和Beck,A.H.(2016)。深入学习识别转移性乳腺癌。预打印。可从arXiv:1606.05718获取。
[81] Waskom,M.、Botvinnik,O.、O'Kane,D.、Hobson,P.、Ostblom,J.、Lukauskas,S.、Gemperline,D.C.、Augspurger,T.、Halchenko,Y.等人(2018年)。Seaborn(v0.9.0)。 ·doi:10.5281/zenodo.1313201
[82] Weigelt,B.、Geyer,F.C.、Horlings,H.M.、Kreike,B.、Halfwerk,H.和Reis-Filho,J.S.(2009年)。粘液性和神经内分泌乳腺癌在转录上与无特殊类型的浸润性导管癌不同。国防部。病态。22 1401-1414. ·doi:10.1038/modpathol.2009.112
[83] Wein,L.、Savas,P.、Luen,S.J.、Virassamy,B.、Salgado,R.和Loi,S.(2017)。乳腺癌患者常规临床实践中肿瘤浸润淋巴细胞的临床有效性和实用性:当前和未来方向。前面。肿瘤。7 156. ·doi:10.3389/fonc.2017.00156
[84] Whitfield,M.L.、Sherlock,G.、Saldanha,A.J.、Murray,J.I.、Ball,C.A.、Alexander,K.E.、Matese,J.C.、Perou,C.M.、Hurt,M.等人(2002年)。鉴定人类细胞周期中周期性表达的基因及其在肿瘤中的表达。分子生物学。单元格13 1977-2000.
[85] Williams,L.A.、Hoadley,K.A.、Nichols,H.B.、Geradts,J.、Perou,C.M.、Love,M.I.、Olshan,A.F.和Troester,M.A.(2019年)。被诊断为浸润性导管癌和小叶性乳腺癌的女性在种族、分子和肿瘤特征方面的差异。癌症原因控制30 31-39. ·doi:10.1007/s10552-018-1121-1
[86] 沃尔德,H.(1985年)。偏最小二乘法。统计科学百科全书第卷.6(S.Kotz和N.L.Johnson编辑)。纽约威利。
[87] Yang,Z.和Michailidis,G.(2016)。一种非负矩阵分解方法,用于检测异构组学多模态数据中的模块。生物信息学32 1-8. ·doi:10.1093/bioinformatics/btv544
[88] Yosinski,J.、Clune,J.,Bengio,Y.和Lipson,H.(2014)。深度神经网络中的特征有多大的可转移性?神经信息处理系统研究进展3320-3328.
[89] Zack,G.W.、Rogers,W.E.和Latt,S.A.(1977年)。姐妹染色单体交换频率的自动测量。《组织化学杂志》。细胞化学。25 741-753.
[90] Zeiler,M.D.和Fergus,R.(2014)。可视化和理解卷积网络。欧洲计算机视觉会议818-833. 柏林施普林格
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。