×

应用于变异签名的半参数核独立性测试。 (英语) Zbl 1506.62440号

摘要:癌症是由体细胞突变引起的,体细胞突变的特征组合形成突变特征。尽管发现了许多突变特征,但许多突变特征背后的突变过程仍然未知,这妨碍了识别可能减少体细胞突变负担和预防癌症发展的干预措施。我们证明,突变特征的未知原因可以通过已知病因的相关特征推断出来。然而,由于突变签名数据中存在多余的零,现有的关联测试在统计上并不强大。为了解决这个问题,我们提出了一种半参数核独立性测试(SKIT)。SKIT统计被定义为混合概率分布之间的积分平方距离,并被分解为四个不相交的分量,以查明相关性的来源。我们导出了渐近零分布,并证明了幂的渐近收敛性。由于渐近零分布的收敛速度较慢,因此采用bootstrap方法来计算\(p\)-值。仿真研究表明,当零普遍存在时,SKIT比现有测试对功率损耗更具弹性,并且对随机错误更具鲁棒性。我们将SKIT应用于32种癌症类型中9000多个肿瘤的癌症基因组图谱突变特征数据,并确定了《癌症体细胞突变目录》中的特征17与胃肠道癌症中载脂蛋白B mRNA编辑酶(APOBEC)特征之间的新关联。这表明APOBEC活性可能与未知的17号签名原因有关。

理学硕士:

62页第10页 统计学在生物学和医学中的应用;元分析
62G10型 非参数假设检验
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] 艾哈迈德,I.A。;Li,Q.,“用非参数核方法、统计和概率字母测试独立性,34201-210(1997)·Zbl 0899.62049号 ·doi:10.1016/S0167-7152(96)00183-6
[2] Alexandrov,L.B。;琼斯,P.H。;楔,直流。;Sale,J.E。;坎贝尔,P.J。;Nik-Zainal,S。;Stratton,M.R.,“人体体细胞中的时钟样突变过程”,《自然遗传学》,471402(2015)·数字对象标识代码:10.1038/ng.3441
[3] Alexandrov,L.B。;Kim,J。;新泽西州哈拉德瓦拉。;黄,M.N。;Ng,A.W.T。;Wu,Y。;靴子,A。;科文顿,K.R。;Gordenin,D.A。;Bergstrom,E.N。;Islam,S.A.,《人类癌症突变特征汇辑》,《自然》,57894-101(2020)·doi:10.1038/s41586-020-1943-3
[4] Alexandrov,L.B。;Nik-Zainal,S。;楔形,直流。;坎贝尔,P.J。;Stratton,M.R.,“解读人类癌症突变过程的特征,细胞报告,3246-259(2013)·doi:10.1016/j.celrep.2012.12.008
[5] Basler,H.,“四重列联表中Tie-Corrected Spearman检验和Chi-Square检验之间的等价性”,Metrika,35,203-209(1988)·Zbl 0638.62040号 ·doi:10.1007/BF026113305
[6] Y.本杰米尼。;Hochberg,Y.,“控制错误发现率:一种实用而有力的多重测试方法”,《皇家统计学会杂志》,B辑,57,289-300(1995)·Zbl 0809.62014号 ·doi:10.1111/j.2517-6161.1995.tb02031.x
[7] 布鲁姆·J·R。;基弗,J。;Rosenblatt,M.,“基于样本分布函数的无分布独立性检验”,《数理统计年鉴》,32,485-498(1961)·Zbl 0139.36301号 ·doi:10.1214/aoms/1177705055
[8] 坎贝尔,P。;盖茨,G。;科尔贝尔,J。;斯图亚特·J。;詹宁斯,J。;斯坦因,L。;佩里,M。;Nahal-Bose,H。;Ouellette,B。;李,C。;Rheinbay,E.,“全基因组的泛癌分析”,《自然》,578,82-93(2020)
[9] Donoho,D.L.,《21世纪美国数学学会数学挑战会议演讲辅助记忆》,高维数据分析:维度的诅咒与祝福(2000),加利福尼亚州洛杉矶
[10] Duong,T。;Hazelton,M.L.,“用于多变量核密度估计的交叉验证带宽矩阵”,斯堪的纳维亚统计杂志,32485-506(2005)·Zbl 1089.62035号 ·doi:10.1111/j.1467-9469.2005.00445.x
[11] Gonzalez-Perez,A。;Sabarinathan,R。;Lopez-Bigas,N.,“人类基因组突变景观的局部决定因素,细胞,177101-114(2019)·doi:10.1016/j.cell.2019.02.051
[12] 格雷顿,A。;Fukumizu,K。;Teo,C.H。;宋,L。;Schölkopf,B。;Smola,A.J.,《独立性的核心统计检验》,《神经信息处理系统的进展》,585-592(2008)
[13] 格雷顿,A。;Györfi,L.,“一致的非参数独立性测试”,《机器学习研究杂志》,11391-1423(2010)·Zbl 1242.62033号
[14] Hall,P.,“多元非参数密度估计器积分平方误差的中心极限定理,多元分析杂志,14,1-16(1984)·Zbl 0528.62028号 ·doi:10.1016/0047-259X(84)90044-7
[15] Helleday,T。;埃什塔德,S。;Nik-Zainal,S.,“人类癌症突变特征的机制,《自然评论遗传学》,第15期,585-598页(2014年)·doi:10.1038/nrg3729
[16] 亨德森·D·J。;Parmeter,C.F.,《应用非参数计量经济学》(2015),纽约:剑桥大学出版社,纽约·Zbl 1305.62004号
[17] 霍夫丁,W.,“独立性的非参数检验,《数理统计年鉴》,19546-557(1948)·Zbl 0032.42001号 ·doi:10.1214/aoms/1177730150
[18] Kumar,M.S。;Slud,E.V。;Okrah,K。;希克斯,南卡罗来纳州。;Hannenhalli,S。;Bravo,H.C.,“稀疏序列计数数据中成分偏差的分析和校正”,BMC基因组学,19,799(2018)·doi:10.1186/s12864-018-5160-5
[19] Lee,D.D。;Seung,H.S.,“通过非负矩阵分解学习对象的各个部分”,《自然》,401,788(1999)·Zbl 1369.68285号 ·doi:10.1038/44565
[20] 李,C.-S。;卢,J.-C。;Park,J。;Kim,K。;Brinkley,P.A。;Peterson,J.P.,“多元零膨胀泊松模型及其应用,技术计量学,41,29-38(1999)·doi:10.1080/00401706.1999.10485593
[21] 李强。;Maasoumi,E。;Racine,J.S.,“混合类别和连续数据分布均匀性的非参数检验”,《计量经济学杂志》,148186-200(2009)·Zbl 1429.62157号 ·doi:10.1016/j.jeconom.2008.10.007
[22] 刘,B。;Mojirsheibani,M.,“关于核密度估计、统计和概率字母Lp范数的加权Bootstrap近似,105,65-73(2015)·Zbl 1396.62074号 ·doi:10.1016/j.spl.2015.06.005
[23] O'Brien,T.A。;Kashinath,K。;北卡罗来纳州卡瓦诺。;柯林斯,W.D。;O'Brien,J.P.,“一种快速客观的多维核密度估计方法:fastKDE,计算统计学和数据分析,101148-160(2016)·Zbl 1467.62015年 ·doi:10.1016/j.csda.2016.02.014
[24] 奥尔金,I。;Trikalinos,T.A.,“二元贝塔分布的构造,统计与概率快报,96,54-60(2015)·Zbl 1314.62043号 ·doi:10.1016/j.spl.2014.09.013
[25] 奥斯皮纳,R。;Ferrari,S.L.,“一类一般的零或一膨胀贝塔回归模型,计算统计和数据分析,561609-1623(2012)·Zbl 1243.62099号 ·doi:10.1016/j.csda.2011.10.005
[26] Parzen,E.,“关于概率密度函数和模式的估计,《数理统计年鉴》,331065-1076(1962)·Zbl 0116.11302号 ·doi:10.1214/aoms/1177704472
[27] Petljak,M。;Alexandrov,L.B。;布拉梅尔德,J.S。;价格,S。;楔形,直流。;格罗斯曼,S。;道森·K·J。;Ju,Y.S。;艾奥里奥,F。;图比奥,J.M。;Koh,C.C.,“表征人类癌症细胞系的突变特征揭示了偶发性APOBEC突变,细胞,1761282-1294(2019)·doi:10.1016/j.cell.2019.02.012
[28] R核心团队,R:A Language and Environment for Statistical Computing(2019),奥地利维也纳:R统计计算基金会,奥地利维也纳
[29] 里索,D。;佩罗多,F。;Gribkova,S。;Dudoit,S。;Vert,J.-P.,“从单细胞RNA-seq数据中提取信号的通用灵活方法”,《自然通信》,9,284(2018)·doi:10.1038/s41467-017-02554-5
[30] 罗伯茨,S.A。;劳伦斯,M.S。;Klimczak,L.J。;格林,S.A。;法戈,D。;斯托亚诺夫,P。;基辅,A。;Kryukov,G.V。;卡特,S.L。;Saksena,G。;Harris,S.,“APOBEC胞苷脱氨酶突变模式在人类癌症中广泛传播,自然遗传学,45,970-976(2013)·数字对象标识代码:10.1038/ng.2702
[31] Rosenblatt,M.,“关于密度函数的一些非参数估计的评论,《数理统计年鉴》,27832-837(1956)·Zbl 0073.14602号 ·doi:10.1214/aoms/1177728190
[32] Rosenblatt,M.,“二维密度估计偏差的二次测量和独立性检验”,《统计年鉴》,3,1-14(1975)·Zbl 0325.62030号
[33] 罗森布拉特,M。;Wahlen,B.E.,“独立成分假设下的非参数独立性度量,统计和概率字母,15,245-252(1992)·Zbl 0770.62039号 ·doi:10.1016/0167-7152(92)90197-D
[34] Scott,D.W.,《多元密度估计:理论、实践和可视化》(1992),纽约:威利出版社·兹比尔0850.62006
[35] Sejdinovic,D。;Sriperumbudur,B。;格雷顿,A。;Fukumizu,K.,“假设检验中基于距离的统计和基于RKHS的统计的等价性”,《统计年鉴》,第41期,第2263-2291页(2013年)·Zbl 1281.62117号 ·doi:10.1214/13-AOS1140
[36] 鞘管,S.J。;Jones,M.C.,“用于核密度估计的可靠的基于数据的带宽选择方法”,《皇家统计学会杂志》,B辑,53,683-690(1991)·Zbl 0800.62219 ·doi:10.1111/j.2517-6161.1991.tb01857.x
[37] 沈,C。;Priebe,C.E。;Vogelstein,J.T.,“从距离相关性到多尺度图形相关性,美国统计协会杂志,115,280-291(2020)·Zbl 1437.62210号 ·doi:10.1080/01621459.2018.1543125
[38] Silverman,B.W.,《统计和数据分析密度估计》(1986),伦敦:查普曼和霍尔出版社,伦敦·Zbl 0617.62042号
[39] 斯特拉顿,M.R。;坎贝尔,P.J。;Futreal,P.A.,“癌症基因组,自然,458719(2009)·doi:10.1038/nature07943
[40] 谢凯利,G.J。;Rizzo,M.L.,“布朗距离协方差,应用统计年鉴,31236-1265(2009)·Zbl 1196.62077号 ·doi:10.1214/09-AOAS312
[41] 塞克利,G.J。;Rizzo,M.L。;Bakirov,N.K.,“通过距离相关性测量和测试依赖性,统计年鉴,352769-2794(2007)·Zbl 1129.62059号 ·doi:10.1214/0090536007000000505
[42] van Rossum,G.(2018),“Python语言参考:3.7版”
[43] 徐,L。;帕特森,A.D。;Turpin,W。;Xu,W.,“零膨胀微生物组数据竞争模型的评估和选择,PLoS One,10,e0129606(2015)·doi:10.1371/journal.pone.0129606
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。