×

使用测序数据进行DNA拷贝数研究的惩罚回归方法。 (英语) Zbl 1420.92085号

摘要:对高通量下一代测序(NGS)数据进行建模仍然是一个挑战,该数据来自于旨在分析肿瘤和控制样本以研究DNA拷贝数变体(CNV)的实验。在本应用工作中,我们提供了一种使用NGS读取比率数据检测多个CNV的有效方法。该方法基于一个带有惩罚回归方法的多统计变化点模型,即一维融合LASSO,它是为一维结构中的有序数据设计的。此外,由于路径算法将解作为调谐参数的函数进行跟踪,因此可以有效地同时估计潜在CNV区域边界的数量和位置。对于调整参数的选择,我们随后提出了一种新的改进的贝叶斯信息准则,称为JMIC,并将所提出的JMIC与文献中使用的三种不同的贝叶斯信息准则进行了比较。仿真结果表明,与其他三种准则相比,JMIC在参数选择方面具有更好的性能。我们将我们的方法应用于乳腺癌细胞系HCC1954与其匹配的正常细胞系BL1954之间读取比率的测序数据,结果与文献中发现的结果一致。

MSC公司:

92D20型 蛋白质序列,DNA序列
62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Abyzov,A.,A.E.Urban,M.Snyder和M.Gerstein(2011年):“CNVnator:从家族和人群基因组测序中发现、基因型和特征典型和非典型CNV的方法”,《基因组研究》,21974-984。
[2] 生物基。(2013):生物数据库www.Biobase-international.com。
[3] Boeva,V.、A.Zinovyev、K.Bleakley、J.Vert、I.Janoueix-Lerosey、O.Delatter和E.Barillot(2011):“使用GC含量归一化对深度排序数据中拷贝数变化的无控制调用”,生物信息学,27,268-269。
[4] Chen,J.和Y.P.Wang(2009):“检测阵列cgh数据中DNA拷贝数变化的统计变化点模型方法”,IEEE/ACM Trans。计算。生物信息学。,6, 529-541.
[5] Chiang,D.Y.,G.Getz,D.B.Jaffe,M.J.T.O'Kelly,X.Zhao,S.L.Carter,C.Russ,C.Nusbaum,M.Meyerson和E.S.Lander(2009):“利用大规模平行测序对拷贝数变化进行高分辨率绘图”,《自然方法》,第699-103页。
[6] Duan,J.,J.Zhang,H.Deng和Y.Wang(2013):“CNV-TV:一种从短测序读数中发现拷贝数变化的稳健方法,”BMC生物信息学,14150。
[7] Eilers,P.和R.De Menezes(2005):“阵列CGH数据的分位数平滑”,生物信息学,211146-1153。
[8] Gill,P.E.,W.Murray和M.A.Saunders(1997):SQOPT 5.3用户指南:用于大规模线性和二次规划的Fortran包。加州大学圣地亚哥分校数学系机构技术代表NA 97-4。
[9] Huang,T.,B.Wu,P.Lizardi和H.Zhao(2005):“利用惩罚最小二乘回归检测DNA拷贝数变化”,生物信息学,21,3811-3817。
[10] Levy-leduc,C.和Z.Harchaoui(2008):“用套索捕捉变化点”,《高级神经信息处理》。系统。,20, 617-624.
[11] Ji,T.和J.Chen(2015):“DNA拷贝数变异研究的下一代测序读取计数数据建模”,Stat.Appl。遗传学。分子生物学。,14, 361-374. ·2017年9月13日Zbl
[12] Lee,J.(2017):使用下一代测序数据进行DNA拷贝数变异检测的1d融合套索中的修改信息标准。向美国佐治亚州奥古斯塔奥格斯塔大学研究生院提交博士论文。
[13] Li,Y.和J.Zhu(2007):“使用融合分位数回归分析癌症研究的阵列CGH数据”,生物信息学,232470-2476。
[14] Magi,A.、L.Tattini、T.Pippucci、F.Torricelli和M.Benelli(2012):“DNA拷贝数变异检测的读取计数方法”,生物信息学,28,470-478。
[15] Olshen,A.B.,E.S.Venkatraman,R.Lucito和M.Wigler(2004):“基于阵列的DNA拷贝数数据分析的循环二进制分割”,《生物统计学》,557-572·Zbl 1155.62478号
[16] Pan,J.和J.Chen(2006):“修正信息准则在多个变化点问题中的应用”,J.Multivar Anal。,97, 2221-2241. ·Zbl 1101.62050号
[17] Picard,F.、S.Robin、M.Lavielle、C.Vaisse和J.Daudin(2005):“阵列CGH数据分析的统计方法”,BMC生物信息学,6,1。
[18] Qian,J.和L.Su(2016):“具有多重结构变化的回归模型的收缩估计”,《经济学》。理论,321376-1433·Zbl 1385.62018号
[19] 谢伊宁,I.,D.Sie,H.Bengtsson,M.A.Van De Wiel,A.B.Olshen,H.F.Van Thuijl,P.P.Eijk,F.勒斯滕堡,G.A.Meijer,J.C.Reijneveld,P.Wesseling,D.Pinkel,D.G.Albertson和B.Ylstra。(2014):“通过浅全基因组测序对新鲜和福尔马林固定标本进行DNA拷贝数分析,识别并排除基因组组装中的问题区域”,《基因组研究》,2022-2032年第24期。
[20] Schwarz,G.(1978):“估算模型的维数”,《Ann.Stat.》,第6期,第461-464页·Zbl 0379.62005年
[21] Teo,S.M.、Y.Pawitan、C.S.Ku、K.S.Chia和A.Salim(2012):“与检测拷贝数相关的统计挑战”,生物信息学,28,2711-2718。
[22] Tibshirani,R.J.(1996):“通过LASSO进行回归收缩和选择”,《皇家统计学会期刊》,58,267-288·Zbl 0850.62538号
[23] Tibshirani,R.和P.Wang(2008):“使用融合套索对CGH数据进行空间平滑和热点检测”,生物统计学,9,18-29·Zbl 1274.62886号
[24] Tibshirani,R.J.和J.Taylor(2011):“广义LASSO的解路径”,《Ann.Stat.》,第39期,第1335-1371页·Zbl 1234.62107号
[25] Tibshirani,R.、M.A.Saunders、S.Rosset、J.Zhu和K.K.Knight(2005):“通过融合LASSO实现的稀疏性和平滑性”,《皇家统计学会杂志》,第67期,第91-108页·Zbl 1060.62049号
[26] Wang,P.,Y.Kim,J.Pollack,B.Narasimhan和R.Tibshirani(2005):“计算阵列CGH数据中增益和损耗的方法”,《生物统计学》,第6期,第45-58页·Zbl 1069.92014年9月
[27] Xie,C.和M.Tammi(2009):“CNV-seq,一种使用高通量测序检测拷贝数变化的新方法”,BMC生物信息学,10,80。
[28] Yao,Y.C.和S.T.Au(1989):“阶跃函数的最小二乘估计”,Sankhya Ser。A、 51、370-381页·Zbl 0711.62031号
[29] Zhang,N.R.和D.O.Siegmund(2007):“一种改进的贝叶斯信息标准及其在比较基因组杂交数据分析中的应用”,《生物计量学》,63,22-32·Zbl 1206.62174号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。