×

一种基于超图划分的有效单倍型组装算法。 (英文) Zbl 1412.92193号

摘要:单倍型组装问题已被证明是复杂的。启发式算法是解决问题的主要方法。当SNP片段无错误时,这些算法表现良好,但当错误率增加时,它们的准确性较差。片段错误导致的复杂关系是组装准确单倍型的主要障碍。因此,对复杂关系进行建模是解决问题的关键。在本研究中,我们使用超图分割公式对单倍型组装问题进行建模,并提出一种新的方法,称为HGHap(基于超图的单倍型装配方法)。HGHap分两个阶段处理单倍型组装问题。在第一阶段,构建一个超图,其中每个顶点对应于一个片段,并且顶点被多重连接以形成超边。在第二阶段,使用超图分割算法获得两组片段来构建单倍型。超边捕获片段之间的高阶关系,以便于后续分割。我们的结果表明,该方法在大多数情况下都优于其他方法,尤其是在错误率较高的情况下。

MSC公司:

92D10型 遗传学和表观遗传学
05C90年 图论的应用
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 奥尔特豪斯,I.W。;周杰杰。;Gonzales,A.J。;Deibel,M.R。;Chou,K.C。;Kezdy,F.J。;Romero,D.L。;亚里士多夫,P.A。;Tarpley,W.G。;Reusser,F.,非核苷HIV-1逆转录酶抑制剂U-87201E的稳态动力学研究,J.Biol。化学。,2686119-6124(1993年)
[2] 奥尔特豪斯,I.W。;周杰杰。;Gonzales,A.J。;Deibel,M.R。;Chou,K.C。;Kezdy,F.J。;Romero,D.L。;Palmer,J.R。;托马斯,R.C。;亚里士多夫,P.A。;Tarpley,W.G。;Reusser,F.,非核苷HIV-1反转录酶抑制剂-U-88204E的动力学研究,生物化学,326548-6554(1993)
[3] 阿尔特豪斯,I.W。;Gonzales,A.J。;周杰杰。;Romero,D.L。;Deibel,M.R。;Chou,K.C。;Kezdy,F.J。;Resnick,L。;Busso,M.E。;所以,A.G。;唐尼,K.M。;托马斯,R.C。;亚里士多夫,P.A。;Tarpley,W.G。;Reusser,F.,喹啉U-78036是HIV-1逆转录酶的有效抑制剂,生物学杂志。化学。,268, 14875-14880 (1993)
[4] Andraos,J.,《无速率定律下生成多个产物的动力学方案的动力学塑性和产物比的测定——基于有向图的新方法》,Can。化学杂志-Revue Canadienne De Chimie,86,342-357(2008)
[5] Bansal,V.公司。;Bafna,V.,HapCUT:单倍型组装问题的高效准确算法,生物信息学,24,I153-I159(2008)
[6] Borgelt,C.,《频繁项目集挖掘》。威利跨学科评论,Data Min.Knowl。Discovery,2437-456(2012)
[7] 坎巴佐格鲁,B.B。;Aykanat,C.,《非结构化网格图像空间并行直接体绘制的基于Hypergraph-partitioning的重映射模型》,IEEE Trans。并行分配系统。,18, 3-16 (2007)
[8] Chen,W。;冯,P.M。;Lin,H。;Chou,K.C.,iRSpot PseDNC:鉴定具有伪二核苷酸组成的重组点,核酸研究,41(2013)
[9] Chen,W。;Lin,H。;冯,P.M。;丁,C。;Zuo,Y.C。;Chou,K.C.,iNuc-PhysChem:一种基于序列的预测因子,用于通过物理化学性质识别核小体,《公共科学图书馆·综合》,第7期(2012年)
[10] 陈,Z。;Fu,B。;Schweller,R。;杨,B。;赵,Z。;Zhu,B.,基于SNP片段的奇异单倍型重建问题的线性时间概率算法,J.Compute。《生物学》,15535-546(2008)
[11] Chou,K.C.,《稳态和非稳态酶动力学中的图形规则》,J.Biol。化学。,264, 12074-12079 (1989)
[12] Chou,K.C.,图表理论在酶动力学和蛋白质折叠动力学中的应用——稳态和非稳态系统,生物物理。化学。,35, 1-24 (1990)
[13] Chou,K.C.,药物代谢系统的图形规则,当前。药物代谢。,11, 369-378 (2010)
[14] Chou,K.C.,关于蛋白质属性预测和伪氨基酸组成的一些评论,J.Theor。生物学,273236-247(2011)·Zbl 1405.92212号
[15] Chou,K.C。;Forsen,S.,《酶催化速率定律的图形规则》,《生物化学》。J.,187,829-835(1980)
[16] Chou,K.C。;Kézdy,F.J。;Reusser,F.,《加工核酸聚合酶和核酸酶动力学》,《分析》。生物化学。,221, 217-230 (1994)
[17] Chou,K.C。;Lin,W.Z。;Xiao,X.,Wenxiang:绘制文祥图的网络服务器,自然科学。,3 (2011)
[18] Chou,K.C。;Shen,H.B.,蛋白质亚细胞定位预测的最新进展,分析。生物化学。,370, 1-16 (2007)
[19] Chou,K.C。;Shen,H.B.,Signal-CF:预测信号肽的亚组偶联和窗口融合方法,《生物化学》。生物物理学。Res.Commun.公司。,357, 633-640 (2007)
[20] Chou,K.C。;Shen,H.B.,《开发用于预测蛋白质属性的网络服务器的最新进展》,《自然科学》。,1 (2009)
[21] 联合会,T.I.H.,《人类基因组的单倍型图谱》,《自然》,4371299-1320(2005)
[22] Duitama,J.、Huebsch,T.、McEwen,G.、Suk,E.K.、Hoehe,M.R.,2010年。ReFHap:一种可靠且快速的单个体单倍型算法。摘自:《第一届ACM生物信息学和计算生物学国际会议论文集》,ACM,尼亚加拉大瀑布,纽约,第160-169页。;Duitama,J.、Huebsch,T.、McEwen,G.、Suk,E.K.、Hoehe,M.R.,2010年。ReFHap:一种可靠快速的单倍型算法。摘自:《第一届ACM生物信息学和计算生物学国际会议论文集》,ACM,尼亚加拉大瀑布,纽约,第160-169页。
[23] Ertoz,L.,Steinbach,M.,Kumar,V.,2003年。在嘈杂的高维数据中发现不同大小、形状和密度的簇。摘自:《第三届SIAM国际会议记录》,第47页。;Ertoz,L.,Steinbach,M.,Kumar,V.,2003年。在嘈杂的高维数据中发现不同大小、形状和密度的簇。摘自:《第三届SIAM国际会议记录》,第47页。
[24] Fan,Y.N。;Xiao,X。;Min,J.L。;Chou,K.C.,iNR药物:预测细胞网络中药物与核受体的相互作用,Int.J.Mol.Sci。,15, 4915-4937 (2014)
[25] C.M.菲杜西亚,R.M.马修修斯,1982年。用于改进网络分区的线性时间启发式算法。收录:ACM IEEE第十九届设计自动化会议论文集,174-181。;C.M.菲杜西亚,R.M.马修修斯,1982年。用于改进网络分区的线性时间启发式算法。收录:ACM IEEE第十九届设计自动化会议论文集,174-181。
[26] Genovese,L.M。;杰拉奇,F。;Pellegrini,M.,SpeedHap:一种针对单个SNP单倍型问题的精确启发式算法,具有许多缺口、高读取错误率和低覆盖率,In:IEEE/ACM计算生物学和生物信息学汇刊,5492-502(2008)
[27] Geraci,F.,单个SNP单倍型重建问题的几种算法的比较,生物信息学,26,2217-2225(2010)
[28] Guo,S.H.(郭,S.H.)。;邓,E.Z。;徐立清。;丁·H。;Lin,H。;Chen,W。;Chou,K.C.,iNuc-PseKNC:基于序列的预测因子,用于预测具有伪K元组核苷酸组成的基因组中的核小体定位,生物信息学(2014),(btu083)
[29] Halperin,E。;Eskin,E.,利用不完全系统发育从基因型数据重建单倍型,生物信息学,201842-1849(2004)
[30] Han,J。;裴,J。;Yin,Y.,无候选生成的频繁模式挖掘,ACM SIGMOD记录,第29卷,1-12(2000),ACM
[31] 他,D。;Choi,A。;Pipatsrisawat,K。;达尔文,A。;Eskin,E.,《全基因组序列数据中单倍型组装的优化算法》,生物信息学,26183-190(2010)
[32] 胡,T。;刘,C。;Tang,Y。;Sun,J。;熊,H。;Sung,S.,《高维聚类:基于团的超图划分框架》,知识信息系统。,1-28 (2013)
[33] Karypis,G。;Aggarwal,R。;库马尔,V。;Shekhar,S.,多层超图划分:VLSI领域的应用,IEEE Trans。超大规模集成电路。超大规模集成电路系统。,7, 69-79 (1999)
[34] Kim,S.J。;Ha,J.W。;Zhang,B.T.,通过基于超图的学习构建前列腺癌中的高阶miRNA-mRNA相互作用网络,BMC系统。生物学,7,47(2013)
[35] 克拉姆特,S。;豪斯,美国。;Theis,F.,Hypergraphs和蜂窝网络,PLoS Compute。生物学,5,e1000385(2009)
[36] Korn,F。;Muthukrishnan,S.,基于反向最近邻查询的影响集,SIGMOD记录,29201-212(2000),ACM
[37] 科尤蒂尔克,M。;Aykanat,C.,基于迭代改进的多磁盘数据库去聚类启发式方法,Inf.Syst。,30, 47-70 (2005)
[38] 北卡罗来纳州科罗奇纳。;Choekyi,T.,《螺旋-螺旋界面和配体结合》,J.Theor。生物学,28392-102(2011)
[39] Lancia,G。;巴夫纳,V。;Istrail,S。;利珀特,R。;Schwartz,R.,SNP问题、复杂性和算法(Heide,F.,algorithms-ESA 2001,第2161卷(2001),施普林格:施普林格-柏林-海德堡),182-193·Zbl 1016.92023号
[40] 利维,S。;萨顿,G。;Ng,P.C.公司。;Feuk,L。;Halpern,A.L。;瓦伦茨,B.P。;阿克塞尔罗德,N。;黄,J。;柯克尼斯,E.F。;杰尼索夫,G。;Lin,Y。;麦克唐纳,J.R。;Pang,A.W.C。;沙戈,M。;Stockwell,T.B。;Tsiamouri,A。;巴夫纳,V。;Bansal,V.公司。;克拉维茨,美国。;Busam,D.A。;比森,K.Y。;麦金托什,T.C。;雷明顿,K.A。;Abril,J.F。;吉尔·J。;Borman,J。;罗杰斯,Y.H。;弗雷泽,M.E。;谢勒,S.W。;Strausberg,R.L。;Venter,J.C.,《单个人类的二倍体基因组序列》,《公共科学图书馆·生物》,第5254页(2007年)
[41] 林,S.X。;Lapointe,J.,生物医药杂志。科学。工程、理论和实验生物学合办研讨会,纪念郭振秋教授50周年和理查德·吉格教授科学生涯40周年,6435-442(2013)
[42] 利珀特,R。;施瓦茨,R。;Lancia,G。;Istrail,S.,单核苷酸多态性单倍型组装问题的算法策略,简介。生物信息。,3, 23-31 (2002)
[43] 刘,B。;张,D。;Xu,R。;徐,J。;王,X。;陈,Q。;Dong,Q。;Chou,K.C.,将从频率剖面提取的进化信息与基于序列的内核相结合,用于蛋白质远程同源性检测,生物信息学,30472-479(2014)
[44] Mei,S.,通过基于多标签同源知识转移学习的Chou的PseAAC公式预测植物蛋白质亚细胞多定位,J.Theor。生物学,310,80-87(2012)·Zbl 1337.92065号
[45] Min,J.L.,Xiao,X.,Chou,K.C.,2013年。iEzy Drug:一个网络服务器,用于识别细胞网络中酶和药物之间的相互作用。生物识别。研究国际。。;Min,J.L.,Xiao,X.,Chou,K.C.,2013年。iEzy-Drug:一个网络服务器,用于识别细胞网络中酶和药物之间的相互作用。生物识别。Res.Int.公司。。
[46] Panconesi,A。;Sozio,M.,(Jonassen,I.;Kim,J.,《快速兔子:生物信息学中单个个体SNP单倍型重建算法的快速启发式》,第3240卷(2004),施普林格:施普林格-柏林/海德堡),266-277
[47] 邱,W.R。;Xiao,X。;Chou,K.C.,iRSpot-TNCPseAAC:用三核苷酸成分和伪氨基酸成分识别重组点,国际分子科学杂志。,15, 1746-1766 (2014)
[48] 塞雷夫,O。;布鲁克斯,J.P。;Fong,S.S.,通量分布到代谢途径的分解,IEEE/ACM Trans。计算。生物信息学。,10, 984-993 (2013)
[49] 斯蒂芬斯,J.C。;施耐德,J.A。;Tanguay,D.A。;Choi,J。;Acharya,T。;斯坦利,S.E。;江,R。;梅塞尔,C.J。;Chew,A。;Han,J.H.,313个人类基因的单倍型变异和连锁不平衡,《科学》,293489-493(2001)
[50] 斯蒂芬斯,M。;新泽西州史密斯。;Donnelly,P.,《从群体数据重建单倍型的新统计方法》,《美国遗传学杂志》。,68, 978-989 (2001)
[51] 田,Z。;Hwang,T。;Kuang,R.,利用先验知识对基因表达和阵列GH数据进行分类的基于超图的学习算法,生物信息学,252831-2838(2009)
[52] Venter,J.C。;医学博士亚当斯。;Myers,E.W。;李,P.W。;Mural,R.J。;Sutton,G.G。;H.O.史密斯。;Yandell,M。;埃文斯,C.A。;霍尔特,R.A.,《人类基因组序列》,《科学》,2911304-1351(2001)
[53] Wang,L。;Xu,Y.,通过最大简约性进行单倍型推断,生物信息学,19,1773-1780(2003)
[54] 王,R.S。;Wu,L.Y。;李振鹏。;Zhang,X.S.,通过最小误差校正从SNP片段重建单倍型,生物信息学,212456-2462(2005)
[55] Wang,Y。;冯,E。;Wang,R.,基于两个距离函数的MEC模型聚类算法,计算。生物化学。,31, 148-150 (2007) ·Zbl 1124.92019年
[56] Wjst,M.,复杂疾病关联研究中的靶SNP选择,BMC生物信息学。,5, 92 (2004)
[57] Xiao,X。;Min,J.L。;王,P。;Chou,K.C.,iCDI-PseFpt:利用PseAAC和分子指纹识别细胞网络中的通道药物相互作用,J.Theor。《生物学》,337,71-79(2013)·Zbl 1411.92115号
[58] 徐,Y。;丁,J。;Wu,L.Y。;Chou,K.C.,iSNO-PseAAC:通过将位置特异性氨基酸倾向纳入伪氨基酸组成来预测蛋白质中的半胱氨酸(S)-亚硝化位点,PLoS One,8(2013)
[59] 徐,Y。;邵学杰。;Wu,L.Y。;邓,纽约。;Chou,K.C.,iSNO-AAPAR:将氨基酸成对偶联到PseAAC中以预测蛋白质中半胱氨酸S-亚硝基化位点,PeerJ,1,e171(2013),(e171)
[60] Zhao,Y.Y。;Wu,L.Y。;Zhang,J.H。;Wang,R.S。;Zhang,X.S.,对齐加权SNP片段的单倍型组装,计算。生物化学。,29, 281-287 (2005) ·Zbl 1102.92031号
[61] Zhou,G.P.,《文祥图中LZCC蛋白残基的分布为蛋白质相互作用机制提供了新的见解》,J.Theor。《生物学》,284142-148(2011)·Zbl 1397.92245号
[62] Zhou,G.P.,cGMP依赖性蛋白激酶Iα的亮氨酸拉链线圈结构域的结构测定及其与肌球蛋白轻链磷酸酶的肌球蛋白结合亚单位蛋白Pept的相互作用。莱特。,18, 966-978 (2011)
[63] 周国平。;Deng,M.H.,将导出酶动力学方程的周作图规则扩展到涉及平行反应路径的系统,《生物化学》。J.,222169-176(1984年)
[64] 周国平。;Huang,R.B.,pH-触发PrPc到PrPsc的转换,货币。顶部。医药化学。,13, 1152-1163 (2013)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。