×

通过ILP快速、灵活、准确地进行最小流量分解。 (英语) Zbl 1496.92066号

Peer,Itsik(编辑),《计算分子生物学研究》。第26届国际年会,RECOMB 2022,美国加利福尼亚州圣地亚哥,2022年5月22日至25日。诉讼程序。查姆:斯普林格。莱克特。注释计算。科学。13278, 230-245 (2022).
摘要:最小流分解(MFD)是计算机科学中的一个经典问题,其变体是生物信息学(例如RNA组装)中多组装问题的强大模型。然而,由于该问题及其变体是NP-hard,因此实用的多汇编工具要么使用启发式方法,要么求解该问题的更简单、多项式时间可解版本,这可能会产生非最小或无法完美分解流的解决方案。许多RNA汇编程序也使用这种实际变体的整数线性规划(ILP)公式,其主要局限性是需要对所有潜在的指数多解路径进行编码。此外,MFD的唯一精确求解器不能扩展到大型实例,并且不能有效地推广到实际的MFD变体。
在这项工作中,我们基于仅使用二次的变量的数量。在模拟和实际流图上,我们的方法平均运行时间都在13秒以下。我们还表明,我们的ILP公式可以轻松有效地适用于许多实际变体,例如合并较长或成对读取,或最小化流错误。
我们希望我们的结果能够消除目前在多组装模型的复杂性和可处理性之间的折衷,并成为未来实用RNA组装工具的核心。我们的实现可以在github.com/algbio/MFD-ILP上免费获得。
有关整个系列,请参见[Zbl 1493.92001年].

MSC公司:

92D20型 蛋白质序列,DNA序列
90立方厘米 整数编程
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Ahuja,RK,《网络流》(1988),剑桥:剑桥大学阿尔弗雷德·斯隆管理学院·doi:10.21236/ADA594171
[2] Amarasinghe,SL,长期测序数据分析的机遇和挑战,基因组生物学。,21, 1, 1-16 (2020) ·doi:10.1186/s13059-020-1935-5
[3] 日本Baaijens;斯托吉,L。;Schönhuth,A。;Schwartz,R.,使用流变异图对混合样本的基因组进行菌株感知组装,计算分子生物学研究,221-222(2020),商会:施普林格,商会·电话:10.1007/978-3-030-45257-5_14
[4] Bernard,E.,利用网络流从RNA-Seq数据中高效识别和量化RNA亚型,生物信息学,30,17,2447-2455(2014)·doi:10.1093/bioinformatics/btu317
[5] Bixby,B.,Gurobi优化器,运输。《B部分决议》,41、2、159-178(2007)·doi:10.1016/j.trb.2006.02.002
[6] Canzar,S.,CIDANE:综合亚型发现和丰度估计,基因组生物学。,17, 1, 1-18 (2016) ·doi:10.1186/s13059-015-0865-0
[7] Cohen,R.等:转发表大小对SDN网络利用率的影响。摘自:IEEE INFOCOM 2014-IEEE计算机通信会议,第1734-1742页。IEEE(2014)
[8] Dias,F.H.C.:通过ILP进行快速、灵活和精确的最小流量分解。arXiv-arXiv:2201.10923(2022)
[9] Furini,F。;Traverse,E.,二元二次型问题几种线性化技术的理论和计算研究,Ann.Oper。研究,279,1387-411(2019)·Zbl 1434.90115号 ·doi:10.1007/s10479-018-3118-2
[10] Gatter,T。;Stadler,PF,Ryót o o:基于网络流的转录组重建,BMC Bioinf。,20, 1, 1-14 (2019) ·数字对象标识代码:10.1186/s12859-019-2786-5
[11] 古罗比优化有限责任公司:古罗比优化器参考手册(2021)。https://www.gurobi.com网站
[12] Gusfield,D.:计算和系统生物学中的整数线性规划:入门级文本和课程。剑桥大学出版社,纽约(2019)·Zbl 1436.92001号
[13] Hagemann-Jensen,M.,使用Smart-seq3对等位基因和异构体进行单细胞RNA计数,《国家生物技术》。,38, 6, 708-714 (2020) ·doi:10.1038/s41587-020-0497-0
[14] 哈特曼,T.等人:如何分割流量?2012年IEEE INFOCOM会议记录,第828-836页。IEEE(2012)
[15] Hong,C.Y.,等:利用软件驱动的广域网实现高利用率。摘自:2013年ACM SIGCOMM SIGCCOMM会议记录,第15-26页(2013)
[16] Huang,KK,Long-read转录组测序揭示了胃癌不同分子亚型中丰富的启动子多样性,Genome Biol。,22, 1, 1-24 (2021) ·doi:10.1186/s13059-021-02261-x
[17] IBM ILOG CPLEX Optimization Studio:CPLEX用户手册,第12.7版(2017)
[18] Khan,S.等人:RNA组装流动分解的安全性和完整性。arXiv-arXiv:2201.10372(2022)
[19] Kim,D.,利用HISAT2和HISAT基因型进行基于图形的基因组比对和基因分型,国家生物技术。,37, 8, 907-915 (2019) ·doi:10.1038/s41587-019-0201-4
[20] Kim,PM,《人类基因组中拷贝数变异和片段复制的分析:近代进化史中形成过程变化的证据》,《基因组研究》,第18、12、1865-1874页(2008)·doi:10.1101/gr.081422.108
[21] Kloster,K.等人:流分解和转录汇编的实用FPT算法。2018年第二十届算法工程与实验研讨会论文集(ALENEX),第75-86页。SIAM(2018)·Zbl 1430.68222号
[22] Kovaka,S.,来自与StringTie2的长读RNA-seq比对的转录组组装,基因组生物学。,20, 1, 1-13 (2019) ·doi:10.1186/s13059-019-1910-1
[23] Li,W.:RNASeqReadSimulator:一个简单的RNA-seq读取模拟器(2014)
[24] Li,W.,IsoLasso:基于RNA-Seq的转录组组装的LASSO回归方法,J.Compute。生物学,18,11,1693-1707(2011)·doi:10.1089/cmb.2011.0171
[25] Liberti,L.:二元二次问题的紧凑线性化。4OR(3),31-245(2007)·Zbl 1211.90154号
[26] 林,Y-Y;拉斐尔,B。;Tang,J.,CLIIQ:人群中表达亚型的准确比较检测和量化,生物信息学算法,178-189(2012),海德堡:施普林格·数字对象标识代码:10.1007/978-3-642-33122-014
[27] Ma,C.等人:在不可识别的情况下寻找最佳转录表达量化的范围。bioRxiv(2020)。doi:10.1101/2019.12.13.875625,将出现在RECOMB2021上
[28] Mangul,S.等人:一种整数编程方法,用于从配对RNA-Seq读取的新转录物重建。摘自:ACM生物信息学、计算生物学和生物医学会议记录,第369-376页(2012年)
[29] Mao,S.等人:Refshannon:使用稀疏流分解的基因组引导转录组组装器。《公共科学图书馆·综合》15(6),e0232946(2020)
[30] Maretty,L.等人:贝叶斯转录组组装。基因组生物学。15(10), 1-11 (2014)
[31] Mumey,B.、Shahmohammadi,S.、McManus,K.、Yaw,S.:奇偶校验平衡路径流分解和路由。摘自:2015 IEEE Globecom研讨会(GC Wkshps),第1-6页。IEEE(2015)
[32] Nagarajan,N.,Pop,M.:序列组装揭开了神秘面纱。Nat.Rev.基因。14(3), 157-167 (2013)
[33] Ohst,J.P.:关于从流量构建最佳路径和疏散场景分析。德国科布伦茨和兰道大学博士论文(2015年)
[34] Olsen,N.等人:基于聚合时空网络模型的公共交通电动公交车调度流程分解方法研究。美分。欧洲药典。决议(2020年)。doi:10.1007/s10100-020-00705-6
[35] Patro,R.等人:Salmon:利用轻量比对从RNA-seq数据中进行准确、多功能和超快速定量。BioRxiv,第021592页(2015年)
[36] Pertea,M.等人:StringTie能够改进RNA-seq读取的转录组重建。自然生物技术。33(3), 290-295 (2015)
[37] Safikhani,Z.,SSP:RNA-seq读取的从头转录组组装和亚型发现的区间整数线性规划,《基因组学》,102,5-6,507-514(2013)·doi:10.1016/j.yge2013.10.003
[38] Shah,SP,《原发性三阴性乳腺癌的克隆和突变进化谱》,《自然》,4867403395-399(2012)·doi:10.1038/nature10933
[39] 邵,M。;Kingsford,C.,通过相保护图分解准确组装转录本,国家生物技术。,35, 12, 1167-1169 (2017) ·doi:10.1038/nbt.4020
[40] 邵,M。;Kingsford,C.,最小路径流分解问题的理论和启发式,IEEE/ACM Trans。计算。生物信息。,16, 2, 658-670 (2017) ·doi:10.1109/TCBB.2017.2779509
[41] Stamm,S.,选择性剪接的功能,基因,344,1-20(2005)·doi:10.1016/j.gene.2004.10.022
[42] Taccari,L.,《基本最短路径问题的整数规划公式》,欧洲期刊Oper。第252号、第1号、第122-130号决议(2016年)·Zbl 1346.90793号 ·doi:10.1016/j.ejor.2016.01.003
[43] Tomescu,A.I.等人:一种新的最小成本流方法,用于评估RNA-Seq的转录表达。BMC生物信息。14,S1:51-S1:51(2013)。doi:10.1186/1471-2105-14-S5-S15
[44] Tomescu,AI,解释一个加权DAG,用很少的路径来求解基因组引导的多组装,IEEE/ACM Trans。计算。生物信息。,12, 6, 1345-1354 (2015) ·doi:10.1109/TCBB.2015.2418753
[45] Töpfer,A.,重组病毒准种的概率推断,J.Compute。生物,20,2,113-123(2013)·doi:10.1089/cmb.2012.0232
[46] Trapnell,C.,通过RNA-Seq进行的转录物组装和定量揭示了细胞分化过程中未标记的转录物和同种型转换,Nature Biotechnol。,28, 5, 511-515 (2010) ·doi:10.1038/nbt.1621
[47] Vatinlen,B.,《将流分解为最小路径集的简单边界和贪婪算法》,Eur.J.Oper。研究,185,3,1390-1401(2008)·Zbl 1146.90362号 ·doi:10.1016/j.ejor.2006.05.043
[48] Vignuzzi,M.,《准物种多样性通过病毒种群中的合作相互作用确定发病机制》,《自然》,439,7074,344-348(2006)·doi:10.1038/nature04388
[49] Voshall,A.,Moriyama,E.N.:下一代转录组组装:策略和性能分析。摘自:《后基因组学和大数据时代的生物信息学》,第15-36页(2018年)
[50] 瓦希特,A。;Biegler,LT,《关于大规模非线性规划中点内滤波器线性搜索算法的实现》,数学。程序。,106, 1, 25-57 (2006) ·Zbl 1134.90542号 ·doi:10.1007/s10107-004-0559-y
[51] Wang,ET,人类组织转录组中的替代亚型调控,《自然》,4567221470-476(2008)·doi:10.1038/nature07509
[52] Westbrooks,K.,Astrovskaya,I.,Campo,D.,Khudyakov,Y.,Berman,P.,Zelikovsky,A.:使用网络流的HCV准物种集合。收录人:Méndoiu,I.,Sunderraman,R.,Zelikovsky,A.(编辑)ISBRA 2008。LNCS,第4983卷,第159-170页。施普林格,海德堡(2008)。doi:10.1007/978-3-540-79450-9_15
[53] Williams,L.等人:使用不精确流进行RNA转录组装。2019年IEEE生物信息学和生物医学国际会议(BIBM),第1907-1914页。IEEE(2019)
[54] Williams,L.等人:带子路径约束的流分解。摘自:第21届生物信息学算法国际研讨会(WABI 2021)。Dagstuhl-Leibniz-Zentrum für Informatik宫(2021年)·Zbl 1519.92176号
[55] Xing,Y.,《多重组装问题:从EST片段混合物重建多个转录亚型》,《基因组研究》,14,3,426-441(2004)·数字对象标识代码:10.1101/gr.1304504
[56] Zagordi,O.,ShoRAH:根据下一代测序数据估计混合样本的遗传多样性,BMC Bioinf。,12, 1, 1-5 (2011) ·doi:10.1186/1471-2105-12-119
[57] Zhang,Q.,et al.:扇贝2能够准确组装多基因RNA-seq数据。bioRxiv(2021)。doi:10.1101/2021.09.03.458862
[58] 赵,J.,《Multitrans:通过混合整数线性规划提取转录组集合路径的算法》,IEEE/ACM Trans。计算。生物信息学。(2021) ·doi:10.1109/TCBB.2021.3083277
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。