×

链接读取的图形理论条形码排序模型。 (英语) Zbl 1518.92107号

Kingsford,Carl(编辑)等人,第20届生物信息学算法国际研讨会。WABI 2020,2020年9月7日至9日,意大利比萨,虚拟会议。诉讼程序。Wadern:达格斯图尔宫——莱布尼茨Zentrum für Informatik。LIPIcs–莱布尼茨国际程序。通知。172,第11条,第17页(2020年)。
小结:考虑到实线上的一组间隔,间隔图将这些间隔记录为节点,其交点记录为边。在区间图中识别(即合并)成对的节点会生成多区间图。在不知道底层间隔的情况下,只给出了多间隔图的节点和边,我们对以下问题感兴趣。可以确定每个节点对应的间隔数吗?可以计算出反映原始间隔顺序的多间隔图节点的遍历吗?这些问题与链接读取DNA测序密切相关,其中条形码被分配给长分子,其交集图形成区间图。每个条形码可能对应于多个分子,这会使下游分析复杂化,并对应于相应区间图的节点标识。通过实现条形码到分子的概念性分离,并通过分子顺序提供准确组装基因组的骨架,解决上述图形理论问题将有助于分析链接读码测序数据。在这里,我们提出了一个框架,该框架将任意交集图(例如条形码重叠图)作为输入,并构造原始区间顺序的启发式近似。
关于整个系列,请参见[Zbl 1445.68019号].

MSC公司:

92D20型 蛋白质序列,DNA序列
05C90年 图论的应用
92-08 生物学问题的计算方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Anton Bankevich、Sergey Nurk、Dmitry Antipov、Alexey A Gurevich、Mikhail Dvorkin、Alexander S Kulikov、Valery M Lesin、Sergei I Nikolenko、Son Pham、Andrey D Prjibelski等。SPAdes:一种新的基因组组装算法及其在单细胞测序中的应用。J.计算。《生物学》,19(5):455-4772012年。doi:10.1089/cmb.2012.0021·doi:10.1089/cmb.2012.0021
[2] 鲁文·巴尔·耶胡达(Reuven Bar-Yehuda)、马格努斯·M·哈尔德森(Magnüs M.Halldórsson)、约瑟夫·纳尔(Joseph Naor)、哈达斯·沙奇奈(Hadas Shachnai)和伊琳娜·沙皮拉。安排分割间隔。SIAM J.计算。,36(1):1-15, 2006. doi:10.1137/S0097539703437843·Zbl 1111.68046号 ·doi:10.1137/S0097539703437843
[3] 马修·巴斯蒂安、塞巴斯蒂安·海曼和马修·贾科米。Gephi:一个用于探索和操作网络的开源软件。2009年5月17日至20日,在美国加利福尼亚州圣何塞举行的第三届网络日志和社交媒体国际会议记录中。AAAI出版社,2009年。网址:http://aaai.org/ocs/index.php/ICWSM/09/paper/view/154。
[4] Alex Bishara、Eli L Moss、Mikhail Kolmogorov、Alma E Parada、Ziming Weng、Arend Sidow、Anne E Dekas、Serafim Batzoglou和Ami S Bhatt。通过阅读云组装未培养微生物的高质量基因组序列。自然生物技术。,36:1067-1075, 2018. doi:10.1038/nbt.4266·doi:10.1038/nbt.4266
[5] 伊万·布利兹涅茨(Ivan Bliznets)、费多尔·弗明(Fedor V.Fomin)、马金·皮利普祖克(Marcin Pilipczuk)和米查尔·皮利普楚克(Michal Pilipczzuk)。区间补全的次指数参数化算法。ACM事务处理。算法,14(3):35:1-35:622018。doi:10.1145/3186896·Zbl 1454.68094号 ·数字对象标识代码:10.1145/3186896
[6] Kellogg S.Booth和George S.Lueker。使用PQ树算法测试连续的属性、区间图和图的平面性。J.计算。系统。科学。,13(3):335-3791976年。doi:10.1016/S0022-0000(76)80045-1·Zbl 0367.68034号 ·doi:10.1016/S0022-0000(76)80045-1
[7] 阿耶利特·巴特曼(Ayelet Butman)、丹尼·赫尔梅林(Danny Hermelin)、莫西·勒文斯坦(Moshe Lewenstein)和德罗·拉维茨(Dror Rawitz)。多间隔图中的优化问题。ACM事务处理。算法,6:268-2772007。doi:10.1145/1721837。1721856. ·Zbl 1300.05295号 ·doi:10.1145/1721837.1721856
[8] 陈周涛、龙范、蔡钦武、莫国亚、余霞、张彼得、Devin Porter、Tan Phan、Huu Che、Hao Tran、Vikas Bansal、Justin Shaffer、Pedro Belda Ferre、Greg Humphrey、Rob Knight、Pavel Pevzner、Son Pham、Yong Wang和Ming Lei。超低输入单管链接读文库方法使短读NGS系统能够为从头基因组组装和单倍型定相生成高度准确和经济的远程测序信息。bioRxiv,第852947页,2019年。doi:10.1101/852947·数字对象标识代码:10.1101/852947
[9] 大卫·库德特。关于图上线性排序问题的整数线性规划公式的注记。研究报告hal-01271838,INRIA,I3S,UniversityéNice Sophia,2016年。网址:https://hal.inia.fr/hal-01271838。
[10] 克里斯托夫·克雷斯佩尔(Christophe Crespelle)、帕尔·格罗纳斯·德朗奇(Paal Gronaas Drange)、费多尔·弗明(Fedor V.Fomin)和彼得·戈洛维奇(Petr A.Golovach)。参数化算法和边缘修改复杂性综述。ArXiv,abs/2001.068672020年。网址:https://arxiv.org/abs/2001.06867。
[11] David C Danko、Dmitry Meleshko、Daniela Bezdan、Christopher Mason和Iman Hajira-souliha。Minerva:一种用于宏基因组学去卷积链接阅读的对齐和无参考方法。《基因组研究》,29:116-1242019年。doi:10.1101/gr.235499.118·doi:10.1101/gr.235499.118
[12] Michael R Fellows、Danny Hermelin、Frances A Rosamond和Stéphane Vialette。关于多区间图问题的参数化复杂性。西奥。计算。科学。,410(1):53-61, 2009. ·Zbl 1161.68038号
[13] 马修·弗朗西斯(Mathew C.Francis)、丹尼尔·冈萨维斯(Daniel Gonçalves)和帕斯卡·奥切姆(Pascal Ochem)。多区间图中的最大团问题。算法,71(4):812-8362015。doi:10.1007/s00453-013-9828-6·Zbl 1325.68107号 ·doi:10.1007/s00453-013-9828-6
[14] 兹维·加利勒。图中最大匹配的高效算法。ACM计算。调查。,18(1):1986年23月38日。doi:10.1145/6462.6502·Zbl 0606.68064号 ·数字对象标识代码:10.1145/6462.6502
[15] 马丁·查尔斯·格伦比奇。算法图论和完美图(离散数学年鉴,第57卷)。North-Holland出版社,2004年·Zbl 1050.05002号
[16] Stephanie U Greer、Lincoln D Nadald、Billy T Lau、陈嘉敏、Christina Wood Bouwens、James M Ford、Calvin J Kuo和Hanlee P Ji。链接读取测序解决胃癌转移中复杂的基因组重排。《基因组医学》,9(1):572017年。doi:10.1186/s13073-017-0447-8·doi:10.1186/s13073-017-0447-8
[17] Aric A.Hagberg、Daniel A.Schult和Pieter J.Swart。使用NetworkX探索网络结构、动态和功能。加尔·瓦罗佐、特拉维斯·沃特和贾罗德·米尔曼主编,《第七届科学会议上的蟒蛇》,第11-15页,加利福尼亚州帕萨迪纳,2008年。
[18] 江明辉。识别d-区间图和d-轨道区间图。算法,66(3):541-5632013。doi:10.1007/s00453-012-9651-5·Zbl 1267.68121号 ·doi:10.1007/s00453-012-9651-5
[19] 约翰内斯·科布勒(Johannes Köbler)、塞巴斯蒂安·库内特(Sebastian Kuhnert)和渡边修男(Osamu Watanabe)。给定区间和交集长度的区间图表示。《离散算法》,34:108-1172015年。doi:10.1016/j.jda.2015.05.011·Zbl 1336.05134号 ·doi:10.1016/j.jda.2015.05.011
[20] 约翰内斯·科斯特和斯文·拉赫曼。Snakemake——一个可扩展的生物信息学工作流引擎。生物信息学,28(19):2520-2522012。
[21] Ruibang Luo、Fritz J Sedlazeck、Charlotte A Darby、Stephen M Kelly和Michael C Schatz。LRSim:一个链接读取模拟器,为更好的基因组分割生成见解。《计算结构生物技术杂志》,2017年,15:478-484。doi:10.1016/j.csbj.2017.10.002·doi:10.1016/j.csbj.2017.10.002
[22] Pierre Marijon、Rayan Chikhi和Jean-Stéphane Varré。yacrd和fpa:用于长阅读基因组组装的上游工具。生物信息学,提前访问:btaa262020。doi:10.1093/生物信息学/btaa262·doi:10.1093/bioinformatics/btaa262
[23] 罗斯·M·麦康奈尔。圆弧图的线性时间识别。算法,37(2):93-1472003。doi:10.1007/s00453-003-1032-7·Zbl 1060.68088号 ·doi:10.1007/s00453-003-1032-7
[24] Itsik Peer和Ron Shamir。实现具有大小和距离约束的区间图。SIAM J.谨慎。数学。,10(4):662-687, 1997. doi:10.1137/S0895480196306373·Zbl 0884.05084号 ·doi:10.1137/S0895480196306373
[25] 阿里亚·沙吉(Ariya Shajii)、易卜拉欣·努马纳吉奇(Ibrahim Numanagić)和邦妮·伯杰(Bonnie Berger)。用于对齐条形码短读的潜在变量模型改进了下游分析。《计算分子生物学研究——第22届国际年会》,RECOMB 2018,第10812卷,《计算讲义》。科学。,第280-282页。施普林格,2018年。doi:10.1007/978-3-319-89929-9·Zbl 1387.92005年 ·doi:10.1007/978-3-319-89929-9
[26] 丰田裕二、田中昭和高桥春久。生成所有最大团和计算实验的最坏情况时间复杂性。西奥。计算。科学。,363(1):28-42, 2006. doi:10.1016/j.tcs.2006.06.015·Zbl 1153.68398号 ·doi:10.1016/j.tcs.2006.06.015
[27] Yngve Villanger、Pinar Heggenes、Christophe Paul和Jan Arne Telle。间隔完井是固定参数可处理的。SIAM J.计算。,38(5):2007-2020, 2009. doi:10.1137/070710913·兹比尔1227.05241 ·doi:10.1137/070710913
[28] 欧旺、Robert Chin、Cheng Xiaofang、Michelle Ka Yan Wu、Qing Mao、Jingbo Tang、Yuhui Sun、Ellis Anderson、Han K.Lam、Dan Chen、Yujun Zhou、Linying Wang、Fei Fan、Yan Zou、Yinlong Xie、Rebecca Yu Zhang、Snezana Drmanac、Darlene Nguyen、Chongjun Xu、Christian Villarosa、Scott Gablenz、Nina Barua、Staci Nguien、Wenlan Tian,王景万、刘晓、齐晓娟、陈奥、王贺、董玉良、张文伟、安德烈·阿列克谢耶夫、杨焕明、王健、卡斯滕·克里斯蒂安森、徐迅、拉多耶·德尔马纳克和布洛克·A·彼得斯。第二代测序的高效和独特的联合编码从长DNA分子中读取,从而实现经济高效和准确的测序、单倍型和从头组装。基因组研究,29(5):798-8082019。doi:10.1101/gr.245126.118·doi:10.1101/gr.245126.118
[29] Neil I Weisenfeld、Vijay Kumar、Preyas Shah、Deanna M Church和David B Jaffe。二倍体基因组序列的直接测定。《基因组研究》,2017年第27期。doi:10.101克/克214874。116. ·doi:10.1101/gr.214874.116
[30] 道格拉斯·B·韦斯特和大卫·B·什莫伊斯。识别具有固定区间数的图是NP-完全的。谨慎。申请。数学。,8(3):295-305, 1984. doi:10.1016/0166-218X(84)90127-6·Zbl 0554.68041号 ·doi:10.1016/0166-218X(84)90127-6
[31] Sarah Yeo、Lauren Coombe、RenéL Warren、Justin Chu和InançBirol。ARCS:扫描折叠基因组草图与链接读取。生物信息学,34(5):725-7312017。doi:10.1093/bioinformatics/btx675·doi:10.1093/bioinformatics/btx675
[32] 范张、莉娜·克里斯蒂安森、杰鲁莎·托马斯、德米特里·波科洛克、罗斯·杰克逊、娜塔莉·莫雷尔、延南·赵、梅利莎·威利、艾米莉·韦尔奇、埃里希·杰格、安娜·格拉纳特、史蒂文·诺伯格、亚伦·哈尔珀恩、玛丽亚·罗杰特、莫斯塔法·罗纳吉、杰·申杜尔、尼亚尔·戈姆利、凯文·冈德森和弗兰克·斯蒂默斯。在单管中使用基于珠的条形码分区对整个人类基因组进行单倍型定相。自然生物技术。,35(9):852-8572017年9月。doi:10.1038/nbt.3897·doi:10.1038/nbt.3897
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。