×

彩虹鱼:简洁的彩色de Bruijn图形表示。 (英语) Zbl 1436.92008号

Schwartz,Russell(编辑)等人,第17届生物信息学算法国际研讨会,2017年WABI,美国马萨诸塞州波士顿,2017年8月21日至23日。诉讼程序。Wadern:达格斯图尔宫——莱布尼茨Zentrum für Informatik。LIPIcs–莱布尼茨国际程序。通知。88,第18条,第15页(2017年)。
摘要:着色deBruijn图是deBruij图的一种变体,它将每条边(即k元)与一些颜色集相关联,是计算生物学中越来越重要的组合结构。Z.伊克巴尔等人[“利用彩色德布鲁因图对变体进行从头组装和基因分型”,《自然遗传学》,第44期,第2期,226–232页(2012;doi:10.1038/ng.1028)]展示了这种结构用于表示和组装基因组集合(群体)的实用性,并展示了如何使用它来准确检测遗传变异。M.穆格利等,“简洁的彩色de Bruijn图”,生物信息学33,第20期,3181–3187(2017;doi:10.1093/bioinformatics/btx067)]引入了VARI,这是一种彩色de Bruijn图的表示,它采用了de Bruij图拓扑的BOSS表示,并在Cortex公司,尽管在速度上有所牺牲。VARI的内存效率表示允许为大型数据集构建和分析彩色de Bruijn图,超出了使用Cortex公司.
本文介绍了Rainbowfish,它是彩色de Bruijn图颜色信息的简洁表示,进一步减少了空间使用。我们的表示也使用BOSS来表示de Bruijn图,但基于等价关系分解颜色集,并利用这些颜色集分布中的固有偏度。Rainbowfish表示是基于颜色集的0阶熵进行压缩的,这可以显著减少存储每个边的相关信息所需的空间。实际上,Rainbowfish在空间上比VARI提高了20倍C++11语言和可在https://github.com/COMBINE-lab/rainbowfish网站.
关于整个系列,请参见[Zbl 1372.68022号].

理学硕士:

92C40型 生物化学、分子生物学
92-08 生物问题的计算方法
05摄氏90度 图论的应用
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[2] Alexander Bowe、Taku Onodera、Kunihiko Sadakane和Tetsuo Shibuya。简洁的布鲁因图。《生物信息算法国际研讨会论文集》,第225-235页。施普林格,2012年·Zbl 1414.68020号
[3] Mathilde Causse、Nelly Desplat、Laura Pascual、Marie-Christine Le Paslier、Christopher Sauvage、Guillaume Bauchet、Aurélie Bérard、Rémi Bounon、Maria Tchoumakov、Dominique Brunel等。番茄的全基因组重测序揭示了与渗入和繁殖事件相关的变异。{骨髓细胞基因组学},14(1):7912013。
[4] 塞巴斯蒂安·德奥罗维奇(Sebastian Deorowicz)、马雷克·科科特(Marek Kokot)、希蒙·格拉博夫斯基(Szymon Grabowski)和阿格涅斯卡·德布达杰·格拉比斯(Agnieska Debudaj-Grabysz)。KMC 2:快速且资源丰富的k-mer计数。{生物信息学},31(10):1569-15762015。
[5] Erwan Drezen、Guillaume Rizk、Rayan Chikhi、Charles Deltel、Claire Lemaitre、Pierre Peterlongo和Dominique Lavenier。Gatb:基因组组装和分析工具箱。《生物信息学》,30(20):2959-29612014。
[6] 彼得·埃利亚斯。通过静态文件的内容和地址进行高效存储和检索。《美国医学会杂志》,21(2):246-2601974·兹伯利0278.68028
[7] 罗伯特·马里奥·法诺。{\it关于实现关联存储器所需的位数}。麻省理工学院MAC项目,1971年。
[8] 保罗·费拉吉纳和乔瓦尼·曼奇尼。应用程序的机会主义数据结构。《计算机科学基础》,2000年。诉讼程序。第41届年度研讨会,第390-398页。IEEE,2000年。
[9] 西蒙·高格。简洁的数据结构库。https://github.com/simongog/sdsl-lite网站, 2017. [在线;2017年2月1日访问]。
[10] 罗德里戈·冈萨雷斯(Rodrigo González)、西蒙·格拉博夫斯基(Szymon Grabowski)、维利·梅基宁(Veli Mäkinen)和冈萨洛·纳瓦罗(Gonzalo Navarro)。排序和选择查询的实际实现。在第四次研讨会的海报论文集中,关于有效和实验算法(WEA)的论文集,第27-38页,2005年。
[11] J.Harrow、A.Frankish、J.M.Gonzalez、E.Tapanari、M.Diekhans、F.Kokocinski、B.L.Aken、D.Barrell、A.Zadisa、S.Searle、I.Barnes、A.Bignell、V.Boychenko、T.Hunt、M.Kay、G.Mukherjee、J.Rajan、G.Despacio-Reyes、G.Saunders、C.Steward、R.Harte、M.Lin、C.Howald、A.Tanzer、T.Derrien、J.Chrast、N.Walters、S.Balasbramanian、B。Pei、M.Tress、J.M.Rodriguez、I.Ezkurdia、J.van Baren、M.Brent、D.Haussler、M.Kellis、A.Valencia、A.Reymond、M.Gerstein、R.Guido和T.J.Hubbard。GEN CODE:ENCODE项目的参考人类基因组注释。《基因组研究》,22(9):1760-17742012年9月。doi:10.1101/gr.135350.111。
[12] 纪尧姆·霍利(Guillaume Holley)、罗兰·维特勒(Roland Wittler)和延斯·斯托伊(Jens Stoye)。Bloom filter trie:用于泛基因组存储的无对齐和无引用数据结构。{\it Algorithms Mol.Biol.},2016年11月3日·Zbl 1367.92034号
[13] 扎明·伊克巴尔(Zamin Iqbal)、马里奥·卡卡莫(Mario Caccamo)、艾萨克·特纳(Isaac Turner)、保罗·弗利切克(Paul Flicek)和吉尔·麦克维恩(Gil McVean)。使用彩色De Bruijn图对变体进行从头组装和基因分型。{自然遗传学},44(2):226-2322012。
[14] 盖·雅各布森。节省空间的静态树和图形。《计算机科学基础》,1989年,第30届年度研讨会,第549-554页。IEEE,1989年。
[15] 盖·约瑟夫·雅各布森。{\it简化静态数据结构}。卡内基梅隆大学博士学位,1988年。AAI8918056。
[16] 马丁·德·穆格利(Martin D.Muggli)。可变。https://github.com/cosmo-team/comoso/tree/VARI, 02 2017. 2017年2月3日查看。
[17] 马丁·D·马格利、亚历山大·鲍、诺埃尔·诺伊斯、保罗·莫利、基斯·贝尔克、罗伯特·雷蒙德、特拉维斯·加吉、西蒙·普格利西和克里斯蒂娜·鲍彻。简洁的着色de Bruijn图。{\it生物信息学},2017年。
[18] Noelle R.Noyes、Xiang Yang、Lyndsey M.Linke、Roberta J.Magnuson、Adam Detten wanger、Shaun Cook、Ifigenia Geornaras、Dale E.Woerner、Sheryl P.Gow、Tim A.Mc Allister等。牛肉生产过程中牛的抗药性多样性和环境减少。{\it ELife},5:e131952016年。
[19] :15
[20] Nuala A.O'Leary、Mathew W.W.Wright、J.Rodney Brister、Stacy Ciufo、Diana Haddad、Rich McVeigh、Bhanu Rajput、Barbara Robbertse、Brian Smith-White、Danso Ako-Adjei等。NCBI的参考序列(RefSeq)数据库:当前状态、分类扩展和功能注释。{\it核酸研究},D733-D7452015页。doi:10.1093/nar/gkv1189。
[21] 罗伯·帕特罗(Rob Patro)、斯蒂芬·蒙特(Stephen M.Mount)和卡尔·金斯福德(Carl Kingsford)。旗鱼使用轻量级算法从RNA-seq读取中实现无对齐异构体量化。{自然生物技术},32(5):462-4642014。
[22] Rajeev Raman、Venkatesh Raman和S.Srinivasa Rao。简洁的可索引字典,以及编码k元树和多集的应用程序。《第十三届ACM-SIAM离散算法研讨会论文集》,第233-242页。工业和应用数学学会,2002年·Zbl 1093.68582号
[23] Patrick S.Schnable、Doreen Ware、Robert S.Fulton、Joshua C.Stein、Fusheng Wei、Shiran Pasternak、Chengzhi Liang、Jianwei Zhang、Lucinda Fultan、Tina A.Graves等。b73玉米基因组:复杂性、多样性和动力学。{\it科学},326(5956):1112-11152009。
[24] David Swarbreck、Christopher Wilks、Philippe Lamesch、Tanya Z.Berardini、Margarita Garcia-Hernandez、Hartmut Foerster、Donghui Li、Tom Meyer、Robert Muller、Larry Plo etz等。拟南芥信息资源:基因结构和功能注释。{核酸研究},36(补充1):D1009-D10142008。
[25] 田中聪(Tsuyoshi Tanaka)、巴尔塔扎尔·安东尼奥(Baltazar A.Antonio)、菊池Shoshi Kikuchi、松本隆(Takashi Matsumoto)、长村吉崎(Yoshiaki Nagamura)、野田久久(Hisataka Numa)、酒井裕久(Hiroaki Sakai)、吴建忠(Jianzhong Wu)、伊藤武(Takeshi Itoh)、佐佐佐佐木。{核酸研究},36(补充1):D1028-D10332008。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。