阿努拉达·维克拉马拉奇;林,于 宏基因组学使用读-覆盖图对长读进行装箱。 (英语) Zbl 1496.92055号 金玲玲(编辑)等,比较基因组学。第19届国际会议,RECOMB-CG 2022,美国加利福尼亚州拉霍亚,2022年5月20日至21日。诉讼程序。查姆:斯普林格。莱克特。注释计算。科学。13234, 260-278 (2022). 摘要:宏基因组测序可以直接研究微生物群落,揭示诸如分类和物种相对丰度等重要信息。宏基因组分类有助于将这些遗传物质分离为不同的分类群。由于读取长度的增加,从第二代测序技术转移到第三代测序方法可以在组装之前将读取数据分为binning。现有的长读装箱工具数量有限,但单个长读的覆盖率估计仍不可靠,在恢复低丰度物种方面面临挑战。在本文中,我们提出了一种使用读覆盖图对二进制长读进行装箱的新方法。读覆盖图(1)能够快速可靠地估计单个长读的覆盖范围;(2) 允许将读取之间的重叠信息合并到装箱过程中;(3) 有助于对不同丰度物种的长读数进行更统一的采样。实验结果表明,我们的新binning方法在长读取时产生了更好的binning结果,并产生了更好地组合,特别是在恢复低丰度物种时。源代码和功能谷歌Colab笔记本可在https://www.github.com/anuradhawick/oblr.关于整个系列,请参见[Zbl 1492.92002年]. MSC公司: 92D10型 遗传学和表观遗传学 92-08 生物问题的计算方法 关键词:宏基因组装箱;长时间读取;读覆盖图 软件:离心机;github;hdbs扫描;最小值2;SimLoRD公司;PyTorch公司;UMAP公司;快速;剪影;OGRE公司;MetaBAT公司;元BCC-LR;LR宾纳;MaxBin(最大箱子);序列2Vec;扁圆;琥珀色;metaFlye公司;MetaQUAST公司 PDF格式BibTeX公司 XML格式引用 \textit{A.Wickramarachhi}和\textit{Y.Lin},莱克特。注释计算。科学。13234260-278(2022年;Zbl 1496.92055) 全文: 内政部 参考文献: [1] 日本Baaijens;亚利桑那州El Aabidine;对手,E。;Schönhuth,A.,使用重叠图进行病毒准种的从头组装,《基因组研究》,27,5835-848(2017)·doi:10.101克/克215038.1116 [2] 巴尔维特,M。;罗,X。;豪普菲尔德,E。;Schönhuth,A。;Dutilh,BE,Ogre:基于重叠图的宏基因组读取聚类,生物信息学,37,7,905-912(2021)·doi:10.1093/bioinformatics/btaa760 [3] Chen,K.,Pachter,L.:微生物群落全基因组鸟枪测序的生物信息学。PLOS计算。生物学1(2)(2005) [4] Feng,X.,Cheng,H.,Portik,D.,Li,H.:用hifiasm-meta进行高保真长阅读的元基因组组装。arXiv:2110.08457(2021) [5] Fey,M.,Lenssen,J.E.:使用PyTorch Geometric进行快速图形表示学习。参加:ICLR关于图和流形的表示学习研讨会(2019年) [6] Hamilton,W.L.,Ying,R.,Leskovec,J.:大型图的归纳表示学习。摘自:《第31届神经信息处理系统国际会议论文集》,第1025-1035页(2017) [7] Huson,D.H.,et al.:Megan-LR:新算法允许准确地分箱和轻松地交互式探索元基因组长读取和连接。生物指令13(1),1-17(2018) [8] Huson,D.H.、Richter,D.C.、Mitra,S.、Auch,A.F.、Schuster,S.C.:比较宏基因组学方法。BMC生物信息。10(1), 1-10 (2009) [9] 贾普科维奇,N。;斯蒂芬,S.,《阶级不平衡问题:系统研究》,《知识分子》。数据分析,6,5,429-449(2002)·Zbl 1085.68628号 ·doi:10.3233/IDA-2002-6504 [10] Kang,D.D.等人:Metabat 2:一种自适应装箱算法,用于从元基因组集合进行稳健高效的基因组重建。PeerJ 7,e7359(2019) [11] Kim,D。;宋,L。;布雷特维泽,FP;Salzberg,SL,《离心机:宏基因组序列的快速灵敏分类》,《基因组研究》,26,12,1721-1729(2016)·doi:10.1101/gr.210641.116 [12] Kolmogorov,M.等人:metaflie:使用重复图的可扩展长读元基因组组装。自然方法17(11),1103-1110(2020) [13] Li,H.,Minimap和miniasm:噪声长序列的快速映射和从头组装,生物信息学,32,14,2103-2110(2016)·doi:10.1093/bioinformatics/btw152 [14] Li,H.,Minimap2:核苷酸序列的成对比对,生物信息学,34,18,3094-3100(2018)·doi:10.1093/bioinformatics/bty191 [15] Liang,D.M.,Li,Y.F.:大规模网络数据的轻量级标签传播。In:IJCAI,第3421-3427页(2018年) [16] Liu,X.Y.,Wu,J.,Zhou,Z.H.:课堂教学中的探索性欠采样。IEEE传输。系统。人类网络。B部分(控制论)39(2),539-550(2009)。doi:10.1109/TSMCB.2008.2007853 [17] 佐治亚州Logsdon;沃尔杰,MR;Eichler,EE,Long read人类基因组测序及其应用,国家遗传学杂志。,21, 10, 597-614 (2020) ·数字对象标识代码:10.1038/s41576-020-0236-x [18] McInnes,L.,Healy,J.,Astels,S.:HDBSCAN:基于密度的分层聚类。开源软件杂志。2(11),205,e7359(2017) [19] McInnes,L.,Healy,J.,Melville,J.:Umap:统一流形近似和降维投影(2020) [20] Menzel,P.,Ng,K.L.,Krogh,A.:用Kaiju对宏基因组学进行快速而敏感的分类。国家公社。7, 11257 (2016) [21] Meyer,F.等人:Amber:宏基因组双链体的评估。Gigascience 7(6),giy069(2018) [22] Mikheenko,A。;萨维利耶夫。;Gurevich,A.,《Metaquast:宏基因组组装评估》,生物信息学,32,7,1088-1090(2016)·doi:10.1093/bioinformatics/btv697 [23] Nayfach,S。;波拉德,KS,走向准确和定量的比较宏基因组学,细胞,166,5,1103-1116(2016)·doi:10.1016/j.cell.2016.08.007 [24] Nicholls,S.M.、Quick,J.C.、Tang,S.、Loman,N.J.:模拟微生物群落标准的超深、长读纳米孔测序。Gigascience 8(5),giz043(2019) [25] Nissen,J.N.等人:使用深度可变自动编码器改进元基因组装箱和组装。自然生物技术。39(5), 555-560 (2021) [26] Nolet,C.J.等人:利用GPU加速度使UMAP更接近光速(2020年) [27] Rousseeuw,P.J.:轮廓:用于解释和验证聚类分析的图形辅助工具。J.计算。申请。数学。20、53-65、e7359(1987)·Zbl 0636.62059号 [28] 阮,J.,李,H.:使用WTDBG2快速准确的长读组件。《自然方法》17(2),155-158,e7359(2020) [29] 英国斯特克;Köster,J。;Rahmann,S.,Simlord:长读取数据的模拟,生物信息学,32,17,2704-2706(2016)·doi:10.1093/bioinformatics/btw286 [30] 斯特劳斯,M。;卡夫,B。;比斯多夫(Bisdorf,R.)。;Tegetmeyer,H.,混合培养微生物生理学的宏基因组连接体装箱,Front。微生物学。,3410(2012年)·doi:10.3389/fmicb.2012.00410 [31] 团队,R.D.:RAPIDS:端到端GPU数据科学图书馆收藏(2018)。https://rapids.ai网址 [32] Tyson,G.W.等人:通过从环境中重建微生物基因组来实现群落结构和代谢。《自然》428(6978),37-43(2004) [33] Wickramarachchi,A.:anuradhawick/seq2vec:版本1.0(2021)。doi:10.5281/zenodo.5515743,doi:10.5m281/zeno,5515743 [34] Wickramarachchi,A.,Lin,Y.:Lrbinner:在宏基因组数据集中进行长读取。摘自:第21届生物信息学算法国际研讨会(WABI 2021)。Dagstuhl-Leibniz-Zentrum für Informatik宫(2021年)·Zbl 1519.92175号 [35] Wickramarachchi,A.、Mallawaarachhi,V.、Rajan,V.和Lin,Y.:Metabcc-LR:通过覆盖率和组成对长阅读进行元基因组分类。生物信息学36(补遗1),i3-i11(2020) [36] 木材,DE;卢,J。;Langmead,B.,用kraken 2改进的宏基因组分析,基因组生物学。,20, 1, 1-13 (2019) ·doi:10.1186/s13059-019-1891-0 [37] Wu,Y.W.,Simmons,B.A.,Singer,S.W.:Maxbin 2.0:从多个宏基因组数据集恢复基因组的自动装箱算法。生物信息学32(4),605-607(2016) [38] Xu,K.,Hu,W.,Leskovec,J.,Jegelka,S.:图神经网络有多强大?arXiv:1810.00826(2018) 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。