跳到主页面内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2013年10月23日14时313分。
doi:10.1186/1471-2105-14-313。

基因组读取组装中k-mer de Bruijn图的紧表示

附属公司

基因组读取组装中k-mer de Bruijn图的紧表示

埃纳尔·安德烈亚斯·罗德兰. BMC生物信息学. .

摘要

背景:从高通量排序中读取的处理通常是根据de Bruijn图中表示读取的所有k-mer的边来完成的。即使在删除读取错误后,在查找表中存储所有k-mer的内存需求也可能很高,但可以通过使用节省内存的数据结构来缓解。

结果:基于Burrows-Wheeler变换的FM-index提供了一种高效的数据结构,为一组字符串中的所有子字符串提供了可搜索的索引,并用于紧凑地表示完整的基因组,用于将读数映射到基因组:存储这些读数所需的内存与字符串本身的数量级相同。然而,来自高吞吐量序列的读取大多具有高覆盖率,因此多次包含来自不同读取的相同子字符串。我在这里介绍了FM-index的一个修改,我称之为kFM-indexe,用于索引读取的k-mer集。对于DNA序列,这需要对应的de Bruijn子图的每个顶点的5位信息,即每个不同的k-1-mer,再加上一些额外的开销,通常每个顶点0.5到1位,用于存储FM-index的等价物,以便遍历底层的de Bruijn图并高效地复制实际的k-mer。

结论:kFM-index可以取代需要更多内存的数据结构,用于存储序列读取的de Bruijn k-mer图表示。提供了一个带有附加技术文档的Java实现,它演示了数据结构的适用性(http://folk.uio.no/einarro/Projects/KFM索引/).

PubMed免责声明

数字

图1
图1
kFM-index数据和相应的de Bruijn子图。DNA 4分子的数据结构表示。这个顶点字符串不存储,而是从边缘和组端数据重建。这个边缘列表示每个顶点的传入边,即可能在顶点字符串前面加上的字母。这个组结束标志i表示具有相同顶点的组k个−2-前缀。这个上一个位置数据可以从边集数据和组结束数据生成,并且在每个顶点组内是恒定的;为了提高计算速度,存储了一个子集。

类似文章

  • 压缩彩色de Bruijn图的空间和时间效率索引。
    Almodaresi F、Sarkar H、Srivastava A、Patro R。 Almodaresi F等人。 生物信息学。2018年7月1日;34(13):i169-i177。doi:10.1093/bioinformatics/bty292。 生物信息学。2018 PMID:29949982 免费PMC文章。
  • Simpligs作为德布鲁因图的一种高效且可扩展的表示。
    Břinda K、Baym M、Kucherov G。 Břinda K等人。 基因组生物学。2021年4月6日;22(1):96. doi:10.1186/s13059-021-02297-z。 基因组生物学。2021 PMID:33823902 免费PMC文章。
  • 阅读de Bruijn图上的映射。
    Limasset A、Cazaux B、Rivals E、Peterlongo P。 Limasset A等人。 BMC生物信息学。2016年6月16日;17(1):237. doi:10.1186/s12859-016-1103-9。 BMC生物信息学。2016 PMID:27306641 免费PMC文章。
  • RResolver:ABySS中高效的短读重复分辨率。
    NikolićV、Afshinfard A、Chu J、Wong J、Coombe L、Nip KM、Warren RL、Birol I。 NikolićV等人。 BMC生物信息学。2022年6月21日;23(1):246. doi:10.1186/s12859-022-04790-z。 BMC生物信息学。2022 PMID:35729491 免费PMC文章。
  • 从头开始的全基因组组装的现状和未来。
    Sohn JI、Nam JW。 Sohn JI等人。 简要生物信息。2018年1月1日;19(1):23-40. doi:10.1093/bib/bbw096。 简要生物信息。2018 PMID:27742661 审查。

引用人

工具书类

    1. Conway TC、Bromage AJ。精简数据结构,用于组装大型基因组。生物信息学。2011;14(4):479–486. doi:10.1093/bioinformatics/btq697。-内政部-公共医学
    1. Ning Z、Cox AJ、Mullikin JC。SSAHA:一种用于大型DNA数据库的快速搜索方法。基因组研究2001;14(10):1725–1729. doi:10.1101/gr.194201。-内政部-项目管理咨询公司-公共医学
    1. Roberts M、Hayes W、Hunt BR、Mount SM、Yorke JA。降低生物序列比较的存储要求。生物信息学。2004;14(18):3363–3369. doi:10.1093/bioinformatics/bth408。-内政部-公共医学
    1. 叶C、马ZS、坎农CH、波普M、于德华。利用新基因组组装中的稀疏性。BMC生物信息学。2012;14(补充6):S1。doi:10.1186/1471-2105-13-S6-S1。-内政部-项目管理咨询公司-公共医学
    1. Pell J,Hintze A,Canino-Koning R,Howe A,Tiedje JM,Brown CT。用概率de Bruijn图缩放元基因组序列组装。美国国家科学院院刊2012;14(33):13272–13277. doi:10.1073/pnas.1121464109。-内政部-项目管理咨询公司-公共医学