安东尼·考克斯。;托比亚斯·雅科比;乔瓦娜·罗森;舒尔兹·特里格拉夫(Ole B.Schulz-Trieglaff)。 通过压缩文本索引的直接比较来比较DNA序列集合。 (英语) Zbl 1370.68340号 Raphael,Ben(编辑)等人,《生物信息学中的算法》。2012年9月10日至12日在斯洛文尼亚卢布尔雅那举行的2012年WABI第十二届国际研讨会。诉讼程序。柏林:施普林格出版社(ISBN 978-3-642-33121-3/pbk)。计算机科学讲义7534。生物信息学讲义,214-224(2012)。 摘要:流行的序列比对工具(如BWA)将参考基因组转换为基于Burrows-Wheeler变换(BWT)的索引数据结构,从中可以快速确定与单个查询序列的匹配。然而,对查询序列本身进行索引的实用性还相对未被探索。这里我们展示了两个序列集合的全面比较可以从每个集合的BWT计算出来,BWT完全保存在外部存储器中,即磁盘上而不是RAM中。作为此技术的应用,我们表明,转录组和基因组读数的BWT可以进行比较,以获得与更标准的基于参考的方法的结果高度重叠的剪接连接的无参考预测。构建和比较大型基因组数据集BWT的代码可在“http://betel.github.com/beetl/“作为BEETL库的一部分。关于整个系列,请参见[Zbl 1253.68020号]. 引用于1审查引用于5文件 MSC公司: 68瓦32 字符串上的算法 68第05页 数据结构 92D20型 蛋白质序列,DNA序列 软件:github;BED工具;BEETL公司;顶帽;香皂 PDF格式BibTeX公司 XML格式引用 \textit{A.J.Cox}等人,Lect。注释计算。科学。7534,214--224(2012;Zbl 1370.68340) 全文: 内政部 arXiv公司