碎片能

易碎基因:短而易出错的基因预测。下一代测序技术的进步促进了宏基因组学研究,试图直接确定环境样品(即宏基因组)内遗传物质的整个集合。从短阅读中直接识别基因已经成为注释宏基因组的一个重要而具有挑战性的问题,因为宏基因组的组装通常是不可用的。对于整个基因组(例如微光)和最近为宏基因组序列(例如,Meta)开发的基因预测因子在测序错误率增加或读取变得更短时表现出显著的性能下降。我们已经开发了一种新的基因预测方法FraceGeSCAN,它将序列误差模型和密码子用法结合在隐马尔可夫模型中,以改进短阅读中蛋白质编码区的预测。片段的性能可以与完整基因组的微光和亚基因媲美。但是对于短读数,片段长度可以始终优于偏基因(对于400个碱基的读取精度提高了62%,具有1%个测序误差,而18%个短碱基的100个碱基是无错误的)。当应用于宏基因组时,片段可能比基因预测的基因恢复更多(超过同源搜索识别的基因的90%),并且在当前的蛋白质序列数据库中许多新的没有同源基因的基因。