纳米孔直接RNA测序的语言信息基调用结构
亚历山德拉·斯奈登、巴勃罗·阿塞拉·马特奥斯、尼古拉·谢洛基克、爱德华多·伊拉斯
计算生物学会议第17届机器学习会议记录,下午二00时十五分至一零二二年。
摘要
迄今为止,为基调用纳米孔信号开发的算法主要关注DNA,并将原始信号用作唯一输入。然而,众所周知,信使RNA(mRNA)占纳米孔直接RNA(dRNA)测序库的主导地位,它包含纳米孔信号中隐含编码的特定核苷酸模式,因为RNA总是从3'到5'方向测序。在本研究中,我们提出了一种利用mRNA序列偏差作为dRNA基调用的额外输入的方法。我们开发了mRNA语言的概率模型,并提出了一种改进的CTC波束搜索解码算法,以在基调用期间有条件地合并语言模型。我们的发现表明,包含mRNA语言能够引导CTC波束搜索解码朝向更可能的核苷酸序列。我们还提出了一种时间有效的方法来解码可变长度纳米孔信号。这项工作首次证明了生物语言在纳米孔基调用中的潜力。代码位于:https://github.com/comprna/radin。
引用本文
相关材料