纳米孔直接RNA测序的语言信息基调用结构

亚历山德拉·斯奈登、巴勃罗·阿塞拉·马特奥斯、尼古拉·谢洛基克、爱德华多·伊拉斯
计算生物学会议第17届机器学习会议记录,下午二00时十五分至一零二二年。

摘要

迄今为止,为基调用纳米孔信号开发的算法主要关注DNA,并将原始信号用作唯一输入。然而,众所周知,信使RNA(mRNA)占纳米孔直接RNA(dRNA)测序库的主导地位,它包含纳米孔信号中隐含编码的特定核苷酸模式,因为RNA总是从3'到5'方向测序。在本研究中,我们提出了一种利用mRNA序列偏差作为dRNA基调用的额外输入的方法。我们开发了mRNA语言的概率模型,并提出了一种改进的CTC波束搜索解码算法,以在基调用期间有条件地合并语言模型。我们的发现表明,包含mRNA语言能够引导CTC波束搜索解码朝向更可能的核苷酸序列。我们还提出了一种时间有效的方法来解码可变长度纳米孔信号。这项工作首次证明了生物语言在纳米孔基调用中的潜力。代码位于:https://github.com/comprna/radin。

引用本文


BibTeX公司
@会议记录{pmlr-v200-sneddon22a,title={纳米孔直接RNA测序的语言信息基调用结构},author={斯内登、亚历山德拉和阿塞拉·马特奥斯、巴勃罗和谢洛基赫、尼古拉和伊拉斯、爱德华多},booktitle={第17届计算生物学机器学习会议论文集},页数={150--165},年份={2022},editor={Knowles、David A和Mostafavi、Sara和Lee、Su-In},体积={200},series={机器学习研究论文集},月={11月21日--22日},publisher={PMLR},pdf={https://proceedings.mlr.press/v200/sneddon22a/sneddon22a.pdf},url={https://proceedings.mlr.press/v200/sneddon22a.html},abstract={迄今为止,为基础调用纳米孔信号而开发的算法主要关注DNA,并将原始信号用作唯一输入。然而,众所周知,信使RNA(mRNA)主导着纳米孔直接RNA(dRNA)测序文库包含特定的核苷酸模式,这些模式隐含在纳米孔信号中,因为RNA总是从3'到5'方向测序。在这项研究中,我们提出了一种利用信使核糖核酸序列偏差作为dRNA碱基调用的额外输入的方法。我们开发了mRNA语言的概率模型,并提出了一种改进的CTC波束搜索解码算法,以在基调用期间有条件地合并语言模型。我们的发现表明,包含mRNA语言能够引导CTC波束搜索解码朝向更可能的核苷酸序列。我们还提出了一种时间有效的方法来解码可变长度纳米孔信号。这项工作首次证明了生物语言在纳米孔基调用中的潜力。代码位于:https://github.com/comprna/radin。}}
尾注
%0会议论文%用于纳米孔直接RNA测序的T语言信息基调用结构%亚历山大·斯奈登%巴勃罗·艾斯拉·马特奥斯%尼古拉·谢洛基克%爱德华多·伊拉斯%计算生物学会议第17届机器学习论文集%C机器学习研究进展%D 2022年%E大卫·A·诺尔斯%E萨拉·莫斯塔法维%李素英%F pmlr-v200-sneddon 22a型%我PMLR%第150页至第165页%U型https://proceedings.mlr.press/v200/sneddon22a.html%200伏%迄今为止,为基调用纳米孔信号而开发的X算法主要关注DNA,并将原始信号用作唯一输入。然而,众所周知,信使RNA(mRNA)占纳米孔直接RNA(dRNA)测序库的主导地位,它包含纳米孔信号中隐含编码的特定核苷酸模式,因为RNA总是从3'到5'方向测序。在本研究中,我们提出了一种利用mRNA序列偏差作为dRNA基调用的额外输入的方法。我们开发了mRNA语言的概率模型,并提出了一种改进的CTC波束搜索解码算法,以在基调用期间有条件地合并语言模型。我们的发现表明,包含mRNA语言能够引导CTC波束搜索解码朝向更可能的核苷酸序列。我们还提出了一种时间有效的方法来解码可变长度纳米孔信号。这项工作首次证明了生物语言在纳米孔基调用中的潜力。代码位于:https://github.com/comprna/radin。
阿帕
Sneddon,A.、Acera Mateos,P.、Shirokikh,N.和Eyras,E.(2022年)。纳米孔直接RNA测序的语言信息基调用结构。计算生物学会议第17届机器学习会议记录,英寸机器学习研究进展200:150-165网址:https://proceedings.mlr.press/v200/sneddon22a.html。

相关材料