×

利用深度学习和注意力从序列和基因表达预测甲基化。 (英语) Zbl 1416.92061号

伊恩·霍姆斯(编辑)等人,《计算生物学算法》。2019年5月28日至30日在美国加利福尼亚州伯克利举行的第六届AlCoB国际会议。诉讼程序。查姆:斯普林格。莱克特。注释计算。科学。11488, 179-190 (2019).
摘要:DNA甲基化与基因表达的改变密切相关,在多种疾病尤其是癌症的表现中起着关键作用。因此,从分子生物学的角度来看,甲基化的序列决定因素以及甲基化与表达之间的关系非常有趣。已经提出了几个模型来支持甲基化状态的预测。然而,这些模型有两个主要局限性:(a)它们局限于特定的CpG位点;(b)不容易理解。我们通过专注的深度学习来解决这些局限性。我们建立了一个通用模型,该模型仅基于样本的基因表达谱和CpG周围的序列来预测给定样本在任何CpG位置的DNA甲基化。根据基因-CpG的接近性,我们的模型在CpG位置和受试者(癌症和健康样本)的两个独立测试集上的数千个CpG位点上获得了高达0.84的Spearman相关性。重要的是,我们的方法,特别是注意力的使用,提供了一个新的框架,当与序列信息相结合时,可以从基因表达数据中提取有价值的见解。我们通过将几个基序和基因与甲基化活性联系起来来证明这一点,包括Nodal和Hand1。代码和训练过的重量可从以下网址获得:https://github.com/YakhiniGroup/甲基化.
关于整个系列,请参见[Zbl 1416.92001号].

MSC公司:

92C40型 生物化学、分子生物学
2008年9月 生物学问题的计算方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部 内政部