摘要
动机
DNA N4-甲基胞嘧啶(4mC)修饰是原核生物DNA中一种重要的表观遗传修饰,因为它在调节DNA复制和保护宿主DNA免受降解方面发挥着作用。下游分析需要一种有效的算法来识别4mC站点。
结果
在本研究中,我们基于二阶马尔可夫模型提出了一种新的预测方法SOMM4mC,该方法利用相邻核苷酸之间的转移概率来识别4mC位点。结果表明,在所有六个物种中,一阶和二阶马尔可夫模型都优于现有的三种算法(秀丽隐杆线虫,黑腹果蝇,拟南芥,大肠杆菌,亚丛地碱杆菌和皮克林地杆菌)其中基准数据集可用。然而,SOMM4mC的分类性能比一阶马尔可夫模型更为突出。特别是对于大肠杆菌和线虫SOMM4mC的总准确度为91.8%和87.6%,分别比最新方法4mcPred-SVM高8.5%和6.1%。这表明SOMM4mC通过相邻核苷酸之间的依赖性捕获了更多的判别序列信息。
1引言
DNA甲基化是表观遗传学中最重要的修饰。N6-甲基胞嘧啶(6 mA)、N4-甲基胞嘧啶(4mC)和5-甲基胞嘧啶是三种最常见的DNA甲基化修饰。到目前为止,对4mC生物功能的研究非常有限。迄今为止,已证实4mC的功能包括调节DNA复制(程,1995)保护宿主DNA免受降解(Schweizer,2008年).
到目前为止,单分子和实时测序(弗罗斯伯格等。, 2010)和4mC-Tet-辅助亚硫酸氢盐测序(4mCTABseq)(于等。, 2015)已成为检测4mC位点的主流实验方法。尽管这些测序技术可以准确地识别4mC位点,但很难大规模应用于整个基因组。因此,需要一种准确高效的计算算法来检测基因组序列中的4mC位点。
最近的研究表明,计算机算法可以用于4mC预测。迄今为止,已有三种基于机器学习方法的计算型4mC预测工具。第一个预测工具称为iDNA4mC(陈等。, 2017)使用基于核苷酸化学特性和核苷酸频率特征的支持向量机(SVM)。结果表明,iDNA4mC能够区分4mC位点和非4mC位点(陈等。, 2017). 2018年,基于位置特异性三核苷酸倾向和电子-离子相互作用的特征,提出了一种名为4mCPred15的新工具。结果表明,在多种物种中,4mCPred的性能优于iDNA4mC(He等。, 2018). 最近,魏等。开发了一个名为4mCPred-SVM的新工具(世界环境学会等。, 2019)用于检测DNA 4mC位点。该工具主要使用SVM集成四个序列特征描述符。4mCPred SVM表现出比iDNA4mC和4mCPred更好的性能(世界环境学会等。, 2019). 然而,这三种工具的分类性能仍然不令人满意。他们仍然存在高假阳性和假阴性。因此,有必要开发一种更准确的预测方法来识别4mC位点。
在本研究中,我们提出了一种基于二阶马尔可夫模型的新方法SOMM4mC来预测DNA 4mC位点。SOMM4mC与先前4mC预测方法的主要区别在于,甲基化位点周围相邻核苷酸之间的依赖性被SOMM4mC捕获。事实上,生物序列之间的这种邻接依赖性早已通过马尔可夫链模型用于各种信号检测(阿拉木图,1983年;博罗多夫斯基等。, 1995;钢琴等。, 2019;鹪鹩等。, 2005). 2019年,我们团队将一阶马尔可夫模型应用于6 毫安(钢琴等。, 2019). 然而,据我们所知,SOMM4mC是第一个基于邻接依赖信息的4mC站点预测工具。我们的结果表明,SOMM4mC和一阶马尔可夫模型在六个物种中的表现优于现有的三种方法(4mCPred-SVM、iDNA4mC和4mCPred),其中一些方法的准确性有显著提高。与一阶马尔可夫模型的结果相比,SOMM4mC具有更好的分类性能。
2材料和方法
2.1基准数据集
三种现有方法(iDNA4mC、4mCPred和4mCPred-SVM)使用了来自六个物种的相同高质量数据集:秀丽隐杆线虫、黑腹果蝇、拟南芥、大肠杆菌、地下地碱杆菌和皮克林地杆菌这些基准数据集由Chen构建等。(陈等。, 2017). 我们将使用相同的基准数据集进行公平比较。上述六个物种的阳性样本数分别为1554、1769、1978、388、906和569。阴性样品的数量与相应的阳性样品数量相同。所有数据都是从下载的http://server.malab.cn/4mcPred-SVM(世界环境学会等。, 2019). 每个序列包含41个核苷酸,中心为靶向胞嘧啶(即核苷酸C)。
2.2马尔可夫模型
马尔可夫模型是经典的统计模型,广泛应用于语音识别、文本分类、序列分析等领域。作为一种特殊情况,一阶马尔可夫链是一个随机过程,其中下一个状态只依赖于前一个状态。对于DNA模体识别,一阶马尔可夫链可以很好地捕获相邻核苷酸之间的信息。
2019年,我们将一阶马尔可夫模型应用于6 mA甲基化位点,并开发了一个名为MM-6mapred的网络工具(钢琴等。, 2019). 然而,一阶马尔可夫模型可能无法很好地描述序列。在这里,我们尝试使用二阶马尔可夫模型来建模4mc序列。让表示随机变量t吨-长度为的DNA序列的第个位置我通过一阶马尔可夫链的性质,我们得到对于根据训练数据集中的4mC序列,核苷酸的概率出现在起始位置的估计值表示为、和表示的转移概率矩阵分别是。类似地,从非4mC序列中,和分别估计为核苷酸的初始分布和相应的转移概率。因此,我们训练了两个马尔可夫模型和基于训练数据集中的正负序列。使用测试序列示例(Seq='GTTGAAGCTAAATTCACCGGCGTTGATCGTAAACCGCGCGCGC')解释预测过程。概率和两种模型下的序列“Seq”和分别进行计算;然后用于确定“Seq”是4mC序列还是非4mC序列,其中和如果,“Seq”被分类为4mC序列,否则为非4mC序列。
2.3精度测量
我们使用分类器的常用性能度量,包括灵敏度(Sn)、特异性(Sp)、总预测准确度(ACC)和马太相关系数(MCC)(马修斯,1975年): 哪里T型P(P)表示正确识别的实际4mC序列数,F类N个错误分类的4mC序列数量,T型N个正确识别的非4mC序列数量以及F类P(P)非4mC序列的数量分类错误。 3结果
3.1转移概率转移概率可视化
说明不同位置的转移概率提供的判别信息。我们可视化了在里面图1(采取拟南芥作为示例)。图1表明位置21附近的转移概率存在显著差异,尤其是(22,23)-24,(23,24)-25,(24,25)-26,(25,26)-27,(26,27)-28和(27,28)-29。此外,核苷酸对的一些跃迁概率)在39个位置中的大多数位置显示出显著差异,例如AG-G、GG-G、GC-G和CC-C。
图1。
的可视化在里面拟南芥。纵轴的变量名表示转移概率。横轴的变量名表示位置对
3.2与其他方法的比较
为了证明我们的方法TOMM4mC的优势,我们将我们的方法与三种现有的4mC预测工具进行了比较:iDNA4mC和4mCPred 4mCPred-SVM。此外,我们还将其与一阶马尔可夫模型进行了比较。为了进行公平比较,我们基于六个物种的相同基准数据集,使用10倍交叉验证来评估四种工具的性能。分类性能如所示表1结果表明,TOMM4mC和一阶马尔可夫模型在所有六种物种中的预测精度均高于其他三种算法。TOMM4mC的分类性能优于一阶马尔可夫模型。对于物种大肠杆菌和线虫TOMM4mC的总准确度分别为91.8%和87.6%,比现有的最新方法4mcPred-SVM高8.5%和6.1%。这表明相邻核苷酸之间的转移概率可以捕获更多的鉴别序列信息。
表1。基于六个物种相同基准数据集的四种4mC预测方法的交叉验证精度
数据集集合. | 方法. | 行政协调会. | 序号. | 服务提供商. | 电动机控制中心. |
---|
线虫 | iDNA4mC系列 | 0.786 | 0.797 | 0.775 | 0.572 |
4mC红色 | 0.826 | 0.825 | 0.826 | 0.652 |
4mcPred-SVM系列 | 0.815 | 0.824 | 0.807 | 0.631 |
一阶马尔可夫 | 0.855 | 0.836 | 0.875 | 0.721 |
托姆4mC | 0.876 | 0.839 | 0.913 | 0.743 |
D.黑食肉动物 | iDNA4mC系列 | 0.812 | 0.833 | 0.791 | 0.625 |
4mC红色 | 0.822 | 0.824 | 0.821 | 0.646 |
4mcPred-SVM系列 | 0.830 | 0.838 | 0.822 | 0.661 |
一阶马尔可夫 | 0.857 | 0.846 | 0.868 | 0.708 |
托姆4mC | 0.874 | 0.862 | 0.886 | 0.724 |
拟南芥 | iDNA4mC系列 | 0.760 | 0.757 | 0.762 | 0.519 |
4mC红色 | 0.768 | 0.755 | 0.780 | 0.536 |
4mcPred-SVM系列 | 0.787 | 0.778 | 0.796 | 0.573 |
一阶马尔可夫 | 0.817 | 0.814 | 0.821 | 0.635 |
托姆4mC | 0.836 | 0.800 | 0.872 | 0.647 |
大肠杆菌 | iDNA4mC系列 | 0.799 | 0.820 | 0.778 | 0.598 |
4mC红色 | 0.826 | 0.819 | 0.832 | 0.655 |
4mcPred-SVM系列 | 0.833 | 0.858 | 0.807 | 0.666 |
一阶马尔可夫 | 0.904 | 0.893 | 0.915 | 0.849 |
托姆4mC | 0.918 | 0.903 | 0.934 | 0.853 |
G.subtrruneus公司 | iDNA4mC系列 | 0.815 | 0.822 | 0.808 | 0.630 |
4mC红色 | 0.828 | 0.818 | 0.837 | 0.662 |
4mcPred-SVM系列 | 0.837 | 0.840 | 0.834 | 0.674 |
一阶马尔可夫 | 0.853 | 0.843 | 0.862 | 0.716 |
托姆4mC | 0.876 | 0.864 | 0.888 | 0.728 |
皮克林革兰菌 | iDNA4mC系列 | 0.831 | 0.824 | 0.838 | 0.663 |
4mC红色 | 0.830 | 0.850 | 0.810 | 0.668 |
4mcPred-SVM系列 | 0.860 | 0.863 | 0.858 | 0.721 |
一阶马尔可夫 | 0.881 | 0.889 | 0.875 | 0.764 |
汤姆4米C | 0.903 | 0.895 | 0.911 | 0.772 |
数据集集合. | 方法. | 行政协调会. | 序号. | 服务提供商. | 电动机控制中心. |
---|
线虫 | iDNA4mC系列 | 0.786 | 0.797 | 0.775 | 0.572 |
4mC红色 | 0.826 | 0.825 | 0.826 | 0.652 |
4mcPred-SVM系列 | 0.815 | 0.824 | 0.807 | 0.631 |
一阶马尔可夫 | 0.855 | 0.836 | 0.875 | 0.721 |
托姆4mC | 0.876 | 0.839 | 0.913 | 0.743 |
D.黑食肉动物 | iDNA4mC系列 | 0.812 | 0.833 | 0.791 | 0.625 |
4mC红色 | 0.822 | 0.824 | 0.821 | 0.646 |
4mcPred-SVM系列 | 0.830 | 0.838 | 0.822 | 0.661 |
一阶马尔可夫 | 0.857 | 0.846 | 0.868 | 0.708 |
汤姆4米C | 0.874 | 0.862 | 0.886 | 0.724 |
拟南芥 | 脱氧核糖核酸4mC | 0.760 | 0.757 | 0.762 | 0.519 |
4mC红色 | 0.768 | 0.755 | 0.780 | 0.536 |
4mcPred-SVM系列 | 0.787 | 0.778 | 0.796 | 0.573 |
一阶马尔可夫 | 0.817 | 0.814 | 0.821 | 0.635 |
托姆4mC | 0.836 | 0.800 | 0.872 | 0.647 |
大肠杆菌 | iDNA4mC系列 | 0.799 | 0.820 | 0.778 | 0.598 |
4mC红色 | 0.826 | 0.819 | 0.832 | 0.655 |
4mcPred-SVM系列 | 0.833 | 0.858 | 0.807 | 0.666 |
一阶马尔可夫 | 0.904 | 0.893 | 0.915 | 0.849 |
汤姆4米C | 0.918 | 0.903 | 0.934 | 0.853 |
G.subtrruneus公司 | iDNA4mC系列 | 0.815 | 0.822 | 0.808 | 0.630 |
4mC红色 | 0.828 | 0.818 | 0.837 | 0.662 |
4mcPred-SVM系列 | 0.837 | 0.840 | 0.834 | 0.674 |
一阶马尔可夫 | 0.853 | 0.843 | 0.862 | 0.716 |
托姆4mC | 0.876 | 0.864 | 0.888 | 0.728 |
皮克林革兰菌 | iDNA4mC系列 | 0.831 | 0.824 | 0.838 | 0.663 |
4mC红色 | 0.830 | 0.850 | 0.810 | 0.668 |
4mcPred支持向量机 | 0.860 | 0.863 | 0.858 | 0.721 |
一阶马尔可夫 | 0.881 | 0.889 | 0.875 | 0.764 |
托姆4mC | 0.903 | 0.895 | 0.911 | 0.772 |
表1。基于六个物种相同基准数据集的四种4mC预测方法的交叉验证精度
数据集集合. | 方法. | 行政协调会. | 序号. | 服务提供商. | 电动机控制中心. |
---|
线虫 | iDNA4mC系列 | 0.786 | 0.797 | 0.775 | 0.572 |
4mC红色 | 0.826 | 0.825 | 0.826 | 0.652 |
4mcPred支持向量机 | 0.815 | 0.824 | 0.807 | 0.631 |
一阶马尔可夫 | 0.855 | 0.836 | 0.875 | 0.721 |
托姆4mC | 0.876 | 0.839 | 0.913 | 0.743 |
D.黑食肉动物 | 脱氧核糖核酸4mC | 0.812 | 0.833 | 0.791 | 0.625 |
4mC红色 | 0.822 | 0.824 | 0.821 | 0.646 |
4mcPred-SVM系列 | 0.830 | 0.838 | 0.822 | 0.661 |
一阶马尔可夫 | 0.857 | 0.846 | 0.868 | 0.708 |
托姆4mC | 0.874 | 0.862 | 0.886 | 0.724 |
拟南芥 | iDNA4mC系列 | 0.760 | 0.757 | 0.762 | 0.519 |
4mC红色 | 0.768 | 0.755 | 0.780 | 0.536 |
4mcPred-SVM系列 | 0.787 | 0.778 | 0.796 | 0.573 |
一阶马尔可夫 | 0.817 | 0.814 | 0.821 | 0.635 |
汤姆4米C | 0.836 | 0.800 | 0.872 | 0.647 |
大肠杆菌 | iDNA4mC系列 | 0.799 | 0.820 | 0.778 | 0.598 |
4mC红色 | 0.826 | 0.819 | 0.832 | 0.655 |
4mcPred-SVM系列 | 0.833 | 0.858 | 0.807 | 0.666 |
一阶马尔可夫 | 0.904 | 0.893 | 0.915 | 0.849 |
托姆4mC | 0.918 | 0.903 | 0.934 | 0.853 |
G.subtrruneus公司 | iDNA4mC系列 | 0.815 | 0.822 | 0.808 | 0.630 |
4mC红色 | 0.828 | 0.818 | 0.837 | 0.662 |
4mcPred-SVM系列 | 0.837 | 0.840 | 0.834 | 0.674 |
一阶马尔可夫 | 0.853 | 0.843 | 0.862 | 0.716 |
托姆4mC | 0.876 | 0.864 | 0.888 | 0.728 |
皮克林革兰菌 | iDNA4mC系列 | 0.831 | 0.824 | 0.838 | 0.663 |
4mC红色 | 0.830 | 0.850 | 0.810 | 0.668 |
4mcPred-SVM系列 | 0.860 | 0.863 | 0.858 | 0.721 |
一阶马尔可夫 | 0.881 | 0.889 | 0.875 | 0.764 |
托姆4mC | 0.903 | 0.895 | 0.911 | 0.772 |
数据集集合. | 方法. | 行政协调会. | 序号. | 服务提供商. | 电动机控制中心. |
---|
线虫 | 脱氧核糖核酸4mC | 0.786 | 0.797 | 0.775 | 0.572 |
4mC红色 | 0.826 | 0.825 | 0.826 | 0.652 |
4mcPred-SVM系列 | 0.815 | 0.824 | 0.807 | 0.631 |
一阶马尔可夫 | 0.855 | 0.836 | 0.875 | 0.721 |
托姆4mC | 0.876 | 0.839 | 0.913 | 0.743 |
D.黑食肉动物 | iDNA4mC系列 | 0.812 | 0.833 | 0.791 | 0.625 |
4mC红色 | 0.822 | 0.824 | 0.821 | 0.646 |
4mcPred-SVM系列 | 0.830 | 0.838 | 0.822 | 0.661 |
一阶马尔可夫 | 0.857 | 0.846 | 0.868 | 0.708 |
托姆4mC | 0.874 | 0.862 | 0.886 | 0.724 |
拟南芥 | iDNA4mC系列 | 0.760 | 0.757 | 0.762 | 0.519 |
4mC红色 | 0.768 | 0.755 | 0.780 | 0.536 |
4mcPred-SVM系列 | 0.787 | 0.778 | 0.796 | 0.573 |
一阶马尔可夫 | 0.817 | 0.814 | 0.821 | 0.635 |
托姆4mC | 0.836 | 0.800 | 0.872 | 0.647 |
大肠杆菌 | 脱氧核糖核酸4mC | 0.799 | 0.820 | 0.778 | 0.598 |
4mC红色 | 0.826 | 0.819 | 0.832 | 0.655 |
4mcPred-SVM系列 | 0.833 | 0.858 | 0.807 | 0.666 |
一阶马尔可夫 | 0.904 | 0.893 | 0.915 | 0.849 |
托姆4mC | 0.918 | 0.903 | 0.934 | 0.853 |
G.subtrruneus公司 | iDNA4mC系列 | 0.815 | 0.822 | 0.808 | 0.630 |
4mC红色 | 0.828 | 0.818 | 0.837 | 0.662 |
4mcPred-SVM系列 | 0.837 | 0.840 | 0.834 | 0.674 |
一阶马尔可夫 | 0.853 | 0.843 | 0.862 | 0.716 |
托姆4mC | 0.876 | 0.864 | 0.888 | 0.728 |
G.pickeringii公司 | iDNA4mC系列 | 0.831 | 0.824 | 0.838 | 0.663 |
4mC红色 | 0.830 | 0.850 | 0.810 | 0.668 |
4mcPred-SVM系列 | 0.860 | 0.863 | 0.858 | 0.721 |
一阶马尔可夫 | 0.881 | 0.889 | 0.875 | 0.764 |
托姆4mC | 0.903 | 0.895 | 0.911 | 0.772 |
3.3 Web服务器实现
为了便于使用TOMM4mC来识别4mC站点,已经为TOMM4mC建立了一个用户友好的web服务器。可在以下网址免费获取:http://www.insect-genome.com/MM4mc/server.html。我们的工具可以处理41个序列 nt或长基因组序列。用户可以将序列粘贴到文本区域或上传FASTA格式文件(文件大小不超过1GB)。
4结论
为了更好地理解4mc的生物学机制,准确有效地预测4mc位点是必要的。在本文中,我们提供了一个名为TOMM4mC的工具和一个web服务器,用于计算识别六个物种中的4mC位点。分类性能通过10倍交叉验证进行评估。结果表明,TOMM4mC优于所有现有方法。TOMM4mC的成功表明,利用相邻核苷酸之间的转移概率可以捕获更多用于4mC分类的判别序列信息。
致谢
作者非常感谢来自http://server.malab.cn/4mcPred-SVM聪翩感谢他在访问香港中文大学统计系期间获得的支持。
基金
这项工作得到了南京农业大学先进人才创业基金(No.050/804009)的支持。
利益冲突:未声明。
参考文献
阿尔玛戈尔
高级管理人员。
(
1983
)DNA序列的马尔可夫分析
.J.西奥。生物
.,104
,633
–645
.博罗多夫斯基
M。
等(
1995
)利用三类基因的马尔可夫模型检测细菌基因组中的新基因
.核酸研究
.,23
,3554
–3562
.陈
西。
等(
2017
)iDNA4mC:基于核苷酸化学性质识别DNA N4-甲基胞嘧啶位点
.生物信息学
,33
,3518
–3523
.程
X。
(
1995
)甲基转移酶对DNA的修饰
.货币。操作。结构。生物
.,5
,4
–10
.弗罗斯伯格
文学学士。
等(
2010
)单分子实时测序期间直接检测DNA甲基化
.自然方法
,7
,461
–465
.他
西。
等(
2018
)4mCPred:DNA N4-甲基胞嘧啶位点预测的机器学习方法
.生物信息学
,35
,593
–601
.马修斯
B.W.公司。
(
1975
)T4噬菌体溶菌酶二级结构预测值与观察值的比较
.生物化学。生物物理学。学报
,405
,442
–451
.钢琴
C。
等(
2019
)MM-6mAPred:基于马尔可夫模型识别DNA N6-甲基腺嘌呤位点
.生物信息学,36,388
–392
.施维泽
高压。
(
2008
)细菌遗传学:过去的成就、该领域的现状和未来的挑战
.生物技术
,44
,633
–641
.世界环境学会
L。
等人(
2019
)探索基于序列的特征以改进多物种中DNA N4-甲基胞嘧啶位点的预测
.生物信息学
,35
,1326
–1333
.鹪鹩
J.D.(医学博士)。
等(
2005
)大型文本数据库中DNA/蛋白质序列的马尔可夫模型识别与分类
.生物信息学
,21
,4046
–4053
.于
M。
等(
2015
)用4mC-Tet-辅助亚硫酸氢钠序列测定基因组DNA中的N-甲基胞嘧啶
.核酸研究
.,43
,第148页
.
作者注释
©作者2020。牛津大学出版社出版。保留所有权利。有关权限,请发送电子邮件至:日记.permissions@oup.com