摘要

动机

DNA N4-甲基胞嘧啶(4mC)修饰是原核生物DNA中一种重要的表观遗传修饰,因为它在调节DNA复制和保护宿主DNA免受降解方面发挥着作用。下游分析需要一种有效的算法来识别4mC站点。

结果

在本研究中,我们基于二阶马尔可夫模型提出了一种新的预测方法SOMM4mC,该方法利用相邻核苷酸之间的转移概率来识别4mC位点。结果表明,在所有六个物种中,一阶和二阶马尔可夫模型都优于现有的三种算法(秀丽隐杆线虫黑腹果蝇拟南芥大肠杆菌亚丛地碱杆菌皮克林地杆菌)其中基准数据集可用。然而,SOMM4mC的分类性能比一阶马尔可夫模型更为突出。特别是对于大肠杆菌线虫SOMM4mC的总准确度为91.8%和87.6%,分别比最新方法4mcPred-SVM高8.5%和6.1%。这表明SOMM4mC通过相邻核苷酸之间的依赖性捕获了更多的判别序列信息。

可用性和实施

SOMM4mC的web服务器可以在以下位置自由访问:网址:www.insect-genome.com/SOMM4mC.

1引言

DNA甲基化是表观遗传学中最重要的修饰。N6-甲基胞嘧啶(6mA)、N4-甲基胞嘧啶(4mC)和5-甲基胞嘧啶是三种最常见的DNA甲基化修饰。到目前为止,对4mC生物功能的研究非常有限。迄今为止,已证实4mC的功能包括调节DNA复制(程,1995)保护宿主DNA免受降解(Schweizer,2008年).

到目前为止,单分子和实时测序(弗罗斯伯格等。, 2010)和4mC-Tet-辅助亚硫酸氢盐测序(4mCTABseq)(等。, 2015)已成为检测4mC位点的主流实验方法。尽管这些测序技术可以准确地识别4mC位点,但很难大规模应用于整个基因组。因此,需要一种准确高效的计算算法来检测基因组序列中的4mC位点。

最近的研究表明,计算机算法可以用于4mC预测。迄今为止,已有三种基于机器学习方法的计算型4mC预测工具。第一个预测工具称为iDNA4mC(等。, 2017)使用基于核苷酸化学特性和核苷酸频率特征的支持向量机(SVM)。结果表明,iDNA4mC能够区分4mC位点和非4mC位点(等。, 2017). 2018年,基于位置特异性三核苷酸倾向和电子-离子相互作用的特征,提出了一种名为4mCPred15的新工具。结果表明,在多种物种中,4mCPred的性能优于iDNA4mC(He等。, 2018). 最近,魏等。开发了一个名为4mCPred-SVM的新工具(世界环境学会等。, 2019)用于检测DNA 4mC位点。该工具主要使用SVM集成四个序列特征描述符。4mCPred SVM表现出比iDNA4mC和4mCPred更好的性能(世界环境学会等。, 2019). 然而,这三种工具的分类性能仍然不令人满意。他们仍然存在高假阳性和假阴性。因此,有必要开发一种更准确的预测方法来识别4mC位点。

在本研究中,我们提出了一种基于二阶马尔可夫模型的新方法SOMM4mC来预测DNA 4mC位点。SOMM4mC与先前4mC预测方法的主要区别在于,甲基化位点周围相邻核苷酸之间的依赖性被SOMM4mC捕获。事实上,生物序列之间的这种邻接依赖性早已通过马尔可夫链模型用于各种信号检测(阿拉木图,1983年;博罗多夫斯基等。, 1995;钢琴等。, 2019;鹪鹩等。, 2005). 2019年,我们团队将一阶马尔可夫模型应用于6毫安(钢琴等。, 2019). 然而,据我们所知,SOMM4mC是第一个基于邻接依赖信息的4mC站点预测工具。我们的结果表明,SOMM4mC和一阶马尔可夫模型在六个物种中的表现优于现有的三种方法(4mCPred-SVM、iDNA4mC和4mCPred),其中一些方法的准确性有显著提高。与一阶马尔可夫模型的结果相比,SOMM4mC具有更好的分类性能。

2材料和方法

2.1基准数据集

三种现有方法(iDNA4mC、4mCPred和4mCPred-SVM)使用了来自六个物种的相同高质量数据集:秀丽隐杆线虫、黑腹果蝇、拟南芥、大肠杆菌、地下地碱杆菌和皮克林地杆菌这些基准数据集由Chen构建等。(等。, 2017). 我们将使用相同的基准数据集进行公平比较。上述六个物种的阳性样本数分别为1554、1769、1978、388、906和569。阴性样品的数量与相应的阳性样品数量相同。所有数据都是从下载的http://server.malab.cn/4mcPred-SVM(世界环境学会等。, 2019). 每个序列包含41个核苷酸,中心为靶向胞嘧啶(即核苷酸C)。

2.2马尔可夫模型

马尔可夫模型是经典的统计模型,广泛应用于语音识别、文本分类、序列分析等领域。作为一种特殊情况,一阶马尔可夫链是一个随机过程,其中下一个状态只依赖于前一个状态。对于DNA模体识别,一阶马尔可夫链可以很好地捕获相邻核苷酸之间的信息。

2019年,我们将一阶马尔可夫模型应用于6mA甲基化位点,并开发了一个名为MM-6mapred的网络工具(钢琴等。, 2019). 然而,一阶马尔可夫模型可能无法很好地描述序列。在这里,我们尝试使用二阶马尔可夫模型来建模4mc序列。N个t吨=(一个G公司C类T型)表示随机变量t吨-长度为的DNA序列的第个位置通过一阶马尔可夫链的性质,我们得到P(P)N个t吨N个t吨-1N个t吨-2N个1=P(P)N个t吨N个t吨-1N个t吨-2对于t吨 = 2,3根据训练数据集中的4mC序列,核苷酸的概率N个1出现在起始位置的估计值表示为P(P)N个1P(P)、和T型P(P)1T型P(P)2·T型P(P)-1表示的转移概率矩阵N个1-N个2 N个1N个2-N个 N个2N个-N个4·N个-2N个-1-N个分别是。类似地,从非4mC序列中, P(P)N个1N个T型N个1T型N个2·T型N个-1分别估计为核苷酸的初始分布和相应的转移概率。因此,我们训练了两个马尔可夫模型O(运行)P(P)=(P(P)N个1P(P)T型P(P)1T型P(P)2·T型P(P)-1)O(运行)N个=(P(P)N个1N个T型N个1T型N个2·T型N个-1)基于训练数据集中的正负序列。使用测试序列示例(Seq='GTTGAAGCTAAATTCACCGGCGTTGATCGTAAACCGCGCGCGC')解释预测过程。概率P(P)(顺序|O(运行)P(P))P(P)(顺序|O(运行)N个)两种模型下的序列“Seq”O(运行)P(P)O(运行)N个 分别进行计算;然后比率=P(P)顺序O(运行)P(P)/P(P)(顺序|O(运行)N个)用于确定“Seq”是4mC序列还是非4mC序列,其中P(P)顺序O(运行)P(P)=P(P)G公司1P(P)×P(P)燃气轮机P(P)1×P(P)GTT公司P(P)2×P(P)TTG公司P(P)·P(P)CGC公司P(P)40P(P)顺序O(运行)P(P)=P(P)G公司1N个×P(P)燃气轮机N个1×P(P)GTT公司N个2×P(P)TTG公司N个·P(P)CGC公司N个40.如果比率>1,“Seq”被分类为4mC序列,否则为非4mC序列。

2.3精度测量

我们使用分类器的常用性能度量,包括灵敏度(Sn)、特异性(Sp)、总预测准确度(ACC)和马太相关系数(MCC)(马修斯,1975年):
S公司n个=T型P(P)T型P(P)+F类N个
 
S公司第页=T型N个T型N个+F类P(P)
 
行政协调会=T型P(P)+T型N个T型P(P)+T型N个+F类P(P)+F类N个
 
电动机控制中心=T型P(P)×T型N个负极F类P(P)×F类N个(T型P(P)+F类P(P))×(T型N个+F类N个)×(T型P(P)+F类N个)×(T型N个+F类P(P))
哪里T型P(P)表示正确识别的实际4mC序列数,F类N个错误分类的4mC序列数量,T型N个正确识别的非4mC序列数量以及F类P(P)非4mC序列的数量分类错误。

3结果

3.1转移概率转移概率可视化

说明不同位置的转移概率提供的判别信息。我们可视化了P(P)N个N个+1N个+2P(P)/P(P)N个N个+1N个+2N个  = 1 2 · 39在里面图1(采取拟南芥作为示例)。图1表明位置21附近的转移概率存在显著差异,尤其是(22,23)-24,(23,24)-25,(24,25)-26,(25,26)-27,(26,27)-28和(27,28)-29。此外,核苷酸对的一些跃迁概率N个N个+1-N个+2 (N个N个+1N个+2{一个G公司C类T型})在39个位置中的大多数位置显示出显著差异,例如AG-G、GG-G、GC-G和CC-C。

图1。

的可视化P(P)N个N个+1N个+2P(P)/P(P)N个N个+1N个+2N个 在里面拟南芥。纵轴的变量名表示转移概率(N个N个+1负极N个+2(N个N个+1N个+2{一个G公司C类T型}))。横轴的变量名表示位置对(+1)负极+2 =12·39

3.2与其他方法的比较

为了证明我们的方法TOMM4mC的优势,我们将我们的方法与三种现有的4mC预测工具进行了比较:iDNA4mC和4mCPred 4mCPred-SVM。此外,我们还将其与一阶马尔可夫模型进行了比较。为了进行公平比较,我们基于六个物种的相同基准数据集,使用10倍交叉验证来评估四种工具的性能。分类性能如所示表1结果表明,TOMM4mC和一阶马尔可夫模型在所有六种物种中的预测精度均高于其他三种算法。TOMM4mC的分类性能优于一阶马尔可夫模型。对于物种大肠杆菌线虫TOMM4mC的总准确度分别为91.8%和87.6%,比现有的最新方法4mcPred-SVM高8.5%和6.1%。这表明相邻核苷酸之间的转移概率可以捕获更多的鉴别序列信息。

表1。

基于六个物种相同基准数据集的四种4mC预测方法的交叉验证精度

数据集集合方法行政协调会序号服务提供商电动机控制中心
线虫iDNA4mC系列0.7860.7970.7750.572
4mC红色0.8260.8250.8260.652
4mcPred-SVM系列0.8150.8240.8070.631
一阶马尔可夫0.8550.8360.8750.721
托姆4mC0.8760.8390.9130.743
D.黑食肉动物iDNA4mC系列0.8120.8330.7910.625
4mC红色0.8220.8240.8210.646
4mcPred-SVM系列0.8300.8380.8220.661
一阶马尔可夫0.8570.8460.8680.708
托姆4mC0.8740.8620.8860.724
拟南芥iDNA4mC系列0.7600.7570.7620.519
4mC红色0.7680.7550.7800.536
4mcPred-SVM系列0.7870.7780.7960.573
一阶马尔可夫0.8170.8140.8210.635
托姆4mC0.8360.8000.8720.647
大肠杆菌iDNA4mC系列0.7990.8200.7780.598
4mC红色0.8260.8190.8320.655
4mcPred-SVM系列0.8330.8580.8070.666
一阶马尔可夫0.9040.8930.9150.849
托姆4mC0.9180.9030.9340.853
G.subtrruneus公司iDNA4mC系列0.8150.8220.8080.630
4mC红色0.8280.8180.8370.662
4mcPred-SVM系列0.8370.8400.8340.674
一阶马尔可夫0.8530.8430.8620.716
托姆4mC0.8760.8640.8880.728
皮克林革兰菌iDNA4mC系列0.8310.8240.8380.663
4mC红色0.8300.8500.8100.668
4mcPred-SVM系列0.8600.8630.8580.721
一阶马尔可夫0.8810.8890.8750.764
汤姆4米C0.9030.8950.9110.772
数据集集合方法行政协调会序号服务提供商电动机控制中心
线虫iDNA4mC系列0.7860.7970.7750.572
4mC红色0.8260.8250.8260.652
4mcPred-SVM系列0.8150.8240.8070.631
一阶马尔可夫0.8550.8360.8750.721
托姆4mC0.8760.8390.9130.743
D.黑食肉动物iDNA4mC系列0.8120.8330.7910.625
4mC红色0.8220.8240.8210.646
4mcPred-SVM系列0.8300.8380.8220.661
一阶马尔可夫0.8570.8460.8680.708
汤姆4米C0.8740.8620.8860.724
拟南芥脱氧核糖核酸4mC0.7600.7570.7620.519
4mC红色0.7680.7550.7800.536
4mcPred-SVM系列0.7870.7780.7960.573
一阶马尔可夫0.8170.8140.8210.635
托姆4mC0.8360.8000.8720.647
大肠杆菌iDNA4mC系列0.7990.8200.7780.598
4mC红色0.8260.8190.8320.655
4mcPred-SVM系列0.8330.8580.8070.666
一阶马尔可夫0.9040.8930.9150.849
汤姆4米C0.9180.9030.9340.853
G.subtrruneus公司iDNA4mC系列0.8150.8220.8080.630
4mC红色0.8280.8180.8370.662
4mcPred-SVM系列0.8370.8400.8340.674
一阶马尔可夫0.8530.8430.8620.716
托姆4mC0.8760.8640.8880.728
皮克林革兰菌iDNA4mC系列0.8310.8240.8380.663
4mC红色0.8300.8500.8100.668
4mcPred支持向量机0.8600.8630.8580.721
一阶马尔可夫0.8810.8890.8750.764
托姆4mC0.9030.8950.9110.772

笔记:表中粗体字符表示一阶和二阶马尔可夫模型的性能优于其他三种方法。

表1。

基于六个物种相同基准数据集的四种4mC预测方法的交叉验证精度

数据集集合方法行政协调会序号服务提供商电动机控制中心
线虫iDNA4mC系列0.7860.7970.7750.572
4mC红色0.8260.8250.8260.652
4mcPred支持向量机0.8150.8240.8070.631
一阶马尔可夫0.8550.8360.8750.721
托姆4mC0.8760.8390.9130.743
D.黑食肉动物脱氧核糖核酸4mC0.8120.8330.7910.625
4mC红色0.8220.8240.8210.646
4mcPred-SVM系列0.8300.8380.8220.661
一阶马尔可夫0.8570.8460.8680.708
托姆4mC0.8740.8620.8860.724
拟南芥iDNA4mC系列0.7600.7570.7620.519
4mC红色0.7680.7550.7800.536
4mcPred-SVM系列0.7870.7780.7960.573
一阶马尔可夫0.8170.8140.8210.635
汤姆4米C0.8360.8000.8720.647
大肠杆菌iDNA4mC系列0.7990.8200.7780.598
4mC红色0.8260.8190.8320.655
4mcPred-SVM系列0.8330.8580.8070.666
一阶马尔可夫0.9040.8930.9150.849
托姆4mC0.9180.9030.9340.853
G.subtrruneus公司iDNA4mC系列0.8150.8220.8080.630
4mC红色0.8280.8180.8370.662
4mcPred-SVM系列0.8370.8400.8340.674
一阶马尔可夫0.8530.8430.8620.716
托姆4mC0.8760.8640.8880.728
皮克林革兰菌iDNA4mC系列0.8310.8240.8380.663
4mC红色0.8300.8500.8100.668
4mcPred-SVM系列0.8600.8630.8580.721
一阶马尔可夫0.8810.8890.8750.764
托姆4mC0.9030.8950.9110.772
数据集集合方法行政协调会序号服务提供商电动机控制中心
线虫脱氧核糖核酸4mC0.7860.7970.7750.572
4mC红色0.8260.8250.8260.652
4mcPred-SVM系列0.8150.8240.8070.631
一阶马尔可夫0.8550.8360.8750.721
托姆4mC0.8760.8390.9130.743
D.黑食肉动物iDNA4mC系列0.8120.8330.7910.625
4mC红色0.8220.8240.8210.646
4mcPred-SVM系列0.8300.8380.8220.661
一阶马尔可夫0.8570.8460.8680.708
托姆4mC0.8740.8620.8860.724
拟南芥iDNA4mC系列0.7600.7570.7620.519
4mC红色0.7680.7550.7800.536
4mcPred-SVM系列0.7870.7780.7960.573
一阶马尔可夫0.8170.8140.8210.635
托姆4mC0.8360.8000.8720.647
大肠杆菌脱氧核糖核酸4mC0.7990.8200.7780.598
4mC红色0.8260.8190.8320.655
4mcPred-SVM系列0.8330.8580.8070.666
一阶马尔可夫0.9040.8930.9150.849
托姆4mC0.9180.9030.9340.853
G.subtrruneus公司iDNA4mC系列0.8150.8220.8080.630
4mC红色0.8280.8180.8370.662
4mcPred-SVM系列0.8370.8400.8340.674
一阶马尔可夫0.8530.8430.8620.716
托姆4mC0.8760.8640.8880.728
G.pickeringii公司iDNA4mC系列0.8310.8240.8380.663
4mC红色0.8300.8500.8100.668
4mcPred-SVM系列0.8600.8630.8580.721
一阶马尔可夫0.8810.8890.8750.764
托姆4mC0.9030.8950.9110.772

笔记:表中粗体字符表示一阶和二阶马尔可夫模型的性能优于其他三种方法。

3.3 Web服务器实现

为了便于使用TOMM4mC来识别4mC站点,已经为TOMM4mC建立了一个用户友好的web服务器。可在以下网址免费获取:http://www.insect-genome.com/MM4mc/server.html。我们的工具可以处理41个序列nt或长基因组序列。用户可以将序列粘贴到文本区域或上传FASTA格式文件(文件大小不超过1GB)。

4结论

为了更好地理解4mc的生物学机制,准确有效地预测4mc位点是必要的。在本文中,我们提供了一个名为TOMM4mC的工具和一个web服务器,用于计算识别六个物种中的4mC位点。分类性能通过10倍交叉验证进行评估。结果表明,TOMM4mC优于所有现有方法。TOMM4mC的成功表明,利用相邻核苷酸之间的转移概率可以捕获更多用于4mC分类的判别序列信息。

致谢

作者非常感谢来自http://server.malab.cn/4mcPred-SVM聪翩感谢他在访问香港中文大学统计系期间获得的支持。

基金

这项工作得到了南京农业大学先进人才创业基金(No.050/804009)的支持。

利益冲突:未声明。

参考文献

阿尔玛戈尔
高级管理人员。
(
1983
)
DNA序列的马尔可夫分析
.
J.西奥。生物
.,
104
633
645
.

博罗多夫斯基
M。
等(
1995
)
利用三类基因的马尔可夫模型检测细菌基因组中的新基因
.
核酸研究
.,
23
3554
3562
.

西。
等(
2017
)
iDNA4mC:基于核苷酸化学性质识别DNA N4-甲基胞嘧啶位点
.
生物信息学
33
3518
3523
.

X。
(
1995
)
甲基转移酶对DNA的修饰
.
货币。操作。结构。生物
.,
5
4
10
.

弗罗斯伯格
文学学士。
等(
2010
)
单分子实时测序期间直接检测DNA甲基化
.
自然方法
7
461
465
.

西。
等(
2018
)
4mCPred:DNA N4-甲基胞嘧啶位点预测的机器学习方法
.
生物信息学
35
593
601
.

马修斯
B.W.公司。
(
1975
)
T4噬菌体溶菌酶二级结构预测值与观察值的比较
.
生物化学。生物物理学。学报
405
442
451
.

钢琴
C。
等(
2019
)
MM-6mAPred:基于马尔可夫模型识别DNA N6-甲基腺嘌呤位点
.生物信息学36
388
392
.

施维泽
高压。
(
2008
)
细菌遗传学:过去的成就、该领域的现状和未来的挑战
.
生物技术
44
633
641
.

世界环境学会
L。
等人(
2019
)
探索基于序列的特征以改进多物种中DNA N4-甲基胞嘧啶位点的预测
.
生物信息学
35
1326
1333
.

鹪鹩
J.D.(医学博士)。
等(
2005
)
大型文本数据库中DNA/蛋白质序列的马尔可夫模型识别与分类
.
生物信息学
21
4046
4053
.

M。
等(
2015
)
用4mC-Tet-辅助亚硫酸氢钠序列测定基因组DNA中的N-甲基胞嘧啶
.
核酸研究
.,
43
第148页
.

作者注释

作者希望大家知道,在他们看来,前三位作者应被视为联合作者。

本文根据牛津大学出版社标准期刊出版模式的条款出版和发行(https://academic.oup.com/journals/pages/open_access/funder_policies/chorus/standard_publication_model)
副编辑: 阿恩·埃洛夫森
阿恩·埃洛夫森
助理编辑
搜索此作者的其他作品: