SOMM4mC: a second-order Markov model for DNA N4-methylcytosine site prediction in six species

Yang, Jiali; Lang, Kun; Zhang, Guangle; Fan, Xiaodan; Chen, Yuanyuan; Pian, Cong

doi:10.1093/bioinformatics/btaa507

摘要

动机

DNA N4-甲基胞嘧啶（4mC）修饰是原核生物DNA中一种重要的表观遗传修饰，因为它在调节DNA复制和保护宿主DNA免受降解方面发挥着作用。下游分析需要一种有效的算法来识别4mC站点。

结果

在本研究中，我们基于二阶马尔可夫模型提出了一种新的预测方法SOMM4mC，该方法利用相邻核苷酸之间的转移概率来识别4mC位点。结果表明，在所有六个物种中，一阶和二阶马尔可夫模型都优于现有的三种算法(秀丽隐杆线虫，黑腹果蝇，拟南芥，大肠杆菌，亚丛地碱杆菌和皮克林地杆菌)其中基准数据集可用。然而，SOMM4mC的分类性能比一阶马尔可夫模型更为突出。特别是对于大肠杆菌和线虫SOMM4mC的总准确度为91.8%和87.6%，分别比最新方法4mcPred-SVM高8.5%和6.1%。这表明SOMM4mC通过相邻核苷酸之间的依赖性捕获了更多的判别序列信息。

可用性和实施

SOMM4mC的web服务器可以在以下位置自由访问：网址：www.insect-genome.com/SOMM4mC.

联系人

陈元元@njau.edu.cn或piancong@njau.edu.cn

1引言

DNA甲基化是表观遗传学中最重要的修饰。N6-甲基胞嘧啶（6 mA）、N4-甲基胞嘧啶（4mC）和5-甲基胞嘧啶是三种最常见的DNA甲基化修饰。到目前为止，对4mC生物功能的研究非常有限。迄今为止，已证实4mC的功能包括调节DNA复制(程，1995)保护宿主DNA免受降解(Schweizer，2008年).

到目前为止，单分子和实时测序(弗罗斯伯格等。, 2010)和4mC-Tet-辅助亚硫酸氢盐测序（4mCTABseq）(于等。, 2015)已成为检测4mC位点的主流实验方法。尽管这些测序技术可以准确地识别4mC位点，但很难大规模应用于整个基因组。因此，需要一种准确高效的计算算法来检测基因组序列中的4mC位点。

最近的研究表明，计算机算法可以用于4mC预测。迄今为止，已有三种基于机器学习方法的计算型4mC预测工具。第一个预测工具称为iDNA4mC(陈等。, 2017)使用基于核苷酸化学特性和核苷酸频率特征的支持向量机（SVM）。结果表明，iDNA4mC能够区分4mC位点和非4mC位点(陈等。, 2017). 2018年，基于位置特异性三核苷酸倾向和电子-离子相互作用的特征，提出了一种名为4mCPred15的新工具。结果表明，在多种物种中，4mCPred的性能优于iDNA4mC（He等。, 2018). 最近，魏等。开发了一个名为4mCPred-SVM的新工具(世界环境学会等。, 2019)用于检测DNA 4mC位点。该工具主要使用SVM集成四个序列特征描述符。4mCPred SVM表现出比iDNA4mC和4mCPred更好的性能(世界环境学会等。, 2019). 然而，这三种工具的分类性能仍然不令人满意。他们仍然存在高假阳性和假阴性。因此，有必要开发一种更准确的预测方法来识别4mC位点。

在本研究中，我们提出了一种基于二阶马尔可夫模型的新方法SOMM4mC来预测DNA 4mC位点。SOMM4mC与先前4mC预测方法的主要区别在于，甲基化位点周围相邻核苷酸之间的依赖性被SOMM4mC捕获。事实上，生物序列之间的这种邻接依赖性早已通过马尔可夫链模型用于各种信号检测(阿拉木图，1983年;博罗多夫斯基等。, 1995;钢琴等。, 2019;鹪鹩等。, 2005). 2019年，我们团队将一阶马尔可夫模型应用于6 毫安(钢琴等。, 2019). 然而，据我们所知，SOMM4mC是第一个基于邻接依赖信息的4mC站点预测工具。我们的结果表明，SOMM4mC和一阶马尔可夫模型在六个物种中的表现优于现有的三种方法（4mCPred-SVM、iDNA4mC和4mCPred），其中一些方法的准确性有显著提高。与一阶马尔可夫模型的结果相比，SOMM4mC具有更好的分类性能。

2材料和方法

2.1基准数据集

三种现有方法（iDNA4mC、4mCPred和4mCPred-SVM）使用了来自六个物种的相同高质量数据集：秀丽隐杆线虫、黑腹果蝇、拟南芥、大肠杆菌、地下地碱杆菌和皮克林地杆菌这些基准数据集由Chen构建等。(陈等。, 2017). 我们将使用相同的基准数据集进行公平比较。上述六个物种的阳性样本数分别为1554、1769、1978、388、906和569。阴性样品的数量与相应的阳性样品数量相同。所有数据都是从下载的http://server.malab.cn/4mcPred-SVM(世界环境学会等。, 2019). 每个序列包含41个核苷酸，中心为靶向胞嘧啶（即核苷酸C）。

2.2马尔可夫模型

马尔可夫模型是经典的统计模型，广泛应用于语音识别、文本分类、序列分析等领域。作为一种特殊情况，一阶马尔可夫链是一个随机过程，其中下一个状态只依赖于前一个状态。对于DNA模体识别，一阶马尔可夫链可以很好地捕获相邻核苷酸之间的信息。

2019年，我们将一阶马尔可夫模型应用于6 mA甲基化位点，并开发了一个名为MM-6mapred的网络工具(钢琴等。, 2019). 然而，一阶马尔可夫模型可能无法很好地描述序列。在这里，我们尝试使用二阶马尔可夫模型来建模4mc序列。让 ${N个}_{t吨} = (一个， G公司， C类， T型)$ 表示随机变量t吨-长度为的DNA序列的第个位置我通过一阶马尔可夫链的性质，我们得到 $P（P） ({N个}_{t吨}| {N个}_{t吨 - 1} ， {N个}_{t吨 - 2} ， \dots ， {N个}_{1}) = P（P） ({N个}_{t吨}| {N个}_{t吨 - 1} ， {N个}_{t吨 - 2})$ 对于 $t吨 = 2,3 ， \dots ，我$ ⁠根据训练数据集中的4mC序列，核苷酸的概率 ${N个}_{1}$ 出现在起始位置的估计值表示为 ${P（P）}_{{N个}_{1}}^{P（P）}$ ⁠、和 ${T型}_{P（P）}^{1} ， {T型}_{P（P）}^{2} \cdot {T型}_{P（P）}^{我 - 1}$ 表示的转移概率矩阵 ${N个}_{1} - {N个}_{2} ， {N个}_{1} {N个}_{2} - {N个}_{三} ， {N个}_{2} {N个}_{三} - {N个}_{4} \cdot {N个}_{我 - 2} {N个}_{我 - 1} - {N个}_{我} ，$ 分别是。类似地，从非4mC序列中， ${P（P）}_{{N个}_{1}}^{N个}$ 和 ${T型}_{N个}^{1} ， {T型}_{N个}^{2} \cdot {T型}_{N个}^{我 - 1}$ 分别估计为核苷酸的初始分布和相应的转移概率。因此，我们训练了两个马尔可夫模型 ${O（运行）}_{P（P）} = ({P（P）}_{{N个}_{1}}^{P（P）} ， {T型}_{P（P）}^{1} ， {T型}_{P（P）}^{2} \cdot {T型}_{P（P）}^{我 - 1})$ 和 ${O（运行）}_{N个} = ({P（P）}_{{N个}_{1}}^{N个} ， {T型}_{N个}^{1} ， {T型}_{N个}^{2} \cdot {T型}_{N个}^{我 - 1})$ 基于训练数据集中的正负序列。使用测试序列示例（Seq='GTTGAAGCTAAATTCACCGGCGTTGATCGTAAACCGCGCGCGC'）解释预测过程。概率 $P（P） (顺序 | {O（运行）}_{P（P）})$ 和 $P（P） (顺序 | {O（运行）}_{N个})$ 两种模型下的序列“Seq” ${O（运行）}_{P（P）}$ 和 ${O（运行）}_{N个}$ 分别进行计算；然后 $比率 = P（P） (顺序| {O（运行）}_{P（P）}) / P（P） (顺序 | {O（运行）}_{N个})$ 用于确定“Seq”是4mC序列还是非4mC序列，其中 $P（P） (顺序| {O（运行）}_{P（P）}) = {P（P）}_{{G公司}_{1}}^{P（P）} \times {P（P）}_{燃气轮机}^{{P（P）}_{1}} \times {P（P）}_{GTT公司}^{{P（P）}_{2}} \times {P（P）}_{TTG公司}^{{P（P）}_{三}} \cdot {P（P）}_{CGC公司}^{{P（P）}_{40}}$ 和 $P（P） (顺序| {O（运行）}_{P（P）}) = {P（P）}_{{G公司}_{1}}^{N个} \times {P（P）}_{燃气轮机}^{{N个}_{1}} \times {P（P）}_{GTT公司}^{{N个}_{2}} \times {P（P）}_{TTG公司}^{{N个}_{三}} \cdot {P（P）}_{CGC公司}^{{N个}_{40}} .$ 如果 $比率 > 1$ ⁠，“Seq”被分类为4mC序列，否则为非4mC序列。

2.3精度测量

我们使用分类器的常用性能度量，包括灵敏度（Sn）、特异性（Sp）、总预测准确度（ACC）和马太相关系数（MCC）(马修斯，1975年):

{S公司}_{n个} = \frac{{T型}_{P（P）}}{{T型}_{P（P）} + {F类}_{N个}} ，

{S公司}_{第页} = \frac{{T型}_{N个}}{{T型}_{N个} + {F类}_{P（P）}} ，

行政协调会 = \frac{{T型}_{P（P）} + {T型}_{N个}}{{T型}_{P（P）} + {T型}_{N个} + {F类}_{P（P）} + {F类}_{N个}} ，

电动机控制中心 = \frac{{T型}_{P（P）} \times {T型}_{N个} 负极 {F类}_{P（P）} \times {F类}_{N个}}{\sqrt{({T型}_{P（P）} + {F类}_{P（P）}) \times ({T型}_{N个} + {F类}_{N个}) \times ({T型}_{P（P）} + {F类}_{N个}) \times ({T型}_{N个} + {F类}_{P（P）})}} ，

哪里T型_P（P）表示正确识别的实际4mC序列数，F类_N个错误分类的4mC序列数量，T型_N个正确识别的非4mC序列数量以及F类_P（P）非4mC序列的数量分类错误。

3结果

3.1转移概率转移概率可视化

说明不同位置的转移概率提供的判别信息。我们可视化了 ${P（P）}_{{N个}_{我} {N个}_{我 + 1} {N个}_{我 + 2}}^{{P（P）}_{我}} / {P（P）}_{{N个}_{我} {N个}_{我 + 1} {N个}_{我 + 2}}^{{N个}_{我}} 我 = 1 ， 2 ， \cdot ， 39$ 在里面图1（采取拟南芥作为示例）。图1表明位置21附近的转移概率存在显著差异，尤其是（22，23）-24，（23，24）-25，（24，25）-26，（25，26）-27，（26，27）-28和（27，28）-29。此外，核苷酸对的一些跃迁概率 ${N个}_{我} {N个}_{我 + 1} - {N个}_{我 + 2} ， {(N个}_{我} ， {N个}_{我 + 1} ， {N个}_{我 + 2} \in {一个， G公司， C类， T型}$ ⁠)在39个位置中的大多数位置显示出显著差异，例如AG-G、GG-G、GC-G和CC-C。

图1。

拟南芥中PNiNi+1Ni+2Pi/PNiNi+1Ni/2Ni的可视化。纵轴的变量名表示转移概率（NiNi+1−Ni+2，（Ni，Ni+1，Ni+2∈{A，G，C，T}））。水平轴的变量名表示位置对（i，i+1）−i+2，i=1,2，…，39。

新标签中打开下载幻灯片

的可视化 ${P（P）}_{{N个}_{我} {N个}_{我 + 1} {N个}_{我 + 2}}^{{P（P）}_{我}} / {P（P）}_{{N个}_{我} {N个}_{我 + 1} {N个}_{我 + 2}}^{{N个}_{我}}$ 在里面拟南芥。纵轴的变量名表示转移概率 $({N个}_{我} {N个}_{我 + 1} 负极 {N个}_{我 + 2} ， ({N个}_{我} ， {N个}_{我 + 1} ， {N个}_{我 + 2} \in {一个， G公司， C类， T型}))$ ⁠。横轴的变量名表示位置对 $(我，我 + 1) 负极我 + 2 ，我 = 1 ， 2 ， \cdot ， 39$

3.2与其他方法的比较

为了证明我们的方法TOMM4mC的优势，我们将我们的方法与三种现有的4mC预测工具进行了比较：iDNA4mC和4mCPred 4mCPred-SVM。此外，我们还将其与一阶马尔可夫模型进行了比较。为了进行公平比较，我们基于六个物种的相同基准数据集，使用10倍交叉验证来评估四种工具的性能。分类性能如所示表1结果表明，TOMM4mC和一阶马尔可夫模型在所有六种物种中的预测精度均高于其他三种算法。TOMM4mC的分类性能优于一阶马尔可夫模型。对于物种大肠杆菌和线虫TOMM4mC的总准确度分别为91.8%和87.6%，比现有的最新方法4mcPred-SVM高8.5%和6.1%。这表明相邻核苷酸之间的转移概率可以捕获更多的鉴别序列信息。

表1。

基于六个物种相同基准数据集的四种4mC预测方法的交叉验证精度

数据集集合	方法	行政协调会	序号	服务提供商	电动机控制中心
线虫	iDNA4mC系列	0.786	0.797	0.775	0.572
	4mC红色	0.826	0.825	0.826	0.652
	4mcPred-SVM系列	0.815	0.824	0.807	0.631
	一阶马尔可夫	0.855	0.836	0.875	0.721
	托姆4mC	0.876	0.839	0.913	0.743
D.黑食肉动物	iDNA4mC系列	0.812	0.833	0.791	0.625
	4mC红色	0.822	0.824	0.821	0.646
	4mcPred-SVM系列	0.830	0.838	0.822	0.661
	一阶马尔可夫	0.857	0.846	0.868	0.708
	托姆4mC	0.874	0.862	0.886	0.724
拟南芥	iDNA4mC系列	0.760	0.757	0.762	0.519
	4mC红色	0.768	0.755	0.780	0.536
	4mcPred-SVM系列	0.787	0.778	0.796	0.573
	一阶马尔可夫	0.817	0.814	0.821	0.635
	托姆4mC	0.836	0.800	0.872	0.647
大肠杆菌	iDNA4mC系列	0.799	0.820	0.778	0.598
	4mC红色	0.826	0.819	0.832	0.655
	4mcPred-SVM系列	0.833	0.858	0.807	0.666
	一阶马尔可夫	0.904	0.893	0.915	0.849
	托姆4mC	0.918	0.903	0.934	0.853
G.subtrruneus公司	iDNA4mC系列	0.815	0.822	0.808	0.630
	4mC红色	0.828	0.818	0.837	0.662
	4mcPred-SVM系列	0.837	0.840	0.834	0.674
	一阶马尔可夫	0.853	0.843	0.862	0.716
	托姆4mC	0.876	0.864	0.888	0.728
皮克林革兰菌	iDNA4mC系列	0.831	0.824	0.838	0.663
	4mC红色	0.830	0.850	0.810	0.668
	4mcPred-SVM系列	0.860	0.863	0.858	0.721
	一阶马尔可夫	0.881	0.889	0.875	0.764
	汤姆4米C	0.903	0.895	0.911	0.772

数据集集合	方法	行政协调会	序号	服务提供商	电动机控制中心
线虫	iDNA4mC系列	0.786	0.797	0.775	0.572
	4mC红色	0.826	0.825	0.826	0.652
	4mcPred-SVM系列	0.815	0.824	0.807	0.631
	一阶马尔可夫	0.855	0.836	0.875	0.721
	托姆4mC	0.876	0.839	0.913	0.743
D.黑食肉动物	iDNA4mC系列	0.812	0.833	0.791	0.625
	4mC红色	0.822	0.824	0.821	0.646
	4mcPred-SVM系列	0.830	0.838	0.822	0.661
	一阶马尔可夫	0.857	0.846	0.868	0.708
	汤姆4米C	0.874	0.862	0.886	0.724
拟南芥	脱氧核糖核酸4mC	0.760	0.757	0.762	0.519
	4mC红色	0.768	0.755	0.780	0.536
	4mcPred-SVM系列	0.787	0.778	0.796	0.573
	一阶马尔可夫	0.817	0.814	0.821	0.635
	托姆4mC	0.836	0.800	0.872	0.647
大肠杆菌	iDNA4mC系列	0.799	0.820	0.778	0.598
	4mC红色	0.826	0.819	0.832	0.655
	4mcPred-SVM系列	0.833	0.858	0.807	0.666
	一阶马尔可夫	0.904	0.893	0.915	0.849
	汤姆4米C	0.918	0.903	0.934	0.853
G.subtrruneus公司	iDNA4mC系列	0.815	0.822	0.808	0.630
	4mC红色	0.828	0.818	0.837	0.662
	4mcPred-SVM系列	0.837	0.840	0.834	0.674
	一阶马尔可夫	0.853	0.843	0.862	0.716
	托姆4mC	0.876	0.864	0.888	0.728
皮克林革兰菌	iDNA4mC系列	0.831	0.824	0.838	0.663
	4mC红色	0.830	0.850	0.810	0.668
	4mcPred支持向量机	0.860	0.863	0.858	0.721
	一阶马尔可夫	0.881	0.889	0.875	0.764
	托姆4mC	0.903	0.895	0.911	0.772

笔记：表中粗体字符表示一阶和二阶马尔可夫模型的性能优于其他三种方法。

新标签中打开

表1。

基于六个物种相同基准数据集的四种4mC预测方法的交叉验证精度

数据集集合	方法	行政协调会	序号	服务提供商	电动机控制中心
线虫	iDNA4mC系列	0.786	0.797	0.775	0.572
	4mC红色	0.826	0.825	0.826	0.652
	4mcPred支持向量机	0.815	0.824	0.807	0.631
	一阶马尔可夫	0.855	0.836	0.875	0.721
	托姆4mC	0.876	0.839	0.913	0.743
D.黑食肉动物	脱氧核糖核酸4mC	0.812	0.833	0.791	0.625
	4mC红色	0.822	0.824	0.821	0.646
	4mcPred-SVM系列	0.830	0.838	0.822	0.661
	一阶马尔可夫	0.857	0.846	0.868	0.708
	托姆4mC	0.874	0.862	0.886	0.724
拟南芥	iDNA4mC系列	0.760	0.757	0.762	0.519
	4mC红色	0.768	0.755	0.780	0.536
	4mcPred-SVM系列	0.787	0.778	0.796	0.573
	一阶马尔可夫	0.817	0.814	0.821	0.635
	汤姆4米C	0.836	0.800	0.872	0.647
大肠杆菌	iDNA4mC系列	0.799	0.820	0.778	0.598
	4mC红色	0.826	0.819	0.832	0.655
	4mcPred-SVM系列	0.833	0.858	0.807	0.666
	一阶马尔可夫	0.904	0.893	0.915	0.849
	托姆4mC	0.918	0.903	0.934	0.853
G.subtrruneus公司	iDNA4mC系列	0.815	0.822	0.808	0.630
	4mC红色	0.828	0.818	0.837	0.662
	4mcPred-SVM系列	0.837	0.840	0.834	0.674
	一阶马尔可夫	0.853	0.843	0.862	0.716
	托姆4mC	0.876	0.864	0.888	0.728
皮克林革兰菌	iDNA4mC系列	0.831	0.824	0.838	0.663
	4mC红色	0.830	0.850	0.810	0.668
	4mcPred-SVM系列	0.860	0.863	0.858	0.721
	一阶马尔可夫	0.881	0.889	0.875	0.764
	托姆4mC	0.903	0.895	0.911	0.772

数据集集合	方法	行政协调会	序号	服务提供商	电动机控制中心
线虫	脱氧核糖核酸4mC	0.786	0.797	0.775	0.572
	4mC红色	0.826	0.825	0.826	0.652
	4mcPred-SVM系列	0.815	0.824	0.807	0.631
	一阶马尔可夫	0.855	0.836	0.875	0.721
	托姆4mC	0.876	0.839	0.913	0.743
D.黑食肉动物	iDNA4mC系列	0.812	0.833	0.791	0.625
	4mC红色	0.822	0.824	0.821	0.646
	4mcPred-SVM系列	0.830	0.838	0.822	0.661
	一阶马尔可夫	0.857	0.846	0.868	0.708
	托姆4mC	0.874	0.862	0.886	0.724
拟南芥	iDNA4mC系列	0.760	0.757	0.762	0.519
	4mC红色	0.768	0.755	0.780	0.536
	4mcPred-SVM系列	0.787	0.778	0.796	0.573
	一阶马尔可夫	0.817	0.814	0.821	0.635
	托姆4mC	0.836	0.800	0.872	0.647
大肠杆菌	脱氧核糖核酸4mC	0.799	0.820	0.778	0.598
	4mC红色	0.826	0.819	0.832	0.655
	4mcPred-SVM系列	0.833	0.858	0.807	0.666
	一阶马尔可夫	0.904	0.893	0.915	0.849
	托姆4mC	0.918	0.903	0.934	0.853
G.subtrruneus公司	iDNA4mC系列	0.815	0.822	0.808	0.630
	4mC红色	0.828	0.818	0.837	0.662
	4mcPred-SVM系列	0.837	0.840	0.834	0.674
	一阶马尔可夫	0.853	0.843	0.862	0.716
	托姆4mC	0.876	0.864	0.888	0.728
G.pickeringii公司	iDNA4mC系列	0.831	0.824	0.838	0.663
	4mC红色	0.830	0.850	0.810	0.668
	4mcPred-SVM系列	0.860	0.863	0.858	0.721
	一阶马尔可夫	0.881	0.889	0.875	0.764
	托姆4mC	0.903	0.895	0.911	0.772

笔记：表中粗体字符表示一阶和二阶马尔可夫模型的性能优于其他三种方法。

新标签中打开

3.3 Web服务器实现

为了便于使用TOMM4mC来识别4mC站点，已经为TOMM4mC建立了一个用户友好的web服务器。可在以下网址免费获取：http://www.insect-genome.com/MM4mc/server.html。我们的工具可以处理41个序列 nt或长基因组序列。用户可以将序列粘贴到文本区域或上传FASTA格式文件（文件大小不超过1GB）。

4结论

为了更好地理解4mc的生物学机制，准确有效地预测4mc位点是必要的。在本文中，我们提供了一个名为TOMM4mC的工具和一个web服务器，用于计算识别六个物种中的4mC位点。分类性能通过10倍交叉验证进行评估。结果表明，TOMM4mC优于所有现有方法。TOMM4mC的成功表明，利用相邻核苷酸之间的转移概率可以捕获更多用于4mC分类的判别序列信息。

致谢

作者非常感谢来自http://server.malab.cn/4mcPred-SVM聪翩感谢他在访问香港中文大学统计系期间获得的支持。

基金

这项工作得到了南京农业大学先进人才创业基金（No.050/804009）的支持。

利益冲突：未声明。

参考文献

阿尔玛戈尔

高级管理人员。

(

1983

)

DNA序列的马尔可夫分析

.

J.西奥。生物

.,

104

，

633

–

645

.

博罗多夫斯基

M。

等(

1995

)

利用三类基因的马尔可夫模型检测细菌基因组中的新基因

.

核酸研究

.,

23

，

3554

–

3562

.

陈

西。

等(

2017

)

iDNA4mC：基于核苷酸化学性质识别DNA N4-甲基胞嘧啶位点

.

生物信息学

，

33

，

3518

–

3523

.

程

X。

(

1995

)

甲基转移酶对DNA的修饰

.

货币。操作。结构。生物

.,

5

，

4

–

10

.

弗罗斯伯格

文学学士。

等(

2010

)

单分子实时测序期间直接检测DNA甲基化

.

自然方法

，

7

，

461

–

465

.

他

西。

等(

2018

)

4mCPred:DNA N4-甲基胞嘧啶位点预测的机器学习方法

.

生物信息学

，

35

，

593

–

601

.

谷歌学者

交叉参考

书目数据库

马修斯

B.W.公司。

(

1975

)

T4噬菌体溶菌酶二级结构预测值与观察值的比较

.

生物化学。生物物理学。学报

，

405

，

442

–

451

.

钢琴

C。

等(

2019

)

MM-6mAPred：基于马尔可夫模型识别DNA N6-甲基腺嘌呤位点

.生物信息学，36，

388

–

392

.

OpenURL占位符文本

书目数据库

施维泽

高压。

(

2008

)

细菌遗传学：过去的成就、该领域的现状和未来的挑战

.

生物技术

，

44

，

633

–

641

.

世界环境学会

L。

等人(

2019

)

探索基于序列的特征以改进多物种中DNA N4-甲基胞嘧啶位点的预测

.

生物信息学

，

35

，

1326

–

1333

.

鹪鹩

J.D.（医学博士）。

等(

2005

)

大型文本数据库中DNA/蛋白质序列的马尔可夫模型识别与分类

.

生物信息学

，

21

，

4046

–

4053

.

于

M。

等(

2015

)

用4mC-Tet-辅助亚硫酸氢钠序列测定基因组DNA中的N-甲基胞嘧啶

.

核酸研究

.,

43

，

第148页

.

作者注释

†

作者希望大家知道，在他们看来，前三位作者应被视为联合作者。

本文根据牛津大学出版社标准期刊出版模式的条款出版和发行(https://academic.oup.com/journals/pages/open_access/funder_policies/chorus/standard_publication_model)

副编辑：

下载所有幻灯片

月份：	总浏览次数：
2020年5月	16
2020年6月	8
2020年7月	75
2020年8月	202
2020年9月	200
2020年10月	139
2020年11月	35
2020年12月	25
2021年1月	21
2021年2月	7
2021年3月	17
2021年4月	三
2021年5月	19
2021年6月	11
2021年7月	10
2021年8月	22
2021年9月	34
2021年10月	33
2021年11月	27
2021年12月	18
2022年1月	27
2022年2月	21
2022年3月	21
2022年4月	31
2022年5月	26
2022年6月	15
2022年7月	26
2022年8月	33
2022年9月	44
2022年10月	46
2022年11月	22
2022年12月	35
2023年1月	32
2023年2月	22
2023年3月	17
2023年4月	11
2023年5月	17
2023年6月	12
2023年7月	13
2023年8月	23
2023年9月	8
2023年10月	27
2023年11月	17
2023年12月	23
2024年1月	18
2024年2月	23
2024年3月	31
2024年4月	35
2024年5月	11

文章内容

SOMM4mC：六种物种DNA N4-甲基胞嘧啶位点预测的二阶马尔可夫模型

摘要

1引言

2材料和方法

2.1基准数据集

2.2马尔可夫模型

2.3精度测量

3结果

3.1转移概率转移概率可视化

3.2与其他方法的比较

3.3 Web服务器实现

4结论

致谢

基金

参考文献

作者注释

引文

意见

海拔高度

电子邮件警报

通过引用文章

最新的

阅读次数最多

被引用次数最多

寻找你的下一个机会？

文章内容

SOMM4mC：六种物种DNA N4-甲基胞嘧啶位点预测的二阶马尔可夫模型

摘要

1引言

2材料和方法

2.1基准数据集

2.2马尔可夫模型

2.3精度测量

3结果

3.1转移概率转移概率可视化

3.2与其他方法的比较

3.3 Web服务器实现

4结论

致谢

基金

参考文献

作者注释

引文

意见

海拔高度

电子邮件警报

通过引用文章

最新的

阅读次数最多

被引用次数最多

寻找你的下一个机会？

此功能仅对订阅服务器可用