×

用机器学习方法计算鉴定小鼠基因组中的N4-甲基胞嘧啶位点。 (英语) Zbl 1471.92230号

摘要:N4-甲基胞嘧啶(4mC)是一种DNA修饰,可以调节多种生物过程。正确识别基因组序列中的4mC位点可以提供关于其遗传作用的精确知识。本研究旨在建立一个集成模型来预测小鼠基因组中的4mC位点。在该模型中,DNA序列由k-mer编码,增强的核酸组成和k-间隔的核酸对组成。随后,通过使用最小冗余最大相关性(mRMR)、增量特征选择(IFS)和五倍交叉验证来优化这些特征。将获得的最优特征输入到随机森林分类器中,用于区分小鼠体内的4mC位点和非4mC位点。在独立数据集上,我们的模型可以产生85.41%的总准确度,比现有的两个模型i4mC-Mouse和4mCpred-EL分别高3.8%–6.3%。模型的数据和源代码可以从免费下载https://github.com/linDing-groups/model_4mc.

MSC公司:

92D10型 遗传学和表观遗传学
92D20型 蛋白质序列,DNA序列
68T05年 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] D、 TET蛋白的功能决定因素:序列基序与特定编码的排列。,20, 1826-1835 (2019) ·doi:10.1093/bib/bby053
[2] A、 DNA甲基化的新概念,趋势生物化学。科学。,39, 310-318 (2014) ·doi:10.1016/j.tibs.2014.05.002
[3] D.Schübeler,DNA甲基化的功能和信息含量,自然, 517 (2015), 321-326.
[4] B、 通过单分子实时DNA测序进入细菌表观基因组时代,Curr。操作。微生物。,16, 192-198 (2013) ·doi:10.1016/j.mib.2013.01.011
[5] T、 癌症中的3-甲基胞嘧啶:一种被低估的甲基损伤?,表观基因组学,8451-454(2016)·doi:10.2217/epi.15121
[6] K.D.Robertson,DNA甲基化与人类疾病,Nat.Rev.基因。, 6 (2005), 597-610.
[7] M、 DNA甲基化景观:来自表观基因组学的启发性见解,《自然遗传学评论》。,9, 465-476 (2008)
[8] H、 细菌遗传学:过去的成就。生物技术领域的现状和未来挑战,44,633-641(2008)·doi:10.2144/000112807
[9] 五十、 真核生物DNA甲基化系统的自然历史。分子生物学。Transl.公司。科学。,101, 25-104 (2011) ·doi:10.1016/B978-0-12-387685-000002-0
[10] W、 4mCPred:DNA N4-甲基胞嘧啶位点预测的机器学习方法,生物信息学,35593-601(2019)·doi:10.1093/bioinformatics/bty668
[11] B、 在单分子过程中直接检测DNA甲基化。实时测序,Nat.Methods,7461-465(2010)·doi:10.1038/nmeth.1459
[12] R、 探索家畜DNA甲基化分析的全基因组亚硫酸氢盐测序:技术评估,Front。遗传学。,5, 126 (2014)
[13] J、 黄单胞菌AvrBs3家族III型效应器:发现和功能,年度。植物病理学。,48, 419-436 (2010) ·doi:10.1146/annurev-phyto-080508-081936
[14] W、 iDNA4mC:基于核苷酸化学特性识别DNA N4-甲基胞嘧啶位点,生物信息学,33,3518-3523(2017)·doi:10.1093/bioinformatics/btx479
[15] 五十、 迭代特征表示改进了N4-甲基胞嘧啶位点预测,生物信息学,35,4930-4937(2019)·doi:10.1093/bioinformatics/btz408
[16] Z、 利用光梯度增强机器特征选择技术提高大肠杆菌DNA N-4-甲基胞苷位点预测精度,IEEE Access,814851-14859(2020)·doi:10.1109/ACCESS.2020.2966576
[17] Q、 DNA4mC LIP:一种在多种物种中鉴定N4甲基胞嘧啶位点的线性整合方法,生物信息学,363327-3335(2020)·doi:10.1093/bioinformatics/btaa143
[18] B、 Meta-4mCpred:一种基于序列的Meta-predictor,用于使用有效特征表示准确预测DNA 4mC位点,Mol.Ther。核酸,16733-744(2019)·doi:10.1016/j.omtn.2019.04.019
[19] B、 4mCpred-EL:鉴定小鼠基因组中DNA N4-甲基胞嘧啶位点的集成学习框架,Cells,81332(2019)·doi:10.3390/cells8111332
[20] M、 i4mC小鼠:使用多种编码方案改进了小鼠基因组中DNA N4-甲基胞嘧啶位点的识别,Compute。结构。生物技术。J.,18,906-912(2020)·doi:10.1016/j.csbj.2020.04.001
[21] P.Ye,Y.Luan,K.Chen,Y.Liu,C.Xiao,Z.Xie,MethSMRT:通过单分子实时测序生成的DNA N6-甲基腺嘌呤和N4-甲基胞嘧啶的综合数据库,核酸研究。,(2016),DOI:10.1093/nar/gkw950。
[22] A、 随机森林分类和回归,R.News,2,18-22(2002)
[23] N、 mRMRe:并行化mRMR集成特征选择的R包,生物信息学,292365-2368(2013)·doi:10.1093/bioinformatics/btt383
[24] W、 蛋白质亚高尔基体定位中的机器学习方法简介,Curr。生物信息。,14, 234-240 (2019) ·doi:10.2174/157489361366618113131415
[25] K、 iMRM:一个同时识别多种RNA修饰的平台,生物信息学,363336-3342(2020)·doi:10.1093/bioinformatics/btaa155
[26] 五十、 CD-HIT:加速聚类下一代测序数据,生物信息学,283150(2012)·doi:10.1093/bioinformatics/bts565
[27] B.Liu,X.Gao,H.Zhang,BioSeq-Analysis2.0:基于机器学习方法在序列水平和残基水平分析DNA、RNA和蛋白质序列的更新平台,核酸研究。,47(2019),e127。
[28] Y.J.Tang,Y.H.Pang,B.Liu,IDP-Seq2Seq:基于序列到序列学习的内在无序区域识别,生物信息学,(2020),DOI:10.1093/bioinformatics/btaa667。
[29] N、 ACPred:预测和分析抗癌肽的计算工具,分子,241973(2019)·doi:10.3390/分子24101973
[30] P、 iBitter SCM:使用二肽倾向评分的记分卡方法鉴定和表征苦味肽,基因组学,1122813-2822(2020)·doi:10.1016/j.ygeno.2020.03.019
[31] P、 iTTCA-Hybrid:利用杂交特征表示改进和稳健地识别肿瘤T细胞抗原,Anal。生物化学。,599, 113747 (2020) ·doi:10.1016/j.ab.2020.113747
[32] N、 Meta-iAVP:一种基于序列的Meta-predictor,用于使用有效的特征表示改进抗病毒肽的预测,国际分子科学杂志。,20, 5743 (2019) ·doi:10.3390/ijms20225743
[33] P、 Meta-iPVP:一种基于序列的Meta-predictor,用于使用有效的特征表示改进噬菌体病毒蛋白的预测,J.Compute。辅助分子设计。,34, 1105-1116 (2020) ·doi:10.1007/s10822-020-00323-z
[34] 五、 TargetAntiAngio:一种基于序列的抗血管生成肽预测和分析工具,国际分子科学杂志。,20, 2950 (2019) ·doi:10.3390/ijms20122950
[35] Y、 PseKRAAC:一个灵活的web服务器,用于生成伪k元组减少的氨基酸组成,生物信息学。,33, 122-124 (2017) ·doi:10.1093/bioinformatics/btw564
[36] D、 iBLP:一种用于识别生物发光蛋白的基于xgboost的预测因子,Comput。数学。方法医学,2021,15(2021)·Zbl 07314318号
[37] Z、 为智人mRNA亚细胞位置预测设计强大的预测因子,Brief Bioninform。,22, 526-535 (2020)
[38] F、 哺乳动物多组织中N6-甲基腺苷位点的计算鉴定。结构。生物技术。J.,18,1084-1091(2020)·doi:10.1016/j.csbj.2020.04.015
[39] H、 酿酒酵母重组热点识别计算方法的比较与评估。,21, 1568-1580 (2020) ·doi:10.1093/bib/bbz123
[40] 杜良杰,李晓丽,丁海霞,徐丽霞,项海霞,RNA假尿苷修饰预测问题中是否存在序列特征?摩尔理论。核酸。, 19 (2020), 293-303.
[41] H、 iCircDA-MF:基于矩阵分解的circRNA-disease关联识别,简要生物信息。,21, 1356-1367 (2020) ·doi:10.1093/bib/bbz057
[42] L.Zheng,D.Liu,W.Yang,L.Yang,Y.Zuo,RaacLogo:使用还原氨基酸簇的新序列标志生成器,简要生物信息。,(2020年),DOI:10.1093/bib/bbaa096。
[43] H.Lv,F.Y.Dao,H.Zulfiqar,W.Su,H.Ding,L.Liu,等,基于序列的深度学习方法预测CTCF介导的染色质环,简要生物信息。,(2021),DOI:10.1093/bib/bbab031。
[44] F、 一个识别真核生物复制位点起源的计算平台,Brief Bioinform。,22, 1940-1950 (2020)
[45] B、 生物序列分析:DNA平台。基于机器学习方法的RNA和蛋白质序列分析,Brief Bioninform。,20, 1280-1294 (2019) ·doi:10.1093/bib/bbx165
[46] L.Zheng,S.Huang,N.Mu,H.Zhang,J.Zhanng,Y.Chang,et al.,RAACBook:一个简化氨基酸字母表的web服务器,用于使用Chou的五步规则进行序列相关推理,数据库-Oxford2019年(2019年),baz131。
[47] F、 使用两步特征选择技术识别酿酒酵母中复制的起源,生物信息学,352075-2083(2019)·doi:10.1093/bioinformatics/bty943
[48] C、 iTerm-PseKNC:预测细菌转录终止子的基于序列的工具,生物信息学,351469-1477(2019)·doi:10.1093/bioinformatics/bty827
[49] J.Shao,K.Yan,B.Liu,FoldRec-C2C:结合聚类模型和蛋白质相似性网络进行蛋白质折叠识别,简要生物信息。,(2020年),DOI:10.1093/bib/bbaa144。
[50] 五十、 基因治疗的计算和生物方法。基因治疗。,19, 210-210 (2019) ·doi:10.2174/156652321904191022113307
[51] L、 识别类似疾病的计算方法,Mol.Ther。核酸。,18, 590-604 (2019) ·doi:10.1016/j.omtn.2019.09.019
[52] 五十、 gutMDisorder:《紊乱和干预中肠道微生物群失调的综合数据库》,《核酸研究》,48,D554-D560(2020)·doi:10.1093/nar/gkz843
[53] H、 通过分子对接方法筛选作为H1R和CL1R抑制剂的潜在植物化合物及其抗过敏功效,计算。数学。方法医学,2021,9(2021)·Zbl 07314320号
[54] 十、 通过评估不同特征预测低相似度序列的蛋白质结构类别,Knowl。基于系统。,163, 787-793 (2019) ·doi:10.1016/j.knosys.2018.10.007
[55] Q、 一种新的特征排名指标,应用于可扩展的视觉和生物信息学数据分类,神经计算,173346-354(2016)·doi:10.1016/j.neucom.2014.12.123
[56] N.Rachbure,W.Punlumjeak,《教育挖掘中贪婪、ig-ratio、chi-square和mRMR之间的特征选择方法比较》,2015年第七届信息技术与电气工程国际会议(ICITEE)IEEE,(2015),第420-424页。
[57] Z、 结合相对表达顺序和机器学习方法Front早期诊断胰腺导管腺癌。细胞发育生物学。,8, 1076 (2020)
[58] H、 基于最大相关性、最大相关性和最小冗余的互信息准则的特征选择,IEEE Trans。模式分析。马赫。智力。,2012年12月27日至1238日(2005年)·doi:10.1109/TPAMI.2005.159
[59] J、 基于机器学习方法的激素结合蛋白识别,数学。Biosci公司。工程,16,2466-2480(2019)·Zbl 1501.92101号 ·doi:10.3934/mbe.2019123年
[60] H、 《不同计算方法对5-甲基胞嘧啶位点鉴定的评估》,Brief Bioninform。,21, 982-995 (2020) ·doi:10.1093/bib/bbz048
[61] X、 AdaBoost与基于svm的分量分类器,Eng.Appl。Artif公司。智力。,21, 785-795 (2008) ·doi:10.1016/j.engappai.2007.07.001
[62] E、 使用weka的生物信息学数据挖掘,生物信息学。,20, 2479-2481 (2004) ·doi:10.1093/bioinformatics/bth261
[63] 十、 结合基于距离的top-n-gram和随机森林来识别电子传递蛋白,J.Proteom。研究,18,2931-2939(2019)·doi:10.1021/acs.jproteome.9b00250
[64] Z、 RF PseU:RNA假尿苷位点的随机森林预测因子,Front。比昂。生物技术。,8, 134 (2020) ·doi:10.3389/fbioe.2020.00134
[65] L.Breiman,随机森林,马赫学习。,45 (2001), 5-32. ·Zbl 1007.68152号
[66] A、 机器学习与科学基础学习神经成像,Front。神经信息。,8, 14 (2014)
[67] P、 单细胞转录组的机器学习通过比较f评分选择和DGE分析,高度识别mRNA特征,Mol.Ther。核酸。,20, 155-163 (2020) ·doi:10.1016/j.omtn.2020.02.004
[68] Z、 DNA甲基化:在哺乳动物发育中的作用,《自然遗传学评论》。,14, 204-220 (2013)
[69] K、 XG-PseU:一种基于极端梯度增强的识别假尿苷位点的方法,分子遗传学。基因组。,295, 13-21 (2020) ·doi:10.1007/s00438-019-01600-9
[70] 五、 两个样本标志:两组序列比对之间差异的图形表示,生物信息学。,22, 1536-1537 (2006) ·doi:10.1093/生物信息系统/btl151
[71] Y、 PSAC:通过网络边缘的深度学习实现主动序列软件内容缓存,IEEE Trans。Netw公司。科学。工程师,7,2145-2154(2020)·doi:10.1109/TNSE.2020.2990963
[72] H、 iDNA-MS:检测多基因组DNA修饰位点的集成计算工具,iScience,23100991(2020)·doi:10.1016/j.isci.20.100991
[73] H.Xu,P.Jia,Z.Zhao,Deep4mC:通过深度学习对DNA N4-甲基胞嘧啶位点进行系统评估和计算预测,简要生物信息。,(2020年),DOI:10.1093/bib/bbaa099。
[74] Q.Liu,J.Chen,Y.Wang,S.Li,C.Jia,J.song,et al.,DeepTorrent:基于深度学习的DNA N4-甲基胞嘧啶位点预测方法,简要生物信息。,(2020),内政部:10.1093/bib/bbaa124。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。