摘要
在受影响的生物过程的多样性方面,表观基因组学的扩展领域可能与表观基因组相匹敌。近年来,新的高通量实验和计算技术的发展已成为发现RNA修饰特性的关键推动力。机器学习应用程序,例如用于分类、聚类或从头开始在这些进步中,识别至关重要。尽管如此,在充分利用机器学习的潜力进行外延翻译之前,仍然存在着各种挑战。在这篇综述中,我们对使用不同输入数据源检测RNA修改的机器学习方法进行了全面综述。我们描述了训练和测试机器学习方法的策略,以及编码和解释与外延谱学相关的特征的策略。最后,我们确定了RNA修饰分析的一些当前挑战和开放性问题,包括预测转录亚型或单个核苷酸中RNA修饰的模糊性,或缺乏测试RNA修饰的完整基本事实集。我们相信,这篇综述将启发并有助于迅速发展的外延研究领域,通过有效使用机器学习解决当前的局限性。
简介
60多年前,当假尿苷被发现是酵母RNA中的第五个核苷酸时,发现了RNA内部化学修饰的第一个证据[1]. 高通量测序技术的发展和价格降低,加快了我们以转录体方式研究这些修饰的能力。今天,已经发现150多种内部RNA修饰,可以修饰RNA分子[2]. 其中一些已在蛋白质编码RNA(mRNAs)中观察到转录全序列,如N6-甲基腺苷(mRNA)6A)[三,4],5-甲基胞嘧啶(m5C)[5],5-羟甲基胞嘧啶(hm5C)[6],假尿苷(Ψ)[7–9]和肌苷(I)[10]在转录组中具有不同的沉积频率[11]. 一些修改被发现是可逆的[12],表明在动态调节RNA代谢过程中发挥作用,如剪接、翻译、输出和稳定性[13–16]. m6A是真核生物mRNA中最丰富、特征最鲜明的修饰之一。m6A的沉积主要发生在DRACH序列基序内(D=A、G或T;R=A或G;H=A、C或T),并在终止密码子周围显示出强烈的富集[三,4]. m6A的存在受到METTL3-METTL14甲基转移酶“写入”复合物的动态调节,该复合物将m6A沉积在mRNA上,以及结合m6A和清除m6A“擦除”酶的“读取器”蛋白[17]. m6A通过书写器、读取器和橡皮擦参与调节RNA加工和功能的可能所有步骤,从而影响细胞分化和发育等主要生理功能[18,19]. 尽管我们对m6A和其他修饰物的作用和定位的理解正在提高,但在对外转录体的认识方面仍存在重大差距。瓶颈之一是缺乏快速、可靠和通用的方法来检测转录体范围内的这些修改。
随着转录组实验方法的发展,以定量的方式检测单核苷酸和/或单分子分辨率下的修饰,外转录组学取得了重大进展。这些方法包括通过特异性抗体或酶靶向检测RNA修饰,以及使用直接RNA测序(DRS)直接读取RNA分子中的RNA修饰。计算工具在处理和分析实验输出以识别RNA修饰方面至关重要[20]. 特别是,机器学习(ML)在利用这些大型复杂数据方面非常有效。这得益于ML软件库的可用性,这些软件库易于使用并包含图形处理单元(GPU)加速算法实现[21].
ML提高了我们执行复杂预测任务的能力,这些任务由于大量参数或许多特殊情况或异常而难以手动或正式定义[22]. ML算法可以处理实验输入数据并自动识别正确的特征,以解决分类、回归或聚类等问题。此外,这些算法具有极大的灵活性和适应性。ML方法的特性(如诱导偏差、网络结构和损失函数)可以与生物学知识(如RNA序列基序、mRNA转录特征和RNA二级结构)有效结合,以研究外转录体的复杂性。在过去的15年里,已经开发了大量的ML算法来预测RNA修饰并发现其生物功能。最近的发现包括m6A在腺病毒RNA剪接效率中的作用[23]m6A在人类细胞和小鼠脑转录物m5C修饰中的协同沉积[24]以及在应激条件下和跨翻译库中rRNA中假尿苷修饰的惊人不变性[25].
以前的综述描述了用于RNA修饰检测的ML方法,主要集中在技术特定的方法上,如基于长阅读测序的方法[26,27],或仅描述了基于序列分类的方法[20,22,28,29]. 在这篇综述中,我们展示了预测RNA修饰的技术、数据类型和算法的进展,将其分为两种主要策略,即实验依赖性,即仅使用参考序列识别修饰的方法和基于实验的方法,这是指除参考序列外,处理高通量实验数据以识别修改的方法(图1A). 我们专注于不同的步骤和建模决策,以创建有效的RNA修改检测算法,并强调最佳实践(图1B). 最后,我们研究了当前在外显转录组学领域的技术特定和ML相关挑战以及克服这些挑战的可能途径(图1C).
图1
用ML对化学信使RNA修饰的转录全预测。信使RNA(mRNA)化学修饰的鉴定涉及(A类)单独或结合实验数据读取序列信息(B类)ML方法的培训和测试(C类)分析预测输出的特性,如RNA修饰的定位、与特定mRNA亚型的关联、化学计量和功能特征。XGBoost,eXtreme梯度增强;LSTM,长短期记忆。该图形是使用创建的BioRender.com网站.
建模生物学:经典的机器学习和深度学习
在这篇综述中,我们区分了两种类型的ML算法:深度学习(DL)和经典ML,前者采用多层神经网络(NN),后者包括线性模型、随机森林(RF)和支持向量机(SVM)等方法。这两种类型的主要区别之一是特征提取,即识别和转换ML任务的输入数据。在经典ML中,特征提取通常在使用算法之前单独执行。相反,DL算法可以执行“端到端学习”,在其潜在空间中创建输入数据的内部表示,并自动执行特征提取。DL方法的优点之一是,可以对其进行专门调整,以适应关于输入数据分布性质的初始假设,也称为归纳偏差。例如,卷积神经网络(CNN)和递归神经网络(RNN)具有一些特性,这些特性使它们特别适合于对具有强空间成分的数据进行建模,例如图像或序列数据。类似地,几何DL方法可以以图形的形式接受输入,这使得它们适合于RNA二级结构或基因共表达建模[30–32]. 尽管DL方法在有足够训练数据可用的条件下可以优于经典ML方法,但由于DL算法的许多参数和拟合数据的能力,它们往往会过度拟合,从而在训练空间之外降低性能。此外,通常需要GPU来满足DL更高的计算要求。相比之下,经典ML算法更易于原型化和实现,并提供更广泛的用户可访问性和更好的解释性。总的来说,ML算法的选择取决于各种因素,例如数据的性质、任务的复杂性、可用资源和用户的专业知识。每种算法都有其优缺点,选择正确的算法可以显著影响工具的性能。
重点概念
在用ML方法鉴定RNA修饰时,必须考虑多种相关的生物和计算元素。从表观转录组学的角度来看,理想情况下,算法应该能够识别单核苷酸分辨率下的RNA修饰,将RNA修饰与转录异构体联系起来,并准确估计其化学计量,即给定RNA分子在给定位置含有RNA修饰的副本的比例。另一方面,从ML的角度来看,算法专业知识必须与领域知识相结合,以指导训练、测试、特征提取、特征选择和可解释性。我们将在接下来的章节中讨论用ML检测RNA修饰的两种主要策略,这两种策略被称为实验依赖性方法和基于实验的方法。基于实验的方法在ML推断过程中使用高通量实验的数据,这些数据或是专门设计用于识别或丰富特定修改(参见[33]),或者可以查询以检测修改,例如纳米孔长读测序数据[34]. 相反,实验相关方法不需要此类实验数据,并且能够单独使用参考序列进行操作。在实验相关的方法中,注释的RNA序列和转录特征通常被用作预测RNA修饰的特征。一旦ML模型被训练到已知的、实验确定的RNA修饰位点上,预测就完全基于RNA序列和转录特征。由于这使得不需要额外的实验就可以了解RNA修饰,因此这些工具对于满足许多研究中对RNA修饰信息的需求至关重要。然而,实验依赖性方法对任何样本变化或扰动都是“盲目的”,并将独立于细胞类型、表型或条件预测相同的RNA修饰位点。这种局限性可以通过迅速发展的基于实验的方法领域来克服。在这里,从实验室实验中获得的特征(针对特定RNA修饰或涵盖所有修饰)被纳入模型输入。因此,该方法可用于检测特定条件、物种或表型的RNA修饰,可能揭示特定条件下特有的修饰。
预测RNA修饰的实验独立ML方法
预测RNA修饰的实验依赖性ML方法基于这样的观察,即许多RNA修饰在其沉积过程中显示出一定的序列和位置偏好,例如m6A修饰优先出现在DRACH基序和接近终止密码子中[三,4,35]或远离剪接位点和剪接位点样基序[36,37]. 这表明RNA序列本身可以在一定程度上决定RNA修饰的存在,因此可以利用RNA序列预测其在转录物中的沉积,而无需进行实验。实验依赖性方法通常将实验确定的RNA修饰位点作为训练ML算法的起点,将RNA序列和可能的附加特征作为输入。许多ML算法已经在实验相关工具中实现(表1). SVM是调查工具中最常用的算法,其次是基于决策树的算法RF和XGBoost。最近开发的工具使用DL,包括使用最广泛的CNN,以及双向门控递归单元和RNN。我们在下面描述了训练和测试这些工具的不同策略,包括功能的选择和编码,并介绍了实验相关算法中使用的性能指标。此外,我们描述了用于研究RNA修饰的主要决定因素的可解释性技术。由于构建用于预测不同RNA修饰的独立于实验的工具的方法相似,在这篇综述中,我们以检测m6A RNA修饰的工具为例。用于RNA修饰预测的其他独立于实验的工具,如iRNA-m7G[38],之前接受过调查[22].
工具. | 测试装置的平衡. | 输入. | 编码方案. | 算法. | 模型解释. | 性能指标. | 麦可公司. | 裁判。. |
---|
AthMethPre公司 | 不平衡 | 核苷酸序列 | 一个小时,k个-梅尔 | 支持向量机 | 不适用 | ROC、PRC、MCC | 0.39 | [84] |
BERMP公司 | 不平衡 | 核苷酸序列 | ENAC,RNA单词嵌入 | DL公司 | 不适用 | ROC、MCC | 0.31–0.72 | [43] |
深度承诺 | 不平衡 | 核苷酸序列 | ENAC,单热,RNA单词嵌入 | DL公司 | 从籽粒中提取基序 | ROC、MCC | 0.48, 0.57 | [29] |
TDm6A型 | 不平衡 | 核苷酸序列 | 一小时 | DL公司 | 从籽粒中提取基序 | ROC、ACC、MCC | 0.30–0.43 | [44] |
iM6A型 | 不适用 | 核苷酸序列 | 一小时 | DL公司 | 单核苷酸饱和突变 | 中华人民共和国 | 不适用 | [36] |
深度M6ASeq | 平衡的 | 核苷酸序列 | 一个热的 | DL公司 | 从内核中提取主题,显著图 | ROC、PRC、ACC、MCC、F1得分 | 0.53 | [49] |
RAM-ESVM公司 | 平衡的 | 核苷酸序列 | PseDNC,图案特征 | 支持向量机 | 不适用 | ACC、MCC | 0.57 | [51] |
Gene2vec公司 | 不平衡 | 核苷酸序列 | 一小时,相邻甲基化状态,RNA单词嵌入,Gene2vec | DL公司 | 从籽粒中提取基序 | ROC、PRC、MCC | 0.45–0.50 | [45] |
工具 | 测试装置的平衡 | 输入 | 编码方案 | 算法 | 模型解释 | 性能指标 | 电动机控制中心 | 裁判。 |
深m6A | 不平衡 | 核苷酸序列 | 一小时 | DL公司 | 不适用 | 中华人民共和国 | 不适用 | [85] |
6月前 | 不平衡 | 核苷酸序列 | NCP、ANF | 支持向量机 | 不适用 | ROC、ACC | 不适用 | [41] |
M6ATH(平均每小时) | 平衡的 | 核苷酸序列 | NCP、ANF | 支持向量机 | 不适用 | ROC、PRC、ACC、MCC | 0.72 | [86] |
RAM-NPPS公司 | 平衡于酿酒酵母和拟南芥,人类不平衡 | 核苷酸序列 | RFE、FSDI、MRMD | 支持向量机 | 不适用 | 中华人民共和国中华人民共和国 | 0.59–0.79 | [87] |
HMpre公司 | 不平衡 | 核苷酸序列、SNP、相对位置、熵 | 一小时,持续专业发展,k个-梅尔 | XGBoost公司 | 功能重要性 | 精确度、召回率、MCC、F1得分 | 0.33 | [56] |
M6A-HPCS | 平衡的 | 核苷酸序列 | PCPM、PseDNC、AC、CC | 支持向量机 | 相对增益 | ROC、ACC、MCC | 0.45 | [50] |
深M6A红色 | 平衡的 | 核苷酸序列 | 一小时深度功能,NPPS | 支持向量机 | 不适用 | ACC、MCC | 0.61 | [47] |
iRNA(m6A)-PseDNC | 平衡的 | 核苷酸序列 | PseDNC公司 | 支持向量机 | 不适用 | ROC、ACC、MCC | 0.83 | [52] |
iRNA-甲基 | 平衡的 | 核苷酸序列 | PseDNC,RNA属性参数 | 支持向量机 | 不适用 | ACC、MCC | 0.29 | [40] |
M6AMRFS公司 | 平衡的 | 核苷酸序列 | 二核苷酸二元,局部位置特异性二核苷酸频率 | XGBoost公司 | 不适用 | ACC、MCC | 0.49–0.83 | [46] |
M6A红色-EL | 平衡的 | 核苷酸序列 | PS(k-mer)NP、PCP、RFHC-GAC | 支持向量机 | 不适用 | ROC、PRC、ACC、MCC | 0.62 | [88] |
MethyRNA | 平衡的 | 核苷酸序列 | NCP、ANF | 支持向量机 | 不适用 | 行政协调会 | 不适用 | [48] |
工具 | 测试装置的平衡 | 输入 | 编码方案 | 算法 | 模型解释 | 性能指标 | 电动机控制中心 | 裁判。 |
pRNAm-PC | 平衡的 | 核苷酸序列 | PCPM公司 | 支持向量机 | 不适用 | ROC、ACC、MCC | 0.40 | [89] |
射频空气M6A | 平衡的 | 核苷酸序列 | PSNSP、PSDSP、KSNPF、,k个-梅尔 | 射频 | 功能重要性 | ROC、MCC | 0.71–0.73 | [55] |
RNA-甲基Pred | 平衡的 | 核苷酸序列 | BPB、DNC、KNN评分 | 支持向量机 | 不适用 | ROC、ACC、MCC | 0.45 | [54] |
RNAMethPre公司 | 不平衡 | 核苷酸序列,相对位置,MFE | 一个小时,k个-梅尔,MFE | 支持向量机 | 不适用 | ROC、PRC、MCC | 0.30–0.50 | [57] |
SRAMP公司 | 不平衡 | 核苷酸序列,二级结构 | 一小时,KNN分数,频谱 | 射频 | 功能重要性 | ROC、PRC、MCC | 0.21–0.41 | [42] |
目标M6A | 平衡的 | 核苷酸序列 | PSNP、PSDP、,k个-梅尔 | 支持向量机 | 不适用 | ROC、ACC、MCC | 0.21 | [90] |
惠斯特尔 | 不平衡 | 核苷酸序列,35个基因组特征 | NCP、ANF、基因组衍生特征 | 射频 | 功能重要性 | 世界车王争霸赛 | 不适用 | [39] |
多RM | 平衡的 | 核苷酸序列 | One-hot,word2vec,隐马尔可夫模型 | DL公司 | 集成梯度、注意力权重 | ROC、PRC、ACC、MCC | 0.31–0.85 | [60] |
iRNA-m7G | 平衡的 | 核苷酸序列 | PseDNC、SSC、NPF | 支持向量机 | 不适用 | ROC、ACC、MCC | 0.8 | [38] |
工具. | 测试装置的平衡. | 输入. | 编码方案. | 算法. | 模型解释. | 性能指标. | 电动机控制中心. | 裁判。. |
---|
AthMethPre公司 | 不平衡 | 核苷酸序列 | 一个小时,k个-梅尔 | 支持向量机 | 不适用 | ROC、PRC、MCC | 0.39 | [84] |
BERMP公司 | 不平衡 | 核苷酸序列 | ENAC,RNA单词嵌入 | DL公司 | 不适用 | ROC、MCC | 0.31–0.72 | [43] |
深度承诺 | 不平衡 | 核苷酸序列 | ENAC,单热,RNA单词嵌入 | DL公司 | 从籽粒中提取基序 | ROC、MCC | 0.48, 0.57 | [29] |
TDm6A型 | 不平衡 | 核苷酸序列 | 一小时 | DL公司 | 从果仁中提取Motif | ROC、ACC、MCC | 0.30–0.43 | [44] |
iM6A型 | 不适用 | 核苷酸序列 | 一小时 | DL公司 | 单核苷酸饱和突变 | 中华人民共和国 | 不适用 | [36] |
深度M6ASeq | 平衡的 | 核苷酸序列 | 一小时 | DL公司 | 从内核中提取主题,显著性图 | ROC、PRC、ACC、MCC、F1得分 | 0.53 | [49] |
RAM-ESVM公司 | 平衡的 | 核苷酸序列 | PseDNC,图案特征 | 支持向量机 | 不适用 | ACC、MCC | 0.57 | [51] |
Gene2vec公司 | 不平衡 | 核苷酸序列 | 一小时,相邻甲基化状态,RNA单词嵌入,Gene2vec | DL公司 | 从籽粒中提取基序 | ROC、PRC、MCC | 0.45–0.50 | [45] |
工具 | 测试装置的平衡 | 输入 | 编码方案 | 算法 | 模型解释 | 性能指标 | 电动机控制中心 | 裁判。 |
深m6A | 不平衡 | 核苷酸序列 | 一小时 | DL公司 | 不适用 | 中华人民共和国 | 不适用 | [85] |
6月前 | 不平衡 | 核苷酸序列 | NCP、ANF | 支持向量机 | 不适用 | ROC、ACC | 不适用 | [41] |
第6条 | 平衡的 | 核苷酸序列 | NCP、ANF | 支持向量机 | 不适用 | ROC、PRC、ACC、MCC | 0.72 | [86] |
RAM-NPPS公司 | 平衡于酿酒酵母和拟南芥,人类不平衡 | 核苷酸序列 | RFE、FSDI、MRMD公司 | 支持向量机 | 不适用 | ROC、PRC、ACC、MCC | 0.59–0.79 | [87] |
HMpre公司 | 不平衡 | 核苷酸序列、SNP、相对位置、熵 | 一小时,持续专业发展,k个-梅尔 | XGBoost公司 | 功能重要性 | 精确度、召回率、MCC、F1得分 | 0.33 | [56] |
M6A-高性能混凝土 | 平衡的 | 核苷酸序列 | PCPM、PseDNC、AC、CC | 支持向量机 | 相对增益 | ROC、ACC、MCC | 0.45 | [50] |
深M6A红色 | 平衡的 | 核苷酸序列 | 一小时深度功能,NPPS | 支持向量机 | 不适用 | ACC、MCC | 0.61 | [47] |
iRNA(m6A)-PseDNC | 平衡的 | 核苷酸序列 | PseDNC公司 | 支持向量机 | 不适用 | ROC、ACC、MCC | 0.83 | [52] |
iRNA-甲基 | 平衡的 | 核苷酸序列 | PseDNC,RNA属性参数 | 支持向量机 | 不适用 | ACC、MCC | 0.29 | [40] |
M6AMRFS公司 | 平衡的 | 核苷酸序列 | 二核苷酸二元,局部位置特异性二核苷酸频率 | XGBoost公司 | 不适用 | ACC、MCC | 0.49–0.83 | [46] |
M6A红色EL | 平衡的 | 核苷酸序列 | PS(k-mer)NP、PCP、RFHC-GAC | 支持向量机 | 不适用 | ROC、PRC、ACC、MCC | 0.62 | [88] |
MethyRNA | 平衡的 | 核苷酸序列 | NCP、ANF | 支持向量机 | 不适用 | 行政协调会 | 不适用 | [48] |
工具 | 测试装置的平衡 | 输入 | 编码方案 | 算法 | 模型解释 | 性能指标 | 电动机控制中心 | 裁判。 |
pRNAm-PC | 平衡的 | 核苷酸序列 | PCPM公司 | 支持向量机 | 不适用 | ROC、ACC、MCC | 0.40 | [89] |
射频空气M6A | 平衡的 | 核苷酸序列 | PSNSP、PSDSP、KSNPF、,k个-梅尔 | 射频 | 功能重要性 | ROC、MCC | 0.71–0.73 | [55] |
RNA-甲基Pred | 平衡的 | 核苷酸序列 | BPB、DNC、KNN评分 | 支持向量机 | 不适用 | ROC、ACC、MCC | 0.45 | [54] |
RNAMethPre公司 | 不平衡 | 核苷酸序列,相对位置,MFE | 一个小时,k个-梅尔,MFE | 支持向量机 | 不适用 | ROC、PRC、MCC | 0.30–0.50 | [57] |
SRAMP公司 | 不平衡 | 核苷酸序列,二级结构 | 一小时,KNN分数,频谱 | 射频 | 功能重要性 | 中华人民共和国中华人民共和国 | 0.21–0.41 | [42] |
目标M6A | 平衡的 | 核苷酸序列 | PSNP、PSDP、,k个-梅尔 | 支持向量机 | 不适用 | ROC、ACC、MCC | 0.21 | [90] |
汽笛 | 不平衡 | 核苷酸序列,35个基因组特征 | NCP、ANF、基因组衍生特征 | 射频 | 功能重要性 | 世界车王争霸赛 | 不适用 | [39] |
多RM | 平衡的 | 核苷酸序列 | One-hot,word2vec,隐马尔可夫模型 | DL公司 | 集成梯度、注意力权重 | ROC、PRC、ACC、MCC | 0.31–0.85 | [60] |
iRNA-m7G | 平衡的 | 核苷酸序列 | PseDNC、SSC、NPF | 支持向量机 | 不适用 | ROC、ACC、MCC | 0.8 | [38] |
工具. | 测试装置的平衡. | 输入. | 编码方案. | 算法. | 模型解释. | 性能指标. | 电动机控制中心. | 裁判。. |
---|
AthMethPre公司 | 不平衡 | 核苷酸序列 | 一个小时,k个-梅尔 | 支持向量机 | 不适用 | ROC、PRC、MCC | 0.39 | [84] |
BERMP公司 | 不平衡 | 核苷酸序列 | ENAC,RNA单词嵌入 | DL公司 | 不适用 | ROC、MCC | 0.31–0.72 | [43] |
深度承诺 | 不平衡 | 核苷酸序列 | ENAC,单热,RNA单词嵌入 | DL公司 | 从籽粒中提取基序 | ROC、MCC | 0.48, 0.57 | [29] |
TDm6A型 | 不平衡 | 核苷酸序列 | 一个热的 | DL公司 | 从籽粒中提取基序 | ROC、ACC、MCC | 0.30–0.43 | [44] |
iM6A型 | 不适用 | 核苷酸序列 | 一小时 | DL公司 | 单核苷酸饱和诱变 | 中华人民共和国 | 不适用 | [36] |
深度M6ASeq | 平衡的 | 核苷酸序列 | 一小时 | DL公司 | 从内核中提取主题,显著性图 | ROC、PRC、ACC、MCC、F1得分 | 0.53 | [49] |
RAM-ESVM公司 | 平衡的 | 核苷酸序列 | PseDNC,图案特征 | 支持向量机 | 不适用 | ACC、MCC | 0.57 | [51] |
Gene2vec公司 | 不平衡 | 核苷酸序列 | 一小时,相邻甲基化状态,RNA单词嵌入,Gene2vec | DL公司 | 从籽粒中提取基序 | ROC、PRC、MCC | 0.45–0.50 | [45] |
工具 | 测试装置的平衡 | 输入 | 编码方案 | 算法 | 模型解释 | 性能指标 | 电动机控制中心 | 裁判。 |
深m6A | 不平衡 | 核苷酸序列 | 一小时 | DL公司 | 不适用 | 中华人民共和国 | 不适用 | [85] |
6月前 | 不平衡 | 核苷酸序列 | 新冠肺炎,新冠肺炎 | 支持向量机 | 不适用 | ROC、ACC公司 | 不适用 | [41] |
M6ATH(平均每小时) | 平衡的 | 核苷酸序列 | NCP、ANF | 支持向量机 | 不适用 | ROC、PRC、ACC、MCC | 0.72 | [86] |
RAM-NPPS公司 | 平衡于酿酒酵母和拟南芥,人体不平衡 | 核苷酸序列 | RFE、FSDI、MRMD | 支持向量机 | 不适用 | ROC、PRC、ACC、MCC | 0.59–0.79 | [87] |
HMpre公司 | 不平衡 | 核苷酸序列、SNP、相对位置、熵 | 一小时,持续专业发展,k个-梅尔 | XGBoost公司 | 功能重要性 | 精确度、召回率、MCC、F1得分 | 0.33 | [56] |
M6A-高性能混凝土 | 平衡的 | 核苷酸序列 | PCPM、PseDNC、AC、CC | 支持向量机 | 相对增益 | ROC、ACC、MCC | 0.45 | [50] |
深M6A红色 | 平衡的 | 核苷酸序列 | 一小时深度功能,NPPS | 支持向量机 | 不适用 | ACC、MCC | 0.61 | [47] |
iRNA(m6A)-PseDNC | 平衡的 | 核苷酸序列 | PseDNC公司 | 支持向量机 | 不适用 | ROC、ACC、MCC | 0.83 | [52] |
iRNA-甲基 | 平衡的 | 核苷酸序列 | PseDNC,RNA属性参数 | 支持向量机 | 不适用 | ACC、MCC | 0.29 | [40] |
M6AMRFS公司 | 平衡的 | 核苷酸序列 | 二核苷酸二元,局部位置特异性二核苷酸频率 | XGBoost公司 | 不适用 | 自动控制中心 | 0.49–0.83 | [46] |
M6A红色-EL | 平衡的 | 核苷酸序列 | PS(k-mer)NP、PCP、RFHC-GAC | 支持向量机 | 不适用 | ROC、PRC、ACC、MCC | 0.62 | [88] |
MethyRNA | 平衡的 | 核苷酸序列 | NCP、ANF | 支持向量机 | 不适用 | 行政协调会 | 不适用 | [48] |
工具 | 测试装置的平衡 | 输入 | 编码方案 | 算法 | 模型解释 | 性能指标 | 电动机控制中心 | 裁判。 |
pRNAm-PC | 平衡的 | 核苷酸序列 | PCPM公司 | 支持向量机 | 不适用 | ROC、ACC、MCC | 0.40 | [89] |
射频空气M6A | 平衡的 | 核苷酸序列 | PSNSP、PSDSP、KSNPF、,k个-梅尔 | 射频 | 功能重要性 | ROC、MCC | 0.71–0.73 | [55] |
RNA-甲基Pred | 平衡的 | 核苷酸序列 | BPB、DNC、KNN评分 | 支持向量机 | 不适用 | ROC、ACC、MCC | 0.45 | [54] |
RNAMethPre公司 | 不平衡 | 核苷酸序列,相对位置,MFE | 一个小时,k个-梅尔,MFE | 支持向量机 | 不适用 | ROC、PRC、MCC | 0.30–0.50 | [57] |
SRAMP公司 | 不平衡 | 核苷酸序列,二级结构 | 一个热门,KNN评分,频谱 | 射频 | 功能重要性 | ROC、PRC、MCC | 0.21–0.41 | [42] |
目标M6A | 平衡的 | 核苷酸序列 | PSNP、PSDP、,k个-默 | 支持向量机 | 不适用 | ROC、ACC、MCC | 0.21 | [90] |
惠斯特尔 | 不平衡 | 核苷酸序列,35个基因组特征 | NCP、ANF、基因组衍生特征 | 射频 | 功能重要性 | 世界车王争霸赛 | 不适用 | [39] |
多RM | 平衡的 | 核苷酸序列 | One-hot,word2vec,隐马尔可夫模型 | DL公司 | 集成梯度、注意力权重 | ROC、PRC、ACC、MCC | 0.31–0.85 | [60] |
iRNA-m7G | 平衡的 | 核苷酸序列 | PseDNC、SSC、NPF | 支持向量机 | 不适用 | ROC、ACC、MCC | 0.8 | [38] |
工具. | 测试装置的平衡. | 输入. | 编码方案. | 算法. | 模型解释. | 性能指标. | 电动机控制中心. | 裁判。. |
---|
AthMethPre公司 | 不平衡 | 核苷酸序列 | 一个小时,k个-梅尔 | 支持向量机 | 不适用 | ROC、PRC、MCC | 0.39 | [84] |
BERMP公司 | 不平衡 | 核苷酸序列 | ENAC,RNA单词嵌入 | DL公司 | 不适用 | ROC、MCC公司 | 0.31–0.72 | [43] |
深度承诺 | 不平衡 | 核苷酸序列 | ENAC,单热,RNA单词嵌入 | DL公司 | 从籽粒中提取基序 | ROC、MCC | 0.48, 0.57 | [29] |
TDm6A型 | 不平衡 | 核苷酸序列 | 一小时 | DL公司 | 从籽粒中提取基序 | ROC、ACC、MCC | 0.30–0.43 | [44] |
iM6A型 | 不适用 | 核苷酸序列 | 一小时 | DL公司 | 单核苷酸饱和突变 | 中华人民共和国 | 不适用 | [36] |
深度M6ASeq | 平衡的 | 核苷酸序列 | 一小时 | DL公司 | 从内核中提取主题,显著性图 | ROC、PRC、ACC、MCC、F1得分 | 0.53 | [49] |
RAM-ESVM公司 | 平衡的 | 核苷酸序列 | PseDNC,图案特征 | 支持向量机 | 不适用 | ACC、MCC | 0.57 | [51] |
Gene2vec公司 | 不平衡 | 核苷酸序列 | 一小时,相邻甲基化状态,RNA单词嵌入,Gene2vec | DL公司 | 从籽粒中提取基序 | ROC、PRC、MCC | 0.45–0.50 | [45] |
工具 | 测试装置的平衡 | 输入 | 编码方案 | 算法 | 模型解释 | 性能指标 | 麦可公司 | 裁判。 |
深m6A | 不平衡 | 核苷酸序列 | 一小时 | DL公司 | 不适用 | 中华人民共和国 | 不适用 | [85] |
6月前 | 不平衡 | 核苷酸序列 | NCP、ANF | 支持向量机 | 不适用 | ROC、ACC | 不适用 | [41] |
M6ATH(平均每小时) | 平衡的 | 核苷酸序列 | NCP、ANF | 支持向量机 | 不适用 | ROC、PRC、ACC、MCC | 0.72 | [86] |
RAM-NPPS公司 | 平衡于酿酒酵母和拟南芥,人类不平衡 | 核苷酸序列 | RFE、FSDI、MRMD | 支持向量机 | 不适用 | ROC、PRC、ACC、MCC | 0.59–0.79 | [87] |
HMpre公司 | 不平衡 | 核苷酸序列、SNP、相对位置、熵 | 一小时,持续专业发展,k个-梅尔 | XGBoost公司 | 功能重要性 | 精确度、召回率、MCC、F1得分 | 0.33 | [56] |
M6A-高性能混凝土 | 平衡的 | 核苷酸序列 | PCPM、PseDNC、AC、CC | 支持向量机 | 相对增益 | ROC、ACC、MCC | 0.45 | [50] |
深M6A红色 | 平衡的 | 核苷酸序列 | 一小时深度功能,NPPS | 支持向量机 | 不适用 | ACC、MCC | 0.61 | [47] |
iRNA(m6A)-PseDNC | 平衡的 | 核苷酸序列 | PseDNC公司 | 支持向量机 | 不适用 | ROC、ACC、MCC | 0.83 | [52] |
iRNA-甲基 | 平衡的 | 核苷酸序列 | PseDNC,RNA属性参数 | 支持向量机 | 不适用 | ACC、MCC | 0.29 | [40] |
M6AMRFS公司 | 平衡的 | 核苷酸序列 | 二核苷酸二元,局部位置特异性二核苷酸频率 | XGBoost公司 | 不适用 | ACC、MCC | 0.49–0.83 | [46] |
M6A红色-EL | 平衡的 | 核苷酸序列 | PS(k-mer)NP、PCP、RFHC-GAC | 支持向量机 | 不适用 | ROC、PRC、ACC、MCC | 0.62 | [88] |
MethyRNA | 平衡的 | 核苷酸序列 | NCP、ANF | 支持向量机 | 不适用 | 行政协调会 | 不适用 | [48] |
工具 | 测试装置的平衡 | 输入 | 编码方案 | 算法 | 模型解释 | 性能指标 | 电动机控制中心 | 裁判。 |
pRNAm-PC | 平衡的 | 核苷酸序列 | PCPM公司 | 支持向量机 | 不适用 | ROC、ACC、MCC | 0.40 | [89] |
射频空气M6A | 平衡的 | 核苷酸序列 | PSNSP、PSDSP、KSNPF、,k个-梅尔 | 射频 | 功能重要性 | ROC、MCC | 0.71–0.73 | [55] |
RNA-甲基Pred | 平衡的 | 核苷酸序列 | BPB、DNC、KNN评分 | 支持向量机 | 不适用 | ROC、ACC、MCC | 0.45 | [54] |
RNAMethPre公司 | 不平衡 | 核苷酸序列,相对位置,MFE | 一个小时,k个-梅尔,MFE | 支持向量机 | 不适用 | ROC、PRC、MCC | 0.30–0.50 | [57] |
SRAMP公司 | 不平衡 | 核苷酸序列,二级结构 | 一小时,KNN分数,频谱 | 射频 | 功能重要性 | ROC、PRC、MCC | 0.21–0.41 | [42] |
目标M6A | 平衡的 | 核苷酸序列 | PSNP、PSDP、,k个-梅尔 | 支持向量机 | 不适用 | ROC、ACC、MCC | 0.21 | [90] |
惠斯特尔 | 不平衡 | 核苷酸序列,35个基因组特征 | NCP、ANF、基因组衍生特征 | 射频 | 功能重要性 | 世界车王争霸赛 | 不适用 | [39] |
多RM | 平衡的 | 核苷酸序列 | One-hot,word2vec,隐马尔可夫模型 | DL公司 | 集成梯度、注意力权重 | ROC、PRC、ACC、MCC | 0.31–0.85 | [60] |
iRNA-m7G | 平衡的 | 核苷酸序列 | PseDNC、SSC、NPF | 支持向量机 | 不适用 | ROC、ACC、MCC | 0.8 | [38] |
标记培训和测试示例
正确标记训练和测试示例是RNA修改建模的一个重要步骤,尽管不是琐碎的步骤。本综述中调查的大多数实验相关工具都将从多个实验中检测到的修改位点作为训练和测试的积极示例(图2A). 例外是WHISTLE[39]定义了至少在两个数据集中确定的站点为积极示例。这有望提高训练和测试数据中正面示例的稳健性。
图2
预测RNA修饰的实验依赖性ML方法。该示意图以m6A为例说明了一种通用方法。(A类)基于现有的实验数据,根据RNA序列是否包含RNA修饰来标记RNA序列。(B类)实验相关的ML方法可以建立在仅序列特征的基础上,这些特征基于RNA序列中的核苷酸串,也可以建立在更一般的基因组衍生特征的基础之上,这些特征包含RNA序列和其他特征的混合,如RNA二级结构、,转录本内的相对位置或进化保守的修改位置。(C类)DL和经典ML方法(如RFs和SVM)都已用于实验依赖性RNA修饰检测。(D类)选择正确的测试数据和准确度指标对于正确估计算法性能至关重要。左:AUROC是基于真阳性(TP)和假阳性(FP)的常用性能指标。右图:分离训练和测试序列的常用方法保持了两组之间至少70%的一致性。(E类)可解释性方法可以是特定于模型的方法,也可以是模型预测的方法。左侧面板显示了两个特定于模型的可解释性示例:几个特征的相对重要性,以及使用用于m6A检测的CNN模型第一层的激活值获得的序列标志(位置权重矩阵)。右侧面板介绍生物信息学饱和突变作为解释性模型生态学方法的一个例子。该图形是使用创建的BioRender.com网站.
与阳性示例相反,收集阴性示例的策略,即不包含RNA修饰的序列,在工具之间更加异质。m6A预测的最常见策略是从完整转录组或仅从含有阳性样本的转录本中提取DRACH/GAC/RRAC/A位点[39–47] (图2A). 相反,MethyRNA等方法[48]和DeepM6ASeq[49]从正面示例的侧翼序列中选择负面示例,无论这些示例是否包含DRACH基序。这两种方法通常都会识别出过多的负面示例,从而导致培训和测试的设置不平衡(表1). 如下文所述,这可能会导致算法对少数类的预测准确性较差,或者性能被高估。
特征选择和编码
实验相关的ML模型遵循两种关于特征选择的主要方法:它们要么只使用基于核苷酸序列的特征,即仅序列特征,要么合并其他基因组特征,即基因组衍生特征(图2B). 大多数工具只使用顺序特征,但依赖于不同的特征编码策略,即如何将输入数据呈现给ML模型。最常用的编码方式是围绕修饰和未修饰位点的核苷酸序列。其他工具还包括k个-mer频率(带k个通常在1到4个核苷酸之间变化)。例如,M6A-HPCS[50]、RAM-ESVM[51],iRNA甲基[40]和iRNA(m6A)-PseDNC[52]实现伪K元组核苷酸合成[53],对K元组核苷酸的序列和物理化学性质进行编码,以捕获局部和全局序列模式。其他工具,如RNA-MethyPred[54]和SRAMP[42]使用k个-最近邻(kNN)算法。然后将kNN中阳性样本的比例用作kNN相似性得分来进行预测。尽管一些工具比较了某些编码方案的性能[29,43,46,51,55]到目前为止,还没有全面比较所有编码方案的系统基准。
基于基因组衍生特征的方法(图2B)使用与修饰核苷酸和转录物结构相关的位置信息,例如到外显子-内显子边界或终止密码子的距离。这种特征的结合通常是由于观察到像m6A这样的修改具有强烈的位置偏差。WHISTLE等方法[39],HMpre[56]和RNAMethPre[57]使用成绩单上站点的相对位置作为训练模型的功能。其中,WHISTLE包含了数量最多的基因组衍生特征,包括转录本内的相对位置、转录区的长度、到外显子-中子边界的距离、,候选位点及其侧翼区域的进化保守性,以及包含修饰位点的基因或转录物的属性,如miRNA靶基因或看家基因。其他工具,如HMpre[56]以序列中的单核苷酸多态性(SNPs)为特征,假设功能相关的修饰位点应该缺失SNPs。
实验相关工具的数据准备和性能度量
在大多数ML场景中(图2C),将使用该算法的确切数据分布未知;因此,使用测试集来估计算法的未来性能。创建一个健壮且独立的测试集对于正确估计算法的未来性能至关重要。在实验相关的RNA修饰预测中,使用了不同的策略来创建独立的测试集。随机拆分为训练和测试数据或放弃策略可能不太理想,因为它们不允许控制训练和测试之间的相似性。不同的方法可能有助于识别过拟合,并对最大似然性能进行偏差较小的估计(图2D). DeepM6ASeq等工具[49],TDm6A[44]和SRAMP[42]使用序列标识删除训练和测试数据之间高度冗余的序列。另一项培训——测试WHISTLE实施的分割设计[39]使用基于不同实验中m6A位点的交叉验证作为held-out数据集。最后,获得独立测试集的另一种策略是省略一条染色体的数据作为测试集,该测试集通常用于基因组学,但尚未用于RNA修饰检测[58].
当在如上所述准备的独立测试集上进行测试时,ML性能指标对于评估给定算法的预测与基本事实的相似性至关重要。没有单一的通用性能指标,因为不同的指标可以描述算法的不同优势和局限性。接收器工作特性曲线下面积(AUROC)和总体精度(ACC)等指标是衡量模型性能的常用指标。然而,实验相关方法中的训练和测试数据往往是不平衡的,因为它们往往包含的负面示例多于正面示例,这可能导致对假阳性率(FPR)的低估。AUROC使用FPR,这在不平衡测试集上可能不现实。因此,选择适当的度量对于避免过高或过低估计模型性能至关重要。精确重新调用曲线(AUPRC)下的面积衡量了在考虑假阳性的情况下预测阳性示例的能力,从而代表了对算法性能的更现实的衡量。另一个对不平衡数据集稳健的汇总指标是马修斯相关系数(MCC),只有当预测在混淆矩阵的所有四个类别(真阳性、假阴性、真阴性和假阳性)中都取得良好结果时,该系数才会产生高分。在我们的调查中,AUROC、ACC和MCC是实验相关预测因子最常用的性能指标(表1). 尽管AUPRC是一个更稳健的指标,但它仅由调查工具的一个子集提供。
可解释性
可解释性是指我们能够在多大程度上理解ML方法做出的决策并从中获得生物学见解(图2E). 经典ML算法通常更容易解释,因为它们直接对先前定义和选择的特征进行操作。例如,SVM和基于树的方法根据输入数据中可直接识别的特征的条件定义预测,使用成熟的方法可以更容易地进行解释[59]. 因此,在以可解释性为主要目标的场景中,经典ML算法可能是可取的。在我们的调查中,29个调查工具中有11个实施了可解释性策略(表1). 通常使用两种方法,这两种方法可以区分为特定于模型的方法和模型识别方法。
特定于模型的可解释性方法
特定于模型的可解释性方法利用ML算法的某些特性来查询其预测。外转录算法最常见的技术之一是基于决策树的算法(如RF和XGBoost)的特征重要性(图2E). 特征重要性得分为理解每个特征对分类任务的全局相对影响提供了一种快速简便的方法。计算特征重要性得分的算法通常内置于ML包中。
训练神经网络对修改和未修改的RNA序列进行分类,也可以对其进行解释性检查。CNN使用核函数,即一个固定大小的权重矩阵,来处理来自一层的输入,并提取重要的特征进行分类。在第一个CNN层中,内核扫描输入向量的所有位置,并计算每个位置的激活值。激活值随着分类分数上输入特征组合的相关性而增加。TDm6A等工具[44],Gene2vec[45]和DeepM6ASeq[49]从正例中具有最高激活值的输入中提取核苷酸,然后使用这些核苷酸生成位置权重矩阵来可视化重要的序列基序以进行分类(图2E). 例如,这些可用于与RNA结合蛋白的已知结合基序进行比较,这些结合基序可能与RNA修饰的沉积有关。
备受关注的DL模型也被用于识别对模型分类重要的RNA序列模体。多RM[60]是第一个从输入序列中同时检测12种RNA修饰(m6A、m1A、m5C、m5U、m6Am、m7G、Ψ、I、Am、Cm、Gm和Um)的假定位点的DL模型。该算法基于一个长短记忆网络,将输入的RNA序列映射到12个上下文向量,每个上下文向量对应一个RNA修改的输出预测。MultiRM使用注意力权重和综合梯度直观地解释模型如何做出特定决策。与CNN一样,该方法评估每个输入对预测的贡献,并为输入序列中的重要核苷酸分配更高的分数。
模型预测可解释性方法
模型认知可解释性方法可以用于任何ML模型,因为它们的适用性不取决于ML算法的特定属性。例如,为了了解每个特征对识别m6A修改的相对贡献,m6A-HPCS[50]使用一种称为相对收益的经验方法。为了计算相对增益,首先用所有特征训练模型,并估计性能度量,例如精度。然后,在培训和测试步骤中一次删除一个功能。完整模型和简化模型之间的性能度量差异定义为删除特征的相对增益。
作为替代策略,iM6A[36]实施生物信息学饱和突变以了解单个核苷酸如何影响基于ML的m6A预测(图2E). 首先,根据模型预测的后验概率及其在转录本中的相对位置提取高置信度预测的m6A位点。然后,每个侧翼核苷酸被其他三个可能的核苷酸取代,以计算“突变”前后模型预测概率的差异。使用这种方法,初步研究发现决定m6A沉积的mRNA特征优先位于m6A下游的50个核苷酸内6A站点。
基于实验的ML方法检测RNA修饰
虽然实验依赖性方法对于了解潜在的RNA修饰很有价值,但它们本质上是静态的,无法解释特定细胞类型、表型或条件下发生的动态RNA修饰。因此,实验数据对于缩小这一差距并提供RNA修饰的实时图像至关重要。越来越多的实验性高通量技术(主要基于高通量测序技术)允许以样本特异的方式在转录组范围内识别RNA修饰[33]. 在这些创新的基础上,开发了基于实验的ML模型,用于检测来自靶向实验或DRS的RNA修饰。
靶向实验中的m6A检测
迄今为止,已有两种方法使用经典ML方法来利用m6A靶向实验的信息(图3). 第一个工具m6Aboost[61],用于从m6A个体核苷酸分辨率UV交联和免疫沉淀2(miCLIP2)获得的实验数据中提取可靠的m6A位点。miCLIP2型[61],就像最初的协议miCLIP[62]采用m6A特异性抗体结合靶向文库制备和测序策略,以单核苷酸分辨率检测m6A位点。然而,由于抗体选择性有限,实验数据在非m6A位点包含过多的背景信号。简单地通过过滤DRACH主题来去除背景——这是一种常用的策略,可以忽略非DRACH m6A站点。为了克服这一局限性,m6Aboost采用基于决策树的AdaBoost模型,根据RNA序列、基因组背景和实验特征,从miCLIP2数据预测m6A位点。ML模型根据差异甲基化分析确定的阳性和阴性示例进行训练梅特尔3击倒(KO)。因此,m6Aboost能够在独立测试集上以非常高的性能检测非DRACH和DRACH m6A站点。
图3
针对目标实验数据的ML方法的工作流程。(A类)m6上方[61]根据miCLIP2数据进行训练。差异甲基化分析梅特尔3KO用于识别正面和负面示例。实验协议MAZTER-seq[63]使用甲基化敏感RNase MazF识别m6A位点,该酶仅在ACA基序未甲基化时裂解。(B类)从miCLIP2和MAZTER-seq识别的m6A位点提取多个RNA序列和其他特征。(C类)在提取的特征上训练经典的ML模型。(D类)该模型可用于从新的实验数据中以转录全的方式识别RNA修饰位点。可解释性技术可用于研究m6A沉积的决定因素。该图形是使用创建的BioRender.com网站.
经典ML也被用于研究抗体依赖性实验方法MAZTER-seq检测到的m6A位点[63]. MAZTER-seq基于RNase MazF在非甲基化抗着丝粒抗体(ACA)基序上切割RNA的能力,而不是在甲基化的对应基序上。然后根据测序读取的数量量化m6A化学计量,测序读取开始、结束和读取每个转录组ACA位点。从MAZTER-seq数据中识别出m6A位点后,利用这些m6A部位的RNA二级结构、相对位置、周围序列以及鸟嘌呤和胞嘧啶(GC)含量建立线性模型来预测m6A沉积。该方法发现,m6A水平的近50%的变异主要可由局部序列背景解释,RNA二级结构和该位点与基因3′端的接近程度的贡献较小。ML模型也可用于预测转录组中的m6A位点从头开始.
DRS中RNA修饰的检测
纳米孔DRS是一种新兴技术,可以在转录组水平上对天然RNA分子进行测序[34]. 在DRS中,RNA分子在运动蛋白的帮助下通过纳米孔转运。当RNA分子通过孔时,测量离子电流的变化,这大致相当于当前技术中五个核苷酸的组合。重要的是,修饰的RNA核苷酸可以改变离子电流和通过孔的时间(停留时间),这与未修饰的核苷酸不同[34]. 因此,DRS打开了直接检测转录物中化学修饰的可能性,但也带来了新的实验和计算挑战。尽管DRS仅在相对较短的时间内可用(自2018年以来),但已经有多种用于RNA修饰检测的工具(表2,图4). 在下文中,我们描述了这些工具检测RNA修饰的方法,并讨论了它们的优点和局限性。
工具. | 算法. | 特征. | 预测单个读取. | 需要两种条件(WT与KO). | 预测化学计量. | 预测主题. | RNA修饰. | 裁判。. |
---|
CHEU公司 | 美国有线电视新闻网 | 信号值 | 是的 | 不 | 是的 | 任何 | 6安/5摄氏度 | [24] |
EpiNano(比较模式) | 支持向量机 | 错误 | 不 | 是的 | 不 | 任何 | 差异 | [64] |
EpiNano(SVM) | 支持向量机 | 错误 | 不 | 不 | 不 | 任何 | 6安培 | [64] |
汤博(比较模式) | 统计检验 | 信号 | 不 | 是的 | 不 | 任何 | 差异 | [67] |
Tombo(备用模式) | 替代模型 | 信号 | 不 | 不 | 不 | 任何 | 5摄氏度 | [67] |
ELIGOS公司 | 费希尔精确测试 | 错误 | 不 | 是的 | 不 | 任何 | 差异 | [65] |
纳米复合材料 | 通用管理系统 | 停留时间和信号值 | 不 | 是的 | 是的 | 任何 | 差异 | [68] |
x孔隙 | GMM公司 | 信号值 | 不 | 是的 | 是的 | 任何 | 差异 | [69] |
矿山 | 射频 | Tombo“从头开始”检测的功能 | 不 | 不 | 不 | DRACH(牵引) | 6安培 | [73] |
JACUSA2公司 | 贝塔二项分布 | 核苷酸碱基替换、缺失和插入分数 | 不 | 是的 | 不 | 任何 | 差异 | [66] |
滚筒 | G测试 | 外显子和亚型水平的基准调用错误率 | 不 | 是的 | 不 | 任何 | 差异 | [23] |
工具 | 算法 | 特征 | 预测单个读取 | 需要两种条件(WT与KO) | 预测化学计量 | 预测主题 | RNA修饰 | 裁判。 |
纳米6A | XGBoost公司 | | 不 | 不 | 是的 | RRACH公司 | 6安培 | [74] |
纳米RMS | kNN监督模型 | 信号强度、基本呼叫概率和停留时间 | 不 | 不 | 是的 | 任何 | Ψ | [25] |
EpiNano-RMS(比较模式) | kNN或K-means | Sts信号强度、基本呼叫概率和驻留时间 | 不 | 是的 | 是的 | | 取决于其他方法 | [64] |
Yanocomp公司 | 多变量GMM | 信号值 | 不 | 是的 | 是的 | 任何 | 差异 | [70] |
企鹅 | 支持向量机 | 参考5-mer,以及5-mer信号的平均值、标准偏差和长度 | 是的 | 不 | 是的 | 任何 | Ψ | [91] |
纳米文档 | 美国有线电视新闻网 | 电流水平和停留时间 | 是的 | 是的 | 是的 | 任何 | 差异 | [71] |
m6网络 | 美国有线电视新闻网 | 平均纳米孔信号、标准偏差和停留时间 | 是的 | 不 | 是的 | DRACH(牵引) | 6安培 | [75] |
恐龙 | 美国有线电视新闻网 | 平均值、标准差、停留时间、基本质量、不匹配和缺失 | 不 | 不 | 是的 | 任何 | A-I公司 | [77] |
DENA公司 | 循环神经网络 | 平均值、中位数、标准偏差、停留时间和基本质量 | 是的 | 不 | 是的 | RRACH公司 | 6安培 | [76] |
工具. | 算法. | 特征. | 预测单个读取. | 需要两种条件(WT与KO). | 预测化学计量. | 预测主题. | RNA修饰. | 裁判。. |
---|
CHEU公司 | 美国有线电视新闻网 | 信号值 | 是的 | 不 | 是的 | 任何 | 6安/5摄氏度 | [24] |
EpiNano(比较模式) | 支持向量机 | 错误 | 不 | 是的 | 不 | 任何 | 差异 | [64] |
EpiNano(SVM) | 支持向量机 | 错误 | 不 | 不 | 不 | 任何 | 6安培 | [64] |
Tombo(比较模式) | 统计检验 | 信号 | 不 | 是的 | 不 | 任何 | 差异 | [67] |
Tombo(备用模式) | 替代模型 | 信号 | 不 | 不 | 不 | 任何 | 5摄氏度 | [67] |
ELIGOS公司 | 费希尔精确测试 | 错误 | 不 | 是的 | 不 | 任何 | 差异 | [65] |
纳米复合材料 | GMM公司 | 停留时间和信号值 | 不 | 是的 | 是的 | 任何 | 差异 | [68] |
x孔隙 | GMM公司 | 信号值 | 不 | 是的 | 是的 | 任何 | 差异 | [69] |
矿山 | 射频 | 汤博新检测的特点 | 不 | 不 | 不 | 德拉克 | 6安培 | [73] |
JACUSA2公司 | 贝塔二项分布 | 核苷酸碱基替换、缺失和插入分数 | 不 | 是的 | 不 | 任何 | 差异 | [66] |
滚筒 | G测试 | 外显子和亚型水平的基准调用错误率 | 不 | 是的 | 不 | 任何 | 差异 | [23] |
工具 | 算法 | 特征 | 对单个读数的预测 | 需要两种条件(WT与KO) | 预测化学计量 | 预测主题 | RNA修饰 | 裁判。 |
纳米6A | XGBoost公司 | | 不 | 不 | 是的 | RRACH公司 | 6安培 | [74] |
纳米RMS | kNN监督模型 | 信号强度、基本呼叫概率和停留时间 | 不 | 不 | 是的 | 任何 | Ψ | [25] |
EpiNano-RMS(比较模式) | kNN或K-means | Sts信号强度、基本呼叫概率和驻留时间 | 不 | 是的 | 是的 | | 取决于其他方法 | [64] |
Yanocomp公司 | 多变量GMM | 信号值 | 不 | 是的 | 是的 | 任何 | 差异 | [70] |
企鹅 | 支持向量机 | 参考5-mer和5-mer信号的平均值、标准偏差和长度 | 是的 | 不 | 是的 | 任何 | Ψ | [91] |
纳米文档 | 美国有线电视新闻网 | 电流水平和停留时间 | 是的 | 是的 | 是的 | 任何 | 差异 | [71] |
m6网络 | 美国有线电视新闻网 | 平均纳米孔信号、标准偏差和停留时间 | 是的 | 不 | 是的 | DRACH(牵引) | 6安培 | [75] |
恐龙 | 美国有线电视新闻网 | 平均值、标准偏差、停留时间、基本质量、不匹配和删除 | 不 | 不 | 是的 | 任何 | A-I公司 | [77] |
DENA公司 | 循环神经网络 | 平均值、中位数、标准偏差、停留时间和基本质量 | 是的 | 不 | 是的 | RRACH公司 | 6安培 | [76] |
工具. | 算法. | 特征. | 对单个读数的预测. | 需要两种条件(WT与KO). | 预测化学计量. | 预测主题. | RNA修饰. | 裁判。. |
---|
CHEU公司 | 美国有线电视新闻网 | 信号值 | 是的 | 不 | 是的 | 任何 | m6A/m5C | [24] |
EpiNano(比较模式) | 支持向量机 | 错误 | 不 | 是的 | 不 | 任何 | 差异 | [64] |
EpiNano(SVM) | 支持向量机 | 错误 | 不 | 不 | 不 | 任何 | 6安培 | [64] |
Tombo(比较模式) | 统计检验 | 信号 | 不 | 是的 | 不 | 任何 | 差异 | [67] |
Tombo(备用模式) | 替代模型 | 信号 | 不 | 不 | 不 | 任何 | 5摄氏度 | [67] |
ELIGOS公司 | 费希尔精确测试 | 错误 | 不 | 是的 | 不 | 任何 | 差异 | [65] |
纳米复合材料 | GMM公司 | 停留时间和信号值 | 不 | 是的 | 是的 | 任何 | 差异 | [68] |
x孔隙 | GMM公司 | 信号值 | 不 | 是的 | 是的 | 任何 | 差异 | [69] |
矿山 | 射频 | Tombo“从头开始”检测的功能 | 不 | 不 | 不 | DRACH(牵引) | 6安培 | [73] |
JACUSA2公司 | 贝塔二项分布 | 核苷酸碱基替换、缺失和插入分数 | 不 | 是的 | 不 | 任何 | 差异 | [66] |
滚筒 | G测试 | 外显子和亚型水平的基准调用错误率 | 不 | 是的 | 不 | 任何 | 差异 | [23] |
工具 | 算法 | 特征 | 预测单个读取 | 需要两种条件(WT与KO) | 预测化学计量 | 预测主题 | RNA修饰 | 裁判。 |
纳米6A | XGBoost公司 | | 不 | 不 | 是的 | 拉奇 | 6安培 | [74] |
纳米RMS | kNN监督模型 | 信号强度、基本呼叫概率和停留时间 | 不 | 不 | 是的 | 任何 | Ψ | [25] |
EpiNano-RMS(比较模式) | kNN或K-means | Sts信号强度、基本呼叫概率和驻留时间 | 不 | 是的 | 是的 | | 取决于其他方法 | [64] |
Yanocomp公司 | 多变量GMM | 信号值 | 不 | 是的 | 是的 | 任何 | 差异 | [70] |
企鹅 | 支持向量机 | 参考5-mer和5-mer信号的平均值、标准偏差和长度 | 是的 | 不 | 是的 | 任何 | Ψ | [91] |
纳米文档 | 美国有线电视新闻网 | 电流水平和停留时间 | 是的 | 是的 | 是的 | 任何 | 差异 | [71] |
m6网络 | 美国有线电视新闻网 | 平均纳米孔信号、标准偏差和停留时间 | 是的 | 不 | 是的 | DRACH(牵引) | 6安培 | [75] |
恐龙 | 美国有线电视新闻网 | 平均值、标准偏差、停留时间、基本质量、不匹配和删除 | 不 | 不 | 是的 | 任何 | A-I公司 | [77] |
DENA公司 | 循环神经网络 | 平均值、中位数、标准偏差、停留时间和基本质量 | 是的 | 不 | 是的 | RRACH公司 | 6安培 | [76] |
工具. | 算法. | 特征. | 预测单个读取. | 需要两种条件(WT与KO). | 预测化学计量. | 预测主题. | RNA修饰. | 裁判。. |
---|
CHEU公司 | 美国有线电视新闻网 | 信号值 | 是的 | 不 | 是的 | 任何 | 6安/5摄氏度 | [24] |
EpiNano(比较模式) | 支持向量机 | 错误 | 不 | 是的 | 不 | 任何 | 差异 | [64] |
EpiNano(SVM) | 支持向量机 | 错误 | 不 | 不 | 不 | 任何 | 6安培 | [64] |
Tombo(比较模式) | 统计检验 | 信号 | 不 | 是的 | 不 | 任何 | 差异 | [67] |
Tombo(备用模式) | 备选模型 | 信号 | 不 | 不 | 不 | 任何 | m5摄氏度 | [67] |
ELIGOS公司 | 费希尔精确测试 | 错误 | 不 | 是的 | 不 | 任何 | 差异 | [65] |
纳米复合材料 | GMM公司 | 停留时间和信号值 | 不 | 是的 | 是的 | 任何 | 差异 | [68] |
x孔隙 | 通用管理系统 | 信号值 | 不 | 是的 | 是的 | 任何 | 差异 | [69] |
矿山 | 射频 | Tombo“从头开始”检测的功能 | 不 | 不 | 不 | DRACH(牵引) | 6安培 | [73] |
JACUSA2公司 | 贝塔二项分布 | 核苷酸碱基替换、缺失和插入分数 | 不 | 是的 | 不 | 任何 | 差异 | [66] |
滚筒 | G测试 | 外显子和亚型水平的基准调用错误率 | 不 | 是的 | 不 | 任何 | 差异 | [23] |
工具 | 算法 | 特征 | 预测单个读取 | 需要两种条件(WT与KO) | 预测化学计量 | 预测主题 | RNA修饰 | 裁判。 |
纳米6A | XGBoost公司 | | 不 | 不 | 是的 | RRACH公司 | 6安培 | [74] |
纳米RMS | kNN监督模型 | 信号强度、基本呼叫概率和停留时间 | 不 | 不 | 是的 | 任何 | Ψ | [25] |
EpiNano-RMS(比较模式) | kNN或K-means | Sts信号强度、基本呼叫概率和驻留时间 | 不 | 是的 | 是的 | | 取决于其他方法 | [64] |
Yanocomp公司 | 多变量GMM | 信号值 | 不 | 是的 | 是的 | 任何 | 差异 | [70] |
企鹅 | 支持向量机 | 参考5-mer和5-mer信号的平均值、标准偏差和长度 | 是的 | 不 | 是的 | 任何 | Ψ | [91] |
纳米文档 | 美国有线电视新闻网 | 电流水平和停留时间 | 是的 | 是的 | 是的 | 任何 | 差异 | [71] |
m6安内 | 美国有线电视新闻网 | 平均纳米孔信号、标准偏差和停留时间 | 是的 | 不 | 是的 | DRACH(牵引) | 6安培 | [75] |
恐龙 | 美国有线电视新闻网 | 平均值、标准偏差、停留时间、基本质量、不匹配和删除 | 不 | 不 | 是的 | 任何 | A-I公司 | [77] |
DENA公司 | 循环神经网络 | 平均值、中位数、标准偏差、停留时间和基本质量 | 是的 | 不 | 是的 | RRACH公司 | 6安培 | [76] |
图4
利用DRS进行RNA修饰检测的ML方法(A类)IVT和来自细胞系的实验确定的修饰位点(以抗体为标志)可用作监督学习方法的训练数据,以检测纳米孔DRS数据中的RNA修饰。(B类)监督学习方法使用信号特性检测RNA修改。(C类)SVM可以通过建模基本调用错误来检测RNA修改。(D类)大多数检测RNA修饰的无监督学习方法需要背景样本,通常是修饰酶KO的条件。(E类)信号特性的无监督聚类,如每5个月的平均信号值或停留时间,可用于检测RNA修改。对于无监督聚类,使用WT和KO(在图像中)或背景条件将信号分组为修改和未修改的聚类。(F类)统计测试也可用于测试正常和背景条件之间误差的不对称分布,以检测RNA修改。该图形是使用创建的BioRender.com网站.
检测差异RNA修饰的比较方法
几种算法通过比较两种条件下纳米孔测序读数的特征来检测RNA修改,通常是在无监督的情况下,其中一种可能包含一种或多种较低水平的RNA修改。许多这样的方法使用错误模式来预测修改。其基本思想是,根据纳米孔测序信号预测RNA序列的基于RNA的调用算法尚未使用该修改信息进行训练。因此,预计它们在修饰核苷酸及其周围的预测概率较低,错误率较高。基于这一原理,有修饰和无修饰的样本预计会有一组非对称误差,可以利用这些误差来检测RNA修饰。EpiNano使用此策略(比较模式)[64],爱丽丝[65],滚筒[23]和JACUSA2[66],其比较来自感兴趣样本的DRS与耗尽修改的控制样本之间的基调用错误简档,例如。在体外RNA修饰酶KO或敲除(KD)后样本中的转录物(IVT)或RNA。ELIGOS公司[65]也使用其他控制样本,如cDNA读取,其不会因逆转录步骤而包含RNA修改,以生成cDNA,或使用IVT根据误差经验计算的RNA背景误差模型。虽然这使ELIGOS具有无需对第二个样本进行测序以发现RNA修饰的潜在优势,但这些替代控制的准确性尚未得到全面测试。尽管使用基调用错误来识别修改的基是有效的,但已经发现,仅使用错误频率是预测化学计量比的次优策略[25]. 此外,这些方法将依赖于所使用的特定基调用方法。
在比较两种情况时,错误配置文件并不是唯一可以利用的功能。其他特征,如平均信号强度值和停留时间,可用于比较样本和参考,以检测修改。与基于错误的特征相比,无错误特征改进了对RNA修饰的检测,并且与化学计量学的相关性更好[25,64]. 例如,Tombo[67]使用模块比较每个参考位置两个样本的平均信号值level_sample_compare(级别_样本_比较)。纳米复合材料[68]聚类平均来自两种条件的信号值和停留时间,其中一种是RNA修饰水平较低的对照,使用双成分高斯混合模型(GMM),然后进行逻辑回归测试。这比使用单一统计测试来确定其中一个样本是否被修改提供了改进,从而减少了假阳性的数量[68]. x孔隙[69]还实现了两个高斯分布,以无监督的方式对两个样本进行聚类,同时还引入了关于未修改RNA的理论信号分布的先验信息。这些先验信息有助于指导高斯参数的模型估计,并显示出比EpiNano更好的性能[64]和Tombo[67]. x孔隙[69]与以前的方法相比,尽管以高FPR为代价,但化学计量预测也有所改进[24]. Yanocomp公司[70]使用类似的方法,但引入了一个5-nt滑动窗口来拟合多变量GMM,利用每个RNA修饰可能在多个核苷酸位置对纳米孔信号产生不同影响的观察结果。它还添加了一个附加组件来控制可能的异常值。然而,到目前为止,还没有与其他工具进行比较。最后,纳米RMS[25]是唯一的比较工具,它结合了信号值、驻留时间和修改样本和未修改样本之间的基本调用错误配置文件来检测修改。
与前面描述的工具不同,nanoDoc[71]使用有监督的DL方法检测RNA修改。它实现了两个共享相同权重的并行CNN。每个CNN获取纳米孔信号和对应于5分子的驻留时间值,并将两个输入中的每一个转换为16维向量。然后,测量两个输出向量之间的欧氏距离,以推断原始输入的差异。使用此策略,nanoDoc处理成对复杂多维输入信号,并通过将输入转换为一对易于比较的向量(例如通过欧几里德距离)来推断它们之间的距离函数,以确定输入是否对应于修改的核苷酸。
比较法和无监督法的优点之一是,原则上,它们可以用于检测RNA的修饰状态,而不需要基本事实。它们的主要局限性在于,由于这些方法需要一个控制或KO/KD样本,因此预测本质上是间接的。此外,KO/KD样品的必要性增加了实验的复杂性和成本,并且可能并不总是可行的。另一个问题是,RNA修饰的去除可能会产生二次效应,如其他RNA修饰的缺失。例如,已经表明NSUN2的耗尽以去除m5C导致hm5C的减少[65]. 此外,修饰可能取决于多种酶,例如m5C可以由多种酶沉积[72]. 在这种情况下,只灭活其中一个可能导致转录组中m5C位点的部分检测。这使得使用比较方法来完全表征外转录组成为一项挑战。
监督学习检测一种情况下的RNA修改
可以训练监督学习算法,以识别与未来未发现样本中修改和未修改核苷酸相关的模式。与上述比较方法相比,监督方法直接预测具体修改,而不是通过两种条件之间的比较来推断修改。已经使用这种方法开发了一些工具。除了上述比较模式外,EpiNano[64]还可以使用SVM从一个样本中的核苷酸的基本质量分数、错配和缺失频率预测m6A。SVM使用改良的(m6A)和未改良的IVT进行训练,并使用IVT和来自酵母细胞的RNA进行测试输入法4,一种编码METTL3同源物的酵母基因。
在预测m6A场址的不同方法中,MINES[73]在Tombo的输出上使用射频从头开始将DRACH图案分为修改或未修改的模式[67]. 利用DRS数据结合miCLIP识别的HEK293和HeLa细胞m6A位点对MINES进行训练。MINES的一个局限性是它不能预测单个DRS读数或化学计量的修改状态。类似地,Nanom6A[74]实现了一个XGBoost模型,该模型使用带有和不带m6A的IVT进行训练,以将注释参考中的RRACH基序分类为修改或未修改。Nanom6A是第一个使用纳米孔和监督学习的算法,它提供了预测位置的化学计量信息。
其他几种方法将DL应用于DRS数据建模。例如,m6Anet[75]是一个前馈NN模型(多层感知器),使用先前确定的转录组m6A位点和多实例学习进行训练。在这种方法中,该模型经过训练,可以对m6A修改和未修改的站点进行分类,而无需明确提供有关单个读取的信息,而是使用与先前选择的修改或未修改站点关联的读取组。而m6Net显示出比Nanom6A更高的精确度[74]和EpiNano[64]使用体内HEK293数据集中,它仅识别DRACH基序中的m6A位点,精度较低。另一种使用先前确定的m6A站点训练NN的方法是DENA[76]. DENA的培训是基于比较单个读取野生型(WT)和m6A甲基转移酶KO条件下的基调用错误拟南芥各种RRACH图案。具有显著误差差异的站点的平均值和中值用作预测特征。已经开发了其他类似的DL方法,用于从纳米孔DRS数据中检测A-to-I编辑位点[77].
同时,CHEUI被开发为两阶段预测模型,从DRS信号中检测m6A和m5C[24]. 在第一阶段,CNN利用围绕核苷酸的9聚体的信号在单个读取中识别单核苷酸位置的m6A或m5C。在第二阶段,CHEUI使用第二个CNN处理第一个模型在给定转录组位点的所有单个读取预测,以预测该位点的化学计量和修饰概率。CHEUI使用IVT进行训练,并使用独立的IVT和几个体内样品。它的表现优于xPore[69]、纳米复合材料[68]、汤博[67]和NanoRMS[25]在化学计量学预测准确性中,检测到的真阳性数和假阳性的控制。CHEUI的另一个优点是它可以在任何序列上下文中预测m6A或m5C。这一优势使得有可能确认DRACH依赖性m6A位点的存在,以及依赖或独立于m5C修饰酶之一NSUN2的m5C位点的序列和结构特征。
ML模型也被开发用于其他RNA修饰,如假尿苷(Ψ)[78]. 使用少量含有或不含假尿苷的合成RNA,利用35个特征训练序列特异性模型,如RF或XGBoost,包括基调用质量分数,以及候选位点及其周围碱基的删除。这些模型显示出较高的准确性和化学计量相关性,但对训练序列以外的序列的泛化有限。
当前的挑战
异构体特异性RNA修饰
在异构体特异性分辨率下识别RNA修饰是外延转录组学的主要挑战之一。基于短阅读测序的实验方法具有固有的局限性,即大多数阅读不能自信地指定给特定亚型。因此,当预测在多个亚型中发生的转录区域中RNA修饰时,很难确定是否所有亚型或其中的一个子集都被修饰。纳米孔DRS的长读可以跨越转录亚型的全长,从而避免短读的歧义。原则上,基于DRS数据的基于实验的方法可以利用这一优势来指定特定转录亚型的修饰[24]. 然而,在实践中,DRS仍然存在技术限制,例如大量截断读取导致覆盖范围向5′端衰减[79]. 当前和新的实验和计算方法将在克服这些障碍和更好地理解异构体特异性RNA修饰方面发挥关键作用。
化学计量学
为了定量描述和充分理解RNA修饰的功能作用,不仅要准确预测其位置,而且还要预测其化学计量,即在给定位置含有RNA修饰的给定RNA分子的拷贝分数。目前的证据表明,在相同条件下,甚至在同一转录本中,化学计量学可以在不同位点和修饰类型之间变化[24]. 此外,对于m6A,有证据表明,至少对于一部分位点,化学计量在RNA序列上下文中是“硬编码的”[63]. 如上所述,一些ML工具已经提供了估算化学计量比的可能性,例如,通过DRS数据上RNA修改的读取级预测。然而,迄今为止,培训和基准测试这些方法的可靠实验数据仍然是一个主要瓶颈。最近,基于核苷酸转换开发了新的有希望的实验方法,实现了m6A化学计量学的精确转录全估计[80,81]. 所得数据与基于DRS的估计值高度相关[24]并有望在未来研究化学计量学。
细胞类型和条件特异性RNA修饰
外转录组学中的一个重要问题是,RNA修饰是否因细胞类型、组织和其他条件而异,以及这些差异是否与调控机制或表型状态有关。由于实验依赖性方法不包含条件特异性信息,因此它们将在不同的细胞类型和条件下检测相同的RNA修饰,从而提供外转录体的“静态”描述。即使实验相关的ML方法是使用细胞类型相关或条件特定的训练数据进行训练的,它们也只能在那些特定的预训练条件中发现修改。相反,基于实验的ML方法可以检测条件之间的修改变化,并可用于发现RNA修改的新模式和功能。然而,由于这种方法中的RNA修饰检测是在特定的数据集上进行的,因此必须考虑实验测量中的技术和生物差异。ML方法可以对任何样本起作用,并且对实验技术的可变性具有鲁棒性,这将为揭示RNA修饰在细胞类型、组织和其他条件中的作用提供新的机会。
培训数据的缺乏和偏见
训练和测试ML方法以检测RNA修饰的一个限制因素是可用实验数据的稀缺性和可变质量。对于m6A,有来自多种细胞类型和使用几种实验技术进行正交验证的位点的具有单核苷酸分辨率的数据集。这促进了以单核苷酸分辨率检测m6A位点的ML算法的发展。相比之下,其他RNA修饰的数据集较少或没有可用数据集,并且通常不是单核苷酸分辨率,这阻碍了ML方法的有效发展。实验验证的站点越少,算法的预期精度的不确定性也越高。为了了解外转录组的完整范围并创建更可靠和全面的ML模型,需要生成所有RNA修饰的广泛数据。此外,受实验技术的限制,化学计量比低或位于低表达转录物中的修饰位点仍然很难检测到。这也增加了识别适当反例的难度。对于基于DRS的ML工具,IVT是获取数据以训练模型的生物源的替代方法。使用IVT,分子可以在没有修饰或用未修饰的碱基代替其修饰的对应物的情况下制备。这些分子的DRS在相同的序列背景下产生修饰和未修饰核苷酸信号的完整基本真理,可用于训练和测试新方法。与任何训练策略一样,数据集中包含的偏差、实验过程和其他来源的工件都将传递给模型。评估此类模型性能的另一种方法是使用使用正交技术获得的数据,但这些数据也存在各自的偏差和局限性。因此,计算和实验研究人员之间的协调工作对于生成适当的训练和测试数据集仍然至关重要。
DRS中的机会和开放性问题
众所周知,经过良好研究的RNA,如核糖体和转移RNA,具有多重修饰,这在mRNA中也很常见。DRS首次提供了测量每个mRNA拷贝中存在的所有RNA修饰的理论可能性。然而,目前尚不清楚同一分子中不同的附近修饰如何影响纳米孔信号电流。为了在实际场景中训练和测试模型性能,需要采用包含修改组合的特定训练策略。这些训练和测试配置很难生成,到目前为止,只使用了IVT和细胞系数据集的组合。其他挑战包括DRS中的3′端偏倚和频繁的5′端截断。这导致5′非翻译区域的修改显著采样不足,这对理解翻译调控至关重要。另一个悬而未决的问题是,DRS可以检测到的修改类型和修改解决方案是否存在限制。目前的几种方法无法根据纳米孔信号分离两种化学异构体m1A和m6A[24]. 这可能表明,同分异构体修饰以及通常类似物理化学性质的修饰可能会导致非常相似的信号扰动。因此,可能需要信号值以外的其他特征才能使用ML区分这些修改。
RNA修饰检测ML方法的改进
过去几年中,更强大的计算能力、更大的训练数据和更复杂的体系结构(具有更多变量)最有可能提高DL模型的准确性。计算机视觉中的案例研究[82]和自然语言处理[83]字段表明,要实现线性改进,需要指数级地增加数据和DL模型大小(即参数数量),这使得只关注ML任务的这些方面来提高性能变得越来越困难。另一方面,正确使用生物信息和模型先验可以提高ML模型的鲁棒性和性能,可能消除对大型训练数据集的依赖。例如,检测RNA修饰的基于DRS的算法尚未明确考虑与候选核苷酸修饰的相对转录位置、二级结构或进化保守性相关的信息,这可能为检测许多RNA修饰提供信息。随着有关RNA生物学和RNA修饰的知识迅速增加,在ML模型中对这些知识进行正确编码可以提高其检测准确性。
结论
ML方法在检测RNA修饰方面发挥着核心作用。在这篇综述中,我们概述了用ML检测RNA修饰的两种主要方法,即实验依赖性方法和基于实验的方法。它们的适用性主要取决于手头的研究问题。实验依赖性方法有助于在与训练数据类似的条件下研究RNA修饰位点,或获得外转录体的一般特征。此外,这些算法可以很容易地进行查询,以了解修改后站点的相关特征。另一方面,基于实验的工具更适合于在不同于训练数据的新条件下识别RNA修饰,或在实验特征的指导下发现RNA修饰的功能和调节方面。两者共同为表转录组学领域的新发现和创新提供了一个令人兴奋的框架。
关键点
这篇综述强调了机器学习如何在转录组水平上提供识别和表征RNA修饰的有效策略。
根据用于训练和预测的输入数据,机器学习策略大致分为两类:实验依赖型和基于实验型,并讨论了每种方法的优点和适用性。
描述了训练、测试和解释RNA修改机器学习方法的主要策略。
本文介绍了RNA修饰分析的当前挑战和未决问题,并讨论了机器学习解决这些问题的机会。
基金
我们感谢澳大利亚研究委员会(ARC)发现项目资助DP220101352和DP210102385(给E.E.)、国家健康与医学研究委员会(NHMRC)创意资助APP2018833(给E.E.E.)和德国研究基金会(德国Forschungsgemeinschaft,DFG)的支持SPP 1935 ZA 881/5-2(Projektnummer 273941853,至K.Z.)。
工具书类
1戴维斯
FF公司
,艾伦
转发
.
酵母中含有第五个核苷酸的核糖核酸
.生物化学杂志
1957
;227
(2
):907
–15
. 2.谢弗
M(M)
,卡普尔
U型
,扬奇
最小流量
.
理解RNA修饰:“外转录体”的前景和技术瓶颈
.开放式生物
2017
;7
(5
):170077. 三。多米尼西尼
D类
,Moshitch-Moshkovitz公司
S公司
,施瓦茨
S公司
等
m6A-seq揭示的人和小鼠m6A RNA甲基体的拓扑结构
.自然
2012
;485
(7397
):201
–6
. 4迈耶
杜兰特
,萨利托雷
Y(Y)
,Zumbo公司
P(P)
等
mRNA甲基化的综合分析显示3’UTR和近终止密码子富集
.单元格
2012
;149
(7
):1635
–46
. 5斯奎尔斯
JE公司
,帕特尔
人力资源
,努什
M(M)
等
5-甲基胞嘧啶在人类编码和非编码RNA中广泛存在
.核酸研究
2012
;40
(11
):5023
–33
. 6胡贝尔
性虐待
,厢式货车
代尔夫特
P(P)
,门迪尔
L(左)
等
RNA中5-羟甲基胞嘧啶的形成和丰度
.化学生物化学
2015
;16
(5
):752
–5
. 7太阳
L(左)
,徐
Y(Y)
,白
S公司
等
拟南芥中信使核糖核酸和非编码信使核糖核酸假尿苷化的全转录组分析
.J Exp Bot公司
2019
;70
(19
):5089
–600
. 8卡莱尔
TM(TM)
,罗哈斯·杜拉
最小流量
,吉尔伯特
WV公司
.
使用伪seq进行伪尿苷修饰的转录组全鉴定
.电流质子分子生物学
2015
;112
:. 9施瓦茨
S公司
,伯恩斯坦
陆军部
,蒙巴赫
先生
等
转录组宽标测揭示了ncRNA和mRNA广泛的动态调节假尿苷化
.单元格
2014
;159
(1
):148
–62
. 10铃木
T型
,上田
H(H)
,冈田
S公司
等
使用ICE-seq方法对腺苷-肌苷编辑进行转录组全鉴定
.Nat协议
2015
;10
(5
):715
–32
. 11维纳
D类
,施瓦茨
S公司
.
m(6)A以外的上转录体
.Nat Rev基因
2021
;22
(2
):119
–31
. 12傅
Y(Y)
,多米尼西尼
D类
,勒查维
G公司
等
可逆m(6)A RNA甲基化介导的基因表达调控
.Nat Rev基因
2014
;15
(5
):293
–306
. 13舒曼
U型
,张
海南
,西布利特
T型
等
mRNA的5-甲基胞嘧啶含量与翻译之间的多重联系
.BMC生物
2020
;18
(1
):40
. 14阿兰戈
D类
,斯特吉尔
D类
,阿尔胡塞尼
N个
等
胞苷在mRNA中的乙酰化促进翻译效率
.单元格
2018
;175
(7
):1872
–1886 e1824
. 15加利亚迪
D类
,津博夫斯基
A类
.
控制RNA降解的5′和3′修饰:从保护到执行
.Philos Trans R Soc Lond B生物科学
2018
;373
(1762
):20180160. 16孟德尔
M(M)
,德拉尼
K(K)
,潘迪
右后
等
剪接位点m(6)A甲基化阻止U2AF35结合以抑制RNA剪接
.单元格
2021
;184
(12
):3125
–3142 e3125个
. 17杨
Y(Y)
,徐
PJ公司
,陈
YS公司
等
动态转录组m(6)A装饰:书写器、橡皮擦、读取器和RNA代谢中的功能
.单元格Res
2018
;28
(6
):616
–24
. 18弗莱
M(M)
,原田
英国电信
,贝姆
M(M)
等
RNA修饰在发育过程中调节基因表达
.科学类
2018
;361
(6409
):1346
–9
. 19江
X(X)
,线路接口单元
B类
,聂
Z轴
等
m6A修饰在生物功能和疾病中的作用
.信号传输目标热
2021
;6
(1
):74
. 20线路接口单元
L(左)
,歌曲
B类
,妈妈
J型
等
生物信息学方法解译上转录组:最新进展和新课题
.计算结构生物技术J
2020
;18
:1587
–604
. 22El Allali公司
A类
,Elhamraoui公司
Z轴
,达乌德
R(右)
.
机器学习在RNA修饰位点预测中的应用
.计算结构生物技术J
2021
;19
:5510
–24
. 23价格
调幅
,海耶
韩国
,麦金太尔
澳大利亚广播公司
,等人
直接RNA测序揭示腺病毒RNA上的m(6)A修饰对于有效剪接是必要的
.国家公社
2020
;11
(1
):6016
. 25贝吉克
哦
,卢卡斯
国会议员
,普里什茨
有限合伙人
等
纳米孔测序定量分析天然RNA中假尿苷酰化动力学
.Nat生物技术
2021
;39
(10
):1278
–91
. 26富兰
M(M)
,德尔加多·特杰多尔
A类
,马尔罗尼
L(左)
等
纳米孔直接RNA测序数据中RNA修饰检测的计算方法
.RNA生物
2021
;18
(支持1
):31
–40
. 27万
YK公司
,亨德拉
C类
,普拉坦瓦尼奇
PN编号
等
超越排序:机器学习算法提取隐藏在纳米孔信号数据中的生物
.趋势Genet
2022
;38
(三
):246
–57
. 28王
H(H)
,王
S公司
,张
Y(Y)
等
RNA甲基化位点预测的机器学习方法综述
.方法
2022
;203
:399
–421
. 29陈
Z轴
,赵
P(P)
,锂
F类
等
从RNA序列预测RNA转录后修饰位点的计算方法综述与评估
.生物信息简介
2020
;21
(5
):1676
–96
. 30布龙斯坦
MM(毫米)
,布吕纳
J型
,科恩
T型
等
几何深度学习:网格、组、图、测地线和量规
.arXiv预打印arXiv:2104.13478。 31汤森
RJL公司
,艾斯曼
S公司
,沃特金斯
调幅
,等人
RNA结构的几何深度学习
.科学类
2021
;373
(6558
):1047
–51
. 32雁鸣声
Z轴
,汉密尔顿
WL(WL)
,布兰切特
M(M)
.
预测RNA-蛋白质相互作用的RNA二级结构的图形神经表征学习
.生物信息学
2020
;36
(供应_1
):i276型
–84
. 33Anreiter公司
我
,和平号
问
,辛普森
日本
等
检测mRNA修饰动力学的新方法
.生物技术趋势
2021
;39
(1
):72
–89
. 34加拉尔德
博士
,斯内尔
每个
,贾奇莫维奇
D类
等
纳米孔阵列上高度并行的直接RNA测序
.Nat方法
2018
;15
(三
):201
–6
. 35施瓦茨
S公司
,蒙巴赫
先生
,约万诺维奇
M(M)
等
m6A写作者的扰动揭示了两种不同的mRNA甲基化在内部和5′位点
.单元格代表
2014
;8
(1
):284
–96
. 36罗
Z轴
,张
J型
,费
J型
等
深度学习模型m(6)A沉积揭示了下游顺元素序列的重要性
.国家公社
2022
;13
(1
):2720
. 37乌佐伊
A类
,迪尔克斯
D类
,尼日尔
R(右)
等
外显子连接复合体将m6A从剪接近端区域排除,这决定了m6A的拓扑结构和mRNA的稳定性
.摩尔细胞
2023
;83
(2
):237
–251电子237
. 38陈
W公司
,冯
P(P)
,歌曲
X(X)
等
iRNA-m7G:通过融合多种特征识别N(7)-甲基鸟苷位点
.摩尔热核酸
2019
;18
:269
–74
. 39陈
K(K)
,世界环境学会
Z轴
,张
问
等
WHISTLE:使用机器学习方法预测的人类N6-甲基腺苷(m6A)外转录组的高精度图谱
.核酸研究
2019
;47
(7
):e41。 40陈
W公司
,冯
P(P)
,丁
H(H)
,等人
iRNA甲基:使用伪核苷酸组成鉴定N(6)-甲基腺苷位点
.Ana Biochem公司
2015
;490
:26
–33
. 41陈
W公司
,Tran公司
H(H)
,梁
Z轴
等
酿酒酵母转录组中N(6)-甲基腺苷的鉴定与分析
.科学代表
2015
;5
:13859
. 42周
Y(Y)
,曾
P(P)
,锂
YH公司
等
SRAMP:基于序列衍生特征预测哺乳动物N6-甲基腺苷(m6A)位点
.核酸研究
2016
;44
(10
):电子91
. 43黄
Y(Y)
,他
N个
,陈
Y(Y)
等
BERMP:通过集成深度学习算法和随机森林方法预测m(6)a站点的跨物种分类器
.国际生物科学杂志
2018
;14
(12
):1669
–77
. 44王
J型
,王
L(左)
.
人类细胞RNA N(6)-腺苷甲基化(m(6)A)模式的深度分析
.NAR Genom生物信息
2020
;2
(1
):lqaa007
. 45邹
问
,Xing(兴)
P(P)
,世界环境学会
L(左)
等
Gene2vec:通过mRNA预测哺乳动物N(6)-甲基腺苷位点的基因子序列嵌入
.核糖核酸
2019
;25
(2
):205
–18
. 46羌族
X(X)
,陈
H(H)
,Ye(是)
X(X)
等
M6AMRFS:多物种中N6-甲基腺苷位点的稳健预测,具有基于序列的特征
.前Genet
2018
;9
:495
. 47世界环境学会
L(左)
,苏
R(右)
,王
B类
等
集成深度特征表示和手工特征以改进N6-甲基腺苷位点的预测
.神经计算
2019
;324
:三
–9
. 48陈
W公司
,唐
H(H)
,林
H(H)
.
MethyRNA:用于识别N(6)-甲基腺苷位点的网络服务器
.生物分子结构动力学杂志
2017
;35
(三
):683
–7
. 49.张
Y(Y)
,滨田
M(M)
.
DeepM6ASeq:使用深度学习预测和表征含m6A序列
.BMC生物信息学
2018
;19
(补充19
):524
. 50张
M(M)
,太阳
JW公司
,线路接口单元
Z轴
等
利用核苷酸理化性质的启发式选择改进N(6)-甲基腺苷位点预测
.Ana Biochem公司
2016
;508
:104
–13
. 51陈
W公司
,Xing(兴)
P(P)
,邹
问
.
利用集成支持向量机检测RNA转录体中的N(6)-甲基腺苷位点
.科学代表
2017
;7
:40242
. 52陈
W公司
,丁
H(H)
,周
X(X)
等
iRNA(m6A)-PseDNC:使用伪二核苷酸成分识别N(6)-甲基腺苷位点
.Ana Biochem公司
2018
;561–562
:59
–65
. 53陈
W公司
,雷
TY公司
,金
直流
等
PseKNC:生成伪K元组核苷酸组成的灵活web服务器
.Ana Biochem公司
2014
;456
:53
–60
. 54贾
立方厘米
,张
JJ公司
,顾
WZ
.
RNA-MethyPred:鉴定RNA中N6-甲基腺苷的高精度预测因子
.Ana Biochem公司
2016
;510
:72
–5
. 55王
X(X)
,雁鸣声
R(右)
.
RFAthM6A:预测m(6)a位点的新工具拟南芥
.植物分子生物学
2018
;96
(三
):327
–37
. 56赵
Z轴
,彭
H(H)
,局域网
C类
等
预测mRNA中N(6)-甲基化位点的不平衡学习
.BMC基因组学
2018
;19
(1
):574
. 57向
S公司
,线路接口单元
K(K)
,雁鸣声
Z轴
,等人
RNAMethPre:用于预测和查询mRNA m6A位点的web服务器
.公共图书馆
2016
;11
(10
):电子0162707
. 58威伦
S公司
,施赖伯
J型
,贵族
WS公司
等
导航在基因组学中应用机器学习的陷阱
.Nat Rev基因
2022
;23
(三
):169
–81
. 60歌曲
Z轴
,黄
D类
,歌曲
B类
等
基于注意的多标记神经网络用于集成预测和解释12种广泛发生的RNA修饰
.国家公社
2021
;12
(1
):4011
. 61科尔特尔
N个
,吕克尔
C类
,周
Y(Y)
等
使用miCLIP2和m6Aboost机器学习深入准确检测m6A RNA修饰
.核酸研究
2021
;49
(16
):e92(电子92)
. 62林德
B类
,格罗日克
成人影片
,奥拉瑞林-乔治
AO公司
等
转录组中m6A和m6Am的单核苷酸重溶图谱
.Nat方法
2015
;12
(8
):767
–72
. 63加西亚-坎波斯
妈妈
,爱德海特
S公司
,托斯
U型
,等人
通过抗体非依赖性定量分析破译“m(6)A密码”
.单元格
2019
;178
(三
):731
–747电子716
. 64线路接口单元
H(H)
,贝吉克
哦
,卢卡斯
国会议员
等
准确检测天然RNA序列中m(6)A RNA的修饰
.国家公社
2019
;10
(1
):4079
. 65詹杰罗恩潘
P(P)
,旺苏拉瓦
T型
,沃德利
技术总监
等
从天然RNA序列解码外延景观
.核酸研究
2021
;49
(2
):第7页
. 66皮肖塔
M(M)
,纳曼·德·弗里斯
是
,王
问
等
利用JACUSA2进行RNA修饰映射
.基因组生物学
2022
;23
(1
):115
. 68Leger公司
A类
,阿玛拉尔
聚丙烯
,潘多尔菲尼
L(左)
等
通过比较纳米孔直接RNA测序检测RNA修饰
.国家公社
2021
;12
(1
):7198
. 69普拉坦瓦尼奇
PN编号
,姚明
F类
,陈
Y(Y)
等
用xPore鉴定纳米孔直接RNA测序中的差异RNA修饰
.Nat生物技术
2021
;39
(11
):1394
–402
. 72黄
T型
,陈
W公司
,线路接口单元
J型
等
哺乳动物mRNA 5-甲基胞嘧啶的全基因组鉴定
.自然结构分子生物学
2019
;26
(5
):380
–8
. 73洛伦兹
陆军部
,萨特
S公司
,爱因斯坦
吉咪
等
直接RNA测序能够以碱基特异性分辨率检测内源性转录物亚型中的m(6)A
.核糖核酸
2020
;26
(1
):19
–28
. 74.高
Y(Y)
,线路接口单元
X(X)
,吴
B类
等
利用纳米孔直接RNA测序技术定量分析毛白杨茎分化木质部N(6)-甲基腺苷的单碱基分辨率
.基因组生物学
2021
;22
(1
):22
. 75亨德拉
C类
,普拉坦瓦尼奇
PN编号
,万
YK公司
等
利用多实例学习框架从直接RNA测序中检测m6A
.Nat方法
2022
;19
(12
):1590
–8
. 76秦
H(H)
,欧点
L(左)
,高
J型
等
DENA:利用拟南芥转录物纳米孔测序数据训练真实的神经网络模型,用于检测和量化RNA上的N(6)-甲基腺苷
.基因组生物学
2022
;23
(1
):25
. 77阮
助教
,恒
JWJ公司
,Kaewsapsak公司
P(P)
等
利用纳米孔天然RNA测序直接鉴定A-to-I编辑位点
.Nat方法
2022
;19
(7
):833
–44
. 79索内松
C类
,姚明
Y(Y)
,Bratus-Neuenschwander公司
A类
等
纳米孔天然RNA测序用于复杂转录组表征的综合检测
.国家公社
2019
;10
(1
):3359
. 80线路接口单元
C类
,太阳
H(H)
,易
Y(Y)
等
使用GLORI对哺乳动物转录组中单碱基m(6)A甲基化的绝对定量
.Nat生物技术
2023
;41
(3):355–66. 81肖
YL公司
,线路接口单元
S公司
,通用电气
R(右)
,等人
酶辅助腺苷脱氨化对N(6)-甲基腺苷的转录组全谱分析和定量
.Nat生物技术
2023
. 82Sun C、Shrivastava A、Singh S、Gupta A。
重新审视深度学习时代数据的不合理有效性
.英寸IEEE计算机视觉国际会议记录
2017年,第843–52页。 83.卡普兰
J型
,麦坎迪什
S公司
,海尼汉
T型
等
神经语言模型的标度定律
. 2020. arXiv预打印arXiv:2001.08361。 84向
S公司
,雁鸣声
Z轴
,线路接口单元
K(K)
等
AthMethPre:预测和查询拟南芥mRNA m(6)a位点的web服务器
.分子生物晶体
2016
;12
(11
):3333
–7
. 85张
SY公司
,张
软件
,风扇
XN公司
等
使用深度学习和基于网络的方法对N6-甲基腺苷功能及其与疾病的相关性进行全局分析
.公共科学图书馆计算生物学
2019
;15
(1
):电子006663
. 86陈
W公司
,冯
P(P)
,丁
H(H)
等
拟南芥转录组中N(6)-甲基腺苷位点的鉴定
.分子遗传学
2016
;291
(6
):2225
–9
. 87Xing(兴)
P(P)
,苏
R(右)
,郭
F类
等
利用多区间核苷酸对位置特异性和支持向量机识别N(6)-甲基腺苷位点
.科学代表
2017
;7
:46757
. 88世界环境学会
L(左)
,陈
H(H)
,苏
R(右)
.
M6APred-EL:使用集成学习识别N6-甲基腺苷位点的基于序列的预测因子
.摩尔热核酸
2018
;12
:635
–44
. 89线路接口单元
Z轴
,肖
X(X)
,于
流行音乐播音员
等
pRNAm-PC:通过物理化学性质预测RNA序列中N(6)-甲基腺苷位点
.Ana Biochem公司
2016
;497
:60
–7
. 90锂
GQ公司
,线路接口单元
Z轴
,沈
血红蛋白
等
靶点M6A:通过位置特异性核苷酸倾向和支持向量机从RNA序列中识别N(6)-甲基腺苷位点
.IEEE跨纳米生物科学
2016
;15
(7
):674
–82
. 91哈桑
D类
,阿塞韦多
D类
,道拉塔巴德
SV公司
等
企鹅:预测直接RNA纳米孔测序数据中假尿苷位点的工具
.方法
2022
;203
:478
–87
.
作者注释
©作者2023。牛津大学出版社出版。