引用
Jensen,M.F.和Nielsen,M.(2023)。NetTCR 2.2——通过结合泛和肽特异性训练策略、损失标度和序列相似性整合,改进了TCR特异性预测。生物Rxiv.https://doi.org/10.1101/2023.10.12.562001
摘要
预测由主要组织相容性复合体(MHC)I类分子和T细胞受体(TCR)呈现的肽之间的结合能力在疫苗开发、癌症治疗和自身免疫性疾病治疗领域具有重要意义。然而,配对链数据的稀缺性,再加上对一些研究良好的表位的偏倚,使得泛特异机器学习(ML)模型的发展面临挑战,该模型对TCR数据很少或没有的肽具有准确的预测能力。为了解决这个问题,我们在这里受益于更大的配对肽-TCR数据集,并探索不同的ML模型架构和训练策略,以更好地处理不平衡数据。我们表明,虽然结构和训练的简单改变可以大大提高性能,特别是对于可用数据很少的肽,但对未知肽的预测仍然具有挑战性,尤其是对于距离训练肽较远的肽。我们还证明了ML模型可以用于检测潜在的异常值,并且从训练中删除这些异常值可以进一步提高整体性能。此外,我们还表明,结合泛素特异性模型和肽特异性模型的特性的模型可以提高性能,并且通过集成基于相似性的预测可以进一步提高性能,特别是在需要低假阳性率的情况下。此外,在IMMREP基准测试的背景下,此更新的建模框架归档了最先进的性能。最后,我们表明,将所有这些方法相结合,可以对特征为只有15个阳性TCR的肽产生可接受的预测准确性。因此,这一观察为快速扩展当前模型的肽覆盖范围以预测TCR特异性提供了很大的希望。最终的NetTCR 2.2型号可在https://github.com/mnielLab/NetTCR-2.2,并作为位于的web服务器https://services.healthtech.dtu.dk/services/NetTCR-2.2/。