DTU健康技术

卫生技术部

净TCR-2.2

肽TCR结合的基于序列的预测。

NetTCR-2.2允许预测T细胞受体(TCR)和MHC-I肽之间的结合概率。与NetTCR 2.1相比,NetTCR 2.2有一个预先训练的成分,在训练针对每种肽的进一步模型之前,该成分已经在26种不同的MHC-I肽上训练过。

因此,NetTCR-2.2包含一个特定于预测以下每种肽的模型:
GILGFVFTL、RAKFKQLL、KLGGALQAK、AVFDRKSDAK、ELAGILTV、NLVPMVATV、IVTDFSVIK、LLWNGPMAV、CINGVCWTV、GLCTLVAML、SPRWYFYYL、ATDALMTGF、DATYQRTRALVR、KSKRTPGF、YLQPRTFL、HPVTKYIM、RFPLTFGWCF、GPRLGVRAT、CTELKDY、RLRAEAQVK、RLPGVLPRA、SLFNTVATLY、RPPIFIRR、FEDLLSF、VLFGLGFAI和FEDL RVLSF(RVLSF)

为了进一步提高性能,模型预测通过与已知粘合剂的相似性进行缩放,使用TCR基础工具。


泛特定预测

虽然NetTCR-2.2主要尝试使用性能最佳的预处理模型,但也可以对上述肽以外的肽进行泛特异性预测。

然而,请注意,性能可能会有很大差异,对于与训练数据中的肽不太相似(>95%的内核相似性)的肽,性能通常较差(换句话说,谨慎使用!)。这些肽的预测也没有通过TCRbase进行缩放。


提交数据


粘贴肽和CDR氨基酸序列,或按以下顺序上传包含序列的csv/文本文件:
肽、CDR1α、CDR2α、CDR3α、CDR1-β、CDR2β、CDR3-β

每行需要一个TCR序列,无标题。对于每个TCR,不同的肽和CDR序列应以逗号分隔。绑定标签(在输出中称为“binder”)可以作为CDR3β之后的额外列包含,但任何额外的输入都将在输出中指定任意的列名。

只接受氨基酸输入。有关详细说明,请参阅上面的“说明”选项卡。

有关该方法和引文信息的概述,请参阅“摘要”选项卡。


序列提交

粘贴序列:

负载一些示例数据:
上传本地文件:

相似比例因子(α) 
百分位等级阈值 

引用

Jensen,M.F.和Nielsen,M.(2023)。NetTCR 2.2——通过结合泛和肽特异性训练策略、损失标度和序列相似性整合,改进了TCR特异性预测。生物Rxiv.https://doi.org/10.1101/2023.10.12.562001

NetTCR-2.2说明

输入格式

  • 对于每个数据点的前七个输入,服务器仅接受肽和CDR序列形式的氨基酸序列。这些序列应以逗号分隔,顺序如下:
    肽、CDR1α、CDR2α、CDR3α、CDR1-β、CDR2β、CDR3-β。

  • 这些序列的最大长度应分别为12、7、7、22、6、7、23个氨基酸,并且应仅包含大写标准氨基酸;

提交

  1. 将肽和CDR序列粘贴到框中(A1类),加载示例文件(A2类),或从本地计算机加载文件(A3号). 输入文件应该是没有列标题的文本或.csv文件。

  2. 预测通过与已知粘合剂的相似性进行缩放,这已被证明可以提高性能。此缩放通过以下方式完成TCR基础提升至α的幂(默认值为10);

  3. 可以更改此默认比例因子(B类),如果设置为0,则关闭TCRbase缩放。如果不存在肽模型,则不执行TCRbase缩放。

  4. 也可以过滤显示的输出,以便只报告百分位等级等于或低于给定阈值的观察值(C类). 默认情况下,无论百分位等级如何,都会显示所有观察值。如果选择了另一个阈值,则仍会显示无法确定百分位等级的观察值。

单击提交按钮(D类)输入所有序列后,或按清除字段(E类)重置所有内容。

引用

Jensen,M.F.和Nielsen,M.(2023)。NetTCR 2.2——通过结合泛和肽特异性训练策略、损失标度和序列相似性整合,改进了TCR特异性预测。生物Rxiv.https://doi.org/10.1101/2023.10.12.562001

摘要

预测由主要组织相容性复合体(MHC)I类分子和T细胞受体(TCR)呈现的肽之间的结合能力在疫苗开发、癌症治疗和自身免疫性疾病治疗领域具有重要意义。然而,配对链数据的稀缺性,再加上对一些研究良好的表位的偏倚,使得泛特异机器学习(ML)模型的发展面临挑战,该模型对TCR数据很少或没有的肽具有准确的预测能力。为了解决这个问题,我们在这里受益于更大的配对肽-TCR数据集,并探索不同的ML模型架构和训练策略,以更好地处理不平衡数据。我们表明,虽然结构和训练的简单改变可以大大提高性能,特别是对于可用数据很少的肽,但对未知肽的预测仍然具有挑战性,尤其是对于距离训练肽较远的肽。我们还证明了ML模型可以用于检测潜在的异常值,并且从训练中删除这些异常值可以进一步提高整体性能。此外,我们还表明,结合泛素特异性模型和肽特异性模型的特性的模型可以提高性能,并且通过集成基于相似性的预测可以进一步提高性能,特别是在需要低假阳性率的情况下。此外,在IMMREP基准测试的背景下,此更新的建模框架归档了最先进的性能。最后,我们表明,将所有这些方法相结合,可以对特征为只有15个阳性TCR的肽产生可接受的预测准确性。因此,这一观察为快速扩展当前模型的肽覆盖范围以预测TCR特异性提供了很大的希望。最终的NetTCR 2.2型号可在https://github.com/mnielLab/NetTCR-2.2,并作为位于的web服务器https://services.healthtech.dtu.dk/services/NetTCR-2.2/。



获取帮助

如果您需要有关方面的帮助技术问题(例如错误或缺少结果)联系技术支持。请包括服务名称和版本(例如NetPhos-4.0)以及您选择的选项。如果错误发生在作业开始运行后,请包含job ID(作业运行时看到的长代码)。

如果你有科学问题(例如,方法如何工作或如何解释结果),联系通信.

通信: 技术支持: