基于序列预测蛋白质相互作用的多模式预训练模型
杨雪、刘紫晶、方晓敏、王凡
计算生物学会议第16届机器学习会议记录,PMLR 165:34-462022年。
摘要
蛋白质相互作用(PPI)是许多生物过程的基本要素,在这些过程中,两个或多个蛋白质以物理方式结合在一起以实现其功能。PPI建模对于许多生物医学应用非常有用,例如疫苗设计、抗体治疗和肽药物发现。对蛋白质模型进行预先训练以学习有效的表征对PPI至关重要。大多数PPI的预训练模型都是基于序列的,它们天真地将自然语言处理中使用的语言模型应用于氨基酸序列。更先进的工作利用结构软件预训练技术,利用已知蛋白质结构的接触图。然而,无论是序列还是接触图都无法完全描述与PPI问题密切相关的蛋白质的结构和功能。受此启发,我们提出了一个具有三种模式的多模式蛋白质预训练模型:序列、结构和功能(S2F)。值得注意的是,我们没有使用接触图来学习氨基酸级刚性结构,而是使用重原子点云的拓扑复合体来编码结构特征。它使我们的模型不仅可以学习主干的结构信息,还可以学习侧链的结构信息。此外,我们的模型结合了从文献或手册注释中提取的蛋白质功能描述的知识。我们的实验表明,S2F学习在多种PPI任务中取得良好性能的蛋白嵌入,包括跨物种PPI、抗体-抗原亲和力预测、SARS-CoV-2抗体中和预测和突变驱动的结合亲和力变化预测。
引用本文
相关材料