基于序列预测蛋白质相互作用的多模式预训练模型

杨雪、刘紫晶、方晓敏、王凡
计算生物学会议第16届机器学习会议记录,PMLR 165:34-462022年。

摘要

蛋白质相互作用(PPI)是许多生物过程的基本要素,在这些过程中,两个或多个蛋白质以物理方式结合在一起以实现其功能。PPI建模对于许多生物医学应用非常有用,例如疫苗设计、抗体治疗和肽药物发现。对蛋白质模型进行预先训练以学习有效的表征对PPI至关重要。大多数PPI的预训练模型都是基于序列的,它们天真地将自然语言处理中使用的语言模型应用于氨基酸序列。更先进的工作利用结构软件预训练技术,利用已知蛋白质结构的接触图。然而,无论是序列还是接触图都无法完全描述与PPI问题密切相关的蛋白质的结构和功能。受此启发,我们提出了一个具有三种模式的多模式蛋白质预训练模型:序列、结构和功能(S2F)。值得注意的是,我们没有使用接触图来学习氨基酸级刚性结构,而是使用重原子点云的拓扑复合体来编码结构特征。它使我们的模型不仅可以学习主干的结构信息,还可以学习侧链的结构信息。此外,我们的模型结合了从文献或手册注释中提取的蛋白质功能描述的知识。我们的实验表明,S2F学习在多种PPI任务中取得良好性能的蛋白嵌入,包括跨物种PPI、抗体-抗原亲和力预测、SARS-CoV-2抗体中和预测和突变驱动的结合亲和力变化预测。

引用本文


BibTeX公司
@会议记录{pmlr-v165-xue22a,title={基于序列预测蛋白质相互作用的多模式预训练模型},作者={薛、杨、刘、紫晶、方、小敏、王、范},booktitle={第16届计算生物学机器学习会议论文集},页数={34--46},年份={2022},editor={诺尔斯、大卫·A·和莫斯塔法维、萨拉和李·苏因},体积={165},series={机器学习研究论文集},月={11月22日--23日},publisher={PMLR},pdf={https://proceedings.mlr.press/v165/xue22a/xue22a.pdf},url={https://proceedings.mlr.press/v165/xue22a.html},文摘={蛋白质相互作用(PPI)是许多生物过程的基本要素,在这些过程中,两个或多个蛋白质以物理方式结合在一起以实现其功能。PPI建模对于许多生物医学应用非常有用,例如疫苗设计、抗体治疗和肽药物发现。对蛋白质模型进行预先训练以学习有效的表征对PPI至关重要。PPI的大多数预训练模型都是基于序列的,它们天真地将自然语言处理中使用的语言模型应用于氨基酸序列。更先进的工作利用结构软件预训练技术,利用已知蛋白质结构的接触图。然而,无论是序列还是接触图都无法完全描述与PPI问题密切相关的蛋白质的结构和功能。受此启发,我们提出了一种具有三种模式的多模式蛋白质预训练模型:序列、结构和功能(S2F)。值得注意的是,我们没有使用接触图来学习氨基酸级刚性结构,而是使用重原子点云的拓扑复合体来编码结构特征。它使我们的模型不仅可以学习主干的结构信息,还可以学习侧链的结构信息。此外,我们的模型结合了从文献或手册注释中提取的蛋白质功能描述的知识。我们的实验表明,S2F学习在多种PPI任务中取得良好性能的蛋白嵌入,包括跨物种PPI、抗体-抗原亲和力预测、SARS-CoV-2抗体中和预测和突变驱动的结合亲和力变化预测。}}
尾注
%0会议论文%基于序列预测蛋白质相互作用的T多模式预训练模型%A杨雪%刘紫晶%阿小民方%王凡(A Fan Wang)%计算生物学会议第16届机器学习论文集%C机器学习研究进展%D 2022年%E大卫·A·诺尔斯%E萨拉·穆斯塔法维%李素英%对于pmlr-v165-xue22a%I项目经理%第34-46页%U型https://proceedings.mlr.press/v165/xue22a.html%165伏%X蛋白质相互作用(PPI)是许多生物过程的基本要素,其中两个或多个蛋白质物理结合在一起以实现其功能。PPI建模可用于许多生物医学应用,如疫苗设计、抗体治疗和肽药物发现。对蛋白质模型进行预先训练以学习有效的表征对PPI至关重要。大多数PPI的预训练模型都是基于序列的,它们天真地将自然语言处理中使用的语言模型应用于氨基酸序列。更先进的工作利用结构软件预训练技术,利用已知蛋白质结构的接触图。然而,无论是序列还是接触图都无法完全描述与PPI问题密切相关的蛋白质的结构和功能。受此启发,我们提出了一个具有三种模式的多模式蛋白质预训练模型:序列、结构和功能(S2F)。值得注意的是,我们没有使用接触图来学习氨基酸级刚性结构,而是使用重原子点云的拓扑复合体来编码结构特征。它使我们的模型不仅可以学习主干的结构信息,还可以学习侧链的结构信息。此外,我们的模型结合了从文献或手册注释中提取的蛋白质功能描述的知识。我们的实验表明,S2F学习在多种PPI任务中取得良好性能的蛋白嵌入,包括跨物种PPI、抗体-抗原亲和力预测、SARS-CoV-2抗体中和预测和突变驱动的结合亲和力变化预测。
亚太地区
薛毅、刘振华、方晓霞和王福华(2022)。基于序列预测蛋白质相互作用的多模式预训练模型。计算生物学会议第16届机器学习会议记录,英寸机器学习研究进展165:34-46可从https://proceedings.mlr.press/v165/xue22a.html。

相关材料