定量生物学>生物分子
标题: PSP:用于蛋白质结构预测的百万级蛋白质序列数据集
摘要: 蛋白质是人类生命的基本组成部分,其结构对功能和机制分析至关重要。 最近的工作显示了人工智能驱动方法在蛋白质结构预测方面的潜力。 然而,由于缺乏数据集和基准训练程序,新模型的开发受到了限制。 据我们所知,现有的开源数据集远远不能满足现代蛋白质序列结构相关研究的需要。 为了解决这个问题,我们提出了第一个具有高覆盖率和多样性的百万级蛋白质结构预测数据集,称为PSP。 该数据集由570k个真实结构序列(10TB)和745k个互补蒸馏序列(15TB)组成。 此外,我们在该数据集上提供了SOTA蛋白质结构预测模型的基准训练程序。 我们通过参加CAMEO竞赛验证了该数据集在训练中的实用性,我们的模型在该竞赛中获得了第一名。 我们希望我们的PSP数据集和训练基准能够使AI/生物学研究人员的社区更广泛地参与AI驱动的蛋白质相关研究。