细菌细胞表面的蛋白质为序列分析提供了挑战。这些蛋白质对细菌与环境之间的相互作用,包括宿主与病原体的相互作用至关重要。但是,由于对这些蛋白质的强烈选择压力和细菌生成时间短,细菌表面蛋白质进化非常迅速。这意味着它们通常对窄范围的细菌物种具有特异性,并且由于同源物数量有限,它们被蛋白质家族数据库忽略了。然而,我们可以利用基因组和元基因组测序获得的数十亿蛋白质序列,这使我们能够识别遥远的相似性,并更好地了解这些蛋白质的结构、功能和进化。我们关注的是最近定义的一类表面蛋白,称为纤维粘连蛋白,它由一个末端粘连域和一个固定在细胞表面的重复域柄组成。这些长蛋白在宿主定植和生物膜形成中具有重要作用,是疫苗设计的潜在靶点。我们的目标是全面鉴定这些蛋白质,并与实验合作者合作,对其结构和功能进行表征。
该小组的第二项研究旨在识别蛋白质序列数据库中虚假翻译的序列。这些污染序列可能占某些序列集的5%,并可能导致计算和实验工作的浪费。我们的目标是开发工具,实现伪蛋白序列集的常规清洗。
未来项目和目标
蛋白质序列和结构领域有许多令人激动的发展,正引领着该小组的研究朝着新的方向发展。深度学习在许多领域都产生了重大影响,包括结构预测。我们正在利用AlphaFold的力量,以前所未有的细节了解细菌细胞表面蛋白质的功能和进化。深度学习方法还可以创建序列空间的嵌入,从而创建研究蛋白质序列、结构和进化的全新方法。例如,假蛋白可能聚集在包埋物内,从而实现检测。这些新技术可能会在未来几年对整个序列分析领域产生颠覆性影响,我们完全有能力驾驭这些发展。