深亲和力

深度亲和力:通过统一的递归和卷积神经网络对复合蛋白亲和力进行可解释的深度学习。动机:药物发现需要快速定量的复合蛋白相互作用(CPI)。然而,目前还缺乏从序列中预测复合蛋白亲和力的高适用性、准确性和可解释性的方法。结果:我们提出了一个领域知识和基于学习的方法的无缝集成。在结构注释蛋白质序列的新表征下,提出了一种结合递归和卷积神经网络的半监督深度学习模型,利用未标记和标记的数据,联合编码分子表示和预测亲和力。我们的表示法和模型在IC50的相对误差方面优于传统的选择,对于测试用例,相对误差在5倍以内,对于未包含在训练中的蛋白质类,相对误差为20倍。转移学习进一步提高了标记数据较少的新蛋白质类的性能。此外,我们开发了单独和联合注意机制,并将其嵌入到我们的模型中,以增加其可解释性,如预测和解释选择性药物靶向相互作用的案例研究所示。最后,本文还探讨了使用蛋白质序列或复合图的替代表示法和基于图CNN(GCNN)的统一RNN/GCNN-CNN模型,以揭示算法面临的挑战。