关于可建模性和可泛化性:药物协同作用的机器学习模型是利用现有数据中的人工制品和偏见吗?
Arushi G.K.Majha、Ian Stott、Andreas Bender
计算生物学会议第18届机器学习会议记录,PMLR 240:123-1342024年。
摘要
协同模型是探索药物组合搜索空间和为体外/体内实验确定有希望的子空间的有用工具。在此,我们报告了用于药物协同作用预测建模的训练-验证-测试集中的分布偏差可以解释模型性能中观察到的许多变异性(高达0.22$\Delta$AUPRC)。我们构建了145个分类模型,涵盖从DrugComb中提取的4577种独特药物和75276种成对药物组合,并检查了输入特征和输出标记空间中的虚假相关性。我们假设,由于协同扩散、类别分离、化学结构多样性、物理化学多样性、每种药物的组合测试和组合标记熵等因素,一些协同数据集比其他数据集更容易建模。我们模拟这些数据集属性的分布变化,并报告组合标签的药物同质性对建模能力的影响最大($0.16\pm0.06$$\Delta$AUPRC)。我们的研究结果表明,看似高效的药物协同模型可能无法很好地推广到更广泛的医学领域。我们警告说,协同建模社区的努力可能会更好地用于在建模之前严格检查特定数据的人工制品和偏差。
引用本文
相关材料