On Modelability and Generalizability: Are Machine Learning Models for Drug Synergy Exploiting Artefacts and Biases in Available Data?

Arushi G. K. Majha; Ian Stott; Andreas Bender

关于可建模性和可泛化性：药物协同作用的机器学习模型是利用现有数据中的人工制品和偏见吗？

Arushi G.K.Majha、Ian Stott、Andreas Bender

计算生物学会议第18届机器学习会议记录，PMLR 240:123-1342024年。

摘要

协同模型是探索药物组合搜索空间和为体外/体内实验确定有希望的子空间的有用工具。在此，我们报告了用于药物协同作用预测建模的训练-验证-测试集中的分布偏差可以解释模型性能中观察到的许多变异性（高达0.22$\Delta$AUPRC）。我们构建了145个分类模型，涵盖从DrugComb中提取的4577种独特药物和75276种成对药物组合，并检查了输入特征和输出标记空间中的虚假相关性。我们假设，由于协同扩散、类别分离、化学结构多样性、物理化学多样性、每种药物的组合测试和组合标记熵等因素，一些协同数据集比其他数据集更容易建模。我们模拟这些数据集属性的分布变化，并报告组合标签的药物同质性对建模能力的影响最大（$0.16\pm0.06$$\Delta$AUPRC）。我们的研究结果表明，看似高效的药物协同模型可能无法很好地推广到更广泛的医学领域。我们警告说，协同建模社区的努力可能会更好地用于在建模之前严格检查特定数据的人工制品和偏差。

引用本文

BibTeX公司

@会议记录{pmlr-v240-majha24a，title={On Modelability and Generalizability:Are Machine Learning Models for Drug Synergy Exploiting Artifacts and Biases in Available Data？}，author={Majha，Arushi G.K.和Stott，Ian和Bender，Andreas}，booktitle={第18届计算生物学机器学习会议论文集}，页数={123--134}，年份={2024}，editor={Knowles，David A.和Mostafavi，Sara}，体积={240}，series={机器学习研究论文集}，月={11月30日-12月1日}，publisher={PMLR}，pdf={https://proceedings.mlr.press/v240/majha24a/majha24a.pdf},url={https://proceedings.mlr.press/v240/majha24a.html},抽象={协同模型是探索药物组合搜索空间和为体外/体内实验确定有希望的子空间的有用工具。在这里，我们报告了用于药物协同预测建模的训练验证测试集中的分布偏差可以解释模型性能中观察到的许多变化（最高0.22$$\Delta$AUPRC）。我们构建了145个分类模型，涵盖从DrugComb中提取的4577种独特药物和75276种成对药物组合，并检查了输入特征和输出标记空间中的虚假相关性。我们假设，由于协同扩散、类别分离、化学结构多样性、物理化学多样性、每种药物的组合测试和组合标记熵等因素，一些协同数据集比其他数据集更容易建模。我们模拟了这些数据集属性的分布变化，并报告了组合标签的药物同质性对建模能力的影响最大（$0.16\pm0.06$$\Delta$AUPRC）。我们的研究结果表明，看似高效的药物协同模型可能无法很好地推广到更广泛的医学领域。我们警告说，协同建模社区的努力可能会更好地用于在建模之前严格检查特定数据的人工制品和偏差。}}

尾注

%0会议论文%关于可建模性和可概括性：药物协同的机器学习模型是否利用了可用数据中的人工制品和偏差？%阿鲁什·G·K·马哈%伊恩·斯托特%安德烈亚斯·本德%计算生物学会议第18届机器学习论文集%C机器学习研究进展%D 2024年%E大卫·A·诺尔斯%E萨拉·穆斯塔法维%对于pmlr-v240-majha24a%我PMLR%第123-134页%U型https://proceedings.mlr.press/v240/majha24a.html%240伏%X Synergy模型是探索药物组合搜索空间和确定体外/体内实验有希望的子空间的有用工具。在此，我们报告了用于药物协同作用预测建模的训练-验证-测试集中的分布偏差可以解释模型性能中观察到的许多变异性（高达0.22$\Delta$AUPRC）。我们构建了145个分类模型，涵盖从DrugComb中提取的4577种独特药物和75276种成对药物组合，并检查了输入特征和输出标记空间中的虚假相关性。我们假设，由于协同扩散、类别分离、化学结构多样性、物理化学多样性、每种药物的组合测试和组合标记熵等因素，一些协同数据集比其他数据集更容易建模。我们模拟这些数据集属性的分布变化，并报告组合标签的药物同质性对建模能力的影响最大（$0.16\pm0.06$$\Delta$AUPRC）。我们的研究结果表明，看似高效的药物协同模型可能无法很好地推广到更广泛的医学领域。我们警告说，协同建模社区的努力可能会更好地用于在建模之前严格检查特定数据的人工制品和偏差。

亚太地区

Majha，A.G.K.、Stott，I.和Bender，A..（2024）。关于可建模性和可泛化性：药物协同作用的机器学习模型是利用现有数据中的人工制品和偏见吗？。计算生物学会议第18届机器学习会议记录，英寸机器学习研究进展240:123-134网址：https://proceedings.mlr.press/v240/majha24a.html。

关于可建模性和可泛化性：药物协同作用的机器学习模型是利用现有数据中的人工制品和偏见吗？

摘要

引用本文

相关材料