计算机科学>机器学习
标题: 电子病历共享基础模型适应性的多中心研究
摘要: 基础模型有望通过提供易于适应下游医疗任务的模块化组件,实现医疗领域人工智能的转型,使人工智能开发更具可扩展性和成本效益。 结构化EHR基础模型以数百万患者的编码病历为基础进行培训,显示了其优点,包括使用更少的培训标签提高了性能,并提高了对分销转移的稳健性。 然而,在不同医院之间共享这些模型的可行性及其在本地任务适应方面的表现仍然存在疑问。 这项多中心研究检查了最近发布的结构化EHR基础模型($FM{SM}$)的适应性,该模型基于来自257万斯坦福医学院患者的纵向病历数据进行训练。 实验使用了The Hospital for Sick Children和MIMIC-IV的EHR数据进行。我们通过对本地数据的持续预训练评估了适应性,并将任务适应性与每个站点从头开始的训练模型基线进行了比较,包括本地基础模型。 我们在8项临床预测任务中评估了这些模型的性能。 在这两个数据集中,采用非现成的$FM_{SM}$与在所有数据上进行本地训练的GBM模型的性能相匹配,同时在没有特定任务训练标签的情况下提高了13%。 随着对本地数据的持续预处理,标签效率大大提高,因此$FM{SM}$需要不到1%的训练示例来匹配经过充分训练的GBM的性能。 持续的预培训也比从头开始培训本地基础模型的效率高60-90%。 我们的研究结果表明,在医院间采用共享EHR基础模型可以以更低的成本提高预测性能,突出了基础模型作为模块化组件的实用性,从而简化了医疗AI的开发。