A Multi-Center Study on the Adaptability of a Shared Foundation Model for Electronic Health Records

Guo, Lin Lawrence; Fries, Jason; Steinberg, Ethan; Fleming, Scott Lanyon; Morse, Keith; Aftandilian, Catherine; Posada, Jose; Shah, Nigam; Sung, Lillian

计算机科学>机器学习

arXiv:2311.11483（cs）

【于2023年11月20日提交(第1版)，上次修订日期：2024年4月23日（本版本，v2）]

标题：电子病历共享基础模型适应性的多中心研究

作者：林·劳伦斯·郭,杰森·弗里斯,伊桑·斯坦伯格,斯科特·兰扬·弗莱明,基思·莫尔斯,凯瑟琳·阿夫坦迪利安,何塞·波萨达,尼甘·沙阿,宋丽莲

查看PDF

摘要：基础模型有望通过提供易于适应下游医疗任务的模块化组件，实现医疗领域人工智能的转型，使人工智能开发更具可扩展性和成本效益。结构化EHR基础模型以数百万患者的编码病历为基础进行培训，显示了其优点，包括使用更少的培训标签提高了性能，并提高了对分销转移的稳健性。然而，在不同医院之间共享这些模型的可行性及其在本地任务适应方面的表现仍然存在疑问。这项多中心研究检查了最近发布的结构化EHR基础模型（$FM{SM}$）的适应性，该模型基于来自257万斯坦福医学院患者的纵向病历数据进行训练。实验使用了The Hospital for Sick Children和MIMIC-IV的EHR数据进行。我们通过对本地数据的持续预训练评估了适应性，并将任务适应性与每个站点从头开始的训练模型基线进行了比较，包括本地基础模型。我们在8项临床预测任务中评估了这些模型的性能。在这两个数据集中，采用非现成的$FM_{SM}$与在所有数据上进行本地训练的GBM模型的性能相匹配，同时在没有特定任务训练标签的情况下提高了13%。随着对本地数据的持续预处理，标签效率大大提高，因此$FM{SM}$需要不到1%的训练示例来匹配经过充分训练的GBM的性能。持续的预培训也比从头开始培训本地基础模型的效率高60-90%。我们的研究结果表明，在医院间采用共享EHR基础模型可以以更低的成本提高预测性能，突出了基础模型作为模块化组件的实用性，从而简化了医疗AI的开发。

评论：	46页，5张图，3张表，14个附录
学科：	机器学习（cs.LG）; 人工智能（cs.AI）
引用为：	arXiv:2311.11483【cs.LG】
	（或 arXiv:2311.11483v2【cs.LG】对于此版本）
	https://doi.org/10.48550/arXiv.2311.11483

提交历史记录

发件人：Lin Lawrence Guo[查看电子邮件]
[第1版]2023年11月20日星期一01:58:27 UTC（2348 KB）
[版本2]2024年4月23日星期二00:51:03 UTC（2779 KB）

计算机科学>机器学习

标题：电子病历共享基础模型适应性的多中心研究

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>机器学习

标题：电子病历共享基础模型适应性的多中心研究

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目