Consensus, dissensus and synergy between clinicians and specialist foundation models in radiology report generation

Tanno, Ryutaro; Barrett, David G. T.; Sellergren, Andrew; Ghaisas, Sumedh; Dathathri, Sumanth; See, Abigail; Welbl, Johannes; Singhal, Karan; Azizi, Shekoofeh; Tu, Tao; Schaekermann, Mike; May, Rhys; Lee, Roy; Man, SiWai; Ahmed, Zahra; Mahdavi, Sara; Matias, Yossi; Barral, Joelle; Eslami, Ali; Belgrave, Danielle; Natarajan, Vivek; Shetty, Shravya; Kohli, Pushmeet; Huang, Po-Sen; Karthikesalingam, Alan; Ktena, Ira

电气工程与系统科学>图像和视频处理

arXiv:2311.18260（个）

【于2023年11月30日提交(第1版)，上次修订日期：2023年12月20日（本版本，第3版）]

标题：临床医生和专家基金会模型在放射报告生成中的共识、分歧和协同作用

摘要：放射学报告是现代医学的重要组成部分，为诊断和治疗等关键临床决策提供信息。然而，放射科医生在全球范围内的短缺限制了获得专家护理的机会，并增加了繁重的工作量，导致了报告交付中可以避免的错误和延迟。虽然使用视觉语言模型自动生成报告的最新进展为改善这种情况提供了明显的潜力，但评估人工智能生成报告的临床质量的挑战阻碍了现实世界的采用。在这项研究中，我们通过微调一个著名的视觉语言基础模型，构建了一个最先进的胸片报告生成系统$\textit{Flamingo-CXR}$。为了评估人工智能生成的报告的质量，一个由16名合格放射科医生组成的小组对来自美国重症监护室和印度住院患者的人工智能生成和人类书面胸部X光报告进行了详细评估。对于这两个数据集，在超过60$\%$的病例中，至少有一名放射科医生（每个病例中有两名）更喜欢AI报告而不是地面实况报告。在人工智能生成的包含错误的报告子集中，最常被引用的原因与位置和发现有关，而对于人类书面报告，大多数错误与严重性和发现有关。这种差异表明我们的人工智能系统和人类专家之间存在潜在的互补性，促使我们开发一种辅助场景，其中Flamingo-CXR生成第一份报告草稿，随后由临床医生进行修改。这是临床医生与AI合作撰写报告的首次证明，至少有一位放射科医生评估得出的报告与专家单独撰写的80美元住院病例和60美元重症监护病例的报告等效或更可取。

学科：	图像和视频处理（eess.IV）; 计算与语言（cs.CL）；计算机视觉与模式识别（cs.CV）；机器学习（cs.LG）
引用为：	arXiv:2311.18260[第四部分]
	（或 arXiv:2311.18260v3[第四部分]对于此版本）
	https://doi.org/10.44850/arXiv.2311.18260

提交历史记录

发件人：Ryutaro Tanno[查看电子邮件]
[第1版]2023年11月30日星期四05:38:34 UTC（5375 KB）
[版本2]2023年12月6日星期三17:16:07 UTC（5376 KB）
[第3版]2023年12月20日星期三23:08:32 UTC（5639 KB）

电气工程与系统科学>图像和视频处理

标题：临床医生和专家基金会模型在放射报告生成中的共识、分歧和协同作用

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

电气工程与系统科学>图像和视频处理

标题：临床医生和专家基金会模型在放射报告生成中的共识、分歧和协同作用

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目