Granularity Matters: Pathological Graph-driven Cross-modal Alignment for Brain CT Report Generation

Yanzhao Shi; Junzhong Ji; Xiaodan Zhang; Liangqiong Qu; Ying Liu

doi:10.18653/v1/2023.emnlp-main.408

粒度问题：病理图驱动的大脑跨模态比对计算机断层扫描报告生成

摘要

脑CT报告的自动生成可以提高颅脑疾病诊断的效率和准确性。然而，当前的方法受到以下限制：1）粗粒度监督：图像-文本格式的训练数据缺乏识别细微异常的详细监督；2）耦合跨模式对齐：视觉-文本对齐可能不可避免地以粗粒度方式耦合，导致报告生成的复杂特征表示。在这篇文章中，我们提出了一种新的病理图驱动的交叉模式对齐（PGCA）模型，用于准确和稳健的脑部CT报告生成。我们的方法通过构建病理图来学习细粒度的视觉线索并将其与文本单词对齐，从而有效地解耦了跨模式对齐。该图由表示基本病理属性（即组织和病变）的异质节点组成，这些基本病理属性通过属性内和属性间边缘与先验领域知识相连接。通过精心设计的图形嵌入和更新模块，我们的模型细化了细微组织和病变的视觉特征，并使用对比学习将其与文本单词对齐。大量实验结果证实了我们方法的可行性。我们相信，我们的PGCA模型有潜力极大地提高脑部CT报告的自动生成，并最终有助于改进颅骨疾病的诊断。

选集ID：: 2023.emnlp-main.408年
体积：: 2023年自然语言处理实证方法会议记录
月份：: 十二月
年份：: 2023
地址：: 新加坡
编辑：: Houda Bouamor公司,胡安·皮诺,卡利卡-巴厘岛
地点：: EMNLP公司
SIG公司：
出版商：: 计算语言学协会
注：
页：: 6617–6630
语言：
网址：: https://aclantology.org/2023.emnlp-main.408
内政部：: 10.18653/v1/2023.emnlp-main.408
双钥匙：
引用（ACL）：: 史燕钊、季俊中、张晓丹、瞿良琼、刘颖。2023粒度问题：用于脑CT报告生成的病理图驱动的交叉模式对齐.英寸2023年自然语言处理实证方法会议记录，第6617–6630页，新加坡。计算语言学协会。
引用（非正式）：: 粒度问题：用于脑CT报告生成的病理图驱动的交叉模式对齐（Shi等人，EMNLP 2023）
复制引文：
PDF格式：: https://aclantology.org/2023.emnlp-main.408.pdf
视频：: https://aclantology.org/2023.emnlp-main.408.mp4网站

PDF格式引用搜索视频