内政部：10.18653/v1/2020.findings-emnlp.191
语料库ID:222310689

MedICaT：医学图像、字幕和文本参考的数据集

@第{条Subramanian2020MedICaTAD，title={MedICaT:医学图像、标题和文本参考的数据集}，author={桑杰·苏布拉曼尼亚（Sanjay Subramanian）、露西·卢·王（Lucy Lu Wang）、萨钦·梅塔（Sachin Mehta）、本·博金（Ben Bogin）、马德琳·范·祖伦（Madeleine van Zuylen）、斯拉文西·帕拉萨（Sravanthi Parasa）、萨梅尔·辛格，日志={ArXiv}，年份={2020年}，体积={abs/2010.06000}，url={https://api.semanticscholar.org/CorpusID:222310689}}

桑杰·苏布拉曼尼亚语露西·路·王 Hannaneh Hajishirzi公司
出版在里面调查结果 2020年10月12日
医学、计算机科学

使用上下文中的医学图像数据集MedICaT，介绍了复合图形中子图形到子选项的对齐任务，并演示了内联引用在图像-文本匹配中的实用性。

[PDF]语义阅读器

31篇引文

极具影响力的引文

7

11

12

本文图表

话题

MedICaT公司 COntext中的放射对象标题复合图形科学文献理解医学图像图像-文本匹配

询问这篇论文
贝塔
AI供电

我们的系统试图限制本文中找到的信息。结果质量可能有所不同。了解更多信息关于我们如何产生这些答案。

反馈？

PMC-CLIP：使用生物医学文档进行对比语言图像预训练

林伟雄赵子恒谢伟迪

计算机科学、医学

2023

PMC-OA是一个生物医学数据集，包含从PubMedCentral的OpenAccess子集收集的1.6M个图像-选项对，它被构建并发布，比以前大8倍，并在各种下游任务上取得了最先进的结果。

[PDF]（PDF格式）

增加文本上下文大小可提高医学图像与文本的匹配

I.格拉斯伯格汤姆·霍普

计算机科学、医学

2023

这篇简短的技术报告演示了一种简单的技术，它通过训练和释放ClipMD，在医学图像-文本匹配任务中产生最先进的结果，ClipMD-使用简单的滑动窗口技术进行训练，以编码文本标题。

高度影响力

[PDF]（PDF格式）

通过屏蔽建模将医学图像文本映射到关节空间

陈志宏杜玉豪张宗慧

医学、计算机科学

医学图像分析。

2024

视觉和语言模型数值理解的医学视觉文本蕴涵

田中喜美中村尤塔Yuki Chida公司黑泽富也

计算机科学、医学

CLINICALNLP诊所

2023

视觉推理数据集侧重于医学领域中的数值理解，并且仅使用少量数据集进行数据增强，可以提高模型性能，同时保持通用领域中的性能。

医学影像学中的CLIP：一项综合综述

赵子豪刘玉霄沈定刚

医学、计算机科学

2023

这项调查深入探讨了医学成像领域内的CLIP范式，包括改进的CLIP预培训和CLIP驱动的应用，并调查了CLIP预训练在医学领域的适应性。

4

[PDF]（PDF格式）

用于统一医学图像分割的生成性文本引导三维视觉语言预训练

陈银达车流（Che Liu）魏黄程思波（Sibo Cheng）罗塞拉·阿尔库奇熊志伟

医学、计算机科学

2023

用于统一医学图像分割的生成性文本引导三维视觉语言预训练（GTGM），该框架将VLP扩展到三维医学图像，而不依赖成对文本描述，同时绕过成对文本的需要。

[PDF]（PDF格式）

PMC-VQA：医学视觉问题解答的视觉指令调整

张晓曼吴朝义谢伟迪

医学、计算机科学

2023

通过将预训练视觉编码器中的视觉信息与大型语言模型对齐，提出了一种基于生成的医学视觉理解模型，并建立了一条可伸缩的管道来构建大规模医学视觉问题回答数据集。

45

[PDF]（PDF格式）

医学视觉语言理解和生成的多模式预训练：基于新基准的实证研究

李旭刘波（Bo Liu）阿梅尔·哈姆扎·汗鲁凡吴晓明

医学、计算机科学

2023

RadioGraphy Captions（RGC）是一个高质量的多模态射线数据集，包含18434个图像-选项对，这些图像-选项是从一个开放存取的在线数据库MedPix中收集的，它可以作为预训练数据集或新的基准，用于医学报告生成和医学图像-文本检索。

[PDF]（PDF格式）

基于混合语义学习的Sam-Guided增强细粒度编码在医学图像字幕中的应用

Gaaong Wang（王高）张振宇李十堰

计算机科学、医学

ICASSP 2024-2024 IEEE国际会议…

2024

本文提出了一种新的基于分段任意模型（SAM）的医学图像标题提取方法，该方法能够同时提取一般特征和详细特征，并证明了该方法的有效性，因为它在各种评价指标上都优于预训练的BLIP2模型。

1

[PDF]（PDF格式）

生物医学领域预训练语言模型的系统研究

王本友谢倩倩贝佳欢P.蒂瓦里赵丽杰福

计算机科学、医学

ACM计算。Surv公司。

2024

讨论了生物医学领域中PLM的动机，介绍了预训练语言模型的关键概念，提出了现有生物医学PLM的分类方法，从不同角度对其进行了系统分类。

利用远程监督神经网络提取科学图形

诺亚·西格尔尼古拉斯·劳里拉塞尔·帕威尔瓦利德·阿马尔

生物学、计算机科学

2018

本文针对大量科学文献中的图形提取任务，在无需人工干预的情况下，归纳出高质量的训练标签，并使用该数据集训练深度神经网络进行端到端的图形检测，生成了一个与以往工作相比更容易扩展到新领域的模型。

111

[PDF]（PDF格式）

COntext（ROCO）中的放射对象：多模式图像数据集

奥比马·佩尔卡斯文·科特卡约翰内斯·吕克特F.内萨C.弗里德里希

医学、计算机科学

CVII-试验/标签@MICCAI

2018

通过从开放存取的生物医学文献数据库PubMedCentral检索所有图像-选项对，引入了一个新的多模式图像数据集，旨在检测放射图像中视觉元素和语义关系之间的相互作用。

DocFigure：一个用于科学文档图形分类的数据集

K.V.乔宾阿乔伊·蒙达尔C.V.贾瓦哈

计算机科学、材料科学

2019年国际文件会议…

2019

设计了一种基于web的标注工具，该工具能够以最少的人工标注工作量为大量图形有效地分配类别标签，并发现深度特征和深度纹理特征相结合比单个特征更有效地完成文档图形分类任务。

ImageCLEF 2018概览：挑战、数据集和评估

B.伊奥内斯库H.米勒 C.古林

计算机科学

2018

本文概述了ImageCLEF 2018评估活动，有100多个研究小组注册，31个提交了任务结果，显示出人们对这一基准活动的兴趣与日俱增。

VQA-Med：ImageCLEF 2019医学视觉问答任务概述

阿斯玛·本·阿巴查萨迪德·哈桑维维克·达特拉乔伊·刘迪娜·德默尔·福斯曼H.米勒

医学、计算机科学

2019

第二版VQA-Med侧重于四类临床问题：模态、平面、器官系统和异常，并确保可以从图像内容中回答所有问题，而无需额外的医学知识或领域特定推理。

帧图像描述作为排名任务：数据、模型和评估指标

迈卡·霍多什师彼得·扬J.霍肯迈尔

计算机科学

J.人工制品。智力。物件。

2013

这项工作建议将基于句子的图像注释作为对给定字幕库进行排序的任务，并引入了一个新的基准集合，其中包括8000幅图像，每幅图像都与五个不同的字幕配对，这些字幕清楚地描述了突出的实体和事件。

ImageCLEFmed 2019概念检测任务概述

奥比马·佩尔卡C.弗里德里希A.G.S.D.埃雷拉H.米勒

计算机科学、医学

2019

本文描述了ImageCLEF 2019 Concept Detection Task，这是医学字幕任务的第三版，它使用每幅图像计算的F1核，并对所有10000张测试图像进行平均。

ImageNet：大规模分层图像数据库

贾登魏东R.索彻李佳丽李凯（K.Li）李飞飞

计算机科学

2009年IEEE计算机视觉会议…

2009

引入了一个名为“ImageNet”的新数据库，这是一个基于WordNet结构主干的大规模图像本体，其规模和多样性要大得多，并且比当前的图像数据集要精确得多。

Microsoft COCO:上下文中的通用对象

林宗仪梅尔先生 C.L.Zitnick先生

计算机科学

电子对抗车辆

2014

我们提出了一个新的数据集，目的是通过将物体识别问题放在更广泛的场景问题的背景下，来推进物体识别的最新技术…

34,401

[PDF]（PDF格式）

UNITER：学习UNUniversal Image-TExt表征

陈彦君李林杰刘晶晶女士

计算机科学

2019

UNITER是一种UNiversal Image-TExt表示，它是通过对四个图像文本数据集进行大规模预训练而获得的，可以通过联合多模式嵌入来支持异构的下游V+L任务。

[PDF]（PDF格式）