MedICaT:医学图像、字幕和文本参考的数据集

@第{条Subramanian2020MedICaTAD,title={MedICaT:医学图像、标题和文本参考的数据集},author={桑杰·苏布拉曼尼亚(Sanjay Subramanian)、露西·卢·王(Lucy Lu Wang)、萨钦·梅塔(Sachin Mehta)、本·博金(Ben Bogin)、马德琳·范·祖伦(Madeleine van Zuylen)、斯拉文西·帕拉萨(Sravanthi Parasa)、萨梅尔·辛格,日志={ArXiv},年份={2020年},体积={abs/2010.06000},url={https://api.semanticscholar.org/CorpusID:222310689}}
使用上下文中的医学图像数据集MedICaT,介绍了复合图形中子图形到子选项的对齐任务,并演示了内联引用在图像-文本匹配中的实用性。

本文图表

询问这篇论文
AI供电

PMC-CLIP:使用生物医学文档进行对比语言图像预训练

PMC-OA是一个生物医学数据集,包含从PubMedCentral的OpenAccess子集收集的1.6M个图像-选项对,它被构建并发布,比以前大8倍,并在各种下游任务上取得了最先进的结果。

增加文本上下文大小可提高医学图像与文本的匹配

这篇简短的技术报告演示了一种简单的技术,它通过训练和释放ClipMD,在医学图像-文本匹配任务中产生最先进的结果,ClipMD-使用简单的滑动窗口技术进行训练,以编码文本标题。

通过屏蔽建模将医学图像文本映射到关节空间

视觉和语言模型数值理解的医学视觉文本蕴涵

视觉推理数据集侧重于医学领域中的数值理解,并且仅使用少量数据集进行数据增强,可以提高模型性能,同时保持通用领域中的性能。

医学影像学中的CLIP:一项综合综述

这项调查深入探讨了医学成像领域内的CLIP范式,包括改进的CLIP预培训和CLIP驱动的应用,并调查了CLIP预训练在医学领域的适应性。

用于统一医学图像分割的生成性文本引导三维视觉语言预训练

用于统一医学图像分割的生成性文本引导三维视觉语言预训练(GTGM),该框架将VLP扩展到三维医学图像,而不依赖成对文本描述,同时绕过成对文本的需要。

PMC-VQA:医学视觉问题解答的视觉指令调整

通过将预训练视觉编码器中的视觉信息与大型语言模型对齐,提出了一种基于生成的医学视觉理解模型,并建立了一条可伸缩的管道来构建大规模医学视觉问题回答数据集。

医学视觉语言理解和生成的多模式预训练:基于新基准的实证研究

RadioGraphy Captions(RGC)是一个高质量的多模态射线数据集,包含18434个图像-选项对,这些图像-选项是从一个开放存取的在线数据库MedPix中收集的,它可以作为预训练数据集或新的基准,用于医学报告生成和医学图像-文本检索。

基于混合语义学习的Sam-Guided增强细粒度编码在医学图像字幕中的应用

本文提出了一种新的基于分段任意模型(SAM)的医学图像标题提取方法,该方法能够同时提取一般特征和详细特征,并证明了该方法的有效性,因为它在各种评价指标上都优于预训练的BLIP2模型。

生物医学领域预训练语言模型的系统研究

讨论了生物医学领域中PLM的动机,介绍了预训练语言模型的关键概念,提出了现有生物医学PLM的分类方法,从不同角度对其进行了系统分类。

利用远程监督神经网络提取科学图形

本文针对大量科学文献中的图形提取任务,在无需人工干预的情况下,归纳出高质量的训练标签,并使用该数据集训练深度神经网络进行端到端的图形检测,生成了一个与以往工作相比更容易扩展到新领域的模型。

COntext(ROCO)中的放射对象:多模式图像数据集

通过从开放存取的生物医学文献数据库PubMedCentral检索所有图像-选项对,引入了一个新的多模式图像数据集,旨在检测放射图像中视觉元素和语义关系之间的相互作用。

DocFigure:一个用于科学文档图形分类的数据集

设计了一种基于web的标注工具,该工具能够以最少的人工标注工作量为大量图形有效地分配类别标签,并发现深度特征和深度纹理特征相结合比单个特征更有效地完成文档图形分类任务。

ImageCLEF 2018概览:挑战、数据集和评估

本文概述了ImageCLEF 2018评估活动,有100多个研究小组注册,31个提交了任务结果,显示出人们对这一基准活动的兴趣与日俱增。

VQA-Med:ImageCLEF 2019医学视觉问答任务概述

第二版VQA-Med侧重于四类临床问题:模态、平面、器官系统和异常,并确保可以从图像内容中回答所有问题,而无需额外的医学知识或领域特定推理。

帧图像描述作为排名任务:数据、模型和评估指标

这项工作建议将基于句子的图像注释作为对给定字幕库进行排序的任务,并引入了一个新的基准集合,其中包括8000幅图像,每幅图像都与五个不同的字幕配对,这些字幕清楚地描述了突出的实体和事件。

ImageCLEFmed 2019概念检测任务概述

本文描述了ImageCLEF 2019 Concept Detection Task,这是医学字幕任务的第三版,它使用每幅图像计算的F1核,并对所有10000张测试图像进行平均。

ImageNet:大规模分层图像数据库

引入了一个名为“ImageNet”的新数据库,这是一个基于WordNet结构主干的大规模图像本体,其规模和多样性要大得多,并且比当前的图像数据集要精确得多。

Microsoft COCO:上下文中的通用对象

我们提出了一个新的数据集,目的是通过将物体识别问题放在更广泛的场景问题的背景下,来推进物体识别的最新技术

UNITER:学习UNUniversal Image-TExt表征

UNITER是一种UNiversal Image-TExt表示,它是通过对四个图像文本数据集进行大规模预训练而获得的,可以通过联合多模式嵌入来支持异构的下游V+L任务。