计算机科学>计算机视觉和模式识别
职务: SciCap+:一个知识增强的数据集,用于研究科学人物字幕的挑战
摘要: 在学术文献中,数字为向读者传达科学发现提供了一种直接的方式。 自动生成图形标题有助于将对科学文档的模型理解转移到文本之外,并将帮助作者编写信息性标题,以便于交流科学发现。 与之前的研究不同,我们将科学图形字幕重新定义为一项知识增强的图像字幕任务,模型需要利用跨模式嵌入的知识来生成字幕。 为此,我们将大规模SciCap数据集~\cite{hsu-etal-2021-SciCap-generating}扩展到SciCap+,其中包括注释-图表(提及数字的段落)和OCR标记。 然后,我们以M4C-Captioner(一种基于多模式变压器的指针网络模型)作为我们研究的基线进行了实验。 我们的结果表明,与只有数字的基线相比,注释-图片作为额外的上下文知识,显著提高了自动标准图像字幕评估分数。 人工评估进一步揭示了生成对读者有用的图形标题的挑战。 代码和SciCap+数据集将在 此https URL