SciCap+: A Knowledge Augmented Dataset to Study the Challenges of Scientific Figure Captioning

Yang, Zhishen; Dabre, Raj; Tanaka, Hideki; Okazaki, Naoaki

计算机科学>计算机视觉和模式识别

arXiv公司：2306.03491（个）

【于2023年6月6日提交】

职务：SciCap+：一个知识增强的数据集，用于研究科学人物字幕的挑战

作者：杨志深,拉吉·达布雷,田中秀喜,冈崎直明

查看PDF

摘要：在学术文献中，数字为向读者传达科学发现提供了一种直接的方式。自动生成图形标题有助于将对科学文档的模型理解转移到文本之外，并将帮助作者编写信息性标题，以便于交流科学发现。与之前的研究不同，我们将科学图形字幕重新定义为一项知识增强的图像字幕任务，模型需要利用跨模式嵌入的知识来生成字幕。为此，我们将大规模SciCap数据集~\cite{hsu-etal-2021-SciCap-generating}扩展到SciCap+，其中包括注释-图表（提及数字的段落）和OCR标记。然后，我们以M4C-Captioner（一种基于多模式变压器的指针网络模型）作为我们研究的基线进行了实验。我们的结果表明，与只有数字的基线相比，注释-图片作为额外的上下文知识，显著提高了自动标准图像字幕评估分数。人工评估进一步揭示了生成对读者有用的图形标题的挑战。代码和SciCap+数据集将在此https URL

评论：	在AAAI23 SDU研讨会上发布
学科：	计算机视觉和模式识别（cs.CV）; 计算与语言（cs.CL）
引用为：	arXiv公司：2306.03491[cs.CV]
	（或 arXiv:2306.03491v1[cs.CV]对于此版本）
	https://doi.org/10.48550/arXiv.2306.03491

提交历史记录

发件人：Prasanna Raj Noel Dabre[查看电子邮件]
[第1版]2023年6月6日星期二08:16:16 UTC（1339 KB）

全文链接：

访问纸张：

查看许可证

当前浏览上下文：

反恐精英。个人简历

<上一版本 | 下一个>

新的 | 最近的 |2023-06

更改为浏览方式：

反恐精英
反恐精英。氯

参考文献和引文

导出BibTeX引文

计算机科学>计算机视觉和模式识别

职务：SciCap+：一个知识增强的数据集，用于研究科学人物字幕的挑战

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算机视觉和模式识别

职务：SciCap+：一个知识增强的数据集，用于研究科学人物字幕的挑战

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目