UniChart: A Universal Vision-language Pretrained Model for Chart Comprehension and Reasoning

Ahmed Masry; Parsa Kavehzadeh; Xuan Long Do; Enamul Hoque; Shafiq Joty

doi:10.18653/v1/2023.emnlp-main.906

U型镍C类哈特：一个用于图表理解和推理的通用视觉语言预训练模型

摘要

图表被广泛用于数据分析，提供对复杂数据的可视化表示和见解。为了方便使用自然语言进行基于图表的数据分析，最近引入了几个下游任务，例如图表问题解答和图表摘要。然而，这些任务的现有方法通常依赖于语言或视觉语言任务的预训练，而忽略了图表结构的显式建模（例如，图表元素如何相互关联）。为了解决这个问题，我们首先构建了一个涵盖不同主题和视觉风格的大型图表库。然后，我们提出了UniChart，一种用于图表理解和推理的预处理模型。UniChart对图表的相关文本、数据和视觉元素进行编码，然后使用基于图表的文本解码器生成文本。我们提出了几个特定于图表的预训练任务，包括：（i）从图表中提取视觉元素（例如，条形图、线条图）和数据的低级任务，以及（ii）获取图表理解和推理技能的高级任务。我们的实验表明，在具有特定图表目标的大型语料库上预训练UniChart，然后进行微调，可以在四个下游任务上获得最先进的性能。此外，我们的模型比看不见的图表语料库具有更好的泛化能力，超过了以前缺乏特定图表目标和利用有限图表资源的方法。

选集ID：: 2023.emnlp-main.906年
体积：: 2023年自然语言处理实证方法会议记录
月份：: 十二月
年份：: 2023
地址：: 新加坡
编辑：: Houda Bouamor公司,胡安·皮诺,卡利卡-巴厘岛
地点：: EMNLP公司
SIG公司：
出版商：: 计算语言学协会
注：
页：: 14662–14684
语言：
网址：: https://aclantology.org/2023.emnlp-main.906
内政部：: 10.18653/v1/2023.emnlp-main.906
比比键：
引用（ACL）：: Ahmed Masry、Parsa Kavehzadeh、Xuan Long Do、Enamul Hoque和Shafiq Joty。2023UniChart：用于图表理解和推理的通用视觉语言预训练模型.英寸2023年自然语言处理实证方法会议记录第14662–14684页，新加坡。计算语言学协会。
引用（非正式）：: UniChart：一种用于图表理解和推理的通用视觉语言预训练模型（Masry等人，EMNLP 2023）
复制引文：
PDF格式：: https://aclantology.org/2023.emnlp-main.906.pdf
视频：: https://aclantology.org/2023.emnlp-main.906.mp4网站

PDF格式引用搜索视频