U型C类哈特:一个用于图表理解和推理的通用视觉语言预训练模型

艾哈迈德·马斯里,帕萨·卡韦扎德,宣龙道,Enamul钩,沙菲克·乔蒂


摘要
图表被广泛用于数据分析,提供对复杂数据的可视化表示和见解。为了方便使用自然语言进行基于图表的数据分析,最近引入了几个下游任务,例如图表问题解答和图表摘要。然而,这些任务的现有方法通常依赖于语言或视觉语言任务的预训练,而忽略了图表结构的显式建模(例如,图表元素如何相互关联)。为了解决这个问题,我们首先构建了一个涵盖不同主题和视觉风格的大型图表库。然后,我们提出了UniChart,一种用于图表理解和推理的预处理模型。UniChart对图表的相关文本、数据和视觉元素进行编码,然后使用基于图表的文本解码器生成文本。我们提出了几个特定于图表的预训练任务,包括:(i)从图表中提取视觉元素(例如,条形图、线条图)和数据的低级任务,以及(ii)获取图表理解和推理技能的高级任务。我们的实验表明,在具有特定图表目标的大型语料库上预训练UniChart,然后进行微调,可以在四个下游任务上获得最先进的性能。此外,我们的模型比看不见的图表语料库具有更好的泛化能力,超过了以前缺乏特定图表目标和利用有限图表资源的方法。
选集ID:
2023.emnlp-main.906年
体积:
2023年自然语言处理实证方法会议记录
月份:
十二月
年份:
2023
地址:
新加坡
编辑:
Houda Bouamor公司,胡安·皮诺,卡利卡-巴厘岛
地点:
EMNLP公司
SIG公司:
出版商:
计算语言学协会
注:
页:
14662–14684
语言:
网址:
https://aclantology.org/2023.emnlp-main.906
内政部:
10.18653/v1/2023.emnlp-main.906
比比键:
引用(ACL):
Ahmed Masry、Parsa Kavehzadeh、Xuan Long Do、Enamul Hoque和Shafiq Joty。2023UniChart:用于图表理解和推理的通用视觉语言预训练模型.英寸2023年自然语言处理实证方法会议记录第14662–14684页,新加坡。计算语言学协会。
引用(非正式):
UniChart:一种用于图表理解和推理的通用视觉语言预训练模型(Masry等人,EMNLP 2023)
复制引文:
PDF格式:
https://aclantology.org/2023.emnlp-main.906.pdf
视频:
 https://aclantology.org/2023.emnlp-main.906.mp4网站