@在过程中{masry-etal-2023-unichart,title=“{U}-ni{C}-hart:一个用于图表理解和推理的通用视觉语言预训练模型”,author=“马斯里、艾哈迈德和卡维扎德、帕萨和是的,宣龙和钩、Enamul和Joty,Shafiq“,editor=“Bouamor、Houda和皮诺、胡安和巴厘岛,卡利卡”,booktitle=“2023年自然语言处理实证方法会议记录”,月=12月,年份=“2023”,address=“新加坡”,publisher=“计算语言学协会”,url=“https://aclantology.org/2023.emnlp-main.906”,doi=“10.18653/v1/2023.emnlp-main.906”,pages=“14662--14684”,摘要=“图表广泛用于数据分析,为复杂数据提供可视化表示和洞察。为了便于使用自然语言进行基于图表的数据分析,最近引入了几个下游任务,如图表问题解答和图表摘要。然而,这些任务的现有方法通常依赖于预处理在语言或视觉语言任务上,忽略了图表结构的显式建模(例如,图表元素如何相互关联)。为了解决这个问题,我们首先构建了一个涵盖不同主题和视觉风格的大型图表库。然后,我们提出了UniChart,一种用于图表理解和推理的预处理模型。UniChart对图表的相关文本、数据和视觉元素进行编码,然后使用基于图表的文本解码器生成文本。我们提出了几个特定于图表的预训练任务,包括:(i)从图表中提取视觉元素(例如,条形图、线条图)和数据的低级任务,以及(ii)获取图表理解和推理技能的高级任务。我们的实验表明,在具有特定图表目标的大型语料库上预训练UniChart,然后进行微调,可以在四个下游任务上获得最先进的性能。此外,我们的模型比看不见的图表语料库具有更好的泛化能力,超过了以前缺乏特定图表目标和利用有限图表资源的方法。",}
<?xml版本=“1.0”编码=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“masry-etal-2023-unichart”><标题信息>UniChart:一个用于图表理解和推理的通用视觉语言预训练模型</titleInfo><name type=“personal”>艾哈迈德马斯里<角色><roleTerm authority=“marcorrator”type=“text”>作者</roleTerm></角色></name><name type=“personal”>Parsa(帕萨)卡维扎德<角色><roleTerm authority=“marcorrator”type=“text”>作者</roleTerm></角色></name><name type=“personal”>宣长<namePart type=“given”>完成<角色><roleTerm authority=“marcorrator”type=“text”>作者</roleTerm></角色></name><name type=“personal”>Enamul激活<namePart type=“family”>霍克</namePart><角色><roleTerm authority=“marcorrator”type=“text”>作者</roleTerm></角色></name><name type=“personal”>Shafiq公司乔蒂<角色><roleTerm authority=“marcorrator”type=“text”>作者</roleTerm></角色></name><originInfo>2023-12发布日期</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>2023年自然语言处理实证方法会议记录</titleInfo><name type=“personal”>侯达布阿莫尔<角色>编辑器</角色></name><name type=“personal”>胡安皮诺<角色>编辑器</角色></name><name type=“personal”>卡利卡语巴厘岛<角色>编辑器</角色></name><originInfo>计算语言学协会<位置>新加坡</place></originInfo>会议出版物</relatedItem>图表广泛用于数据分析,为复杂数据提供可视化表示和洞察。为了方便使用自然语言进行基于图表的数据分析,最近引入了几个下游任务,例如图表问题解答和图表摘要。然而,这些任务的现有方法通常依赖于语言或视觉语言任务的预训练,而忽略了图表结构的显式建模(例如,图表元素如何相互关联)。为了解决这个问题,我们首先建立了一个涵盖不同主题和视觉风格的大型图表语料库。然后,我们提出了UniChart,一种用于图表理解和推理的预处理模型。UniChart对图表的相关文本、数据和视觉元素进行编码,然后使用基于图表的文本解码器生成文本。我们提出了几个特定于图表的预训练任务,包括:(i)从图表中提取视觉元素(例如,条形图、线条图)和数据的低级任务,以及(ii)获取图表理解和推理技能的高级任务。我们的实验表明,在具有特定图表目标的大型语料库上预训练UniChart,然后进行微调,可以在四个下游任务上获得最先进的性能。此外,我们的模型比看不见的图表语料库具有更好的泛化能力,超过了以前缺乏特定图表目标和利用有限图表资源的方法</摘要>masry-etal-2023-unichart10.18653/v1/2023.emnlp-main.906<位置><网址>https://aclantology.org/2023.emnlp-main.906</url></位置><部分>2023-12年<扩展单元=“page”><开始>14662</开始>14684年</范围></部分></mods></mods集合>
%0会议记录%T UniChart:一种用于图表理解和推理的通用视觉语言预训练模型%艾哈迈德·马斯里%帕萨·卡维扎德%A Do,宣龙%一个钩,Enamul%A Joty,沙菲克%Y Bouamor,Houda公司%胡安·皮诺%Y巴厘岛,卡利卡%2023年自然语言处理实证方法会议论文集%D 2023年%12月8日%计算语言学协会%C新加坡%F masry-etal-2023-unichart公司%X图表广泛用于数据分析,提供对复杂数据的可视化表示和见解。为了方便使用自然语言进行基于图表的数据分析,最近引入了几个下游任务,例如图表问题解答和图表摘要。然而,这些任务的现有方法通常依赖于语言或视觉语言任务的预训练,忽略了图表结构的显式建模(例如,图表元素如何相互关联)。为了解决这个问题,我们首先构建了一个涵盖不同主题和视觉风格的大型图表库。然后,我们提出了UniChart,一种用于图表理解和推理的预处理模型。UniChart对图表的相关文本、数据和视觉元素进行编码,然后使用基于图表的文本解码器生成文本。我们提出了几个特定于图表的预训练任务,包括:(i)从图表中提取视觉元素(例如,条形图、线条图)和数据的低级任务,以及(ii)获取图表理解和推理技能的高级任务。我们的实验表明,在具有特定图表目标的大型语料库上预训练UniChart,然后进行微调,可以在四个下游任务上获得最先进的性能。此外,我们的模型比看不见的图表语料库具有更好的泛化能力,超过了以前缺乏特定图表目标和利用有限图表资源的方法。%10.18653/v1/2023.emnlp-main.906兰特%U型https://acl选集.org/2023.emnlp-main.906%U型https://doi.org/10.18653/v1/2023.emnlp-main.906%电话14662-14684
降价(非正式)
[UniChart:用于图表理解和推理的通用视觉语言预训练模型](https://aclantology.org/2023.emnlp-main.906)(Masry等人,EMNLP 2023)
国际计算语言学协会