@正在进行{ng-etal-2021理解,title=“了解跨域的引导式图像字幕性能”,author=“Ng、Edwin G.和庞、波和Sharma、Piyush和拉杜·索里克特”,editor=“比萨扎、阿里安娜和阿本德,奥姆里“,booktitle=“第25届计算自然语言学习会议记录”,月=11月,年=“2021”,address=“在线”,publisher=“计算语言学协会”,url=“https://aclantology.org/2021.conll-1.14”,doi=“10.18653/v1/2021.conll-1.14”,pages=“183--193”,抽象=“图像字幕模型通常缺乏考虑用户兴趣的能力,通常默认为全局描述,以平衡可读性、信息性和信息过载。我们提出了一种基于Transformer的模型,它能够通过p生成针对图像中特定对象、概念或动作的字幕将它们作为模型的指导文本。此外,我们还评估了这些指导性字幕在概念性字幕上的质量,概念性字幕包含3.3M个图像级字幕,而视觉基因组包含3.6M个对象级字幕。相反,我们发现,经过概念性字幕训练的模型生成的引导性字幕对域外数据的概括效果更好。我们的人性化评估结果表明,尝试在野外引导图像字幕需要访问大型的、无限制的域训练数据集,并且风格多样性的增加(即使不增加唯一标记的数量)是提高性能的关键因素。",}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“网址:http://www.loc.gov/mods/v3"><mods ID=“ng-etal-2021理解”><标题信息><title>了解引导式图像字幕跨域性能</title></titleInfo><name type=“personal”>埃德温<namePart type=“given”>G</namePart>Ng<角色>作者</角色></name><name type=“personal”><namePart type=“given”>Bo</namePart><namePart type=“family”>庞</namePart><角色>作者</角色></name><name type=“personal”>皮尤什语Sharma(Sharma)<角色>作者</角色></name><name type=“personal”>半径酸辣酱<角色>作者</角色></name><originInfo>发布日期:2021-11发布日期:</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>第25届计算自然语言学习会议记录</titleInfo><name type=“personal”>阿里安娜<namePart type=“family”>Bisazza</namePart><角色>编辑器</角色></name><name type=“personal”>欧姆里Abend(阿本德)<角色>编辑器</角色></name><originInfo>计算语言学协会<位置>在线</place></originInfo>会议出版物</relatedItem>图像字幕模型通常缺乏考虑用户兴趣的能力,通常默认为全局描述,以平衡可读性、信息性和信息过载。我们提出了一个基于Transformer的模型,通过将其作为模型的指导文本,该模型能够生成针对图像中特定对象、概念或动作的标题。此外,我们还评估了这些指导性字幕在概念性字幕上的质量,概念性字幕包含3.3M个图像级字幕,而视觉基因组包含3.6M个对象级字幕。相反,我们发现,经过概念性字幕训练的模型生成的引导性字幕对域外数据的概括效果更好。我们的人性化评估结果表明,尝试在野外引导图像字幕需要访问大型的、无限制的域训练数据集,并且风格多样性的增加(即使不增加唯一标记的数量)是提高性能的关键因素</摘要>理解ng-etal-202110.18653/v1/2021.conll-1.14<位置><网址>https://aclantology.org/2021.coll-1.14</url></位置><部分>2021-11年<扩展单元=“page”><开始>183193年</范围></部分></模块></modsCollection>
%0会议记录%T了解跨域的引导式图像字幕性能%A Ng、Edwin G。%阿庞,博%A Sharma,皮尤什%拉杜·A Soricut%阿里安娜·比萨扎%奥姆里·阿本德%第25届计算自然语言学习会议论文集%D 2021年%11月8日%计算语言学协会%C在线%Fng-etal-2021理解%X图像字幕模型通常缺乏考虑用户兴趣的能力,通常默认为全局描述,以平衡可读性、信息性和信息过载。我们提出了一个基于Transformer的模型,通过将其作为模型的指导文本,该模型能够生成针对图像中特定对象、概念或动作的标题。此外,我们还评估了这些指导性字幕在概念性字幕上的质量,概念性字幕包含3.3M个图像级字幕,而视觉基因组包含3.6M个对象级字幕。相反,我们发现,经过概念性字幕训练的模型生成的引导性字幕对域外数据的概括效果更好。我们的人性化评估结果表明,尝试在野外引导图像字幕需要访问大型的、无限制的域训练数据集,并且风格多样性的增加(即使不增加唯一标记的数量)是提高性能的关键因素。%R 10.18653/v1/2021.coll-1.14%U型https://aclantology.org/2021.coll-1.14%U型https://doi.org/10.18653/v1/2021.coll-1.14%第183-193页
降价(非正式)
[了解跨域的引导式图像字幕性能](https://aclantology.org/2021.coll-1.14)(Ng等人,CoNLL 2021)
国际计算语言学协会
- Edwin G.Ng、Bo Pang、Piyush Sharma和Radu Soricut。2021了解跨域的引导式图像字幕性能.英寸第25届计算自然语言学习会议记录,第183-193页,在线。计算语言学协会。