研究论文

变形Sg2im：：具有可变形几何布局的基于场景图的多实例图像生成

作者:

宁 Ge公司、和

建华卢作者信息和声明

体积558,问题C类

https://doi.org/10.1016/j.neucom.2023.126684

出版:2023年11月14日出版历史

摘要

近年来，基于场景图的图像生成已成为高级多实例生成任务的一个重要研究方向。场景布局生成是生成实例可视表示并维护所有实例之间空间关系的阶段，在将场景图形转换为图像时至关重要。然而，现有方法生成的场景布局过于粗糙，与给定的场景图语义不一致，导致生成的图像质量下降。基于此，我们提出了一种新的基于场景图的图像生成模型DeformSg2im，该模型旨在根据给定的场景图生成具有视觉吸引力和语义忠实性的图像。我们的方法从两个方面解决了上述问题。在一个方面，我们提出了一种基于注意的实例嵌入估计器来细化每个实例的形状信息。通过将注意力图引入到实例嵌入的估计中，我们的方法能够在图像上生成具有尖锐边缘的更合理的实例。另一方面，提出了一种空间扭曲网络（SWN）来自适应地捕获实例之间的空间相关性。通过顺序建模和几何变形，SWN能够生成符合给定场景图的场景布局。大量实验表明，我们的模型生成的图像具有较高的视觉质量，与现有作品相比，获得了具有竞争力的定量结果。对提出的模块进行了烧蚀研究，结果证明了我们方法的有效性。

工具书类

[1]

J.Johnson，R.Krishna，M.Stark，L.-J.Li，D.Shamma，M.Bernstein，F.-F.Li，使用场景图进行图像检索，收录于：IEEE计算机视觉和模式识别会议论文集，2015年，第3668–3678页。

[2]

M.Qi，Y.Wang，A.Li，基于二进制表示和语义图的在线跨模式场景检索，载于：《第25届ACM国际多媒体会议论文集》，2017年，第744-752页。

[3]

Ghosh S.、Burachas G.、Ray A.、Ziskind A.、。，使用场景图和视觉注意力生成可视化问答的自然语言解释，2019，arXiv预印本arXiv:1902.05715.

[4]

杨忠、秦忠、于杰、胡毅、。，基于先验视觉关系的场景图推理可视化问答，2018，arXiv预印本arXiv公司：1812.09681.

[5]

B.Dai，Y.Zhang，D.Lin，《用深层关系网络检测视觉关系》，载于《IEEE计算机视觉和模式识别会议论文集》，2017年，第3076–3086页。

[6]

Y.Li，W.Ouyang，B.Zhou，J.Shi，C.Zhang，X.Wang，可分解网络：一种高效的基于子图的场景图生成框架，摘自：《2018年欧洲计算机视觉会议论文集》，第335–351页。

[7]

Lyu F.、Feng W.、Wang S.、vtGraphNet：学习弱监督场景图以实现复杂的视觉基础，神经计算413 (2020) 51–60.

[8]

J.Johnson，A.Gupta，F.-F.Li，从场景图生成图像，收录于《IEEE计算机视觉和模式识别会议论文集》，2018年，第1219-1228页。

[9]

A.Talavera，D.S.Tan，A.Azcarraga，K.-L.Hua，用场景图进行图像合成的布局和上下文理解，收录于：IEEE国际图像处理会议，2019年，第1905-1909页。

[10]

O.Ashual，L.Wolf，《在交互式场景生成中指定对象属性和关系》，收录于：2019年IEEE计算机视觉国际会议论文集，第4561-4569页。

[11]

Henaff M.、Bruna J.、LeCun Y.、。，图结构数据上的深度卷积网络，2015，arXiv预印本arXiv公司：1506.05163.

[12]

H.Dhamo，F.Manhardt，N.Navab，F.Tombari，Graph-to-3D：使用场景图的3D场景的端到端生成和操作，载于：IEEE国际计算机视觉会议论文集，2021，第16352–16361页。

[13]

T.Hua，H.Zheng，Y.Bai，W.Zhang，X.-P.Zhanng，T.Mei，利用关系生成复杂场景图像，收录于：AAAI人工智能会议论文集，2021年，第1584-1592页。

[14]

M.Ivgi，Y.Benny，A.Ben-David，J.Berant，L.Wolf，使用上下文化对象布局优化生成图像的场景图，收录于：IEEE图像处理国际会议，2021年，第2428-2432页。

[15]

王振中，李彦，黄德华，罗彦，葛南杰，卢军，基于场景图的可变形几何语义重建，收录于：IEEE全球通信会议，2021年，第1-6页。

[16]

Kingma D.P.、Welling M.、。，自动编码变分贝叶斯，2013，arXiv预印本arXiv:1312.6114.

[17]

Goodfellow I.J.、Pouget-Abadie J.、Mirza M.、Xu B.、Warde-Farley D.、Ozair S.、Courville A.、Bengio Y。，生成性对抗网络，2014，arXiv预印本arXiv:1406.2661.

数字图书馆

[18]

Y.Li，T.Ma，Y.Bai，N.Duan，S.Wei，X.Wang，Pastegan:从场景图生成图像的半参数方法，收录于：神经信息处理系统进展，2019年，第3948–3958页。

[19]

H.Dhamo，A.Farshad，I.Laina，N.Navab，G.D.Hager，F.Tombari，C.Rupprecht，《使用场景图的语义图像操作》，收录于：《IEEE计算机视觉和模式识别会议论文集》，2020年，第5213–5222页。

[20]

Simonyan K.、Zisserman A.、。，用于大规模图像识别的超深卷积网络，2014，arXiv预印本arXiv:1409.1556.

[21]

R.Herzig，A.Bar，H.Xu，G.Chechik，T.Darrell，A.Globerson，《学习场景图形到图像生成的规范表示法》，收录于：《2020年欧洲计算机视觉会议论文集》，第210-227页。

[22]

Jaderberg M.、Simonyan K.、Zisserman A.、Kavukcuoglu K。，空间变压器网络，2015，arXiv预印本arXiv：1506.02025年.

[23]

G.E.Hinton、A.Krizhevsky、S.D.Wang，《改造自动编码器》，摘自：2011年国际人工神经网络会议，第44-51页。

[24]

J.Chen，L.Wang，X.Li，Y.Fang，Arbicon-net：用于图像配准的任意连续几何变换网络，摘自：《神经信息处理系统进展》，2019年，第3415-3425页。

[25]

宋华，邱鹏，基于强度的三维局部图像配准，模式识别。莱特。94 (2017) 15–21.

[26]

B.-C.Chen，A.Kae，《走向对抗性学习的真实图像合成》，载于《IEEE计算机视觉和模式识别会议论文集》，2019年，第8415–8424页。

[27]

C.-H.Lin、E.Yumer、O.Wang、E.Shechtman、S.Lucey、ST-GAN：用于图像合成的空间变压器生成对抗网络，摘自：IEEE计算机视觉和模式识别会议论文集，2018年，第9455–9464页。

[28]

Bookstein F.，《主翘曲：薄板样条和变形分解》，IEEE传输。模式分析。机器。智力。11 (1989) 567–585.

数字图书馆

[29]

B.Shi，X.Wang，P.Lyu，C.Yao，X.Bai，带自动校正的鲁棒场景文本识别，摘自：IEEE计算机视觉和模式识别会议论文集，2016年，第4168–4176页。

[30]

H.Yang，R.Zhang，X.Guo，W.Liu，W.Zuo，P.Luo，通过自适应生成保留图像内容实现照片真实感虚拟试验，收录于：IEEE计算机视觉和模式识别会议论文集，2020年，第7850–7859页。

[31]

X.Shi，Z.Chen，H.Wang，D.-Y.Yeung，W.-K.Wong，W.-c.Woo，卷积LSTM网络：降水预报的机器学习方法，收录于：神经信息处理系统进展，2015年，第802-810页。

[32]

Hochreiter S.，Schmidhuber J.，长期短期记忆，神经计算。9 (1997) 1735–1780.

数字图书馆

[33]

Mirza M.、Osindero S.、。，条件生成对抗网，2014，arXiv预印本arXiv公司：1411.1784.

[34]

H.Caesar，J.Uijlings，V.Ferrari，COCO-Stuff：上下文中的事物类，摘自：IEEE计算机视觉和模式识别会议记录，2018年，第1209-1218页。

[35]

Krishna R.、Zhu Y.、Groth O.、Johnson J.、Hata K.、Kravitz J.、Chen S.、Kalantidis Y.、Li L.-J、Shamma D.A.等人，《视觉基因组：使用众包密集图像注释连接语言和视觉》，国际期刊计算。视觉。123 (2017) 32–73.

数字图书馆

[36]

T.Salimans，I.Goodfellow，W.Zaremba，V.Cheung，A.Radford，X.Chen，《培训机构的改进技术》，摘自：《神经信息处理系统的进展》，2016年，第2234–2242页。

[37]

Heusel M.，Ramsauer H.，Unterthiner T.，Nessler B.，Hochreiter S.，由两个时间尺度更新规则训练的Gans收敛到局部nash均衡，in：神经信息处理系统研究进展2017年，第6626–6637页。

[38]

Barratt S.、Sharma R.、。，关于初始分数的注释2018年arXiv预印本arXiv:1801.01973年.

[39]

Vaserstein法律公告，空间可数乘积上的马尔可夫过程，描述大型自动机系统，问题。Peredachi公司。5 (1969) 64–72.

[40]

C.Szegedy，V.Vanhoucke，S.Ioffe，J.Shlens，Z.Wojna，《重新思考计算机视觉的初始架构》，收录于：IEEE计算机视觉和模式识别会议记录，2016年，第2818–2826页。

[41]

J.Deng、W.Dong、R.Socher、L.-J.Li、K.Li、F.-F.Li，ImageNet:大型分层图像数据库，收录于：IEEE计算机视觉和模式识别会议论文集，2009年，第248-255页。

[42]

A.Paszke、S.Gross、F.Massa、A.Lerer、J.Bradbury、G.Chanan、T.Killeen、Z.Lin、N.Gimelshein、L.Antiga等人，《Pytorch:一种命令式、高性能的深度学习库》，收录于：《神经信息处理系统进展》，2019年，第8026–8037页。

[43]

P.Isola，J.-Y.Zhu，T.Zhou，A.A.Efros，带条件对抗网络的图像到图像转换，收录于：IEEE计算机视觉和模式识别会议论文集，2017年，第1125-1134页。

[44]

H.Zhang，T.Xu，H.Li，S.Zhangs，X.Wang，X.Huang，D.Metaxas，StackGAN:使用堆叠生成对抗网络进行文本到照片真实感图像合成，收录于：IEEE计算机视觉国际会议论文集，2017年，第5907–5915页。

[45]

B.Zhao，L.Meng，W.Yin，L.Sigal，从布局生成图像，收录于：IEEE计算机视觉和模式识别会议论文集，2019年，第8584–8593页。

索引术语

DeformSg2im：使用可变形几何布局基于场景图的多实例图像生成
1. 计算方法
  1. 人工智能
    1. 计算机视觉
      1. 计算机视觉问题
  2. 计算机图形

索引项已通过自动分类分配给内容。

建议

使用场景图的轻量级可视问题解答
CIKM’21：第30届ACM信息与知识管理国际会议论文集

视觉问答（VQA）是机器感知中的一个具有挑战性的问题，需要对视觉数据和文本数据进行深入的联合理解。最近的研究推动了从图像中自动生成高质量场景图。。。
阅读更多信息
用于网格变形的交互式框架生成
I3D’17：第21届ACM SIGGRAPH交互式3D图形和游戏研讨会会议记录

以前的许多工作都集中在生成保持架变形的最佳坐标上；三维模型的框架生成研究相对较少。我们介绍了一种高效的完整管道，用于生成高质量的三维模型保持架，其中包括。。。
阅读更多信息
具有几何变形的结构化图像的非盲去模糊

非盲反褶积是图像去模糊的一个基本步骤，它是在已知模糊核的情况下恢复给定模糊图像的锐化版本。。。
阅读更多信息

评论

信息和贡献者

问询处

发布时间

封面图像神经计算

神经计算第558卷，C期

2023年11月

322页

国际标准编号：0925-2312

版权所有©2023。

出版商

爱思唯尔科学出版社。

荷兰

出版历史

出版：2023年11月14日

作者标记

限定符

研究文章

贡献者

其他指标

查看文章指标

文献计量学和引文

文献计量学

文章指标

0
引文总数
0
总下载次数

下载次数（过去12个月）0
下载次数（最近6周）0

其他指标

查看作者指标

引文

视图选项

查看选项

获取访问权限

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

媒体

数字

其他

桌子

查看问题目录