短纸

基于对象语义推理和注意机制的关系检测

作者：
张亮

西安西电大学，上海BNC，中国陕西西安

西安西电大学，上海BNC，中国陕西西安
查看个人资料

,
张帅（Shuai Zhang）

西安西安西电大学

西安西安西电大学
查看个人资料

,
沈培一

西安西安西电大学

西安西电大学，中国陕西省西安市
查看个人资料

,
朱光明

西安西安西电大学

西安西安西电大学
查看个人资料

,
赛义德·阿法克·阿里·沙阿

澳大利亚珀斯默多克大学

澳大利亚珀斯默多克大学
查看个人资料

,
穆罕默德·本纳蒙

澳大利亚珀斯西澳大利亚大学

澳大利亚珀斯西澳大利亚大学
查看个人资料

作者信息和声明

ICMR’19：2019年国际多媒体检索会议记录2019年6月第68–72页https://doi.org/10.1145/3323873.3325025

出版：2019年6月5日出版历史

ICMR’19：2019年国际多媒体检索会议记录

第68–72页

摘要

检测物体之间的关系是图像理解的关键任务。然而，每个关系都涉及不同的对象对组合，不同的对象组合表示不同的交互。这使得基于视觉特征的关系成为一项具有挑战性的任务。本文提出了一种简单有效的关系检测模型，该模型基于对象语义推理和注意机制。我们的模型被训练来检测关系三元组，如<人骑马>、<马、携带、袋子>。为了克服视觉外观的高度多样性，将语义推理模块与视觉特征相结合以实现互补。我们还介绍了两种不同的注意机制，用于对象特征精化和短语特征精化。为了获得每个对象的更详细和全面的表示，对象特征细化模块通过查询图像中的所有其他对象来细化每个对象的表示。为了使短语特征更加有效，并自动聚焦于相关部分，从而改进视觉关系检测任务，提出了短语特征细化模块。我们在可视化基因组关系数据集上验证了我们的模型。与最先进的方法MOTIFNET相比，我们提出的模型取得了具有竞争力的结果。

工具书类

Joao Carreira、Rui Caseiro、Jorge Batista和Cristian Sminchisescu。2012.具有二阶池的语义分割。在欧洲计算机视觉会议上。施普林格，430-443。谷歌学者数字图书馆
Bo Dai、Yuqi Zhang和Dahua Lin.2017年。用深层关系网络检测视觉关系。会议记录-第30届IEEE计算机视觉和模式识别会议，CVPR 2017，卷2017-Janua（2017），3298-3308。arxiv:1704.03114号谷歌学者交叉引用
J.Johnson、R.Krishna、M.Stark、L.Li、D.A.Shamma、M.S.Bernstein和L.Fei-Fei。2015.使用场景图进行图像检索。2015年IEEE计算机视觉和模式识别会议（CVPR），第00卷。3668年至3678年。谷歌学者
安德烈·卡佩西和李飞飞。2015.生成图像描述的深度视觉语义对齐。2015年IEEE计算机视觉和模式识别会议（CVPR）（2015），3128-3137。谷歌学者
Alexander Kolesnikov、Christoph H.Lampert和Vittorio Ferrari，2018年。使用方框注意检测视觉关系。CoRR，第abs/1807.02136卷（2018年）。谷歌学者
Ranjay Krishna、Yuke Zhu、Oliver Groth、Justin Johnson、Kenji Hata、Joshua Kravitz、Stephanie Chen、Yannis Kalandis、Li-Jia Li、David A Shamma等。2017.视觉基因组：使用众包密集图像注释连接语言和视觉。《国际计算机视觉杂志》，第123卷，第1期（2017年），第32-73页。谷歌学者数字图书馆
李一康、欧阳万丽、王晓刚和唐晓鸥。2017年a。ViP-CNN：视觉短语引导卷积神经网络。第30届IEEE计算机视觉和模式识别会议论文集，CVPR 2017，第2017-Janua（2017）卷，7244-7253。arxiv公司：1702.07191谷歌学者交叉引用
李一康、欧阳万里、周伯雷、崔亚文、石建平和王晓刚。2018.可分解网络：一种高效的基于子图的场景图生成框架。CoRR，第abs/1806.11538卷（2018年）。arxiv:1806.11538年http://arxiv.org/abs/1806.11538谷歌学者
李一康、欧阳万丽、周伯雷、王坤和王晓刚。2017年b月。从对象、短语和区域标题生成场景图形。IEEE计算机视觉国际会议论文集，2017年10月（2017），1270--1279。arxiv公司：1707.09700谷歌学者
梁晓丹（Xiaodan Liang）、李丽莎（Lisa Lee）和埃里克（Eric P.Xing）。2017.用于视觉关系和属性检测的深度变量结构强化学习。会议记录-第30届IEEE计算机视觉和模式识别会议，CVPR 2017，卷2017-Janua，1（2017），4408-4417。arxiv公司：1703.03054谷歌学者
廖文彤、林帅、博多·罗森哈恩和迈克尔·杨颖。2017.自然语言引导的视觉关系检测。CoRR，卷abs/1711.06032（2017）。谷歌学者
林大华、桑贾·菲德勒、陈空和拉奎尔·乌尔塔森。2014.视觉语义搜索：通过复杂的文本查询检索视频。IEEE计算机学会计算机视觉和模式识别会议记录（2014），2657-2664。谷歌学者数字图书馆
卢策武（Cewu Lu）、兰杰·克里希纳（Ranjay Krishna）、迈克尔·S·伯恩斯坦（Michael S.Bernstein）和李飞飞（Fei-Fei Li），2016年。基于语言先验的视觉关系检测。CoRR，卷abs/1608.00187（2016），852--869。arxiv:1608.00187号http://arxiv.org/abs/1608.00187谷歌学者
托马斯·米科洛夫（Tomas Mikolov）、陈凯（Kai Chen）、格雷格·科拉多（Greg Corrado）和杰弗里·迪恩（Jeffrey Dean）。2013.向量空间中单词表示的有效估计。CoRR，第abs/1301.3781卷（2013年）。arxiv公司：1301.3781http://arxiv.org/abs/1301.3781谷歌学者
亚历杭德罗·纽厄尔和贾登。2017.通过关联嵌入将像素转换为图形。神经信息处理系统进展。2171--2180.谷歌学者
杰弗里·彭宁顿（Jeffrey Pennington）、理查德·索彻（Richard Socher）和克里斯托弗·曼宁（Christopher D.Manning）。2014.GlobVe：单词表示的全球向量。自然语言处理经验方法（EMNLP）。1532--1543. http://www.aclweb.org/antology/D14-1162谷歌学者
朱莉娅·佩尔（Julia Peyre）、伊万·拉普特夫（Ivan Laptev）和科迪莉亚·施密德（Cordelia Schmid）。2018年。使用类比检测罕见的视觉关系。2018年8月25日（2018年）。arxiv:arxiv:1812.05736v1谷歌学者
弗朗索瓦·普莱塞、亚历山大·金斯卡、伯特兰·德莱佐德和弗朗索瓦斯·普雷托。2018.基于引导性建议和语义知识提取的视觉关系检测。(2018). arxiv:1805.10802号http://arxiv.org/abs/1805.10802谷歌学者
维格内什·拉马纳森、李聪聪、贾登、魏翰、甄莉、顾坤龙、杨松、萨米·本吉奥、查克·罗森博格和李飞飞。2015.学习语义关系以更好地检索图像中的动作。2015年IEEE计算机视觉和模式识别会议（CVPR）（2015），1100-1109。谷歌学者交叉引用
任少清、何开明、罗斯·吉希克和孙健。2017.更快的R-CNN：利用区域建议网络实现实时目标检测。IEEE模式分析和机器智能汇刊，第39卷，第6卷（2017年），第1137--1149页。阿西夫：1506.01497谷歌学者数字图书馆
阿什什·瓦斯瓦尼（Ashish Vaswani）、诺姆·沙泽尔（Noam Shazeer）、尼基·帕尔玛（Niki Parmar）、雅各布·乌斯科雷特（Jakob Uszkoreit）、利昂·琼斯（Llion Jones）、艾丹·戈麦斯（Aidan N.Gomez）、卢卡斯·凯泽（Lukas。2017.关注是你所需要的。尼普斯（2017）。阿西夫：1706.03762谷歌学者数字图书馆
徐丹飞、朱宇科、克里斯托弗·B·蔡和李菲菲。2017.通过迭代消息传递生成场景图。会议记录-第30届IEEE计算机视觉和模式识别会议，CVPR 2017，卷2017-Janua（2017），3097-3106。arxiv:1701.02426号谷歌学者交叉引用
姚婷、潘英伟、李叶浩和陶美。2018.探索图像字幕的视觉关系。CoRR，第abs/1809.07041卷（2018年）。arxiv版本：1809.07041http://arxiv.org/abs/1809.07041谷歌学者
尹国军、陆胜、刘斌、余能海、王晓刚、景绍和陈昌乐。2018.Zoom-Net：挖掘深层特征交互以进行视觉关系识别。，第1卷（2018年）。arxiv:1807.04979号http://arxiv.org/abs/1807.04979谷歌学者
Rowan Zellers、Mark Yatskar、Sam Thomson和Yejin Choi。2017.神经模型：全局背景下的场景图解析。CoRR，第abs/1711.06640卷（2017年）。arxiv:1711.06640号http://arxiv.org/abs/1711.06640谷歌学者
Hanwang Zhang、Zawlin Kyaw、Shih-Fu Chang和Tat-Seng Chua。2017.用于视觉关系检测的视觉翻译嵌入网络。CoRR，第abs/1702.08319卷（2017年）。arxiv:1702.08319号http://arxiv.org/abs/1702.08319谷歌学者

索引术语

基于对象语义推理和注意机制的关系检测
1. 计算方法
  1. 人工智能
    1. 计算机视觉
      1. 计算机视觉表示
        图像表示法
      2. 计算机视觉任务
        场景理解
    2. 知识表示和推理
      1. 语义网络

建议

用于关系检测的视觉空间注意网络
18岁MM：第26届ACM多媒体国际会议记录

视觉关系检测（Visual relationship detection）以预测被检测对象的<主语、谓语、宾语>三元组为目的，在场景理解研究中受到越来越多的关注。在解决这个问题的过程中，要处理不同规模的。。。
阅读更多信息
用于对象检测的多级上下文特征细化
摘要
鲁棒的多尺度对象检测具有挑战性，因为它需要空间细节和语义知识来处理包括高尺度变化和杂乱背景在内的问题。高分辨率特征与深度特征的适当融合。。。
阅读更多信息
基于卷积块注意模块的实时目标检测
智能计算方法
摘要
目标检测是计算机视觉领域最具挑战性的问题之一，目标检测的实用性要求准确性和实时性。YOLOv3是一种很好的实时目标检测算法，但召回率不足。。。
阅读更多信息

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

发布于
ICMR’19：2019年国际多媒体检索会议记录
2019年6月
427页
国际标准图书编号：9781450367653
内政部：10.1145/3323873
总主席：
阿卜杜勒穆塔勒布·萨迪克
加拿大渥太华大学
,
阿尔贝托·德尔·宾博
意大利佛罗伦萨大学
,
张忠飞
美国纽约州立大学宾厄姆顿大学
,
课程主席：
亚历山大·豪普特曼
美国卡内基梅隆大学
,
K.Selcuk Candan公司
美国亚利桑那州立大学
,
贝尔蒂尼
意大利佛罗伦萨大学
,
谢乐兴
澳大利亚国立大学
,
小勇伟
中国四川大学
版权©2019 ACM
如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布，在服务器上发布或重新发布到列表，需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]
赞助商
合作中
出版商
计算机协会
美国纽约州纽约市
出版历史
- 出版：2019年6月5日
权限
请求有关此文章的权限。
请求权限

检查更新
作者标记
注意机制
特征细化
关系检测
语义模块
限定符
- 短纸
会议

接受率
总体验收率254属于830提交文件，31%
即将召开的会议
ICMR’24

赞助商：

西格玛

国际多媒体检索会议

2024年6月10日至14日

普吉岛，泰国
资金来源
其他指标
查看文章指标

文章指标
- 4
  引文总数
  查看引文
- 226
  总下载次数
- 下载量（最近12个月）10
- 下载次数（最近6周）三
其他指标
查看作者指标
引用人
查看全部

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用eReader联机查看。

电子阅读器

基于对象语义推理和注意机制的关系检测

ICMR’19：2019年国际多媒体检索会议记录

摘要

工具书类

引用人

索引术语

建议

用于关系检测的视觉空间注意网络

用于对象检测的多级上下文特征细化

基于卷积块注意模块的实时目标检测

评论