跳到主要内容
10.1145/3323873.3325025acm会议文章/章节视图摘要出版物页面icmr公司会议记录会议集合
短纸

基于对象语义推理和注意机制的关系检测

出版:2019年6月5日出版历史

摘要

检测物体之间的关系是图像理解的关键任务。然而,每个关系都涉及不同的对象对组合,不同的对象组合表示不同的交互。这使得基于视觉特征的关系成为一项具有挑战性的任务。本文提出了一种简单有效的关系检测模型,该模型基于对象语义推理和注意机制。我们的模型被训练来检测关系三元组,如<人骑马>、<马、携带、袋子>。为了克服视觉外观的高度多样性,将语义推理模块与视觉特征相结合以实现互补。我们还介绍了两种不同的注意机制,用于对象特征精化和短语特征精化。为了获得每个对象的更详细和全面的表示,对象特征细化模块通过查询图像中的所有其他对象来细化每个对象的表示。为了使短语特征更加有效,并自动聚焦于相关部分,从而改进视觉关系检测任务,提出了短语特征细化模块。我们在可视化基因组关系数据集上验证了我们的模型。与最先进的方法MOTIFNET相比,我们提出的模型取得了具有竞争力的结果。

工具书类

  1. Joao Carreira、Rui Caseiro、Jorge Batista和Cristian Sminchisescu。2012.具有二阶池的语义分割。在欧洲计算机视觉会议上。施普林格,430-443。谷歌学者谷歌学者数字图书馆数字图书馆
  2. Bo Dai、Yuqi Zhang和Dahua Lin.2017年。用深层关系网络检测视觉关系。会议记录-第30届IEEE计算机视觉和模式识别会议,CVPR 2017,卷2017-Janua(2017),3298-3308。arxiv:1704.03114号谷歌学者谷歌学者交叉引用交叉引用
  3. J.Johnson、R.Krishna、M.Stark、L.Li、D.A.Shamma、M.S.Bernstein和L.Fei-Fei。2015.使用场景图进行图像检索。2015年IEEE计算机视觉和模式识别会议(CVPR),第00卷。3668年至3678年。谷歌学者谷歌学者
  4. 安德烈·卡佩西和李飞飞。2015.生成图像描述的深度视觉语义对齐。2015年IEEE计算机视觉和模式识别会议(CVPR)(2015),3128-3137。谷歌学者谷歌学者
  5. Alexander Kolesnikov、Christoph H.Lampert和Vittorio Ferrari,2018年。使用方框注意检测视觉关系。CoRR,第abs/1807.02136卷(2018年)。谷歌学者谷歌学者
  6. Ranjay Krishna、Yuke Zhu、Oliver Groth、Justin Johnson、Kenji Hata、Joshua Kravitz、Stephanie Chen、Yannis Kalandis、Li-Jia Li、David A Shamma等。2017.视觉基因组:使用众包密集图像注释连接语言和视觉。《国际计算机视觉杂志》,第123卷,第1期(2017年),第32-73页。谷歌学者谷歌学者数字图书馆数字图书馆
  7. 李一康、欧阳万丽、王晓刚和唐晓鸥。2017年a。ViP-CNN:视觉短语引导卷积神经网络。第30届IEEE计算机视觉和模式识别会议论文集,CVPR 2017,第2017-Janua(2017)卷,7244-7253。arxiv公司:1702.07191谷歌学者谷歌学者交叉引用交叉引用
  8. 李一康、欧阳万里、周伯雷、崔亚文、石建平和王晓刚。2018.可分解网络:一种高效的基于子图的场景图生成框架。CoRR,第abs/1806.11538卷(2018年)。arxiv:1806.11538年http://arxiv.org/abs/1806.11538谷歌学者谷歌学者
  9. 李一康、欧阳万丽、周伯雷、王坤和王晓刚。2017年b月。从对象、短语和区域标题生成场景图形。IEEE计算机视觉国际会议论文集,2017年10月(2017),1270--1279。arxiv公司:1707.09700谷歌学者谷歌学者
  10. 梁晓丹(Xiaodan Liang)、李丽莎(Lisa Lee)和埃里克(Eric P.Xing)。2017.用于视觉关系和属性检测的深度变量结构强化学习。会议记录-第30届IEEE计算机视觉和模式识别会议,CVPR 2017,卷2017-Janua,1(2017),4408-4417。arxiv公司:1703.03054谷歌学者谷歌学者
  11. 廖文彤、林帅、博多·罗森哈恩和迈克尔·杨颖。2017.自然语言引导的视觉关系检测。CoRR,卷abs/1711.06032(2017)。谷歌学者谷歌学者
  12. 林大华、桑贾·菲德勒、陈空和拉奎尔·乌尔塔森。2014.视觉语义搜索:通过复杂的文本查询检索视频。IEEE计算机学会计算机视觉和模式识别会议记录(2014),2657-2664。谷歌学者谷歌学者数字图书馆数字图书馆
  13. 卢策武(Cewu Lu)、兰杰·克里希纳(Ranjay Krishna)、迈克尔·S·伯恩斯坦(Michael S.Bernstein)和李飞飞(Fei-Fei Li),2016年。基于语言先验的视觉关系检测。CoRR,卷abs/1608.00187(2016),852--869。arxiv:1608.00187号http://arxiv.org/abs/1608.00187谷歌学者谷歌学者
  14. 托马斯·米科洛夫(Tomas Mikolov)、陈凯(Kai Chen)、格雷格·科拉多(Greg Corrado)和杰弗里·迪恩(Jeffrey Dean)。2013.向量空间中单词表示的有效估计。CoRR,第abs/1301.3781卷(2013年)。arxiv公司:1301.3781http://arxiv.org/abs/1301.3781谷歌学者谷歌学者
  15. 亚历杭德罗·纽厄尔和贾登。2017.通过关联嵌入将像素转换为图形。神经信息处理系统进展。2171--2180.谷歌学者谷歌学者
  16. 杰弗里·彭宁顿(Jeffrey Pennington)、理查德·索彻(Richard Socher)和克里斯托弗·曼宁(Christopher D.Manning)。2014.GlobVe:单词表示的全球向量。自然语言处理经验方法(EMNLP)。1532--1543. http://www.aclweb.org/antology/D14-1162谷歌学者谷歌学者
  17. 朱莉娅·佩尔(Julia Peyre)、伊万·拉普特夫(Ivan Laptev)和科迪莉亚·施密德(Cordelia Schmid)。2018年。使用类比检测罕见的视觉关系。2018年8月25日(2018年)。arxiv:arxiv:1812.05736v1谷歌学者谷歌学者
  18. 弗朗索瓦·普莱塞、亚历山大·金斯卡、伯特兰·德莱佐德和弗朗索瓦斯·普雷托。2018.基于引导性建议和语义知识提取的视觉关系检测。(2018). arxiv:1805.10802号http://arxiv.org/abs/1805.10802谷歌学者谷歌学者
  19. 维格内什·拉马纳森、李聪聪、贾登、魏翰、甄莉、顾坤龙、杨松、萨米·本吉奥、查克·罗森博格和李飞飞。2015.学习语义关系以更好地检索图像中的动作。2015年IEEE计算机视觉和模式识别会议(CVPR)(2015),1100-1109。谷歌学者谷歌学者交叉引用交叉引用
  20. 任少清、何开明、罗斯·吉希克和孙健。2017.更快的R-CNN:利用区域建议网络实现实时目标检测。IEEE模式分析和机器智能汇刊,第39卷,第6卷(2017年),第1137--1149页。阿西夫:1506.01497谷歌学者谷歌学者数字图书馆数字图书馆
  21. 阿什什·瓦斯瓦尼(Ashish Vaswani)、诺姆·沙泽尔(Noam Shazeer)、尼基·帕尔玛(Niki Parmar)、雅各布·乌斯科雷特(Jakob Uszkoreit)、利昂·琼斯(Llion Jones)、艾丹·戈麦斯(Aidan N.Gomez)、卢卡斯·凯泽(Lukas。2017.关注是你所需要的。尼普斯(2017)。阿西夫:1706.03762谷歌学者谷歌学者数字图书馆数字图书馆
  22. 徐丹飞、朱宇科、克里斯托弗·B·蔡和李菲菲。2017.通过迭代消息传递生成场景图。会议记录-第30届IEEE计算机视觉和模式识别会议,CVPR 2017,卷2017-Janua(2017),3097-3106。arxiv:1701.02426号谷歌学者谷歌学者交叉引用交叉引用
  23. 姚婷、潘英伟、李叶浩和陶美。2018.探索图像字幕的视觉关系。CoRR,第abs/1809.07041卷(2018年)。arxiv版本:1809.07041http://arxiv.org/abs/1809.07041谷歌学者谷歌学者
  24. 尹国军、陆胜、刘斌、余能海、王晓刚、景绍和陈昌乐。2018.Zoom-Net:挖掘深层特征交互以进行视觉关系识别。,第1卷(2018年)。arxiv:1807.04979号http://arxiv.org/abs/1807.04979谷歌学者谷歌学者
  25. Rowan Zellers、Mark Yatskar、Sam Thomson和Yejin Choi。2017.神经模型:全局背景下的场景图解析。CoRR,第abs/1711.06640卷(2017年)。arxiv:1711.06640号http://arxiv.org/abs/1711.06640谷歌学者谷歌学者
  26. Hanwang Zhang、Zawlin Kyaw、Shih-Fu Chang和Tat-Seng Chua。2017.用于视觉关系检测的视觉翻译嵌入网络。CoRR,第abs/1702.08319卷(2017年)。arxiv:1702.08319号http://arxiv.org/abs/1702.08319谷歌学者谷歌学者

索引术语

  1. 基于对象语义推理和注意机制的关系检测

        建议

        评论

        登录选项

        检查您是否可以通过登录凭据或您的机构访问本文。

        登录

        完全访问权限

        • 发布于

          封面图片ACM会议
          ICMR’19:2019年国际多媒体检索会议记录
          2019年6月
          427页
          国际标准图书编号:9781450367653
          内政部:10.1145/3323873

          版权©2019 ACM

          如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]

          出版商

          计算机协会

          美国纽约州纽约市

          出版历史

          • 出版:2019年6月5日

          权限

          请求有关此文章的权限。

          请求权限

          检查更新

          限定符

          • 短纸

          接受率

          总体验收率254属于830提交文件,31%

          即将召开的会议

          ICMR’24
          国际多媒体检索会议
          2024年6月10日至14日
          普吉岛,泰国

        PDF格式

        以PDF文件查看或下载。

        PDF格式

        电子阅读器

        使用eReader联机查看。

        电子阅读器