摘要
Joao Carreira、Rui Caseiro、Jorge Batista和Cristian Sminchisescu。 2012.具有二阶池的语义分割。 在欧洲计算机视觉会议上。 施普林格,430-443。 谷歌学者 数字图书馆 Bo Dai、Yuqi Zhang和Dahua Lin.2017年。 用深层关系网络检测视觉关系。 会议记录-第30届IEEE计算机视觉和模式识别会议,CVPR 2017,卷2017-Janua(2017),3298-3308。 arxiv:1704.03114号 谷歌学者 交叉引用 J.Johnson、R.Krishna、M.Stark、L.Li、D.A.Shamma、M.S.Bernstein和L.Fei-Fei。 2015.使用场景图进行图像检索。 2015年IEEE计算机视觉和模式识别会议(CVPR),第00卷。 3668年至3678年。 谷歌学者 安德烈·卡佩西和李飞飞。 2015.生成图像描述的深度视觉语义对齐。 2015年IEEE计算机视觉和模式识别会议(CVPR)(2015),3128-3137。 谷歌学者 Alexander Kolesnikov、Christoph H.Lampert和Vittorio Ferrari,2018年。 使用方框注意检测视觉关系。 CoRR,第abs/1807.02136卷(2018年)。 谷歌学者 Ranjay Krishna、Yuke Zhu、Oliver Groth、Justin Johnson、Kenji Hata、Joshua Kravitz、Stephanie Chen、Yannis Kalandis、Li-Jia Li、David A Shamma等。 2017.视觉基因组:使用众包密集图像注释连接语言和视觉。 《国际计算机视觉杂志》,第123卷,第1期(2017年),第32-73页。 谷歌学者 数字图书馆 李一康、欧阳万丽、王晓刚和唐晓鸥。 2017年a。 ViP-CNN:视觉短语引导卷积神经网络。第30届IEEE计算机视觉和模式识别会议论文集,CVPR 2017,第2017-Janua(2017)卷,7244-7253。 arxiv公司:1702.07191 谷歌学者 交叉引用 李一康、欧阳万里、周伯雷、崔亚文、石建平和王晓刚。 2018.可分解网络:一种高效的基于子图的场景图生成框架。 CoRR,第abs/1806.11538卷(2018年)。 arxiv:1806.11538年 http://arxiv.org/abs/1806.11538 谷歌学者 李一康、欧阳万丽、周伯雷、王坤和王晓刚。 2017年b月。 从对象、短语和区域标题生成场景图形。 IEEE计算机视觉国际会议论文集,2017年10月(2017),1270--1279。 arxiv公司:1707.09700 谷歌学者 梁晓丹(Xiaodan Liang)、李丽莎(Lisa Lee)和埃里克(Eric P.Xing)。 2017.用于视觉关系和属性检测的深度变量结构强化学习。 会议记录-第30届IEEE计算机视觉和模式识别会议,CVPR 2017,卷2017-Janua,1(2017),4408-4417。 arxiv公司:1703.03054 谷歌学者 廖文彤、林帅、博多·罗森哈恩和迈克尔·杨颖。 2017.自然语言引导的视觉关系检测。 CoRR,卷abs/1711.06032(2017)。 谷歌学者 林大华、桑贾·菲德勒、陈空和拉奎尔·乌尔塔森。 2014.视觉语义搜索:通过复杂的文本查询检索视频。 IEEE计算机学会计算机视觉和模式识别会议记录(2014),2657-2664。 谷歌学者 数字图书馆 卢策武(Cewu Lu)、兰杰·克里希纳(Ranjay Krishna)、迈克尔·S·伯恩斯坦(Michael S.Bernstein)和李飞飞(Fei-Fei Li),2016年。 基于语言先验的视觉关系检测。 CoRR,卷abs/1608.00187(2016),852--869。 arxiv:1608.00187号 http://arxiv.org/abs/1608.00187 谷歌学者 托马斯·米科洛夫(Tomas Mikolov)、陈凯(Kai Chen)、格雷格·科拉多(Greg Corrado)和杰弗里·迪恩(Jeffrey Dean)。 2013.向量空间中单词表示的有效估计。 CoRR,第abs/1301.3781卷(2013年)。 arxiv公司:1301.3781 http://arxiv.org/abs/1301.3781 谷歌学者 亚历杭德罗·纽厄尔和贾登。 2017.通过关联嵌入将像素转换为图形。 神经信息处理系统进展。 2171--2180. 谷歌学者 杰弗里·彭宁顿(Jeffrey Pennington)、理查德·索彻(Richard Socher)和克里斯托弗·曼宁(Christopher D.Manning)。 2014.GlobVe:单词表示的全球向量。 自然语言处理经验方法(EMNLP)。 1532--1543. http://www.aclweb.org/antology/D14-1162 谷歌学者 朱莉娅·佩尔(Julia Peyre)、伊万·拉普特夫(Ivan Laptev)和科迪莉亚·施密德(Cordelia Schmid)。 2018年。使用类比检测罕见的视觉关系。 2018年8月25日(2018年)。 arxiv:arxiv:1812.05736v1 谷歌学者 弗朗索瓦·普莱塞、亚历山大·金斯卡、伯特兰·德莱佐德和弗朗索瓦斯·普雷托。 2018.基于引导性建议和语义知识提取的视觉关系检测。 (2018). arxiv:1805.10802号 http://arxiv.org/abs/1805.10802 谷歌学者 维格内什·拉马纳森、李聪聪、贾登、魏翰、甄莉、顾坤龙、杨松、萨米·本吉奥、查克·罗森博格和李飞飞。 2015.学习语义关系以更好地检索图像中的动作。 2015年IEEE计算机视觉和模式识别会议(CVPR)(2015),1100-1109。 谷歌学者 交叉引用 任少清、何开明、罗斯·吉希克和孙健。 2017.更快的R-CNN:利用区域建议网络实现实时目标检测。 IEEE模式分析和机器智能汇刊,第39卷,第6卷(2017年),第1137--1149页。 阿西夫:1506.01497 谷歌学者 数字图书馆 阿什什·瓦斯瓦尼(Ashish Vaswani)、诺姆·沙泽尔(Noam Shazeer)、尼基·帕尔玛(Niki Parmar)、雅各布·乌斯科雷特(Jakob Uszkoreit)、利昂·琼斯(Llion Jones)、艾丹·戈麦斯(Aidan N.Gomez)、卢卡斯·凯泽(Lukas。 2017.关注是你所需要的。 尼普斯(2017)。 阿西夫:1706.03762 谷歌学者 数字图书馆 徐丹飞、朱宇科、克里斯托弗·B·蔡和李菲菲。 2017.通过迭代消息传递生成场景图。 会议记录-第30届IEEE计算机视觉和模式识别会议,CVPR 2017,卷2017-Janua(2017),3097-3106。 arxiv:1701.02426号 谷歌学者 交叉引用 姚婷、潘英伟、李叶浩和陶美。 2018.探索图像字幕的视觉关系。 CoRR,第abs/1809.07041卷(2018年)。 arxiv版本:1809.07041 http://arxiv.org/abs/1809.07041 谷歌学者 尹国军、陆胜、刘斌、余能海、王晓刚、景绍和陈昌乐。 2018.Zoom-Net:挖掘深层特征交互以进行视觉关系识别。, 第1卷(2018年)。 arxiv:1807.04979号 http://arxiv.org/abs/1807.04979 谷歌学者 Rowan Zellers、Mark Yatskar、Sam Thomson和Yejin Choi。 2017.神经模型:全局背景下的场景图解析。 CoRR,第abs/1711.06640卷(2017年)。 arxiv:1711.06640号 http://arxiv.org/abs/1711.06640 谷歌学者 Hanwang Zhang、Zawlin Kyaw、Shih-Fu Chang和Tat-Seng Chua。 2017.用于视觉关系检测的视觉翻译嵌入网络。 CoRR,第abs/1702.08319卷(2017年)。 arxiv:1702.08319号 http://arxiv.org/abs/1702.08319 谷歌学者
建议
用于关系检测的视觉空间注意网络 18岁MM:第26届ACM多媒体国际会议记录 视觉关系检测(Visual relationship detection)以预测被检测对象的<主语、谓语、宾语>三元组为目的,在场景理解研究中受到越来越多的关注。 在解决这个问题的过程中,要处理不同规模的。。。