研究论文

MMAG：从单目图像中同时提取上下文和空间信息的相互激励的注意门

作者:

阿迪蒂亚辛格,

萨洛尼莫汉,

万达能库什瓦哈、和

通用汽车公司南迪作者信息和声明

ICVGIP’23：第十四届印度计算机视觉、图形和图像处理会议记录

2023年12月

文章编号：3，页数1-7

https://doi.org/10.1145/3627631.3627634

出版:2024年1月31日出版历史

获取访问权限

摘要

为了有效地与环境交互，代理必须具备理解“什么”和“哪里”的能力可以采用两种基于视觉的方法，即语义分割和深度估计来提供这些信息。本文介绍了一个统一的模型，该模型将这两个任务结合在一起，并利用共享的潜在空间。该模型所选择的方法包括一种编码器-解码器体系结构，以及一种称为MMAG的新型注意门机制，该机制已被证明是高效的。此外，还包括一种常见的跳跃连接方法和建议的注意门，以强调两种预测目的的关键特征。通过利用共享表示中的互补信息，与其他联合预测模型相比，该模型能够生成更准确的预测，同时使用更少的网络参数。为了提高性能，加入了扩张层，允许通过不同的感受野集中注意力。该模型的性能已经在纽约大学Depth v2和Camvid数据集上进行了评估，与其他最先进的模型相比，在这两项任务上的结果都有所改善。由于减少了参数数量，该模型特别适用于低成本机器人，并已成功对LoCoBot机器人进行了推理测试。

工具书类

[1]

[1] 丈夫P、Shim Y、Garvie M、Dewar A、Domcsek N、Graham P、Knight J、Nowotny T、Philippides A（2021）进化和生物激励自适应机器人技术的最新进展：利用内含动力学。应用智能51（9）：6467–6496

数字图书馆

[2]

[2] Fang B，Mei G，Yuan X，Wang L，Wang Z，Wang J（2021）医疗机构机器人导航的视觉冲击。图案识别113:107822。https://doi.org/10.1016/j.patcog.2021.107822

[3]

[3] Zhang Z，Cui Z，Xu C，Jie Z，Li X，Yang J（2020）联合任务-rgb-d场景理解的递归学习。IEEE Trans-Pattern Ana Mach Intell 42（10）：2608–2623。https://doi.org/10。1109/TPAMI.2019.2926728

数字图书馆

[4]

[4] Simonyan，K.和Zisserman，A.（2014）。用于大规模图像识别的非常深的卷积网络。CoRR，abs/1409.1556

[5]

[5] Ronneberger，O.，Fischer，P.，Brox，T.（2015）。U-Net：生物医学图像分割的卷积网络。收录：Navab，N.、Horneger，J.、Wells，W.、Frangi，A.（编辑）《医学图像计算和计算机辅助干预——2015年MICCAI》。2015年MICCAI。计算机科学（）课堂讲稿，第9351卷。查姆施普林格

[6]

[6] V.Badrinarayanan、A.Kendall和R.Cipolla，“SegNet:图像分割的深度卷积编码器-解码器架构”，收录于《IEEE模式分析与机器智能汇刊》，第39卷，第12期，第2481-2495页，2017年12月1日。

[7]

[7] G.Brostow、J.Fauqueur和R.Cipolla，“视频中的语义对象类：高清地面真相数据库”，PRL，第30卷（2），第88–97页，2009年

数字图书馆

[8]

[8] N.Silberman、D.Hoiem、P.Kohli和R.Fergus。室内分割和支持从rgbd图像推断。《Computer Vision–ECCV 2012》，第746–760页，柏林，海德堡，2012年。施普林格-柏林-海德堡

数字图书馆

[9]

[9] Singh，Aditya，et al.“使用单目视觉对资源有限的移动机器人进行高效的基于深度学习的语义映射方法”，《神经计算与应用》34.18（2022）：15617-15631。

[10]

[10] 辛格、阿迪蒂亚等，《基于深度学习和神经模糊推理的资源有限的移动机器人可靠场景识别方法》，《Traitement du Signal 39.4》（2022年）。

[11]

[11] Zhou，T.、Brown，M.、Snavely，N.和Lowe，D.G.（2017）。无监督学习视频中的深度和自我意识。在IEEE计算机视觉和模式识别会议上（第1851-1858页）。IEEE标准。https://doi.org/10.1109/CVPR.2017.199

[12]

[12] D.Eigen、C.Puhrsch、R.Fergus。使用多尺度深度网络从单个图像进行深度图预测，见：《神经信息处理系统进展》，2014年，第2366–2374页

[13]

[13] D.Eigen，R.Fergus。使用常见的多尺度卷积架构预测深度、表面法线和语义标签。IEEE计算机视觉国际会议记录（2015），第2650-2658页

[14]

[14] Cheng，X.，Wang，P.和Yang，R.，2018年。通过卷积空间传播网络学习的亲和力进行深度估计。《欧洲计算机视觉会议论文集》（第103-119页）

[15]

[15] Yin W，Liu Y，Shen C（2021）虚拟法线：实施几何约束以实现准确可靠的深度预测。IEEE Trans-Pattern Ana Mach Intell:1-1。https://doi.org/10.1109/TPAMI。2021.3097396

[16]

[16] Long，J.，Shelhamer，E.，Darrell，T.：语义分割的完全卷积网络。摘自：IEEE计算机视觉和模式识别会议记录，第3431–3440页（2015）

[17]

[17] L.-C.Chen、Y.Zhu、G.Papandreou、F.Schroff、H.Adam。用于语义图像分割的带可分离卷积的编码器-解码器。《欧洲计算机视觉会议记录》（2018），第801-818页

数字图书馆

[18]

[18] L.-C.Chen，G.Papandreou，F.Schroff，H.Adam，重新思考用于语义图像分割的阿特鲁斯卷积，arXiv预印本arXiv:1706.05587

[19]

[19] 于C，王杰，高C，于G，沈C，桑N（2020）。场景分割的上下文优先。In:2020 IEEE/CVF计算机视觉和模式识别会议（CVPR）

[20]

[20] Wu Y，Jiang J，Huang Z，Tian Y（2021）Fpanet:用于实时语义分割的特征金字塔聚合网络。应用智能：1-18。https://doi.org/10.1007/s10489-021-02603-z

数字图书馆

[21]

[21]Xu D，Wang W，Tang H，Liu H，Sebe N，Ricci E（2018）用于单目深度估计的结构化注意引导卷积神经场。参加：2018 IEEE/CVF计算机视觉和模式识别会议

[22]

[22]奥克泰、奥赞和施勒默、乔和福克、洛伊克·勒和李、马修和海因里希、马蒂亚斯和米萨瓦、卡祖纳里和莫里、肯萨库和麦当劳、史蒂文和哈默拉、尼尔斯·Y和凯恩斯、伯恩哈德和格洛克、本和鲁克特、丹尼尔。注意U-Net：学习在哪里寻找胰腺。arXiv（2018）

[23]

[23]Liu J，Wang Y，Li Y，Fu J，Li J，Lu H（2018）联合深度估计和语义分割的协同反褶积神经网络。IEEE Trans Neural Netw学习系统29（11）：5655–5666。https://doi.org/10.109/TNNLS.2017.2787781

[24]

[24]Xu D，Ouyang W，Wang X，Sebe N（2018）PAD-net：用于同时深度估计和场景解析的多任务引导预测和蒸馏网络。参加：2018 IEEE/CVF计算机视觉和模式识别会议

[25]

[25]何磊，卢杰，王庚，宋S，周J（2021）SOSD-net：基于单目图像的联合语义对象分割和深度估计。神经计算440:251–263。https://doi.org/10网址1016年1月21日至126日

[26]

[26]高，天晓和伟，吴和蔡，中斌和范，准和谢，盛和王，辛美和余，邱达。(2022). CI-Net：使用上下文信息的联合深度估计和语义分割网络。应用智能。52.10007/s10489-022-03401-x号

[27]

[27]阿尔哈希姆，易卜拉欣和旺卡，彼得。通过转移学习进行高质量单目深度估计。arXiv电子版，abs/1812.119412018

[28]

[28]Lin X，Sanchez-Escobedo D，Casas JR，Pardas̀M（2019）使用混合卷积神经网络从单个rgb图像进行深度估计和语义分割。传感器19（8）。https://doi.org/10.3390/s19081795

索引术语

MMAG：从单目图像中同时提取上下文和空间信息的相互激励的注意门
1. 计算方法
  1. 人工智能
    1. 计算机视觉
      1. 计算机视觉问题
      2. 计算机视觉任务
        场景理解
  2. 机器学习
    1. 机器学习方法
      1. 神经网络

索引项已通过自动分类分配给内容。

建议

用于语义图像分割的自注意神经网络结构搜索
摘要
自我注意可以捕获长距离依赖，广泛用于语义分割。现有的方法主要使用两种自我注意，即空间注意和通道注意，这两种方法可以捕捉到自我注意和空间注意之间的关系。。。
阅读更多信息
通过立体网络改进单眼深度和自我运动的无监督学习
模式识别与计算机视觉
摘要
单眼深度和自我运动的无监督学习是一项具有挑战性的任务，它使用光度损失作为监督来训练网络。尽管现有的无监督方法可以摆脱昂贵的注释，但它们仍然是。。。
阅读更多信息
FF-GAN:用于单目深度估计的特征融合GAN
模式识别与计算机视觉
摘要
由于CNN单目深度估计方法的结果通常存在视觉不满意的问题，因此我们提出了特征融合GAN（FF-GAN）来解决这个问题。首先，基于编解码结构的端到端网络。。。
阅读更多信息

评论

信息和贡献者

问询处

发布于

封面图片ACM其他会议

ICVGIP’23：第十四届印度计算机视觉、图形和图像处理会议记录

2023年12月

352页

国际标准图书编号：9798400716256

内政部：10.1145/3627631

版权所有©2023 ACM。

如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重作者以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布，在服务器上发布或重新发布到列表，需要事先获得特定许可和/或付费。从请求权限[电子邮件保护].

出版商

计算机协会

美国纽约州纽约市

出版历史

出版：2024年1月31日

权限

请求对此文章的权限。

检查更新

作者标记

限定符

研究文章
研究
推荐有限公司

会议

ICVGIP’23

ICVGIP’23：印度计算机视觉、图形和图像处理会议

2023年12月15日至17日

印度Rupnagar

接受率

286份提交文件的总体接受率为95，33%

贡献者

其他指标

查看文章指标

文献计量学和引文

文献计量学

文章指标

0
引文总数
10
下载总量

下载次数（过去12个月）10
下载次数（最近6周）1

其他指标

查看作者指标

引文

视图选项

获取访问权限

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

查看选项

PDF格式

以PDF文件查看或下载。

电子阅读器

使用联机查看电子阅读器.

电子阅读器

HTML格式格式

在中查看本文HTML格式格式。

媒体

数字

其他

桌子