跳到主要内容
10.1145/3627631.3627634交流会议文章/章节视图摘要出版物页面icvgip公司会议记录会议集合
研究论文

MMAG:从单目图像中同时提取上下文和空间信息的相互激励的注意门

出版:2024年1月31日 出版历史
  • 获取引文提醒
  • 摘要

    为了有效地与环境交互,代理必须具备理解“什么”和“哪里”的能力可以采用两种基于视觉的方法,即语义分割和深度估计来提供这些信息。本文介绍了一个统一的模型,该模型将这两个任务结合在一起,并利用共享的潜在空间。该模型所选择的方法包括一种编码器-解码器体系结构,以及一种称为MMAG的新型注意门机制,该机制已被证明是高效的。此外,还包括一种常见的跳跃连接方法和建议的注意门,以强调两种预测目的的关键特征。通过利用共享表示中的互补信息,与其他联合预测模型相比,该模型能够生成更准确的预测,同时使用更少的网络参数。为了提高性能,加入了扩张层,允许通过不同的感受野集中注意力。该模型的性能已经在纽约大学Depth v2和Camvid数据集上进行了评估,与其他最先进的模型相比,在这两项任务上的结果都有所改善。由于减少了参数数量,该模型特别适用于低成本机器人,并已成功对LoCoBot机器人进行了推理测试。

    工具书类

    [1]
    [1] 丈夫P、Shim Y、Garvie M、Dewar A、Domcsek N、Graham P、Knight J、Nowotny T、Philippides A(2021)进化和生物激励自适应机器人技术的最新进展:利用内含动力学。应用智能51(9):6467–6496
    [2]
    [2] Fang B,Mei G,Yuan X,Wang L,Wang Z,Wang J(2021)医疗机构机器人导航的视觉冲击。图案识别113:107822。https://doi.org/10.1016/j.patcog.2021.107822
    [3]
    [3] Zhang Z,Cui Z,Xu C,Jie Z,Li X,Yang J(2020)联合任务-rgb-d场景理解的递归学习。IEEE Trans-Pattern Ana Mach Intell 42(10):2608–2623。https://doi.org/10。1109/TPAMI.2019.2926728
    [4]
    [4] Simonyan,K.和Zisserman,A.(2014)。用于大规模图像识别的非常深的卷积网络。CoRR,abs/1409.1556
    [5]
    [5] Ronneberger,O.,Fischer,P.,Brox,T.(2015)。U-Net:生物医学图像分割的卷积网络。收录:Navab,N.、Horneger,J.、Wells,W.、Frangi,A.(编辑)《医学图像计算和计算机辅助干预——2015年MICCAI》。2015年MICCAI。计算机科学()课堂讲稿,第9351卷。查姆施普林格
    [6]
    [6] V.Badrinarayanan、A.Kendall和R.Cipolla,“SegNet:图像分割的深度卷积编码器-解码器架构”,收录于《IEEE模式分析与机器智能汇刊》,第39卷,第12期,第2481-2495页,2017年12月1日。
    [7]
    [7] G.Brostow、J.Fauqueur和R.Cipolla,“视频中的语义对象类:高清地面真相数据库”,PRL,第30卷(2),第88–97页,2009年
    [8]
    [8] N.Silberman、D.Hoiem、P.Kohli和R.Fergus。室内分割和支持从rgbd图像推断。《Computer Vision–ECCV 2012》,第746–760页,柏林,海德堡,2012年。施普林格-柏林-海德堡
    [9]
    [9] Singh,Aditya,et al.“使用单目视觉对资源有限的移动机器人进行高效的基于深度学习的语义映射方法”,《神经计算与应用》34.18(2022):15617-15631。
    [10]
    [10] 辛格、阿迪蒂亚等,《基于深度学习和神经模糊推理的资源有限的移动机器人可靠场景识别方法》,《Traitement du Signal 39.4》(2022年)。
    [11]
    [11] Zhou,T.、Brown,M.、Snavely,N.和Lowe,D.G.(2017)。无监督学习视频中的深度和自我意识。在IEEE计算机视觉和模式识别会议上(第1851-1858页)。IEEE标准。https://doi.org/10.1109/CVPR.2017.199
    [12]
    [12] D.Eigen、C.Puhrsch、R.Fergus。使用多尺度深度网络从单个图像进行深度图预测,见:《神经信息处理系统进展》,2014年,第2366–2374页
    [13]
    [13] D.Eigen,R.Fergus。使用常见的多尺度卷积架构预测深度、表面法线和语义标签。IEEE计算机视觉国际会议记录(2015),第2650-2658页
    [14]
    [14] Cheng,X.,Wang,P.和Yang,R.,2018年。通过卷积空间传播网络学习的亲和力进行深度估计。《欧洲计算机视觉会议论文集》(第103-119页)
    [15]
    [15] Yin W,Liu Y,Shen C(2021)虚拟法线:实施几何约束以实现准确可靠的深度预测。IEEE Trans-Pattern Ana Mach Intell:1-1。https://doi.org/10.1109/TPAMI。2021.3097396
    [16]
    [16] Long,J.,Shelhamer,E.,Darrell,T.:语义分割的完全卷积网络。摘自:IEEE计算机视觉和模式识别会议记录,第3431–3440页(2015)
    [17]
    [17] L.-C.Chen、Y.Zhu、G.Papandreou、F.Schroff、H.Adam。用于语义图像分割的带可分离卷积的编码器-解码器。《欧洲计算机视觉会议记录》(2018),第801-818页
    [18]
    [18] L.-C.Chen,G.Papandreou,F.Schroff,H.Adam,重新思考用于语义图像分割的阿特鲁斯卷积,arXiv预印本arXiv:1706.05587
    [19]
    [19] 于C,王杰,高C,于G,沈C,桑N(2020)。场景分割的上下文优先。In:2020 IEEE/CVF计算机视觉和模式识别会议(CVPR)
    [20]
    [20] Wu Y,Jiang J,Huang Z,Tian Y(2021)Fpanet:用于实时语义分割的特征金字塔聚合网络。应用智能:1-18。https://doi.org/10.1007/s10489-021-02603-z
    [21]
    [21]Xu D,Wang W,Tang H,Liu H,Sebe N,Ricci E(2018)用于单目深度估计的结构化注意引导卷积神经场。参加:2018 IEEE/CVF计算机视觉和模式识别会议
    [22]
    [22]奥克泰、奥赞和施勒默、乔和福克、洛伊克·勒和李、马修和海因里希、马蒂亚斯和米萨瓦、卡祖纳里和莫里、肯萨库和麦当劳、史蒂文和哈默拉、尼尔斯·Y和凯恩斯、伯恩哈德和格洛克、本和鲁克特、丹尼尔。注意U-Net:学习在哪里寻找胰腺。arXiv(2018)
    [23]
    [23]Liu J,Wang Y,Li Y,Fu J,Li J,Lu H(2018)联合深度估计和语义分割的协同反褶积神经网络。IEEE Trans Neural Netw学习系统29(11):5655–5666。https://doi.org/10.109/TNNLS.2017.2787781
    [24]
    [24]Xu D,Ouyang W,Wang X,Sebe N(2018)PAD-net:用于同时深度估计和场景解析的多任务引导预测和蒸馏网络。参加:2018 IEEE/CVF计算机视觉和模式识别会议
    [25]
    [25]何磊,卢杰,王庚,宋S,周J(2021)SOSD-net:基于单目图像的联合语义对象分割和深度估计。神经计算440:251–263。https://doi.org/10网址1016年1月21日至126日
    [26]
    [26]高,天晓和伟,吴和蔡,中斌和范,准和谢,盛和王,辛美和余,邱达。(2022). CI-Net:使用上下文信息的联合深度估计和语义分割网络。应用智能。52.10007/s10489-022-03401-x号
    [27]
    [27]阿尔哈希姆,易卜拉欣和旺卡,彼得。通过转移学习进行高质量单目深度估计。arXiv电子版,abs/1812.119412018
    [28]
    [28]Lin X,Sanchez-Escobedo D,Casas JR,Pardas̀M(2019)使用混合卷积神经网络从单个rgb图像进行深度估计和语义分割。传感器19(8)。https://doi.org/10.3390/s19081795

    索引术语

    1. MMAG:从单目图像中同时提取上下文和空间信息的相互激励的注意门
          索引项已通过自动分类分配给内容。

          建议

          评论

          信息和贡献者

          问询处

          发布于

          封面图片ACM其他会议
          ICVGIP’23:第十四届印度计算机视觉、图形和图像处理会议记录
          2023年12月
          352页
          国际标准图书编号:9798400716256
          内政部:10.1145/3627631
          如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重作者以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可和/或付费。从请求权限[电子邮件保护].

          出版商

          计算机协会

          美国纽约州纽约市

          出版历史

          出版:2024年1月31日

          权限

          请求对此文章的权限。

          检查更新

          作者标记

          1. 注意门机构
          2. 编解码器
          3. 单目深度估计
          4. 语义分割

          限定符

          • 研究文章
          • 研究
          • 推荐有限公司

          会议

          ICVGIP’23

          接受率

          286份提交文件的总体接受率为95,33%

          贡献者

          其他指标

          文献计量学和引文

          文献计量学

          文章指标

          • 0
            引文总数
          • 10
            下载总量
          • 下载次数(过去12个月)10
          • 下载次数(最近6周)1

          其他指标

          引文

          视图选项

          获取访问权限

          登录选项

          完全访问权限

          查看选项

          PDF格式

          以PDF文件查看或下载。

          PDF格式

          电子阅读器

          使用联机查看电子阅读器.

          电子阅读器

          HTML格式格式

          在中查看本文HTML格式格式。

          HTML格式

          媒体

          数字

          其他

          桌子

          分享

          分享

          共享此出版物链接

          在社交媒体上分享