基于时空注意力的空间关联三维形貌重建

doi:10.11772/j.issn.1001-9081.2023050651

《计算机应用》唯一官方网站››2024,第44卷››问题（5）: 1570-1578.内政部：10.11772/j.issn.1001-9081.2023050651

• 多媒体计算与计算机仿真 • 上一篇

基于时空注意力的空间关联三维形貌重建

盖彦辛¹^,²,闫涛¹^,²^,^三^,⁴(),张江峰¹^,²,郭小英^三,陈斌⁴^,⁵

¹山西大学计算机与信息技术学院, 太原 030006
²山西大学大数据科学与产业研究院, 太原 030006
^三。山西大学自动化与软件学院, 太原 030006
⁴哈尔滨工业大学重庆研究院, 重庆 401151
⁵哈尔滨工业大学(深圳) 国际人工智能研究院, 深圳 518055

收稿日期:2023-05-24 修回日期:2023-07-20 接受日期:2023-07-27 发布日期:2023-08-03 出版日期:2024-05-10
通讯作者:闫涛
作者简介:盖彦辛（1997—），女，山西临汾人，硕士研究生，主要研究方向：深度学习、三维形貌重建
张江峰（1998—），男，山西晋城人，硕士研究生，共因失效会员，主要研究方向：三维形貌重建
郭小英（1985—），女，山西原平人，副教授，博士，主要研究方向：计算机视觉
陈斌（1970—），男，四川广汉人，教授，博士，主要研究方向：机器视觉。
第一联系人：闫涛（1987—），男，山西定襄人，副教授，博士，共因失效会员，主要研究方向：三维形貌重建
基金资助:
国家自然科学基金资助项目(62006146);山西省基础研究计划自然科学研究面上项目(202203021221029);中央引导地方科技发展资金资助项目（YDZJSX20231C001）

基于时空注意的空间相关性三维形状重建

燕鑫通用电气¹^,²,陶燕¹^,²^,^三^,⁴(),张江峰¹^,²,郭晓英^三,陈斌（Bin CHEN）⁴^,⁵

¹山西大学计算机与信息技术学院，山西太原030006
²山西大学大数据科学与产业研究所，山西太原030006，中国
^三。山西大学自动化与软件工程学院，山西太原030006
⁴哈尔滨工业大学重庆研究院，中国重庆401151
⁵中国广东省深圳市哈尔滨工业大学人工智能国际研究所，邮编：518055

收到：2023-05-24 修订过的：2023-07-20 认可的：2023-07-27 在线：2023-08-03 出版：2024-05-10
联系人：陶燕
关于作者：葛燕新，1997年生，硕士研究生。她的研究兴趣包括深度学习、3D形状重建。
张江峰，1998年生，硕士研究生。他的研究兴趣包括3D形状重建。
郭晓英，1985年生，博士，副教授。她的研究兴趣包括计算机视觉。
陈斌，1970年出生，博士，教授。他的研究兴趣包括计算机视觉。
支持单位：
国家自然科学基金项目（62006146）；山西省自然科学基金项目（202203021221029）；中央政府引导地方科技发展专项资金（YDZJSX20231C001）

摘要/摘要

摘要：

聚焦形貌恢复通过对场景深度和散焦模糊之间的潜在关系进行建模实现三维形貌重建。但现有的三维形貌重建网络无法有效利用图像序列的时序关联进行表征学习，因此，提出一种基于多景深图像序列空间关联特征的深度网络框架——三维空间相关水平分析模型（3D SCHAM）进行三维形貌重建。该模型不仅可以精确捕获单帧图像中聚焦区域到离焦区域的边缘特征，而且可有效利用不同图像帧之间的空间依赖性特征。首先，通过构建深度、宽度和感受野复合扩展的网络构造三维形貌重建的时域连续模型，进而确定单点深度结果；其次，引入基于空间关联的注意力模块，充分学习帧与帧间的“邻接性”与“距离性”空间依赖关系；另外，利用残差反转瓶颈进行重采样，以保持跨尺度的语义丰富性。在DDFF 12场景真实场景数据集上的实验结果显示，相较于DfFintheWild，3D SCHAM在深度值准确度度量的3个阈值 $1.25,1 . 252, 1 . 25 三$ 上的精确度分别提升了15.34%、3.62%、0.86%，验证了该模型在真实场景的鲁棒性。

关键词: 三维形貌重建, 时空注意力, 深度学习, 空间依赖关系, 深度图

摘要：

聚焦形状恢复通过建模场景深度和离焦模糊之间的潜在关系来实现三维形状重建。然而，现有的三维形状重建网络不能有效地利用图像序列的序列相关性进行表征学习。因此，基于多深度图像序列的空间相关性特征的深度网络框架，即3D空间相关性地平线分析模型（3D SCHAM）提出了一种用于三维形状重建的方法，该方法不仅可以准确地捕获单个图像帧中从聚焦区域到散焦区域的边缘特征，而且可以有效地利用不同图像帧之间的空间相关性特征。首先，通过构建深度、宽度和感受野复合延伸的网络，建立三维形状重建的时间连续模型，以确定单点深度结果。其次，引入基于空间相关性的注意模块，充分学习帧间“邻接”和“距离”的空间依赖关系。此外，残差-覆盖瓶颈用于重采样，以保持跨尺度的语义丰富性。在DDFF 12场景真实场景数据集上的实验结果表明，与DfFintheWild模型相比，3D SCHAM模型在三个阈值下的准确性 $1.25,1 . 252, 1 . 25 三$ 分别提高了15.34%、3.62%和0.86%，验证了3D SCHAM在真实场景中的鲁棒性。

关键词： 三维形状重建，时空关注，深度学习，空间依赖关系，深度图

中图分类号:

TP391.41型

盖彦辛, 闫涛, 张江峰, 郭小英, 陈斌. 基于时空注意力的空间关联三维形貌重建[J] ●●●●。计算机应用, 2024, 44(5): 1570-1578.

葛彦欣、陶燕、张江峰、郭晓英、陈斌。基于时空注意的空间相关性三维形状重建[J]。计算机应用杂志，2024，44（5）：1570-1578。

图/表9

参考文献37

1	NAYAR S K，NAKAGAWA Y.焦点形状〔J〕。IEEE模式分析和机器智能汇刊，1994，16（8）： 824-831.10.1109/34.308479
2	JEON H G，SURH J，IM S，等.快速抗噪声聚焦深度的环差滤波器〔J〕。IEEE图像处理汇刊，2020，29： 1045-1060.10.1109/提示2019.2937064
三	佩尔图兹S，PUIG D，GARCíA MáD。形状-自聚焦聚焦测度算子的分析〔J〕。模式识别，2013，46（5）： 1415-1432.10.1016/j.patcog.2012.11.011
4	SAKURIKAR P，NARAYANAN P J.高质量深度图的复合聚焦测量〔C〕//2017 IEEE计算机视觉国际会议论文集。皮斯卡塔韦：IEEE2017： 1623-1631.10.1109/iccv.2017.179
5	HONAUER K，JOHANNSEN O，KONDERMANN D，et al.4D光场深度估计的数据集和评估方法〔C〕//2016年亚洲计算机视觉会议论文集。查姆：斯普林格2017： 19-34.10.1007/978-3-319-54187-7_2
6	MAHMOOD M T，CHOI T S.基于聚焦形状的图像聚焦体增强非线性方法〔J〕。IEEE图像处理汇刊，2012，21（5）： 2866-2873.10.1109/tip.2012.2186144
7	FAN T，YU H.一种基于3D可控制滤波器的新型聚焦形状方法，用于改善无纹理区域的处理性能〔J〕。光学通信，2018，410： 254-261.2016年10月10日/j.optcom.2017.10.19
8	TSENG C Y，WANG S J.基于空间一致性模型的形状-自聚焦深度重建〔J〕。IEEE视频技术电路和系统汇刊，2014，24（12）： 2063-2076.10.1109/tcsvt.2014.2358873
9	HAZIRBAS C，SOYER S G，STAAB M C，等.聚焦深度〔C〕//2018亚洲计算机视觉会议论文集。查姆：斯普林格2019： 525-541.10.1007/978-3-030-20893-6_33
10	MAXIMOV M，GALIM K，LEAL-TAIX等人。聚焦离焦：桥接用于深度估计的合成域与真实域间隙〔C〕//2020 IEEE/CVF计算机视觉与模式识别会议论文集。皮斯卡塔韦：IEEE2020： 1068-1077.10.1109/cvpr42600.2020.00115
11	王南华，王荣，刘永乐，等.通过全焦点监控将无监督和监督的深度从焦点过渡到焦点〔C〕//2021年IEEE/CVF国际计算机视觉会议论文集。皮斯卡塔韦：IEEE2021： 12621-12631.10.1109/iccv48922.2021.01239
12	YANG F，HUANG X，ZHOU Z.差分聚焦体积离焦深度〔C〕//2022年IEEE/CFF计算机视觉和模式识别会议论文集。皮斯卡塔韦：IEEE2022： 12632-12641.10.1109/cvpr52688.2022.01231
13	山西大学.一种全局时空聚焦特征耦合的多景深三维形貌重建方法：CN202211130317.8〔P〕.2022-12-09。
	山西大学。一种全局时空聚焦特征耦合多深度场3三维形状重建方法：CN 202211130317.8〔P〕。2022-12-09.
14	张江峰，闫涛，陈斌，等.全局时空特征耦合的多景深三维形貌重建［记者：。计算机应用，2023，43（3）：894-902.
	张继发，颜涛，陈斌，等.全局时空特征耦合的多深度场三维形状重建〔J〕。计算机应用杂志，2023，43（3）： 894-902.
15	WON C，JEON H G.从野外聚焦中学习深度〔C〕//2022年欧洲计算机视觉会议论文集。查姆：斯普林格2022： 1-18.10.1007/978-3-031-19769-7_1
16	颜涛，吴平，钱毅，等.多尺度融合聚合PCNN在三维形状恢复中的应用〔J〕。信息科学，2020，536： 277-297.2016年10月10日/j.ins.2020.05.100
17	黄伟，景姿.多聚焦图像融合中聚焦测度的评价〔J〕。模式识别字母，2007，28（4）： 493-500.2016年10月10日/j.patrec.2006.09.005
18	AHMAD M B，CHOI T S.图像聚焦三维形状在LCD/TFT显示器制造中的应用〔J〕。IEEE消费电子交易，2007，53（1）： 1-4.10.1109/tce.2007.339492
19	MALIK A S，CHOI T S.噪声存在下利用图像聚焦进行三维形状恢复的深度图估计新算法〔J〕。模式识别，2008，41（7）： 2200-2225.2016年10月10日/j.patcog.2007年12月14日
20	WEE C Y，PARAMESRAN R.利用特征值测量图像清晰度〔J〕。信息科学，2007，177（12）： 2533-2552.10.1016/j.ins.2006.12.023
21	YANG G，NELSON B J.基于小波的显微图像自动聚焦和无监督分割〔C〕//2003 IEEE/RSJ智能机器人与系统国际会议论文集：第3卷。皮斯卡塔韦：IEEE2003： 2143-2148.10.1109/iros.2003.1249176
22	李世英，杨俊堂，库马尔，等.数码相机鲁棒自动调焦的能量比降维方法〔J〕。IEEE信号处理信件，2009，16（2）： 133-136.10.1109/lsp.2008.2008938
23	MAHMOOD M T，CHOI T S.基于S变换中高频分量能量的聚焦测量〔J〕。光学字母，2010，35（8）： 1272-1274.10.1364/ol.35.001272
24	GAGANOV V，IGNATENKOO A.通过马尔可夫随机场聚焦的鲁棒形状[EB/OL]2023-01-20］..
25	莫勒·M，本宁·M，肖恩利布·C·B，等.聚焦重建的变深度〔J〕。IEEE图像处理汇刊，2015，24（12）： 5369-5378.10.1109/提示2015.2479469
26	BOSHTAYEVA M，HAFNER D，WEICKERT J.各向异性深度图平滑聚焦融合框架〔J〕。模式识别，2015，48（11）： 3310-3323.2016年10月10日/j.附件2014.10.008
27	ALI U，PRUKS V，MAHMOOD M T.通过三维加权最小二乘法从焦点到形状的图像聚焦体积正则化〔J〕。信息科学，2019，489： 155-166.10.1016/j.ins.2019.03.056
28	ALI U，MAHMOOD M T.通过三维加权最小二乘法聚合基于三维小波变换的图像聚焦体实现三维形状恢复〔J〕。数学成像与视觉杂志，2020，62（1）： 54-72.2007年10月10日/10851-019-00918-8
29	THELEN A，FREY S，HIRSCHS，等.从聚焦算子、邻域大小和高度值插值方面改进全息重建的形状-自聚焦[J]。IEEE图像处理汇刊，2009，18（1）： 151-157.10.1109/tip.2008.2007049
30	DOSOVITSKIY A，BEYER L，KOLESNIKOV A，等.图像值16×16个单词：用于大规模图像识别的变形金刚[EB/OL].〔2023-01-20］..
31	RONNEBERGER O，FISCHER P，BROX T.U-Net:用于生物医学图像分割的卷积网络〔C〕//2015年医学图像计算和计算机辅助干预国际会议论文集。查姆：斯普林格2015： 234-241.10.1007/978-3-319-24574-4_28
32	郭杰，韩凯，吴华，等.卷积神经网络与视觉变换器的结合〔C〕//2022 IEEE/CVF计算机视觉与模式识别会议论文集。皮斯卡塔韦：IEEE2022： 12165-12175.10.1109/cvpr52688.2022.01186
33	GULATI A，QIN J，C-C CHIU，等.Conformer:用于语音识别的卷积增强变换器〔C/OL〕//INTERSPEECH 2020会议录〔S.l.]:ISCA，2020年[2023-02-17]。。10.21437/周间.200-3015
34	胡杰，沈力，阿尔巴尼，等.压缩和激励网络〔J〕。IEEE模式分析和机器智能汇刊，2020，42（8）： 2011-2023.10.1109/tpami.2019.2913372
35	刘志，林毅，曹毅，等.Swin Transformer：基于平移窗口的层次视觉变换器〔C〕//2021 IEEE/CVF国际计算机视觉会议论文集。皮斯卡塔韦：IEEE2021： 9992-10002.10.1109/iccv48922.2021.00986
36	SZEGEDY C，WEI L，JIA Y，et al.深入研究卷积〔C〕//2015 IEEE计算机视觉与模式识别会议论文集。皮斯卡塔韦：IEEE2015： 1-9.2010年10月10日/2015年7月298594日
37	TAN M，LE Q V.EfficientNet:卷积神经网络模型缩放的再思考〔C〕//第36届机器学习国际会议论文集。纽约：JMLR2019： 6105-6114.

模型	网络结构						MSE公司	MAE公司	绝对相对湿度
	卷积核大小		B类₁∶B类₂∶B类_三∶B类₄		R（右）₁∶R（右）₂∶R（右）_三∶R（右）₄
	7×7×7	5×5×5	2∶2∶2∶2	2∶2∶4∶2	2∶2∶2∶2	4∶4∶4∶4
SCHAM-B公司	√			√		√	零点零二八三	零点零六八五	零点一四九八
SCHAM-M公司		√	√			√	零点零二五六	零点零六二八	零点一四九八
SCHAM-L公司		√		√	√		零点零二三七	零点零六一三	零点零九八三
SCHAM公司		√		√		√	零点零二三七	零点零六一三	零点零九八三

模型	网络结构						MSE公司	MAE公司	绝对相对湿度
	卷积核大小		B类₁∶B类₂∶B类_三∶B类₄		R（右）₁∶R（右）₂∶R（右）_三∶R（右）₄
	7×7×7	5×5×5	2∶2∶2∶2	2∶2∶4∶2	2∶2∶2∶2	4∶4∶4∶4
SCHAM-B公司	√			√		√	零点零二八三	零点零六八五	零点一四九八
SCHAM-M公司		√	√			√	零点零二五六	零点零六二八	零点一四九八
SCHAM-L公司		√		√	√		零点零二三七	零点零六一三	零点零九八三
SCHAM公司		√		√		√	零点零二三七	零点零六一三	零点零九八三

模型	网络结构					毫秒	MAE公司	绝对相对湿度	计算时间/秒
模型	三维U-Net	个人通讯簿	安息日	桌棋类游戏	跳过（_res）	毫秒	MAE公司	绝对相对湿度	计算时间/秒
底座	√					零点零三一三	零点零六八九	零点一八零三	一点四四八二
SCHAM-P公司	√	√				零点零二八三	零点零六三九	零点一六八六	一点四七九三
SCHAM-S公司	√	√	√			零点零二七一	零点零六三四	零点一四四六	一点五零三二
SCHAM-T公司	√	√	√	√		零点零二三七	零点零六一三	零点零九八三	一点五四一五
SCHAM-R公司	√	√	√	√	√	零点零二八五	零点零六六八	零点一五零五	一点七六零三
SCHAM公司	√	√	√	√		零点零二三七	零点零六一三	零点零九八三	一点五四一五

模型	网络结构					MSE公司	MAE公司	AbsRel公司	计算时间/秒
模型	三维U-Net	个人通讯簿	安息日	桌棋类游戏	跳过（_res）	MSE公司	MAE公司	AbsRel公司	计算时间/秒
底座	√					零点零三一三	零点零六八九	零点一八零三	一点四四八二
SCHAM-P公司	√	√				零点零二八三	零点零六三九	零点一六八六	一点四七九三
SCHAM-S公司	√	√	√			零点零二七一	零点零六三四	零点一四四六	一点五零三二
SCHAM-T公司	√	√	√	√		零点零二三七	零点零六一三	零点零九八三	一点五四一五
SCHAM-R公司	√	√	√	√	√	零点零二八五	零点零六六八	零点一五零五	一点七六零三
SCHAM公司	√	√	√	√		零点零二三七	零点零六一三	零点零九八三	一点五四一五

模型	MSE/10^-4	对数RMSE	绝对相对湿度	δ			模型	毫秒/10^-4	日志-RMSE	绝对相对湿度	δ
模型	MSE/10^-4	对数RMSE	绝对相对湿度	1.25	1.25²	1.25^三	模型	毫秒/10^-4	日志-RMSE	绝对相对湿度	1.25	1.25²	1.25^三
RDF公司	91.81	0.91	1	零点一五六五	零点三三零八	零点四七四八	FV-Net公司	6.49	0.23	0.14	零点七一九三	零点九二八零	零点九七八六
迪拜免税店	9.10	0.28	0.17	零点六一九五	零点八五一四	零点九二九八	DFV-Net公司	5.70	0.21	0.13	零点七六七四	零点九四二三	零点九八一四
散焦网	8.61	0.23	0.15	零点七二五六	零点九四一五	零点九七九二	DfFintheWild公司	5.70	0.21	0.17	零点七七九六	零点九三七二	零点九七九四
AiF深度网	8.60	0.29	0.25	零点六八三三	零点八七四零	零点九三九六	三维SCHAM	6.27	0.14	0.12	零点八九九二	零点九七一一	零点九八七八

基于时空注意力的空间关联三维形貌重建

基于时空注意的空间相关性三维形状重建

RichHTML格式

PDF格式

可视化

摘要/摘要

引用本文

使用本文

图/表9

参考文献37

相关文章15

编辑推荐

韵律学

数据集	模型	MSE/10^-2	RMSE公司	绝对相对湿度	δ
数据集	模型	MSE/10^-2	RMSE公司	绝对相对湿度	1.25	1.25²	1.25^三
散焦网	散焦网	1.75	零点一三四二	零点一五零二	零点八一一四	零点九三三一	零点九六六二
	AiF深度网	1.27	零点一三零三	零点一一一五	零点八一二三	零点九四四零	零点九七四五
	FV-Net公司	1.88	零点一二五零	零点一四一零	零点八一一六	零点九四九七	零点九八零八
	DFV-Net公司	2.05	零点一二九零	零点一三零零	零点八一九零	零点九四六八	零点九八零五
	GSTFC公司	0.98	零点零九一零	—	—	—	—
	DfFintheWild公司	0.86	零点零八五九	零点零八零九	零点九一三六	零点九七六零	零点九八九九
	三维SCHAM	0.96	零点一零九四	零点一零三九	零点八八九二	零点九六六四	零点九七四二
4D光场	散焦网	5.93	零点二三五五	—	—	—	—
	AiF深度网	4.72	零点二三九八	零点九八三七	零点八三二六	零点九零六二	零点九二二零
	FV-Net公司	3.01	零点一五三七	零点一八九九	零点八五四九	零点九二四一	零点九五零三
	DFV网络	3.17	零点一五四九	零点一九一五	零点八六二三	零点九二二五	零点九四七六
	DfFintheWild公司	2.30	零点一二八八	零点一六六九	零点九三三一	零点九五九九	零点九七一三
	三维SCHAM	2.37	零点一三八三	零点零九二七	零点八七三四	零点九三一九	零点九五四九

[1]	时旺军, 王晶, 宁晓军, 林友芳.小样本场景下的元迁移学习睡眠分期模型[J] ●●●●。《计算机应用》唯一官方网站, 2024, 44(5): 1445-1451.
[2]	杨先凤, 汤依磊, 李自强.基于交替注意力机制和图卷积网络的方面级情感分析模型[J] ●●●●。《计算机应用》唯一官方网站, 2024, 44(4): 1058-1064.
[3]	王铂越, 李英祥, 钟剑丹.基于改进Res-UNet公司的昼夜地基云图分割网络[J] ●●●●。《计算机应用》唯一官方网站, 2024, 44(4): 1310-1316.
[4]	万泽轩, 谢春丽, 吕泉润, 梁瑶.基于依赖增强的分层抽象语法树的代码克隆检测[J] ●●●●。《计算机应用》唯一官方网站, 2024, 44(4): 1259-1268.
[5]	唐睿, 岳士博, 张睿智, 刘川, 庞川林.无人机协助下非正交多址接入使能的数据采集系统中能效优化机制[J] ●●●●。《计算机应用》唯一官方网站, 2024, 44(4): 1209-1218.
[6]	孙祥杰, 魏强, 王奕森, 杜江.代码相似性检测技术综述[J] ●●●●。《计算机应用》唯一官方网站, 2024, 44(4): 1248-1258.
[7]	张鹏飞, 韩李涛, 冯恒健, 李洪梅.基于注意力机制和全局特征优化的点云语义分割[J] ●●●●。《计算机应用》唯一官方网站, 2024, 44(4): 1086-1092.
[8]	唐瑶瑶, 朱叶晨, 刘仰川, 高欣.计算机断层扫描图像环形伪影去除方法研究现状及展望[J] ●●●●。《计算机应用》唯一官方网站, 2024, 44(3): 890-900.
[9]	蔡美玉, 朱润哲, 吴飞, 张开昱, 李家乐.基于注意力机制和多粒度特征融合的跨视角匹配模型[J] ●●●●。《计算机应用》唯一官方网站, 2024, 44(3): 901-908.
[10]	董炜娜, 刘佳, 潘晓中, 陈立峰, 孙文权.基于编码-解码网络的大容量鲁棒图像隐写方案[J] ●●●●。《计算机应用》唯一官方网站, 2024, 44(3): 772-779.
[11]	赵奎, 仇慧琪, 李旭, 徐知非.结合注意力和多路径融合的实时肺结节检测算法[J] ●●●●。《计算机应用》唯一官方网站, 2024, 44(3): 945-952.
[12]	徐大鹏, 侯新民.基于网络结构设计的图神经网络特征选择方法[J] ●●●●。《计算机应用》唯一官方网站, 2024, 44(3): 663-670.
[13]	李雨秋, 侯利萍, 薛健, 吕科, 王泳.基于内容解译的遥感图像推荐方法[J] ●●●●。《计算机应用》唯一官方网站, 2024, 44(3): 722-731.
[14]	张家伟, 高冠东, 肖珂, 宋胜尊.基于改进分层注意网络和文本CNN联合建模的暴力犯罪分级算法[J] ●●●●。《计算机应用》唯一官方网站, 2024, 44(2): 403-410.
[15]	宋钰丹, 王晶, 王雪徽, 马朝阳, 林友芳.基于自适应多任务学习的睡眠生理时序分类方法[J] ●●●●。《计算机应用》唯一官方网站, 2024, 44(2): 654-662.