Gross Floor Area Estimation from Monocular Optical Image Using the NoS R-CNN

Ji, Chao; Tang, Hong

doi:10.3390/rs14071567

开放式访问第条

利用NoS R-CNN从单眼光学图像估计总建筑面积

通过

Chao Ji公司

和

洪唐

^*

北京师范大学地理科学学院遥感科学国家重点实验室，北京100875

^*

信件应寄给的作者。

远程传感器。 2022,14(7), 1567;https://doi.org/10.3390/rs14071567

收到的提交文件：2022年2月13日/修订日期：2022年3月21日/接受日期：2022年3月22日/发布日期：2022年3月24日

（本文属于特刊光学遥感在城市地区的应用II)

下载

浏览地物

版本注释

摘要

:

总建筑面积定义为建筑层数与其基础面积的乘积。总建筑面积获取是估算建筑面积比率的核心问题，建筑面积比率是许多地理分析的重要指标。现有总建筑面积采集方法的数据采集成本高或方法固有缺陷限制了其广泛应用。本文提出了三种基于NoS R-CNN的单目光学图像不同程度端到端学习的实例化总建筑面积估计方法，该网络是一种用于估计建筑层数的深度卷积神经网络。据我们所知，这是首次尝试从单目光学卫星图像估算实例的总建筑面积。为了比较这三种方法的性能，我们对来自中国九个城市的数据集进行了实验，并对结果进行了详细分析，以探究不同方法之间性能差异的原因。结果表明，对于基准面积估算任务和总建筑面积估算任务，模型性能与端到端学习程度成反比。对所提方法的定量和定性评估表明，所提方法在精确GFA估计方面的性能在使用大规模遥感图像时具有潜在的应用前景。所提出的方法为总建筑面积/建筑面积比估算和下游任务（如人口估算、生活条件评估等）提供了新的视角。

关键词：

总建筑面积;单目光学图像;端到端模型;深度学习;建筑面积比

1.简介

总建筑面积（GFA）是估算建筑物可用面积的一个重要指标，它可以由楼层数（NoS）与其基础面积（BA）的乘积来计算。在广泛范围内获取GFA对于许多应用具有高度相关性，例如城市规划、人口估算、地震后损害评估。例如，建筑面积比是建筑密度最重要的指标之一，定义为感兴趣区域内所有建筑的总建筑面积之和与感兴趣区域面积之比。建筑面积比率的获取依赖于获取感兴趣区域内每栋建筑的总建筑面积。换句话说，实例化GFA采集是容积率采集的核心问题。

由于遥感技术具有大范围、低时间消耗的地面观测能力，已成为获取GFA的重要手段。一般来说，借助遥感获取GFA有两个过程：BA的获取和NoS的获取。前者可以通过分割遥感图像中建筑物的足迹来实现，这已经得到了广泛的研究和应用[1,2]. 后者更为复杂，因此人们可能认为NoS信息无法直接从遥感图像中提取[三]. 在粗略的假设下，建筑物高度和NoS可以大致转换为彼此，因此建筑物高度的提取往往是遥感提取NoS的前提[4,5]. GFA估计的研究一直侧重于建筑物高度的获取，因为它与BA获取相比难度更高，而这些研究的主要区别在于提取建筑物高度的方法不同。利用主动遥感的优点，利用光探测和测距（LiDAR）和合成孔径雷达（SAR）数据提取建筑物高度[6,7,8]. 利用光学立体图像的归一化数字表面模型提取建筑物高度信息[9,10,11,12]. 上述所有用于建筑物高度提取的方法都具有较高的精度，但由于处理时间长和数据采集成本高，难以在大范围内使用。为了克服这些缺点，许多研究试图从单目光学图像中提取GFA，因为它便于采集和处理。其中，参考文献。[13,14]提取建筑物阴影，然后从高空间分辨率光学单目图像中测量其长度。基于考虑太阳、传感器和建筑物的相对位置的几何模型，可以根据建筑物阴影的长度估计建筑物的高度。这些方法依赖于一个关键假设，即可以从图像中提取完整的建筑阴影，但这并不总是成立的，因为阴影可以被其他建筑遮挡。此外，上述所有GFA采集方法都依赖于建筑物高度和NoS之间转换的人工规则，这不适用于广泛的应用。除了上述在提取GFA之前分别提取NoS和BA的方法外，很少有方法通过单目光学图像的端到端回归来估计GFA。其中，参考[15]提取建筑物阴影区域，然后使用学习的线性回归模型回归GFA，该方法也无法克服上述基于阴影的方法的不足。参考[16]利用深度卷积神经网络（CNN）对给定网格中所有建筑的GFA进行平均，得到像素级GFA，该网络的空间分辨率太低，无法获得建筑实例的GFA信息。

为了改进上述NoS估算方法的缺点，参考[三]提出了NoS R-CNN，这是一种深度神经网络，用于联合检测建筑物目标，并在不预先估计建筑物高度的情况下，从单目光学图像中估计检测到的建筑物目标的NoS。NoS R-CNN由面具R-CNN修改而来[17]这是一种实例分割网络。由于NoS R-CNN是为建筑物目标检测任务和NoS估计任务设计的，因此网络的建筑物足迹实例分割输出仅用于训练阶段以获得辅助损失，而不用于推理阶段。但如果我们在推理阶段重用建筑足迹实例分割输出来获取BA信息，并联合使用检测到的建筑的NoS和输出，则NoS R-CNN可以直接用于建筑实例的GFA估计。为了避免提取建筑物高度，然后设计将建筑物高度转换为NoS的规则，NoS R-CNN将NoS视为建筑物的一种属性，以便于从图像进行端到端的预测。这种设计启发我们提出了一个问题，即是否可以以端到端的方式分别估算NoS和BA来估算GFA。或者甚至可以在不预先分别提取NoS和BA的情况下获得端到端GFA估计值吗？为了回答上述问题，我们提出了三种基于NoS R-CNN的单目光学图像实例化建筑GFA估计方法。此外，我们在我们的数据集上进行了实验，以比较和分析所提方法的结果。

本文的主要贡献如下：

据我们所知，所提出的方法是第一种直接从单目光学卫星图像中估计实例总建筑面积的方法。与现有的相关方法相比，我们的方法有三个关键创新：
（a）
与基于激光雷达和合成孔径雷达数据的方法相比[6,7,8]或光学立体图像[9,10,11,12]在推理阶段，我们的方法仅使用单目光学卫星图像，这在数据采集和处理方面更加方便。
（b）
与基于建筑物阴影的方法相比[13,14,15]我们的方法只适用于有限的简单场景，不局限于特定的应用场景，可以广泛应用。
（c）
与基于CNN的方法相比[16]该方法只能生成低空间分辨率的像素级GFA，可以联合检测建筑对象并估计检测到的建筑对象的实例化GFA，提供细粒度的空间信息，可以用于更广泛的下游任务。
在不同程度的端到端学习中，我们在统一的网络架构（即NoS R-CNN）中设计了三种由不同训练和推理策略生成的GFA估计方法。基于我们的数据集的实验结果，报告并比较了这三种方法的性能。

本文的其余部分组织如下：在第二部分中，我们描述了所提出的三种方法的网络结构、损失函数、数据集和实验配置。然后，报告和分析数据集上的结果。讨论在第四部分中进行了描述。最后，在最后一节得出结论。

2.方法和数据

考虑到所提出的三种方法都是基于NoS R-CNN的，我们在第2.1节然后，我们描述了所提出的三种GFA估计方法的网络结构第2.2节，关注与NoS R-CNN相比的变化。在第2.3节，我们描述了所提出网络的损失函数和实验的实现细节。我们实验中使用的数据集描述如下第2.4节.

2.1. 美国有线电视新闻网

NoS R-CNN是第一种从单目光学图像构建NoS估计的端到端方法。NoS R-CNN中的网络结构是从经典实例分割网络（即Mask R-CNN）修改而来的，通过添加一个新的分支来预测NoS，从而提高了同时检测建筑对象和估计NoS的能力。有关NoS R-CNN的详细信息，我们建议读者参考[三]. 我们使用中描述的架构的“NoS分支集成”[三]作为我们方法的基本网络架构，其主要架构如所示图1主干网负责从输入图像生成特征地图，并根据提取的特征地图由区域建议网络（RPN）生成类别无关的感兴趣区域（RoI）。RoI对齐提取与RoI对应的特征，以获得区域特征地图，该地图将发送给三个下游分支。检测部门负责构建对象检测任务，以确定RoI的语义和准确位置。NoS分支负责NoS预测任务，预测检测到的建筑对象的NoS。掩码分支负责实例分割任务，生成RoI中建筑足迹的分割掩码。

2.2. 基于NoS R-CNN的GFA估计的三种方法

我们设计了三种基于NoS R-CNN的GFA估计方法，这些方法是在统一的网络结构中，在不同程度的端到端学习中，通过不同的训练和推理策略生成的。三种建议方法的网络架构如所示图2。拟建网络增加了BA分支和GFA分支（由图2)分别基于用于端到端BA和GFA预测的NoS R-CNN。BA分支和GFA分支的网络架构与NoS分支一致，如所示图3具体来说，NoS/BA/GFA分支以检测到的建筑对象的区域特征作为输入。检测到的建筑物目标的区域特征将被两个完全连接的层进一步处理，NoS/BA/GFA的预测将作为标量输出。下面详细描述了这三种提议的方法。

2.2.1. 基于掩码分支（MBB）的GFA估计

该方法仅在训练和推理阶段使用检测、NoS和掩码分支。利用NoS分支的预测作为NoS估计，通过计算掩模分支预测的建筑物像素数来获得建筑物的BA。GFA预测结果如下：

{全球金融账户}_{M（M） B类 B类} = P（P） 第页 {e（电子）}_{n个 o个 秒} \times N个 u个 米_{第页 o个 秒_第页 我 x} \times A类 第页 e（电子） 一_{第页 我 x}

(1)

哪里

{全球金融账户}_{M（M） B类 B类}

是该方法的GFA预测，

P（P） 第页 {e（电子）}_{n个 o个 秒}

是NoS预测，它是NoS分支的输出，

N个 u个 米_{第页 o个 秒_第页 我 x}

是分段掩码中的正像素数，它是掩码分支的输出，

A类 第页 e（电子） 一_{第页 我 x}

像素的接地面积。

2.2.2. 基于BA分支的（BABB）GFA估计

这种方法与MBB类似，两者的区别在于BA的获取方式。具体来说，在训练阶段使用检测、NoS、掩码和BA分支。其中的屏蔽支路仅用于获得辅助损耗[17]另外三个分支也用于推理阶段。NoS分支的输出用作NoS预测，BA分支的输出也用作端到端BA估计。GFA预测结果如下：

{全球金融账户}_{B类 A类 B类 B类} = P（P） 第页 {e（电子）}_{n个 o个 秒} \times P（P） 第页 {e（电子）}_{B类 A类}

(2)

哪里

{全球金融账户}_{B类 A类 B类 B类}

是该方法的GFA预测，

P（P） 第页 {e（电子）}_{n个 o个 秒}

和

P（P） 第页 {e（电子）}_{B类 A类}

分别是NoS分支和BA分支的输出。

2.2.3. 基于GFA分支（GBB）的GFA估计

与上述两种方法不同的是，该方法在推理阶段没有明确生成NoS和BA预测，而是进行端到端的GFA预测。具体来说，该方法使用训练阶段的所有五个分支，并使用NoS、BA和掩码分支来获得辅助损失。在推理阶段，只使用检测和GFA分支，GFA分支的输出用作检测分支检测到的建筑物的最终GFA预测。

2.2.4. 三种方法的训练/推理策略比较

为了便于理解上述三种方法之间的差异，我们在表1.“/”前/后的符号表示相应分支的训练/推理策略。对于培训策略，“√”表示对应的分支机构在培训阶段接受过培训，“×”表示没有。对于推理策略，“√”表示对应分支的输出用于GFA实例预测，“×”表示不使用。

2.3. 损失函数和实验实现细节

本文将NoS、BA和GFA预测设计为回归任务，因此我们使用平滑L1函数[18]它通常在回归任务中用作附加BA和GFA分支的损失函数。上述三个回归任务的损失函数为：

{损失}_{第页 e（电子） 克} = \frac{\sum_{我 \in X（X）} 秒 米 o个 o个 t吨 {小时}_{L（左）}_{1} ({t吨}_{我} - {第页}_{我})}{| X（X） |}

(3)

哪里

X（X）

是训练集中具有NoS/BA/GFA基本事实（GT）的建筑对象，

| X（X） |

是中的建筑对象数

X（X）

，以及

{t吨}_{我}

，以及

{第页}_{我}

GT和建筑对象的预测我在里面

X（X）

.建议的三种方法的总损失为：

{损失}_{t吨 o个 t吨 一 我} = {损失}_{米 一 秒 k个_第页 c（c） n个 n个} + λ_{N个 o个 S公司} {损失}_{N个 o个 S公司} + λ_{B类 A类} {损失}_{B类 A类} + λ_{G公司 F类 A类} {损失}_{G公司 F类 A类}

(4)

哪里

{损失}_{t吨 o个 t吨 一 我}

是网络总损耗，

{损失}_{米 一 秒 k个 第页 c（c） n个 n个}

就是失去了面具R-CNN。

{损失}_{N个 o个 S公司}, {损失}_{B类 A类}

，以及

{损失}_{G公司 F类 A类}

是NoS、BA和GFA分行的损失，以及

λ_{N个 o个 S公司}, λ_{B类 A类}

，以及

λ_{G公司 F类 A类}

是它们的重量。

大多数实验配置和超参数与[三]，例如批量大小、学习率、预处理权重等。由于我们数据集中的少数建筑物没有NoS/GFA GT，因此它们没有用于NoS/GFA任务的损失计算或模型评估。式（4）中NoS、BA、GFA支路的损失重量如所示表2可以看出，BA和GFA分支的损失重量相对较小，尤其是GFA分支。这是因为相应支路的损失相对较大，我们发现除非使用较小的损失权重，否则相应支路上的损失无法减少。

2.4. 数据集

我们收集了九幅GF-2图像，它们位于中国的九个大城市，如北京、广州、厦门等[19]用于将多光谱数据与全色波段数据融合，其分辨率从4米提高到1米。由于所有图像几乎都是正形的，因此建筑物的足迹不会被其他建筑物遮挡，即使是高层建筑，建筑物的侧面也在图像中看不见，如所示图4。也可以从图4由于不能从图像中完全提取每个建筑物阴影，因此传统的基于阴影的NoS估计方法不能用于该场景。还收集了相应区域的建筑足迹轮廓矢量数据，并将其转换为与实例分割GT的图像数据具有相同空间分辨率的栅格数据。边界框和BA GT是从实例分割GT.我们数据集中的大多数建筑对象都有NoS GT，其GFA GT是通过生成NoS和BA GT获得的。我们将图像和对应的GT光栅数据划分为大小为256×256且无重叠的块作为实验样本，并将样本随机划分为训练集和测试集，其配置如所示表3.图5显示了数据集中样本的地理分布。图6a、 b显示了训练集和测试集上具有不同GFA的建筑数量的分布。图6c、 d显示了训练集和测试集上具有不同BA和NoS的建筑数量的分布。

3.结果

本文的目的是设计一种基于单目光学图像的GFA实例化估计方法，该方法包括两个任务：检测建筑物目标和估计被检测建筑物的GFA。建筑物检测结果是GFA估计结果的载体。所以，在实际场景中，建筑物目标检测精度和实例GFA估计精度是模型性能的两个决定因素。我们将在实验中评估这两个决定因素。为了更好地理解所提方法的性能，将详细分析MBB的结果。

3.1. 建筑检测任务

我们遵循了建筑检测任务的评估方法[三]. 具体来说，将概率阈值设置为0.5，以预测检测到的目标是否为建筑物。为了区分真阳性（TP）、假阳性（FP）和假阴性（FN）样本，将联合交集（IoU）阈值设置为0.5。F1、准确度和召回率被用作评估指标。由于本文的研究重点是GFA估计，而不是建筑物目标检测，因此目标检测方法直接基于掩码R-CNN，没有任何改进。为了准确评估所提方法的建筑物检测性能，我们在我们的数据集上引入了vanilla Mask R-CNN的性能，作为其他方法的基准。这些方法的建筑物检测性能如所示表4:

从表4我们可以看到，所提出的三种方法的检测性能几乎等同于香草掩模R-CNN，即使BABB略有改进。

3.2. GFA估算任务

我们使用预测模式A/B中的平均绝对误差（MAE）和联合平均交集（mIoU）作为GFA估计的度量，参考了[三]. MAE和mIoU的公式如等式（5）和（6）所示，其中

{第页}_{我}

和

{t吨}_{我}

是样本的预测和GT我分别是。由于保持了计算值的单位，MAE保留了物理意义，并且可以很容易地理解。度量值越小，模型的性能越好。但MAE只考虑了预测与GT之间的绝对误差，而忽略了绝对误差与相应GT的关系。例如，相同的绝对误差对于GFA较大和GFA较小的建筑物具有不同的意义。在这种情况下，我们引入了mIoU，它使用比率的形式，并考虑了预测值和真实值之间的关系。度量值越大，模型的性能越好。模式A中的指标用于评估模型在实际场景中的性能，而模式B中的指标则用于准确评估三种方法的差异。下面详细介绍两种预测模式。

在预测模式A中，将图像输入到模型中，模型输出建筑物检测结果和检测建筑物的GFA估计。仅对检测到的建筑物的TP样本进行GFA评估。由于不同的模型可能检测到不同的对象，因此不同模型的TP样本集通常是不同的。所以，当使用预测模式A时，对不同建筑对象集的模型进行评估，表明不同模型的比较并不严格准确。为了解决这个问题，引入了预测模式B，将测试集中所有建筑对象的图像和边界框GT输入到模型中，模型输出给定建筑对象的GFA估计。不同的方法在相同的建筑对象集上进行评估，并共享相同的边界框GT，不考虑检测结果对GFA估计的影响。所提出的三种方法在GFA估计任务上的性能如所示表5其中，“@TP”和“@all”分别以模式A和模式B的预测结果评估结束。

{MAE公司}_{X（X）} = \frac{\sum_{我 \in X（X）} | {第页}_{我} - {t吨}_{我} |}{| X（X） |}

(5)

{百万美元}_{X（X）} = \frac{\sum_{我 \in X（X）} | \frac{米 我 n个 ({第页}_{我}, {t吨}_{我})}{米 一 x ({第页}_{我}, {t吨}_{我})} |}{| X（X） |}

(6)

发件人表5可以看出，对于预测模式A，MBB在MAE上明显优于BABB和GBB。所有三种方法的性能在mIoU方面都非常接近。对于预测模式B，MBB在MAE和mIoU方面明显优于其他两种方法。BABB比GBB好一点。

3.3. MBB结果的进一步分析

由于MBB是所提出的三种方法中最好的方法，我们在测试集中的六个补丁上展示了模式A下MBB的预测图7及其指标表6以便更好地了解GFA估计的拟议方法的性能。考虑到GFA难以可视化，而MBB通过分别估计NoS和分割建筑足迹来预测GFA，因此显示了NoS估计和足迹分割的结果，以便直观地将报告的度量与模型的性能联系起来。

对于检测任务的性能，可以从图7存在多个FP/FN样本，这表明检测任务的性能有待提高，特别是对于小型建筑物。在一些建筑物中，复杂结构被检测为几个独立的建筑物图7c、这表明从1m空间分辨率卫星图像中检测建筑物的方法值得进一步改进。对于NoS估计，性能对于低矮建筑通常可以接受，对于高层建筑则不稳定。该问题在中进行了详细讨论[三]到目前为止，还没有得到很好的解决。对于建筑足迹分割，大多数建筑的主要结构都已被分割，但预测的边界并没有与地面真实情况精确对齐，特别是对于边界复杂的建筑。对于GFA估算任务，可以从表6MAE的范围从752到4018很大，这表明模型的绝对误差在很大程度上取决于场景。关于mIoU，其值在0.8左右波动，可以粗略推断，每栋建筑的GFA估计存在约20%的不确定性，这也可以从NoS估计性能和足迹分割结果中推断出来，如图7.

根据以上分析，可以得出两个结论：

由于使用MBB的GFA估计可以分为三个子任务，即建筑物检测、NoS估计和建筑物足迹分割，因此可以通过改进这三个子任务来提高GFA估计的性能。任何有助于实例分割的方法都可以提高建筑物检测任务和足迹分割任务的性能，例如使用更新的更强大的基础网络或主干。NoS估计的性能对GFA估计的性能至关重要，特别是对于具有较大BA的建筑物，其GFA的误差更容易被NoS预测的误差放大。但是，从单目光学卫星图像中准确估计NoS还没有得到广泛的研究，仍然是一个悬而未决的问题。我们认为，图像中建筑物的阴影有助于提高NoS估计的性能，但使用这些信息的有效方法还需要进一步研究。
从中可以看出表5和图7该方法的准确性对于GFA估计仍有希望。虽然模型的能力需要进一步提高，但任务本身，即从单目光学卫星图像估计实例全方位GFA，仍然是一个具有挑战性的问题。与激光雷达或光学立体图像相比，单目光学图像的可用信息有限，特别是对于NoS估计任务，可以在图7此外，所提出的方法不应仅依赖于特定的特征，例如建筑物的阴影，因此可以在广泛的范围内应用，包括复杂的场景。综上所述，所提出的方法对于不需要非常高的精度的应用是有价值的，因为模型的用户应该考虑模型的准确性和通用性以及成本之间的权衡。
由于土地资源的限制，快速城市化不仅在二维（2-D）上引起城市扩张，而且在三维（3-D）上也引起了城市扩张，特别是在中国[20,21]. 由于大规模三维数据采集的困难，大多数地理分析，如人口密度估计[22,23,24]，热岛强度[25,26]和地质-环境容量[27]对于大规模来说，都是基于二维信息的。虽然上述应用的结果可以从二维建筑覆盖分布中部分推断出来，但由于忽略了垂直方向的信息，一些误差是不可避免的，并且随着三维城市的快速扩张，误差将增加。尽管模型的能力需要进一步提高，对于基于二维信息的应用，所提方法的结果可以在一定程度上减小误差。例如，BA的GT和NoS的平均值可用于所有建筑实例来估计GFA，该方法仅使用二维信息来模拟方法，在我们的测试集上，二维信息的mIoU为0.566。与上述方法相比，即使BA的GT未用于MBB，mIoU为0.683的MBB对于每个建筑实例平均减少了约20%的误差。

4.讨论

4.1. 三种GFA估算方法的比较

根据GFA的定义，NoS和BA估计的性能直接关系到GFA估计的性能。为了探讨三种方法的性能差异，我们分析了NoS和BA估计任务的性能差异。MBB和BABB的GFA预测取决于推理阶段对NoS和BA的预测，这些预测可以明确地获得，用于评估MBB和BABB的BA和NoS估计的性能。在推理阶段，NoS和BA预测对于GBB的GFA估计不是必需的，但在训练阶段用于获得辅助损失以改进GFA估计。这里使用GBB在推理阶段的BA和NoS分支的输出来评估GBB的BA和NoS估计的性能。在本节中，我们使用预测模式A/B中的MAE作为度量，三种方法的性能如所示表7，其中“NoS”/“BA”表示NoS/BA估算任务。

我们首先讨论MBB和BABB。对于模式A，MBB和BABB在BA估计方面的性能相近，但MBB在NoS估计方面更好。因此，MBB较强的NoS估计能力可能是A模式下GFA估计性能更好的原因。对于B模式，虽然MBB在NoS估计方面不如BABB，但在BA估计方面明显更好。MBB在BA估计上的巨大优势可能是B模式下GFA估计性能更好的原因。

然后我们讨论BABB和GBB。对于模式A，GBB在NoS和BA估计任务上的性能不如BABB，但差距不大。因此，这两种方法在GFA估计任务上性能相近。对于模式B，两种方法在BA估计上的性能基本一致，但BABB在NoS估计上优于GBB。因此，BABB在NoS估计上的更好性能可能是模式B中GFA估计性能更好的原因。

可以看出，针对三种方法，即使用相同的损失权重、网络结构和其他超参数，对NoS分支进行了相同的训练。然而，对于NoS估计任务，它们的性能是不同的。可能的原因可能是，三种方法的多任务总损失不同，不同任务的损失可能会受到彼此的影响。同样的原因也可以用于解释BABB和GBB之间BA估计任务的性能差异。

4.2. 两种BA估计方法的比较

BA估计的方法是BABB和MBB的主要区别。对于BA估算任务，BABB遵循端到端的方式，而MBB则不遵循。为了进一步比较BABB和MBB的BA估计方法的性能，我们在图8，由四个子图形组成。左/右列显示MBB/BABB的结果，子图的顶/底行显示预测模式A/B的结果y=x在子图中，点越近，点的预测误差越小。可以看出，预测和GT在所有四个子图中都显示出正相关，并且分布的形状沿着y=x。对于BA较小的建筑物，误差也很小。随着BA的增加，具有大误差的预测数量也在增加。从图8a、 b，可以看出，模式a中MBB和BABB的分布大致相同，这与表7。来自图8c、可以看出，对于MBB的小BA值，存在许多低估的预测。这可能是因为BA较小的建筑物很难完全检测出来进行分割，从而导致BA估计不足。同样的情况也可以发现，但对于模式A来说并不明显，这可能是因为TP样本中含有小BA的建筑物较少，因为小BA建筑物检测困难。上述低估主要出现在小型BA建筑上，其误差通常较小，因此不会导致较大的MAE。从图8d、可以看出，对于BABB，上述低估并不明显，但BABB的预测更加分散，特别是对于BA较大的建筑物，这导致了相对较大的误差。因此，对于MAE，BABB的性能不如MBB。

4.3. 端到端时尚不是万能药

与依赖于手工设计的特征或单个组件模块的传统机器学习方法相比，深度学习最突出的优势之一是其基于端到端学习的固有特征工程能力。许多研究[28,29,30]展示了端到端设计相对于非端到端的性能优势，以及在没有端到端模型很难实现的新任务上取得的成功，例如单目图像的高度估计任务[31,32,33]. 为了充分利用端到端设计，本文提出的三种GFA估计方法在不同程度上使用了端到端的设计。对于BA估计任务，BABB直接从区域特征预测BA，而MBB段足迹则将其转换为BA。因此，两种方法之间的端到端学习程度为BABB>BA。对于GFA估计任务，GBB直接从区域特征预测GFA，而BABB和MBB都需要分别提取BA和NoS才能获得GFA。考虑到上述分析，所提出的三种方法的端到端学习程度可以为：GBB>BABB>MBB。BABB和BA分别提取BA和NoS取决于这两个子任务的准确性。从直观上看，这两种不太端到端的设计方法比GBB具有更大的性能不良风险，因为两个子任务中任何一个子任务的较大错误都会导致最终结果的性能不良。根据本文的实验结果，对于GFA和BA估计任务，模型性能与端到端学习程度之间存在反向关系。这一结果表明，对于GFA和BA评估任务来说，端到端的设计可能不是最佳选择，并且在任何情况下，端到端设计都不一定比端到端设计好。在我们的实验中，我们分析了端到端设计的方法与较少设计的方法相比性能较差的可能原因，如下所示：

培训数据不足。与端到端设计较少的模型相比，端到端的设计方法由于其数据驱动机制，通常依赖更多的训练数据来获得令人满意的性能。虽然我们实验中使用的训练数据比之前的研究中使用的要多得多，但对于更端到端设计的模型来说，可能不足以充分发挥其优势。
模型设计不当。据我们所知，本文是首次尝试使用深度卷积神经网络直接端到端估计实例化GFA，因此没有任何模型设计可供参考。我们基本上遵循受Mask R-CNN启发的检测任务管道进行GFA/BA预测。这种设计可能不适合GFA/BA估算任务。或者，更端到端的模型设计在本质上不适合GFA/BA估算任务。

4.4. 美国有线电视新闻网（CNN）无法取代这项任务吗？

在深度学习的帮助下，CNN在许多图像处理任务中取得了巨大成功，例如语义分割和目标检测。在本文中，我们尝试使用三种基于CNN的方法来实现GFA估计任务。有一个有价值的问题，在没有CNN的情况下，使用更轻量级的模型是否可能实现GFA估计任务的可比性能。为了回答这个问题，在本节的实验中引入了两个使用手工特征的流行的传统回归模型，即多层感知（MLP）和随机森林（RF），以回答这个问题。

上述两种方法的实现基于[34]. 对于MLP，使用5个隐藏层，每层100个神经元。对于RF，使用了100棵深度小于10的树。上述两种方法的其他超参数保留为中的默认设置[34]. 本节中使用的数据集与第2.4节每个建筑保险的手工特征描述如下：对于每个建筑实例，使用建筑足迹的分段GT作为内遮罩，将内遮罩展开10个像素以获得外遮罩。利用内模板提取输入图像各通道的均值和标准差，得到一个包含6个元素的特征向量作为建筑实例的内部特征。外部特征可以通过使用外部掩码来提取实例的特征，就像内部特征一样。内遮罩和外遮罩的示意图如所示图9将内部特征和外部特征串联起来，最终得到一个包含12个元素的特征向量，作为MLP和RF的每个建筑实例的特征。本文提出的基于CNN的模型和上述两种使用手工特征的传统方法的性能如所示表8.英寸表8CNN、MLP和RF根据端到端（ETE）的实例特征分别提取BA和NoS。CNN-ETE、MLP-ETE和RF-ETE估计的GFA。

发件人表8，可以看出：

基于CNN的方法在BA、NoS和GFA估计任务中表现出比MLP和RF更好的性能。这些结果表明，使用手持式特征（即MLP和RF）的传统方法可能不适用于这些困难的任务，因为单目光学卫星图像中关于NoS的信息有限，普通人甚至很难完成这些任务。虽然基于CNN的方法看起来更麻烦，但由于其数据驱动机制，它们确实显示出不可替代的能力。
MLP的端到端性能（MLP-ETE）优于MLP，这表明CNN-ETE和CNN的结论不一致。这些结果进一步表明了在第3.2节用于比较所提出的三种方法的性能。

5.结论

本文首次提出了基于单目光学图像的三种实例化GFA估计方法，即MBB、BABB、GBB。这三种方法都基于NoS R-CNN，并在不同程度上使用了端到端设计。与现有的GFA估计方法相比，该方法具有成本低、通用性强、灵活性强等优点。为了比较这三种方法的性能，我们对来自中国九个大城市的数据集进行了实验。结果表明，所提出的三种方法的建筑物检测性能几乎与vanilla Mask R-CNN相当，GFA估计性能排名为MBB>BABB>GBB，这是三种方法端到端学习程度的倒序。对结果进行了详细分析，以探讨这三种方法之间性能差距的原因，我们认为对于BA/GFA估计任务来说，端到端设计的方法更为困难。对所提方法的定量和定性评估表明，所提方法在精确GFA估计方面的性能在使用大规模遥感图像时具有潜在的应用前景。大规模实例化GFA收购将耗费大量的时间、人力和经济成本。随着遥感技术的发展，高分辨率单目光学卫星图像的获取越来越方便。虽然基于立体图像的方法或基于阴影的方法可以用于GFA采集，但由于数据采集成本高或方法固有的缺陷，这些方法无法在广泛的范围内应用。基于本文提出的方法，可以在现有数据的基础上对模型进行训练，然后将其应用于单目光学卫星图像中没有GFA信息的大范围区域，以快速、经济高效的方式获得实况GFA信息。我们希望本文能为相关方法和下游任务提供新的视角。

作者贡献

概念化，H.T。；资金收购，H.T。；调查、H.T.和C.J。；方法论，C.J。；软件，C.J。；所有作者均已阅读并同意手稿的出版版本。

基金

这项工作得到了国家自然科学基金（41971280号）的部分支持。

机构审查委员会声明

不适用。

知情同意书

不适用。

数据可用性声明

不适用。

利益冲突

作者声明没有利益冲突。

工具书类

Yang，N。；Tang，H.卫星图像的语义分割：与地理空间散列码集成的深度学习方法。远程传感器。 2021,13, 2723. [谷歌学者] [交叉参考]
黄，W。；Tang，H。；Xu，P.OEC-RNN：使用航空图像中的递归神经网络，对带有边角的屋顶进行面向对象的描绘。IEEE传输。地质科学。远程传感器。 2021,60, 5604912. [谷歌学者] [交叉参考]
纪，C。；Tang，H.使用改进的掩模R-CNN从单目卫星图像估计建筑物层数。远程传感器。 2020,12, 3833. [谷歌学者] [交叉参考]
Frantz，D。；舒格，F。；Okujeni，A。；纳瓦奇，C。；瓦格纳，W。；van der Linden，S。；Hostert，P.使用Sentinel-1和Sentinel-2时间序列绘制全国建筑高度图。远程传感器环境。 2021,252, 112128. [谷歌学者] [交叉参考]
曹毅。；Huang，X.一种使用城市地区高分辨率多视角图像进行建筑高度估算的深度学习方法：对42个中国城市的案例研究。遥感环境。 2021,264, 112590. [谷歌学者] [交叉参考]
王，C。；马，J。；Liang，F.基于城市地区机载激光扫描数据的建筑面积比提取。2010年7月25日至30日在美国夏威夷州火奴鲁鲁举行的2010年IEEE国际地球科学和遥感研讨会论文集；第1182-1185页。[谷歌学者]
Roca Cladera，J。；伯恩斯，M。；Alhaddad，B.E.卫星图像和激光雷达数据，用于有效描述居住城市土地使用分类中的结构和密度。远程传感器垃圾邮件。信息科学。 2013,XL-4/W1型, 71–75. [谷歌学者]
吴琼。；陈，R。；孙，H。；Cao，Y.使用高分辨率SAR图像检测城市建筑密度。2011年联合城市遥感活动会议记录，德国慕尼黑，2011年4月11日至13日；第45-48页。[谷歌学者]
温，D。；黄，X。；张，A。；Ke，S.使用多视角卫星图像监测中国特大城市内城区的3D建筑变化和城市再发展模式。远程传感器。 2019,11, 763. [谷歌学者] [交叉参考] [绿色版本]
彭，F。；龚，J。；Wang，L。；Wu，H。；Yang，J.建筑高度对基于星载立体图像的三维城市密度估算的影响。国际建筑协会。照片。远程传感器垃圾邮件。信息科学。 2016,41, 677–683. [谷歌学者]
张，X。；陈，Z。；Yue，Y。；齐，X。；Zhang，C.H.融合遥感和互联网数据计算城市容积率。持续性 2019,11, 3382. [谷歌学者] [交叉参考] [绿色版本]
Zhang，X.基于无人机图像和U-Net算法的村级宅基地和建筑面积估算。ISPRS国际地理信息杂志。 2020,9, 403. [谷歌学者] [交叉参考]
Duan，G。；龚，H。；刘，H。；Yi，Z。；Chen，B.利用高分辨率卫星图像建立改进的占地面积比。J.印度社会遥感。 2018,46, 275–286. [谷歌学者] [交叉参考]
吴义忠。；B·李。基于QuickBird图像的城市建筑面积比估算。先进材料研究; Trans-Tech出版有限公司：瑞士弗雷恩巴赫，2012年；第450卷，第614-617页。[谷歌学者]
Yan，M。；Xu，L.高分辨率图像中夜间数据与建筑面积比之间的关系模型。国际建筑协会。照片。远程传感器垃圾邮件。信息科学。 2017,42, 1419–1422. [谷歌学者] [交叉参考] [绿色版本]
张，F。；杜，B。；Zhang，L.，一种使用超高分辨率卫星图像和地理空间数据进行特大城市分析的多任务卷积神经网络。arXiv公司 2017，arXiv:1702.07985。[谷歌学者]
He，K。；Gkioxari，G。；多拉，P。；吉希克，R.Mask R-cnn。2017年3月13日至17日在日本东京举行的IEEE计算机视觉国际会议记录；第2961-2969页。[谷歌学者]
吉尔西克，R·法斯特。2015年12月11日至18日在智利拉斯康德斯举行的IEEE计算机视觉国际会议记录；第1440–1448页。[谷歌学者]
Sun，W。；陈，B。；用于光谱图像的基于最近邻扩散的泛锐化算法。选择。工程师。 2014,53, 013107. [谷歌学者] [交叉参考] [绿色版本]
刘，M。；马，J。；周，R。；李，C。；李，D。；Hu，Y.中国大陆城市建筑面积的高分辨率地图。朗诗。城市规划。 2021,214, 104187. [谷歌学者] [交叉参考]
曹琦。；栾，Q。；刘，Y。；Wang，R.二维和三维建筑形态对城市环境的影响：北京大都市圈的多尺度分析。生成。环境。 2021,192, 107635. [谷歌学者] [交叉参考]
科诺，T。；Kaneko，T。；Morisugi，H.最低建筑面积比监管的必要性：第二好政策。注册科学年鉴。 2010,44, 523–539. [谷歌学者] [交叉参考]
Wu，S。；邱，X。；Wang，L.地理信息系统和遥感中的人口估计方法：综述。地理科学。远程传感器。 2005,42, 80–96. [谷歌学者] [交叉参考]
Wang，L。；Wu，C.利用遥感和GIS技术进行人口估算。《国际遥感杂志》。 2010,31, 5569–5570. [谷歌学者] [交叉参考]
南苏丹。；Satyanarayana，A.N.V.，印度大城市冬季使用远程技术的城市热岛强度：城市化的影响。《国际遥感杂志》。 2018,39, 6692–6730. [谷歌学者] [交叉参考]
Shirani-Bidabadi，N。；Nasrabadi，T。；Faryadi，S。；拉里贾尼，A。；Roodposhti，M.S.利用遥感评估城市热岛的空间分布和强度，伊朗伊斯法罕市的案例研究。维持。城市社会。 2019,45, 686–692. [谷歌学者] [交叉参考]
崔，Z.-D。；唐永清。；严，X.-X。；Yan，C.-L。；王海明。；Wang，J.-X.基于建筑面积比ANFIS模型的建筑物地质环境容量评估。牛市。工程地质。环境。 2010,69, 111–118. [谷歌学者] [交叉参考]
任，S。；He，K。；Girshick，R。；Sun，J.Faster R-CNN：利用区域建议网络实现实时目标检测。IEEE传输。模式分析。机器。智力。 2017,39, 1137–1149. [谷歌学者]
陶，A。；萨普拉，K。；Catanzaro，B.语义分割的层次多尺度关注。arXiv公司 2020，arXiv:2005.10821。[谷歌学者]
Yu，J。；林，Z。；杨，J。；沈，X。；卢，X。；Huang，T.门限卷积的自由形式图像修复。2019年10月27日至28日在韩国首尔举行的IEEE/CVF国际计算机视觉会议记录；第4471–4480页。[谷歌学者]
阿米尔科莱，H.A。；Arefi，H.使用深度卷积编解码网络从单个航空图像进行高度估计。ISPRS J.摄影。远程传感器。 2019,149, 50–66. [谷歌学者] [交叉参考]
加米西，P。；Yokoya，N.IMG2DSM：使用条件生成对抗网从单个图像进行高度模拟。IEEE地质科学。遥感快报。 2018,15, 794–798. [谷歌学者] [交叉参考]
斯里瓦斯塔瓦，S。；沃尔皮，M。；Tuia，D.使用CNN对单目航空图像进行联合高度估计和语义标记。2017年7月23日至28日在美国德克萨斯州沃思堡举行的2017 IEEE国际地球科学与遥感研讨会（IGARSS）会议记录；第5173–5176页。[谷歌学者]
佩德雷戈萨，F。；瓦罗佐，G。；Gramfort，A.公司。；米歇尔，V。；蒂里昂，B。；O.格栅。；布隆德尔，M。；普雷滕霍弗，P。；韦斯，R。；杜堡，V。；等。Scikit-learn：Python中的机器学习。J.马赫。学习。物件。 2011,12, 2825–2830. [谷歌学者]

图1。NoS R-CNN的主要架构。这个数字来自[三].

图2。提出方法的主要网络架构。

图3。BA分行和GFA分行的网络架构。这个数字来自[三].

图3。BA分行和GFA分行的网络架构。此数字来自[三].

图4。高层建筑数据集中的图像。

图5。数据集中图像的地理分布。这个数字来自[三].

图5。数据集中图像的地理分布。此数字来自[三].

图6。数据集中样本的统计分布。(一)GFA在训练数据集中的分布。(b条)GFA在测试数据集中的分布。(c（c）)训练数据集中NoS和基区的联合分布。(d日)测试数据集中NoS和面积的联合分布。

图7。模式A下MBB的预测结果有六个子图(一–（f）)，分别对应于六个选定的补丁。每个子图显示模式A中MBB的“TP”、“FP”和“FN”预测。边界框的颜色没有特定含义，只是为了区分不同的建筑实例。大多数边界框都有一对由“|”分隔的数字。对于TP样本，第一个数字是模型的NoS预测，第二个数字是NoS GT。以“FP”/“FN”开头的边界框是“FP“/”FN“对象，这些对象的数字是预测值/真值。图中显示的所有预测值都已向上舍入或向下舍入到最接近的小数点。例如，标签为“4|6”的边界框表示该边界框是对“真正”样本的预测，该样本的NoS预测和基本真值分别为4和6。标签为“FP|3”的边界框表示该边界框是对NoS预测为3的“假阳性”样本的预测。标签为“FN|1”的边界框表示该边界框是NoS基本真理为1的“假阴性”样本的基本真理。对于每个TP样本，分割的TP/FP/FN像素以透明的黄色/红色/绿色显示。

图7。模式A下MBB的预测结果有六个子图(一–（f）)，分别对应于六个选定的补丁。每个子图显示了模式A中MBB的“TP”、“FP”和“FN”预测。边界框的颜色没有具体含义，只是为了区分不同的建筑实例。大多数边界框都有一对由“|”分隔的数字。对于TP样本，第一个数字是模型的NoS预测，第二个数字是NoS GT。以“FP”/“FN”开头的边界框是“FP“/”FN“对象，这些对象的数字是预测值/真值。图中显示的所有预测值都已向上舍入或向下舍入到最接近的小数点。例如，标签为“4|6”的边界框表示该边界框是对“真正”样本的预测，该样本的NoS预测和基本真值分别为4和6。标签为“FP|3”的边界框表示该边界框是对NoS预测为3的“假阳性”样本的预测。标签为“FN|1”的边界框表示该边界框是NoS基本真理为1的“假阴性”样本的基本真理。对于每个TP样本，分割的TP/FP/FN像素以透明的黄色/红色/绿色显示。

图8。BA的预测和GT的联合分布(一)模式A下MBB的结果(b条)模式A下BABB的结果(c（c）)模式B中MBB的结果(d日)模式B下BABB的结果。y=x在每个子图中以红色绘制。

图8。BA预测和GT的联合分布(一)模式A下MBB的结果(b条)模式A下BABB的结果(c（c）)模式B下MBB的结果(d日)模式B下BABB的结果。y=x在每个子图中以红色绘制。

图9。内罩和外罩示意图。

表1。三种方法的训练/推理策略。

	检测	网络操作系统	面具	文学士	全球金融账户
方法	检测	网络操作系统	面具	文学士	全球金融账户
MBB公司	√/√	√/√	√/√	×/×	×/×
BABB公司	√/√	√/√	√/×	√/√	×/×
GBB公司	√/√	√/×	√/×	√/×	√/√

表2。三种方法的失重配置。

方法	$λ_{N个 o个 S公司}$	$λ_{B类 A类}$	$λ_{G公司 F类 A类}$
MBB公司	1	0	0
BABB公司	1	0.01	0
GBB公司	1	0.01	0.002

表3。数据集的配置。

数据集	修补程序数量	占地面积	无S/GFA燃气轮机的建筑物数量
培训	6202	406.45公里²	128025
测试	1551	101.65公里²	31927

表4。建立检测评估指标（%）。

方法	精密度	召回	一层楼
屏蔽R-CNN	48.2	43.7	45.8
MBB公司	48.8	43.1	45.8
BABB公司	53	42.2	47
GBB公司	54.1	38.9	45.3

表5。GFA估计评估指标。

方法	最大允许误差@TP	MAE@全部	米/盎司@TP	mIoU@全部
MBB公司	2468	1659	0.702	0.683
BABB公司	2563	1787	0.706	0.657
GBB公司	2565	1821	0.706	0.651

表6。模式A中MBB的六个测试补丁的度量。第一/第二列显示了BA/NoS估计性能的MAE。第三/第四列显示了GFA估计性能的MAE/mIoU。

子图形	BA的MAE	NoS的MAE	GFA的MAE	GFA的mIoU
（a）	146.6	2.58	1914	0.821
（b）	98.7	0.69	896	0.803
（c）	112.2	1.80	1077	0.700
（d）	129.5	1.26	4018	0.755
（e）	173.8	1.04	1572	0.804
（f）	75.4	0.85	752	0.852

表7。NoS和BA估计评估指标。

方法	TP时无S	否@全部	BA@TP	BA@全部
MBB公司	1.865	1.667	209.5	136.9
BABB公司	1.903	1.647	208.8	194.2
GBB公司	1.908	1.679	210.7	194.4

表8。测试集上CNN、MLP和RF的指标。

方法	BA的MAE	NoS的MAE	GFA的MAE	GFA的mIoU
美国有线电视新闻网（BABB）	194.2	1.65	1787	0.657
CNN-ETE（GBB）	\	\	1821	0.651
MLP公司	495.4	2.35	2490	0.417
MLP-ETE公司	\	\	2123	0.427
射频	858.9	2.06	2802	0.350
RF-ETE公司	\	\	2936	0.367

出版商备注：MDPI对公布的地图和机构关联中的管辖权主张保持中立。

分享和引用

MDPI和ACS样式

纪，C。；Tang，H。使用NoS R-CNN从单目光学图像估计总建筑面积。远程传感器。 2022,14, 1567.https://doi.org/10.3390/rs14071567

AMA风格

季聪、唐华。使用NoS R-CNN从单目光学图像估计总建筑面积。遥感. 2022; 14(7):1567.https://doi.org/10.3390/rs14071567

芝加哥/图拉宾风格

季、赵和洪唐。2022.“使用NoS R-CNN从单目光学图像估算总建筑面积”遥感14，第7期：1567。https://doi.org/10.3390/rs14071567

请注意，从2016年第一期开始，该杂志使用文章编号而不是页码。请参阅更多详细信息在这里.

文章菜单

利用NoS R-CNN从单眼光学图像估计总建筑面积

摘要

1.简介

2.方法和数据

2.1. 美国有线电视新闻网

2.2. 基于NoS R-CNN的GFA估计的三种方法

2.2.1. 基于掩码分支（MBB）的GFA估计

2.2.2. 基于BA分支的（BABB）GFA估计

2.2.3. 基于GFA分支（GBB）的GFA估计

2.2.4. 三种方法的训练/推理策略比较

2.3. 损失函数和实验实现细节

2.4. 数据集

3.结果

3.1. 建筑检测任务

3.2. GFA估算任务

3.3. MBB结果的进一步分析

4.讨论

4.1. 三种GFA估算方法的比较

4.2. 两种BA估计方法的比较

4.3. 端到端时尚不是万能药

4.4. 美国有线电视新闻网（CNN）无法取代这项任务吗？

5.结论

作者贡献

基金

机构审查委员会声明

知情同意书

数据可用性声明

利益冲突

工具书类

分享和引用

文章指标

文章访问统计

更多信息

指导方针

MDPI计划

遵循MDPI