Autonomous Searching for a Diffusive Source Based on Minimizing the Combination of Entropy and Potential Energy

Song, Cheng; He, Yuyao; Lei, Xiaokang

doi:10.3390/s19112465

开放式访问第条

基于熵和势能组合最小化的扩散源自主搜索

通过

程松

¹

,

何余姚

^1,*和

雷晓康

^2,3

¹

西北工业大学海洋科学与技术学院，西安710072

²

西安建筑科技大学信息与控制工程学院，西安710055

^三

中国西安交通大学教育部KLINNS实验室，西安710049

^*

信件应寄给的作者。

传感器 2019,19(11), 2465;https://doi.org/10.3390/s19112465

收到的提交文件：2019年4月16日/修订日期：2019年5月20日/接受日期：2019年5月27日/发布时间：2019年5月29日

（本文属于特刊智能单/多传感系统及其应用进展)

下载

浏览地物

版本说明

摘要

:

信息排序方案是一种针对扩散源的搜索策略，其中传感器平台通过爬升信息梯度来减少源的不确定性。infotaxis方案已成功应用于许多源搜索任务，并显示出快速稳定的搜索能力。然而，信息排序方案侧重于收集信息，以将不确定性降至零，而不是在获得可靠估计时寻找最可能的估计来源。这导致传感器花费更多时间探索空间，并产生更长的搜索路径。本文从勘探开发平衡的角度出发，提出了一种结合熵和势能的基于自由能最小化的搜索方案。熵这个术语被实现为收集更多信息的探索。利用到估计来源的距离来衡量潜在能源这一术语，是为了利用不确定性的消退来加强追赶行为。它产生了一种快速有效的搜索策略，传感器通过最小化自由能而不是传统信息排序中的熵来确定其行为。基于计算羽流的信源搜索任务仿真验证了该策略的有效性，实现了较短的平均搜索时间。

关键词：

移动传感器;信息出租车;勘探开发;自由能

1.简介

携带适当传感器的自动机器人可以有效定位生化或放射性污染物泄漏源，如漏油或放射性扩散，并跟踪湍流中的污染物扩散[1,2]. 近年来，这一来源搜索问题，即气味或气源定位，已经得到了相当多的研究[三,4,5,6]. 一般来说，流场中来源物质浓度的变化在很大程度上取决于雷诺数。基于梯度的策略，如极值搜索[7]，大肠杆菌算法[8]和Braitenberg算法[9]，在低雷诺数环境中工作良好，材料浓度变化平稳。然而，在高雷诺数的湍流环境中，源的弥散通常被分解为不稳定、稀疏和不连续的斑块[10,11]. 它导致了零星和间歇的感官景观，波动的变化没有指向源头的梯度[12]导致基于梯度的策略无效甚至无效[13]. 这项工作的重点是在开阔的风场中寻找未知位置的扩散源，在那里湍流会导致不规则的梯度和间歇性的感觉线索。

湍流环境中的搜索问题可以表述为概率搜索，以解释随机间歇检测。一类被称为信息排序的概率搜索策略[14]专门用于在湍流介质中寻找扩散源，它确定通过最小化源概率分布的熵来降低源不确定性的措施。infotaxis方案已被有效地开发用于许多搜索策略。马森[15]提出了一种称为无图的信息排序方案，允许在自由能最小化的基础上，在空间感知有限的复杂变化环境中进行搜索。Ristic等人[16]研究了基于三种不同奖励函数的信息排序方案的性能，并基于Rényi发散度开发了一种改进的信息排序算法。Hutchinson等人[17]开发了entrotaxis方案，将搜索者驱动到下一次检测中最不确定的位置，而不是期望后验源分布中最小不确定的地方。Mishra等人[18]提出了期望速率算法，并证明了infotaxis算法和期望速率算法在大多数情况下都会产生相同的优化步骤。

探索-开发平衡是利用这些随机检测保持搜索效率的关键[19]. 对于信息排序法，将熵的预期减少作为勘探项（即收集更多信息并获得更可靠的源分布估计值），将最大似然作为开发项（即前往估计的最可能源位置）[20]. 这项工作解决了传统信息出租车策略的缺陷[14]这往往倾向于对信息的探索，而不是利用信息，导致搜索行为具有更多的遍历运动，并花费更多的搜索时间。存在一个发挥最大可能性作用的开采术语。然而，它使用传感器周围的局部概率来获得最大可能性，这可以防止在获得更多检测后，随着不确定性的减少，追逐行为被带离轨道。问题在于，局部概率的微小差异无法产生朝向最可能震源的显著梯度。此外，我们注意到，直接进入全球最可能的震源位置进行探测是非常危险的，因为估计的概率分布是多模态的，在获得足够的探测之前是不可靠的[21]. 事实上，由于不可靠的概率分布对环境的错误描述，最大似然或最大后验策略在远离源的地方系统地失效。因此，勘探和开发之间的平衡应该根据概率分布的可靠性程度进行动态自适应。在这种情况下，Masson[15]使用了具有扩展域的局部概率来加强最大似然行为，从而将平衡转向利用。

为了平衡勘探开发并加快搜索进度，我们提出了一种新的搜索方案，该方案将熵和势能的组合最小化，形式化为自由能的一种形式[15,21,22]其中，移动传感器平台决定其搜索行动，以尽量减少自由能。熵驱动传感器积累信息（如传统信息排序）。势能，包括传感器到假设源距离的加权和，被添加以加强追赶行为。温度主动控制势能和熵之间的相对值。通过利用概率分布协方差矩阵的迹线来降低温度的变化，从而将平衡转移到利用上，减少不确定性或增加可靠估计。类似于[16,17,23]，我们使用源概率分布的粒子滤波器表示，使该策略在计算上适用于大型复杂空间。然后，通过粒子的扩散以及当前位置与所有粒子之间的距离来计算势能。我们通过臭气羽流传播的计算模型，数值验证了该方案的有效性。本文的贡献在于引入了自由能来代替熵来进行决策，从而将勘探与开发的平衡转变为开采，同时减少了资源的不确定性。它可以在大空间中更快地搜索扩散源，从而缩短移动传感器平台到达源的路径。

本文的结构如下。问题公式如所示第2节自由能信息流方案如所述第3节.第4节通过使用以湍流为特征的计算羽流数据集进行模拟，给出了数值结果。最后，得出结论第5节.

2.问题制定

2.1. 信息出租车计划

Infotaxis于年推出[14]用于在具有随机零星检测的复杂环境中进行搜索。它围绕两个核心部分构建：基于检测历史的源位置贝叶斯估计和基于熵最小化的贪婪决策。利用贝叶斯估计构造源位置的后验概率分布。贪婪决策是选择搜索者的运动方向，收集根据概率分布计算的信息报酬。

假设扩散源位于

{第页}_{0} = {({x个}_{0}, 年_{0})}^{T型} \in W公司

，其中

W公司 \in {R（右）}^{2}

表示免费的二维搜索区域。一种半径球形检测传感器一安装在移动传感器平台上，其位置为

第页 = (x个, 年)

。检测状态被标识为二进制变量

小时 \in {0, 1}

通过传感器：

小时 = 0

表示传感器当前位置没有色散，以及

小时 = 1

另有说明。计数阳性检测

z（z） = 秒 u个 米 (小时)

在时间间隔内

Δ t吨

在任何位置第页由泊松分布建模如下：

z（z） \sim 第页 (z（z）) = \frac{{[R（右） (第页, {第页}_{0}) Δ t吨]}^{z（z）}}{z（z）!} e（电子） x个 第页 [- (R（右） (第页, {第页}_{0}) Δ t吨]

(1)

哪里

R（右） (第页, {第页}_{0}) Δ t吨

表示时间间隔内阳性检测的期望值

Δ t吨

.平均利率

R（右） (第页, {第页}_{0})

定义为在给定位置遇到离散的预期次数第页关于位于的源

{第页}_{0}

平均速率与距离源的距离、源的强度、流场的动力学以及环境的几何结构有关。的参数

R（右） (第页, {第页}_{0})

包括强度、风速和风向，以及扩散率通常被假定为先验知识。

沿搜索轨迹的检测事件携带有关源相对于传感器的相对位置的线索。我们假设

{d日}_{k个} = ({第页}_{k个}, {z（z）}_{k个})

在位置封装检测

{第页}_{k个}

对于

{z（z）}_{k个}

分散体在时间上的遭遇k个.后验概率

对_{k个} ({第页}_{0})

对于利用贝叶斯推断的未知源位置，读取：

\begin{matrix} 对_{k个} ({第页}_{0}) = \frac{对_{k个 - 1} ({第页}_{0}) ℓ ({d日}_{k个} | {第页}_{0})}{\int_{W公司} 对_{k个 - 1} ({第页}_{0}) ℓ ({d日}_{k个} | {第页}_{0}) d日 {第页}_{0}} \end{matrix}

(2)

哪里

ℓ ({d日}_{k个} | {第页}_{0}) = 第页 ({z（z）}_{k个}, R（右） ({第页}_{k个}, {第页}_{0}))

表示检测的可能性

{d日}_{k个}

以源为条件

{第页}_{0}

.

在信息论的背景下，传感器的目的是通过与环境的相互作用降低目标的不确定性。引入香农熵来测量不确定度

{S公司}_{k个} = - \int_{W公司} 对_{k个} ({第页}_{0}) 日志 对_{k个} ({第页}_{0}) d日 {第页}_{0}

新的检测可以降低熵并增加信息量。移动到一个允许的位置时，任何检测或未检测都会导致信息的预期变化

{第页}_{米}

如下：

\begin{matrix} Δ {E类}_{S公司} ({第页}_{k个} \to {第页}_{米}) = 对_{k个} ({第页}_{米}) (0 - {S公司}_{k个}) + (1 - 对_{k个} ({第页}_{米})) \sum_{η = 0}^{\infty} ρ_{η} Δ {S公司}_{η} \end{matrix}

(3)

哪里

Δ {S公司}_{η}

是传感器接收信号时估计熵的变化

η = {1, 2, 三, \dots}

新的正极传感器在下一步移动到相邻位置时进行检测。

ρ_{η}

表示

η

泊松模型的命中率。右边的第一项对应于在

{第页}_{米}

，第二项说明了源不在的情况

{第页}_{米}

.熵的目标最小化驱动传感器向最大熵降的方向移动。当熵减至零时，不确定性消失，源头被发现。

2.2. 信息出租车计划的不足

方程式右侧的第一项(三)是一个利用性术语，倾向于运动到最大似然点。等式右侧的第二项(三)是探索性术语，有利于获得信息以接收额外的检测。因此，可以清楚地看到，信息排序方案自然地结合了开发性和探索性倾向。

infotaxis方案的缺点是，利用性术语仅在搜索接近尾声时有效。当概率收敛到源时，由于通过命中率感知远场，搜索者的位置仍然远离源。这导致搜索者位于低概率区域，无法产生指向最可能位置的显著梯度。的值

对_{k个} ({第页}_{米})

对于所有允许的相邻位置

{第页}_{0}

很小（如所示第4.1节). 它削弱了

对_{k个} ({第页}_{米}) (0 - {S公司}_{k个})

在搜索过程中，不断将勘探开发平衡转向勘探。传感器只会进入震源附近的高概率区域。随后，最大似然明确指向源并在此时执行其功能。

应注意，源的概率分布是由远程估计生成的。因此，传感器始终落后于概率分布的收敛速度。而不是最大可能性

对_{k个} ({第页}_{米}) (0 - {S公司}_{k个})

，追踪全球最有可能的来源可以带来非常有效的搜索。然而，由于多峰概率分布，直接追踪概率峰值位置系统性地失败了。此外，在获得更可靠的估计之前加强利用往往会导致自锁（过度利用）。事实上，移动传感器平台应该逐渐有利于追赶行为，其中，随着概率分布可靠性的提高，开发对决策过程的影响更大。一般来说，该问题是根据信息排序方案的要求制定的，在搜索过程中，探索与开发相结合并积极平衡。

3.免费能源信息出租车搜索计划

本节详细介绍了用于改进搜索的拟议自由能信息排序方案。我们首先在热力学理论的背景下提出自由能的构造。其次，给出了基于粒子滤波器的具体设计和通过最小化自由能的部分可观测马尔可夫决策过程POMDP（Partially-Observable Markov Decision Process）的计算形式。

3.1. 自由能的构造

熵作为探索术语仍然有效（与传统信息分类一样），即驱动传感器收集信息以提高估计的准确性。同时，提出了另一个新的开采术语，该术语涉及到最可能来源的吸引力，目的是加强追逐最可能来源行为。

在这项工作中，吸引力函数被定义为与当前位置之间距离的加权和相关的势能

{第页}_{k个}

以及所有假设的来源

{第页}_{0}

用不同的权重表示概率分布。它避免了直接使用概率分布的峰值位置

对_{k个} ({第页}_{0})

由于概率分布的多模性，它是最可能的源。势能

{W公司}_{k个}

定义为：

{W公司}_{k个} = \int_{{第页}_{0} \in W公司} 对_{k个} ({第页}_{0}) | | {第页}_{k个} - {第页}_{0} {| |}^{γ} d日 {第页}_{0}

(4)

哪里

| | {第页}_{k个} - {第页}_{0} | |

是当前位置之间的距离

{第页}_{k个}

和一个假设的来源

{第页}_{0}

和

γ

是距离的指数，该距离决定了假设源的吸引力强度。概率

对_{k个} ({第页}_{0})

扮演该地点假设来源吸引力权重的角色

{第页}_{0}

.势能

{W公司}_{k个}

描述了在获取新检测时概率不断更新的所有假设源的综合吸引力。这个术语不同于自由能的“功能”[15]，这取决于概率图中的梯度。

作为探索的熵和作为开发的势能的结合形成了自由能的形式。因此，要最小化的自由能不是信息排序方案中的熵，而是：

\begin{matrix} {F类}_{k个} & = {W公司}_{k个} + T型 {S公司}_{k个} \\ = \int_{{第页}_{0} \in W公司} 对_{k个} ({第页}_{0}) | | {第页}_{k个} - {第页}_{0} {| |}^{γ} d日 {第页}_{0} - α \cdot t吨 第页 {(Σ)}^{β} \int_{{第页}_{0} \in W公司} 对_{k个} ({第页}_{0}) 日志 对_{k个} ({第页}_{0}) d日 {第页}_{0} \end{matrix}

(5)

哪里

{W公司}_{k个}

是势能和

{S公司}_{k个}

是香农熵，而

T型 = α \cdot t吨 第页 {(Σ)}^{β}

是控制前两项之间相对值的温度。

t吨 第页 (Σ)

是协方差矩阵的轨迹

Σ

概率分布的

对_{k个} ({第页}_{0})

、和

α

是相称的因素，而

β

表示决定下降率的指数。的价值

t吨 第页 (Σ)

概率下降

对_{k个} ({第页}_{0})

从初始均匀分布收缩到源上的聚集分布，这表明不确定性降低，源分布的估计更加可靠。特别是，势能在自由能中的比例是通过降低温度来调节的。相比之下，自由能的温度在[15,22]中提到了改变温度的建议[15]. 由于环境的高度不确定性或低可靠性概率分布，降低温度可避免向最可能的源位置移动的过度利用。

在搜索过程中

{S公司}_{k个}

驱动传感器积累信息，以提高估计的可靠性，并减少源的不确定性。随着不确定性的减少（减少

t吨 第页 (Σ)

)，术语

{W公司}_{k个}

逐渐开始搜索，并驱动传感器追踪估计的最可能震源位置。因此，平衡从勘探转向(

{S公司}_{k个}

)到剥削(

{W公司}_{k个}

)随着不确定性的减少（即，估计的可靠性增加）。

3.2. 基于粒子滤波的实现

贝叶斯估计、决策和距离加权和的过程都依赖于概率分布，在传统的信息排序方案中，概率分布用网格图表示。然而，必须提高覆盖搜索区域的栅格地图的分辨率，以适应概率分布的准确性。大量网格单元给传感器平台上的计算带来了额外的挑战。为了提高计算强度，采用序贯蒙特卡罗方法表示具有有限且易于处理的随机绘制粒子的概率分布。粒子滤波器的使用使我们能够限制传感器平台的计算负担[16,23]，确定覆盖感兴趣搜索区域的概率分布。

让我们使用序贯蒙特卡罗方法来表示后验分布

对_{k个} ({第页}_{0})

通过随机集

{({第页}_{0, k个}^{(米)}, {w个}_{k个}^{(米)})}_{米 = 1 : M（M）}

.给，

{第页}_{0, k个}^{(米)} = {({x个}_{0, k个}^{(米)}, 年_{0, k个}^{(米)})}^{T型}

是从概率图中采样的随机粒子的位置

对_{k个} ({第页}_{0})

和

{w个}_{k个}^{(米)}

是关联的重量。权重是标准化的，即。，

\sum_{米 = 1}^{M（M）} {w个}_{k个}^{(米)} = 1

、和M（M）是粒子数。传感器源概率图的近似值可以表示为：

对_{k个} ({第页}_{0}) \approx \sum_{米 = 1}^{M（M）} {w个}_{k个}^{(米)} δ ({第页}_{0} - {第页}_{0, k个}^{(米)})

(6)

哪里

δ (\cdot)

是Diracδ函数。通过与基于网格的方法的比较[14,15,22]蒙特卡罗近似简化了复杂积分的数值求解，使概率图的表示变得简单。

给定时间的先验概率

k个 - 1

由代表

{({第页}_{0, k个 - 1}^{(米)}, {w个}_{k个 - 1}^{(米)})}_{米 = 1 : M（M）}

，可以计算随机样本

{({第页}_{0, k个}^{(米)}, {w个}_{k个}^{(米)})}_{米 = 1 : M（M）}

接近后部

对_{k个} ({第页}_{0})

时间k个，使用重要性抽样技术[24]. 非标准化粒子重量

{\tilde{w个}}_{k个}^{(米)}

使用检测计算

{d日}_{k个}

如下：

{\tilde{w个}}_{k个}^{(米)} = {w个}_{k个 - 1}^{(米)} ℓ ({d日}_{k个} | {第页}_{0, k个}^{(米)})

（7）

粒子的重量随后被归一化，

{w个}_{k个}^{(米)} = {\tilde{w个}}_{k个}^{(米)} / \sum_{我 = 1}^{M（M）} {\tilde{w个}}_{k个}^{(我)}

.重要性抽样按顺序进行

k个 = 1, 2, \dots,

为了提高结果的样本多样性，重新采样的粒子需要进行MCMC移动步骤。重采样的条件是有效尺寸

{M（M）}_{e（电子） （f） （f）} = 1 / \sum_{米 = 1}^{M（M）} {({w个}_{k个}^{(米)})}^{2}

粒子数小于阈值。

作为概率分布

对_{k个} ({第页}_{0})

由采样的粒子近似

{{第页}_{0, k个}^{(米)}, {w个}_{k个}^{(米)}}_{米 = 1 : M（M）}

，熵可以计算为

{S公司}_{k个} = - \sum_{米 = 1}^{M（M）} {w个}_{k个}^{(米)} 在 {w个}_{k个}^{(米)}

.假设的源由粒子表示（而不是网格单元[14])即每个粒子

{第页}_{0, k个}^{(米)}

表示与重量相关的假设来源

{w个}_{k个}^{(米)}

通过重要性抽样法和重抽样法，这种情况下所需的粒子数大大少于以前的网格单元。然后，基于粒子的自由能可以通过以下公式计算：

\begin{matrix} {F类}_{k个} & = {W公司}_{k个} + T型 {S公司}_{k个} \\ = \sum_{米 = 1}^{M（M）} {w个}_{k个}^{(米)} | | {第页}_{k个} - {第页}_{0, k个}^{(米)} {| |}^{γ} - α \cdot t吨 第页 {(Σ)}^{β} \sum_{米 = 1}^{M（M）} {w个}_{k个}^{(米)} 在 {w个}_{k个}^{(米)} \end{matrix}

(8)

其中势能

{W公司}_{k个}

是当前位置之间距离的加权和

{第页}_{k个}

和所有的粒子

{第页}_{0, k个}^{(米)}

具有相应的重量

{w个}_{k个}^{(米)}

.跟踪

t吨 第页 (Σ)

在温度范围内T型是通过局部位置粒子的扩散来测量的

{{第页}_{0, k个}^{(米)}, {w个}_{k个}^{(米)}}_{米 = 1 : M（M）}

(

Σ

是粒子分布的加权协方差矩阵）。这里，关于来源和估计的可靠性的不确定性水平由粒子的扩散来表示。随着获得更多的探测，粒子的扩散收缩，覆盖最可能来源的区域，这对应于痕量的减少

t吨 第页 (Σ)

.

3.3. 自由能最小化的信息排序决策

传感器平台位于

{第页}_{k个}

自主决定控制变量

{u个}_{k个}

使用自由能信息趋同策略，该策略可以表示为部分观测的马尔可夫决策过程（POMDP）[16]. POMDP的要素包括状态、一组可容许的行为和一个奖励函数。当时的状态

{t吨}_{k个 - 1}

是概率分布

对_{k个 - 1} ({第页}_{0})

指定传感器当前对源的了解。允许的行动

{U型}_{k个}

可以提前一步或多步形成。搜索上下文中的决策是选择控制向量

{u个}_{k个} \in {U型}_{k个}

。奖励函数将每个允许的操作映射为预期的信息增益。

基于采样粒子表示的概率分布

{{第页}_{0, k个}^{(米)}, {w个}_{k个}^{(米)}}_{米 = 1 : M（M）}

，POMDP决策被转移到最小化自由能而不仅仅是熵

{S公司}_{k个}

.

{u个}_{k个} = 参数 \underset{v（v） \in {U型}_{k个}}{最大值} \{{F类}_{k个 - 1} - E类 \{{F类}_{k个} [{d日}_{k个} (v（v）)]\}\}

(9)

哪里

E类 \{{F类}_{k个} [{d日}_{k个} (v（v）)]\}

是预期的自由能，它是在先前自由能的基础上更新的

{F类}_{k个 - 1}

未来的检测

{d日}_{k个} (v（v）)

.

E类

是期望运算符。可容许作用的空间

{U型}_{k个}

与尺寸连续：线速度V（V），角速度

Ω

和运动持续时间

{T型}_{米}

.为了减少数值优化的计算负担，

{U型}_{k个}

作为离散集。如果

V（V）

,

O（运行）

、和

T型

表示可能的离散值集V（V）,

Ω

、和

{T型}_{米}

，然后

{U型}_{k个}

是笛卡尔积

V（V） \times O（运行） \times T型

（请参阅[16]).

在计算

E类 \{{F类}_{k个} [{d日}_{k个} (v（v）)]\}

，我们需要未来的检测

{d日}_{k个} (v（v）) = {{第页}_{k个} (v（v）), {z（z）}_{k个} (v（v）)}

用于计算

{w个}_{k个}^{(米)} (v（v）)

然而，必须在移动传感器平台实际移动到之前计算奖励

{第页}_{k个} (v（v）)

并获取下一个测量值

{z（z）}_{k个} (v（v）)

.实际上，对于给定的位置第页，我们计算平均值

μ (v（v）) = {t吨}_{0} \sum_{米 = 1}^{M（M）} {w个}_{k个}^{(米)} R（右） (第页, {第页}_{0, k个}^{(米)})

然后找到

{z（z）}_{米 一 x个}

使得对应于泊松概率的分布函数

第页 (z（z）; μ (v（v）)) = {e（电子）}^{- μ (v（v）)} μ {(v（v）)}^{z（z）} / z（z）!

（参考方程式(1))大于某个阈值

1 - η

，其中

η ≪ 1

。然后仅计算以下项的总和

z（z） = 0, 1, \dots, {z（z）}_{米 一 x个}

因此，自由能的两项

{F类}_{k个} [{d日}_{k个} (v（v）)]

基于粒子计算

{{第页}_{0, k个}^{(米)}, {w个}_{k个}^{(米)} (v（v）)}

，传感器未来位置

{第页}_{k个} (v（v）)

、和测量

{z（z）}_{k个} (v（v）)

.预期值

E类 \{{F类}_{k个} [{d日}_{k个} (v（v）)]\}

关于概率质量函数

第页 (z（z）; μ (v（v）))

是：

\begin{matrix} E类 \{{F类}_{k个} [{d日}_{k个} (v（v）)]\} = \sum_{z（z） = 0}^{{z（z）}_{最大值}} 第页 (z（z）; μ_{v（v）}) {F类}_{k个} [{d日}_{k个} (v（v）)] \end{matrix}

（10）

搜索将继续，直到满足全局停止标准，此时移动传感器平台会落入特定半径内的源位置局部区域，以声明源。如果传感器平台和源之间的距离小于

{R（右）}_{秒}

则满足停止准则，并给定一个值，否则为零。

算法1总结了搜索传感器平台上自由能信息排序方案算法的基本步骤。

算法1	免费能源信息出租车计划
1	输入：传感器位置 ${第页}_{k个 = 0}$ ，粒子 ${({第页}_{0, k个 = 0}^{(米)}, {w个}_{k个 = 0}^{(米)})}_{米 = 1 : M（M）}$
4	虽然“找不到源”做
5	计算自由能 ${F类}_{k个 - 1}$ 使用方程式(8)
6	创建容许集 ${U型}_{k个} = V（V） \times O（运行） \times T型$
7	对于每一个 $v（v） \in {U型}_{k个}$ 做
8	计算未来传感器位置 ${第页}_{k个} (v（v）)$
9	确定 ${z（z）}_{米一 x个}$ 科学技术。 $\sum_{z（z） = 0}^{{z（z）}_{米一 x个}} 对 (z（z）; μ (v（v）)) > 1 - η$
10	计算未来自由能 ${F类}_{k个} [{d日}_{k个} (v（v）)]$
11	计算预期奖励 $E类 ({F类}_{k个} [{d日}_{k个} (v（v）)])$ 使用方程式(10)
12	结束
13	查找 ${u个}_{k个}$ 最大值 $\{{F类}_{k个 - 1} - E类 \{{F类}_{k个} [{d日}_{k个} (v（v）)]\}\}$
14	移至 ${第页}_{k个}$ 并检测色散 ${d日}_{k个}$
16	更新粒子 ${({第页}_{0, k个}^{(米)}, {w个}_{k个}^{(米)})}_{米 = 1 : M（M）}$ 使用方程式(7)
17	结束
18	输出：估计的震源位置 ${\bar{第页}}_{0}$

4.模拟

对基于计算羽流的信源搜索任务进行了仿真，以研究该策略的有效性和效率。首先进行了一个典型的运行，以说明传统信息排序和所提策略的性能。然后，通过蒙特卡罗运行估计平均搜索性能，用平均搜索时间和平均距离表示。最后，温度的影响T型进行了调查和讨论。

使用了以下参数（所有物理量均为任意单位（a.u.））：

真实源参数： $X_{0} = - 200, {Y（Y）}_{0} = 0, 问_{0} = 2$ ;
搜索区域： $W公司 = [- 300, 300] \times [- 150, 150]$ ;
运动模型参数： $δ = 0.25, V（V） = {1}, O（运行） = {- 三, - 2, - 1, 0, 1, 2, 三} * π / 180, T型 = {1}$ ;
环境和传感器参数： $一 = 1$ , $D类 = 1$ , $τ = 400$ , $V（V） = 0.5$ , $Δ_{t吨} = 1$ ;
算法参数： $α = 0.01$ ; $β = 1.4$ ; $γ = 三$ 和粒子数 $M（M） = 600$ , ${M（M）}_{t吨小时 d日} = M（M） / 三$ ;
本地搜索停止阈值： ${R（右）}_{秒} = 三$ .

4.1. 典型运行

首先，我们分别使用信息出租车方案和自由能信息出租车方案研究了轨迹和搜索过程，以展示其性能。infotaxis方案和自由能infotaxies方案的典型运行结果如所示图1和图2分别是，和图3显示搜索期间的相应特征。

图1显示搜索区域，搜索传感器的轨迹k个=10030010501385，使用infotaxis方案，以及位于

(- 200, 0)

用相应平均速率的等高线图。随机样本

{第页}_{0, k个}^{(米)}

接近后部

对_{k个} ({第页}_{0})

显示为黑点。图1a显示满足重新采样条件之前的粒子，其中粒子被放置在规则网格上，从而模拟基于网格的方法，粒子权重值由灰度强度表示。在获得阳性检测结果后，粒子

{{第页}_{0, k个}^{(米)}}_{米 = 1 : M（M）}

重新采样，并将其相应的权重重置为均匀值

1 / M（M）

（显示于

k个 = 300

). 此时此刻

k个 = 300

，采样颗粒的扩散收缩，但保持较高水平。这由协方差矩阵的轨迹表示，如图3b.然而，移动传感器平台倾向于探索空间并产生螺旋搜索行为。然后，取样颗粒的扩散缩小到

k个 = 1050

随着检测次数的增加（跟踪次数减少，如图所示图3b），但螺旋式搜索仍在出现。整个搜索轨迹显示出许多转弯和风向。这将花费传感器平台的大部分有限时间。到震源的距离图3c表示传感器接近源的速度。一般来说，预期的搜索应该是传感器平台以最可能的源位置为目标，因为样本粒子的扩散减少达到了一定程度。

图2显示搜索区域，移动传感器平台的轨迹

k个 = 100, 300, 500, 764

使用自由能infotaxis方案及其采样粒子。轨迹与图1在时间步之前

k个 = 300

，如所示图2a、 b，轨迹曲线也有相似之处

t吨 第页 (Σ)

以及到震源的距离，如所示图3b、 c.当获得更多阳性检测结果时，颗粒扩散收缩（如图所示

k个 = 500

)也就是说，关于来源的更可靠估计或更高确定性（协方差矩阵的轨迹在图3b）。搜索中的利用逐渐加强，移动传感器平台逐渐趋向于接近粒子密集区，如所示图2c.当颗粒扩散缩小到一个较小的区域时，开采行为导致搜索偏离轨道，传感器平台被驱动直接前往最可能的来源（如所示

k个 = 764

). 到震源的距离如所示图3c表明，随着估计的提高，追逐行为逐渐导致搜索偏离轨道，并使移动传感器平台直接指向源。

图4显示了最大似然法

对_{k个} ({第页}_{米}) (0 - {S公司}_{k个})

在infotaxis方案中，不能通过邻域概率或局部概率有效地加强利用。显然，概率分布覆盖了震源位置，并达到了适当的可靠性水平(

t吨 第页 (Σ)

下降图3b）指导搜索。然而，传感器的位置位于低概率区域，无法产生指向震源的显著梯度。这导致了剥削

对_{k个} ({第页}_{米}) (0 - {S公司}_{k个})

在方程式中(三)不执行其功能。

典型运行的观察结果证实，自由能信息排序方案中势能的可用性对于提高给定搜索任务的搜索性能至关重要。

4.2. 蒙特卡洛运行

接下来，为了评估所提方法的性能和效率，进行了100次蒙特卡罗运行。使用空间左上角的源位置和右下角的初始位置执行搜索。表1显示了改变搜索区域规模时的平均搜索时间，并将自由能信息排序方案与相关信息排序方案进行了比较。这些工作从不同的角度改进了经典的信息排序方法。信息出租车II[16]、信息出租车III[16]和熵[17]为决策提供更有效的信息。无地图信息出租车[15]提出的基于自由能的方法将收集信息的行为转变为利用信息的行为。在我们的模拟中，我们专注于无图信息融合所使用的自由能形式，而没有考虑不完整的空间信息和里程测量误差，如[15].

最初，随着搜索区域的扩大，信息出租车方案的平均搜索时间显著增加，以探索更多的地方来获取烟羽。相比之下，基于自由能的信息排序方案（无图信息排序和所提出的方法）缩短了公共空间中的平均搜索时间。特别是，与具有局部概率图和恒定温度的无图信息融合相比，具有距离势能和自适应温度的该方法产生的时间稍短。这是因为在获得更可靠的估计后，开采主导了搜索。结果表明，所提出的自由能信息排序方案可以加快搜索速度。

值得注意的是，不同尺度下的平均搜索时间几乎比经典信息趋同缩短了一个统一的步长（间隔154-168），但尺度为100×100除外。这是因为搜索的加速出现在开发阶段。为了说明这一点，图5显示了传感器与实际源之间的距离，以及估计源与实际源在粒子传播过程中的距离。首先，通过粒子收缩，验证了估计源收敛到实际源，如所示图5a（距离随着

t吨 第页 (Σ)

). 这确保了通过自由能信息排序方案追踪估计的最有可能的源并将传感器引向真实源的有效性。第二，随着扩散的减小，传感器与震源之间的距离减小，扩散后这一进程加快，达到了一定的水平，如所示图5b.从比较中可以看出，自由能信息趋同方案得到的下降速度比信息趋同方法更快。结果表明，该传感器通过自由能信息趋近方案加强了直达源的行为。

4.3。温度的影响T型

温度T型控制势能和熵之间的相对值，从而可以在搜索过程中主动控制探索-开发平衡。随着迹线所示不确定度的降低

t吨 第页 (Σ)

，温度T型势能在自由能中所占比例下降，向开发方向转移。我们通过设置两个极值来进行搜索模拟，以研究温度的影响T型.

图6显示搜索设置温度失败

T型 = 0

传感器平台最终围绕估计的源进行自拍，与实际源发生偏差。随着温度的变化

T型 = 0

自由能仅维持势能项，势能驱动的传感器平台直接追赶估计源。沿着接近估计源的路径被动更新源的概率分布。当传感器到达估计源时，无法进一步更新源的概率分布（红星指示的预期源几乎没有移动）。通常，在没有可靠估计的情况下，将移动传感器平台推向最可能的源的开发是有风险的（需要进行探索以提高可靠性）。

图7结果表明，搜索可以通过自由能信息排序方案和温度来完成

T型 = 10^{4}

.作为

T型 = 10^{4}

足够大时，自由能主要由熵项控制。熵的最小化驱动传感器收集信息并主动更新源的概率分布。无论源位于何处，传感器平台都会探索空间，以获取阳性检测结果，对粒子进行重新采样。因此，移动传感器平台没有被困，并不断改进概率分布。

为了保持自由能信息趋同方案的有效性，首先不需要事先了解空间、温度T型应在初始阶段使熵减少值占主导地位，以便传感器首先探测工作空间。一般来说，在搜索上下文中，开发和探索的术语应该结合并平衡。探索是推动搜索的主要因素（收集信息和改进估计），开发可以加快搜索进度。势能和熵统一于自由能和调节温度T型主动控制它们之间的相对值。

5.结论

这项工作部署了一个移动二进制传感器平台来搜索湍流中的扩散源。为了解决infotaxis方案中探索-开发失衡的问题，我们提出了一种将势能和熵结合成自由能的自由能infotaxies方案，以最小化POMDP的回报。熵的减少保持了勘探的作用，从而收集信息并提高了源估计的可靠性。追寻最可能的震源位置是通过降低势能来实现的，势能采用所有假设震源位置与传感器位置之间距离的加权和。自适应内部温度通过利用协方差矩阵迹线测量的采样粒子的扩散，主动控制势能和熵之间的相对值。因此，在资源不确定性较高的阶段，勘探主导搜索，然后随着不确定性的消退，开采主导搜索，从而实现了开发-勘探的平衡。仿真结果验证了自由能信息排序搜索方案加快了基于偶发二进制检测的扩散源搜索速度。

作者贡献

C.S.编写了原始草稿；审查和编辑，X.L。；手稿修订Y.H。；编码、模拟和结果分析，C.S。；监督，Y.H。

基金

这项工作由国家自然科学基金资助，批准号为61271143。

致谢

这项工作得到了皇家墨尔本理工大学访问研究计划的部分支持。作者衷心感谢RMIT大学的Branko Ristic教授粒子过滤方法并提供模拟代码。

利益冲突

作者声明没有利益冲突。

缩写

本手稿中使用了以下缩写：

POMDP公司	部分观测的马尔可夫决策过程
皇家墨尔本理工学院	墨尔本皇家理工大学
GMM公司	高斯混合模型

工具书类

清浩，M。；魏欣，Y。；杨伟（Yang，W.）。；Ming，Z.使用移动机器人在时变气流环境中进行集体气味源估计和搜索。传感器 2011,11, 10415–10443. [谷歌学者]
Li，J.G。；曹，M.L。；Meng，Q.H.通过控制轮式移动机器人在室外野外环境中按照在线计划路线进行化学源搜索。传感器 2019,19, 426. [谷歌学者] [交叉参考] [公共医学]
Li，J.G。；Q.H.孟。；Wang，Y。；Zeng，M.使用移动机器人在室外气流环境中使用粒子滤波算法进行气味源定位。自动。机器人 2011,30, 281–292. [谷歌学者] [交叉参考]
蒙罗伊，J。；Ruiz-Sarmiento，J.R。；F.A.莫雷诺。；梅伦德斯·费尔南德斯，F。；加林多，C。；Gonzalez Jimenez，J.结合视觉和化学传感的移动机器人基于语义的气源定位。传感器 2018,18, 4174. [谷歌学者] [交叉参考] [公共医学]
桑切斯·加里多，C。；蒙罗伊，J。；Gonzalez-Jimenez，J.通过结合气体和风观测对室内环境中气源位置的概率估计。在智能系统的应用：2018年第一届国际APPIS会议记录；IOS出版社：荷兰阿姆斯特丹，2018；第310卷，第110-121页。[谷歌学者]
Wiedemann，T。；曼斯，C。；Shutin，D。；A.J.利连塔尔。；卡罗尔（Karolj），V。；Viseras，A.用偏微分方程对气体扩散进行概率建模，用于多机器人勘探和气源定位。2017年9月6日至8日，法国巴黎，2017年欧洲移动机器人会议（ECMR）会议记录；第1-7页。[谷歌学者]
巴亚特，B。；北卡罗来纳州克拉斯塔。；Crespi，A。；帕斯科尔，A.M。；Ijspeert，A.使用自动车辆的环境监测：最近搜索技术的调查。货币。操作。生物技术。 2017,45, 76–84. [谷歌学者] [交叉参考] [公共医学] [绿色版本]
罗素，R.A。；Bab-Headishar，A。；Shepherd，R.L。；Wallace，G.G.反应机器人趋化算法的比较。机器人。自动。系统。 2003,45, 83–97. [谷歌学者] [交叉参考]
Mamduh，S。；Kamarudin，K。；沙卡夫，A。；扎卡里亚，A。；Abdullah，A.braitenberg车辆与生物激励算法在层流中气味跟踪的比较。澳大利亚。J.基本应用。科学。 2014,8, 6–15. [谷歌学者]
Celani，A。；维勒莫克斯，E。；Vergassola，M.湍流环境中的气味景观。物理学。修订版X 2014,4, 041015. [谷歌学者] [交叉参考]
Cerizza博士。；西Sekiguchi。；Tsukahara，T。；Zaki，T。；Hasegawa，Y.基于湍流通道中传感器信号的标量源强度重建。水流紊流。梳子。 2016,97, 1211–1233. [谷歌学者] [交叉参考]
韦伯斯特，D。；Volyanskyy，K。；Weissburg，M.湍流化学羽流中自主传感器驱动制导的仿生算法。生物激励。仿生学。 2012,7, 036023. [谷歌学者] [交叉参考] [公共医学] [绿色版本]
Kowadlo，G。；罗素，R.A.机器人气味定位：分类和调查。国际J机器人。物件。 2008,27，869–894页。[谷歌学者] [交叉参考]
马尾藻，M。；维勒莫克斯，E。；Shraiman，B.I.“信息出租车”是一种无梯度搜索策略。自然 2007,445, 406–409. [谷歌学者] [交叉参考] [公共医学]
Masson，J.B.Olfactory以有限的空间感知进行搜索。程序。国家。阿卡德。科学。美国 2013,110, 11261–11266. [谷歌学者] [交叉参考] [公共医学] [绿色版本]
Ristic，B。；斯科沃尔佐夫，A。；Gunatilaka，A.关于自主搜索认知策略的研究。信息融合 2016,28, 1–9. [谷歌学者] [交叉参考]
Hutchinson，M。；哦，H。；Chen，W.H.Entrotaxis作为湍流条件下自主搜索和源重建的策略。信息融合 2018,42, 179–189. [谷歌学者] [交叉参考] [绿色版本]
米什拉，V。；Zhang，F.利用类信息出租车算法进行源搜索的随机优化框架。2016年IEEE第55届决策与控制会议（CDC）会议记录，美国内华达州拉斯维加斯，2016年12月12-14日；第6845-6850页。[谷歌学者]
杰，C。；Xin，B。；彭，Z。；窦，L。；Zhang，J.在搜索和优化中勘探开发权衡的最优收缩定理。IEEE传输。系统。曼赛本。A部分系统。嗯。 2009,39, 680–691. [谷歌学者]
莫劳德，E.M。；Martinez，D.机器人信息出租车在稀释条件下搜索的有效性和鲁棒性。前面。神经机器人。 2010,4, 1–8. [谷歌学者] [交叉参考] [公共医学]
张，S。；马丁内斯（D.Martinez）。；Masson，J.B.使用稀疏的二进制线索和有限的空间感知进行多机器人搜索。前面。机器人。人工智能 2015,2, 12. [谷歌学者] [交叉参考]
卡帕斯，E.D。；Shklarsh，A。；Schneidman，E.信息社交和信息寻求主体群体中出现的有效集体行为。程序。国家。阿卡德。科学。美国 2017,114, 5589–5594. [谷歌学者] [交叉参考] [公共医学] [绿色版本]
哈杰格里，H。；莫克斯·D。；Hsieh，M.A.湍流场中多主体羽流跟踪的信息理论寻源策略。J.Mar.科学。工程师。 2017,5, 3. [谷歌学者] [交叉参考]
罗伯特·C。；卡塞拉，G。蒙特卡罗统计方法；施普林格：德国柏林，2013年。[谷歌学者]

图1。当时移动传感器平台的轨迹（红线）、探测（红色实心圆圈）和粒子（黑点）k个=30050010801385，使用infotaxis方案。源位置位于

(- 200, 0)

用相应平均速率的等高线图。估计的来源由红星标记的粒子的加权中心表示。

图1。当时移动传感器平台的轨迹（红线）、探测（红色实心圆圈）和粒子（黑点）k个=30050010801385，使用infotaxis方案。源位置位于

(- 200, 0)

用相应平均速率的等高线图。估计的来源由红星标记的粒子的加权中心表示。

图2。当时移动传感器平台的轨迹、探测和粒子k个＝150350550764。源位置位于

(- 200, 0)

用相应平均速率的等高线图。

图2。当时移动传感器平台的轨迹、探测和粒子k个=150、350、550、764，使用自由能方案。源位置位于

(- 200, 0)

具有相应平均速率的等高线图。

图3。(一)传感器平台随时间变化的测量；(b条)测量采样粒子扩散的协方差矩阵的轨迹；(c（c）)随着时间的推移，估计的震源到震源的距离，用红色标记，对应于图1并用蓝色标记，对应于图2.

图3。(一)传感器平台随时间变化的测量；(b条)测量采样粒子扩散的协方差矩阵的轨迹；(c（c）)一段时间内估计的震源到震源的距离，用红色标记，对应于图1并用蓝色标记，对应于图2.

图4。概率图的等高线图（高斯混合模型（GMM）拟合的粒子），移动传感器平台的当前位置在当时用蓝色三角形标记

k个 = 1020

使用infotaxis方案。

图4。概率图的等高线图（高斯混合模型（GMM）拟合的粒子），移动传感器平台的当前位置在当时用蓝色三角形标记

k个 = 1020

使用infotaxis方案。

图5。(一)估计源和实际源之间的距离与采样粒子扩散的倒数的Q-Q图。(b条)使用信息排序方案与自由能信息排序方案（曲线拟合数据）的传感器位置与实际源的距离。源位置固定在[−250，0]，传感器初始位置固定在[200，−100]。

图6。使用自由能方案的移动传感器平台的轨迹（红线）、探测（红色实心圆圈）、估计源（红星）和粒子（黑点）(

T型 = 0

). 源位置位于

(- 250, 100)

用相应平均速率的等高线图。

图6。使用自由能方案的移动传感器平台的轨迹（红线）、探测（红色实心圆圈）、估计源（红星）和粒子（黑点）(

T型 = 0

). 源位置位于

(- 250, 100)

具有相应平均速率的等高线图。

图7。使用自由能方案的移动传感器平台的轨迹（红线）、探测（红色实心圆圈）、估计源（红星）和粒子（黑点）(

T型 = 10^{4}

). 源位置位于

(- 250, 100)

用相应平均速率的等高线图。

图7。使用自由能方案的移动传感器平台的轨迹（红线）、探测（红色实心圆）、估计源（红星）和粒子（黑点）(

T型 = 10^{4}

). 源位置位于

(- 250, 100)

用相应平均速率的等高线图。

表1。具有不同搜索区域规模的信息排序方法的平均搜索时间（步长）。

空间比例（Space Scale）	100 × 100	150 × 150	200×200	250 × 250	300 × 300	350 × 350
信息出租车[14]	376.8	641.1	989.5	1156.9	1419.3	2136.5
提出的方法	335.7	483.6	821.1	993.5	1251.2	1982
无图信息排序[15]	347.9	535.2	864.5	1108.4	1391.3	2109.3
信息出租车II[16]	372.1	659.2	917.5	1225.8	2389.9	3340.2
信息出租车III[16]	375.4	646.7	928	1103.4	1535.4	2372.9
熵轴[17]	381.5	625.6	901.4	1157.8	1554.3	2269.5

分享和引用

MDPI和ACS样式

宋，C。；何毅。；X·雷。基于熵和势能组合最小化的扩散源自主搜索。传感器 2019,19, 2465.https://doi.org/10.3390/s19112465

AMA风格

宋丙，何毅，雷旭。基于熵和势能组合最小化的扩散源自主搜索。传感器. 2019; 19(11):2465.https://doi.org/10.3390/s19112465

芝加哥/图拉宾风格

宋、程、何余耀和雷晓康。2019.“基于熵和势能组合最小化的扩散源自主搜索”传感器19，11号：2465。https://doi.org/10.3390/s19112465

请注意，从2016年第一期开始，该杂志使用文章编号而不是页码。请参阅更多详细信息在这里.

文章菜单

基于熵和势能组合最小化的扩散源自主搜索

摘要

1.简介

2.问题制定

2.1. 信息出租车计划

2.2. 信息出租车计划的不足

3.免费能源信息出租车搜索计划

3.1. 自由能的构造

3.2. 基于粒子滤波的实现

3.3. 自由能最小化的信息排序决策

4.模拟

4.1. 典型运行

4.2. 蒙特卡洛运行

4.3。温度的影响T型

5.结论

作者贡献

基金

致谢

利益冲突

缩写

工具书类

分享和引用

文章指标

文章访问统计

更多信息

指导方针

MDPI计划

遵循MDPI