1.简介
携带适当传感器的自动机器人可以有效定位生化或放射性污染物泄漏源,如漏油或放射性扩散,并跟踪湍流中的污染物扩散[1,2]. 近年来,这一来源搜索问题,即气味或气源定位,已经得到了相当多的研究[三,4,5,6]. 一般来说,流场中来源物质浓度的变化在很大程度上取决于雷诺数。基于梯度的策略,如极值搜索[7],大肠杆菌算法[8]和Braitenberg算法[9],在低雷诺数环境中工作良好,材料浓度变化平稳。然而,在高雷诺数的湍流环境中,源的弥散通常被分解为不稳定、稀疏和不连续的斑块[10,11]. 它导致了零星和间歇的感官景观,波动的变化没有指向源头的梯度[12]导致基于梯度的策略无效甚至无效[13]. 这项工作的重点是在开阔的风场中寻找未知位置的扩散源,在那里湍流会导致不规则的梯度和间歇性的感觉线索。 湍流环境中的搜索问题可以表述为概率搜索,以解释随机间歇检测。一类被称为信息排序的概率搜索策略[14]专门用于在湍流介质中寻找扩散源,它确定通过最小化源概率分布的熵来降低源不确定性的措施。infotaxis方案已被有效地开发用于许多搜索策略。马森[15]提出了一种称为无图的信息排序方案,允许在自由能最小化的基础上,在空间感知有限的复杂变化环境中进行搜索。Ristic等人[16]研究了基于三种不同奖励函数的信息排序方案的性能,并基于Rényi发散度开发了一种改进的信息排序算法。Hutchinson等人[17]开发了entrotaxis方案,将搜索者驱动到下一次检测中最不确定的位置,而不是期望后验源分布中最小不确定的地方。Mishra等人[18]提出了期望速率算法,并证明了infotaxis算法和期望速率算法在大多数情况下都会产生相同的优化步骤。 探索-开发平衡是利用这些随机检测保持搜索效率的关键[19]. 对于信息排序法,将熵的预期减少作为勘探项(即收集更多信息并获得更可靠的源分布估计值),将最大似然作为开发项(即前往估计的最可能源位置)[20]. 这项工作解决了传统信息出租车策略的缺陷[14]这往往倾向于对信息的探索,而不是利用信息,导致搜索行为具有更多的遍历运动,并花费更多的搜索时间。存在一个发挥最大可能性作用的开采术语。然而,它使用传感器周围的局部概率来获得最大可能性,这可以防止在获得更多检测后,随着不确定性的减少,追逐行为被带离轨道。问题在于,局部概率的微小差异无法产生朝向最可能震源的显著梯度。此外,我们注意到,直接进入全球最可能的震源位置进行探测是非常危险的,因为估计的概率分布是多模态的,在获得足够的探测之前是不可靠的[21]. 事实上,由于不可靠的概率分布对环境的错误描述,最大似然或最大后验策略在远离源的地方系统地失效。因此,勘探和开发之间的平衡应该根据概率分布的可靠性程度进行动态自适应。在这种情况下,Masson[15]使用了具有扩展域的局部概率来加强最大似然行为,从而将平衡转向利用。 为了平衡勘探开发并加快搜索进度,我们提出了一种新的搜索方案,该方案将熵和势能的组合最小化,形式化为自由能的一种形式[15,21,22]其中,移动传感器平台决定其搜索行动,以尽量减少自由能。熵驱动传感器积累信息(如传统信息排序)。势能,包括传感器到假设源距离的加权和,被添加以加强追赶行为。温度主动控制势能和熵之间的相对值。通过利用概率分布协方差矩阵的迹线来降低温度的变化,从而将平衡转移到利用上,减少不确定性或增加可靠估计。类似于[16,17,23],我们使用源概率分布的粒子滤波器表示,使该策略在计算上适用于大型复杂空间。然后,通过粒子的扩散以及当前位置与所有粒子之间的距离来计算势能。我们通过臭气羽流传播的计算模型,数值验证了该方案的有效性。本文的贡献在于引入了自由能来代替熵来进行决策,从而将勘探与开发的平衡转变为开采,同时减少了资源的不确定性。它可以在大空间中更快地搜索扩散源,从而缩短移动传感器平台到达源的路径。 本文的结构如下。问题公式如所示第2节自由能信息流方案如所述第3节.第4节通过使用以湍流为特征的计算羽流数据集进行模拟,给出了数值结果。最后,得出结论第5节. 2.问题制定
2.1. 信息出租车计划
Infotaxis于年推出[14]用于在具有随机零星检测的复杂环境中进行搜索。它围绕两个核心部分构建:基于检测历史的源位置贝叶斯估计和基于熵最小化的贪婪决策。利用贝叶斯估计构造源位置的后验概率分布。贪婪决策是选择搜索者的运动方向,收集根据概率分布计算的信息报酬。 假设扩散源位于,其中表示免费的二维搜索区域。一种半径球形检测传感器一安装在移动传感器平台上,其位置为。检测状态被标识为二进制变量通过传感器:表示传感器当前位置没有色散,以及另有说明。计数阳性检测在时间间隔内在任何位置第页由泊松分布建模如下:哪里表示时间间隔内阳性检测的期望值.平均利率定义为在给定位置遇到离散的预期次数第页关于位于的源平均速率与距离源的距离、源的强度、流场的动力学以及环境的几何结构有关。的参数包括强度、风速和风向,以及扩散率通常被假定为先验知识。 沿搜索轨迹的检测事件携带有关源相对于传感器的相对位置的线索。我们假设在位置封装检测对于分散体在时间上的遭遇k个.后验概率对于利用贝叶斯推断的未知源位置,读取:哪里表示检测的可能性以源为条件. 在信息论的背景下,传感器的目的是通过与环境的相互作用降低目标的不确定性。引入香农熵来测量不确定度新的检测可以降低熵并增加信息量。移动到一个允许的位置时,任何检测或未检测都会导致信息的预期变化如下:哪里是传感器接收信号时估计熵的变化新的正极传感器在下一步移动到相邻位置时进行检测。表示泊松模型的命中率。右边的第一项对应于在,第二项说明了源不在的情况.熵的目标最小化驱动传感器向最大熵降的方向移动。当熵减至零时,不确定性消失,源头被发现。 2.2. 信息出租车计划的不足
方程式右侧的第一项(三)是一个利用性术语,倾向于运动到最大似然点。等式右侧的第二项(三)是探索性术语,有利于获得信息以接收额外的检测。因此,可以清楚地看到,信息排序方案自然地结合了开发性和探索性倾向。 infotaxis方案的缺点是,利用性术语仅在搜索接近尾声时有效。当概率收敛到源时,由于通过命中率感知远场,搜索者的位置仍然远离源。这导致搜索者位于低概率区域,无法产生指向最可能位置的显著梯度。的值对于所有允许的相邻位置很小(如所示第4.1节). 它削弱了在搜索过程中,不断将勘探开发平衡转向勘探。传感器只会进入震源附近的高概率区域。随后,最大似然明确指向源并在此时执行其功能。 应注意,源的概率分布是由远程估计生成的。因此,传感器始终落后于概率分布的收敛速度。而不是最大可能性,追踪全球最有可能的来源可以带来非常有效的搜索。然而,由于多峰概率分布,直接追踪概率峰值位置系统性地失败了。此外,在获得更可靠的估计之前加强利用往往会导致自锁(过度利用)。事实上,移动传感器平台应该逐渐有利于追赶行为,其中,随着概率分布可靠性的提高,开发对决策过程的影响更大。一般来说,该问题是根据信息排序方案的要求制定的,在搜索过程中,探索与开发相结合并积极平衡。
3.免费能源信息出租车搜索计划
本节详细介绍了用于改进搜索的拟议自由能信息排序方案。我们首先在热力学理论的背景下提出自由能的构造。其次,给出了基于粒子滤波器的具体设计和通过最小化自由能的部分可观测马尔可夫决策过程POMDP(Partially-Observable Markov Decision Process)的计算形式。
3.1. 自由能的构造
熵作为探索术语仍然有效(与传统信息分类一样),即驱动传感器收集信息以提高估计的准确性。同时,提出了另一个新的开采术语,该术语涉及到最可能来源的吸引力,目的是加强追逐最可能来源行为。
在这项工作中,吸引力函数被定义为与当前位置之间距离的加权和相关的势能以及所有假设的来源用不同的权重表示概率分布。它避免了直接使用概率分布的峰值位置由于概率分布的多模性,它是最可能的源。势能定义为:哪里是当前位置之间的距离和一个假设的来源和是距离的指数,该距离决定了假设源的吸引力强度。概率扮演该地点假设来源吸引力权重的角色.势能描述了在获取新检测时概率不断更新的所有假设源的综合吸引力。这个术语不同于自由能的“功能”[15],这取决于概率图中的梯度。 作为探索的熵和作为开发的势能的结合形成了自由能的形式。因此,要最小化的自由能不是信息排序方案中的熵,而是:哪里是势能和是香农熵,而是控制前两项之间相对值的温度。是协方差矩阵的轨迹概率分布的、和是相称的因素,而表示决定下降率的指数。的价值概率下降从初始均匀分布收缩到源上的聚集分布,这表明不确定性降低,源分布的估计更加可靠。特别是,势能在自由能中的比例是通过降低温度来调节的。相比之下,自由能的温度在[15,22]中提到了改变温度的建议[15]. 由于环境的高度不确定性或低可靠性概率分布,降低温度可避免向最可能的源位置移动的过度利用。 在搜索过程中驱动传感器积累信息,以提高估计的可靠性,并减少源的不确定性。随着不确定性的减少(减少),术语逐渐开始搜索,并驱动传感器追踪估计的最可能震源位置。因此,平衡从勘探转向()到剥削()随着不确定性的减少(即,估计的可靠性增加)。
3.2. 基于粒子滤波的实现
贝叶斯估计、决策和距离加权和的过程都依赖于概率分布,在传统的信息排序方案中,概率分布用网格图表示。然而,必须提高覆盖搜索区域的栅格地图的分辨率,以适应概率分布的准确性。大量网格单元给传感器平台上的计算带来了额外的挑战。为了提高计算强度,采用序贯蒙特卡罗方法表示具有有限且易于处理的随机绘制粒子的概率分布。粒子滤波器的使用使我们能够限制传感器平台的计算负担[16,23],确定覆盖感兴趣搜索区域的概率分布。 让我们使用序贯蒙特卡罗方法来表示后验分布通过随机集.给,是从概率图中采样的随机粒子的位置和是关联的重量。权重是标准化的,即。,、和M(M)是粒子数。传感器源概率图的近似值可以表示为:哪里是Diracδ函数。通过与基于网格的方法的比较[14,15,22]蒙特卡罗近似简化了复杂积分的数值求解,使概率图的表示变得简单。 给定时间的先验概率由代表,可以计算随机样本接近后部时间k个,使用重要性抽样技术[24]. 非标准化粒子重量使用检测计算如下: 粒子的重量随后被归一化,.重要性抽样按顺序进行为了提高结果的样本多样性,重新采样的粒子需要进行MCMC移动步骤。重采样的条件是有效尺寸粒子数小于阈值。
作为概率分布由采样的粒子近似,熵可以计算为.假设的源由粒子表示(而不是网格单元[14])即每个粒子表示与重量相关的假设来源通过重要性抽样法和重抽样法,这种情况下所需的粒子数大大少于以前的网格单元。然后,基于粒子的自由能可以通过以下公式计算:其中势能是当前位置之间距离的加权和和所有的粒子具有相应的重量.跟踪在温度范围内T型是通过局部位置粒子的扩散来测量的(是粒子分布的加权协方差矩阵)。这里,关于来源和估计的可靠性的不确定性水平由粒子的扩散来表示。随着获得更多的探测,粒子的扩散收缩,覆盖最可能来源的区域,这对应于痕量的减少. 3.3. 自由能最小化的信息排序决策
传感器平台位于自主决定控制变量使用自由能信息趋同策略,该策略可以表示为部分观测的马尔可夫决策过程(POMDP)[16]. POMDP的要素包括状态、一组可容许的行为和一个奖励函数。当时的状态是概率分布指定传感器当前对源的了解。允许的行动可以提前一步或多步形成。搜索上下文中的决策是选择控制向量。奖励函数将每个允许的操作映射为预期的信息增益。 基于采样粒子表示的概率分布,POMDP决策被转移到最小化自由能而不仅仅是熵.哪里是预期的自由能,它是在先前自由能的基础上更新的未来的检测.是期望运算符。可容许作用的空间与尺寸连续:线速度V(V),角速度和运动持续时间.为了减少数值优化的计算负担,作为离散集。如果,、和表示可能的离散值集V(V),、和,然后是笛卡尔积(请参阅[16]). 在计算,我们需要未来的检测用于计算然而,必须在移动传感器平台实际移动到之前计算奖励并获取下一个测量值.实际上,对于给定的位置第页,我们计算平均值然后找到使得对应于泊松概率的分布函数(参考方程式(1))大于某个阈值,其中。然后仅计算以下项的总和因此,自由能的两项基于粒子计算,传感器未来位置、和测量.预期值关于概率质量函数是: 搜索将继续,直到满足全局停止标准,此时移动传感器平台会落入特定半径内的源位置局部区域,以声明源。如果传感器平台和源之间的距离小于则满足停止准则,并给定一个值,否则为零。
算法1总结了搜索传感器平台上自由能信息排序方案算法的基本步骤。
算法1 | 免费能源信息出租车计划 |
1 | 输入:传感器位置,粒子 |
4 | 虽然“找不到源”做 |
5 | 计算自由能使用方程式(8) |
6 | 创建容许集 |
7 | 对于每一个 做 |
8 | 计算未来传感器位置 |
9 | 确定科学技术。 |
10 | 计算未来自由能 |
11 | 计算预期奖励使用方程式(10) |
12 | 结束 |
13 | 查找最大值 |
14 | 移至并检测色散 |
16 | 更新粒子使用方程式(7) |
17 | 结束 |
18 | 输出:估计的震源位置 |
4.模拟
对基于计算羽流的信源搜索任务进行了仿真,以研究该策略的有效性和效率。首先进行了一个典型的运行,以说明传统信息排序和所提策略的性能。然后,通过蒙特卡罗运行估计平均搜索性能,用平均搜索时间和平均距离表示。最后,温度的影响T型进行了调查和讨论。
使用了以下参数(所有物理量均为任意单位(a.u.)):
真实源参数:;
搜索区域:;
运动模型参数:;
环境和传感器参数:,,,,;
算法参数:;;和粒子数,;
本地搜索停止阈值:.
4.1. 典型运行
首先,我们分别使用信息出租车方案和自由能信息出租车方案研究了轨迹和搜索过程,以展示其性能。infotaxis方案和自由能infotaxies方案的典型运行结果如所示图1和图2分别是,和图3显示搜索期间的相应特征。 图1显示搜索区域,搜索传感器的轨迹k个=10030010501385,使用infotaxis方案,以及位于用相应平均速率的等高线图。随机样本接近后部显示为黑点。图1a显示满足重新采样条件之前的粒子,其中粒子被放置在规则网格上,从而模拟基于网格的方法,粒子权重值由灰度强度表示。在获得阳性检测结果后,粒子重新采样,并将其相应的权重重置为均匀值(显示于). 此时此刻,采样颗粒的扩散收缩,但保持较高水平。这由协方差矩阵的轨迹表示,如图3b.然而,移动传感器平台倾向于探索空间并产生螺旋搜索行为。然后,取样颗粒的扩散缩小到随着检测次数的增加(跟踪次数减少,如图所示图3b) ,但螺旋式搜索仍在出现。整个搜索轨迹显示出许多转弯和风向。这将花费传感器平台的大部分有限时间。到震源的距离图3c表示传感器接近源的速度。一般来说,预期的搜索应该是传感器平台以最可能的源位置为目标,因为样本粒子的扩散减少达到了一定程度。 图2显示搜索区域,移动传感器平台的轨迹使用自由能infotaxis方案及其采样粒子。轨迹与图1在时间步之前,如所示图2a、 b,轨迹曲线也有相似之处以及到震源的距离,如所示图3b、 c.当获得更多阳性检测结果时,颗粒扩散收缩(如图所示)也就是说,关于来源的更可靠估计或更高确定性(协方差矩阵的轨迹在图3b) 。搜索中的利用逐渐加强,移动传感器平台逐渐趋向于接近粒子密集区,如所示图2c.当颗粒扩散缩小到一个较小的区域时,开采行为导致搜索偏离轨道,传感器平台被驱动直接前往最可能的来源(如所示). 到震源的距离如所示图3c表明,随着估计的提高,追逐行为逐渐导致搜索偏离轨道,并使移动传感器平台直接指向源。 图4显示了最大似然法在infotaxis方案中,不能通过邻域概率或局部概率有效地加强利用。显然,概率分布覆盖了震源位置,并达到了适当的可靠性水平(下降图3b) 指导搜索。然而,传感器的位置位于低概率区域,无法产生指向震源的显著梯度。这导致了剥削在方程式中(三)不执行其功能。 典型运行的观察结果证实,自由能信息排序方案中势能的可用性对于提高给定搜索任务的搜索性能至关重要。
4.2. 蒙特卡洛运行
接下来,为了评估所提方法的性能和效率,进行了100次蒙特卡罗运行。使用空间左上角的源位置和右下角的初始位置执行搜索。表1显示了改变搜索区域规模时的平均搜索时间,并将自由能信息排序方案与相关信息排序方案进行了比较。这些工作从不同的角度改进了经典的信息排序方法。信息出租车II[16]、信息出租车III[16]和熵[17]为决策提供更有效的信息。无地图信息出租车[15]提出的基于自由能的方法将收集信息的行为转变为利用信息的行为。在我们的模拟中,我们专注于无图信息融合所使用的自由能形式,而没有考虑不完整的空间信息和里程测量误差,如[15]. 最初,随着搜索区域的扩大,信息出租车方案的平均搜索时间显著增加,以探索更多的地方来获取烟羽。相比之下,基于自由能的信息排序方案(无图信息排序和所提出的方法)缩短了公共空间中的平均搜索时间。特别是,与具有局部概率图和恒定温度的无图信息融合相比,具有距离势能和自适应温度的该方法产生的时间稍短。这是因为在获得更可靠的估计后,开采主导了搜索。结果表明,所提出的自由能信息排序方案可以加快搜索速度。
值得注意的是,不同尺度下的平均搜索时间几乎比经典信息趋同缩短了一个统一的步长(间隔154-168),但尺度为100×100除外。这是因为搜索的加速出现在开发阶段。为了说明这一点,图5显示了传感器与实际源之间的距离,以及估计源与实际源在粒子传播过程中的距离。首先,通过粒子收缩,验证了估计源收敛到实际源,如所示图5a(距离随着). 这确保了通过自由能信息排序方案追踪估计的最有可能的源并将传感器引向真实源的有效性。第二,随着扩散的减小,传感器与震源之间的距离减小,扩散后这一进程加快,达到了一定的水平,如所示图5b.从比较中可以看出,自由能信息趋同方案得到的下降速度比信息趋同方法更快。结果表明,该传感器通过自由能信息趋近方案加强了直达源的行为。 4.3。温度的影响T型
温度T型控制势能和熵之间的相对值,从而可以在搜索过程中主动控制探索-开发平衡。随着迹线所示不确定度的降低,温度T型势能在自由能中所占比例下降,向开发方向转移。我们通过设置两个极值来进行搜索模拟,以研究温度的影响T型.
图6显示搜索设置温度失败传感器平台最终围绕估计的源进行自拍,与实际源发生偏差。随着温度的变化自由能仅维持势能项,势能驱动的传感器平台直接追赶估计源。沿着接近估计源的路径被动更新源的概率分布。当传感器到达估计源时,无法进一步更新源的概率分布(红星指示的预期源几乎没有移动)。通常,在没有可靠估计的情况下,将移动传感器平台推向最可能的源的开发是有风险的(需要进行探索以提高可靠性)。 图7结果表明,搜索可以通过自由能信息排序方案和温度来完成.作为足够大时,自由能主要由熵项控制。熵的最小化驱动传感器收集信息并主动更新源的概率分布。无论源位于何处,传感器平台都会探索空间,以获取阳性检测结果,对粒子进行重新采样。因此,移动传感器平台没有被困,并不断改进概率分布。 为了保持自由能信息趋同方案的有效性,首先不需要事先了解空间、温度T型应在初始阶段使熵减少值占主导地位,以便传感器首先探测工作空间。一般来说,在搜索上下文中,开发和探索的术语应该结合并平衡。探索是推动搜索的主要因素(收集信息和改进估计),开发可以加快搜索进度。势能和熵统一于自由能和调节温度T型主动控制它们之间的相对值。
5.结论
这项工作部署了一个移动二进制传感器平台来搜索湍流中的扩散源。为了解决infotaxis方案中探索-开发失衡的问题,我们提出了一种将势能和熵结合成自由能的自由能infotaxies方案,以最小化POMDP的回报。熵的减少保持了勘探的作用,从而收集信息并提高了源估计的可靠性。追寻最可能的震源位置是通过降低势能来实现的,势能采用所有假设震源位置与传感器位置之间距离的加权和。自适应内部温度通过利用协方差矩阵迹线测量的采样粒子的扩散,主动控制势能和熵之间的相对值。因此,在资源不确定性较高的阶段,勘探主导搜索,然后随着不确定性的消退,开采主导搜索,从而实现了开发-勘探的平衡。仿真结果验证了自由能信息排序搜索方案加快了基于偶发二进制检测的扩散源搜索速度。