2.1定义和概述
让\(\{X(t)\}\)以平稳时间序列的形式表示数据。在以下内容中,\(\{X(t)\}\)是从实验观测或数值模拟中获得的。无论是哪种情况,这里感兴趣的情况是\(\{X(t)\}\)显示扩散波动和突发事件(以下称为跳跃)。发件人\(\{X(t)\}\),我们的目标是适应这种形式的跳转扩散SDE
$$dY(t)=F\bigl(Y(t)\bigr)\,dt+\sqrt{2D}\,dW(t)+dJ(t)$$
(1)
哪里F类是漂移函数,D类是噪声强度,以及\(W(t)\)是一个维纳过程(即布朗运动)。在这里\(J(t)\)是表示跳跃的复合泊松过程
$$J(t)=\sum_{i=0}^{N_{\lambda}(t)}B_{i}$$
(2)
哪里\(N_{\lambda}(t)\)是具有速率的泊松点过程λ、和\({B_{i}}\)s是从分布中提取的独立且相同分布的跳跃幅度\(Q_{B}\).对于足够小的采样间隔或时间步长Δt吨,跳跃将以概率发生\(\varGamma_{B}\equiv\lambda\Delta t).
尽管本文开发的方法适用于广泛的实验数据类型,但我们确实对潜在的动力学过程施加了某些条件。值得注意的是,我们的分析仅限于动力学是平稳的(严格意义上)、扩散噪声是加性的、跳跃具有正振幅的系统(\(B_{i}>0\)),其中泊松率λ时间恒定且足够小,因此\(\varGamma_{B}\ll 1\)此外,我们假设F类是连续的,并且单个稳定不动点来自动力学的确定部分,但我们的方法可以推广到多稳定系统。除了这个限制外,只要漂移函数产生一个平稳过程,我们就不假设它有特定的形状。最后,我们假设跳跃幅度平均大于扩散增量的典型幅度:\(\mathrm{E}[B_{i}]>(2D\Delta t)^{\frac{1}{2}})一个数量级以上。
就时间序列本身而言,我们假设数据是以高频采样的,因此Δt吨可以假设相对于时间序列的总持续时间而言较小。注意Δ的值t吨是根据产生数据的实验设置的,因此不是我们可以控制的变量。然而,对于实验数据,马尔可夫特性有可能在个别观测的时间尺度上崩溃[5],但我们假设,在这种情况下,时间序列可以降采样到马尔可夫特性保持的时间尺度。
此外,在下面考虑的情况下,跳跃在数据中明确出现,因此有必要使用跳跃-扩散方法。在情况并非如此的情况下,可以从四阶Kramers–Moyal系数评估跳跃的存在,该系数对于具有不连续性的过程来说是不消失的[31,34]. 最后,请注意,我们对\(\{X(t)\}\); 我们只假设这些数据是平稳的。事实上,我们将拟合SDE生成的时间序列的ACF(和PSD)与原始数据的ACF和PSD进行比较,以验证推理过程。
下面我们开发了一个数据驱动的推理程序,它成功地生成了估计值D̂,λ̂,F̂、和\(\帽子{问}_{B} \),其中未知函数F类和\(Q_{B}\)是非参数估计的。这个推理过程产生了一个拟合的随机过程\(Y(t)\)这是原始数据的适当模型。在这个意义上,我们隐含地假设数据\(\{X(t)\}\)从以下实现中采样\(Y(t)\)在我们的计算中,我们将一阶平衡PDF\(Y(t)\),\(P_{Y}\),到的经验PDF\(\{X(t)\}\)(通过核密度估计获得)\(P_{X}\).
我们的方法是基于通过应用阈值来检测数据中的跳跃\(\theta^{*}>0\)关于增量\(\增量X(t+\增量t)\等于X(t++增量t)-X(t)\)。此过程将创建一个具有不同振幅的检测到的跳跃池。让\(Q_{C}\)是根据这些测量的跳跃幅度估计的经验PDF。此外,让n个是时间序列中的增量总数,以及米是其值大于的增量数\(\theta^{*}\)。我们将(总体)跳跃检测概率定义为\(\varGamma_{C}\equiv\operatorname{Prob}\{text{检测大于}\theta^{*}\text{跨区间}\Delta t\}\的增量),我们根据数据估计为\(\varGamma_{C}=\压裂{m}{n}\).
这种阈值交叉方法的一个固有挑战是,除了复合泊松过程产生的真正跳跃之外,我们还不可避免地检测到被错误地识别为跳跃的大扩散波动,此后称为假阳性(FP;图1,顶部)。真实跳跃率的直接估计λ和真实跳跃幅度分布\(Q_{B}\)因此是不可能的,因为检测到的跳转池由真跳转和假阳性组成。我们的主要贡献和推理过程的核心部分是FP相关统计的计算,即FP检测概率\(\varGamma_{A}\)≡探针{检测大于的扩散增量\(\theta^{*}\)在给定的时间步长Δt吨}以及绘制FP振幅的分布\(Q_{A}\).一次\(\varGamma_{A}\)和\(Q_{A}\)计算,然后提取λ(或同等地,\(\varGamma_{B}\))和\(Q_{B}\)从\(\varGamma_{C}\)和\(Q_{C}\)注意,下标“A”、“B”和“C”在下文中分别指FP、真跳跃和两者的组合。更准确地说,我们从检测到的跳跃池中测量“C”中的数量,在“A”中计算FP统计,在“B”中寻找真正的跳跃统计。
2.2阈值的选择
为了确保在跳跃检测过程中错过最少数量的真正跳跃,阈值\(\theta^{*}\)理想情况下应设置为尽可能低。然而,如果设置得太低,FP的数量会变得太大,以至于真正跳跃的统计数据,即。,λ和\(Q_{B}\),无法从统计波动中提取\(Q_{C}\)和\(\varGamma_{C}\)因此,我们的目标是中间值为\(\theta^{*}\)它捕获了最真实的跳跃,同时允许可管理的FP数。这取决于我们对正跳跃幅度的假设,更准确地说,是利用正增量和负增量统计之间的不对称性。注意,阈值隐含地取决于原始时间序列的时间步长:较小的Δt吨意味着扩散波动较小,因此\(\theta^{*}\)可以使用。
让\(\{\Delta X_{+}\}\)和\(ΔX_{-}\}\)是的正负增量集\(\{X(t)\}\),分别(图2(A) )。此外,让\(M_{+}(θ)=\{\Delta X{+}:\Delta X{+}>\theta)和\(M_{-}(θ)=\{-\Delta X_{-{:-\Delta-X_{}>\theta\})是被截断的约化集θ,其中θ跨越通用范围\(\{\Delta X_{+}\}\)和\(\{-\Delta X_{-}\}\)。我们使用这些集合的样本平均值之间的差异\(上划线{M_{+}}-\上划线{M_{-}}\)作为的函数θ以量化不同增量大小下真实跳跃相对于扩散波动的相对重要性。的价值θ对于其中\(上划线{M_{+}}-\上划线{M_{-}}\)最大值对应于正负增量之间的最大可分性。然而,我们发现,使用拐点,即二阶导数变为0的位置,位于该最大值的左侧(图2(B) ,星号)是更好的阈值选择。这个稍低的值保留了更大的真实跳跃范围,这是理想的,同时避免包含过多的FP。选择这个拐点而不是最大值主要影响对λ,因为它依赖于正确检测时间序列中的真实跳跃。稍高的值\(\theta^{*}\)将引入偏见λ̂例如,在我们在第节中考虑的第一个跳转扩散验证案例中。 3.2,选择最大值作为阈值大致会使上的错误增加1%λ̂与使用拐点时相比。我们的设置方法\(\theta^{*}\)因此,选择尽可能小的值有利于\(\theta^{*}\),以及曲线中的拐点\(上划线{M_{+}}-\上划线{M_{-}}\)提供了实现这一点的可靠方法。
2.3跳跃检测
这里我们描述了如何将阈值应用于增量,以生成检测到的跳转池。我们应用了一种专门为处理我们在带有跳跃的实验数据中观察到的两个方面而定制的检测方案,它受到了[35]. 首先,如果在足够精细的时间尺度上解析数据,则跳跃的持续时间可能会长于单个采样间隔。其次,跳跃后不必立即出现负增量。在数据中,以及在一些模拟中,跳跃后的扩散增量仍然可能为正,但我们寻求一种方法来确定跳跃实际何时结束(图1,插图)。这两个考虑因素决定了第节中用于计算FP振幅分布的方法。 2.4.2.
当给定增量大于阈值时,跳变开始时间\(T_{\mathrm{on}}\)如果下一个增量低于阈值,则关联的偏移时间\(T_{\mathrm{off}}\)已注册(即使此增量为正)。这定义了持续时间的跳跃\(T_{\mathrm{off}}-T_{\mathrm{on}}=\Delta T\),式中Δt吨是数据的采样间隔。此后,我们将这种跳跃称为单态跳跃,因为它跨越了单个时间步长的持续时间。相反,如果两个或多个连续增量高于阈值,则跳跃具有持续性\(2\增量t\)或者更多,我们称之为二重态、三重态等等。换言之,跳跃偏移时间仅在高于阈值的增量序列的末尾注册。随着开始和偏移时间的确定,跳跃幅度被定义为\(X(T_{\mathrm{off}})\)和\(X(T_{\mathrm{on}})\).
2.4FP和真跳跃统计
这里我们给出了FP检测概率的计算\(\varGamma_{A}\)FP振幅分布的\(Q_{A}\)。然后我们展示了如何使用这些量来提取真实的跳跃率λ以及真实的跳跃幅度分布\(Q_{B}\)根据检测到的跳跃概率\(\varGamma_{C}\)以及检测到的跳跃幅度分布\(Q_{C}\)对于本小节中的计算,我们假设漂移函数F类和噪声强度D类已知。在下一小节中,我们将展示如何将这些计算合并到一个迭代方案中,该方案允许同时估计所有未知量,包括F类和D类此外,请注意,FP相关计算仅涉及等式的扩散部分(1)因为,根据定义,FP发生在真正跳跃之间的纯扩散段。计算单位:Sects。 2.4.1和2.4.2因此仅适用于扩散增量\(\增量Y ^{\mathrm{diff}}(t)\)最后,请注意,我们对\(\varGamma_{A}\)和\(Q_{A}\)第节。 3.1.
2.4.1FP检测概率
如第节所述。 2.1,对跳跃扩散过程进行采样,如等式(1)在有限的时间间隔内,对观察到的增量应用阈值,可以检测到FP,即扩散(而非真正的跳跃)增量大于阈值。重要的是,这些FP发生的概率取决于间隔开始时的过程值。将此条件检测概率定义为
$$\begin{aligned}\alpha(y)&\equiv\operatorname{Prob}\bigl\{text{检测间隔}[t,t+\Delta t]\text{中的FP,假设}y(t)=y\bigr\}\\&=\operator name{Prob}\bigle(\Delta y^{\mathrm{diff}}(t+\Delta t)>\theta^{*}|y(t。\结束{对齐}$$
(3)
作为α并不明确依赖于时间,这个定义依赖于我们的假设\(Y(t)\)是静止的。这个年-依赖性来自漂移函数F类事实上,如果漂移函数在给定时间是正的(分别是负的),则它将扩散波动偏向(远离)阈值。这转化为FP检测概率,当\(F(y)>0)比什么时候\(F(y)<0)。我们现在转向显式计算\(α(y)).
让\(\varXi_{\Delta Y|Y}(\xi|Y(t)=Y)表示的PDF\(\Delta Y^{\mathrm{diff}}(t+\Delta t)\)以间隔开始时的过程值为条件,其中ξ假定增量的可能值。注意,由于时间步长保持不变,因此始终暗示增量是跨间隔Δ定义的t吨.鉴于我们假设Δt吨为了足够小,我们近似\(\varXi_{\Delta Y|Y}\)作为福克-普朗克方程的短时传播子[36,37]与跳跃扩散过程的扩散部分相关(请记住,这里我们关注的是真实跳跃之间的纯粹扩散段\(Y(t)\))。因此,我们\(\Delta Y^{\mathrm{diff}}(t+\Delta t)\approxix{\mathcal{N}}和
$$\varXi_{\Delta Y|Y}\bigl(\xi|Y(t)=Y\bigr)\approx\frac{1}{\sqrt{4\pi D\Delta t}}\exp\biggl(-\frac}(\xi-F(Y)\Delta t)^{2}}{4D\Delta-t}\biggr)$$
(4)
也就是说,具有平均值的高斯分布\(F(y)\增量t)和方差\(2D\增量t).
对于第节中介绍的测试用例。 三(带有\(增量t=10^{-4}\text{s}\)),我们通过将其与以更精细的时间分辨率求解的相关Fokker–Planck方程的数值解进行比较,验证了该近似(\(增量t/1000\))跨时间步长Δt吨.数值解确实与等式中的近似值很好地拟合(4)(未显示)。数值积分是使用自定义偏微分方程解算器进行的,该解算器实现了有限体积离散化以及全隐式Euler格式。平流项采用逆风格式处理,扩散项采用空间导数的线性插值剖面。用三对角矩阵算法求解得到的代数方程[38].
一旦增量的条件PDF用公式(4),我们计算条件FP检测概率,假设过程开始于年,如下所示:
$$\alpha(y)=\int_{\theta^{*}}^{\infty}\varXi_{\Delta y|y}\bigl(\xi|y(t)=y\bigr)\,\mathrm{d}\xi$$
(5)
也就是说,观察到大于\(\theta^{*}\)开始于年最后,根据经验PDF计算无条件FP检测概率\(\{X(t)\}\),\(P_{X}\):
$$\varGamma_{A}=\int_{-\infty}^{\infty}\α(y)P_{X}(y)\,\mathrm{d} 年。 $$
(6)
我们在第节中验证了这些计算。 3.1.
2.4.2FP振幅分布
我们现在开始计算\(Q_{A}\)也就是FP振幅的分布。首先,回想一下我们的检测方案允许不同持续时间的跳跃(第2.3)。因此,FP的检测意味着一系列高于阈值的增量(例如,图三(A) )或至少是一个高于阈值的增量。让\(T^{\mathrm{FP}}_{\mathrm{on}}\)表示FP开始时间,即第一个阈值以上增量开始时的时间\(Y_{0}\equiv Y(T^{mathrm{FP}}_{mathrm{on}})称为FP的起始值。此外,让τ表示FP持续时间,Δ的整数倍t吨,因此\(τ=δt)对应于FP单线,\(τ=2δt)到FP双绞线,依此类推。
为了计算\(Q_{A}\),让我们首先确定影响FP振幅的因素。首先,必须注意的是,FP振幅将表现出类似的年-如前一节所述的依赖性。实际上,从开始的增量\(Y_{0}\equiv Y(T^{mathrm{FP}}_{mathrm{on}})=Y\)当\(F(y)>0)比什么时候\(F(y)<0)其次,FP的振幅还取决于其持续时间,τ例如,三重态FP的三个增量将相加,并且往往具有比单重态更大的振幅。FP振幅一个因此将与\(Y_{0}\)和τ,但请注意τ也取决于\(Y_{0}\)事实上,在漂移函数更正的情况下,往往会出现更长的FP,反之亦然。为了说明这些依赖性,让我们定义三变量随机变量\(A,tau,Y_{0}),根据其联合PDF分发\(P_{A,\tau,Y_{0}}(A,i\增量t,Y)\),其中我们显式地写入τΔ的整数倍t吨。那么我们寻求的是边际:
$$Q_{A}(A)=\int_{-\infty}^{\infty}\sum_{i=1}^{\ infty{P_{A,\tau,Y_{0}}(A,i\增量t,Y)\,\mathrm{d} 年, $$
(7)
其中总和在所有可能的FP持续时间上延伸,并且其中\(a>0)表示所有可能的振幅。根据条件PDF的定义,我们可以将联合PDF展开如下:
$$\begin{aligned}P_{A,\tau,Y_{0}}}(A,i\Delta t,Y)&=P_{A|\tau,Y_{0}}}(A|i\Delta t,Y)P _{\tau,Y_{0}}(i\Delta t,Y)\\&=P_{A|\tau,Y_{0}}(A|i\Delta t,Y)P_{Y _{0}}}(Y),\ end{aligned}$$
(8)
哪里\(P_{\tau|Y_{0}}(i\Delta t|Y)=\operatorname{Prob}(\text{检测持续时间的FP}i\Delta-t\text{,给定起始值}Y)\)是FP持续时间的条件概率质量函数τ.因此,我们可以写出公式(7)作为脚注1
$$Q_{A}(A)=\int_{-\infty}^{\infty}\Biggl{d} 年。 $$
(9)
大括号中的总和是年,以及等式(9)只是计算相对于起始值的平均值\(Y_{0}\)这个和可以进一步解释为所谓的混合分布:考虑一组随机变量,其中一个是根据一定的概率(其混合料重量)然后根据自己的PDF(其混合物成分)。这个实验的结果本身就是一个随机变量,其PDF称为混合物分布并表示为集合中随机变量的PDF的总和,按其各自的概率加权。在我们的例子中,对于固定值\(Y_{0}\),根据可计数的混合权重集绘制FP持续时间\(P_{\tau|Y_{0}}\),然后根据相关的混合成分实现FP振幅\(P_{A|\tau,Y_{0}}\)在实践中,由于随后的混合权重可以忽略不计,所以在前几个项之后,总和将被截断。
根据方程式(9),我们看到这是为了达到期望\(Q_{A}\)、功能\(P_{A|\tau,Y_{0}}\),\(P_{\tau|Y_{0}}\)、和\(P_{Y_{0}}\)必须首先进行计算。让我们首先考虑后者。因为\(Y_{0}\)根据定义,表示\(Y(t)\)在高于阈值的增量开始时,我们可以用以下联合PDF来表示其PDF\(\Delta Y^{\mathrm{diff}}(t+\Delta t)\)和\(Y(t)\):
$$\开始{对齐}P_{Y_{0}}(Y)&=K\int_{\theta^{*}}^{infty}P_{\Delta Y,Y}(\xi,Y)\,\mathrm{d}\xi\\&=K\ int_{\t theta^{**}}^{\infty{\varXi_{\DeltaY|Y}\bigl xi\\&=K P_{Y}(Y)\int_{\theta^{*}}^{\infty}\varXi_{\Delta Y|Y}\bigl(\xi|Y(t)=Y\bigr)\,\mathrm{d}\xi\\&=K P_{X}(Y)\alpha(Y,\结束{对齐}$$
(10)
哪里K(K)是一个归一化常数,在最后一行中,我们替换了\(P_{Y}\)根据经验PDF\(\{X(t)\}\)。请注意,我们与\(\theta^{*}\)作为下限以强制执行\(Y_{0}\)与阈值以上增量的开始有关。现在让我们考虑一下\(P_{A|\tau,Y_{0}}\).
在下文中,我们通过用索引标记时间来简化符号我,因此\(i=0)表示时间\(T^{\mathrm{FP}}_{\mathrm{on}}\),\(i=1)时间\(T^{\mathrm{FP}}_{\mathrm{on}}+\Delta T\),\(i=2 \)时间\(T^{\mathrm{FP}}_{\mathrm{on}}+2\Delta T\),等等。用这个符号,\(Y_{i}\equiv Y(T^{mathrm{FP}}_{mathrm{on}}+i\增量T)\)表示我FP开始时间后的第个点,以及\(\Delta Y_{i}^{\mathrm{diff}}\equiv Y_{i}-Y_{(i-1)}\)这个我扩散增量。此外,我们这里的重点是持续时间的FP\(i \增量t\),对应于我连续高于阈值的增量。因此,即将进行的计算涉及隐式取决于事件的PDF\(增量Y^{\mathrm{diff}}_{n}>\theta^{*},对于所有n\lei}).
对于持续时间的FP\(τ=iδt)开始于\(Y_{0}\),我们将其振幅定义为\(A=Y_{i}-Y_{0}\),我们寻找条件PDF\(P_{A|\tau,Y_{0}}\)为此,让\(\rho_{i}(y)\equiv P_{y_{i}| y_{0}}(y|y_{0})\)表示的PDF\(Y_{i}\),\(i>1),条件为\(Y_{0}\).自一个表示为\(Y_{i}\)和\(Y_{0}\),我们可以直接写
$$P_{A|\tau,Y_{0}}(A|i\Delta t,Y_{0{)=\rho_{i}(A+Y_{0})$$
(11)
这个\(\rho{i}\)的,用于\(i>1),根据以下事实按顺序进行评估\(Y_{i}=\Delta Y^{\mathrm{diff}}_{i}+Y _{i-1}\)。此总和的PDF,以\(Y_{0}\),给出
$$开始{对齐}\rho_{i}(y)&=\int_{-\infty}^{\infty}P_{\Delta y_{i{,y_{i-1}|y_{0}(\xi,y-\xi|y_{0{)\,\mathrm{d}\xi\\&=\int _{-\ infty{^{\infty}P_ Delta y_{i}|y_ i-1},y_{0}}(\ xi|y-\xi,y_{0})P_{y_{i-1}|y_{0{}(y-\xi|y_{0})\,\mathrm{d}\xi\\&=\int_{-\infty}^{\infty}P_{\Delta y_{i}|y_{i-1{},\mathrm{d}\xi。\结束{对齐}$$
(12)
为了强制执行高于阈值的增量条件,\(增量Y^{\mathrm{diff}}_{n}>\theta^{*},对于所有n\lei}),我们评估\(P_{\增量Y_{i}|Y_{i-1}}\)基于等式(4),但我们截断了下面的分布\(\xi=\theta^{*}\):
$$P_{\Delta Y_{i}|Y_{i-1}}(\xi|Y)=K\textstyle\begin{cases}\varXi_{\Delta Y_}i}|Y_{i-1'}(\si|Y(t)=Y)&\text{if}\xi>\theta^{*},\\0&\text}otheric},\end{casesneneneep$$
(13)
哪里K(K)是一个归一化常数。使用等式(13)和(12),我们完成了\(P_{A|\tau,Y_{0}}\)在等式中(11)。在图中三(B) ,我们看到了\(\rho{i}\)对于FP三元组。发件人\(\rho{i}\),我们还可以计算\(\Delta Y^{\mathrm{diff}}_{i}\),条件为\(Y_{0}\)(这将有助于计算\(P_{\tau|Y_{0}}\))。将此PDF定义为\(\varXi{i}(\xi)\equiv P_{\Delta Y_{i}|Y_{0}}(\ xi|Y_{0{)\)。我们将其计算为\(Y_{i-1}\):
$$\开始{对齐}\varXi_{i}(\xi)&=\int_{-\infty}^{\infty}P_{\Delta Y_{i{,Y_{i-1}|Y_{0}}(\ xi,Y|Y_{0{)\,\mathrm{d} 年\\&=\int_{-\infty}^{\infty}\varXi_{\Delta Y_{i}|Y_{i-1}}(\xi|Y)\rho_{i-1}(Y)\,\mathrm{d} 年,\结束{对齐}$$
(14)
其中\(\varXi_{\Delta Y_{i}|Y_{i-1}}\)在\(Y_{0}\)由于马尔可夫特性而消失。在图中三(C) ,我们看到了\(\varXi_{i}\)代表FP三胞胎。
现在我们来计算\(P_{\tau|Y_{0}}\),观察到持续时间FP的概率τ,取决于起始值\(Y_{0}\)我们对事件的条件概率感兴趣\(\{\tau=i\增量t\}\),其中我是一个整数。此事件相当于事件的交集\(E_{1}\equiv\{\Delta Y_{1}^{\mathrm{diff}}>\theta^{*},E_{2}\equav\{Delta Y_2}^{\ mathrm}diff}>\ttheta^{**},\ldots\)和\(E_{i+1}'\equiv\{\Delta Y_{i+1}^{\mathrm{diff}}\le\theta^{*}\}\)换句话说,我们获得了持续时间的FP\(i \增量t \)当第一次我增量高于阈值,但\((i+1)\)th增量低于阈值。
通过连续应用条件概率的定义,我们可以展开\(P_{\tau|Y_{0}}\)如下:
$$开始{对齐}P_{\tau|Y_{0}}}\Biggl[E'_{i+1}\Big|\Biggl(\bigcap_{n=1}^{i}E_{n}\Biggr),Y_{0}\Bigr]\cdot\operatorname{Prob}\Biggl[E_{i}\Big|\Biggl(\bigcap_{n=1}^{i-1}E_{n}\Biggr),y_{0}\Bigcr]\\&\quad{}\cdot\operatorname{Prob}\Bigl[E_{i-1{\Big|1|\Bigl name{Prob}(E_{2}|E_{1},y_{0})\cdot\operatorname{Prob}(E_{1}|y_{0})。\结束{对齐}$$
让\(Z_{i}(y_{0})\equiv\operatorname{Prob}[E_{i}|(\bigcap_{n=1}^{i-1}E_{n}),y_{0}]\),\(i>1),表示我th增量高于阈值,假设\(i-1)之前的增量也高于阈值,并且给定了起始值\(y_{0}\).这些\(Z_{i}\)的可以从\(\varXi_{i}\)方程的(14)如(图三(B) ,阴影区域):
$$开始{对齐}Z_{i}(y_{0})&=\operatorname{Prob}\bigl(xi),\mathrm{d}\xi。\结束{对齐}$$
(15)
现在我们得到了期望的概率质量函数:
$$P_{\tau|Y_{0}(i\Delta t|Y_{0{)=\operatorname{Prob}$$
(16)
我们利用了这个事实\(1-Z_{i+1}\)等于\((i+1)\)th增量低于阈值,并且我们已经定义\(Z_{1}(y_{0})\equiv\operatorname{Prob}(E_{1}|y_{0})=\alpha(y_0})\),即在\(Y_{0}\)高于阈值。一次方程式(10), (11)、和(16)进行评估后,我们应用等式(9)以获得所需的\(Q_{A}\)使用这种方法,我们在理论和模拟之间获得了极好的一致性,如第。 3.1.
2.4.3真实跳跃率
我们对真实跳跃率的估计λ依赖于整体跳跃检测概率的知识\(\varGamma_{C}\)以及FP检测概率\(\varGamma_{A}\)(均在第2.1)。回想一下,我们计算\(\varGamma_{A}\)根据方程式(6),而我们估计\(\varGamma_{C}\)直接从数据中\(m/n\),其中米是具有的时间步数\(增量X(t)>\theta^{*}\)(从真正的跳跃或FP)和n个是数据时间序列中的时间步总数。另一方面,从\(\varGamma_{C}\)我们可以写:
$$\begin{aligned}\varGamma_{C}&\equiv\operatorname{Prob}\bigl\{text{检测大于}\theta^{*}\text{跨区间}\Delta t\bigr\}\\&=\operator name{Prob}\bigr\{(\text{检测跨}\Deltat的FP)\cup-\varGamma_{A}\varGarma_{B}\\&=\varGamma_{A{+\lambda\增量t-\varGadma_{A}\lambda \增量t,\end{aligned}$$
(17)
哪里\(\varGamma_{B}=\lambda\Delta t)是在间隔Δ中观察到真实跳跃的概率t吨这仅仅是概率加法定律的一种表述,其内容如下:检测到间隔Δ中跳跃的概率t吨是观察到真实跳跃的概率加上观察到FP的概率之和,减去同时观察到两者的概率,其中我们使用FP和真实跳跃是独立事件这一事实。对于第。 3.2,隔离λ在等式中(17)准确度高达0.02%。
2.4.4真实跳跃幅度分布
如前一小节所述,我们获得了真实跳跃幅度分布的估计值\(Q_{B}\)基于从时间序列测量的跳跃幅度的经验PDF\(Q_{C}\)以及计算出的FP振幅分布\(Q_{A}\)。因为检测到的跳跃是真实跳跃和FP的混合,所以我们可以先写,
$$Q_{C}=W_{A}Q_{A{+W_{B} 问_{B} $$
(18)
哪里\(W{A}=\frac{\varGamma{A}}{\varGamma{C}})是检测到的跳转为FP的概率,以及\(W{B}=\frac{\varGamma{B}}{\varGamma{C}})这是一次真正的跳跃。这里的微妙之处在于,与FP相反,真正的跳跃永远不会自己被检测到,因为它们总是以扩散波动求和。换句话说,我们从不观察\(B_{i}\)是直接的,但更确切地说是\(B_{i}\)s加上扩散增量。在足够短的时间步长内,扩散增量是高斯变量,并且几乎彼此独立。为了计算\(Q_{B}\),因此我们将假设这些增量是高斯的,平均值为零,方差为\(2D\增量t).正确核算年-平均值的相关性将更精确,但需要\(Q_{C}\)分解为一系列分布,由参数化年,这将需要在数据中检测到大量跳跃。
让Ξ̃表示平均值和方差为零的高斯分布\(2D\增量t). The\(Q_{B}\)在等式中(18)因此应该用卷积来代替\(\波浪线{\varXi}\ast Q_{B}\)此外,\(W_{A}\)事实上必须减少一个因素\((1-\varGamma_{B})\)以说明FP可能在与真实跳跃相同的间隔内发生的概率。这导致
$$Q_{C}=\frac{\varGamma_{A}(1-\varGamma_{B})}{\varGamma_{C{}Q_{A{+\frac{\varGamma_{B{}{\valGamma_}C}}(\tilde{\varXi}\astQ_{Bneneneep)$$
(19)
从这个方程中,我们分离出卷积项并应用基本的反褶积算法[39]提取\(Q_{B}\).让(f)是测量的卷积信号,其中卷积核小时已知。我们寻找完整的信号克,因此\(f=(h \ ast g)\)。我们估计克每次迭代时\(g{k+1}=g{k}+[f-(h\astg{k{)]\),使用\(g{0}=f\)。一旦达到正确的信号,算法就会收敛,因为(f)和\(((h\ast g{k})\)然后变为零。
2.5迭代过程、噪声强度和漂移函数
现在,我们转向对等式中所有未知数进行同步数据驱动估计的问题(1)。为此,我们合并了Section的计算。 2.4在图4,由三个主要分支组成。前两个初始分支I和II是独立的,只执行一次;然后是进行迭代的分支III。在分支I中,设置了阈值(第2.2)然后应用于时间序列以生成检测到的跳转池,从中\(\varGamma_{C}\)和\(Q_{C}\)获得(第2.3)。噪声强度在分支II中估算,以及漂移函数的初始猜测\(\帽子{F}(F)_{1}\),在分支III的第一次迭代中都使用它们来计算\({\varGamma}_{B}\)和λ̂(第2.4)。分支III中的最后一步使用D̂,\({\varGamma}_{B}\)、和λ̂估计漂移函数F̂,它被反馈到分支III的第一步,以迭代地完善估计过程。
2.5.1噪声强度
如图所示4,估计D类不依赖于所选的值\(\theta^{*}\)然而,它仍然使用对增量应用阈值的概念。的确,计算D̂依赖于分区\(\{X(t)\}\)分为大多数无跳段,其长度和数量对用于检测的阈值敏感:阈值越低,检测到的跳数越多(其中一些是FP),并且这些分区越短,如下所述,这可能会歪曲对D类另一方面,高阈值会在这些段中留下大量真正的跳跃。因此,这里的目标是改变阈值θ为了获得D类.
在无穷小采样间隔的极限下,\(\增量t\右箭头0\),二次变量\([Y^{\mathrm{diff}}(t)]\)纯扩散过程收敛于所谓的积分变分,对于加性噪声和时间无关噪声,积分变分给出[40,41]
$$\bigl[Y^{\mathrm{diff}}(t)\bigr]=\int_{0}^{T} 二维\,\mathrm{d} 秒=2DT$$
(20)
哪里\(T=(n-1)\增量T \)是的总持续时间n个样品\(\{X(t)\}\)。因此,我们可以估计D类通过样本二次方差,也称为已实现方差,\(RV(t)\)[40,41]:
$$\hat{D}\approx\frac{1}{2T}RV(t)=\frac{1}}{2T_}\sum_{k=0}^{n-1}\bigl(X^{\mathrm{diff}}(t_{k+1})-X^{mathrm}diff}(t_{k})\bigr)^{2}$$
(21)
例如,对于测试扩散过程\(F(y)=-\mathrm{0.2}年\)和\(D=\mathrm{0.15}\)取样地点:\(增量t=\mathrm{0.01}\mbox{s}\)(\(N=10^{6}\)),等式(21)估计D类误差为0.002%。相反,应用公式(21)对于跳转-扩散过程的实现,返回值被高估了D̂正如预期的那样,由于大量非扩散的正增量\(\{X(t)\}\)还请注意,如果阈值设置得足够低,可以检测到最小的真实跳跃,一般来说,它也可以删除最大的扩散增量,这是正确应用等式所必需的(21)。只需从等式中的总和中删除检测到的跳跃(21)因此,会导致低估D̂.
为了避免这个问题,我们只考虑\(\{X(t)\}\)在计算D̂,因为它们基本上不受正跳跃的影响,除了跳跃偏移后的短暂瞬态。事实上,在每一次跳跃之后,我们预计会看到一个短暂的过程失衡。由于跳跃具有正振幅,负增量统计在该瞬态期间偏向于负值(例如图1)。计算D̂因此基于应用公式(21)到的无跳段\(\{X(t)\}\),但仅包括负增量,并忽略每个段开始时的初始瞬态(持续时间如下所示)。对于以下各种值重复此操作θ.成功估算D类仅基于负增量依赖于我们的假设Δt吨很小,因为在这种情况下,增量几乎是独立的,并且分布为\(\数学{N}(0,2D\增量t)\).对于较大的Δt吨,增量PDF可能会变得不对称,这意味着负增量的统计数据与正增量的统计信息不同,这将导致我们对D类.
让\(T_{\mathrm{off}}\)和\(T_{\mathrm{on}}\)分别表示跳跃偏移和起始时间。请注意,这些时间的值和检测到的跳跃次数都取决于阈值的特定值。然后我第th段定义为\(S(t)\}_{i}={X(t):t_{\mathrm{off}}(i)并且持续时间长\(T_{i}=T_{\mathrm{on}}(i+1)-T_{\mathrm{off}}(i)\),然后让\(δS(t)是它的\(n_{i}\)增量。除此之外\(n_{i}\)增量,我们只保留\(n_{i}^{-}\)为负值且发生在近似持续时间的瞬态之后Φ因此,我们只剩下每个段的以下增量子集:
$$\bigl\{\Delta S(t)\bigr\}_{i}^{-}=\bigl$$
(22)
对于每个部分,我们得到一个估计值\(\帽子{D}(D)_{i} \)如下:
$$\帽子{D}(D)_{i} =\frac{1}{2T_{i}^{-}}\sum_{k=1}^{n_{i}^{-{}\bigl(\bigl\{Delta S(t_{k})\bigr\}^{-}_{i} \biger)^{2}$$
(23)
哪里\(T_{i}^{-}=n_{i}^{-{\增量T\)是组合的有效持续时间\(n_{i}^{-}\)负增量。然后我们计算D̂作为\(\帽子{D}(D)_{i} \)的,加权\(T_{i}/T\).
更准确地说,以下是为了实现D̂:
从最大值开始\(\{\增量X(t)\}\),降低阈值,直到检测到最大的5%的跳跃,这是具有最显著瞬态的跳跃。
让\(\{S^{*}(t)\}^{i}\)是这些跳跃之后的线段(图5(A) )。对每个时间步长进行平均,创建一个触发跳变的平均轨迹(图5(A) ),黑线)。
确定Φ当跳跃触发平均值稳定时的近似力矩,此处量化为当其导数小于0.05时(结果与该特定值无关:变化Φ此处使用的值每一侧的一个数量级都会得到以下估计值D类差异小于0.2%)。这为我们估计了跳跃后平衡所需的最大时间尺度。
使用Φ对于阈值的每个值,提取\(S(t))的(图5(B) )并应用等式(23)至负增量\(t>\varPhi\)(忽略其中的段\(T_{i}<\varPhi\)).
这个方案的结果是一个估计D̂对于阈值的每个值,选择最小值作为最佳估计值(图5(C) )。这是因为这种方法高估了D类两端的阈值范围不同,但原因不同。对于低θ,检测到更多跳跃,这使得\(S(t))的较短,这意味着关联的D̂更容易受到瞬态残差的影响。另一方面,非常高的阈值会使\(S(t))’s,它偏向于负增量的统计数据。最佳平衡是在这两者之间的某个位置实现的,其中分段足够大,初始瞬态可以忽略不计,并且分段中不可避免的跳跃不会显著改变负增量的统计数据。中间值的启发式选择,即与最小值相对应的值D̂估计值,在两种验证情况下都给出了良好的结果(误差小于0.1%,见表2).
2.5.2漂移功能
漂移函数的估计F类依赖于微分Chapman–Kolmogorov方程[42]描述了随机过程的转移概率的演化,其中跳跃与扩散涨落同时发生。让\(Y(t)\)具有转移概率的跳跃扩散过程\(P_{Y|Y_{0}\)对于正泊松跳跃和加性扩散噪声的情况,微分Chapman–Kolmogorov方程简化为(参见附录)
$$开始{对齐}\frac{\partial P_{Y|Y_{0}}(Y,t|Y_{0{,t_{0}0}}(Y,t|Y_{0},t_{0})\\&{}-\lambda P_{Y|Y_{0{}{d} 第条。\结束{对齐}$$
(24)
如果\(Y(t)\)假设已经达到其平衡状态,则左侧消失,在右侧,我们可以用一阶平衡PDF代替转移概率,\(P_{Y}\),脚注2我们假设等于经验PDF,\(P_{X}\),测量的时间序列\(\{X(t)\}\)然后,可以根据公式计算漂移函数(24)如果D类,λ、和\(Q_{B}\)已知(或估计)。
然而,请注意F̂在迭代过程的分支III的第一步中需要(图4),自FP相关统计以来,\(\varGamma_{A}\)和\(Q_{A}\),是基于漂移函数计算的。初步估计\(\帽子{F}(F)_{1}\)因此需要漂移函数。这个特殊的估计在整个推理过程中只需要一次,可以通过以下方法获得\(λ=0)在等式中(24)因此,它成为与随机过程扩散部分相关联的福克-普朗克方程。Fokker–Planck方程的稳态解可用于建立噪声强度、漂移函数和\(P_{Y}\)[37,43]:
$$P_{Y}(Y)=\frac{K}{\hat{D}}\exp\biggl(-\int\frac{\hat{F}(F)_{1} (y)}{\hat{D}}\,\mathrm{d} 年\biggr)$$
(25)
哪里K(K)是一个归一化常数,这里我们再次假设\(P_{Y}=P_{X}\)第一个初步估计必然比真实情况更为平坦F类,因为跳跃的存在\(P_{X}\)比没有跳跃时要宽。连续迭代通过合并对λ和\(Q_{B}\)在等式中(24).