反常扩散的特征是其渐近行为t吨→ ∞. 这使得很难从实验或计算机模拟中检测和描述粒子轨迹,因为实验或计算机仿真必须具有有限的长度。我们提出了一种新的方法,将贝叶斯推理直接应用于在不同时间尺度采样的观测轨迹。我们使用具有已知统计特性的随机轨迹来说明此方法的性能,然后使用它来分析脂质分子在脂质双层平面中的运动。

在广泛的物理系统中观察到了反常扩散,也一直是理论研究的主题。1–4术语“反常”是指扩散粒子的均方位移(MSD)随时间的非线性(渐近)增长,从而偏离爱因斯坦的经典扩散模型。5大多数异常扩散过程显示出细扩散,其中MSD增长为2D类αt吨α,使用0<α<1(大型)t吨、和D类α是分数扩散常数。

异常扩散研究中的一个中心问题是参数的估计D类αα从实验或模拟的粒子轨迹。由于任何观测到的轨迹都由有限的点集组成,因此讨论其渐近行为对于t吨→ ∞. 最常见的方法是计算具有相同滞后时间的所有位置对的时间平均MSDt吨由假设为等效的多个轨迹的统计平均值补充。由于对于的大值,位置对较少t吨与小样本相比,MSD的统计质量随着t吨虽然它确实很大-t吨与渐近行为最相关的数据。在正态扩散的情况下,这种方法工作得相当好,因为MSD随时间的特征线性增长很容易在图上直观地发现,但对于反常扩散,潜在渐近状态的识别是不可靠的。

另一种方法是假设采样轨迹的联合概率分布函数的具体模型,并使用推理技术估计模型参数。有几个根本不同的物理和数学模型产生了相同的2D类αt吨αMSD的形式由来已久,这就提出了如何为给定数据集选择最合适的形式的问题。最近许多针对细分扩散的粒子轨迹分析工作都致力于这个问题。6此外,这些模型都不能在所有时间尺度上有效。扩散动力学让位于时间尺度小于原子或分子碰撞时间的弹道运动,这意味着足够小的时间尺度t吨,MSD总是随着t吨2.

在这项工作中,我们使用基于两个核心思想的新数据分析技术来解决这些问题:(1)多尺度方法,其中数据在不同采样时间步长下进行分析;(2)使用贝叶斯推理直接从观测到的粒子位置获得模型参数及其不确定性,无需计算中间量,如MSD。我们将仅限于描述分子系统中的次扩散,但我们的方法并不局限于这种类型的扩散。在第一步中,我们探讨了我们的方法对于从精确已知的模型随机生成的理想轨迹集合的性能。这使我们能够看到随着输入数据的增加,推理过程是如何收敛的,并理解如何使用它来识别存在不同短时动态的渐近行为。在第二步中,我们在水合脂质双层的计算机模拟中分析了脂质分子的横向扩散。

我们方法的起点是观察到的粒子轨迹X(X)(iδt),= 0, …,K(K).从该轨迹中,我们提取长度的子样本L(左)采样时间步长Δt吨=sδt,=1,2,…,即点X(X)j个=X(X)(j个Δt吨),j个= 0, …,L(左)。我们将这些轨迹解释为L(左)-由概率分布定义的阶跃随机过程

P(P) ( X(X) 0 , , X(X) L(左) | ϕ 1 , , ϕ M(M) ) ,
(1)

哪里ϕ1, …,ϕM(M)是我们希望估计其值的模型的数值参数。对于分子扩散的预期应用,我们需要一个连续扩散过程的模型,该模型在任意选择的离散时间值下采样。这不包括连续时间随机行走(CTRW)、,7其描述了具有随机等待时间的跳跃过程以及诸如自回归分数积分移动平均(ARFIMA)过程的数学模型,8,9它从一开始就假设一个离散的时间序列,因此无法适应不同的采样时间选择。引起异常扩散的最简单的连续随机过程是分数布朗运动(fBM)。其概率分布如下所示8, 9

P(P) ( X(X) | α , D类 α ) = 1 ( 2 π ) N个 | Σ | 经验 1 2 X(X) Σ 1 X(X) ,
(2)

哪里X(X)= (X(X)0, …,X(X)L(左))和

Σ , j个 = D类 α Δ t吨 α α + j个 α + | j个 | α
(3)

是协方差矩阵的分量Σ流程的。对于α=1,fBM减小为标准布朗运动,而0<α<1描述细分扩散和1<α<2超扩散。虽然fBM模型的选择是由于其描述渐近细分扩散的能力,但我们在这里将其用作全部的观测轨迹中的时间尺度。

贝叶斯推理基于这样的思想,即不仅为数据引入概率分布,还为描述数据的模型参数引入概率分布。10这种分布被认为是对人们关于这些参数的知识的描述,而统计物理学中更常见的概率用法是通过随机过程来描述自然现象。我们的数据是等距采样轨迹X(X),被视为“物理”随机变量,以及模型参数αD类α,它们被视为“信息性”随机变量,导致对公式。(2)作为条件概率分布。

贝叶斯推理的起点是先验概率分布P(P)0(α,D类α),它描述了在利用任何观测之前,关于参数的先验信息。我们使用均匀分布α在区间(0,2)和均匀分布中D类α间隔(0,D类最大值)有一个很大但有限的D类最大值以确保正常化。每个观察到的L(左)-阶梯轨迹X(X)(j个)(用于j个= 1, …,N个)添加有关的信息αD类α.整合来自N个轨迹由贝叶斯定理导出,由下式给出

P(P) N个 ( α , D类 α ) = j个 = 1 N个 P(P) ( X(X) ( j个 ) | α , D类 α ) d日 α d日 D类 α P(P) ( X(X) ( j个 ) | α , D类 α ) P(P) 0 ( α , D类 α ) ,
(4)

假设轨迹是fBM过程的独立实现。因素P(P)(X(X)(j个)|α,D类α)称为观察的可能性X(X)(j个)并且由等式给出。(2)。它描述了有关αD类α由单个轨迹贡献。等式中的分母。(4)对于我们的应用来说并不重要,它可以被视为P(P)N个(α,D类α).

与研究扩散过程的传统方法相比,贝叶斯推理有几个优点。首先,它给出了参数的概率分布,以及关于其不确定性的信息,以及对其值的估计。其次,它允许通过计算不同模型的贝叶斯因子来对其质量进行比较评估,11尽管我们在这里不讨论这方面。第三,它明确了所有对结果有影响的假设。

虽然我们对参数进行了同步估计αD类α,从公式。(4),我们只报告单参数贝叶斯推断α在本次交流中。这两个参数的相关性很弱,只有2个D类αΔt吨α仅限于简单估算,

( 2 D类 α Δ t吨 α ) 美国东部时间 = ( X(X) j个 + 1 ( k ) X(X) j个 ( k ) ) 2 j个 , k .
(5)

在下文中,我们将此估计用于D类α,使我们能够集中精力进行更困难、更重要的推理α.

在将贝叶斯推断应用于估计观测粒子轨迹的fBM参数之前,我们必须了解输入数据的质量如何影响fBM的参数。为此,我们分析了统计特性已知的合成轨迹。在第一步中,我们将这些轨迹生成为等式给出的分布的数值样本。(2),选择2D类αΔt吨α=1表示简单α=0.6,因为这是我们在类脂双层模拟中发现的细分扩散的数量级。因此,我们研究了已知fBM模型精确的理想情况。

图。1显示了当为推理算法提供更多轨迹时,后验分布如何缩小。对于短轨迹(10步,上面板),单个轨迹提供的信息很少,分布很宽,其最大值通常远离已知值α。在分布的最大值稳定在接近正确值之前,需要几百条轨迹。正如预期的那样,较长的轨迹(100步,下面板)产生的单个参数分布更窄,更接近真实值。因此,对α可以从大约200个输入轨迹中获得。我们使用的轨迹长度为L(左)在剩下的工作中,到处都是=100。

图1。

作为轨迹数函数的推理过程的收敛性。上面板:短轨迹(L(左)= 10). 下部面板:长轨迹(L(左)= 100). 在左侧,每个蓝色条描述了可能性P(P)(α)对于单个输入轨迹。点是最大值的位置,这是对α.杆的末端是最大值的一半。红线为累积后验分布提供了相同的信息。绿色虚线表示α用于生成轨迹。

图1。

作为轨迹数函数的推理过程的收敛性。上面板:短轨迹(L(左)= 10). 下部面板:长轨迹(L(左)= 100). 在左侧,每个蓝色条描述了可能性P(P)(α)对于单个输入轨迹。点是最大值的位置,这是对α.杆的末端是最大值的一半。红线为累积后验分布提供了相同的信息。绿色虚线表示α用于生成轨迹。

关闭模态

正如我们之前所解释的,任何真实物理系统的轨迹都不能指望由fBM模型精确描述,特别是在短时间内,当底层微观过程的动力学变得可见时。为了研究不同短时行为对我们的推理方法的影响,我们分析了另一组合成轨迹,这些合成轨迹是由具有不同短时特性的fBM模型的修改生成的。

为了构建这样的模型,我们考虑了fBM过程的增量,定义为ΔX(X)=X(X)+1X(X)增量也形成高斯随机过程,这通常称为分数布朗噪声。其协方差矩阵由下式给出

Σ , ( 股份有限公司 ) = 1 ,
Σ , + k ( 股份有限公司 ) = D类 α Δ t吨 α ( k + 1 ) α 2 k α + ( k 1 ) α 对于 k 0 .

对于任何高斯过程,∑,j个 Σ , j个 ( 股份有限公司 ) 与…相关

Σ , j个 = k = 1 = 1 j个 Σ k , ( 股份有限公司 ) .
(6)

与fBM过程本身相反,增量过程是平稳的,因此其自相关函数 Δ X(X) Δ X(X) j个 = Σ , j个 ( 股份有限公司 ) 只取决于时间滞后(j个t吨它的物理意义与原子或分子液体中的速度自相关函数非常相似。事实上,如果我们假设存在微观速度v(v)(t吨)这样的话 Δ X(X) ( t吨 ) = 0 Δ t吨 d日 τ v(v) ( t吨 + τ ) ,则〈ΔX(X)ΔX(X)j个〉由微观速度自相关函数与宽度为2Δ的三角形权重函数卷积而成t吨Jeon使用了增量自相关函数等。12以表征脂质双层中的细扩散,其分析显示短滞后时间内与fBM有明显偏差。

修改进程短期行为的一种简单方法是添加一个项 Σ , j个 ( t吨 ) 增量协方差矩阵的非零性|j个|. 根据公式。(6),尊重条件就足够了 k Σ , + k ( t吨 ) = 0 以确保过程的渐近行为保持不变。我们选择一个只有两个非零项的表格, Σ , + 1 ( t吨 ) = Σ , + 2 ( t吨 ) = 1 / 2 ( Σ , + 1 ( 股份有限公司 ) + Σ , + 2 ( 股份有限公司 ) ) 也就是说,我们替换了k=1和k平均=2。这导致最小值变宽变浅,如图的最左侧面板所示。2,它显示了fBM过程和我们修改的过程的增量自相关函数。图的中间面板。2显示了标准和修改后的fBM过程的MSD。与增量相关性相比,短时行为在更长的时间范围内持续存在显著差异。然而,这两个过程的渐近次扩散行为是相同的。

图2。

左:标准fBM过程的增量相关性(蓝色)和我们的短时修改(红色)。中间:标准和修改的fBM过程的均方位移。虽然修改只改变了增量的相关性,但最大为2Δt吨,过程在更长的时间范围内有显著差异。右:最大似然估计α从fBM模型生成的100步500个轨迹中获得,具有修改的短时行为,采样时间步长为sδt.

图2。

左:标准fBM过程的增量相关性(蓝色)和我们的短时修改(红色)。中间:标准和修改的fBM过程的均方位移。虽然修改只改变了增量的相关性,但最大为2Δt吨在更长的时间范围内,这些过程存在显著差异。右:最大似然估计α从fBM模型生成的100步500个轨迹中获得,具有修改的短时行为,采样时间步长为sδt.

关闭模态

我们现在使用修改后的过程来生成L(左)=100步,并使用公式中的标准fBM过程对这些轨迹进行参数推断。(2)作为模型。推理过程在没有问题迹象的情况下收敛(参见补充材料),但会生成一个估计值α0.66,与输入值0.6相差甚远。这表明短期效应不能简单地忽略。它还说明了贝叶斯推理的不确定性估计的一个众所周知的局限性,它捕获了输入数据中噪声引起的不确定性,而不是数据和所选模型(在我们的例子中是fBM)之间可能不匹配引起的不确定。推理过程收敛于α=0.66,因此不允许得出fBM与α=0.66是对数据的良好描述。特别地,这并不意味着我们的轨迹的渐近扩散行为对应于α= 0.66. 事实上,我们通过构造知道,它的长期扩散由以下公式描述α= 0.6.

然而,我们仍然可以说“fBM与α=0.66“是数据的明确特征,因为贝叶斯推断产生的后验概率分布在该值附近急剧达到峰值。然后,我们通过对不同时间尺度的数据应用基于fBM的推断来解决渐近行为的问题,在时间步长Δ处从修改的fBM过程中采样轨迹t吨=sδt,用于范围从1到100。对于每个,我们生成轨迹L(左)=100分,这样推理过程接收的数据总量始终相同。物理时间中每条轨迹的长度为sLδt。随着因此,我们包括较少的短时信息和较多的长期信息。如图所示。2显示,采样时间的这种变化产生了对α收敛到输入值0.6左右=100,即采样时间是我们添加到模型中的短时扰动的50倍。

我们现在将贝叶斯推理方法应用于水合脂质双层的计算机模拟轨迹。我们使用的模拟数据已经在前面进行了描述和分析。13,14模拟系统由2033个POPC(1-棕榈酰-2-油酰基-sn-甘油-3-磷酸胆碱)分子和57 952个水珠(相当于231 808个水分子)组成,使用粗颗粒马丁力场。模拟在NVT集合中进行T型=320 K。在模拟运行期间生成了两个轨迹文件:(1)长度为300 ps的短时间轨迹,每0.03 ps采样一次;(2)长度为600 ns的长时间轨迹,每隔18 ps采样。这些轨迹的摘录包含了脂质分子的中心-轨道15,16和是本分析的基础。

我们只使用x个质量中心轨迹的组件,放弃z(z)垂直于膜平面的坐标。假设x个所有分子的组分在统计上是等价和独立的,因此我们有4066个单坐标输入轨迹用于推断。我们使用的子集包括L(左)=100步,不同采样时间步Δt吨=sδt.

图。结果表明,推理过程与合成轨迹非常相似。最大似然估计的相关性α采样步长如图所示。4。在很短的时间内,我们发现α≈2,也就是说,我们看到接近弹道的运动通常比碰撞之间的平均时间短。增加采样步长,我们可以看到α,以稳定的平稳期结束α≈0.55,持续30年。在图中。4我们还显示了2的值D类αΔt吨α使用等式估算。(5)它在大采样时间下的行为也表明Δ的稳定渐近fBM状态t吨>≈10磅/秒。在短时间内,我们看到弹道状态保持很好的近似值,达到Δt吨<≈0.2 ps。两种制度之间的过渡可用于定义时间尺度τ通过关系式计算扩散过程D类2τ2=D类ατα,得出的值为τ=0.59 ps(对于我们的轨迹)。高达2倍1/(2−α),此时间刻度与时间刻度相同τV交流滤波器= (D类α/〈|v(v)|2〉)1/(2−α)早先由Kneller介绍等。17 

图3。

脂质心扩散推断过程的收敛性,作为轨迹数的函数。

图3。

脂质心扩散推断过程的收敛性,作为轨迹数的函数。

关闭模态
图4。

最大似然估计α(上面板)和2D类αΔt吨α(下面板)描述膜中脂质中心扩散。每个估计值都是使用4066条100步的单坐标轨迹获得的,采样步长Δ不同t吨fBM模型α=0.55和D类α= 0.66 ⋅ 10−4纳米2/秒α以黑色显示,而短时间的弹道运动(α= 2, D类 α = k B类 T型 2 )以红色显示。这些纯幂律行为的交集定义了一个特征时间尺度τ用于扩散过程。为了进行比较,我们还显示了参考文献中的fBM参数化。14.

图4。

最大似然估计α(上面板)和2D类αΔt吨α(下面板)描述膜中脂质中心扩散。每个估计值都是使用4066条100步的单坐标轨迹获得的,采样步长Δ不同t吨fBM模型α=0.55和D类α= 0.66 ⋅ 10−4纳米2/秒α以黑色显示,而短时弹道运动(α= 2, D类 α = k B类 T型 2 )以红色显示。这些纯幂律行为的交集定义了一个特征时间尺度τ用于扩散过程。为了进行比较,我们还显示了参考文献中的fBM参数化。14.

关闭模态

为了进行比较,我们在图。4参考文献中三个fBM模型拟合的渐近行为。14他们的“MSD”拟合将计算出的MSD的长时间部分拟合为fBM形式,得到的参数与本工作中发现的参数非常相似。其他两种方法(WDFT=窗口离散傅里叶变换,MEE=最大熵估计)将速度自相关函数的频谱拟合到fBM过程的已知函数形式,并使α.

对脂质动力学的计算机模拟的分析表明,多时间尺度上的贝叶斯推断是深入了解细分扩散过程的有力方法。与最常见的将长期MSD数据拟合到渐近2的方法相比D类αt吨α形式上,它有几个优点。将贝叶斯推断直接应用于观测到的粒子位置,可以将注意力集中在一个较小且定义明确的时间尺度范围内。在我们的应用程序中,我们从[Δt吨…100Δt吨],对于许多不同的Δ值t吨。唯一的任意参数选择是L(左)=100,但不同的选择会导致类似的结论(参见补充材料). 此外,随着更多的轨迹数据被注入到程序中,监测后向分布的缩小,使我们能够评估数据集的统计质量,这在基于MSD的拟合中始终是一个有问题的方面。因此,我们可以对我们观察到的稳定α≈0.55,适用于从10到10.000 ps的时间尺度。对于必须具有有限长度的观测轨迹的分析,这非常接近于识别渐近长行为。然而,我们注意到,只有当我们的模拟轨迹跨越异常长的时间范围时,才能得出这个结论。

我们的分析软件的完整源代码和其他数字可通过补充材料到本文。

1
异常传输:基础与应用
,编辑人
R。
克拉格斯
,
G.公司。
莱东斯
、和
一、。
索科洛夫
(
威利-VCH Verlag
,
德国Weinheim
,
2009
).
2
国际货币基金组织。
索科洛夫
,
软物质
8
,
9043
(
2012
).
三。
R。
梅茨勒
,
J.-H.公司。
Jeon(吉恩)
,
A.克。
樱桃色
、和
E.公司。
巴尔凯
,
物理学。化学。化学。物理学。
16
,
24128
(
2014
).
4
F、。
霍夫林
T。
弗朗索什
,
代表程序。物理学。
76
,
046602
(
2013
).
5
答:。
爱因斯坦
,
Ann.物理。
322
,
549
(
1905
).
6
年。
米罗斯
国际货币基金组织。
索科洛夫
, “
确定次扩散机制的工具箱
,”
物理学。代表。
573
,
1
(
2015
).
7
H。
谢尔
东-西。
蒙特罗
,
物理学。版本B
12
,
2455
(
1975
).
8
J。
贝兰
,
年。
,
美国。
高希
、和
R。
库利克
,
长内存进程
(
Springer Verlag公司
,
柏林,海德堡
,
2013
).
9
J。
贝兰
,
长内存进程统计
(
查普曼和霍尔
,
1994
).
10
E.公司。
杰恩斯
,
概率论:科学的逻辑
(
剑桥大学出版社
,
2003
).
11
R.E.公司。
卡萨丁
答:E。
拉夫特里
,
美国统计协会。
90
,
773
(
1995
).
12
J.-H.公司。
Jeon(吉恩)
,
高度-米-秒。
莫内
,
M。
爪哇半岛
、和
R。
梅茨勒
,
物理学。修订稿。
109
,
188103
(
2012
).
13
美国。
斯塔胡拉
G.右。
跪地者
,
分子模拟。
40
,
245
(
2014
).
14
美国。
斯塔胡拉
G.R.公司。
跪地者
,
化学杂志。物理学。
143
,
191103
(
2015
).
15.
美国。
斯塔胡拉
G.R.公司。
跪地者
,Zenodo(2016)。
16.
美国。
斯塔胡拉
G.R.公司。
跪地者
,Zenodo(2016)。
17
G.R.公司。
跪地者
,
英国。
巴钦斯基
、和
M。
帕森基维奇·盖鲁拉
,
化学杂志。物理学。
135
,
141105
(
2011
).

补充材料