2.方法
为了评估各种数值积分方案和近似方法,首先将方程重铸为归一化结构因子振幅E类和归一化强度Z轴o个框架,使用σA类所涉及分布的公式,假设对1空间组,这样的话∊=1(阅读,1997). 无误差结构因子振幅的联合概率分布E类和实验强度Z轴o个,给定计算的标准化结构系数 E类C类,模型质量参数σA类,观测值的估计标准偏差σZ轴和有效的自由度 ν,读取
无偏反射和
用于中心反射。当观测到的平均强度分布Z轴o个由t吨-分布(学生,1908)位置参数等于E类2,我们有
哪里ν是有效的吗自由度与有效样本量有关N个效率,
有效样本量可以被视为观测强度的冗余,也可以在数据处理过程中使用韦尔奇-萨特思韦特方程进行估算(韦尔奇,1947)考虑数据处理中实施的加权协议(布鲁斯特等。, 2019). 这个t吨-分布是指在给定一组观测值的样本均值和样本方差的情况下,选择的分布(Student,1908). 正态分布的使用基本上假设方差没有不确定性σZ轴2,但仅限于观察到的平均值Z轴o个. Thet吨-分布类似于正态分布,但尾部较重,因此预计将产生对观测强度和模型强度之间较大偏差惩罚较小的似然函数。什么时候?ν趋于无穷大,则上述分布收敛于正态分布,
上述联合概率分布需要被边缘化E类在里面要获得利息分配:
2.3. 变量的变化与拉普拉斯近似
分析和数值积分通常会因被积函数变量的变化而大大简化(Davis&Rabinowitz,1984). 变分定理与函数的积分有关小时(u个)变量发生变化时u个=ψ(x个),
由于被积函数的形状因变量的改变而改变,所以使用所谓的拉普拉斯近似很有吸引力。在拉普拉斯近似中,被积函数由具有适当选择的平均值和长度标度的标度平方指数函数近似(Peng,2018). 拉普拉斯近似可由被积函数对数的截断泰勒展开式导出:
哪里克(x个)=英寸[(f)(x个)]和x个0是最大值的位置(f)(x个),暗示着克′′(x个0)=0。注意,在方程式(18)的最后一步中)假设是(f)(x个)不接近时变为0x个0足够快,可以集成[一,b条]产生与积分相同的结果。虽然此近似值不适用于所有可能的克(x个)事实证明,它是贝叶斯分析中边缘化分布的一个成功工具(Kass&Steffey,1989)和晶体学应用(Murshudov等。, 2011).
因此,上述表达式得出
这种近似的有效性取决于x个0(应包含在原始积分域内)克′′(x个0)以及高阶导数的速度克(x个)消失在周围x个0上述变量转换策略有助于提高近似表达式的性能(8).
2.5. 衍生品
实际使用基于相似hood的目标函数需要计算其导数,以便将其用于基于梯度的优化方法。来自表达式(20),关于Y(Y)∈ {E类C类,σA类,ν}可以如下获得:
大米成分的衍生物(f)·(E类j个|E类C类,σA类)关于E类C类附录中列出了B类.
4.结论
开发并比较了有效确定基于强度的似然函数及其梯度的数值方法。虽然拉普拉斯近似在正态噪声模型下对似然函数本身的估计表现得相当好,但我们的结果表明,使用数值求积可以显著提高似然及其相关梯度。鉴于对数似然函数的导数是基于梯度的关键成分精细化方法和用于计算结构完工的差分图,该方法可以提高现有方法的收敛性精细化和建模方法。虽然在实际情况下,最佳正交阶数或噪声模型应该是什么尚不清楚,但我们的结果表明,正常噪声的采样点可能低于15个,而正常噪声的则可能低于49个t吨-类型错误。在算法上,最昂贵的运算是寻找被积函数最大值的迭代过程。提出的基于牛顿的方法通常能在50个函数求值范围内很好地收敛,即使在没有预定好的行搜索起点的情况下也是如此。双曲求积的构造不需要任何迭代优化,也不需要相关梯度和函数值的后续计算。考虑到精细化或其他最大似然在结晶学应用中,使用所提出的方法计算目标函数可能只对工作流的总运行时间产生最小的影响,同时为基于强度的完全似然提供了一个快速收敛的近似值,该似然考虑了平均强度及其方差估计中的实验误差。虽然只有完全集成到晶体学软件包中才能确定使用概述的方法可以获得实际好处的情况,但这里的测试表明,有可能进行重大改进。此外,与现有近似方法相比,所提出的求积方法易于适应不同的误差模型选择,这是一个很大的优点,例如,可以在精细化和分阶段目标(Sharma等。, 2017).
附录A
双曲线求积
给定一个函数克(x个),使用x个≥0且克(x个)≥0,我们寻求计算其在正半线上的积分:
设置
定义的上确界克(x个)由x个0这样的话小时′(x个0) = 0. 对于我们感兴趣的函数类,克(0)等于0,例如由于正文中概述的功率变换,以及也是0。根据移位和重缩放的逻辑函数定义以下变量变化,
哪里k个是一个正数。请注意t吨(x个=0)=0和= 1. 逆函数为
并具有关于t吨等于
价值观x个0确定双曲线压缩格式的近似“拐点”和常数k个控制中点周围的坡度。安N个-现在可以通过均匀采样来构造点求积t吨介于0和1之间,
对于1≤j个≤N个考虑到这两者克(0)和为零,积分G公司现在可以通过梯形积分规则计算,
如果k个被选为
那么上面的求积N个=1表示拉普拉斯近似x个0|小时′′(x个0)|1/2很大,因为|x个0−x个(1/2)|变为零。如果在幂变换变量的分布上构造双曲求积,则这些导出的权重可以乘以该变换的雅可比矩阵,从而可以在原始变量集中进行最终的数值计算。
附录B
分配和衍生品
B1.水稻功能,无着丝粒
无偏Rice分布的对数及其导数E类和E类C类如下所示。
B2.大米功能,中心
中心Rice分布的对数及其导数E类和E类C类如下所示。
B3.学生的t吨-分配
的对数t吨-正文及其派生词中规定的关于E类如下所示。
什么时候?ν很大t吨-分布可以近似为正态分布:
附录C
发现x个0
如正文所述,通过双曲求积进行数值积分在很大程度上可以通过变量的变化来辅助
雅可比矩阵(见表达式17)
被积函数最大值的位置,x个0,使用牛顿寻根算法的直接应用,使用下面概述的一阶和二阶导数。设置
和
使用速记小时t吨(E类,……)为了表示这两个函数中的任何一个,我们首先应用幂变换(表达式44)如上所述。因为我们需要找到这个函数的最大值,我们需要关于x个也。所得函数及其关于x个转换变量后的操作由
的分析形式小时t吨(⋯),小时′t吨(…)和小时′′t吨附录中给出了(…)B类牛顿搜索的衰减起始值可以通过对(例如)15个等距值的集合执行单个基于牛顿的更新来找到x个在0和之间采样x个 = 61/γ.得到的更新采样点的被积加权平均值通常在十次迭代内细化到上确界。
附录D
可能性综合
使用上述方法,完全似然函数可以表示为加权Rice函数的总和(表达式30和34),其中E类基于从功率变换变量导出的正交进行采样E类=x个γ使用上述双曲线抽样方案。考虑到功率变换和双曲求积的组合,求积的采样节点等于
哪里t吨j个,x个0和k个按照附录中的规定进行定义和计算A类和C类且1≤j个≤N个。现在可以设置正交权重以吸收双曲线采样、功率变换和作用于观测强度及其相关标准偏差的误差模型:
这样就产生了一个加权Rice函数的总和,该函数近似于完全似然函数,
哪里(f)·(?)是无着丝粒或有着丝粒Rice函数。
当用幂变换拉普拉斯近似代替求积方法来近似似然函数时,我们得到了一个加权Rice函数
重量由
哪里E类0=x个0γ和在表达式(48)中定义.
附录E
结构因子振幅估计
为了使用膨胀方差修正作为全数值积分的近似值,我们需要能够估计反射振幅及其与观测强度的标准偏差及其标准偏差。虽然此过程通常使用标准的法式-威尔逊估算程序执行,但也可以采用另一种方法,遵循Sivia&David(1994)开发的方法). 在……之前穿制服E类,因此
导致条件分布
此分布的正态近似值可以通过矩方法获得,或者,如本文所述,通过最大值后验的使用等于上述分布模式的平均值和基于模式位置处对数似然二阶导数估计的标准偏差进行近似:
很容易得到解析表达式,从而得出
此近似值的质量主要取决于Z轴o个和σZ轴2。请注意,上的标准错误传播E类o个=Z轴o个1/2产量
可以看出它收敛于表达式(59)对于以下情况Z轴o个明显大于σZ轴.
附录F
模拟合成数据
数值试验和基准的数据是通过使用以下程序从基础分布中取样获得的。对于无中心反射,通过从具有零平均值和指定方差的正态分布中连续提取来生成“真”复杂结构因子和“扰动”复杂结构系数:
哪里N个(μ,σ2)表示正态分布。对于中心反射,使用以下步骤:
以以下方式添加噪音。给定目标方差σ2目标,我们生成ν+1个正态随机变量用于计算样本均值和样本方差:
所述测试中采用了两种误差模型,即固定误差比或a固定误差水平.在固定误差比法中,σ目标每个模拟强度都不同,并选择为Z轴真的/τ,其中τ等于所需级别。对于固定误差水平方法,σ目标固定为1/τ适用于所有强度。假设无中心反射与中心反射的比率为9:1,对完整的数据集进行了模拟。
致谢
上述算法是在一组Python3例程中实现的,可根据要求提供。这项工作的一些部分是为了部分满足伯克利实验室本科生研究(BLUR)项目的要求而准备的,该项目由伯克利实验室的劳动力发展和教育部管理。本文内容仅由作者负责,不一定代表NIH的官方观点。
资金筹措信息
这项研究部分得到了高级科学计算研究和基础能源科学项目的支持,这些项目由美国能源部科学办公室(DOE)根据合同DE-AC02-05CH11231提供支持。进一步的支持来自美国国立卫生研究院(NIH)国家普通医学研究所,获得5R21GM129649-02奖。
工具书类
Beu,K.E.,Musil,F.J.&Whitney,D.R.(1962年)。阿克塔·克里斯特。 15, 1292–1301. 交叉参考 IUCr日志 谷歌学者
Brewster,A.S.、Bhowmick,A.、Bolotovsky,R.、Mendez,D.、Zwart,P.H.和Sauter,N.K.(2019年)。阿克塔·克里斯特。D类75, 959–968. 交叉参考 IUCr日志 谷歌学者
Bricogne,G.(1997年)。CCP4研究周末会议记录。阶段化的最新进展由K.S.Wilson、G.Davies、A.W.Ashton和S.Bailey编辑,第159–178页。沃灵顿:达斯伯里实验室。 谷歌学者
Bricogne,G.和Gilmore,C.J.(1990年)。阿克塔·克里斯特。A类46, 284–297. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
Bunkóczi,G.,McCoy,A.J.,Echols,N.,Grosse-Kunstleve,R.W.,Adams,P.D.,Holton,J.M.,Read,R.J.&Terwilliger,T.C.(2015)。自然方法,12, 127–130. 科学网 公共医学 谷歌学者
Cools,R.(2002)。J.计算。申请。数学。 149, 1–12. 交叉参考 谷歌学者
Cowtan,K.(2000年)。阿克塔·克里斯特。D类56, 1612–1621. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Davis,P.J.和Rabinowitz,P.(1984)。数值积分方法第二版,纽约:学术出版社。 谷歌学者
Fisher,R.A.(1915年)。生物特征,10, 507–521. 谷歌学者
French,S.&Wilson,K.(1978年)。阿克塔·克里斯特。A类34, 517–525. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
Gauss,C.F.(1809)。Solem Ambientium松果线虫Corporum Coelestium理论汉堡:珀斯和贝瑟。 谷歌学者
Gauss,C.F.(1816)。Z.天文。韦旺特·维斯。 1, 1816. 谷歌学者
Gauss,C.F.(1823)。微小恶臭的理论组合观察哥廷根:亨利科斯·迪特里希。 谷歌学者
Green,E.A.(1979年)。阿克塔·克里斯特。A类35, 351–359. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
Hagen,G.(1867年)。Wahrscheinlichkeits-Rechnung公司。柏林:安永会计师事务所。 谷歌学者
Kass,R.E.和Steffey,D.(1989)。美国统计协会。 84, 717–726. 交叉参考 谷歌学者
Kiefer,J.(1953年)。程序。美国数学。Soc公司。 4, 502–506. 交叉参考 谷歌学者
La Fortelle,E.de&Bricogne,G.(1997)。方法酶制剂。 276, 472–494. 公共医学 科学网 谷歌学者
Lunin,V.Y.和Skovoroda,T.P.(1995)。阿克塔·克里斯特。A类51, 880–887. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
Lunin,V.Y.和Urzhumtsev,A.G.(1984)。阿克塔·克里斯特。A类40, 269–277. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
Luzzati,V.(1952年)。阿克塔·克里斯特。 5, 802–810. 交叉参考 IUCr日志 科学网 谷歌学者
McCoy,A.J.、Grosse-Kunstleve,R.W.、Storoni,L.C.和Read,R.J.(2005)。阿克塔·克里斯特。D类61,458–464页科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Murshudov,G.N.、Skubák,P.、Lebedev,A.A.、Pannu,N.S.、Steiner,R.A.、Nicholls,R.A、Winn,M.D.、Long,F.&Vagin,A.(2011)。阿克塔·克里斯特。D类67, 355–367. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Murshudov,G.N.、Vagin,A.A.和Dodson,E.J.(1997)。阿克塔·克里斯特。D类53, 240–255. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
Neyman,J.和Scott,E.L.(1948年)。计量经济学,16, 1–32. 交叉参考 谷歌学者
Pannu,N.S.和Read,R.J.(1996年)。阿克塔·克里斯特。A类52, 659–668. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
皮尔逊,E.S.(1970年)。统计与概率史研究由E.S.Pearson和M.G.Kendall编辑,第411-413页。伦敦:查尔斯·格里芬。 谷歌学者
彭瑞德(2018)。高级统计计算.https://leanpub.com/advstatcomp. 谷歌学者
Read,R.J.(1986年)。阿克塔·克里斯特。A类42, 140–149. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
Read,R.J.(1997)。方法酶制剂。 277, 110–128. 交叉参考 公共医学 中国科学院 科学网 谷歌学者
Read,R.J.(2001)。阿克塔·克里斯特。D类57, 1373–1382. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Read,R.J.和McCoy,A.J.(2016)。阿克塔·克里斯特。D类72, 375–387. 科学网 交叉参考 IUCr日志 谷歌学者
Rossi,R.J.(2018)。数理统计:基于可能性的推理导论。霍博肯:约翰·威利父子公司。 谷歌学者
Sharma,A.、Johansson,L.、Dunevall,E.、Wahlgren,W.Y.、Neutze,R.和Katona,G.(2017)。阿克塔·克里斯特。A类73, 93–101. 科学网 交叉参考 IUCr日志 谷歌学者
Sim,G.A.(1959年)。阿克塔·克里斯特。 12,813–815交叉参考 IUCr日志 科学网 谷歌学者
Sivia,D.S.和David,W.I.F.(1994)。阿克塔·克里斯特。A类50, 703–714. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
Skubák,P.、Waterreus,W.-J和Pannu,N.S.(2010年)。阿克塔·克里斯特。D类66, 783–788. 科学网 交叉参考 IUCr日志 谷歌学者
Srinivasan,R.和Parthasarathy,S.(1976年)。X射线晶体学中的一些统计应用第1版,牛津:佩加蒙出版社。 谷歌学者
Storoni,L.C.、McCoy,A.J.和Read,R.J.(2004)。阿克塔·克里斯特。D类60, 432–438. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
学生(1908)。生物特征,6, 1–25. 谷歌学者
Terwilliger,T.C.(2000)。阿克塔·克里斯特。D类56,965–972页科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Terwilliger,T.C.和Eisenberg,D.(1983年)。阿克塔·克里斯特。A类39, 813–817. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
Trefethen,L.N.和Weideman,J.A.C.(2014)。SIAM版本。 56, 385–458. 交叉参考 谷歌学者
Welch,B.L.(1947)。生物特征,34, 28–35. 中国科学院 公共医学 科学网 谷歌学者
Wilks,S.S.(1938年)。安。数学。斯达。 9, 60–62. 交叉参考 谷歌学者
Wilson,A.J.C.(1980)。阿克塔·克里斯特。A类36,937–944页交叉参考 中国科学院 IUCr日志 谷歌学者
Woolfson,M.M.(1956年)。阿克塔·克里斯特。 9, 804–810. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
| 结构 生物学 |
编号:2059-7983
打开访问