跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
生物特征。2011年6月;98(2): 307–323.
数字对象标识:10.1093/biomet/asr009
预防性维修识别码:项目经理3897258
PMID:24453379

贝叶斯影响分析:一种几何方法

朱洪图约瑟夫·伊布拉希姆
美国北卡罗来纳州教堂山北卡罗莱纳大学生物统计系,CB#7420,邮编:27516。,ude.cnu.soib@uhzh,ude.cnu.soib@miharbi
宁生堂
云南大学统计系,昆明650091,ude.cnu.oib@gnatsn

关联数据

补充材料

总结

本文提出了贝叶斯影响分析的一般框架,用于评估一类统计模型的数据、先验和抽样分布的各种扰动方案。我们引入了一个摄动模型来表征这些不同的摄动方案。我们开发了一个几何框架,称为贝叶斯扰动流形,并使用其相关的几何量,包括度量张量和测地线来表征扰动模型的内在结构。我们基于贝叶斯扰动流形开发了内在影响测度和局部影响测度,以量化各种扰动对统计模型的影响。通过理论和数值示例,突出了这种局部影响方法在正式贝叶斯分析中的广泛应用。

关键词:影响度量,扰动流形,扰动模型,先验分布

1.简介

数据的形式化贝叶斯分析z= (z1, . . . ,zn个)涉及抽样分布的规范(z|θ)和先验分布(θ),其中θ= (θ1, . . . ,θk个)T型表示推理兴趣的参数,并在开集θ中变化R(右)k个为了进行贝叶斯推断,我们通常使用马尔可夫链蒙特卡罗方法来模拟来自后验分布的样本(θ|z),与(z|θ)(θ). 随后,我们可以计算θ在里面R(右)k个,例如后验平均值M(M)(小时) = ∫小时(θ)(θ|z)函数的小时(θ). 为了简单起见,我们在整篇文章中没有明确强调主要度量。人们对后验推理的敏感程度很感兴趣(θ),(z|θ)和(z1, . . . ,zn个) (Kass等人,1989年;麦卡洛赫,1989年;伯杰,1990年,1994;Dey等人,1996年;古斯塔夫森,2000;Sivaganesan,2000年;Oakley&O'Hagan,2004年).

有三种主要的形式影响技术,包括案例影响度量和全局和局部稳健性方法,用于量化后验分布对贝叶斯分析的这三个关键要素(包括先验、抽样分布和数据)的依赖程度(伯杰,1990年,1994). 在贝叶斯分析中,案例影响度量主要计算一组观测值的影响,以识别异常值和有影响的观测值。大多数案例影响测量基于案例删除或扰动的后验和/或预测分布(Guttman&Peña,1993年;佩尼亚和古特曼,1993年;Carlin&Polson,1991年;Peng&Dey,1995年). 例如,已经开发了几种案例影响诊断方法,以量化基于均值漂移或方差漂移模型的一组观测值的可能异常(Guttman&Peña,1993年;佩尼亚和古特曼,1993年).

全局稳健性方法的关键思想是,当三个关键元素中的每一个的扰动在某一组分布中发生变化时,计算一系列后验量,然后确定极值。这种方法有一些缺点,包括后验量的尺度选择、扰动的大小及其对线性泛函的限制以及模型的简单性。为了解决尺度问题,已经为先前的扰动类提出了几个尺度范围的版本(Ruggeri&Sivaganesan,2000年).

局部鲁棒性方法主要计算后验量相对于小扰动的导数(θ)和(z|θ). 在常客文学中,库克(1986)影响方法对扰动特别有用(z|θ)为了检测有影响的观测值并评估参数和半参数模型中的模型指定错误(朱和李,2001;Zhu等人,2007年).McCulloch(1989)进一步扩展了局部影响方法库克(1986)以评估在贝叶斯分析中扰动先验的影响。在贝叶斯文献中,已经使用影响度量的曲率开发了几个局部影响的类似物(拉文,1992年;Dey&Birmiwal,1994年;Millar&Stewart,2007年;范德林德,2007)或后验函数相对于前验函数的Fréchet导数(伯杰,1994;古斯塔夫森和瓦瑟曼,1995年;Dey等人,1996年;古斯塔夫森,1996;Berger等人,2000年). 对于开发用于同时扰动的通用贝叶斯影响分析方法,我们做得很少z,(θ)和(z|θ)评估其影响并检查其在统计模型中的应用(Berger等人,2000年). 据我们所知,克拉克和古斯塔夫森(1998)是少数几篇关于同时扰动的论文之一{z,(θ),(z|θ)}在独立和相同分布数据的上下文中。

该方法的一个关键动机是统一许多复杂贝叶斯模型的影响概念,对于这些模型,几乎没有或只有很少的方法,因此可以识别不同扰动的影响。这些模型包括许多贝叶斯参数和半参数模型,可能缺少数据;请参阅补充材料我们的开发包括对异常值和影响点的正式评估,以及关于贝叶斯模型三个主要组成部分的敏感性分析:先验、抽样分布和数据。例如,通过随机噪声扰动所有数据点,重新进行分析,并获得噪声定义的不同推断谱,可以评估对数据的敏感性(Wang等人,2009年;克拉克,2010年).

2.贝叶斯扰动模型和流形

2.1. 贝叶斯扰动模型

我们开发了一个贝叶斯模型来表征各种扰动方案z,(z|θ)和(θ). 我们在模型中引入扰动(z,θ) =(z|θ)(θ)通过向量ω=ω(z,θ),在一组Ω中变化。那就是,ω是来自示例空间的产品空间的映射𝒵以及参数空间θ到Ω。一般来说,ω包括许多摄动方案,包括加法-污染等级如下所述。此外,ω必须仔细选择,以便扰动有意义且合理。

(z,θ|ω)是的概率密度(z,θ)对于扰动模型。我们假设(z,θ|ω)为所有人ω∈Ω有一个共同的支配测度,并且有一个ω0∈Ω,这样(z,θ|ω0) =(z,θ)为所有人(z,θ). 我们指的是(z,θ|ω0) =(z,θ)作为基线联合分布,其中ω0可以视为Ω的中心点,表示无扰动。我们定义了贝叶斯扰动模型作为概率密度家族(z,θ|ω)作为ω单位为Ω。贝叶斯扰动模型包括用于z,(θ)和(z|θ)和它们的组合。我们重点关注以下每个方案。

例子1.先验的贝叶斯扰动模型包括许多现有的方案,例如加法-污染类和线性和非线性扰动类。例如,添加剂-污染方案如下所示(θ|ω) =(θ) +λ{(θ) −(θ)},其中λ∈[0,1]和(θ)属于一类污染分布,表示为𝒢(伯杰,1994;Dey和Birmiwal,1994年). 在这种情况下,Ω={ω=λ{(θ) −(θ)} : (λ,(·)) ∈ [0, 1] ×𝒢}和ω(z,θ)与数据无关。因此,ω0=0和(z,θ|ω) =(z|θ)(θ|ω).

例子2.数据的贝叶斯摄动模型包括对单个数据观测的许多摄动方案z(库克,1986年;Guttman&Peña,1993年;佩尼亚和古特曼,1993年;Zhu等人,2007年). 为了识别离群值和影响观测值,提出了数据点扰动方案。作为一个例子,我们考虑标准线性回归模型=x个T型β+,其中x个是一个×1协变量向量,β是一个×1回归系数向量和独立且一致分布N个(0,σ2)随机变量。c(c)成为×1矢量,所有元素均等于c(c)对于固定标量c(c)和一个整数,写为1n个, 1和0.扰动协变量的扰动方案x个由提供x个(ω) =x个+ω1在这种情况下,z=(,x个T型)T型,θ= (βT型,σ2)T型,ω= (ω1, …,ωn个)T型,ω0= 0n个Ω是R(右)n个线性回归模型的另一种扰动方案是众所周知的均值漂移模型(Guttman&Peña,1993年;佩尼亚和古特曼,1993年). 假设=x个T型β+ω+对于在一组k个从集合{1,…,中选择的不同整数,n个},表示为= {1, . . . ,k个}、和=x个T型β+对于所有其他s.在这种情况下,摄动方案为ω= (ω1, . . . ,ωk个)T型ω0= 0k个另一个重要的方案是用于案例删除或案例权重的几何混合模型(Millar&Stewart,2007年;范德林德,2007年). 具体来说,让q个(z)为任意密度z独立于θ,然后使用几何混合模型扰动观测结果如下所示(z|θ,ω) = {Πj≠i (zj个|θ)}(z|θ)λ q个(z)1−λ/{∫(z|θ)λ q个(z)1−λ 第纳尔},其中ω=λ[0,1]和(z|θ)是的密度z在线性模型假设下。在这种情况下,ω0=1表示无扰动。什么时候?λ= 0,(z|θ)在中消失(z|θ,0),相当于删除z.

例子3.采样分布的贝叶斯扰动模型包括许多扰动方案(z|θ)比如添加剂-污染等级。我们还可以考虑一类扰动采样分布(z|θ,ω)由定义

(z|θ,ω)=(z|θ)经验{j个=1ωj个u个j个(z;θ)0.5j个=1ωj个2u个j个(z;θ)2C(θ,ω)},
(1)

哪里C(θ,ω)是归一化常数,ω= (ω1, . . . ,ω)T型是一个×1矢量和u个j个(z;θ)是平均值为零的固定标量函数(z|θ). 在这种情况下,ω0= 0表示无扰动。数字在扰动中(1)可以小到1,也可以增加n个(Copas&Eguchi,2005年;Zhu等人,2007年).

2.2. 贝叶斯扰动流形

我们开发了一个新的几何框架,称为贝叶斯扰动流形,用于测量每个扰动ω贝叶斯扰动模型。基于这个流形,我们能够测量扰动量,即扰动模型的每个分量对(z,θ)以及扰动模型的分量的正交度。这种量化有助于严格评估贝叶斯分析中每个成分的相对影响,并可以揭示数据、先验模型或抽样模型之间的任何差异。

对于无限维集Ω,我们在整篇论文中假设形成黎曼-希尔伯特流形(弗里德里希,1991年;朗,1995)在某些规律性条件下。对于给定的(z,θ|ω) ∈,我们考虑平滑曲线C(t吨) ={z,θ|ω(t吨)}通过扰动模型的空间包含0和的开放区间域{z,θ|ω(0)} =(z,θ|ω). 请注意ω可能不同于ω0.我们需要C(t吨)足够光滑̇{z,θ|ω(t吨)} =d日日志{z,θ|ω(t吨)}/日期称为切线或导数向量̇{z,θ|ω(t吨)}2 {z,θ|ω(t吨)}dzdθ<∞适用于所有人t吨在开放区间域中。{z,θ|ω(t吨)}是接头密度(z,θ)给定ω(t吨),这是б{z,θ|ω(t吨)}dzdθ=1,的切线空间ω,表示为T型ω,由切线向量形成̇{z,θ|ω(0)}表示所有可能的平滑曲线C(t吨)这样一来̇{z,θ|ω(0)}{z,θ|ω(0)}dzdθ= 0. 我们可以引入任意两个切线向量的内积ν1(ω)和ν2(ω)英寸T型ω作为

 < v(v)1v(v)2 > (ω) = ∫{v(v)1(ω)v(v)2(ω)}(zθ|ω)d日zd日θ.
(2)

什么时候?ω在欧几里德空间中变化,并且与zθ,内部产品< ν1,ν2 >(ω)英寸(2)与费希尔信息密切相关。有关详细信息,请参见示例6。因此,平方长度||ν(ω)||2切线向量的ν(ω) ∈T型ω是<ν,ν> (ω) = ∫ν(ω)2 (z,θ|ω)dzdθ.曲线长度C(t吨)来自t吨1t吨2

S公司C{ω(t吨1),ω(t吨2)}=t吨1t吨2[<˙{z,θ|ω(t吨)},˙{z,θ|ω(t吨)}>{ω(t吨)}]1/2d日t吨.
(3)

接下来,我们需要在考虑一个实函数(f)(ω)定义于和平滑的曲线{z,θ|ω(t吨)}英寸具有{z,θ|ω(0)} =(z,θ|ω)和̇{z,θ|ω(0)} =ν(ω). 我们定义数据流[ν](ω)=极限t吨0 t吨−1((f)[{z,θ|ω(t吨)}] −(f)[{z,θ|ω(0)}])作为的方向导数(f)在扰动分布(z,θ|ω)在…的方向ν(ω) ∈T型ω。我们考虑两个平滑向量场u个(ω)和v(v)(ω),它们不仅是T型ω,还可以平滑功能ω单位为Ω。我们定义了向量场的方向导数u个(ω)在…的方向v(v)(ω),称为连接,由[v(v)](ω)=极限t吨0 t吨−1[u个{ω(t吨)} −u个{ω(0)}]. 直觉上,如果ω在欧几里德空间中变化,那么[v(v)](ω)与的二阶导数密切相关(z,θ|ω)关于ω我们考虑了Levi–Civita连接,它具有一些良好的几何性质(阿玛里,1990年;朗,1995)并由给出

v(v)u个(ω) = d日u个[v(v)](ω)−0.5{u个(ω)v(v)(ω)(zθ|ω)−∫u个(ω)v(v)(ω)(zθ|ω)d日zd日θ}.

关于Levi–Civita连接的测地线是一条平滑的曲线γ(t吨) ={z,θ|ω(t吨)}上的具有开放区间域(,b)和̇{z,θ|ω(t吨)} =v(v){ω(t吨)}这样,Levi–Civita连接▿v(v)v(v){ω(t吨)} = 0. 直观地说,当一个人沿着同一测地线移动测地线的切线向量时,他可以使它们指向同一方向。此外,测地线可以解释为.对于固定扰动分布(z,θ|ω)和给定的方向v(v)(ω) ∈T型ω,有一个独特的测地线γ(t吨) ={z,θ|ω(t吨)}开区间域覆盖0,因此γ(0) =(z,θ|ω)和γ̇(0) =v(v)(ω). 最后,根据这些几何量,我们引入了贝叶斯扰动流形的定义。

D类定义1贝叶斯扰动流形(, <u个,v(v)>, ▿v(v) u个)是带有内积<u,v>和Levi–Civita连接的歧管v(v) u个.

当Ω是开集时R(右),在某些正则性条件下,贝叶斯扰动流形是-尺寸歧管(阿玛里,1990年,第16页;Kass&Vos,1997年;Zhu等人,2007年). 现在,我们基于对数据、先验和采样分布的几种扰动来研究贝叶斯扰动流形的一些示例。

例子1,继续的。我们考虑了贝叶斯扰动模型-根据以下公式给出的污染等级= {{(1 −λ)(θ) +λg(θ)}(z|θ): λ ∈[0, 1],(·) ∈𝒢}. 在这种情况下,ω(t吨) =t吨{(θ) −(θ)}对于给定的(·) ∈𝒢,因此我们考虑平滑曲线C(t吨) ={z,θ|ω(t吨)} = [(θ) +t吨{(θ) −(θ)}](z|θ). 可以看出v(v){ω(t吨)} =̇{z,θ|ω(t吨)} = {(θ) −(θ)}/[(θ) +t吨{(θ) −(θ)}]. 对于任何两种密度1(·)和2(·)英寸𝒢,我们可以计算切线向量v(v){ω(0)} = {(θ) −(θ)}{(θ)}−1对于=1,2及其内积为

 < v(v)1v(v)2 > (ω0) = ∫[1(θ){(θ)}−1 − 1][2(θ){(θ)}−1 − 1](θ)d日θ

它也独立于(z|θ). 特别是<v(v),v(v)> (ω0) = ∫{(θ)/(θ) − 1}2 (θ)减少到L(左)2中考虑的规范古斯塔夫森(1996).

我们进一步考虑了先验超参数唯一摄动方案的贝叶斯摄动模型= {(z,θ|ω) =(θ|ω)(z|θ) :ω= (ω1, . . . ,ω)T型},其中ω独立于两者zθ.让ω(t吨) = (ω1, . . . ,ωj个−1,ωj个+t吨,ωj个+1, . . . ,ω)T型,(θ|ω)=对数(θ|ω)和ωk个(t吨)成为k个的第个分量ω(t吨). (z,θ|ω)=对数(θ|ω)+日志(z|θ),我们有

˙{z,θ|ω(0)}=d日{z,θ|ω(t吨)}/d日t吨|t吨=0=k个=1[ω˙k个(t吨)ωk个{θ|ω(t吨)}]|t吨=0=ωj个(θ|ω),

哪里ω̇k个(t吨) =k个(t吨)/日期ωj个= ∂ / ∂ωj个因此,T型ω被跨越功能ωj个(θ | ω)逐点进入ω.自←(z|θ)第纳尔=1,中间的内积ωj个(θ | ω)和ωk个(θ | ω),表示为G公司jk公司(ω),由给出

G公司j个k个(ω)=ωj个(θ|ω)ωk个(θ|ω)(θ|ω)(z|θ)d日zd日θ=ωj个(θ|ω)ωk个(θ|ω)(θ|ω)d日θ,
(4)

独立于(z|θ).

此外,假设(θ) =(θ1)(θ2|θ[1]) . . .(θ|θ[−1])具有层次结构,其中θ[j个]= (θ1, . . . ,θj个)(θj个|θ[j个−1])表示条件分布的密度θj个鉴于θ[j个−1]然后,我们扰动(θ)这样的话(θ|ω) =(θ1|ω1)(θ2|θ[1],ω2) . . .(θ|θ[−1],ω), ∫(θ1|ω1)1=1和б(θj个|θ[j个−1],ωj个)j个=1用于j个= 2, . . . ,在这种情况下,T型ω被跨越功能ω1日志(θ1|ω1)和ωj个日志(θj个|θ[j个−1],ωj个)的j个= 2, . . . ,此外,G公司jk公司(ω)全部=0j个k个例如,可以显示G公司12(ω) = ∫ω1日志(θ1|ω1)ω2日志(θ2|θ[1],ω2)(θ|ω)=ω1 ω2(θ1|ω1)(θ2|θ1,ω2)21=ω1 ω21 = 0. 因此ω彼此正交(Zhu等人,2007年). 此外,它是由(4)那个G公司11(ω) = ∫ {ω1日志(θ1|ω1)}2 (θ1|ω)1G公司日本(ω) = ∫ {ωj个日志(θj个|θ[j个−1],ωj个)}2 (θj个|θ[j个−1],ω)j个对于j个⩾ 2.

结合上述结果,我们得出以下命题,其证明可以在补充材料.

P(P)提议1考虑任何贝叶斯扰动模型对ℳ给出的先验= {(θ|ω)(z|θ) :ω∈ Ω}.如果ω与z无关,则其贝叶斯扰动流形ℳ的度量张量与采样分布p的规格无关(z|θ).

命题1具有重要含义。独立性确保了现有的局部稳健性结果可以被视为这里开发的新方法的特例(麦卡洛赫,1989年;古斯塔夫森,1996).

例子4.考虑以下给出的贝叶斯扰动模型

𝒨={(z,θ|ω)=(θ|ω)(z|θ,ω):ω=(ωT型,ωT型)T型,(θ|ω)d日θ=(z;θ,ω)d日z=1},

在哪儿ω= (ω1, . . . ,ω)T型ω= (ω+1, . . . ,ω+n个)T型假设独立于两者zθ.我们认为ω(t吨) = (ω1, . . . ,ωj个−1,ωj个+t吨,ωj个+1, . . . ,ω+n个)T型具有ω(0) =ω对于每个j个∈ {1, . . . ,+n个}. 因此,ω̇k个(0) =k个(0)/日期=1用于k个=j个否则为0。出租(θ|ω)=对数(θ|ω)和(z|θ,ω)=对数(z|θ,ω),我们有

˙{z,θ|ω(0)}=k个=1+n个ω˙k个(0)ωk个日志(z,θ|ω)=ωj个(θ|ω)+ωj个(z|θ,ω).
(5)

ωω没有共同的组件,T型ω由跨越+n个功能包括ωj个(θ|ω)的j个= 1, . . . ,ωj个(z|θ,ω)的j个=+ 1, . . . ,+n个请注意ωk个(θ|ω)ωj个(z|θ,ω)(z,θ|ω)dzdθ= ∫ωk个(θ|ω)ωj个(z|θ,ω)dzdθ=ωk个1ωj个1=任何情况下保持0j个,k个因此,它由(5)的内积ωj个(z,θ|ω)和ωk个(z,θ|ω),表示为G公司jk公司(ω),是

∫∂ωj个(θ|ω)∂ωk个(θ|ω)(zθ|ω}d日zd日θ+ ∫∂ωj个(z|θω)∂ωk个(z|θω)(zθ|ω}d日zd日θ.
(6)

此外(6)可以简化为бωj个(θ|ω)ωk个(θ|ω)(θ|ω)自¨(z|θ,ω)第纳尔= 1. 对于j个= 1, . . . ,k个=+ 1, . . . ,+n个,它来自(6)那个<ωj个(z,θ|ω)ωk个(z,θ|ω)>自起=0ωk个(θ|ω)=0和ωj个(z|θ,ω) = 0. 因此,ωω在以下方面相互正交< ∂ωj个(z,θ|ω),ωk个(z,θ|ω)>.

结合上述结果,我们得到以下命题。

P(P)提议2考虑ℳ= {(z,θ|ω) =(θ|ω)(z|θ,ω):ω=(ωT型,ωT型)T型}.假设ω独立于z和бp(θ|ω)= ∫(z|θ,ω)第纳尔= 1.考虑两条平滑曲线p{z,θ|ω(k个)(t吨)}带ω(k个)(t吨) = {ω(k个),(t吨),ω(k个),(t吨)}T型 这样ω(1)(0) =ω(2)(0) =ω和ω(1),(t吨) ω(2),(t吨)与t无关。对于任意两个切线向量vk个(ω) =̇{z,θ|ω(k个)(0)} ∈T型ωℳ代表k= 1, 2,我们有<v1,v(v)2 >(ω) = 0.

命题2具有重要含义。对于先验分布和采样分布的同时扰动,它确保ωω几何上相互正交。因此,我们可以从数据和抽样分布中分离出先验的影响。

最后,我们考虑一个同时扰动模型,表示为(z,θ|ω,ωd日,ω),其中ω,ωd日ω分别表示先验、数据和采样分布的个别扰动。除了命题1和命题2之外,我们还可以得到以下定理。

T型神灵1让ℳ= {(z,θ|ω) =(θ|ω)(z|θ,ωd日,ω) :ω= (ω,ωd日,ω)}具有(θ|ω)= ∫(z|θ,ωd日,ω)第纳尔= 1而ω 与z无关。考虑两条光滑曲线p{z,θ|ω(k个)(t吨)}带ω(k个)(t吨) = {ω(k个),(t吨),ω(k个),d日(t吨),ω(k个),(t吨)}T型 通过 ω(1)(0) =ω(2)(0) =ω,有两个切向量vk个(ω) =̇{z,θ|ω(k个)(0)} ∈T型ωℳ,k= 1, 2.然后:

  1. 如果ω(1),(t吨){ω(2),d日(t吨),ω(2),(t吨)}与t无关,则<v1,v(v)2 >(ω) = 0;
  2. 如果{ω(1),(t吨),ω(1),d日(t吨)}{ω(2),(t吨),ω(2),(t吨)}与t和p无关(z|θ,ωd日,ω) =1(z|θ,ωd日)2(z|θ,ω)对于任何(ωd日,ω),然后<v1,v(v)2 >(ω) = 0.

对于先验、数据和采样分布的同时扰动,定理1(i)确保ω和(ωd日,ω)几何上相互正交。如果(z|θ,ωd日,ω) =1(z|θ,ωd日)2(z|θ,ω),那么ω,ωd日、和ω几何上相互正交。

3.影响措施及其性质

3.1. 内在影响措施

我们考虑一些目标函数,例如ϕ-发散函数、后验均值和贝叶斯因子,并开发相关的内在影响度量,用于量化扰动贝叶斯分析的三个关键元素的影响。灵敏度分析的目标函数通常被选为扰动后验分布的函数θ鉴于z,由提供(θ|z,ω) =(z,θ|ω)/ ∫(z,θ|ω)(θ|z,ω0),这是θ鉴于z。这样的目标函数,表示为(f)(ω,ω0) =(f){(θ|z,ω),(θ|z,ω0)},也可以视为来自×R(右)。在整篇论文中,我们假设(f)(ω,ω0)是的平滑函数ω是的路径依赖函数(θ|z,ω)和(θ|z,ω0)这样的话(f)(ω,ω)=0(任何情况下)ω∈ Ω. 例如,(f)(ω,ω0)可以设置为的总变化距离(θ|z,ω0)和(θ|z,ω) (Dey等人,1996年). 大多数标准影响测量,如范围(伯杰,1990年,1994)可以被视为(f)(ω,ω0).

这些影响测量值的很大一部分可能是由扰动引起的ω基线分布,不考虑观测数据和观测数据与拟合模型之间的差异(z,θ). 由于任何影响分析的目的都是检测观测数据和(z,θ),我们建议重新缩放(f)(ω,ω0)使用之间的最短距离(z,θ|ω)和(z,θ|ω0). 我们明确量化了(z,θ|ω)和(z,θ|ω0)使用它们的最小测地距离,表示为d日(ω,ω0). 如果是一个完整的有限维黎曼流形,那么Hopf–Rinow定理说明可以通过最小测地线连接(埃克兰,1978年). 此外,如果是一个完备的无限维黎曼流形,任意两点可以通过几乎是最小测地线的路径连接(埃克兰,1978年). 我们引入了一种内在影响度量来进行比较ωω0∈Ω如下。从几何上讲,内在测度对某些重新参数化是不变的。

D类定义2比较p的内在影响度量(θ|z,ω)到p(θ|z,ω0)定义为数字集成电路(f)(ω,ω0) =(f)(ω,ω0)2/d日(ω,ω0)2.

拟议IGI(f)(ω,ω0)可以解释为目标函数相对于最小距离的变化率(z,θ|ω)和(z,θ|ω0)上的.自(f)(ω,ω0)依赖于路径,并且d日(ω,ω0)对平滑重矩阵化不变量ω、IGI(f)(ω,ω0)也是不变的。此外,我们建议确定最具影响力的ω单位为Ω,表示为ω̂,最大化IGI(f)(ω,ω0)为所有人ω∈ Ω.

例子5.我们考虑对数BF(ω,ω0)=对数б(z,θ|ω)−对数(z,θ|ω0)用于比较的贝叶斯因子(z|θ,ω)和(z|θ,ω0),它可以被视为测试假设的统计数据ω反对ω0(Kass&Raftery,1995年). 在温和条件下,BF(ω,ω0)是来自的平滑映射R(右).我们可以设置(f)(ω,ω0)=高炉(ω,ω0)并得出内在影响测度

IGI公司B类F类(ω,ω0)=高炉(ω,ω0)2d日(ω,ω0)2.

3.2. 一阶局部影响措施

我们认为(f){ω(t吨),ω0}作为t吨沿着所有可能的平滑曲线接近0{z,θ|ω(t吨)}通过ω0,这是ω(0) =ω0.自(f){ω(t吨),ω0}是来自的函数R(右)R(右)根据泰勒级数展开(f){ω(t吨),ω0} =(f){ω(0),ω0} +{ω(0)}t吨+ 0.5(f)̈{ω(0)}t吨2+o个(t吨2),其中{ω(0)}和(f)̈{ω(0)}表示的一阶和二阶导数(f){ω(t吨),ω0}关于t吨评估时间:t吨= 0. 我们需要区分{ω某些光滑曲线的(0)}≠0ω(t吨)和{ω对于所有平滑曲线,(0)}=0ω(t吨). 我们首先考虑这个案子{ω某些光滑曲线的(0)}≠0ω(t吨). ̇{z,θ|ω(0)} =v(v)T型ω(0).然后,{ω(0)} =数据流[v(v)]{ω(0)}是的方向导数(f)在…的方向v(v)T型ω(0)(朗,1995). 我们得出以下定义。

D类定义三。一阶局部影响度量定义为金融机构(f)[v(v)]{ω(0)}=limt吨0IGI公司(f){ω(0),ω(t吨)} = [数据流[v(v)]{ω(0)}]2/[<v(v),v(v)> {ω(0)}].

为了进行灵敏度分析,我们使用切线向量v(v)F类,最大值在里面T型ω(0) ,最大化FI(f)[v(v)]{ω(0)},并且对于ω(t) ●●●●。我们现在得到了以下结果。

T型神灵2数量金融机构(f)[v(v)]{ω(0)}对ω的平滑重参数化不变量(t吨).

除了定理2中的不变性外,FI(f)[v(v)]{ω(0)}是有限维扰动流形一阶测度的直接推广(Zhu等人,2007年;Wu和Luo,1993年).

例子5 (继续的). 我们设置了(f){ω(t吨),ω0}=高炉{ω(t吨),ω0}. d日[高炉{ω(t吨),ω0}]/日期= ∫̇{z,θ|ω(0)}[{z,θ|ω(0)}/ ∫{z,θ|ω(0)}]= ∫̇{z,θ|ω(0)}{θ|z,ω(0)},我们有

金融机构(f)[v(v)]{ω(0)}=[˙{z,θ|ω(0)}{θ|z,ω(0)}d日θ]2˙{z,θ|ω(0)}2{z,θ|ω(0)}d日zd日θ.

计算FI相对容易(f)[v(v)]{ω(0)}表示特定扰动。例如,对于前面给出的污染{θ|ω(t吨)} =(θ) +t吨{(θ) −(θ)},可以看出

金融机构(f)[v(v)]{ω(0)}=([(θ){(θ)}11]{θ|z,ω(0)}d日θ)2[(θ){(θ)}11]2(θ)d日θ=[(z){(z)}11]2[(θ){(θ)}11]2(θ)d日θ,

哪里(z) = ∫(z|θ)(θ)(z) = ∫(θ){z|θ,ω(0)}.由于(z)至(z)贝叶斯因素有利于(θ)与(θ),芬兰(f)[v(v)]{ω(0)}是标准化贝叶斯因子的平方(θ)与(θ).

例子6.考虑贝叶斯扰动流形= {(z,θ|ω) :ω∈ Ω ⊂R(右)}和{z,θ|ω(t吨)}作为上的平滑曲线,其中ω不是的函数zθ例如均值漂移模型中的扰动方案,以及ω(t吨) = {ω1(t吨), . . . ,ω(t吨)}T型是一个平滑向量t吨.让v(v)小时= (v(v)小时,1, . . . ,v(v)h、 米)T型=(0)/日期.通过使用链式法则,我们得到

v(v){ω(0)}=d日{z,θ|ω(t吨)}/d日t吨|t吨=0=k个=1ω˙k个(t吨)ωk个{z,θ|ω(0)}=k个=1v(v)小时,k个ωk个{z,θ|ω(0)},d日(f)[v(v)]{ω(0)}=d日(f){ω(t吨),ω0}/d日t吨|t吨=0=k个=1v(v)小时,k个ωk个(f){ω(0)}=v(v)小时T型ω(f){ω(0)},<v(v),v(v)>{ω(0)}=j个,k个=1v(v)小时,j个v(v)小时,k个<ωj个{z,θ|ω(0)}ωk个{z,θ|ω(0)}>{ω(0)}=v(v)小时T型G公司{ω(0)}v(v)小时,
(7)

哪里ωk个(f)(ω)表示的一阶偏导数(f)(ω,ω0)关于ωk个G公司{ω(0)} = ∫[ω{z,θ|ω(0)}]⊗2 (z,θ|ω)dzdθ是一个×Fisher信息矩阵ω因此,它由(7)以及金融机构的定义(f)[v(v)]{ω(0)}表示金融机构(f)[v(v)]{ω(0)}=[d日(f)[v(v)]{ω(0)}]2/[<v(v),v(v)>{ω(0)}]=[v(v)小时T型ω(f){ω(0)}]2/v(v)小时T型G公司{ω(0)}v(v)小时最后,我们得到v(v)F类,最大值{ω(0)}=argmaxv(v)金融机构(f)[v(v)]{ω(0)} = [G公司{ω(0)}]−1/2 ω(f){ω(0)}.

3.3. 二级局部影响措施

我们使用(f)̈{ω(0)}评估ω到统计模型(Zhu等人,2007年). 然而,对于一般平滑曲线ω(t吨)上的,(f)̈{ω(0)}在几何上表现不好(朗,1995;Zhu等人,2007年). 我们只考虑测地线{z,θ|ω(t吨)},用Exp表示ω(0)(电视),通过Expω(0)(电视) |t吨=0=ω(0)带初始方向̇{z,θ|ω(0)} =v(v){ω(0)} ∈T型ω(0)它来自泰勒级数展开(朗,1995;Zhu等人,2007年)那个

(f){费用ω(0)(t吨v(v)),ω0}=(f){ω(0),ω0}+t吨d日(f)[v(v)]{ω(0)}+0.5t吨2(f)¨{费用ω(0)(t吨v(v))}|t吨=0+o个(t吨)2,
(8)

哪里(f)̈{支出ω(0)(电视)} =d日2(f){支出ω(0)(电视),ω0}/日期2.几何上,(f)̈{支出ω(0)(电视)} |t吨=0在里面(8)称为黎曼黑森,用黑森表示((f))(v(v),v(v)){ω(0)} (朗,1995). 黎曼-黑森函数是对称的。现在我们引入一个二阶影响度量。

D类定义4.v方向上的二阶影响测量T型ω(0)ℳ定义为(f)[v(v)]{ω(0)}=Hess((f))(v(v),v(v)){ω(0)}/[<v(v),v(v)> {ω(0)}].

几何,SI(f)[v(v)]{ω(0)}对标量变换和平滑变换是不变的。为了进行灵敏度分析,我们使用切线向量v(v)S公司,最大值T型ω(0),使SI最大化(f)[v(v)]{ω(0)}代表全部v(v)T型ω(0)有限维空间和无限维空间中的二阶测度之间存在直接联系。因此,本文提出的诊断方法可以被视为现有局部影响方法的扩展(库克,1986年;Zhu等人,2007年)到无限维设置。

例子6,继续的。我们考虑示例6中的贝叶斯扰动模型。如果数据流[v(v)]{ω(0)}=0表示全部v(v)T型ω(0)然后是赫斯((f))(v(v),v(v)){ω(0)}减少到v(v)小时T型H(H)(f){ω(0)}v(v)小时,其中H(H)(f){ω(0)}=ω2(f){ω(0)},其中ω2(f){ω(0)}表示的二阶偏导数(f)(ω,ω0)关于ω(Zhu等人,2007年). 在这种情况下,(f)[v(v)]{ω(0)}=v(v)小时T型H(H)(f)(ω,ω0)v(v)小时/v(v)小时T型G公司{ω(0)}v(v)小时v(v)S公司,最大值等于的特征向量G公司(ω)−1/2 H(H)(f){ω(0)}G公司(ω)−1/2对应于其最大特征值。e(电子)j个成为×1矢量j个第th个元素1,否则为0。我们还建议绘制SI指数图(f)[e(电子)j个]审查有影响力的案件(Zhu等人,2007年第2572页)。

3.4. 贝叶斯影响分析

现在,我们总结了执行我们建议的影响分析的四个关键步骤。

  • 步骤1.构造贝叶斯扰动模型(z,θ|ω).
  • 步骤2.给定贝叶斯扰动模型,我们计算几何量,例如<v(v),v(v)> {ω摄动流形的(0)}。
  • 步骤3.选择目标函数(f)(ω,ω0)并计算IGI(f)(ω,ω0)和ω̂=argmax(最大值)ω∈ΩIGI公司(f)(ω,ω0)

在步骤3中,我们需要计算(f)(ω,ω0)和d日(ω,ω0). (f)(ω,ω0)是的函数(θ|z,ω)和(θ|z,ω0),我们使用马尔可夫链蒙特卡罗方法从(θ|z,ω)和(θ|z,ω0)然后评估(f)(ω,ω0) (Chen等人,2000年). 我们使用Dijkstra算法(Dijkstra,1959年)以近似计算(z,θ|ω)和(z,θ|ω0). 该方法的主要思想是将模型离散化{(z,θ|ω) :ω∈Ω}到更简单的空间{(z,θ|ω) :ω∈ ΩD类},其中ΩD类包含一组Ω的细化网格点,然后我们近似d日(ω,ω0) (Dijkstra,1959年). 基于细化网格点集ΩD类,然后计算{IGI(f)(ω,ω0) :ω∈ ΩD类}和近似值ω̂通过使用argmaxω∈ ΩD类IGI公司(f)(ω,ω0).

步骤4.如果数据流[v(v)]{ω(0)}≠0,然后我们计算v(v)F类,最大值评估小扰动对模型的局部影响。然而,如果数据流[v(v)]{ω(0)}表示全部为0v(v),然后计算SI(f)[v(v)]{ω(0)}并查找v(v)S公司,最大值=argmax[SI(最大值)(f)[v(v)]{ω(0)}].

在步骤4中,我们需要计算FI(f)[v(v)]{ω(0)}和SI(f)[v(v)]{ω(0)}. 对于许多无限维流形,例如加法-污染等级,v(v)在一组中变化𝒱,可以用有限数量的网格点很好地近似{v(v):= 1, . . . ,K(K)0}. 我们可以近似计算argmaxv(v)[金融机构(f)[v(v)]{ω(0)}]和argmaxv(v)[国际单位制(f)[v(v)]{ω(0)}]通过argmaxv(v)[金融机构(f)[v(v)]{ω(0)}]和argmaxv(v)[国际单位制(f)[v(v)]{ω(0)}。

4.一个理论示例

我们考虑数据集z= (z1, . . . ,zn个)T型以说明我们提出的诊断方法的潜在应用。假设z1, . . . ,zn个独立于N个(θ,1)分布和基线先验分布θ是对应于N个(μ0,σ02)分配。出租z¯==1n个z/n个,我们有(θ|z)经验[0.5(n个+1/σ02){θ(n个z¯+μ0/σ02)/(n个+1/σ02)}2].

我们首先考虑基线先验位置的简单扰动,其扰动模型由下式给出

(z,θ|ω)=(z|θ)(θ|ω)=(z|θ)经验{0.5(θωμ0)2/σ02}/(2πσ02)0.5

对于ω∈ [ωL(左),ωU型],其中ωL(左)ωU型是已知的标量。我们设置了E类(θ|z,ω)=θ(θ|z,ω)d日θ={n个z¯+(ω+μ0)/σ02}/(n个+1/σ02)(f)(ω,ω0) =E类(θ|z,ω) −E类(θ|z,ω0). 因此,遵循伯杰(1990),我们有(f)(ω,ω0)等于(f)(ωU型,ω0)(f)(ωL(左),ω0)=(ωU型ωL(左))/(n个σ02+1)。大范围可能由ωU型ωL(左),这与先验扰动的大小有关,如后文所示。

我们计算了(z,θ|ω)以及内在影响测度。我们可以计算(z,θ|ωL(左))和(z,θ|ωU型). ω(t吨) =t吨˙{z,θ|ω(t吨)}=(θμ0t吨)/σ02,我们有<˙{z,θ|ω(t吨)}=˙{z,θ|ω(t吨)}>{ω(t吨)}=1/σ02d日(ωL(左),ωU型)=ωL(左)ωU型d日t吨/σ0=(ωU型ωL(左))/σ0,这是与数据无关的先验值的唯一扰动大小。两者都很小σ0和大型ωU型ωL(左)可能会引入大扰动。什么时候?(f)(ω,ω0) =E类(θ|z,ω) −E类(θ|z,ω0),我们有IGI公司(f)(ω,ω0)=σ02/(n个σ02+1)2,独立于ω这表明相对于先验扰动,(f)(ω,ω0)变化不大。大范围错误地表明了非稳健性的程度,这实际上是由对先验值的大扰动引起的(Sivaganesan,2000年).

其次,我们考虑先验值和模型的同时扰动,如下所示

(z,θ|ω)经验{0.5=1n个(zωθ)20.5(θμ0ωn个+1)2/σ02},
(9)

哪里ω= (ω1, . . . ,ωn个+1)T型R(右)n个+1在这种情况下,ω0= 0n个+1表示无扰动。δij公司等于1=j个否则为0。根据示例6,我们可以为,j个= 1, . . . ,n个,

ω(z,θ|ω)=(zωθ),ωn个+1(z,θ|ω)=(θμ0ωn个+1)/σ02,<ω(z,θ|ω),ωj个(z,θ|ω)>(ω)=δj个,<ω(z,θ|ω),ωn个+1(z,θ|ω)>(ω)=0,<ωn个+1(z,θ|ω),ωn个+1(z,θ|ω)>(ω)=1/σ02.
(10)

因此,当σ0≠ 1,ω对于= 1, . . . ,n个ωn个+1在拟合模型中引入不同程度的扰动(z,θ|ω). 此外,由于< ∂ω(z,θ|ω),ωj个(z,θ|ω) > (ω)为所有人,j个独立于ω、歧管由确定(9)是扁平歧管(朗,1995). 对于任何ω在里面R(右)n个+1,测地线连接(z,θ|ω)和(z,θ|ω0)由给定(z,θ;)的t吨∈ [0, 1]. 通过使用(3),我们可以证明d日(ω,ω0)2==1n个ω2+ωn个+12/σ02,它量化了扰动方案的大小(9)到先前的和拟合的模型。

我们计算贝叶斯因子BF的对数(ω,ω0)如实施例5所述。由于指数函数中的项(9)形成的二次函数θ,我们可以显式计算BF(ω,ω0) =P(P)(ω) −P(P)(ω0),其中P(P)(ω)=对数б(z,θ|ω)等于

C0.5[(ωn个+1+μ0)2/σ02+=1n个(zω)2{(ωn个+1+μ0)/σ02+=1n个(zω)}2/(n个+1/σ02)],

C是独立于的标量ω现在回顾示例5的结果。对于平滑曲线ω(t吨) ∈R(右)n个+1具有ω(0) =ω0,芬兰(f)[v(v)]{ω(0)}由确定ω高炉(ω,ω0)和v(v)F类,最大值(ω) = {G公司(ω0)}−1/2ω高炉(ω,ω0),其中G公司(ω0)=诊断(1,,1,σ02)按中计算(10).取BF的导数(ω,ω0)关于ω,我们得到

ωn个+1高炉(ω,ω0)=(ωn个+1+μ0)/σ02+{(ωn个+1+μ0)/σ02+=1n个(zω)}/(n个σ02+1),ω高炉(ω,ω0)=zω{(ωn个+1+μ0)/σ02+=1n个(zω)}/(n个+1/σ02)

对于= 1, . . . ,n个,它产生

v(v)F类,最大值(ω0)={z1n个z¯+μ0/σ02n个+1/σ02,,zn个n个z¯+μ0/σ02n个+1/σ02,n个(z¯μ0)σ0n个σ02+1}T型.
(11)

通过检查第一个n个的组件v(v)F类,最大值(ω0),我们可以识别外围点z与后验平均值相差甚远θ,而的最后一个组件v(v)F类,最大值(ω0)可以提取一个有影响力的超参数μ0.

第三,我们考虑先验分布和采样分布的同时扰动,

(z,θ|ω)经验{0.5=1n个ω(zθ)20.5ωn个+1(θμ0)2/σ02+0.5=1n个+1日志(ω),}

哪里ω= (ω1, . . . ,ωn个+1)T型R(右)n个+1在这种情况下,ω0= 1n个+1表示无扰动。根据示例6,我们可以为,j个= 1, . . . ,n个,

ω(z,θ|ω)=0.5(zθ)2+0.5ω1,ωn个+1(z,θ|ω)=0.5(θμ0)2/σ02+0.5ωn个+11,<ω(z,θ|ω)=ωj个(z,θ|ω)>(ω)=0.5ω2δj个,<ω(z,θ|ω),=ωn个+1(z,θ|ω)>(ω)=0,<ωn个+1(z,θ|ω),ωn个+1(z,θ|ω)>(ω)=0.5ωn个+12.
(12)

因此,G公司(ω0)是一个(n个+ 1) × (n个+1)单位矩阵。

我们考虑预测分布的敏感性分析(拉文,1992年;Millar和Stewart,2007年). zn个+1表示将来的观察结果N个(θ,1),预测密度zn个+1鉴于z,表示为(zn个+1|z,ω),显示为N个{(=1n个ωz+ωn个+1μ0/σ02)/(=1n个ω+ωn个+1/σ02),1/(=1n个ω+ωn个+1/σ02)}.我们设置(f)(ω,ω0) = ∫zn个+1 (zn个+1|z,ω)第纳尔n个+1− ∫zn个+1 (zn个+1|z,ω0)第纳尔n个+1现在回顾示例6的结果和中的度量张量(12).对于平滑曲线ω(t吨) ∈R(右)n个+1具有ω(0) =ω0,芬兰(f)[v(v)]{ω(0)}由ψ决定ω(f)(ω)和v(v)F类,最大值(ω) =ω(f)(ω,ω0),由给出

ωn个+1(f)(ω,ω0)=σ02μ0/(=1n个ω+ωn个+1/σ02)σ02(ωn个+1μ0/σ02+=1n个zω)/(=1n个ω+ωn个+1/σ02)2,ω(f)(ω,ω0)=z/(=1n个ω+ωn个+1/σ02)(ωn个+1μ0/σ02+=1n个zω)/(=1n个ω+ωn个+1/σ02)2

对于= 1, . . . ,n.(名词)。这就产生了v(v)F类,最大值,(ω0)与…成比例

1n个+1/σ02(z1n个z¯+μ0/σ02n个+1/σ02,,zn个n个z¯+μ0/σ02n个+1/σ02+n个(μ0z¯)σ02n个σ02+1)T型.
(13)

我们观察到v(v)F类,最大值,(ω0)英寸(13)v(v)F类,最大值(ω0)英寸(11),因此v(v)F类,最大值(ω0)能够拾取外围点z和一个有影响力的超参数μ0.

最后,我们研究一个更一般的设置,其中z(= 1, . . . , 50)是独立的N个(θ,1)变量,使用θ之前的Dirichlet过程独立生成DP公司(c(c)0F类1),其中基本度量值F类1是一个N个(5,1)分布与置信参数c(c)0设置为等于2(埃斯科瓦尔,1994年). 此外z已更改为z+5用于=49和50,可以视为两个异常值。我们将模型与zN个(θ,1)和θDP公司(2F类0),其中F类0是一个N个(0,1)分布。基本衡量标准F类0由于N个(0,1)和真基度量N个(5, 1). 我们考虑先验和数据的同时扰动。我们有

(z,θ|ω)经验(0.5=1n个(zωθ)2+=1n个日志[c(c)0F类0(θ)+c(c)0ωn个+1{F类1(θ)F类0(θ)}+j个=11δθj个(θ)]).
(14)

在这种情况下,ω0= 0n个+1表示无扰动。通过差异化(z,θ|ω)=对数(z,θ|ω)英寸(14)关于ω,我们有这个= 1, . . . ,编号:,

ω(z,θ;ω)=zωθ,ωn个+1(z,θ|ω)==1n个c(c)0{F类1(θ)F类0(θ)}c(c)0F类0(θ)+c(c)0ωn个+1{F类1(θ)F类0(θ)}+j个=11δθj个(θ).

自¨(zωθ)(z,θ|ω)第纳尔=0和б(zωθ)(zj个ωj个θj个)(z,θ|ω)第纳尔=δij公司,我们有

<ω(z,θ|ω),ωj个(z,θ|ω)>(ω)=δj个,<ω(z,θ|ω),ωn个+1(z,θ|ω)>(ω)=0,<ωn个+1(z,θ|ω),ωn个+1(z,θ|ω)>(ω)=E类[{ωn个+1(z,θ|ω)}2].

类似(11),我们设置(f)(ω,ω0)=高炉(ω,ω0)并将结果替换为(7)计算v(v)F类,最大值(ω0)使用由后验分布生成的50000马尔可夫链蒙特卡罗样本(θ1, . . . ,θn个|z1, . . . ,z50)5000个样品老化后。检查v(v)F类,最大值(ω0)揭示了异常情况49和50,并显示了对指定错误的基本度量的敏感性F类0Dirichlet过程之前θ在里面图1.

保存图片、插图等的外部文件。对象名称为biomet-98-2-307f1.jpg

使用Dirichlet过程先验和扰动个别观测值的同时扰动模型:(a)局部影响度量v(v)B类,最大值(ω0)贝叶斯因子的对数(f)(ω,ω0)=高炉(ω,ω0)从中检测出异常情况49和50以及对Dirichlet过程先验的扰动;(b) 度量张量的指数图ii(ii)(ω0)对于摄动(15)。

除此理论示例外,还提供了涉及缺失数据的广泛模拟和实际数据分析补充材料在实践中,我们建议采用迭代过程来执行§3.4中的四步影响分析。如果人们担心对先验的敏感性,那么可以像示例1中那样,对先验所有超参数引入一些有限维扰动,并根据其局部影响度量来识别有影响的超参数。然后,对于几个有影响的超参数,其中一个使用加法进一步扰动其相关的先验分布-然后进行内在影响分析。如果关注采样分布,则可能会引入各种扰动,包括加法扰动-污染类别与扰动模型(1)(z|θ)并使用局部影响测量来检测(z|θ)对小扰动很敏感。然后,可以关注这些有影响力的部分并进行内在影响分析。在细化先验分布和采样分布后,可以扰动单个观测值并检测一组有影响的观测值。在检查了每个影响分析的信息后,我们对z,(θ)和(z|θ). 我们从局部影响分析开始,检查所有成分的敏感性,然后使用内在影响分析重点关注几个有影响的成分。

鸣谢

我们感谢编辑、一位副主编和两位审稿人提出的许多宝贵建议,这些建议极大地改进了本文。

附录

命题证明1.考虑任意两条平滑曲线{z,θ|ω(k个)(t吨)} ={θ|ω(k个)(t吨)}(z|θ)带有{z,θ|ω(k个)(0)} =(θ|ω)(z|θ)的k个= 1, 2. 对于每个k个,通过差异化{z,θ|ω(k个)(t吨)}关于t吨,我们得到一个切线向量v(v)k个(ω) ={z,θ|ω(k个)(0)} =d日日志{θ|ω(k个)(t吨)}/日期|t吨=0T型ω,独立于(z|θ). 此外d日t吨=日/日,的内积v(v)1(ω)和v(v)2(ω)由∏给出[d日t吨日志{θ|ω(1)(t吨)}][d日t吨日志{θ|ω(2)(t吨)}]{z,θ|ω}dzdθ= ∫ [d日t吨日志{θ|ω(1)(t吨)}][d日t吨日志{θ|ω(2)(t吨)}]{θ|ω},它也独立于(z|θ).

命题证明2.考虑两条平滑曲线{z,θ|ω(k个)(t吨)}与ω(k个)(t吨) = {ω(k个),(t吨)T型, {ω(k个),(t吨)T型}T型这样的话ω(1)(0) =ω2(0) =ω和(ω(1),(t吨)和ω(1),(t吨)独立于t吨.让(z|θ,ω(1),)=对数(z|θ,ω(1),). ω(1),(t吨)独立于t吨,

v(v)1(ω)=˙{z,θ|ω(1)(0)}=d日d日t吨日志{θ|ω(1),(t吨)}|t吨=0+d日d日t吨日志{z|θ,ω(1),(t吨)}|t吨=0˙{z|θ,ω(1),(0)}.

(θ|ω(2),)=对数(θ|ω(2),). 同样,我们有

v(v)2(ω)=˙{z,θ|ω(2)(0)}=d日d日t吨日志{θ|ω(2),(t吨)}|t吨=0˙{θ|ω(2),(0)}.

因此v(v)1(ω)和v(v)2(ω),表示为<v1,v(v)2 >(ω),由给出

˙{θ|ω(2),(0)}˙{z|θ,ω(1),(0)}(z,θ|ω)d日zd日θ=d日{θ|ω(2),(0)}d日t吨d日{z|θ,ω(1),(0)}d日t吨d日zd日θ=(d日{θ|ω(2),(0)}d日t吨[d日{z|θ,ω(1),(0)}d日t吨d日z])d日θ=(d日{θ|ω(2),(0)}d日t吨d日[d日{z|θ,ω(1),(0)}d日z]d日t吨)d日θ=[d日{θ|ω(2),(0)}d日t吨d日1d日t吨]d日θ=0.

定理的证明1.由于定理1(i)来自命题2,因此我们将重点放在定理1(ii)上。自{ω(1),(t吨),ω(1),d日(t吨)}和{ω(2),(t吨),ω(2),(t吨)}独立于t吨(z|θ,ωd日,ω) =1(z|θ,ωd日)2(z|θ,ω),我们有

v(v)1(ω)=˙{z,θ|ω(1)(0)}=d日d日t吨日志1{z|θ,ω(1),(t吨)}|t吨=0,v(v)2(ω)=˙{z,θ|ω(2)(0)}=d日d日t吨日志2{z|θ,ω(2),d日(t吨)}|t吨=0.

因此,<v1,v(v)2 >(ω)由给定

d日日志1{z|θ,ω(1),(t吨)}d日t吨|t吨=0d日日志2{z|θ,ω(2),d日(t吨)}d日t吨|t吨=0(z,θ|ω)d日zd日θ=d日1{z|θ,ω(1),(0)}d日t吨d日2{z|θ,ω(2),d日(0)}d日t吨(θ|ω)d日zd日θ=d日21d日t吨d日t吨=0.

定理的证明2.考虑平滑曲线{z,θ|ω(t吨)}. R(右)() : [c(c)1,c(c)2] → [−∊, ∊]是一阶微分映射R(右)(c(c))=0和(c(c)) =博士()/ds公司|=c(c)对于a≠0c(c)∈ (c(c)1,c(c)2). 然后,[z,θ|ω{R(右)()}]是来自的微分图[c(c)1,c(c)2]至根据链式法则[ω{R(右)()}] =d日 (f)[ω{R(右)()},ω0] =d日第页 (f){ω(第页),ω0}()和d日[z,θ|ω{R(右)()}] =d日第页 {z,θ|ω(第页)}(),其中() =d日 R(右)(),d日c(c)=直流电,d日第页=付款/付款、和d日=日/日因此,作为ω(0) =ω0,我们有

d日(f)[R(右)˙(c(c))v(v)][ω{R(右)(c(c))}]=R(右)˙(c(c))d日(f)[v(v)](ω),<R(右)˙(c(c))v(v),R(右)˙(c(c))v(v)>(ω)=R(右)˙(c(c))2<v(v),v(v)>(ω).

补充材料

补充材料可在生物特征在线课程包括命题1的证明、缺失数据问题的真实数据分析和广泛的模拟。

单击此处查看。(1.0M,pdf格式)

工具书类

  • 阿玛里S。统计学中的微分几何方法。第2版。第28卷。柏林:施普林格;1990年,统计学讲义。[谷歌学者]
  • 稳健贝叶斯分析:对先验的敏感性。J统计计划推断。1990;25:303–28. [谷歌学者]
  • Berger JO。稳健贝叶斯分析概述。测试。1994;:5–58. [谷歌学者]
  • Berger JO、Rios Insoa D、Ruggeri F.In:贝叶斯稳健稳健贝叶斯分析。 统计学课堂讲稿。Rios Insoa D,Ruggeri F,编辑。第152卷。纽约:Springer;2000年,第1-32页。[谷歌学者]
  • Carlin BP,Polson NG。影响诊断的预期效用方法。J Am统计协会。1991;86:1013–21. [谷歌学者]
  • Chen MH、Shao QM、Ibrahim JG。贝叶斯计算中的蒙特卡罗方法。纽约:Springer;2000.[谷歌学者]
  • Clarke B.Desiderata,学习统计学的预测理论。贝叶斯分析。2010;5:283–318. [谷歌学者]
  • Clarke B,Gustafson P.关于后验分布对输入的总体敏感性。J统计计划推断。1998;71:137–50. [谷歌学者]
  • Cook RD。地方影响评估(讨论)J.R.统计。社会学学士。1986;48:133–69. [谷歌学者]
  • Copas JB,Eguchi S.局部模型不确定性和不完全数据偏差(讨论)J.R.统计。社会学学士。2005;67:459–513. [谷歌学者]
  • Dey DK,Birmiwal LR。使用散度度量的稳健贝叶斯分析。统计Prob Lett。1994;20:287–94. [谷歌学者]
  • Dey DK、Ghosh SK、Lou KR。关于贝叶斯分析中的局部敏感性度量(含讨论)。收录:Berger JO、Betro B、Moreno E、Pericchi LR、Ruggeri F、Salinetti G、Wasserman L,编辑。贝叶斯稳健。第29卷。加利福尼亚州海沃德;1996年,第21-40页。IMS演讲笔记-专题系列。[谷歌学者]
  • Dijkstra东部。关于与图有关的两个问题的注记。数字数学。1959;1:269–71. [谷歌学者]
  • Ekeland I.无穷维Hopf–Rinow定理。J差异几何。1978;13:287–301. [谷歌学者]
  • Escobar MD。使用Dirichlet过程估计正常平均值。J Am统计协会。1994;89:268–77. [谷歌学者]
  • Friedrich T.Die Fisher-信息与症状结构。数学Nachr。1991;153:273–96. [谷歌学者]
  • Gustafson P.推断对先验边缘的局部敏感性。J Am统计协会。1996;91:774–81. [谷歌学者]
  • Gustafson P.贝叶斯分析中的局部稳健性。收录:Rios Insoa D、Ruggeri F,编辑。稳健贝叶斯分析。纽约:Springer;2000年,第71–88页。[谷歌学者]
  • Gustafson P,Wasserman L.贝叶斯推理的局部敏感性诊断。安·统计师。1995;23:2153–67. [谷歌学者]
  • Guttman I,Peña D.贝叶斯分析单变量线性模型中的诊断。统计师。西尼卡。1993;:367–90. [谷歌学者]
  • Kass RE,Raftery AE.贝叶斯因子。J Am统计协会。1995;90:773–95. [谷歌学者]
  • Kass RE、Tierney L、Kadane JB。贝叶斯分析中评估影响和敏感性的近似方法。生物特征。1989;76:663–74. [谷歌学者]
  • Kass RE、Vos PW。渐近推理的几何基础。纽约:威利;1997[谷歌学者]
  • 朗·S。微分流形和黎曼流形。第三版,纽约:Springer;1995[谷歌学者]
  • Lavine M.具有共轭先验的贝叶斯线性模型中的局部预测影响。Commun公司。统计师。B。1992;2:269– 83. [谷歌学者]
  • McCulloch RE。局部模型影响。J Am统计协会。1989;84:473–78. [谷歌学者]
  • Millar RB,Stewart WS。贝叶斯模型中局部影响观察的评估。贝叶斯分析。2007;2:365–84. [谷歌学者]
  • Oakley JE,O'Hagan A.复杂模型的概率敏感性分析:贝叶斯方法。J.R.统计。Soc.B.公司。2004;66:751–69. [谷歌学者]
  • Peña D,Guttman I.比较线性模型中异常值检测的概率方法。生物特征。1993;80:603–10. [谷歌学者]
  • Peng F,Dey DK。使用散度度量对异常值问题进行贝叶斯分析。Can J统计。1995;23:199–213. [谷歌学者]
  • Ruggeri F,Sivaganesan S.关于贝叶斯推断的全局敏感性度量。桑赫亚。2000;62:110–27. [谷歌学者]
  • Sivaganesan S.全局和局部稳健性方法:使用和限制。收录:Rios Insoa D、Ruggeri F,编辑。稳健贝叶斯分析。第152卷。纽约:Springer;2000年,第89–108页。统计学课堂讲稿。[谷歌学者]
  • Van der Linde A.乘性扰动模式下后验分布的局部影响。贝叶斯分析。2007;2:319–32. [谷歌学者]
  • Wang Q,Stefanski LA,Genton MG,Boos DD。通过测量误差建模进行稳健时间序列分析。中央统计局。2009;19:1263–80. [谷歌学者]
  • Wu X,Luo Z。局部影响的二阶方法。J.R.统计。社会学学士。1993;55:929–36. [谷歌学者]
  • Zhu HT、Ibrahim JG、Lee SY、Zhang HP。局部影响分析中的扰动选择和影响措施。安·统计师。2007;35:2565–88. [谷歌学者]
  • 朱HT,李SY.不完全数据模型的局部影响。J.R.统计。社会学学士。2001;63:111–26. [谷歌学者]

文章来自生物特征由以下人员提供牛津大学出版社