A Geometric Variational Approach to Bayesian Inference

Abhijoy Saha; Karthik Bharath; Sebastian Kurtek

doi:10.1080/01621459.2019.1585253

美国统计协会。作者手稿；PMC 2021年1月1日提供。

以最终编辑形式发布为：

2020年美国统计协会杂志；115(530): 822–835.

在线发布2019年4月30日。数字对象标识：10.1080/01621459.2019.1585253

预防性维修识别码：项目管理委员会7540671

美国国立卫生研究院：NIHMS1572322号文件

PMID：33041402

贝叶斯推理的几何变分方法

阿比乔伊·萨哈,¹ Karthik Bharath公司,²和塞巴斯蒂安·库特克¹

作者信息版权和许可信息 PMC免责声明

关联数据

补充资料: 补充1。
NIHMS1572322-补充-Supp1.pdf（502000）
GUID:5240B27C-5C28-4EF1-BDED-E781A69E8D9C

摘要

基于概率密度函数流形上的非参数Fisher–Rao度量，提出了贝叶斯模型变分推理的黎曼几何框架。在平方根密度表示下，流形可以用单位超球面的正正值来识别S公司^∞在里面 ${L（左）}^{2}$ ，Fisher–Rao度量减少到标准 ${L（左）}^{2}$ 公制。利用这种黎曼结构，我们基于α-分歧。与基于Kullback–Leibler散度的方法相比，这为边际分布提供了更严格的下限，并且相应的上限不可用。我们提出了一种新的基于梯度的变分问题算法，该算法基于受几何激励的Fréchet导数算子S公司^∞，并检查其属性。通过仿真和实际数据应用，我们证明了所提出的几何框架和算法在几种贝叶斯模型上的实用性。

关键词：无限维黎曼优化，梯度提升算法，平方根密度，贝叶斯密度估计，贝叶斯逻辑回归

1.简介

基于优化技术的各种算法，如变分推理（VI）(Ghahramani和Beal，1999年)，变分贝叶斯（VB）(贾科拉和约旦，1997年)，黑盒-α（BB-α) (Hernández-Lobato等人，2016年)和期望传播（EP）(明卡，2001)，已经成功地用于在贝叶斯设置中近似后验分布。鉴于变分方法在大规模数据分析中的适用性，最近的进展使得变分方法对于复杂的高维贝叶斯模型非常有用(Hoffman等人，2013年;Broderick等人，2013年). 特别是，VB方法已经证明很流行(Li和Turner，2016年)因为它们提供了边际密度或模型证据（对数）的下限，从而提供了一个自然的模型选择标准(Ueda和Ghahramani，2002年;McGrory和Titterington，2007年).

本质上，VB和马尔可夫链蒙特卡罗（MCMC）抽样技术是解决贝叶斯模型中近似后验分布相同问题的不同方法。在某些问题中，VB方法优于标准MCMC，主要原因有两个：MCMC在缩放到高维时计算复杂度高，以及评估MCMC算法的收敛性(Carlin和Louis，2008年;Cowles和Carlin，1996年)存在问题。有关基于MCMC和VB的方法的主要问题的最新比较说明，以及关于优先选择其中一种方法的指南，请参见Blei等人（2017）.

而统计模型的几何信息先前已被考虑用于改进MCMC技术(Girolma和Calderhead，2011年)在贝叶斯推理的变分方法中，同样的方法明显不足；这方面的一个例外是Chen等人（2015）我们工作的目的是证明在贝叶斯推理的变分方法中显式使用概率密度函数空间的内在几何的实用性。我们通过两种互补的方式来实现这一点：（1）我们展示了如何利用非参数PDF空间的Fisher–Rao黎曼几何来设计参数化变分框架；（2）我们将几何框架与α-一大类贝叶斯模型在获得边际密度下限和上限方面的分歧，最近被认为是α-分歧框架李和特纳（2016）.

1.1. 背景

推理问题如下。对于给定的数据集x，变分问题是求密度 $q个 \in 问$ 未知、隐藏参数（或潜在变量）θ最接近真实的后验密度第页(θ|x)，通过求解 $参数 {最小值}_{q个 \in 问} L（左） (第页, q个)$ 对于合适的距离或散度函数 $L（左）$ 传统VB方法的典型代表是使用Kullback–Leibler散度（KLD） $L（左）$ 在平均场类的近似值 $问$ 由具有独立边缘的密度组成： $问 : = {q个 (θ) = \prod_{我} {q个}_{我} (θ_{我})}$ .在条件共轭模型中q个_我s与完全条件分布属于同一指数族q个_我(θ_我|θ_−我,x)，其中θ_−我表示所有θ除了θ_我因此，推理问题成为确定指数族中自然参数参数化的类中分布的优化问题，这通常简化了计算。变分问题的（近似）解通常是通过梯度上升（或下降）方法沿着θ，其中更新很简单，并且可以作为同一系列的成员使用(比尔，2003年;Bishop，2006年).王和布莱（2013）将VB方法扩展到非共轭模型，并提出了两种使用高斯近似的通用方法：拉普拉斯变分推理和δ方法变分推理。最近，文献中有几种方法可以放宽变分贝叶斯中的平均场近似(Rezende和Mohamed，2015年;霍夫曼和布莱，2015年;Kingma等人，2016年;Kucukelbir等人，2017年). 假设后向近似密度类的特定参数形式，例如高斯，是上述一些技术的常见限制，包括霍夫曼和布莱（2015）和Kucukelbir等人（2017）.

近似类 $问$ 应足够大，以包括接近第页(θ|x). 对参数分布族（例如指数族）的限制对所考虑的统计模型施加了限制。此外 $问$ 在基于梯度或线性搜索算法的性能中起着重要作用。缺乏几何考虑 $问$ 在基于KLD的VB框架中霍夫曼等人（2013）其中（近似）自然坡度，由阿玛里（1998）通过Fisher信息矩阵捕捉空间的曲率，用于梯度下降算法的更新。

1.2. 动机和贡献

所提出的框架主要由非共轭贝叶斯模型驱动，但同样适用于共轭贝叶斯模型，如后续模拟示例所示。VB程序在非共轭模型中的应用受到三个主要相互依赖因素的影响：（1）变分族的选择 $问$ ，（2）损失函数的选择 $L（左）$ ，以及（3）梯度计算和勘探效率 $问$ 在基于梯度的算法中。这三个因素之间的相互作用及其对后验近似值质量的影响可以在几何框架下捕获和量化： $问$ 可以进行选择，以使其与黎曼结构兼容，由此产生的距离控制 $L（左）$ ，在此条件下，可以使用（Fréchet）方向导数来执行参数空间中的局部移动。

为此，对于连续参数集d日维度，我们选择为 $问$ 非参数流形全部的概率密度d日因式分解的维度。我们装备 $问$ 非参数Fisher–Rao（FR）黎曼度量（以下简称FR度量）。我们方法的显著特征在于，变分问题不是直接定义在 $问$ ，而是在所有正方形PDF的空间上。平方映射变换 $问$ 关于无限维单位球面的正正值 ${L（左）}^{2}$ 这通过显式表达有用的几何量和运算（例如测地线路径和距离、指数和反指数映射、并行传输）简化了计算。在这种设置下，可以获得d日-维数密度作为切线空间中的向量，即合适的希尔伯特空间的子空间。这允许使用包含跨越切线空间的无穷多正交函数的基集表示密度。在实践中，人们需要选择有限数量的基函数，从而得到密度的有限维表示；理论框架不受这种限制。截断到N个-基础表示是N个在近似后验密度时充当“带宽参数”，因此可以进行调整以提高近似的质量。

利用 $问$ ，我们使用Rényiα-发散(雷尼，1961年)作为损失函数 $L（左）$ 在变分公式中。这个α-发散包含一大类发散（包括KLD）。我们的选择 $L（左）$ 受FR指标与α-发散α=1/2，以及通过适当改变获得边缘密度的下限和上限的可能性α(第3.1节和命题2），目前在现有文献中不可用。然而，我们注意到FR度量下的黎曼框架可以使用任何散度函数的选择 $L（左）$ 进行适当调整。配备多功能损失功能 $L（左）$ 通过黎曼度量定义，上升/下降算法中的梯度方向现在定义为沿当前迭代切线空间中的正交基元素给出的方向的Fréchet方向导数。这导致了对 $问$ 如仿真和数据分析示例所示。我们还证明了梯度存在最佳步长（命题4）。与任何VB程序一样，计算梯度方向需要我们近似d日-维积分。我们基于由奥尔森和魏斯菲尔德（1991）这样的近似值即使在相当高的维中也能很好地工作。近似的普遍性使得原则上可以将我们的框架扩展到非平均场设置。我们在中对此扩展进行了评论第6节把它留给以后的工作。

总之，本文的主要贡献是：

我们提出了连续变量变分推理的黎曼几何框架d日-基于所有配备非参数FR度量的PDF流形的固有几何的维数密度。近似家庭 $问$ 包含全部d日-具有独立边缘的参数空间上的维数密度。
我们从理论和数值上表明，所提出的方法使用α-与基于KLD的VB方法相比，散度损失函数导致边缘密度的下限更紧。我们的方法还能够提供边缘的上界，这是用标准的基于KLD的VB无法获得的。
我们利用PDF空间的几何特性定义了一种基于Fréchet导数的梯度上升算法来解决变分问题。我们还指定了一种基于新的一阶泰勒近似参数有效逼近梯度函数的技术。

论文的其余部分组织如下。第2节介绍了FR黎曼几何框架，并描述了与我们的分析相关的工具。在第3节，我们审查了α-并在FR框架内提供了变分问题的详细公式。此外，我们基于与α-分歧。在第4节，我们提出了一种梯度上升算法来逼近后验分布，并检验了其性质。在第5节，我们使用各种模型（包括线性回归、密度估计和logistic回归）对所提方法进行了模拟研究和一些应用。第6节包括对未来工作方向的讨论，包括将所提出的方法扩展到非平均场变分族的可能方法。

2.Fisher–PDF的Rao黎曼几何

在这一节中，我们介绍了PDF的表示空间以及相关的几何工具，这些工具有助于形成所提出的变分方法；这些概念中的大多数已经在Kurtek和Bharath（2015）;Kurtek（2017）.

为了简单起见，我们将注意力局限于[0,1]上的单变量密度的情况。然而，我们注意到，该框架对所有有限维分布都同样有效。表示方式 $P（P）$ ，PDF的Banach流形定义为 $P（P） = {第页 : [0, 1] \to ℝ_{> 0} | \int_{0}^{1} 第页 (x) d日 x = 1}$ 接下来，就一点而言 $第页 \in P（P）$ ，考虑一个向量空间，其中包含此时的切向量集。这被定义为点处的切线空间第页, ${T型}_{第页} (P（P）) = {δ 第页 : [0, 1] \to ℝ | \int_{0}^{1} δ 第页 (x) 第页 (x) d日 x = 0}$ .直观地，切线空间 ${T型}_{第页} (P（P）)$ 在任何时候第页包含PDF的所有可能扰动第页该切线空间可用于在歧管上定义合适的度量 $P（P）$ 如下所示。对于任何 $第页 \in P（P）$ 和任意两个切线向量 $δ {第页}_{1}, δ {第页}_{2} \in {T型}_{第页} (P（P）)$ ，非参数FR度量由下式给出 ${〈 〈 δ {第页}_{1}, δ {第页}_{2} 〉 〉}_{第页} = \int_{0}^{1} δ {第页}_{1} (x) δ {第页}_{2} (x) \frac{1}{第页 (x)} d日 x$ (饶，1945年;Kass和Vos，2011年). 该度量与Fisher信息矩阵密切相关，使得其在各种统计方法中具有吸引力。此度量的一个重要属性是它对重新参数化是不变量(Cencov，2000年)即PDF域的平滑变换。然而，由于FR度量值在 $P（P）$ ，这导致了繁琐的计算，这使得它很难在实践中使用。因此，与其致力于 $P（P）$ 直接在FR度量下，我们使用适当的变换来简化该空间的黎曼几何。

平方表示法(巴塔查里亚，1943年)提供了优雅的简化。我们定义映射 $ϕ : P（P） \to Ψ$ ，其中 $ϕ (第页) = ψ = \sqrt{第页}$ 是PDF的平方密度（SRD）第页; 逆映射简单地由以下公式给出ϕ⁻¹(ψ) =第页=ψ²(Kurtek和Bharath，2015年). 所有SRD的空间为 $Ψ = {ψ : [0, 1] \to ℝ_{> 0} | \int_{0}^{1} ψ^{2} (x) d日 x = 1}$ 即单位希尔伯特球面的正正值(郎朗，2012). 由于球体的微分几何是众所周知的，因此可以在此空间上定义标准几何工具来分析PDF。让T型_ψ(Ψ) = {δψ| 〈δψ,ψ〉=0}表示ψ∈ Ψ. 在SRD表示法下，很容易证明，对于任意两个向量δψ₁,δψ₂∈T型_ψ（Ψ），FR公制降至标准 ${L（左）}^{2}$ 黎曼度量： $〈 δ ψ_{1}, δ ψ_{2} 〉 = \int_{0}^{1} δ ψ_{1} (t吨) δ ψ_{2} (t吨) d日 t吨$ .两个PDF之间对应的测地线距离第页₁, ${第页}_{2} \in P（P）$ ，现在由SRD代表ψ₁,ψ₂∈Ψ，现在简单地定义为在Ψ上连接它们的最短弧的长度：d日_法国(第页₁,第页₂)=cos⁻¹(〈ψ₁, ψ₂〉) =五.

在后续章节中，我们将使用其他几何工具来解决变分推理问题。这些包括指数和逆指数映射，以及并行传输。对于ψ∈Ψ和δψ∈T型_ψ（Ψ），指数映射ψ，经验_ψ:T型_ψ（Ψ）→Ψ定义为 ${经验}_{ψ} (δ ψ) = 余弦 (‖ δ ψ ‖) ψ + 罪 (‖ δ ψ ‖) \frac{δ ψ}{‖ δ ψ ‖}$ ，其中‖·‖是 ${L（左）}^{2}$ 规范。类似于ψ₁,ψ₂∈Ψ，逆指数映射表示为 ${经验}_{ψ}^{- 1} : Ψ \to {T型}_{ψ} (Ψ)$ 是 ${经验}_{ψ_{1}}^{- 1} (ψ_{2}) = \frac{五}{罪 (五)} (ψ_{2} - 余弦 (五) ψ_{1})$ ,五=d日_法国(第页₁,第页₂). 借助微分几何中的这两个工具，我们可以在Ψ（SRD的表示空间）和T型_ψ(Ψ). 最后，我们定义了平行传输，它用于将切线向量从一个切线空间映射到另一个。我们在Ψ中使用沿测地线路径（大圆）的平行传输。对于ψ₁,ψ₂∈Ψ和向量 $δ ψ \in {T型}_{ψ_{1}} (Ψ)$ ，并行传输δψ从ψ₁到ψ₂沿着测地线的路径定义为 $δ ψ^{‖} = δ ψ_{ψ_{1} \to ψ_{2}} = δ ψ - \frac{2 〈 δ ψ, ψ_{2} 〉}{‖ ψ_{1} + ψ_{2} ‖} (ψ_{1} + ψ_{2})$ ，其中 $δ ψ^{‖} \in {T型}_{ψ_{2}} (Ψ)$ 。这定义了映射 $κ : {T型}_{ψ_{1}} (Ψ) \to {T型}_{ψ_{2}} (Ψ)$ 这样的话δψ^∥=κ(δψ). 并行传输的一个重要特性是映射κ是两个相切空间之间的等距，即δψ₁, $δ ψ_{2} \in {T型}_{ψ_{1}} (Ψ)$ , 〈δψ₁,δψ₂〉 = 〈κ(δψ₁),κ(δψ₂)〉.

3.基于α-分歧

我们的目标是综合使用散度测度的优点，该散度测度可以在由FR度量诱导的PDF空间的黎曼几何结构的贝叶斯模型中导致边际密度的上下限。为此，首先回顾一下雷尼的α-中的散度第3.1节，我们概述了第3.2节并制定相应的优化问题。在第3.3节，我们展示了如何使用α-与基于KLD的标准VB设置相比，散度提供了更严格的边缘密度下限，此外，还有一个上限。

3.1. 雷尼α-分歧

让我们考虑两个概率分布第页和q个在上d日-量纲集合 $Θ \subset ℝ^{d日}$ 然后α-发散D类_α(雷尼，1961年)为定义{α:α> 0,α≠1}由下式给出 ${D类}_{α} [第页 ‖ q个] = \frac{1}{α - 1} 自然对数 \int_{Θ} 第页 {(θ)}^{α} q个 {(θ)}^{1 - α} d日 θ$ 。全班同学α-发散具有以下性质：（1）D类_α[第页∥q个] ≥ 0, (2)D类_α[第页∥q个]=0时第页=q个a.e.和（3）D类_α[第页∥q个]相对于两者都是凸的第页和q个.尽管D类_α可以为任何α>0，某些特殊情况值得注意。特别地，D类_α通过两种方式连接到KLD：（1）lim_α→0 D类_α[第页∥q个] =吉隆坡(q个∥第页)和（2）lim_α→1 D类_α[第页∥q个] =吉隆坡(第页∥q个). 这些极限情况使用连续性定义D类_α(Van Erven和Harremos，2014年). 对于变分推理，VB试图最小化吉隆坡(q个∥第页)全球范围内，而EP试图最小化吉隆坡(第页∥q个)本地。另一个特例D类_α那是为了α=1/2，与上述FR指标密切相关。事实上，这是唯一的选择α，使PDF之间的距离适当。

3.2. 问题公式化

让 $x \in X（X）$ 表示观测数据和θ= (θ₁,θ₂, …,θ_d日) ∈Θ表示未知d日-尺寸参数，其中{Θ= (Θ₁, Θ₂, …, Θ_d日) :θ_我∈ Θ_我}. 让（f）(θ,x) =（f）(x|θ)π(θ)表示接头密度x和θ哪里（f）(x|θ)是似然函数π(θ)是上的优先分布θ后验分布由下式给出 $第页 (θ | x) = \frac{（f） (x, θ)}{米 (x)}$ 哪里米(x) = ∫_Θ （f）(x,θ)d日θ表示x有时也称为模型证据。实际上，计算后验值很困难，因为米(x)一般来说很难，尤其是在没有分析解决方案的情况下。在这种情况下，我们必须采用近似贝叶斯推理方法，如第1节为此，我们考虑一个基于D类_α，其中我们希望找到一个PDF来近似类的真实后验值全部的分解的联合PDF。

基于平均场近似，让 $问 = {q个 | q个 = \prod_{我 = 1}^{d日} {q个}_{我}}$ 用支持向量表示严格正概率密度类Θ含有独立边缘的。请注意 $问$ 是上的无限维PDF集Θ，而不是参数类。然后α-后元素和元素之间的分歧 $问$ 是

{D类}_{α} [第页 ‖ \prod_{我 = 1}^{d日} {q个}_{我}] = \frac{1}{α - 1} 自然对数 \int_{Θ} 第页 {(θ | x)}^{α} {(\prod_{我 = 1}^{d日} {q个}_{我} (θ_{我}))}^{1 - α} d日 θ, α > 0

注意，对于极限情况α→ 1,D类_α汇聚至KLD第页和q个即。， $\int_{Θ} 自然对数 (\frac{第页 (θ | x)}{q个 (θ)}) 第页 (θ | x) d日 θ$ 由于这种情况下的积分与计算上难以处理的后验密度有关第页，优化问题变得难以处理。因此，我们在设置中不考虑这种极限情况。

最小化D类_α结束 $问$ 由于两个原因并不简单：（1）非线性流形结构 $问$ ; （2）相应几何量的解析表达式不可用。为了利用概率密度空间的FR几何来最小化任务D类_α，我们使用中定义的SRD表示第2节相应地 $问_{ψ} = {ψ_{q个} | ψ_{q个} = \prod_{我 = 1}^{d日} ψ_{{q个}_{我}}}$ 由d日-折叠乘积空间Ψ_d日=SRD的Ψ×Ψ×↓×ψ。假设关节、边缘和后部的SRD表示为ψ_（f）,ψ_米和ψ_第页，并观察以下等价关系：

({q个}_{1}^{*}, {q个}_{2}^{*}, \dots, {q个}_{d日}^{*}) = \underset{问}{arg最小值} {D类}_{α} [第页 ‖ \prod_{我 = 1}^{d日} {q个}_{我}] = \underset{Ψ_{d日}}{arg最小值} \frac{1}{α - 1} \int_{Θ} ψ_{第页} {(θ | x)}^{2 α} {(\prod_{我 = 1}^{d日} ψ_{{q个}_{我}} (θ_{我}))}^{2 - 2 α} d日 θ = \underset{Ψ_{d日}}{arg最小值} \frac{1}{α - 1} \int_{Θ} ψ_{（f）} {(x, θ)}^{2 α} {(\prod_{我 = 1}^{d日} ψ_{{q个}_{我}} (θ_{我}))}^{2 - 2 α} d日 θ .

最后的平等来自于这样一个事实ψ_米(x)边缘的SRD米(x)，在中为常量θ此外，当α<1，因子(α− 1)⁻¹<0，因此最小化问题可以写成最大化问题。因此，我们可以转移定义在流形上的变分问题 $问$ 的PDFΘ到d日-折叠乘积空间Ψ_d日SRD的几何结构很容易理解。因此，我们定义了能量泛函 ${E类}_{α} (ψ_{q个}; θ) : Ψ_{d日} \to ℝ_{> 0}$ 对于给定元素 $ψ_{q个} = \prod_{我 = 1}^{d日} ψ_{{q个}_{我}}$ 的Ψ_d日作为

{E类}_{α} (ψ_{q个}; θ) : = \int_{Θ} ψ_{（f）} {(x, θ)}^{2 α} {(\prod_{我 = 1}^{d日} ψ_{{q个}_{我}} (θ_{我}))}^{2 - 2 α} d日 θ .

这个案子α如前所述，=1/2与概率密度空间上的固有FR黎曼度量相联系，因此是坐标不变的。这样做的一个方便的副产品是能量泛函具有一定的不变性。

提议1 考虑内射、可微坐标重配_我: Θ_我→ Θ_我 这样η_我=ϕ_我(θ_我)对于我来说= 1, …,d和 η= (η₁, …,η_d日).能量函数 ${E类}_{1 / 2} (ψ_{q个}; \cdot)$ 满足不变性

{E类}_{1 / 2} (ψ_{q个}; η) = {E类}_{1 / 2} (ψ_{q个}; θ) .

备注1 为了简单起见，坐标重新参数化被定义为Θ_我的确，_我 可以映射Θ_我 到另一个空间，但命题1的结果仍然有效_我 对于每个i都是内射的和可微的= 1, …,d.重要的是，很容易看出命题1只适用于α= 1/2关于勒贝格测度积分时；结果不适用于一般的重新参数化η_我=ϕ_我(θ₁, …,θ_d日)，我= 1, …,d，因为雅可比矩阵不再是对角的，雅可比行列式的相应行列式不能表示为微分的乘积.

对于一个将军α>0，我们将用于逼近后验的变分问题定义为

\underset{Ψ_{d日}}{arg最大值} {E类}_{α} (ψ_{q个}; \cdot) 如果 α \in (0, 1) 或 \underset{Ψ_{d日}}{arg最小值} {E类}_{α} (ψ_{q个}; \cdot) 如果 α \in (1, \infty) .

能量泛函的定义 ${E类}_{α}$ 区分了我们对空间上可供选择的变分公式的处理方法 $问$ 在一类距离或散度测度下：在我们的设置中，变分问题定义在Ψ上_d日，并且我们显式地合并并利用了Ψ的基本几何_d日最小化 ${E类}_{α}$ .

3.3. 边际密度的界限

使用的两个重要原因D类_α（而且不一定D类_1/2或KLD）为：

这导致边际密度的下限比KLD更紧。
它导致了边际密度的上限，这在KLD下是不可能的。

回想一下，在传统的基于KLD的VB设置下，可以最小化近似类成员之间的KLDq个和真正的后部第页:

({q个}_{1}^{* K（K） L（左）}, {q个}_{2}^{* K（K） L（左）}, \dots, {q个}_{d日}^{* K（K） L（左）}) = \underset{q个 \in 问}{arg最小值} \int_{Θ} 自然对数 (\frac{q个 (θ)}{第页 (θ | x)}) q个 (θ) d日 θ = \underset{q个 \in 问}{arg最大值} \int_{Θ} 自然对数 (\frac{第页 (θ | x)}{q个 (θ)}) q个 (θ) d日 θ = \underset{q个 \in 问}{arg最大值} \int_{Θ} 自然对数 (\frac{（f） (x, θ)}{q个 (θ)}) q个 (θ) d日 θ = : \underset{q个 \in 问}{arg最大值} H（H） (（f）, q个),

第三个等式再次来源于边际不依赖于θ因此，不是最小化吉隆坡(q个∥第页)，可以选择最大化 $H（H） (（f）, q个)$ 以获得原始优化问题的等效解。

对于一般的变分族（不一定是因式分解的族），为了便于与基于KLD的边际密度界限进行比较，我们在对数尺度上正式陈述了前面给出的两个结果。

提议2 以下不等式适用于边际m(x):

对于 $0 < α < 1 : H（H） (（f）, q个) \leq \frac{1}{α} 自然对数 {E类}_{α} (ψ_{q个}; \cdot) \leq 自然对数米 (x)$ 即D_α提供了比KLD更严格的边缘下限。
对于 $α > 1 : 自然对数米 (x) \leq \frac{1}{α} 自然对数 {E类}_{α} (ψ_{q个}; \cdot)$ 即D_α提供了边界的上限。

这一命题推动了基于D类_α此外，计算更紧下界和边缘上界的能力为近似贝叶斯统计推断提供了一种新的方法。例如，我们能够将贝叶斯因子（两个模型下两个边际密度的比率）上下绑定，为模型选择提供更好的证据。

4.通过梯度上升进行优化

能量泛函的定义 ${E类}_{α} : Ψ_{d日} \to ℝ_{> 0}$ 不需要几何工具或中定义的PDF的新表示空间第2节事实上 ${E类}_{α}$ 在Ψ上_d日独立于黎曼度量和相应的几何工具。然而，通过基于梯度的线性搜索算法确定 ${E类}_{α}$ 与Ψ的几何形状密不可分_d日通过Fréchet或方向导数。在不将近似密度类限制为参数族的情况下，我们将在FR框架下利用黎曼优化工具，并提出一种基于梯度的算法。在本节中，下标我= 1, …,d日索引与参数相关的数量θ_我.

切线空间 ${T型}_{ψ_{{q个}_{我}}} (Ψ) = {δ ψ_{{q个}_{我}} : Θ_{我} \to ℝ | \int_{Θ_{我}} δ ψ_{{q个}_{我}} (θ_{我}) ψ_{{q个}_{我}} (θ_{我}) d日 θ_{我} = 0}$ 在ψ_气∈Ψ是θ的平方积分函数的向量子空间_我到 $ℝ$ 。此空间由集合跨越 ${B类}_{我} = {{b条}_{我}^{k个}, k个 = 1, 2, \dots}$ 正交基函数的 $\int_{Θ_{我}} {b条}_{我}^{k个} (θ_{我}) ψ_{{q个}_{我}} (θ_{我}) d日 θ_{我} = 0 \forall k个$ .类Ψ的平均场近似_d日确保 ${E类}_{α}$ 可以计算其限制 ${E类}_{α | Ψ} : Ψ \to ℝ_{> 0}$ 至Ψ我= 1, …,d日切线空间的希尔伯特空间结构在这种计算中起着至关重要的作用。

提案3 对于每个i= 1, …,d、梯度 $\nabla {E类}_{α}^{我}$ 沿方向 ${b条}_{我}^{k个}$ 由提供:

\nabla {E类}_{α}^{我} = \sum_{k个 = 1}^{\infty} {D类}^{我} {E类}_{α} ({b条}_{我}^{k个}) {b条}_{我}^{k个} = 2 (1 - α) \sum_{k个 = 1}^{\infty} [\int_{Θ} ψ_{（f）} {(x, θ)}^{2 α} \prod_{j个 \neq 我} ψ_{{q个}_{j个}} {(θ_{j个})}^{2 - 2 α} ψ_{{q个}_{我}} {(θ_{我})}^{1 - 2 α} {b条}_{我}^{k个} (θ_{我}) d日 θ] {b条}_{我}^{k个} .

备注2 坡度 $\nabla {E类}_{α}^{我}$ 表示上升或下降方向，取决于α是小于还是大于1。为了统一这两种情况，我们使用 $| \nabla {E类}_{α}^{我} |$ 表示地图的值 $Θ_{我} ∋ θ_{我} \mapsto | \nabla {E类}_{α}^{我} ({b条}_{我}^{k个} (θ_{我})) | \in ℝ_{> 0}$ 在固定θ处_我.这确保了无论α的值如何，梯度始终代表上升方向.

我们使用空间Ψ的几何来定义适当的基集 ${B类}_{我}$ ,我= 1, …,d日。我们解释了此基础的构建θ_我∈[0,1]，并注意它很容易推广到一般紧支撑。为此，我们在均匀分布的SRD处使用切线空间u个_我在[0，1]上定义为 ${T型}_{ψ_{{u个}_{我}}} (Ψ) = {δ ψ_{{u个}_{我}} : [0, 1] \to ℝ | \int_{0}^{1} δ ψ_{{u个}_{我}} (θ_{我}) d日 θ_{我} = 0}$ 。我们定义了基础集 ${\tilde{B类}}_{我} = {罪 (2 π n个 θ_{我}), 余弦 (2 π n个 θ_{我}), 1 - θ_{我} | n个 \in ℤ_{+})}$ 。很容易验证此集合的所有元素与 $ψ_{{u个}_{我}}$ 然后使用Gram-Schmidt程序根据 ${L（左）}^{2}$ 要产生的度量 ${B类}_{我}$ .

上述构造仅导致正交基 ${T型}_{ψ_{{u个}_{我}}} (Ψ)$ ; 它可以通过并行传输扩展到Ψ的每个点(第2节). 并行传输的显式表达式确保了这一点的精确实现，并且在新点的切线空间中生成的基元是正交的，并且与表示空间保持正交。为了实际实现该算法，我们需要选择一个有限基集。我们让N个表示基函数的数量。这导致以下梯度上升算法用于优化 ${E类}_{α}$ 在Ψ上_d日（算法1）。

该算法的一个关键方面是指数映射的显式表达式的可用性，这确保我们保持在SRD空间中。我们的方法是分别更新每个ψ_气每次迭代直到收敛。由于这是一种基于梯度的方法，我们不一定能得到全局解决方案。有很多方法可以初始化算法。然而，通过仿真，我们发现初始化对于收敛并没有起到关键作用。在相关工作中，明卡（2005）定义的优化算法D类_α，但假设近似类是指数族。提出的几何方法更通用。

保存图片、插图等的外部文件。对象名为nihms-1572322-f0001.jpg

4.1. 步长的选择和梯度的近似

算法在Ψ上的性能_d日=Ψ×Ψ×Ψ由其对单个Ψ的性能决定。梯度的计算 $\nabla {E类}_{α}^{我}$ 以及步长的选择ϵ对于算法有效地探索Ψ至关重要。对于有限维优化问题，通过所谓的Wolfe条件给出了指导其选择的最优解的存在性。

提出的上升算法定义在无限维流形上；相应的Wolfe条件可以根据函数定义 ${\tilde{E类}}_{α}^{我} : {T型}_{ψ_{{q个}_{我}}} (Ψ) \to ℝ_{> 0}$ 具有 ${\tilde{E类}}_{α}^{我} (五_{我}) = {E类}_{α}^{我} \circ 经验 (五_{我})$ 对于切线向量五_我。请注意 ${\tilde{E类}}_{α}^{我}$ 现在是双重空间的一个元素 ${T型}_{ψ_{{q个}_{我}}} (Ψ)$ ，它是的线性子空间 ${L（左）}^{2} (Θ_{我})$ .对于给定的上升方向 $五_{我} \in {T型}_{ψ_{{q个}_{我}}} (Ψ)$ ，相应的（弱）Wolfe条件，指定步长选择指南ϵ由提供(Ring and Wirth，2012年):

{\tilde{E类}}_{α}^{我} (ϵ 五_{我}) \geq {E类}_{α}^{我} (ψ_{{q个}_{我}}) + c_{1} ϵ {D类}^{我} {E类}_{α} (五_{我}) 和 {D类}^{我} {\tilde{E类}}_{α}^{我} (ϵ 五_{我}) {D类}^{我} 经验 (ϵ 五_{我}) 五_{我} \leq c_{2} {D类}^{我} {E类}_{α} (五_{我}),

(1)

哪里D类^我经验(ϵv_我)是指数映射的导数 $五_{我} \in {T型}_{ψ_{{q个}_{我}}} (Ψ)$ , ${D类}^{我} {\tilde{E类}}_{α}^{我} (ϵ 五_{我})$ 是的方向导数 ${\tilde{E类}}_{α | Ψ}$ ，的限制 ${\tilde{E类}}_{α}$ 至Ψ，和0<c₁<c₂< 1. 对于无限维流形上的给定算法ϵ令人满意的方程式1存在。以下结果澄清了拟议方法的这一点。

提案4 对于上升方向 $五_{我} \in {T型}_{ψ_{{q个}_{我}}} (Ψ)$ ,满足Wolfe条件的 方程式1 存在.

计算梯度时遇到的一个重要问题是计算d日-维度的Θ.而平均场近似ψ_q个帮助，（方圆）接头密度的存在ψ_（f）(x,θ)在被积体中使事情复杂化。我们使用中提出的多元积分的嵌套一元一阶泰勒近似奥尔森和魏斯菲尔德（1991），这将多变量积分简化为单变量积分的函数。简言之，近似方法的基础如下。让年是随机变量E类(年) =μ。假设我们有兴趣评估E类(克(年))对于平滑函数克.的一阶泰勒展开克围绕μ是克(年) =克(μ)+克′(μ)(年−μ)+O（运行）_第页(年−μ)².考虑到双方的期望，我们获得E类(克(年)) =克(μ)+0+O（运行）(V（V）(年)). 因此，E类(克(年))近似于克(μ).

对于d日-维度的θ，考虑近似值E类(克(θ)) =∫_Θ 克(θ)（f）(θ)d日θ。使用上述参数，E类(克(θ))可以表示为：

E类 (克 (θ)) = \int_{θ_{d日}} [\int_{θ_{1} \times θ_{2} \times \dots \times θ_{d日 - 1}} 克 (θ_{1}, θ_{2}, \dots, θ_{d日}) （f） (θ_{1}, θ_{2}, \dots, θ_{d日 - 1} | θ_{d日}) d日 θ_{1} d日 θ_{2} \dots d日 θ_{d日 - 1}] （f） (θ_{d日}) d日 θ_{d日} = {E类}_{θ_{d日}} [\int_{θ_{1} \times θ_{2} \times \dots \times θ_{d日 - 1}} 克 (θ_{1}, θ_{2}, \dots, θ_{d日}) （f） (θ_{1}, θ_{2}, \dots, θ_{d日 - 1} | θ_{d日}) d日 θ_{1} d日 θ_{2} \dots d日 θ_{d日 - 1}],

哪里（f）(θ₁, θ₂, …,θ_d日−1|θ_d日)是的密度(θ₁,θ₂, …,θ_d日−1)有条件的θ_d日、和 ${E类}_{θ_{d日}}$ 表示对以下方面的期望θ_d日.让 $μ_{d日} = {E类}_{θ_{d日}} (θ_{d日}) = \int_{θ_{d日}} θ_{d日} （f） (θ_{d日}) d日 θ_{d日}$ 。我们使用一阶泰勒展开来近似上述关于 $μ_{d日} : E类 (克 (θ)) \approx \int_{θ_{1} \times θ_{2} \times \dots \times θ_{d日 - 1}} 克 (θ_{1}, θ_{2}, \dots, θ_{d日 - 1}, μ_{d日}) （f） (θ_{1}, θ_{2}, \dots, θ_{d日 - 1} | μ_{d日}) d日 θ_{1} d日 θ_{2} \dots d日 θ_{d日 - 1}$ 。我们可以继续重复上述近似技术，直到获得一元积分 $E类 (克 (θ)) \approx \int_{θ_{1}} 克 (θ_{1}, μ_{2 | 三, \dots, d日}, μ_{三 | 4, \dots, d日}, \dots, μ_{d日}) （f） (θ_{1} | μ_{2 | 三, \dots, d日}, μ_{三 | 4, \dots, d日}, \dots, μ_{d日}) d日 θ_{1}$ ，其中μ_{j个|j个+1, …,d日}是的条件期望θ_j个|θ_j个+1, …,θ_d日,j个= 2, …,d日− 1.

考虑梯度的表达式 $\nabla {E类}_{α}^{我}$ 记住，在我们的设置中，接缝密度为q个= Π_j个 q个_j个，应用上述近似，我们可以将梯度表达式中的积分改写为

\int_{Θ_{d日}} \dots \int_{Θ_{2}} \int_{Θ_{1}} \frac{ψ_{（f）} {(x, θ_{1}, θ_{2}, \dots, θ_{d日})}^{2 α}}{\prod_{j个 \neq 我} ψ_{{q个}_{j个}} {(θ_{j个})}^{2 α}} \prod_{j个 \neq 我} {q个}_{j个} (θ_{j个}) ψ_{{q个}_{我}} {(θ_{我})}^{1 - 2 α} {b条}_{我}^{k个} (θ_{我}) d日 θ_{1} d日 θ_{2} \dots d日 θ_{d日},

(2)

自从 ${q个}_{j个} (θ_{j个}) = ψ_{{q个}_{j个}}^{2} (θ_{j个})$ 。我们首先计算期望值 $μ_{j个} = \int_{Θ_{j个}} θ_{j个} {q个}_{j个} (θ_{j个}) d日 θ_{j个}$ , ∀j个≠我然后，我们使用这些期望值将高维积分重新定义为由以下公式给出的一维积分

\int_{Θ_{我}} \frac{ψ_{（f）} {(x, μ_{- 我}, θ_{我})}^{2 α}}{\prod_{j个 \neq 我} ψ_{{q个}_{j个}} {(μ_{j个})}^{2 α}} ψ_{{q个}_{我}} {(θ_{我})}^{1 - 2 α} {b条}_{我}^{k个} (θ_{我}) d日 θ_{我},

哪里μ_−我表示所有μ除了μ_我我们使用相同的一阶泰勒展开技术来近似命题2中定义的边际密度的界。

5.仿真和实际数据示例

在本节中，我们给出了几个验证所提框架的示例。在第一个示例中，我们考虑了后验分布为双变量的正态伽马共轭模型的模拟研究。由于在这种情况下边缘密度的真实值是已知的，我们可以比较给定数据集的边缘x然后，我们在贝叶斯多元线性回归和使用logistic Gaussian过程先验的贝叶斯密度估计的背景下评估我们方法的性能。我们考虑的最后一个模型是逻辑回归。在这种情况下，我们将我们的方法的分类性能与各种其他技术进行了比较。最后，我们考虑了一个使用新的基于形状的签名描述符的真实签名验证实验。

5.1. 低维仿真研究

我们考虑以下层次模型： $x | μ, τ \overset{我我 d日}{~} N个 (μ, τ^{- 1}), μ | τ ~ N个 (0, τ^{- 1}), τ ~ G公司一 (0.01, 0.01)$ 。由于这种情况下的后验值是二元的，我们可以使用“基本真理”来评估所提出的方法。此外，我们可以比较使用我们的方法计算的估计边际和在KLD下计算的边际。如前所述，基于平均场近似，我们假设后验分布因式分解：q个(μ,τ) =q个(μ)q个(τ). 很容易看出，在基于KLD的VB下μ是 ${q个}^{* K（K） L（左）} (μ) = N个 (μ_{0}^{*}, λ_{0}^{* - 1})$ ，以及τ是q个*^吉隆坡(τ) =镓(一*,b条*). 因此，每次迭代只需要更新这两个分布的参数。更新由提供 $μ_{0}^{*} = \frac{n个 \bar{x}}{1 + n个}, λ_{0}^{*} = (1 + n个) \int_{ℝ_{> 0}} τ q个 (τ) d日 τ, 一^{*} = 0.01 + \frac{n个 + 1}{2}$ 和 ${b条}^{*} = 0.01 + \frac{1}{2} \int_{ℝ} (2 μ^{2} + {(\sum_{我 = 1}^{n个} x_{我})}^{2} - 2 μ \sum_{我 = 1}^{n个} x_{我}) q个 (μ) d日 μ$ ，其中n个是样本量和 $\bar{x}$ 是样本均值。在提出的算法中，我们只使用了99个基本元素来证明我们的方法的有效性。多个仿真研究表明，增加基元的数量可以获得更好的后验近似。

我们比较了三种不同的方法：基于KLD的VB（KLD）、使用数值积分（PM）计算梯度的拟议方法，以及使用所述近似计算梯度的提议方法第4.1节（PMA）。使用命题2(LB（磅）_颗粒物,LB（磅）_吉隆坡)和上部(UB公司_颗粒物)在这种情况下，边界可以精确计算，因为它只涉及二维积分。为了证明所提出的一阶积分近似技术在这个低维研究中的效率，我们计算了(LB（磅）_{项目管理局})和上部(UB公司_{项目管理局})使用中描述的近似值的方法的边界第4.1节也。对三个模拟数据集进行评估，如所示图1。对于每个模拟，我们都使用α=0.9，对于下限（LB）和α=1.1，用于边缘上的上限（UB）。图1显示了使用上述技术的真实后验和其他后验近似的轮廓图的比较。对于所有图像，真实后验图用红色绘制，KLD解用绿色绘制。顶行包含基于所提方法的后验近似，而不包含积分近似，其中LB（磅）_颗粒物和UB公司_颗粒物分别以蓝色和黑色绘制。最下面一行包含用积分近似计算的相同结果，其中LB（磅）_{项目管理局}和UB公司_{项目管理局}分别以青色和洋红色绘制。

保存图片、插图等的外部文件。对象名称为nihms-1572322-f0002.jpg

在单独的窗口中打开

图1：

三个不同模拟数据集的近似后验和真实后验的等值线图。LB=下限，UB=上限，PM=建议方法，KLD=Kullback-Leibler散度，PMA=具有近似积分的建议方法。将所有值与最佳值1进行比较。

为了改进表示并便于不同模拟之间的比较，我们重新调整了边界值，使最佳值为1。在所有情况下，不同的后验近似值都非常接近真实后验值，尤其是当样本量较大时。我们还注意到，使用PM和PMA计算的边际LB始终比KLD更紧。此外，PM/PMA的主要优点是它还可以计算边际上的UB。面板（c）表明，与KLD相比，所提出的方法在估计尾部尾部方面更好。表1显示了所提方法在统计推断中的实用性。这里，我们使用第一个数据集(图1（a）). 首先，我们报告了两个参数的后验均值的LB和UBμ和τ其次，我们计算贝叶斯因子的LB和UB，其中模型(1)使用N个(0,τ⁻¹)先前版本和模型(2)使用N个(2,τ⁻¹)之前。我们注意到，后验均值和贝叶斯因子的界非常紧。事实上，边界之间的差异小于1×10⁻⁵在后验均值情况下。此外，贝叶斯因子表明(1)（先验平均值为0）优于模型(2)，这与我们的预期相符（因为数据是从N个(0, 1)). 这些结果表明，当扩展到更高维和更复杂的贝叶斯模型时，该方法具有良好的前景。

表1：

贝叶斯因子的下界（LB）和上界（UB）以及μ和τ.

的后均值μ		后验平均值τ		贝叶斯因子
LB（磅）_颗粒物	UB公司_颗粒物	LB（磅）_颗粒物	UB公司_颗粒物	LB（磅）_颗粒物	UB公司_颗粒物
−0.0480	−0.0480	1.0195	1.0205	7.9505	7.9664
LB（磅）_{项目管理局}	UB公司_{项目管理局}	LB（磅）_{项目管理局}	UB公司_{项目管理局}	LB（磅）_{项目管理局}	UB公司_{项目管理局}
−0.0481	−0.0480	1.0192	1.0208	7.9472	7.9697

在单独的窗口中打开

5.2. 贝叶斯线性回归

在本节中，我们将所提出的方法应用于贝叶斯线性回归模型。让年= (年₁,年₂, …,年_n个)成为n个-表示连续响应变量的维向量，其中n个是观察数。让X（X）成为n个×d日矩阵，其中d日是协变量的数量，让β成为d日-回归参数的维数系数向量。使用矩阵表示法，线性回归模型可以写成年=X（X）β+e（电子），其中e（电子）~N个(0,σ²我_n个). 对于贝叶斯推断，我们假设所有未知回归参数的先验分布都是模糊独立的高斯分布， $β ~ N个 (0, 秒_{0}^{2} 我_{d日})$ 。真实的后验分布可以很容易地确定，并由以下公式给出：

β | 年 ~ N个 (\frac{1}{σ^{2}} {(\frac{1}{σ^{2}} {X（X）}^{'} X（X） + \frac{1}{秒_{0}^{2}} 我_{d日})}^{- 1} {X（X）}^{'} Y（Y）, {(\frac{1}{σ^{2}} {X（X）}^{'} X（X） + \frac{1}{秒_{0}^{2}} 我_{d日})}^{- 1}) .

为了评估我们方法的性能，我们使用具有不同数量协变量的模拟研究，并估计q个_我s用于各种选择α。对于的每个值d日，我们生成设计矩阵X（X）以及回归系数β从连续均匀分布，U型(−1, 1). 然后，我们继续使用不同的技术估计未知的回归系数。根据提议D类_α-基于方法的估计后验q个(β)是所有 ${q个}_{我} 秒, q个 (β) = \prod_{我 = 1}^{d日} {q个}_{我} (β_{我})$ ，并使用对应于每个回归系数的后验均值评估估计的个体回归系数q个_我。我们将我们的方法与简单的吉布斯采样算法进行了比较d日，并使用适当老化后的后验样本平均值估计系数。为了解释随机生成的数据集和回归系数的变化，我们重复了每项研究代表次。由于真实后验值已知，我们计算了估计器之间的均方误差（MSE） $\hat{β}$ 和真正的价值 $β_{μ} : M（M） S公司 E类 = \frac{1}{第页 e（电子）第页} \frac{1}{d日} \sum_{k个 = 1}^{第页 e（电子）第页} \sum_{我 = 1}^{d日} {({\hat{β}}_{第页 e（电子）第页}^{我} - β_{μ 第页 e（电子）第页}^{我})}^{2}$ .

表2报告结果。对于以下各项的每一项选择d日，使用该方法获得的估计回归参数导致非常小的MSE。虽然Gibbs采样器的迭代次数和老化次数相当大，但它仍然会导致MSE高于D类_α-基于的方法。此外，为了评估我们的方法在高维环境中的效率，我们用d日=500个协变量和n个=1000个观察值。使用建议方法获得的MSEα=0.5为4.9336×10⁻⁷这表明它在高维设置中的实用性。

表2：

吉布斯采样器和D类_α-基于VBα= 0.5, 0.9, 1.1.d日：未知回归参数的数量，n个：样本大小，代表：每个选项的模拟数据集数量d日和n个,σ²= 1, $秒_{0}^{2} = 100^{2}$ .

	d日= 25	d日= 50	d日= 100	d日= 200
	n个= 100	n个= 100	n个= 500	n个= 500
	代表= 100	代表= 100	代表= 50	代表= 25
吉布斯采样 (iter/老化)	7.4368e-07年7月 (50000/20000)	2.7044e-06 (50000/20000)	1.0359e-07号 (60000/25000)	2.7866e-07号 (60000/25000)
α= 0.5	2.8065e-11号	3.9600至10	9.4248e-12段	4.3790至09
α= 0.9	1023e-11日	9.5112e-10号	3.9182e-11号	1.8072e-08
α= 1.1	1.6681e-10	2017年8月9日	9.9131e-11号	4.5736e-08号

在单独的窗口中打开

对于贝叶斯线性回归设置，真实边际也可用闭合形式表示：年~N个(0,σ²我_n个+秒₀²X（X）′X（X）). 我们使用命题2计算边缘对数的界限。用于评估中的高维积分 $H（H） (（f）, q个)$ 和 ${E类}_{α} (ψ_{q个}; \cdot)$ 用于基于KLD的VB和D类_α-分别基于VB，我们使用了所提出的一阶泰勒近似技术。让LB（磅）_KLDA公司表示使用基于KLD的VB框架获得的下限，以及LB（磅）_{项目管理局}和UB公司_{项目管理局}表示使用建议的方法获得的上下限α=0.9和α分别=1.1（这些界限再次使用中讨论的方法计算第4.1节).表3报告的不同选择的结果d日和n个在所有情况下，PMA下限都比KLDA下限更紧，在以下情况下差异最大d日PMA提供的上限也接近对数边缘的真实值。可以使用上下限的平均值作为真实值的估计值。

表3：

使用KLD-和D类_α-基于VB。

d日	n个	LB（磅）_KLDA公司	LB（磅）_{项目管理局} α= 0.9	UB公司_{项目管理局} α= 1.1	真对数边际
三	10	−27.5491	−27.5481	−27.2727	−27.5285
5	20	−54.2927	−54.2899	−53.6364	−54.0821
20	100	−273.5986	−273.5864	−272.7273	−273.0204
20	200	−425.8311	−425.7470	−425.4545	−425.8824
50	250	−695.2683	−695.2685	−694.5455	−694.8856

在单独的窗口中打开

最后，在图2，我们报告了基于估计值的95%等尾后验可信区间q个_我s使用建议的方法α= 0.5. 对于第一个示例(d日= 50,n个=100），我们还绘制了真实的后验可信区间。这个x-轴表示回归参数编号年-轴表示参数的值。在所有情况下，使用所提出的方法计算的区间都能很好地捕捉真实回归系数的值，包括第二个例子(d日= 100,n个=500），其中由于样本量较大，间隔变小。在的左侧面板中图2，使用该方法计算的可信区间与真实的后验可信区间显著重叠。与真实间隔相比，基于所建议方法的间隔长度通常较短，尽管不是非常短。这是意料之中的，因为VB方法往往低估了后验变异性(Blei等人，2017年).

保存图片、插图等的外部文件。对象名为nihms-1572322-f0003.jpg

在单独的窗口中打开

图2：

平均95%后验可信区间α= 0.5.

5.3. 贝叶斯密度估计

Logistic Gaussian过程（LGP）先验(莱纳德，1978年)已被有效地用作贝叶斯非参数密度估计的灵活工具。该模型的理论性质已被广泛研究(Tokdar和Ghosh，2007年;范德法特和范赞滕，2009年). 此外，在中提出了使用拉普拉斯方法进行LGP密度估计和回归的快速近似Riihimäki和Vehtari（2014）。由于出现在似然函数中的积分项，使用LGP先验获得的后验分布在分析上很难处理。在继续说明如何在这种情况下使用建议的方法之前，我们简要回顾了LGP模型。

让x₁,x₂, …,x_n个表示大小的随机样本n个从未知的单变量密度函数中提取，（f）.让 $X（X）$ 表示分布的支持。估计（f），我们使用logistic密度变换(莱纳德，1978年) $（f） (x) = {e（电子）}^{克 (x)} / \int_{X（X）} {e（电子）}^{克 (x)} d日 x$ ，其中克是一个无约束函数。因此，估计未知密度函数的问题（f）简化为估计函数克。此转换非常有用，因为它为（f）成为有效的pdf：（f）(x)>0和 $\int_{X（X）} （f） (x) d日 x = 1$ .估计功能克，我们使用基展开模型，即。， $克 (x) = \sum_{我 = 1}^{d日} c_{我} {b条}_{我} (x)$ ，其中c_我s是基本系数，b条_我s是基函数，并且d日表示用于估计的基函数数克.我们将非信息高斯先验π_我关于未知系数： $c_{我} ~ N个 (0, 秒_{0}^{2})$ , ∀我= 1, …,d日.让x= (x₁, …,x_n个)和c= (c₁, …,c_d日). 然后可以将接头密度函数写为 $（f） (x, c) = \prod_{j个 = 1}^{n个} （f） (x_{j个} | c) \prod_{我 = 1}^{d日} π_{我} (c_{我})$ ，其中 $（f） (x_{j个} | c) = \frac{经验 {\sum_{我 = 1}^{d日} c_{我} {b条}_{我} (x_{j个})}}{\int_{X（X）} 经验 {\sum_{我 = 1}^{d日} c_{我} {b条}_{我} (x_{j个})} d日 x}$ .

然后，我们使用建议的方法来近似后验第页(c|x)使用q个(c)，其中 $q个 (c) = \prod_{我 = 1}^{d日} {q个}_{我} (c_{我})$ .对每个系数的后验分布进行一次近似c_我计算后验均值， ${\hat{c}}_{我}$ , ∀我= 1, …,d日。估计密度函数的表达式最终由下式给出： $\hat{（f）} (x) = \frac{经验 {\sum_{我 = 1}^{d日} {\hat{c}}_{我} {b条}_{我} (x)}}{\int_{X（X）} 经验 {\sum_{我 = 1}^{d日} {\hat{c}}_{我} {b条}_{我} (x)} d日 x}$ .

为了验证我们估计密度函数的方法的效率，我们进行了几项模拟研究。根据每种情况下的真实潜在分布生成随机样本，并使用与样本对应的直方图表示数据。在本节的所有图中，我们用红色绘制真实密度函数，用蓝色绘制估计密度函数。基于随机样本，我们还以黑色绘制了核密度估计值，以直观地比较两种估计技术。的价值α对于中的建议方法图3和和44被选为0.5。在可用于估计函数的基函数的多种选择中克，我们使用四阶B样条进行所有的模拟研究；我们还发现傅里叶基提供了可比较的结果。一组MATLAB代码文件，由Ramsay等人（2009年）可供下载，并用于生成所有示例的基本函数。

保存图片、插图等的外部文件。对象名为nihms-1572322-f0004.jpg

在单独的窗口中打开

图3：

各种密度函数的贝叶斯密度估计。模拟数据显示为直方图，并带有真实密度图（红色），密度估计使用建议的方法α=0.5（蓝色），核密度估计值（黑色）。

保存图片、插图等的外部文件。对象名为nihms-1572322-f0005.jpg

在单独的窗口中打开

图4：

增加基本元素数量对密度估计的影响。数据是从N（0，1）生成的。

首先，我们从各种分布中生成了数据集，这些数据集表现出不同的特征，如图3.第三排图3显示了左面板和右面板中分别由Gamma分布和Beta分布生成的两个绘图。在本例中实现我们的密度估计算法时，我们将密度估计的下限设置为0，因为Gamma分布的支持度为（0，∞）。类似地，由于Beta分布的支持，即[0，1]，我们将下限和上限分别设置为0和1。实际上，分销的支持可能是未知的；因此，在最后一个面板中，我们显示了相同的结果，但没有使用关于真实密度支持的信息。在所有情况下，与标准的核密度估计相比，该方法都表现得很好。

图4显示了增加用于建模的B样条基函数数量的效果克.基函数的数量，d日，用于估计密度对最终估计有很大影响，其行为类似于核密度估计中的带宽参数。随着我们增加d日结果估计的平滑度降低，我们往往会对数据进行过拟合。

5.4. 实际数据应用中的贝叶斯逻辑回归

我们使用贝叶斯逻辑回归模型检验了所提方法在二进制分类问题上的性能。我们的选择是因为这是一个非共轭模型，不适合带有共轭更新的VB设置。雅克科拉和约旦（1997年）考虑了此类模型的变分方法，并将其推广到二元信念网络。我们表明，所提出的基于几何的方法的性能与其他近似方法相当，在某些情况下甚至更好。

首先，我们简要描述了该问题以及基于D类_α框架。让X（X）成为d日×n个矩阵，其中d日是协变量（特征）的数量n个是观察值（案例）的数量。此外，让θ成为d日-尺寸系数向量和年成为n个-与观测值相对应的类标签的维向量。类标签采用{−1，1}中的二进制值。在这种设置下，逻辑回归模型如下所示P（P）(年|X（X）,θ) =克(θ^T型 X（X）)用于类标签年=1，和P（P）(年|X（X）,θ) =克(−θ^T型 X（X）)用于类标签年=−1，其中 $克 (第页) = \frac{e（电子） x 第页 (第页)}{1 + e（电子） x 第页 (第页)}$ 我们的最终目标是θ未知系数向量。在此设置中，我们再次假设所有未知参数的模糊独立高斯先验，方法与第5.2节。由于此设置下的后置表达式没有闭合形式，因此我们使用 $q个 (θ) = \prod_{我 = 1}^{d日} {q个}_{我} (θ_{我})$ 通过所提出的变分方法。最后，为了进行分类，我们需要计算概率P（P）(年|X（X）,θ). 在这种情况下，可以根据后部的不同特征进行各种选择；我们计算了以下总结：最大后验概率（MAP）、后验平均值（PMEA）、后正中值（PMED）和后验预测值（PPRED）。如果最优准则被选择为KLD而不是D类_α，我们仍然可以使用所提出的基于梯度的算法来近似后验。因此，所有上述总结（KLMAP、KLPMEA、KLPME D和KLPPRED）也可以使用标准KLD VB框架的建议算法获得。我们使用这种方法与D类_α并且根据每种方法的准确度（以%为单位）来呈现分类结果。

对于下面的两个示例，我们使用训练集来近似系数向量的后验分布。然后，我们分别使用上述四个摘要来预测测试数据集中的二进制类标签，并评估分类精度。我们为二进制分割选择一个阈值，该阈值基于训练集中的后验预测使训练错误率最小化。如果预测概率大于截止值，则设置年=1，和年否则=-1。此外，我们还基于测试集计算了平均对数预测似然（ALPL）。根据测试集的观察结果，我们计算 $日志 P（P） (年 | X（X）, \hat{θ})$ 基于二进制类标签的值年，其中 $\hat{θ}$ 是上面考虑的后面总结之一。较高的似然值表示模型更适合。

在第一个示例中，我们使用标准基准数据集将使用所建议方法获得的分类结果与许多其他方法进行比较。此外，我们使用所提出的方法计算数据边缘密度的界。在第二个示例中，我们将我们的方法应用于签名验证问题。我们首先定义了一组新的基于形状的描述符，然后将它们用作二进制真假分类问题的特征。

5.4.1. 电离层数据

电离层数据集(Sigillito等人，1989年)是一个标准的二进制分类基准，我们从UCI机器学习库中获得(Dheeru和Karra Taniskidou，2017年). 该数据包含34个预测器，对应于雷达接收到的信号脉冲数。我们删除了第二个预测值，因为它在所有情况下都为零。二进制类标签对应于良好(年=1）或不良(年=−1）雷达返回。良好的雷达回波被定义为显示电离层中某种类型结构的回波。共有351个观察值，没有缺失值。

为了进行分类，我们将整个数据集分为200个训练和151个测试用例。我们使用的拆分与上报告的相同网址：http://www.is.umk.pl/~duch/projects/projects/datasets.html#电离层这种划分非常不平衡：在训练集中，两个班的规模分别为101（50.5%）和99（49.5%），而在测试集中，规模分别为124（82%）和27（18%）。该网站还提供了针对不同分类方法的同一培训测试划分的分类结果。我们使用了上面列出的四个摘要D类_α（带有α=0.9）和基于KLD的VB，以计算分类率。在这两种情况下，我们使用499个基本元素来近似能量梯度。表4显示了结果。所提出的方法在分类精度和ALPL方面都明显优于基于KLD的VB方法。我们还可以将我们的结果与前面提到的网页上列出的结果进行比较。在总共23种方法中，该方法有6种错误分类，排名第五。

表4：

电离层数据集的分类结果。

	地图	PMEA公司	PMED公司	PPRED（PPRED）	KLMAP公司	KLPMEA公司	KLPMED公司	KLPPRED公司
准确度（%）	96	96	96	96	94.04	94.70	94.70	94.70
ALPL公司	−0.1980	−0.1879	−0.1979	−0.1883	−0.2217	−0.1886	−0.2042	−0.1895

在单独的窗口中打开

贝叶斯逻辑回归设置的边际分布在闭合形式中不可用。但是，使用与中讨论的相同的技术第5.2节，我们可以找到边缘对数的界限。用于使用计算边界D类_α-基于VB，我们选择α=0.9和α上下限分别为1.1。使用基于KLD的VB获得的下限为−459.5。使用所提出的方法，下限为−456.7，上限为−448.2。

5.4.2. 签名验证应用

在本节中，我们考虑签名验证问题。这里使用的数据是SVC 2004签名数据集的子集(Yeung等人，2004年)，由40个不同的签名组成，每个签名由一条平面开放曲线表示。对于每个签名，提供20个真实的书写样本和20个熟练的伪造品。我们将数据随机分为一半训练和一半测试。我们建议将新的基于形状的签名描述符与所提出的变分贝叶斯框架结合使用来解决这个二进制分类问题。图5展示了四对真假签名。伪造品极难与正品样品区分开来，这是一个很难分类的问题。

保存图片、插图等的外部文件。对象名为nihms-1572322-f0006.jpg

在单独的窗口中打开

图5：

（a）真实签名和（b）伪造签名的三个例子。

为了形成分类描述符，我们使用弹性形状分析方法Srivastava等人（2011年），它提供了用于注册、比较和平均曲线形状的工具。让 $β : [0, 1] \to ℝ^{2}$ 表示一条平面的、开放的、参数化的签名曲线。为了分析它的形状，β由一个称为平方速度函数（SRVF）的特殊函数表示 $q个 : [0, 1] \to ℝ^{2}$ ，定义为 $q个 (t吨) = \dot{β} (t吨) | \dot{β} (t吨) |^{- 1 / 2}$ ，其中 $\dot{β} = \frac{d日}{d日 t吨} β$ 而|·|是 $ℝ^{2}$ 。因为SRVF是使用β，它对翻译是自动不变的；相反，β可以从中重建q个直到翻译。为了实现缩放不变性，每个签名曲线都被重新缩放到单位长度。因为形状是一个对旋转和重新参数化不变的量，除了平移和缩放之外，这些变量也必须从表示空间中删除。这是使用等价类代数实现的。让SO公司（2）是2×2旋转矩阵的群（特殊正交群），Γ是所有重参数化的群（[0,1]的保方向微分同态）。对于曲线β，一个旋转O（运行）∈SO公司（2）和重新参数化γ∈Γ，变换后的曲线由下式给出O（运行）(β∘γ). 变换曲线的SRVF由下式给出 $O（运行） (q个 \circ γ) \sqrt{\dot{γ}}$ 。使用它，可以定义类型的等价类 $[q个] = {O（运行） (q个 \circ γ) \sqrt{\dot{γ}} | O（运行） \in S公司 O（运行） (2), γ \in Γ}$ .每个此类等价类[q个]与一个独特的形状和副视相联系。考虑两条签名曲线β₁和β₂由其SRVF代表q个₁和q个₂为了比较它们的等价类[q个₁]和[q个₂]，修复q个₁并找到的最佳旋转和重新参数化q个₂通过求解

({O（运行）}^{*}, γ^{*}) = \underset{O（运行） \in S公司 O（运行） (2), γ \in Γ}{arg最小值} ‖ {q个}_{1} - O（运行） ({q个}_{2} \circ γ) \sqrt{\dot{γ}} ‖^{2} .

(3)

此过程以最佳方式注册这两个形状。使用Procrustes分析对旋转组进行最小化。对重新参数化组的优化需要动态编程算法。在这个框架中，人们还可以使用Karcher平均值（平方距离总和的最小值）计算平均形状。

为了形成签名形状描述符，我们首先分别计算真假训练集的平均形状。接下来，我们使用方程式3。对于每个签名，这会产生两条不同的曲线 $β_{克 e（电子） n个}^{*} = {O（运行）}_{克 e（电子） n个}^{*} (β \circ γ_{克 e（电子） n个}^{*})$ 和 $β_{（f） o（o）第页}^{*} = {O（运行）}_{（f） o（o）第页}^{*} (β \circ γ_{（f） o（o）第页}^{*})$ 然后，我们计算速度函数（切向速度的大小），定义为 ${S公司}_{克 e（电子） n个} (t吨) = | {\dot{β}}_{克 e（电子） n个}^{*} (t吨) |$ 和 ${S公司}_{（f） o（o）第页} (t吨) = | {\dot{β}}_{（f） o（o）第页}^{*} (t吨) |$ 并将它们连接起来。用100个点对原始签名曲线进行采样，得到200个签名形状描述符。

对于每种类型的签名，我们使用所提出的变分方法，使用训练集来近似logistic回归模型参数的后验分布。我们使用99个基本元素来近似能量梯度α= 0.9. 与之前一样，我们使用近似后验的摘要来计算分类性能。所有测试签名（共800个）的平均结果如下所示表5注意，所提出的基于形状的签名描述符在这项签名验证任务中表现非常好，无论是在准确性还是ALPL方面。由于在这种情况下，训练集和测试集的划分是非常平衡的，因此我们还提供了使用经验阈值0.5获得的分类结果。有趣的是，这种截断选择比基于后验预测的最小训练误差截断获得的结果要好。总的来说，该方法在该应用中非常成功。

表5：

对于两种方法，签名数据集的分类结果平均超过40种不同的签名类型。（a）最小训练误差截止值和（b）经验0.5截止值。

		地图	设备设备	PMED公司	PPRED（PPRED）
准确度（%）	（a）	100	91	96.5	83.3
准确度（%）	（b）	100	99.8	99.6	99.8
ALPL公司		−2.8848e-07	−0.0075	−0.0115	−0.0178

在单独的窗口中打开

6.讨论

在不同的环境中，包括微分密度匹配，已经证明了Fisher–Rao黎曼几何用于PDF分析Bauer等人（2015），通过最佳信息传输进行随机采样Bauer等人（2017）贝叶斯模型中的敏感性分析Kurtek和Bharath（2015）和计算机视觉Srivastava等人（2007年）统一的度量结构和高速计算资源的可用性为制定涉及高维数据的多个任务的变化版本提供了一个自然的栖息地。从理论上研究得出的估计值，并将其与统计文献中目前使用的估计值进行比较，以期进行推断，这将是非常有益的。

通过转移到非参数密度空间，SRD表示下指数和逆指数映射的显式表达式的可用性对所提出的梯度提升算法的可扩展性起着关键作用。我们对梯度方向的近似基于高维积分的嵌套单变量一阶泰勒展开；虽然这在我们的研究中效果很好，但可以探索更好的近似方案。未来的工作有多个方向，包括（1）检查切线空间中合适基函数的选择，以更好地捕捉后部的模式，（2）以命题4为基础，为所提算法获得理论保证（令人鼓舞的是，SRD表示空间是希尔伯特球面的凸子集，这将有助于我们研究收敛特性），（3）为不同感兴趣的问题开发有效的初始化方案，以及（4）将该框架扩展到各种其他贝叶斯模型，包括广义线性模型、图形模型、空间模型。

6.1. 非场内设置的扩展

我们现在就如何将建议的方法扩展到我们不假设接头密度的情况发表评论q个在Θ分解。变分族和平方映射的定义保持不变。损失函数的定义 $L（左）$ 可以很容易地修改以反映新的变分族。重大变化在于所提算法的实现。最近的工作Tan（2018）考虑了一种模型相关的重新参数化技巧，它可以捕获参数之间的后验相关性。他们提出的可逆仿射变换在性质上与命题1中考虑的重参数化类似，因此可以在我们的设置中使用。然而，重新参数化不变性仅适用于以下情况α=1/2，限制了该方法的适用性。

该算法的关键组成部分是正交基、指数映射、梯度方向和并行传输。指数图和并行传输可以适当修改以反映d日-密度空间的维度性质。鉴于d日-正交基函数的维数基集，梯度的表达式可以显式写下来。然而，梯度的计算并不简单。这里的关键观察点在于我们基于嵌套近似的近似方法。表示方式（f）_d日(θ₁) :=（f）(θ₁|μ_{2|3, …,d日},μ_{3|4, …,d日}, …,μ_d日)密度（f）属于θ₁以条件期望为条件（例如。，μ_{2|3, …,d日}表示的条件期望θ₂鉴于θ_三, …,θ_d日)、和 ${\tilde{（f）}}_{d日} (θ_{1}) : = （f） (θ_{1}, μ_{2 | 三, \dots, d日}, μ_{三 | 4, \dots, d日}, \dots, μ_{d日})$ .由此产生的修改方程式2对于我=1是 $\int_{Θ_{1}} {[\frac{ψ_{（f）} (x, θ_{1}, θ_{2}, \dots, θ_{d日})}{ψ_{{q个}_{d日}} (θ_{1})}]}^{2 α} {\tilde{b条}}_{d日}^{k个} (θ_{1}) {q个}_{d日} (θ_{1}) d日 θ_{1}$ ，其中 ${\tilde{b条}}_{d日}^{k个}$ 是k个的第个元素d日-维正交基函数集。这要求我们只计算一维条件期望。一种方法是从近似密度的参数族开始，并将其嵌入到所有的非参数空间中d日-尺寸密度。如果d日太大，我们可以考虑一个更广义的块结构，类似于结构化平均场近似(索尔和约旦，1996年;巴伯和威格林，1999年). 我们可以利用参数集合中存在的子结构，假设部分因子分解，并沿着上述路线继续，而不是假设所有参数都是相互独立的，并由各自的边距控制。然而，关键的一点是，所提议的框架原则上可以扩展到非平均场设置。在这方面仍有许多工作要做，目前正在进行中。

补充材料

补充1

单击此处查看。^{（502K，pdf）}

鸣谢：

作者感谢Steven MacEachern教授的宝贵讨论和建议。他们还感谢两位匿名审稿人的评论，他们的评论改进了这份手稿的内容。该研究得到了NSF DMS 1613054和NIH R37 CA214955（至KB和SK）以及NSF CCF 1740761（至SK）的部分支持。

脚注

补充材料：补充材料包括所有命题的证明以及贝叶斯线性回归、贝叶斯密度估计和贝叶斯逻辑回归的附加结果。

工具书类

Amari S（1998年）。自然梯度在学习中有效.神经计算 10(2), 251–276.[谷歌学者]
Barber D和Wiegerinck W（1999年）。图形模型逼近的可追踪变分结构.英寸神经信息处理系统，第183-189页。[谷歌学者]
Bauer M、Joshi S和Modin K（2015年）。基于最优信息传输的差分密度匹配.SIAM成像科学杂志 8(三), 1718–1751.[谷歌学者]
Bauer M、Joshi S和Modin K（2017年）。基于最优信息传输的差分随机抽样.英寸信息几何科学第135–142页。[谷歌学者]
Beal MJ（2003）。近似贝叶斯推理的变分算法.大学学院博士论文；伦敦。[谷歌学者]
巴塔查里亚A（1943）。由人口分布定义的两个统计总体之间的分歧度量.加尔各答数学学会公报 35, 99–109.[谷歌学者]
主教CM（2006）。模式识别与机器学习纽约州施普林格。[谷歌学者]
Blei DM、Kucukelbir A和McAuliffe JD（2017年）。变分推理：统计学家综述.美国统计协会杂志 112(518), 859–877.[谷歌学者]
Broderick T、Boyd N、Wibisono A、Wilson AC和Jordan MI（2013年）。流式变分贝叶斯.英寸神经信息处理系统第1727-1735页。[谷歌学者]
Carlin BP和Louis TA（2008年）。数据分析的贝叶斯方法CRC出版社。[谷歌学者]
Cencov NN（2000）。统计决策规则与最优推理.编号53美国数学学会。[谷歌学者]
Chen T，Streets J和Shahbaba B（2015年）。后验近似的几何视图.arXiv:1510.00861 [谷歌学者]
Cowles MK和Carlin BP（1996年）。马尔可夫链蒙特卡罗收敛诊断：比较综述.美国统计协会杂志 91(434), 883–904.[谷歌学者]
Dheeru D和Karra Taniskidou E（2017年）。UCI机器学习库.
Ghahramani Z和Beal MJ（1999）。因子分析器贝叶斯混合的变分推理.英寸神经信息处理系统，音量12第449-455页。[谷歌学者]
Girolma M和Calderhead B（2011年）。黎曼流形Langevin和Hamilton蒙特卡罗方法.英国皇家统计学会杂志B辑 73(2), 123–214.[谷歌学者]
Hernández-Lobato J、Li Y、Rowland M、Bui T、Hernandez-Labato D和Turner R（2016）。黑匣子α-发散最小化《机器学习国际会议》，第1511-1520页。[谷歌学者]
霍夫曼M和布莱D（2015）。随机结构变分推理.英寸人工智能与统计第361-369页。[谷歌学者]
Hoffman医学博士、Blei DM、Wang C和Paisley JW（2013年）。随机变分推理.机器学习研究杂志 14(1), 1303–1347.[谷歌学者]
Jaakkola T和Jordan MI（1997年）。贝叶斯逻辑回归模型的变分方法及其推广.英寸人工智能和统计国际讲习班，音量82.[谷歌学者]
Kass RE和Vos PW（2011年）。渐近推理的几何基础，音量908约翰·威利父子公司。[谷歌学者]
Kingma DP、Salimans T、Jozefowicz R、Chen X、Sutskever I和Welling M（2016年）。基于逆自回归流的改进变分推理.英寸神经信息处理系统研究进展第4743–4751页。[谷歌学者]
Kucukelbir A、Tran D、Ranganath R、Gelman A和Blei DM（2017年）。自动微分变分推理.机器学习研究杂志 18(1), 430–474.[谷歌学者]
Kurtek S（2017）。基于重要性抽样的函数数据两两贝叶斯比对的几何方法.电子统计杂志 11(1), 502–531.[谷歌学者]
Kurtek S和Bharath K（2015）。基于Fisher-Rao度量的贝叶斯灵敏度分析.生物特征 102(三), 601–616.[谷歌学者]
Lang S（2012年）。微分几何基础，音量191施普林格科技与商业媒体。[谷歌学者]
伦纳德·T（1978）。密度估计、随机过程和先验信息.英国皇家统计学会杂志B辑, 113–146.[谷歌学者]
Li Y和Turner RE（2016）。Rényi散度变分推理.英寸神经信息处理系统第1073-1081页。[谷歌学者]
McGrory CA和Titterington D（2007年）。有限混合分布贝叶斯模型选择中的变分逼近.计算统计与数据分析 51(11), 5352–5367.[谷歌学者]
Minka TP（2001）。近似贝叶斯推理的期望传播第十七届人工智能不确定性会议，第362-369页。[谷歌学者]
Minka TP（2005）。分歧措施和信息传递技术报告。
Olson JM和Weissfeld LA（1991年）。某些多元积分的逼近.统计与概率信件 11(4), 309–317.[谷歌学者]
Ramsay JO、Hooker G和Graves S（2009年）。用R和MATLAB进行函数数据分析Springer科学与商业媒体。[谷歌学者]
Rao CR（1945年）。统计参数估计中可获得的信息和准确性.加尔各答数学学会公报 37, 81–91.[谷歌学者]
Rényi A（1961年）。论熵与信息的测度.英寸伯克利数理统计与概率研讨会，音量1第547-561页。[谷歌学者]
Rezende D和Mohamed S（2015）。具有归一化流的变分推理《机器学习国际会议》，第1530–1538页。[谷歌学者]
Riihimäki J和Vehtari A（2014）。logistic高斯过程密度估计和回归的拉普拉斯近似.贝叶斯分析 9(2), 425–448.[谷歌学者]
Ring W和Wirth B（2012年）。黎曼流形的优化方法及其在形状空间中的应用.SIAM优化期刊 22(2), 596–627.[谷歌学者]
Saul LK和Jordan MI（1996年）。利用难处理网络中的可处理子结构.英寸神经信息处理系统第486-492页。[谷歌学者]
Sigillito VG、Wing SP、Hutton LV和Baker KB（1989年）。基于神经网络的电离层雷达回波分类.约翰斯·霍普金斯大学APL技术摘要 10(三), 262–266.[谷歌学者]
Srivastava A、Jermyn IH和Joshi SH（2007年）。概率密度函数的黎曼分析及其在视觉中的应用在IEEE计算机视觉和模式识别会议上，第1-8页。[PMC免费文章][公共医学][谷歌学者]
Srivastava A、Klassen E、Joshi SH和Jermyn IH（2011年）。欧氏空间中弹性曲线的形状分析.IEEE模式分析和机器智能汇刊 33(7), 1415–1428. [公共医学][谷歌学者]
Tan LS（2018）。改进变分推理的模型重参数化.arXiv预打印arXiv:1805.07267 [谷歌学者]
Tokdar ST和Ghosh JK（2007）。密度估计中logistic高斯过程先验的后验一致性.统计规划与推断杂志 137(1), 34–42.[谷歌学者]
Ueda N和Ghahramani Z（2002年）。基于优化变分界的混合模型贝叶斯模型搜索.神经网络 15(10), 1223–1241. [公共医学][谷歌学者]
van der Vaart AW和van Zanten JH（2009）。基于逆Gamma带宽高斯随机场的自适应Bayesian估计.统计年刊 37(第5页), 2655–2675.[谷歌学者]
Van Erven T和Harremos P（2014）。Rényi散度和Kullback-Leibler散度.IEEE信息理论汇刊 60(7), 3797–3820.[谷歌学者]
Wang C和Blei DM（2013）。非共轭模型中的变分推理.机器学习研究杂志 14, 1005–1031.[谷歌学者]
Yeung D、Chang H、Xiong Y、George S、Kashi R、Matsumoto T和Rigoll G（2004）。SVC2004：首届国际签名验证竞赛.英寸生物认证第16-22页。[谷歌学者]

贝叶斯推理的几何变分方法

阿比乔伊·萨哈

卡提克修道院

塞巴斯蒂安·库尔特克

关联数据

摘要

1.简介

1.1. 背景

1.2. 动机和贡献

2.Fisher–PDF的Rao黎曼几何

3.基于α-分歧

3.1. 雷尼α-分歧

3.2. 问题公式化

3.3. 边际密度的界限

4.通过梯度上升进行优化

4.1. 步长的选择和梯度的近似

5.仿真和实际数据示例

5.1. 低维仿真研究

表1：

5.2. 贝叶斯线性回归

表2：

表3：

5.3. 贝叶斯密度估计

5.4. 实际数据应用中的贝叶斯逻辑回归

5.4.1. 电离层数据

表4：

5.4.2. 签名验证应用

表5：

6.讨论

6.1. 非场内设置的扩展

补充材料

补充1

鸣谢：

脚注

工具书类