需要一类新的灵活的多元分布,这些分布可以捕获重尾和偏态,而不会过于灵活,从而完全引发 非参数密度估计。 我们关注的是高斯方差-均值混合族,除了简单的特殊情况外,它在多元环境中受到的关注有限。 通过使用贝叶斯半参数方法,我们允许数据推断未知的混合分布。 考虑了属性,并基于马尔可夫链蒙特卡罗开发了一种后验计算方法。 通过仿真研究对这些方法进行了评估,并将其应用于各种应用中,说明了它们在表征重尾、尾相关性和偏态方面的灵活性能。
1.简介 人们越来越意识到开发新的多元分布类的重要性,这些类可以灵活地描述重尾和偏态,同时适应尾相关性。 这种尾部依赖性出现在许多应用中,是在外围事件中依赖性的自然结果。 众所周知,这种依赖性存在于金融数据、通信网络、天气和其他环境中,但没有用高斯copula模型等常用方法进行充分描述。 鲑鱼[ 1 ]提供了一个令人信服的评论,说明了在金融危机中,基于高斯连接函数的两个变量之间相关性的单一度量是如何发挥重要作用的。 我们需要基于新分布类别的统计方法,这些新分布类别不依赖于这种不切实际的假设,但即使在中等维到高维的环境中,这些方法仍然适用。
现有文献与该主题相关。 Wang等人[ 2 ]提出了一类具有概率密度函数形式的偏对称分布 ,其中 是连续对称密度 是一个倾斜函数。 选择 as normal导致了斜正规类[ 三 , 4 ],其他特殊情况对应于歪斜- [ 5 , 6 ],斜斜杠[ 7 ]和斜椭圆分布[ 8 ]. 这些参数模型有助于提供具有参数调节数据偏度和峰度的可计算分布。 但是,为 和 在实践中可能具有挑战性,不同的选择可能产生不同的结果。 虽然可以潜在地进行模型选择或平均,但这增加了计算负担。
另外,还探索了非参数方法,以更灵活地处理重尾和倾斜观测。 例如,正态分布的混合被广泛用于近似任意分布。 文丘里尼等人[ 9 ]使用形状参数上的gamma分布混合来建模重量级医疗支出数据。 还提出了其他重尾分布的混合。 由于维数灾难,这种非参数密度估计方法在多元情况下面临着巨大挑战。 完全非参数密度估计在允许具有任意数量的模式和复杂形状的密度方面几乎过于灵活,在许多情况下,很难根据可用数据准确估计这些密度。 在使用混合因子分析仪的多元密度估计中,已经有一些降低维数的尝试[ 10 ]以及其他方法,但尽管如此,这些努力只在一定程度上挫败了这一诅咒。
我们主要讨论由Barndorff-Nielsen介绍的高斯方差-均值混合(GVMM)[ 11 ]作为一类灵活的多元分布,通过以下层次模型导出 , 哪里 是位置参数, 是漂移或偏斜参数, , 是上的混合分布 , 、和 是正定矩阵。条件如下 通常是为了避免无法识别的比例因子。 该模型对应于多元正态分布的推广,它是在以下特殊情况下获得的 和 是一个点质量。
目前关于高斯方差-均值混合的文献主要集中在单变量模型上,其中混合分布 属于参数化族。 与不同选择相对应的一些特殊情况 包括学生的 -检验、拉普拉斯分布、双曲线分布、正态逆高斯分布和方差伽马分布,这些模型已被广泛应用(参见[ 11 – 16 ]). 然而,与偏对称分布一样,仅限于特定的参数类显然是有限制的。 此外,GVMM的一些吸引人的子家族,如广义双曲(GH)分布,在分析上是不可处理的。 这部分是由于似然函数的平坦性[ 17 ],这使得在没有先验信息或某种形式的惩罚的情况下,即使在大样本量的情况下,也很难获得可靠的参数估计[ 18 ].
我们提出了贝叶斯半参数高斯方差-均值混合模型,其中混合分布 采用非参数建模,以灵活适应重尾和偏态,同时让数据告知适当的分布选择。 开发了有效的贝叶斯计算策略,用于参数的可靠推断。
2.建议的建模框架 2.1. 半参数GVMM 考虑一下 -多维多变量连续重尾和/或偏态观测 , ( ). 我们的目标是获得密度的灵活GVMM模型 通过混合分布建模 无框架地。 为此,我们使用广义对数正态(log)的Dirichlet过程混合(DPM) GN)未知订单之前 对于 数学上,模型表示为 哪里 是DP精度和 是的基本度量 和 ,我们分别选择独立的正常伽马和反向伽马。
原木家族 这里考虑的GN分布最初是由Vianelli介绍的[ 19 ],可以通过遵循广义正态分布的随机变量的指数变换获得[ 20 , 21 ]. The pdf of a分布随机变量 由提供 哪里 , , 、和 .log文件 GN密度比对数正态密度更灵活,包括一个附加参数 控制尾部行为,其中log-normal对应于特殊情况 和双指数 .
尽管日志 GN分布在提供对数正态的简单泛化方面很有吸引力,对数正态在尾部更灵活,由于涉及的计算障碍,即使在更简单的设置中也很少实现此类分布。 幸运的是,对于通过MCMC进行的贝叶斯后验计算,我们可以依赖基于事实的数据增强算法 1 ,使用第节中所示的广义对数正态的DPM来适应我们的设置 3.2 .
事实1。 让 和 是两个随机变量,这样 (1) , (2) 然后 .
高斯分布模式为任意密度提供了高度灵活的近似值。 作为之前 直接地,高斯分布模型具有吸引人的渐近性质,在真实数据生成密度的某些条件下,会导致最小最大自适应收敛速度,而这些条件不幸地排除了重尾密度[ 22 ]. 如上所述,我们的重点是获得多元重尾和偏态密度的灵活先验,这在允许多模和其他非常不规则密度形状的意义上不是完全非参数的,但可以灵活地近似一大类单模密度,而无需引入限制性尾约束。 因此,直接根据数据密度选择高斯分布的DPM是不合适的 .
表达式( 2.1 )而是使用日志的DPM 混合物分布的GNs 在GVMM框架内。通过在设置之前使用此类DPM 未知情况下,我们获得了混合分布及其尾部衰减的较大灵活性,可以采用不同程度的重尾作为边际密度 同时允许数据充分推断未知混合分布。 在考虑了各种各样的替代方案后,我们发现该规范在捕获丰富多样的多元重尾分布和偏态分布方面表现出色,同时还允许对称数据。 下面详细介绍了一些基本属性。
2.2. 尾部行为 了解混合物分布的尾部行为之间的关系很重要 和诱导的尾部行为 ,的边际分布 我们首先考虑单变量情况。 Barndorff-Nielsen和Sorensen的定理2.2[ 23 ]描述了特殊情况下的关系,其中 因此边际分布是对称的。
定理2.1(参见[ 13 ]). 假设 是高斯方差混合的pdf,如( 1.1 )带有 混合分布的尾部 使用pdf 满足 哪里 和 是缓慢变化的函数 ,对于所有人 。那么 (1) 如果 , , (2) 如果 , .
观察高斯方差混合的尾部行为(当 )主要取决于混合分布的尾部行为。 为了将其推广到任意高斯方差-均值混合,我们首先引入以下引理。
引理2.2。 假设 是具有混合分布的高斯方差混合物的pdf ,并让 表示力矩生成函数 。那么 科学技术。 : 是具有偏度参数的高斯方差-均值混合的pdf 和混合分布 使用pdf 令人满意的 ,其中 是G的pdf格式。反之亦然。
证据见附录。 这个引理通过两个混合分布的尾部行为之间的链接,在高斯方差混合和高斯方差混合的尾部行为间提供了联系。 这个关系用于以下定理。
定理2.3。 假设 是高斯方差-均值混合的pdf,如( 1.1 ),带有偏度参数 和混合分布 .如果混合密度的尾部 满足 哪里 、和 是缓慢变化的函数 ,对于所有人 ,然后: (1) ,作为 , (2) ,作为 .
定理 2.3 表明高斯方差-均值混合的尾部行为也依赖于混合分布的尾部行为。 通常,混合分布中较重的尾数会导致高斯方差混合的较重尾数。 因此,通过在混合分布上放置广义对数正态的DPM,我们可以得出密度的先验值 尾巴腐烂程度灵活。 另一个观察结果是,如果混合分布具有次指数尾数(例如对数压缩分布),那么高斯方差-均值混合也具有次指数尾,这也说明了使用高斯方差-方差混合的特定参数情况来拟合数据的灵活性的局限性。
2.3. 瞬间 为了计算高斯方差-均值混合的矩,我们可以直接应用总累积量定律。 让 , , 、和 表示中描述的高斯方差-均值混合的期望、方差、偏度和峰度( 1.1 ),并让 、和 表示混合分布的那些。 鉴于它们都存在,我们简单地
一般来说,我们有 ,其中 和 分别是GVMM的矩母函数和相应的混合分布。 很明显,混合分布矩的存在表明高斯方差混合矩的存在,以及 除了作为偏度参数外,还可以控制期望、方差和峰度。
3.贝叶斯计算 3.1. Priors公司 在半参数GVMM框架中 约束通常用于保证模型的可识别性。 为了提高我们提出的贝叶斯计算算法的计算效率,我们使用了一种参数扩展方法,在这种方法中,先验值被放置在一个无法识别的工作模型中的参数上,而没有 约束。 然后,我们包括一个后处理步骤,将参数转换回可识别的推理模型,其中包括 约束。 Ghosh和Dunson在高斯因子模型中使用了相关策略[ 24 ]. 对于无法识别的参数,我们使用相当分散的先验值,作为混合的辅助,因为很难为这些参数获取先验值。 然而,由于某些GVMM模型中似然函数的平坦性,我们避免了完全无信息的先验[ 13 ]在缺乏一些事先信息或处罚的情况下,可能会导致不可靠的推断。 为了解决这个问题,我们提出了一种经验贝叶斯方法,在估计偏度参数的超参数时结合来自数据的偏度信息 .
特别是,我们将原始数据转换为具有正样本偏度和单位样本方差的数据。 首先对数据进行归一化,并计算样本偏度。 如果它是负数,我们将归一化数据乘以负数。 在进行推断时,我们转换回原始数据的刻度和符号。 由于GVMM在线性变换下是闭合的,这将导致GVMM。 因为转换后的数据更有可能是右偏或对称的,所以我们可以更容易地得出偏度参数的默认弱信息先验 ,我们选择正均值作为正常值 ,将伽马超验函数置于 以提高先验稳健性。 对于订单参数 ,使用截断的逆伽马先验。 漫反射先验被放置在剩余的未知项上。 总结 这些先验被用于变换数据的无约束工作模型中,并在具有 约束。
对于日志的DPM 混合分配之前的GN ,为了便于计算,我们使用了Sethuraman提出的DPM的一种类似的破粘表示法[ 25 ]但使用广义对数正态分量而不是正态分量,并在 Ishwaran和James之后的组件[ 26 ]. 此外,如前所述,由于很难直接更新广义对数正态分布的参数,我们进一步利用了Fact 1 引入增强数据 以提高计算效率。 总之,数据增强了日志DPM的断棒表示 GN优先级如下所示: 哪里 , , , 和用于 ,我们对 和 分别是。 在这里, 是表示观测混合成分指数的增强数据 .
3.2. 全条件和后验分析 根据( 2.1 )( 3.1 )、和( 3.2 ),我们使用数据增强吉布斯采样器更新未知量,包括GVMM框架中的参数( , 、和 ),日志的DPM中的参数 GN(通用)( , 、和 ),增强数据( 和 )、超参数和混合变量( ). 吉布斯采样器计算效率高,混合速度快,因为大多数完整的条件分布都具有闭合形式,但以下情况除外 , 、和 ,均为单变量,并使用Gibbs采样器中的Metropolis-Hastings步骤进行更新。 每个吉布斯采样器迭代的关键步骤如下所示。 (一) 样品 , 、和 :给定的正常先验 和逆Wishart优先于 和模型 , 从条件正态分布中抽样,并且 从条件逆Wishart。 (二) 样品 和 :鉴于以下先验用于 和 对于 第th个对数正态分量, : 样品 , ,根据条件截断正态分布: 和样品 根据条件截短的逆gamma分布: 哪里 是的总数 在中 混合物成分。 (三) 样品 . , ,是条件截断指数分布的样本: (四) 样品 :给定Gamma( , )的 ,使用Metropolis-Hastings算法从以下完整条件截断内核中对完整条件分布进行采样: 哪里 , . 、和 . (五) 取样 : , 从条件多项式(MN)分布中采样 (六) , 根据Ishwaraman和James中所示的条件beta分布进行更新[ 26 ]. 同时更新单变量 , 使用Gibbs采样器中的Metropolis-Hastings步骤。
4.仿真研究和实际数据分析 4.1、。 单变量半参数GVMM 为了测试半参数框架,首先对一元GVMM的模拟数据集进行建模。 具体来说,观察 ( )从模型生成( 2.1 ),参数的真实值如所示 模拟数据的直方图如图所示 补充材料S2(B),在线阅读 http://dx.doi.org/10.5402/2012/345784 样本峰度和偏度分别为4.60和1.01。
对于贝叶斯推理,我们对原始模拟数据进行预处理,并按照前面的描述放置先验值。 我们将MCMC运行了10000次迭代,前5000次作为老化。分析了后验分布的几个方面来评估模型拟合。 首先 和参数允许我们重建和可视化未知的混合分布 如图所示 S1中,真实混合分布(Gamma(3,1),面板(B))和100个重建混合分布(面板(a))之间的比较显示出显著的相似性,表明该模型可以有效地捕获底层结构。 这进一步通过以下的后验分布来说明 和 其中95%的C.I.s分别为[0.8676,3.2390]和[1.2532,2.9660],后验均值分别为2.0804和2.1523,这也很好地覆盖了真实值。 值得一提的是,在真实值未知的实际数据分析中 为我们提供了一个评估偏度的有用工具,具有显著的正值 表示偏斜。
此外,我们可以根据模型参数的后验样本和混合分布重建数据集 并直接可视化后验预测分布是否与观测分布相似。 我们重建了200个这样的数据集,每个数据集包含5000个数据点。 而重建的数据集与观察到的数据集相似(如图所示 S2),我们特别研究了拟合的半参数GVMM的后验分位数估计,这是通过基于200个重建数据集获得一系列分位数的95%后验C.I.来完成的。 这如表所示 1 并与通过拟合其他模型获得的分位数估计值进行比较,例如正态、偏态正态和偏态 -分布(表 2 ). 与简单高斯模型既不能捕捉到重尾性也不能捕捉到偏态这一事实相比,我们的GVMM模型既能拟合数据,也能拟合偏态高斯和偏态高斯 -分布,同时保持相对简单的形式、方便的采样和可解释性的独特优势。
4.2. 标准普尔500指数回报建模 众所周知,股票收益并不总是符合高斯分布。 对收益的重尾性和不对称性进行建模在经济学和金融学中变得越来越重要。 这里,我们看一下标准普尔500综合指数(s&P500)从1990年2月1日到2011年13月9日的每日收益。 图中显示了总共5470个观察结果 S3(A),样本偏斜度为0.189(预处理后),这表明返回分布可能略微向右偏。
将类似的单变量半参数GVMM和预先设置应用于数据集,以访问模型捕获收益分布的能力。 为了评估模型拟合,我们还基于未知数量的后验样本(每个样本由5470个观察值组成)重建了200个数据集,并进行了快速比较(图 S3)在观测数据集和重建数据集之间显示出显著的相似性,表明我们的模型很好地捕捉了收益分布。 我们还研究了基于200个模拟数据集的后验分位数估计(表 三 ),进一步说明了模型的拟合优度。
此外,我们特别关注 一般来说,当样本偏度相对较小(如本例所示)时,很难判断真实分布是偏斜的还是对称的,因为来自对称重尾分布的样本也可能由于存在有限样本大小的极值而表现出显著的样本偏度。 然而,贝叶斯半参数GVMM框架的一个特点是,可以通过观察 参数,它可以直接测试偏度的实际存在性,而不是由于重尾性而产生的“人工样本偏度”。 为了说明这一点 如图所示 1 ,给出了95%的后C.I.[0.0033,0.0838],因此声称在95%置信水平下,分布略微向右倾斜。 作为一个惊人的比较,我们从 -分配( ,如附录所示)。 样本偏斜度为0.228,这似乎表明存在轻微的右偏斜度。 然而,当我们使用贝叶斯半参数GVMM拟合数据,并查看 (如图所示 2 ,与图相比 1 )后验95%置信区间为[-0.0371,0.0757],后验均值为0.0213,这表明样本偏度的存在是由于以下事实 -分布是重尾的。
4.3. 多变量月降雨量建模 随着实际观测到更多的重尾和偏尾数据,环境科学和气候学中对非高斯分布的灵活族也越来越感兴趣,这些族允许偏尾和重尾。 具体而言,众所周知,月降雨量强烈向右倾斜,偏态系数的正值较高(例如[ 28 ]). 建议使用各种分布来模拟降水数据,其中包括指数、伽马(例如[ 29 ,第98页]),对数正态(例如[ 30 ])和对数正态/ -分配[ 31 ]. 然而,大多数研究都集中在单变量建模上,对于为什么使用特定分布有一些物理上的理由。 尽管高斯偏态/ -类型分布已扩展到多元设置(参见例如[ 27 , 31 ]),它们不能很好地处理实质性偏斜[ 18 ]. 我们考虑将贝叶斯半参数GVMM框架应用于多变量降水数据建模。 一个吸引人的特点是,对多元情况的扩展既简单又可解释。
美国国家和区域降水数据可从美国历史气候网络(USHCN)公开获取。 为了便于说明,我们使用了1895年至2010年期间北卡罗来纳州四个当地站(阿尔贝马尔、教堂山、伊登顿和伊丽莎白城)以英寸为单位测量的月降雨量数据(每个站每月116个数据)。 图 三 显示了每年7月的对数月降雨量数据直方图。 所有四个站点的数据均呈现右偏态,样本偏态系数分别为0.675、1.440、0.632和0.971。
我们拟合了半参数多元GVMM( 2.1 )数据(维度 ).
我们对马尔可夫链进行了10000次迭代,显示出良好的混合和收敛性,并放弃了前5000次作为老化。为了说明模型拟合, 我们基于所有未知量的后验样本重建了一个具有5000个观测值的降水数据集,并将重建的后验预测分布与观测值进行了比较。 具体来说,我们测试每个维度的边际单变量分布和协方差结构是否被正确捕获。 如图所示 4 ,曲线表示基于拟合模型中5000个样本的后验预测分布的相应单变量核平滑密度估计,与直方图所示的观测数据集拟合良好。 观测分布和拟合分布之间的PP-plot进一步说明了拟合优度(图 5 ). 协方差结构也被很好地建模(图之间的比较 6 和 7 ). 所有这些都表明,我们的框架有效地捕获了降水数据的潜在结构。
作为比较,我们还用多元偏态拟合了对数降水数据 -分配[ 32 ]它还用于对倾斜和重尾数据进行建模,其中两个尾部表现为多项式。 拟合模型是通过使用 锡 Azzalini提供的包[ 27 ]以及拟合的多元偏态的边际分布和协方差结构 -模型与观测数据集的模型进行了比较。 我们可以发现,尽管多元变量存在偏差 -该分布捕获了大多数单变量边际分布,右尾稍轻,左尾较重(图 S4),未能找到正确的协方差结构(图 S5与图的比较 6 和 7 ). 这可能是由于陷入局部最大值并由于多元偏态的相对复杂的似然函数而获得次优解所致 -分配。 无论如何,我们的贝叶斯半参数多元GVMM似乎为多元偏态和重尾数据提供了一个计算和结构上更简单但更有效的分布族。
5.讨论 本文提出使用贝叶斯半参数高斯方差-均值混合模型作为一种灵活、可解释且易于计算的模型,用于重尾和偏态观测。 该模型假设混合分布 在一般的高斯方差-均值混合中是未知的,因此数据会告知适当的分布选择、偏态程度、尾部的重性以及分布的形状,从而为重尾和偏态数据分析提供更灵活的框架。 尽管我们使用单变量和多变量模拟数据和实际数据测试模型,但将框架扩展到更高维度的更广泛问题,可能与稀疏建模的因子模型相结合,是一个有趣且具有挑战性的问题。 在相同的情况下,假设一个混合变量控制所有维度的尾部和偏度似乎是有限制的,尽管这可能是一个低维度的可接受假设。 在这种情况下,一些允许多个混合变量/分布的分层非参数模型可能会有所帮助,但当假设有多个混合参数时,如何定义可识别的参数化肯定是一个问题,这也值得更多的思考和理论支持。 另一方面,利用模型参数的可解释性,我们认为时变半参数GVMM是GVMM框架的自然扩展。 然而,包含额外结构和信息来源的更一般的时空模型仍然具有挑战性,但尚未探索。
附录 校样 事实证明 1 . 让 和 是两个随机变量,这样 (1) , (2) 然后 它是 定义见( 2.2 ).
引理的证明 2.2 . 鉴于 -量纲观测 根据中描述的高斯方差-平均混合( 1.1 ),让 用混合分布表示高斯方差-均值混合的pdf ,并让 表示高斯方差混合的pdf( )具有混合分布 .在不失一般性的情况下,我们考虑了这个案例 (否则,线性变换 将完成证明) 让 ,使用 在单变量情况下,定义 哪里 和 是的密度 和 分别为和 是力矩生成函数 ,使用 .插头 我们可以看到
补充材料