1.简介
最近备受关注的一种不对称分布是Birnbaum–Saunders(BS)模型。它起源于材料疲劳,已应用于可靠性和疲劳研究[1,2,三]. 关于BS分布的数学和统计特性、推断、建模和诊断,已经做了大量工作。它的自然应用主要集中在工程上。然而,今天它们涵盖了不同的领域,包括空气污染[4,5],业务[6],地球科学[7,8],行业[9,10]和医学[11,12]等领域。这些应用程序由一个国际跨学科研究小组执行。 标准回归模型提供了对给定协变量特定值的平均响应的估计。这些模型不能用于估计与平均值不同的其他参数,这是此类模型的一个局限性。然而,首先,在工程、环境和社会科学以及其他领域,从业者通常对估算分位数感兴趣,以确定产品保证、确定土壤中的营养水平或测量穷人(下尾)和富人(上尾)的经济不平等人们的家庭收入[13]. 其次,标准回归模型的另一个局限性是,如果响应变量服从一个歪斜分布,那么平均值并不是一个很好的中央趋势指标来总结数据,在这种情况下,中位数是一个更具信息性和稳健性的估计。此外,第三,回归模型可以描述与变异性、偏度和其他高阶矩相关的整个分布的参数,这些参数可以表征分布[14]. 为了解决上述前两个局限性,分位数回归模型由[15],将中值回归模型扩展为[16],并将普通样本分位数推广到回归设置。我们感兴趣的是通过回归对BS分布的中位数或其他分位数进行建模;参见[17,18]. 如果在建模中添加空间分量,平均值(或中位数)估计值的准确性可能会提高[19]. 空间分位数回归的想法最初是由[20]、和[21]讨论了基于条件分位数函数的一般空间分位数回归,而[22]显示了空间分位数回归的变体。我们在下一节中提供分位数回归的背景,包括空间情况。参考[23,24,25]介绍了BS空间均值回归模型及其对条件均值的诊断;参见[26]有关诊断方法的详细信息。将随机过程应用于空间数据建模,以了解相应的有限维多元分布。BS多元分布由以下人员提出和研究[27,28,29]. BS分位数回归模型最近由[13]对于独立案例,考虑了家庭收入数据。然而,对于具有空间相关性的数据,还没有提出BS分位数回归的研究。 这项工作的主要目标是建立一类基于BS分布的新型空间分位数回归模型。为了实现这一点,我们提出了一种分位数参数化来生成一个新的多元BS模型,该模型的参数由最大似然法估计。随后,应用数据集进行说明。
剩下的论文组织如下。在第2节描述了独立数据和空间数据情况下的分位数回归模型。第3节给出了原始参数化中的单变量BS分布和它的新参数化,这使我们能够对分位数进行建模。在第4节介绍了多元正态分布及其与多元BS分布新参数化的联系。在第5节,我们建立了基于BS分布的空间分位数回归模型。第6节使用最大似然法推导模型参数的估计,而模型检查工具在第7节.英寸第8节,我们使用空间数据进行了一个实证示例,以说明新模型的潜在应用。结论和未来工作见第9节.一个附录A本文最后给出了分数向量和Hessian矩阵的导数。 2.分位数回归
标准回归模型已在不同领域广泛使用,其定义为哪里年是因变量(或响应变量);对应于自变量向量的值(协变量);是回归参数的向量;和是随机错误,(恒定方差),以及,用于(不相关错误)。这意味着回归模型描述了条件平均值,因此它可以由的概率密度函数(PDF)编写年根据其平均值进行参数化。例如,如果年正态分布,则其线性回归模型可视为具有是独立的随机变量。此外,我们可以将表达式推广为在中给出(1)当考虑,其中是可逆函数,例如在广义线性模型中[30]. 如果我们现在考虑k个-参数分布,带也就是说,根据平均值参数化分布[31,32]除了其他参数外,还可以建立更通用的形式模型哪里年现在遵循一些分布。 响应的分位数回归模型年提供一种机制来估计和预测中值响应以及其他分位数[15]. 这类回归模型基于以下等分位数函数:哪里是一个基本分布的参数向量和如果年是其分位数函数,我们可以表示分位数回归模型,类似于(2),作为哪里小时是一个可逆函数,具有正支撑且至少两次可微,是一个固定值,和之前一样,是独立的随机变量。 让是在一个区域上定义的随机过程。我们使用符号表示的分位数函数年在该位置。如果我们考虑空间位置,过程的分位数函数可以通过回归建模为,或者更一般地说,用于在这里,是的条件分位数函数年给定一组值对于协变量,在位置,其中是固定值,并且小时如所示(三). 什么时候?,对中值进行建模。通常假设过程的协方差函数仅取决于空间位置之间的距离,即随机过程是平稳的。 3.单变量Birnbaum-Saunders分布
如果,然后是随机变量T型由提供具有形状参数的BS分布和规模,表示为.随机变量T型得到了积极的支持(4)是一对一的,这使我们能够确定 的PDF和累积分布函数(CDF)T型分别表示为哪里是标准正态分布的PDF和CDF,而 让。随后,以下属性保持不变:
- (i)
.
- (ii)
.
- (iii)
,用于.
- (iv)
.
- (五)
,使用和.
这些特性对于各种统计目的都很有用,例如矩和随机数的生成、参数估计以及基于回归的建模。接下来介绍BS分布的另一个特性。鉴于,请注意q个BS分布的第个分位数定义为哪里具有成为q个标准正态分布的第个分位数。 4.多元BS分布和一种新的参数化
让是一个随机向量n个-变量正态分布,表示为,带平均向量和方差-方差矩阵,使用。请注意对称、非奇异、正定,然后是非奇异的[33]. 当平均向量为零时,即,,我们使用符号和对于n个-分别变量正常PDF和CDF,其中是一个零向量。 随机向量跟随n个-带参数的变BS分布,、和,如果,用于,其中T型在中给出(4)以及,使用是的方差-方差矩阵对角线元素等于1。因此,也是的相关矩阵在这种情况下。请注意是的相关矩阵而不是的,但我们使用符号由于BS和正态分布之间的关系。观察到的CDF和PDF分别由定义哪里,使用,,以及两者和表示为(5). 让是一个固定的数字,并且。如果我们应用下面给出的转换哪里问定义于(6),则此转换是一对一的。因此,如果,我们有一个新的多元BS分布参数化,表示为,作用类似于(8)通过转换表示为其中元素属于与…相关(6)对于的边际分布,因此,根据(9)、CDF和PDF分别由下式给出哪里,使用,、和在中定义(7).图1和图2显示中定义的PDF的不同图形图(10)带有,当参数和问不同,这些PDF的不同旋转。 定理 1 让,使用,、和成为相关矩阵。然后,
- (i)
,用于.
- (ii)
,其中,和是一个对角线上有1且其他元素等于元素的矩阵矩阵的Σ.
- (iii)
哪里,使用遵循二元正态分布和相关矩阵; 参见[34]. - (iv)
的方差-方差矩阵是,其中,和具有元素,和分别针对、和⊙是Hadamard产品。如果是独立的随机变量,那么,其中也就是说,是一个包含元素的对角矩阵.
证明。 结果是使用定理3.1和p.117推导出来的[34],使用我们的参数化。☐ 推论 1 让,使用,和.然后,
- (i)
具有在定理1(iii)中定义。 - (ii)
- (iii)
证明。 结果是使用([34]第117页),使用我们的参数化;另请参见[35]. ☐ 5.空间模型的制定
让是在一个区域上定义的随机过程.我们假设随机过程是稳定的和各向同性的,并且对于给定的空间位置,使用,过程的分位数函数可以建模为哪里小时是一个可逆函数,具有正支撑,至少两次可微,并且表示的值协变量,具有,用于也就是说,是协变量的值在该位置。请注意必须满足。此外,是待估计未知参数的向量,使用和成为一的向量。请注意与相关定义于(9),但现在取决于在这里,是之前定义的(非奇异)相关矩阵。因此,根据定理1(iv),BS空间分位数回归模型的方差-方差矩阵可以写成哪里,使用对于请注意,中所述BS空间过程的方差-方差矩阵(12)取决于它的分位数函数。 注意,空间相关性通常由Matérn族的函数建模[19]. 随后,通过使用该族和[36],矩阵的元素参与(12)由提供哪里是一个形状参数;是常用的伽马函数;是位置之间的欧氏距离和也就是说,;是一个称为空间相关逆半径的参数[37]也与名为microrgodic的参数有关[36]; 和,是第三类阶的修正贝塞尔函数[38]. Matérn家族的一些特殊案例在表1. 6.模型参数估计
让是空间分位数回归模型未知参数的向量(11),可用最大似然法估计,如下所示。请注意是空间相关逆半径[39]中定义的Matérn空间相关函数(13). 因此,对应的log-likelihood函数基于观测矢量可以写成哪里,使用,、和参与(12). 求…的导数(14)相对于相应的参数,导致分数向量,定义为有关中给出的得分向量的详细信息(15),请参阅附录A为了找到最大似然估计属于,非线性系统必须解决。由于该系统不提供封闭的分析解决方案,必须使用非线性系统的迭代程序进行计算。这里是一个名为Broyden-Fletcher-Goldfarb-Shanno的准Newton程序[40,41],可以通过函数使用最佳和optimx公司在中实现R(右)软件;看见网址:www.R-project.org和[42]. 还检查了相应Hessian矩阵及其子矩阵的行列式的符号,以确保达到有效的最大值。 注意Hessian矩阵对于BS空间分位数回归模型对角块矩阵。此Hessian矩阵是通过对(14),关于相应的参数,它由下式给出其中矩阵的元素详见附录A因此,对于BS空间分位数回归模型预期Fisher信息矩阵,根据(16),表示为其中矩阵的元素详见附录A也。 7.模型检查
我们考虑与马氏距离相关的多元BS分布的一个性质,以评估空间模型的拟合度,这可能用于在实践中验证模型。让哪里,使用和是的最大似然估计使用没有案例的数据集获得我.牛顿-拉夫森一步近似法可以通过以下方式获得哪里和是BS空间分位数回归模型的Hessian矩阵和得分向量,其参数采用最大似然法估计,无需实例我随后,根据假设 定义于(17)是一个随机变量的观察值,大约遵循分配自由度,用于因此,通过使用Wilson–Hilferty近似[43],我们有是一个随机变量的观察值,它大致遵循标准正态分布。因此,为在中给出(18)可用于评估模型拟合。除了Wilson–Hilferty的近似值外,随机分位数残差定义为[44]可用于评估BS空间分位数回归模型的拟合度。在这个模型的情况下,这样的残差由下式给出哪里是逆N(0,1)CDFF类是CDF。由于随机分位数残差近似为N(0,1)分布,因此定义于(19)也可用于评估模型拟合度。 8.实证示例
我们分析了与土壤中关键养分的不平衡和不足相关的化学数据集,以说明本文获得的结果。该数据集对应于影响根系发育的镁(Mg)水平,以及与镁竞争营养吸收的钙(Ca)水平巴西某一地区的位置。响应变量(T型)是土壤中的镁含量(单位:cmolc/dm3)和协变量(X(X))是土壤中Ca的含量(单位:cmolc/dm3)。
响应变量的描述性总结包括中值=2.0306的样本值(单位:cmolc/dm3);平均值=2.008;标准偏差=0.7713;变异系数=0.3841;偏态系数=0.3394;峰度系数=2.9717;最小值=0.5734;最大值=4.2538。图3显示了响应值的直方图(a)、箱线图(b)和散点图(c)T型。在箱线图中,我们检测到对应于位置#12和#47的两个异常值。中的方向变异函数图3d表明没有首选方向,即全方位半变异函数是合适的。因此,可以将相关的随机过程视为各向同性。 为了估计BS空间分位数回归模型的参数,我们考虑了以下几点:(i)根据Matérn函数(带; 看见表1); (ii)随机向量假设;(iii)(模拟中值的分位数);以及(iii)链接的恒等式、对数和平方根函数小时中定义的空间分位数回归(11)使用并表示为哪里是回归系数向量,使用是的价值X(X)对于该位置我. 我们可以在使用修正的Akaike信息准则(CAIC)和Schwarz Bayesian信息准则(BIC)时比较空间回归模型。CAIC和BIC分别由下式给出哪里是参数的log-likelihood函数与在评估的模型关联,d日是参数空间的维度,并且n个是数据集的大小。这两个标准都基于对数似然函数,并用更多参数惩罚模型。信息准则值越小的模型越好[45]. 具有中定义的链接的模型的对数似然、CAIC和BIC值(20)显示在中表2此外,我们将高斯空间回归拟合到数据集,其中考虑了平均值=中值(对称情况)的建模,允许我们比较(20). 请注意,具有平方根链接的BS模型优于高斯模型。从该表中,我们得出结论,应选择具有平方根链接函数的BS空间分位数回归。 所选模型参数的最大似然估计和相应的渐近标准误差,使用鲁棒协方差矩阵方法估计[46]括号中的和表示为:这些标准误差很低,表明所有参数都是以良好的统计精度估计的,并使我们能够推断它们一定是模型的一部分。基于(13),注意参数使用置信区间法,显著性为5%,这意味着存在空间依赖性。因此,估计的BS空间分位数回归模型如下所示其中相关性矩阵确定为,用于并在进行评估,而BS空间分位数回归模型的方差-方差矩阵定义于(12)估计为哪里对应于评估时间:,和获得评估在和. 图4提供了删除带外位置后,通过Wilson–Hilferty近似转换的残差QQ图。请注意,大多数残差都在带内。此外,图5a显示三维散点图,其中显示了T型。这些相同的值显示在中的二维散点图中图5b.这些曲线图使我们能够观察到我们的模型与数据的良好拟合。因此,我们得出结论,BS空间分位数回归模型足以描述这些空间数据,但如果考虑重尾非对称分布,例如BS-Student-t分布,则可以获得更好的拟合。然而,这超出了本研究的目标,为进一步研究提供了挑战。 9.结论和未来工作
在本文中,我们获得了以下发现:
- (i)
建立了多元Birnbaum-Saunders分布的一种新的参数化方法。
- (ii)
提出并推导了一种新的Birnbaum–Saunders空间分位数回归模型。
- (iii)
我们已经为所建议模型的参数开发了最大似然估计。
- (iv)
随机分位数残差已用于模型检查。我们利用威尔逊-希尔弗蒂近似值作为空间模型残差来评估充分性模型。
- (v)
所得结果已应用于实际数据集,以说明其潜在用途。
因此,我们导出了一类新的空间分位数回归,这对于建模正斜分布生成的数据很有用。这种空间回归的主要特征是对响应变量的分位数进行建模,该响应变量遵循Birnbaum-Saunders分布。数值结果表明,空间分位数回归模型具有良好的性能,这表明在处理具有空间相关性、正支持度和遵循向右倾斜分布的数据时,Birnbaum–Saunders分布是一个很好的建模选择。因此,它可以成为应用统计学家和数据科学家工具包的宝贵补充。
以下方面是Birnbaum–Saunders空间分位数回归模型的未决问题,可以在未来的工作中加以考虑:
- (i)
独立性的全球测试可能基于(或,的单位矩阵)。具体来说,让是完整模型的似然函数是简化模型的似然函数(在表示独立)。随后,我们可以使用似然比统计进行测试因此,不使用未知,可以使用引导测试。
- (ii)
此外,我们可以考虑与在这种情况下在下面是具有零自由度和一自由度的X平方分布的等权混合,其临界值为2.7055,显著性水平为5%[47]. 在空间情况下,这种分布也可能未知,因此可以使用引导技术。 - (iii)
研究极大似然估计量的渐近行为和性能的细节是很有意义的[48]. 然而,渐近框架对空间数据的适用性并不是一个容易的方面。这是因为至少有两个相关的框架,在估计空间相关性参数时,它们的行为可能会大不相同;有关这些渐近框架及其含义的详细信息,请参阅[49]. - (iv)
Birnbaum–Saunders分布基于正态分布,空间分位数回归模型中的参数估计会受到非典型情况的影响。因此,可以考虑对这些情况进行稳健估计,例如基于Birnbaum–Saunders-t分布,以降低其影响;参见[50]. - (v)
除了通过回归添加到建模中的固定效应外,还可以通过混合模型添加随机效应,这可能会产生更复杂的Birnbaum-Saunders空间分位数回归模型并更接近现实[51]. - (vi)
可以对Birnbaum–Saunders空间分位数回归进行局部影响诊断,这允许检测病例的单个或组合影响。许多作者对Birnbaum-Saunders模型中的局部影响进行了研究;例如,请参见[18,23,25,52].
对这些问题的研究正在进行中,其结果将在未来的文章中报告。