跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
J应用统计。2022; 49(13): 3436–3450.
2021年7月11日在线发布。 数字对象标识:10.1080/02664763.2021.1950654
预防性维修识别码:项目经理C542646
PMID:36213780

随机效应分位数回归中的贝叶斯变量选择:在城市人类发展指数中的应用

摘要

根据巴西《人类发展地图集》,城市人类发展指数的收入层面是一个指标,表明一个城市的人口有能力确保最低生活水平,以满足其基本需求,如水、食物和住房。在公共政策中,研究目标之一是确定与该指数相关的社会和经济变量。由于收入不平等,用分位数而不是平均数来评估这些关联可能更有趣。因此,本文在具有分层随机效应的分位数回归模型中发展了贝叶斯变量选择。特别地,我们假设了一个基于广义非对称拉普拉斯分布的似然函数,并使用尖峰-拉普拉斯先验进行变量选择。广义非对称拉普拉斯分布是一种比非对称拉布拉斯分布更普遍的替代方法,非对称拉place分布是贝叶斯范式下分位数回归中常用的方法。通过综合仿真研究评估了所提方法的性能,并将其应用于里约热内卢市的MHDI-I。

关键词:位置-尺度混合表示,层次模型,MCMC算法

1.简介

在各个领域,人们对研究随机变量之间的分位数关联性而非平均值关联性产生了兴趣。在环境科学中,异常气候事件的频率越来越高,这增加了识别环境因素与重尾的关系的重要性[37]. 在公共政策评估中,急诊相关医疗支出的时空趋势分析与分位数更为相关,因为大多数观察到的变化都是极端的[29]. 在金融领域,最近的全球危机表明,一家金融公司的极端损失可能会对其他机构甚至整个金融体系造成巨大影响[36]. 例如,在经济学中,收入不平等是讨论的中心话题,收入分配之间的差异至关重要[14]. 在本文中,我们特别感兴趣的是对里约热内卢市政人类发展指数(以下简称MHDI-I)的收入维度的分析,与前几例一样,分位数回归是一种很有吸引力的方法[21].

除了对响应变量和协变量之间的关系提供更全面的描述外,分位数回归是异方差和离群值的稳健替代方法。从贝叶斯的角度来看,最流行的方法假设基于非对称拉普拉斯的似然函数(A类L(左))分配[43]. 的位置比例混合表示A类L(左)能够使用简单高效的吉布斯采样算法对所有未知量进行采样[22]. 这种方法被应用于无数研究领域:序数模型[33],分层线性模型[41],动态模型[25],空间[23]和时空模型[29].

尽管它在不同的场景中具有广泛的适用性和合理的结果A类L(左)误差的分布假设引起了人们对该方法是否适用于一大类分布的关注。在其局限性中,我们可以强调以下几点:偏度完全由指定的分位数决定;在中位数情况下,该分布被简化为对称拉普拉斯分布;模式位于零,考虑到极端分位数,导致刚性误差。从这个意义上说,Yan和Kottas[39]提出一种替代分布,广义非对称拉普拉斯分布(G公司A类L(左)). 这种分布包括一个形状参数,允许比A类L(左),同时将其保留为特定情况。申请的主要限制A类L(左)G公司A类L(左)分布是不可能直接对离散数据进行分位数推理,而我们的情况并非如此。此外,使用非真实的可能性意味着后验推理的有效性不再得到保证。A类L(左)案例,Yang等。[40]观察到尺度参数影响后验方差,并表明对后验链协方差矩阵的调整可导致渐近有效的后验推断。

在我们的研究中,一个重要的问题是确定大量人口、教育、劳动力市场和居住辅助变量对MHDI-I的影响,以及它们中的哪些实际上影响了该指数。为此,我们的分位数回归模型中包含了变量选择。变量选择方法通过选择回归预测因子的适当子集发挥着至关重要的作用,特别是在解释变量数量较多的情况下。除了增强简约性,从而更好地解释辅助变量的影响外,变量选择自然会提高预测精度。

最近在分位数回归领域取得了进展,特别是考虑到贝叶斯变量选择。阿拉姆扎维和余[1]和Alhamzawi等。[]分别引入信息随机搜索变量选择和贝叶斯自适应拉索A类L(左)错误的分布。阿拉姆扎维等。[2]提出一种惩罚线性混合分位数回归,指定固定和随机效应的拉普拉斯先验。Xi(希)等。[38]提出了一种基于经验似然的贝叶斯非参数方法,该方法将模型建立在经验似然基础上,并将尖峰和斜峰先验应用于变量选择。等。[12]探索二分位回归中一个简单的变量选择过程,计算所有候选模型的贝叶斯因子。等。[26]使用类似的方法[]然而,在最大熵分位数回归中。最后,刘等。[24]根据以下条件对功能性反应进行分位数回归A类L(左)通过使用全局收缩先验来误差和正则化基系数。

基于2010年里约热内卢州市政当局的MHDI-I数据,我们开发了基于分位数回归模型的贝叶斯变量选择程序。特别地,我们假设一个基于G公司A类L(左)分布,并使用尖峰和斜线先验来执行变量选择。尖峰和磨光的先验最初是由米切尔和波尚提出的[27]还有乔治和麦卡洛奇[15]. 在21世纪初[18,19]使用了一个重新缩放的spike-and-slab模型,其中考虑了超变参数的连续双峰先验。最近,Rockova和George[34]之前介绍了尖刺拉索。

此外,里约热内卢地区之间存在异质性,这就需要在我们提出的方法中引入随机效应。因此,我们的方法论是余的延伸等。[42],因为我们对误差采用了比A类L(左),并在截距中包含随机效果[16]. 以这种方式,我们的目的是分析一组协变量如何与里约热内卢市的MHDI-I相关,以及它在不同分位数之间的行为,例如了解贫穷和富裕城市之间的主要差异。

本文的其余部分组织如下。章节2带来了对MHDI-I数据集的描述。章节给出了我们的模型和推理过程。在节中4,我们制定了一个模拟研究来验证变量选择在分位数回归中的性能G公司A类L(左)不同场景下的错误。将我们的方法应用于数据集得到的结果在第节中进行了分析5最后,第节6最后总结并讨论了可能的扩展。

2.数据

本文所考虑的数据集包含2010年里约热内卢州各市的MHDI-I,2010年巴西进行了最后一次人口普查,以及一组42个协变量,分为四组:人口、教育、劳动力市场和居住。附录1对这些协变量进行了更详细的描述。该指数由巴西人类发展地图集网站(www.atlasbrasil.org.br)提供,其他变量可在巴西地理统计研究所网站的SIDRA平台上获得。

里约热内卢位于巴西东南部地区。它的国内生产总值(GDP)位居第二,根据人口普查,人口数量居第三,人类发展指数居全国第四。该州分为92个市,分为5个地区。这些区域由IBGE按照基于城市网络的标准进行定义。因此,每个区域都是从大都市区和区域首都设计的。如果这些参考资料不可用,则使用代表一组市政当局的次要城市中心。这些地区通过基于私人和公共行政流以及高度复杂的城市功能的等级枢纽来组织领土。1图中显示了里约热内卢州的地图,其中包含灰度区域。A2级附录2中列举了位于其上的城市。

保存图片、插图等的外部文件。对象名称为CJAS_A_1950654_F0001_OB.jpg

巴西里约热内卢州及其五个地区的地理展示。

根据巴西人类发展地图集,MHDI-I是一个指标,它显示了一个城市的人口有能力确保最低生活水平,以满足其基本需求,如水、食物和住房。该指数基于从人口普查问卷答复中获得的值,计算如下:

MHDI-I公司=自然对数(人均收入) -自然对数(最小参考值)自然对数(最大参考值) -自然对数(最小参考值)

其中,最大值相当于联邦单位最富有的10%居民中人均最低收入的金额,平均收入最高,最小值大约相当于100美元的购买力平价(PPP),这是计算全球人类发展指数时使用的约束条件。然后,接近0的值表示一个城市的人均收入约为100美元购买力平价。另一方面,接近1的值表明,一个市的人均收入接近联邦单位最富有的10%的居民的平均收入。

2说明了MHDI-I在各个地区的分布情况,我们强调了其中的两个主要观察结果。里约热内卢和尼特罗伊都位于里约热内罗市区,是MHDI-II最高的城市。虽然前者是该州的首府,但后者的生活质量最高。此外,各地区之间存在着显著程度的异质性。除中位数外,MHDI-I分布的变异性甚至不对称性也因地区而异。下一节将通过层次模型探讨这一特性。

保存图片、插图等的外部文件。对象名称为CJAS_A_1950654_F0002_OB.jpg

里约热内卢各地区MHDI-I分布的箱线图。

显示了两个特定辅助变量和MHDI-I的散点图。这两个图都显示了一些异常值的存在,特别是在右边的图中,似乎违反了经典回归的同方差假设。这些事实也促使我们直接计算协变量对分位数的影响,而不是假设一个潜在的条件分布并将分析降低到期望值。

保存图片、插图等的外部文件。对象名称为CJAS_A_1950654_F0003_OB.jpg

的散点图%贸易部门就业(18+)和%持有正式合同(18+)和MHDI-I的工人。

最后,图中的直方图和分位数-分位数图4考虑到响应变量MHDI-I和所有42个协变量的logit变换,显示了用正态分布误差、分层随机效应和变量选择拟合回归模型后获得的残差分布。这种分布似乎呈负偏态,表明正态分布不适合于数据集。因此,在下一节中,我们提出了一种方法,以适应这些数据特征,从而改进线性预测。

保存图片、插图等的外部文件。对象名称为CJAS_A_1950654_F0004_OB.jpg

直方图和分位数–在执行变量选择之前,使用尖峰和斜线拟合正常层次模型后获得的残差分位数图。

3.方法

3.1. 模型

j个成为市政当局的MHDI-Ij个在其相应区域在里约热内卢州j个=1,,n个,=1,,,用于 = 5个地区和n个==1n个=92市政当局。观察范围有限[0,1]在这种情况下,我们提醒分位数函数的单调变换性质的等方差[20]. 小时()是上的非递减函数R(右),那么对于任何随机变量,τ(小时())=小时(τ()),其中τ()代表τ的第个分位数。等方差属性允许返回原始变量生成的条件分位数τ()=小时1(小时(τ()).

在应用程序中,我们特别假设link函数小时():[0,1]R(右)是logit变换,表示小时(j个)=日志[j个/(1j个)]然后τ第个分位数,τ(0,1),第页,共页小时(j个)由随机效应和解释变量的线性组合描述,如下所示:

τ(小时(j个))=α(τ)+x个j个T型β(τ),
(1)

哪里τ(小时(j个))=inf公司{:P(P)(小时(j个)<)τ},用于R(右),表示τ-分位数j个此外,x个j个是一个q个-城市辅助变量的维列向量j个在其相应区域,β(τ)q个-维度列向量τth回归系数和α(τ)是与区域相关的随机效果从此,上标τ为了使符号尽可能简单,将省略。

正如Santos和Bolfarine强调的那样[35]与回归分析问题相比,这里的转换有着不同的目的,因为后者会尝试获得常规线性模型的正态分布,避免这种转换是在处理区间数据时使用β回归的动机[0,1]在分位数回归中,转换不是将数据近似为G公司A类L(左)分布,但确保分析不会考虑值超出范围的密度[0,1]可能性。根据数据的不对称性,在分析高极值分位数时,这一事实特别重要。

遵循Koenker和Bassett的定义[21],的τ方程中表达式的分位数回归估计(1)是分位数最小化问题的任何解

最小值θ=1j个=1n个ρτ(小时(j个)ζj个T型θ),

哪里ζj个T型=(1,x个j个T型),θ=(θ1,,θ),用于θ=(α,β)、和ρτ(.)损失(或检查)函数定义为ρτ(u个)=u个(τ1(u个<0)),使用1()表示指示器功能。从贝叶斯的观点来看,我们可以使用最小化损失函数的思想ρτ()相当于基于G公司A类L(左)[39]或其特定情况A类L(左)分配[43]. 然而,不是最大化似然,而是获得参数向量的后验分布。

因此,我们的方法假设G公司A类L(左)分配小时(j个),这是:

小时(j个)ηj个,σ,γG公司A类L(左)τ(ηj个,σ,γ),

哪里τ是固定分位数,ηj个=α+x个j个T型βR(右)是位置参数,αN个(μ,φ),σ>0是一个比例参数,并且γR(右)是一个形状参数,用于启用相对于A类L(左)分配。这个A类L(左)γ=0.由于广义非对称拉普拉斯分布的位置-尺度混合表示[39],我们提出的方法可以分层表示如下:

小时(j个)|α,x个j个,β,γ,σ,z(z)j个,j个,τN个(α+x个j个T型β+σκ|γ|j个+κ1z(z)j个,κ2σz(z)j个)α|μ,φN个(μ,φ)Z轴j个|σE类x个第页(σ)S公司j个N个+(0,1).
(2)

哪里κ1=12ττ(1τ),κ2=2τ(1τ),κ=[1(γ>0)τ)]1,第页=1(γ<0)+τ1(γ<0)(γ)、和(γ)=2Φ(|γ|)e(电子)γ2/2.潜在变量Z轴j个S公司j个启用先前的层次结构,提供几乎完全可处理的条件后验密度,参数除外γ简化了马尔可夫链蒙特卡罗(MCMC)方案。在这里,N个(,),E类x个第页()N个+(,)表示上的法线、指数和截断法线R(右)+分布。参数γ在区间上具有有界支持(L(左),U型),其中L(左)是的负根(γ)=1τU型是的正根(γ)=τ.

然后小时(),α和潜在变量Z轴S公司由提供

(f)(小时(),α,z(z),|x个,ϑ,μ,φ)==1(f)(α|μ,φ)j个=1n个(f)(小时(j个)|α,x个j个,ϑ,z(z)j个,j个)(f)(z(z)j个|σ)(f)(j个),

哪里小时()=(小时(11),,小时(1n个1),,小时(1),,小时(n个)),z(z)=(z(z)11,,z(z)1n个1,,z(z)1,,z(z)n个),=(11,,1n个1,,1,,n个),x个=(x个11,,x个1n个1,,x个1,,x个n个),α=(α1,,α)ϑ=(β,γ,σ).

在我们的分位数回归模型中还考虑了贝叶斯变量选择。据巴德拉介绍等。[5],稀疏参数估计的贝叶斯过程可分为两类:全局-局部收缩先验[8–10,30]和两组模型或spike-and-slab先验[6,11,13]. 后者将点质量的离散混合物(尖峰)和绝对连续密度(平板)放在每个参数上,这是本文中应用的方法。因此,假设指标变量π=(π1,,πq个)、和独立条目先验的,其中πk个B类e(电子)第页n个o个u个(ξ),k个=1,,q个,我们有

(f)(π|ξ)=k个=1q个ξπk个(1ξ)1πk个
(3)

(f)(β|π)=k个=1q个[(f)(βk个)]πk个,
(4)

哪里βk个N个(b条0,B类0).

3.2. 推理程序

θ=(ϑ,μ,φ)是参数向量。从贝叶斯的角度来看,模型是在为θ.假设参数向量的分量是独立的先验的,我们采用以下分布:σG公司(c(c)1,c(c)2),μN个(μ0,ψ0),φG公司(小时1,小时2)、和ξB类e(电子)(1,2).固定τ,区间内重新缩放的Beta分布(L(左),U型)是一个自然的选择γ[39]. 最后,为β在方程式中表示()和(4). 在这里,c(c)1,c(c)2,小时1,小时2,μ0,ψ0,1,2是已知的超参数,以及B类e(电子)(,)G公司(,)分别表示β分布和逆γ分布。

然后,关节后部密度θ,α和潜在变量Z轴、和S公司可以写为

(f)(θ,α,z(z),|小时(),x个)=1(f)(α|μ,φ)j个=1n个(f)(小时(j个)|α,x个j个,ϑ,z(z)j个,j个)(f)(z(z)j个|σ)(f)(j个)×(f)(θ),
(5)

哪里(f)(θ)=(f)(β|π)(f)(π|ξ)(f)(ξ)(f)(σ)(f)(γ)(f)(μ)(f)(φ).方程中的增强后验分布(5)没有分析表达式,但可以探索MCMC方法。特别是,我们对除γ,我们使用Metropolis–Hastings算法从完整条件后验分布中采样。后验模拟方法基于以下更新:

  • 样品ξB类e(电子)(1,2),其中1=1+k个=1q个πk个2=2+k个=1q个(1πk个)
  • 对于k个=1,,q个,示例πk个
    (f)(πk个=1|π(k个),小时())=(f)(πk个=1|π(k个),小时())(f)(πk个=1|π(k个),小时())+(f)(πk个=0|π(k个),小时()),
    在哪儿π(k个)是向量π没有条目k个
  • 样品βN个q个(b条1,B类1),带有协方差矩阵B类11=B类01+=1j个=1n个x个j个x个j个T型κ2σz(z)j个,和平均向量b条1=B类1[B类01b条0+=1j个=1n个x个j个[小时(j个)(α+σκ|γ|j个+κ1z(z)j个)]κ2σz(z)j个].给,q个是所选变量的数量,β是这些变量的系数,B类0=q个B类0,b条0=1q个b条0、和N个ι(,)表示ι-变量正态分布
  • 对于每个j个=1,,n个,=1,,,示例z(z)j个从广义逆高斯分布G公司G公司(0.5,υj个,ωj个),其中υj个=[小时(j个)(α+x个j个T型β+σκ|γ|j个)]2κ2σωj个=2σ+κ12κ2σ,密度由G公司G公司(ν,υ,ω)x个ν1经验{0.5(υ/x个+ωx个)}
  • 对于每个j个=1,,n个,=1,,,示例j个来自N个+(μj个,σj个2),其中σj个2=[1+(κγ)2σκ2z(z)j个]1、和μj个=σj个2κ|γ|小时(j个)(α+x个j个T型β+κ1z(z)j个)κ2z(z)j个
  • 样品σ来自G公司G公司(c(c)1,c(c)2,ω)分布,其中c(c)1=(c(c)1+1.5n个),c(c)2=2c(c)2+2=1j个=1n个z(z)j个+=1j个=1n个[小时(j个)(α+x个j个T型β+κ1z(z)j个)]2κ2z(z)j个、和ω==1j个=1n个(κ|γ|j个)2κ2z(z)j个
  • 更新γ使用Metropolis-Hastings步骤,在logit范围内使用正态提案分布(L(左),U型)
  • 对于每个=1,,,示例α来自N个(μ,φ),其中φ=φκ2σκ2σ+φj个=1n个z(z)j个、和μ=κ2σμ+φj个=1n个z(z)j个1[小时(j个)(x个j个T型β+σκ|γ|j个+κ1z(z)j个)]κ2σ+φj个=1n个z(z)j个;
  • 样品μ来自N个(μ0,ψ0),其中ψ0=(φψ0)/(ψ0+φ)、和μ0=(ψ0=1α+φμ0)/(ψ0+φ)
  • 样品φ来自G公司(小时1,小时2),其中小时1=小时1+0.5、和小时2=小时2+0.5=1(αμ)2.

4.仿真研究

在本节中,我们进行了模拟研究,以说明我们的变量选择过程在不同场景下的性能。为此,100个随机样本的大小n个 = 100生成如下:

j个=α+x个j个T型β+ϵj个,=1,,,j个=1,,n个,

哪里 = 5,n个=20对于=1,,5,ϵj个τ分位数等于零,α=(0.1,0.3,0.5,0.7,0.9)、和β=(2,0,1.5,0,0,0,1,0,0,0,0_).给,x个j个是一个q个-用均值向量从多元正态分布中提取协变量的维数向量0和一个相关矩阵∑,其中对角线为1,其他条目为ρ[0,1]、和0_是一个(q个-10) -零的维向量。

这些场景由相关性参数的两个不同值的组合组成ρ例如,0和0.5,两种不同大小的q个{50,105},和三种不同的误差分布:正态分布,学生t吨标度参数和自由度分别等于1和3的分布以及斜正态分布[4]尺度和偏度参数分别等于6和2。选择这些分布的参数是为了使其方差等于3。通过这种方式,我们打算涵盖从非相关协变量到相关协变量的场景,从与我们的应用程序中大小相似的预测向量到q个>n个从对称到非对称,从低到高的峰度数据集。总的来说,我们有12个场景,并符合第节中提出的模型考虑到分位数0.1、0.5、0.9和小时(.)身份函数。

为了进一步检查我们的方法的性能,计算100个模拟数据集上的系数的平均值和中位数是很有趣的,这些系数的真值不同于正确选择的零(TP),而其真值为零(FP)。1给出了这些结果,从一般的角度来看,可以得出结论,我们的方法在模拟场景中具有良好的性能,与数据的原始分布无关。查找结果q个 = 50和q个 = 105,我们观察到,与后者相比,考虑到前者,变量选择过程表现更好。比较的结果ρ=0ρ=0.5,我们还观察到假设前者与后者相比具有更好的性能。这些结果是预期的,因为文献中众所周知q个和相关性ρ变量选择过程越糟糕。

表1。

100个模拟数据集的真阳性和假阳性(TP/FP)平均值。括号中显示了中值。

  q个 = 50q个 = 105
   ρ=0 ρ=0.5 ρ=0 ρ=0.5
正常 τ=0.12.89(3)/0.01(0)2.62(3)/0.06(0)2.87(3)/0.07(0)2.61(3)/0.14(0)
  τ=0.52.93(3)/0.03(0)2.60(3)/0.05(0)2.85(3)/0.04(0)2.49(2)/0.08(0)
  τ=0.92.92(3)/0.05(0)2.62(3)/0.08(0)2.83(3)/0.05(0)2.59(3)/0.08(0)
学生-t吨 τ=0.12.97(3)/0.02(0)2.83(3)/0.03(0)2.97(3)/0.03(0)2.81(3)/0.07(0)
  τ=0.53.00(3)/0.00(0)2.95(3)/0.02(0)3.00(3)/0.00(0)2.93(3)/0.04(0)
  τ=0.92.99(3)/0.04(0)2.80(3)/0.02(0)2.98(3)/0.05(0)2.78(3)/0.02(0)
倾斜-法线 τ=0.12.91(3)/0.03(0)2.70(3)/0.06(0)2.91(3)/0.07(0)2.64(0)/0.08(0)
  τ=0.52.92(3)/0.05(0)2.64(3)/0.10(0)2.87(3)/0.08(0)2.60(3)/0.10(0)
  τ=0.92.83(3)/0.05(0)2.58(3)/0.07(0)2.81(3)/0.11(0)2.53(3)/0.11(0)

5.结果

在本节中,我们分析了里约热内卢州各市2010年的MHDI-I数据。除了建议的分位数回归,方程中描述的尖峰和平顶先验(SS)和随机效应(RE)(2)–(4)(以下简称SS-RE-G公司A类L(左)),我们为误差拟合了其他三个规范:非对称拉普拉斯(SS-RE-A类L(左)),学生的t吨(SS-RE-T)和正态(SS-RE-N)分布。所有例程都在R中实现[32]和在中可用https://github.com/marcuslavanole。对于此分析,我们设置非信息先验值,指定以下超参数:b条0=0,B类0=100,c(c)1=0.01,c(c)2=0.01,小时1=0.01,小时2=0.01,μ0=0,ψ0=1,1=1,2=1此外,我们根据第节中描述的MCMC算法运行了300000次迭代3.2,放弃前100000次迭代作为老化期和少量200个观察值,以避免自相关。后验估计基于1000个样本。

2包含从以下集合中选择的变量的系数的点和区间估计q个 = 至少一种型号为42。对于所有模型和所有分位数(τ=0.1,τ=0.5,τ=0.9),变量x个9在表中A1类,学士学位人口(25+),已被选中。变量x个36,没有小学文凭和正式合同的人(18岁以上)反过来,被选为SS-RE车型-G公司A类L(左)和SS-RE-A类L(左),但只针对分位数τ=0.1.

表2。

为至少一个模型选择的变量的系数的后验平均值和95%最高后验密度(HPD)区间。

系数平均值/τ不锈钢-RE-N不锈钢-RE-TSS-RE公司-A类L(左)不锈钢-RE-G公司A类L(左)
β9平均值0.19260.1943  
  (0.1473,0.2404)(0.1586,0.2362)  
  τ=0.1  0.157600.1740
    (0.1271,0.1796)(0.1541,0.1937)
  τ=0.5  0.19660.1997
    (0.1815,0.2169)(0.1798,0.2269)
  τ=0.9  0.22260.2131
    (0.2096,0.2342)(0.1828,0.2280)
β36 τ=0.1   0.0707 0.0538
     ((0.0947,0.0477) (0.0772,0.0327)

变量学士学位人口(25+)是拥有学士学位的25岁以上人口的百分比。在文献中,大学学位与收入之间的正相关关系是众所周知的[17,28]. 从结果中,我们还注意到,考虑到SS-RE-A类L(左)和SS-RE-G公司A类L(左)随着分位数的增长,系数也在增加,这表明大学学位在富裕城市的影响更大,而在贫困城市的影响更小。一个合理的解释是,贫困城市对合格工作的需求较低,因此工资也较低。奎罗斯等。[31]例如,调查了巴西特定城市/地区技术人员的高度集中,以及人力资本初始水平较高的城市中技术人员增长速度更快的决定因素,发现巴西城市一级的教育与工资之间也存在着密切的关系。

变量没有小学文凭和正式合同的人(18岁以上)表示未获得小学文凭且未签订正式劳动合同的18岁以上人口的百分比。然后,一部分没有接受基础教育的人口面临着不稳定的就业关系。我们注意到,该变量与MHDI-I显著负相关,但仅适用于τ=0.1这种显著的负相关性也与经济学文献中报告的结果一致。博洛尼亚[7]研究了非正规经济部门规模对总收入水平的影响,并找到了有力的证据证明其负面影响和统计意义重大。

图中的箱线图5显示了通过分位数和区域从我们的MCMC方案获得的随机效应的后验分布。图中所示的异质性图22事实上,正被α,=1,,,分位数的分布中出现了类似的模式τ=0.5τ=0.9,但对于τ=0.1如预期,可以观察到效果级别随着τ此外,Macaé-Rio das Ostras-Cabo Frio地区的MHDI-I水平最高,尤其是τ=0.5τ=0.9该地区的经济是以旅游业为基础的,考虑到所分析的时期,2007年巴西盐前地层中发现的石油和天然气储量对该地区产生了重大影响,这一事实在接下来的几年里推动了该地区一些市镇的大规模投资。

保存图片、插图等的外部文件。对象名称为CJAS_A_1950654_F0005_OB.jpg

具有以下后验样本的箱线图α按里约热内卢地区分析的分位数。

6显示参数后验样本的直方图γ在中G公司A类L(左)考虑分布τ=0.1,0.5,0.9从这些直方图中,我们可以看到,除了分位数0.5之外95%HPD可信区间包含零,表明SS-RE-G公司A类L(左)模型捕获了SS-RE-A类L(左)无法。当我们查看自由度的点和区间估计时,出现了另一个有趣的结果ν在SS-RE中-T型型号分别为2.0566和(2.0000,2.2325),并注意存在重尾。这一事实证实了第节中提到的非正常现象2如图所示图44.

保存图片、插图等的外部文件。对象名称为CJAS_A_1950654_F0006_OB.jpg

后面样本的直方图γ用于所分析的分位数。全线表示后验均值,虚线表示95%可信区间γ.

6.最后备注

在这篇文章中,我们考虑了分位数回归中基于尖峰和平板先验的贝叶斯变量选择。通过假设G公司A类L(左)如果与众所周知的错误分配相比,我们可以实现更高程度的灵活性A类L(左)分布,包括层次随机效应,我们考虑到单元之间的异质性。仿真研究表明,我们的方法对于第节中介绍的所有场景都表现得相当好4然后,我们应用我们的模型选择与里约热内卢市政人类发展指数(MHDI-I)收入维度相关的变量。

在我们的分析中,我们使用不同资源和不同特征的数据集来探索不同的社会方面,如人口、教育、劳动力市场和居住。我们数据库中的一个限制点是,由于2010年是巴西进行最后一次人口普查的年份,所以我们只有2010年的信息。因此,我们得到了对于所有被分析的分位数,变量学士学位人口(25+)与MHDI-I呈正相关。考虑到分位数0.1,变量没有小学文凭和正式合同的人(18岁以上)与指数呈负相关。对于未来的研究来说,考虑更多的州,从而考虑更多的市镇和地区,纳入回归系数的等级结构,并制定适合这一新框架的变量选择,这将是一个有趣的话题。

附录。

附录1。协变量列表。

表A1。

变量姓名变量姓名
x个1 预期寿命 x个22 %转型行业就业(18+)
x个2 生育率 x个23 参与率(18+)
x个 婴儿死亡率 x个24 %公共部门就业(18+)
x个4 老化指数 x个25 %巴西劳动法涵盖的工人(18+)
x个5 学校预期寿命 x个26 %有自来水的住户
x个6 识字率(18-24) x个27 %密度大于2的家庭人口
x个7 识字率(25+) x个28 %垃圾收集家庭中的人
x个8 %高中文凭人口(18-24) x个29 %有电的家庭中的人
x个9 %学士学位人口(25+) x个30 %供水和排污系统不足的家庭中的居民
x个10 %自营就业率(18+) x个31 %墙壁不足的家庭中的人
x个11 %雇主(18+) x个32 %无小学文凭家庭中的儿童
x个12 %农业就业(18+) x个33 %失学儿童(4-5)
x个13 %贸易部门就业(18+) x个34 %失学儿童(6-14)
x个14 %建筑业就业(18+) x个35 %没有小学文凭的家庭成员
x个15 %矿物开采行业就业(18+) x个36 %没有小学文凭和正式合同的人(18岁以上)
x个16 %有正式合同的工人(18+) x个37 %有孩子的女性(10-14岁)
x个17 %小学文凭工人(18+) x个38 %有孩子的妇女(15-17岁)
x个18 %高中文凭工人(18+) x个39 %没有小学文凭且子女超过15岁的女性户主家庭
x个19 %服务业就业(18+) x个40 经济活动人口(10-14)
x个20 %公共事业工业服务业就业(18+) x个41 经济活动人口(15-17)
x个21 %学士学位工人(18+) x个42 经济活动人口(18+)

附录2。里约热内卢市名单。

表A2。

里约热内卢
贝尔福德·罗克索卡西亚斯公爵瓜皮米林伊塔博拉伊伊塔博拉伊
日本Magé曼加拉提巴马里卡梅斯基塔
尼洛波利斯尼特罗伊新伊瓜苏帕拉坎比奎马多斯
里约热内卢圣戈萨洛圣若昂·德梅里蒂萨夸雷马塞洛佩迪卡
Tanguá安格拉·多斯·里斯帕拉蒂Macacu的Cachoeiras里奥·博尼托
Silva Jardim公司    
沃尔塔·雷东达·巴拉·曼萨
巴拉·多·皮雷巴拉-曼萨门德斯里奥·克拉罗沃尔塔·雷东达
继承人Engenheiro Paulo de Frontin公司皮拉伊意大利雷亚尔港
奎蒂斯重新发送米盖尔·佩雷拉帕蒂·多·阿弗雷斯里奥达斯·弗洛雷斯
瓦伦萨瓦索拉斯   
彼得罗波利斯
区域彼得罗波利斯圣何塞多谷里约普雷托特雷索波利斯博姆·贾迪姆
坎塔加洛卡莫科尔代罗杜亚斯·巴拉斯马库科
新弗里堡圣玛丽亚·马达莱纳圣塞巴斯蒂奥多阿尔托米多罗特拉贾诺·德莫雷斯(Trajano de Moraes)
科门达多·利维·加斯帕里安南帕拉巴岛萨普西亚特里斯里奥斯 
Campos dos Goytacazes公司
Campos dos Goytacazes公司卡多索·莫雷拉伊塔尔瓦圣菲德利斯圣弗朗西斯科·德伊塔巴波阿纳
圣若昂·达巴拉Bom Jesus do Itabapoana出生伊塔佩鲁纳Laje do Muriaé民族音乐节
猪属圣何塞·德乌巴Varre-Sai公司阿佩里贝坎布希
伊塔卡纳米拉西玛圣安东尼奥·德·帕杜瓦  
Macaé-Rio das Ostras-Cabo Frio公司
阿拉鲁亚马阿马桑·多斯·布齐奥斯阿拉亚尔多卡博卡波·弗里奥伊瓜巴·格兰德
圣佩德罗·达阿尔德拉卡拉佩布斯卡西米罗·德·阿布鲁马卡布的康西奥马卡(Macaé)
基萨姆Rio das Ostras公司   

资金筹措表

Kelly C.M.Gonçalves得到了巴西里约热内卢保护基金会(FAPERJ,ARC/210.047/2018)的资助。

披露声明

提交人没有报告任何潜在的利益冲突。

工具书类

1Alhamzawi R.和Yu K。,基于Gibbs抽样的分位数回归变量选择,J.应用。斯达。 39(2012),第799-813页。[谷歌学者]
2Alhamzawi R.和Yu K。,Bayesian-Lasso混合分位数回归,J.Stat.计算。模拟。 84(2014),第868–880页。[谷歌学者]
三。Alhamzawi R.、Yu K.和Benoit D.F。,贝叶斯自适应Lasso分位数回归,统计模型1。 12(2012),第279–297页。[谷歌学者]
4阿扎里尼A。,一类包含正态分布的分布,扫描。J.统计。 12(1985),第171-178页。[谷歌学者]
5Bhadra A.、Jyotishka D.、Polson N.G.和Willard B。,拉索遭遇马蹄铁:一项调查,统计科学。 34(2019年),第405-427页。[谷歌学者]
6Bogdan M.、Chakrabarti A.、Frommlet F.和Ghosh J.K。,若干多重测试过程稀疏性下的渐近Bayes最优,Ann.统计。 39(2011),第1551–1579页。[谷歌学者]
7博洛尼亚J。,非正规就业和腐败对巴西收入水平的影响,J.公司。经济。 44(2016),第657-695页。[谷歌学者]
8Brown P.J.和Griffin J.E。,回归问题中正态伽马先验分布的推断,贝叶斯分析。 5(2010),第171-188页。[谷歌学者]
9.Carvalho C.M.、Polson N.G.和Scott J.G。,通过马蹄铁处理稀疏,J.马赫。学习。物件。 5(2009),第73-80页。[谷歌学者]
10Carvalho C.M.、Polson N.G.和Scott J.G。,稀疏信号的马蹄形估计,生物特征 97(2010),第465-480页。[谷歌学者]
11卡斯蒂略一世和范德法特AAD。,干草堆中的针和稻草:可能稀疏序列的后向浓度,Ann.统计。 40(2012),第2069-2101页。[谷歌学者]
12哦M-S.、Park E.S.和Soa B-S。,二分位数回归中的贝叶斯变量选择,统计概率。莱特。 118(2016),第177-181页。[谷歌学者]
13埃夫隆·B。,微阵列、经验贝叶斯和两组模型,统计科学。 23(2008),第1-22页。[谷歌学者]
14Eide E.R.和Showalter M.H。,影响收入跨代传递的因素:分位数回归方法,J.哼哼,果断。 34(1999),第253-267页。[谷歌学者]
15George E.I.和McCulloch R.E。,通过吉布斯采样进行变量选择,美国统计协会。 88(1993),第881-889页。[谷歌学者]
16Geraci M.和Bottai M。,基于非对称拉普拉斯分布的纵向数据分位数回归,生物统计学 8(2007),第140–154页。[公共医学][谷歌学者]
17Glick P.C.和Miller H.P。,教育水平和潜在收入,Q.J.经济。 21(1956年),第307-312页。[谷歌学者]
18Ishwaran H.和Sunil Rao J。,利用贝叶斯模型选择检测微阵列中差异表达基因,美国统计协会。 98(2003),第438–455页。[谷歌学者]
19Ishwaran H.和Sunil Rao J。,尖峰和平板变量选择:频率和贝叶斯策略,Ann.统计。 33(2005),第730-773页。[谷歌学者]
20科恩克·R·。,分位数回归,第1版,剑桥大学出版社,剑桥。2005[谷歌学者]
21Koenker R.和Bassett G。,回归分位数,计量经济学 46(1978年),第33-50页。[谷歌学者]
22Kozumi H.和Kobayashi G。,贝叶斯分位数回归的吉布斯抽样方法,J.Stat.计算。模拟。 81(2011),第1565-1578页。[谷歌学者]
23Kristian L.和Gelfand A。,基于非对称拉普拉斯过程的空间分位数多元回归,贝叶斯分析。 7(2012),第235-258页。[谷歌学者]
24刘毅、李明、莫里斯J.S。,功能标度分位数回归及其在质谱蛋白质组数据中的应用,附录申请。斯达。 14(2020年),第521-541页。[谷歌学者]
25Gonçalves K.C.M.、Migon H.S.和Bastos L.S。,动态分位数线性模型:贝叶斯方法,贝叶斯分析。 15(2020年),第335-362页。[谷歌学者]
26涂S.、王M.和孙曦。,最大熵分位数回归中的贝叶斯变量选择与估计,J.应用。斯达。 44(2017),第253-269页。[谷歌学者]
27Mitchell T.J.和Beauchamp J.J。,线性回归中的贝叶斯变量选择,美国统计协会。 84(1988),第1023-1032页。[谷歌学者]
28Morgan J.和David M。,教育和收入,Q.J.经济学。 77(1963年),第423-437页。[谷歌学者]
29Neelon B.、Li F.、Burgette L.F.和B Neelon S.E。,急诊科支出的时空分位数回归模型,统计医学。 34(2015),第2559-2575页。[公共医学][谷歌学者]
30Polson N.G.和Scott J.G。,全局收缩,局部行动:稀疏贝叶斯正则化和预测,贝叶斯统计。 9(2010),第501-538页。[谷歌学者]
31Queiroz B.L.和Golgher A.B。,巴西各市州之间的人力资本差异,大众。版次。 47(2008),第25-49页。[谷歌学者]
32R核心团队。统计计算语言与环境奥地利维也纳:R统计计算基金会。https://www.R-project.org网站/.
33Rahman文学硕士。,序数模型的贝叶斯分位数回归,贝叶斯分析。 11(2016),第1-24页。[谷歌学者]
34Rockova V.和George E.I。,尖刺加拉索,美国统计协会。 113(2018),第431-444页。[谷歌学者]
35Santos B.和Bolfarine H。,基于分位数回归的零阶膨胀比例数据的贝叶斯分析,J.Stat.计算。模拟。 85(2015),第579-3593页。[谷歌学者]
36托拜厄斯A.和布伦纳梅尔M.K。,CoVaR公司,美国经济。版次。 106(2016),第1705页。[谷歌学者]
37Villarini G.、Smith J.A.、Baeck M.L.、Vitolo R.、Stephenson D.B.和Krajewski W.F。,美国中西部暴雨频率,J.水文学。(金额) 400(2011),第103–120页。[谷歌学者]
38谢瑞、李毅、胡毅。,基于经验似然的尖峰和平板先验贝叶斯分位数回归,贝叶斯分析。 11(2016),第821–855页。[谷歌学者]
39Yan Y.和Kottas A。,贝叶斯分位数回归的一类新的误差分布,科技部众议员圣克鲁斯:加利福尼亚大学,2015年。
40杨毅、王华杰、何欣。,具有不对称拉普拉斯似然的贝叶斯分位数回归中的后验推理,国际统计版次。 84(2016),第327-344页。[谷歌学者]
41于勇。,分层线性模型的贝叶斯分位数回归,J.Stat.计算。模拟。 85(2015),第3451–3467页。[谷歌学者]
42Yu K.、Chen C.W.S.、Reed C.和Dunson D.B。,分位数回归中的贝叶斯变量选择,统计接口 6(2013),第261-274页。[谷歌学者]
43Yu K.和Moyeed R.A。,贝叶斯分位数回归,统计概率。莱特。 54(2001),第437-447页。[谷歌学者]

文章来自应用统计学杂志由以下人员提供泰勒和弗朗西斯