总结
早产儿或小于胎龄儿的发病率和死亡率较高。利用德克萨斯州2002年至2004年的出生证明记录和环境保护局的空气污染估计,我们将出生体重和孕龄的分位数函数与臭氧暴露和多个预测因子(包括父母年龄、种族和教育水平)联系起来。我们引入了一种半参数贝叶斯分位数方法,该方法对整个分位数函数建模,而不仅仅是几个分位数级别。我们的多水平分位数函数模型分别建立了德克萨斯州公共卫生地区出生体重与孕周预测因子之间的关系,以及孕周与预测因子之间各自的关系。我们允许这些关系在胎龄、空间域和分位数水平上非线性变化,并通过对保留可解释性的回归系数进行基展开,将它们合并到一个层次模型中。极低出生体重是一个主要问题,因此我们利用极值理论来补充分布尾部的模型。妊娠年龄是在妊娠的完整周内记录的(整数值),因此我们提出了离散响应数据分位数函数建模的方法。在一项模拟研究中,我们表明跨胎龄和分位数水平汇集信息显著降低了预测效果的MSE。我们发现,在德克萨斯州南部,臭氧与胎龄较低的尾部以及高胎龄婴儿出生体重的分布呈负相关。我们的方法在R包中提供B方形.
1引言
早产儿(孕周小于37周)或小于胎龄儿(控制胎龄后低于出生体重的10%)的发病率和死亡率升高(Garite、Clark和Thorp,2004年;Honein等人,2009年;Pulver等人,2009年). 这些关联的原因包括器官功能不良、新陈代谢减少、胰岛素抵抗和生活后期对不良环境事件的敏感性增加(巴克,2006年). 早产儿和小于胎龄儿(SGA)的死亡率高于单独患有这两种情况的婴儿(Katz等人。,2013). 纳西、斯金纳和威廉姆斯(2010)发现调整生物变量的出生体重条件分布可以更好地识别高危婴儿。
我们的第一个科学目标是通过结合德克萨斯州出生证明记录中的个人特征和环境因素,更好地确定胎龄和出生体重的条件分布。在一篇具有类似目的的论文中,Gardosi等人。(1995)使用逐步回归来定义条件百分位数。我们想了解预测因子和这些变量尾部之间的关系,所以我们对出生结局的条件分位数函数进行建模。在一篇文献综述中,Šrám等人。(2005)认为空气污染与孕龄和宫内发育之间的关系值得进一步分析。我们的第二个科学目标是调查母亲接触对流层臭氧(环境保护局《清洁空气法》规定的标准污染物之一)对SGA和早产(PTB)的影响。
古典频率学家(Koenker和Bassett Jr,1978年;Koenker,2005年)和贝叶斯(Yu和Moyeed,2001年)分位数回归将条件分位数而不是条件平均数建模为预测函数。这使得能够推断分布的非中心部分,进行更少的假设,并且比平均回归对异常值更具鲁棒性。使用这些方法,在多个级别上进行拟合可以产生“交叉分位数”,其中对于一些预测值,分位数函数在分位数级别上减少。通过对系数的约束对多个分位数进行建模,可以确保分位数函数的单调性,如Bondell、Reich和Wang(2010)以及其中的参考。
上述方法对有限数量的分位数级别进行建模,并且不跨分位数级别共享信息。在我们期望近似分位数水平上的推断相似的应用程序中,鼓励沿着分布进行通信是很有用的。指定完整的分位数函数会在无数分位数级别上产生单独的参数效应,这促进了这种包罗万象的方法。分位数函数建模的最新示例包括Reich、Fuentes和Dunson(2011)他使用伯恩斯坦多项式、托克达尔和卡达内研究了温度对对流层臭氧的影响(2011)世卫组织使用随机积分分析出生体重。雷奇和史密斯(2013)将分位数函数方法扩展到截尾数据。
我们在应用中面临三个方法学障碍。PTB和低出生体重是密切相关但又不同的问题。研究人员倾向于定义SGA婴儿,以将其对出生体重的影响与对胎龄的影响区分开来,因此重要的是允许出生体重与预测因子之间的关系因胎龄而异。虽然多级回归模型非常适合对分布集合进行联合建模,但标准层次模型假设预测因素只影响响应的条件平均值。其次,人们对尾部非常感兴趣(特别是在极早产、SGA或胎龄较大的婴儿中),因此重要的是要使这些分布的尾部受到相对于中心的预测因子的不同影响。估计极低或极高分位数的参数影响通常是极值分析的范围。文献中存在多种条件极值方法。王和蔡(2009)通过参数的线性对数链接函数,建立了确定尾翼厚度的尾翼指数模型。王、李、和(2012)分位数在浅尾中回归,并将结果外推到厚尾数据的深尾中。我们的应用需要沿着分布进行推断,因此我们采用了周、张和富恩特斯的方法(2012)和Reich等人。(2013),他对分布的中间部分进行了半参数建模,并在阈值以上拟合参数形式。在这些应用中,要么为零(Zhou等人。,2012)或一个(Reich等人。,2013)协变量影响阈值以上的分布。我们的最后一个方法学挑战是对离散化的连续响应建模。胎龄测量值为
PTB对反应的二分法限制了对36至37周之间的切点的推断。以前离散数据的分位数函数建模要么会使响应抖动(马查多和席尔瓦,2005年;Chen和Lazar,2010年)或对观测值进行分仓,然后对分仓进行核平滑(De Gooijer和Yuan,2011年).
本文的主要贡献是介绍了一类克服这些方法学挑战的多级分位数函数模型。如图所示,出生体重的分布在整个胎龄范围内平稳变化1.
我们通过将出生体重联合建模为按胎龄排序的分布的依赖集合来利用这种平滑性。图中的水平线1表示低出生体重(LBW)(定义为2500克)和极低出生体重的阈值(定义为低于1500克)(罗杰斯和邓洛普,2006年). 大多数出生于25周胎龄的婴儿被归类为极低出生体重,而几乎没有39周及以上出生的婴儿是极低出生重量,因此在检查胎儿生长受限时必须控制胎龄。
我们的多水平方法避免了在不同胎龄的单独拟合所带来的高灵活性和低灵活性与所有胎龄的一次拟合所带来的高灵活性和灵活性之间进行选择。我们通过在空间上关联11个德克萨斯州公共卫生区域中每个区域的单独孕龄分布来说明我们的多水平分类的另一个例子,如图所示2.
在这两种情况下,我们都通过回归系数的高斯过程先验将各个模型关联起来。该类适用于不同胎龄/空间区域、分位数水平和预测因子的单独回归参数,为参数估计创造了丰富的环境。
我们的第二个方法贡献是分位数函数建模和条件极值分析的综合。我们采用半参数方法,将分布中间建模为基函数的线性组合,并通过半参数/参数阈值的平滑过渡,参数化地拟合分布的尾部。这增强了尾部的灵活性,确保对感兴趣的分位数级别的推断不会受到尾部中一些异常值的干扰。
我们的最后一个方法贡献是扩展分位数函数方法,以适应离散化或区间删失的连续结果。医生在几周内而不是几天内记录了生命记录中的妊娠年龄。我们将离散化响应建模为潜在连续过程的删失实现,而不是抖动或装箱响应。通过对全分位数函数建模,我们可以以计算稳定的方式估计预测效果。
文章结构如下。在第2节我们描述了层次分位数模型。在第3节我们展示了一项模拟研究的结果,该研究探索了我们的三种方法创新。在第4节我们分析了出生结果并得出结论第5节.
2分位数函数建模
表示
作为反应(出生体重或胎龄如下所述)和
作为长度向量P(P)包含个人特征、环境变量和婴儿拦截
。我们可以为定义模型
通过条件分布函数
或密度
。或者,我们可以指定条件分位数函数
哪里
.值
被称为分位数级别,分位数函数在分位数级别上不递减。出生体重先前已在分位数回归中建模(Koenker和Hallock,2001年;Tokdar和Kadane,2011年;Burgette and Reiter,2012年),密度估算(Dunson、Herring和Siega‐Riz,2008年)和空间(Kammann和Wand,2003年)设置。在本文中,我们借鉴了所有这些领域。
我们从存在实数的有界分布类开始
和
这样所有人
,
现在我们假设
相对于Lebesgue测度是绝对连续的,这意味着一个独特的分位数函数在分位数水平上增加。我们在章节中描述了无界分布和离散响应情况的扩展2.3和2.4分别是。
2.1个体分位数函数
在本节中,我们将介绍我们的半参数分位数回归模型。最灵活的方法是允许预报器非线性地影响分位数函数。这种方法在预测方面很有前景,但预测器效应的非线性使得推理具有挑战性,因此我们将每个预测器的参数效应在每个分位数水平上建模为线性。
我们对分位数函数在三次积分M样条空间上的投影建模,称为3次I样条(拉姆齐,1988年). 让
是最小值为
最大值为
。在
节间距
和
三次I样条是局部三次多项式,在节点处I样条连续且一阶可微。我们的分位数函数是
哪里
,
是
I样条曲线和
是回归参数。随着节点数的增加,多项式样条空间收敛到连续函数空间(舒马克,1981年). 三次单调样条空间收敛到连续单调函数空间的速度几乎与无约束三次样条一样快(DeVore,1977年). 增加一个单位
与
增加
响应的分位数。均值回归是该模型的特例,其中
对于
和
。在这种情况下j个th预测值为
为所有人
残差分布由截距函数确定
.
分位数函数在中增加
如果分位数函数相对于
是积极的。这个衍生产品
称为稀疏函数(Tukey,1965年;Parzen,1979年)并且是任何有效的可微分位数函数密度的倒数(注意
并在以下方面区分双方
.)因此,我们可以从任何有效的分位数函数开始并找出其可能性,如Tokdar和Kadane(2011). 在我们的模型中,稀疏性函数为
哪里
。这产生了可能性
哪里
.
类似于Reich和Smith(2013),我们将所有预测值映射到
并要求
对于m
以确保有效的分位数进程。让
随心所欲。让
如果
预测器在以下方面有负面影响
和
否则。这是最小化稀疏性函数的预测因子的“最坏情况”组合。然后是稀疏函数
因为
。分位数函数的导数对所有项都是正的
因此在
.通过基函数和预测器,我们对潜在系数建模
.我们让
为所有人j个如果满足单调性约束
基函数和集合
如果
位于约束空间之外。我们在应用或模拟研究中没有单调性问题。如果违反了单调性约束,则可以选择一个子集的预测因子,以仅对响应的位置产生影响。
2.2多级分位数模型
在出生体重应用中,我们将出生体重的分布与每个
孕龄。让
是协变量的影响j个在一周内克为了促进跨胎龄的沟通,我们使用多元正态先验分布联合评估这些影响。
在我们的全球拟合中,一个胎龄的分位数函数的形式如下
我们对这些参数进行了整体建模,以通过跨胎龄借用信息来获取能量。表示
作为长度向量G公司与基函数对应的回归系数米和预测器j个。我们分配
,平均值为
,精度
,和相关矩阵
与第节类似2.1我们确保每个胎龄都满足单调性约束。
单个拟合的这种低秩表示减少了回归系数的方差。收缩程度因基函数和预测值而异。这使得分布位置(例如,下尾与中间)和协变量的回归效应具有不同程度的相似性。
相关性
用于在将基函数收缩到共同平均值之后捕获基函数中的模式。在我们的应用程序中
用于平滑空间健康区域上的孕龄分位数函数和孕龄上的出生体重分位数函数。对于胎龄,我们有兴趣检查区域分布。为了捕捉分位数函数中的空间相关性,我们拟合了一个指数空间相关矩阵,其中
,
是公共卫生区域质心之间的距离
和
和
是范围参数。我们分配
最小值为0,最大值为公共卫生区域质心之间最大距离的一半的均匀先验。这种方法使我们能够检查孕龄和预测因子之间关系的大规模空间模式。对于出生体重,我们预测了整个胎龄之间的相关性,因此我们采用以下形式的自回归1级相关矩阵
带相关参数
.我们给予
单位间隔上的统一先验。
2.3尾部建模
对于极端分位数水平,我们采用分位数回归和极值分析的混合方法。虽然出生结果有下限,但使用有界基函数建模出生体重的分位数函数是有限制的。如果任何观察结果低于
或以上
似然为零,因此有界基函数导致参数的似然不连续。两种专家意见(威尔科克斯,2001年)探索性分析表明,出生体重密度有较厚的尾部,最好使用尾部缓慢衰减的基函数进行建模。
为了增加尾部分布的灵活性,我们设置了阈值
和
在极端分位数水平(例如0.01和0.99)。我们用广义帕累托分布(GPD)族对分布中间和阈值以外的值进行半参数建模。超过阈值的极限分布是大多数分布的GPD(科尔斯,2001年),为我们的方法提供了动力。GPD有一个刻度参数
,它确定阈值处的密度值和形状参数
,它决定了尾部衰减率。GPD可以建模有界分布
,带轻尾的分布
和重尾分布
。这三种密度为
哪里
是指示器功能。在我们的应用程序中
在下尾翼和
在上尾巴。这个
case对应于指数分位数函数
case对应于Pareto分位数函数。这些数据分别适用于轻尾数据和重尾数据。这种方法是在Zhou等人。(2012)用于无预测因子的连续空间数据。我们将此方法扩展到合并协变量和离散数据。
分位数分布
帕累托尾部的出生体重为
电子秤参数
是在阈值处评估的帕累托分布密度
从封堵可以看出
密度。假设断点处存在连续密度
和
将比例参数指定为
哪里
是中定义的稀疏函数(2).比例因子
和
保证出生体重的全密度积分为1。
在最一般的情况下,我们让形状参数是预测器的函数。形状参数可能很难估计,因此我们倾向于简化
和
。我们为上下尾翼形状参数分配独立的先验值。允许形状参数采用正值和负值(如在线性链接函数中)会导致接近零的形状值不稳定。对于中的单个分位数函数模型第2.1节我们分配
,
。对于中的集合分位数函数模型第2.2节我们根据胎龄索引形状参数并分配
,
.
阈值选择是极值分析的一个关键方面。回想一下,分析的一个重点是第一个百分位数的推断。我们可以选择一个低于0.01的阈值(例如。,
)并将这些影响外推到第一个百分位数。我们发现,当阈值设置为或超过感兴趣的分位数级别时,我们的模型性能更好。如果阈值内的分位数水平需要更大的灵活性(例如。,
),则可以在分布的这一部分放置更多节点。对于无界尾翼,密度单调递减超过阈值,这是阈值选择的另一个考虑因素。
这种半参数和参数方法的融合具有几个有吸引力的性质,其中第一个是协变相关阈值选择。允许预测效应随分位数水平变化,有助于正确识别极值,并允许预测因子和响应之间的关系在分布的尾部和中心不同。其次,与典型极值分析相比,使用更多的数据来告知我们的尾部信息,在这种分析中,低于阈值的观察值往往被丢弃。尺度参数是阈值条件密度的倒数,受阈值上下值的影响。在我们的模型中,从尾部移动到分布的中间可以减弱观测值对尾部参数的影响。这个想法的前身包括(Frigessi,Haug,and Rue,2002年)和(Behrens、Lopes和Gamerman,2004年)他使用混合模型,其中轻尾成分占分布的大部分,而帕累托尾成分决定了尾部的密度。最后,我们的层次结构框架能够为每个胎龄的出生体重分布提供单独的尾部。通过在基函数中独立收缩预测效果,尾部和中部的收缩程度可以不同。在信息往往有限的尾部,沟通的机会尤其重要。
2.4离散数据
在这里,我们扩展了分位数函数方法以允许离散响应。将36周龄婴儿视为与25周龄婴儿相似,但与37周龄婴儿有质的不同,这是不可取的。我们将孕龄建模为连续潜伏过程的区间删失值,而不是PTB的二分法。对于报告的胎龄
我们为连续值建模
。我们找到了价值观
和
这样的话
和
。请注意
和
是否在终点和P处评估条件CDF
这就产生了
.
与PTB将模型二分法不同,这种方法可以使参数效应在分布中平滑适应。类似地,对相邻周的影响建模有助于补偿胎龄测量误差,通常使用母亲最后一次月经的自我报告和临床医生根据早期超声检查或其他因素的解释进行判断来估计胎龄。对潜在连续分位数函数建模最适合于离散或删失的连续响应。这适用于胎龄,但可能不适用于其他应用。
2.5计算
我们模型中计算成本高昂的部分是寻找解决方案
这样的话
对于每个可能性评估中的每个观察结果。分位数函数局部是一个三次多项式,因为它是三次多项式的和,所以对于
。立方根在数值上不稳定,而且解很复杂,所以我们发现
通过牛顿递推,其中
计算到
小于错误
。对于我们的应用程序,我们选择了
.
据我们所知,本文提出了第一个贝叶斯分位数函数模型,该模型可以容纳大样本和多个预测因子。对于中等样本量(例如。,
)我们的模型在几分钟内运行了少量预测因子。为了分析有565703个观察值的出生数据集,我们使用了图形处理单元(周、兰格和苏查德,2010年). 这种可能性是令人尴尬的平行性,所以我们在一个具有400个算术核心的图形处理单元上运行了我们的模型。对于100000个观察值的可能性评估,我们的计算时间提高了20倍以上。通过14个预测因子和11个独立的分位数函数,我们的最终分析在不到27小时内完成。为了进行模拟研究和出生结果分析,使用Metropolis-within-Gibbs算法对后验数据进行采样,详细信息见Web附录A。
3模拟研究
我们的模拟研究旨在回答有关我们模型的三个问题。首先,我们比较了由集合先验(CP)收缩在一起的多个分位数函数的全局拟合,如(3)分位数函数的个别拟合,具有不通信的独立先验(IP),如(1)为了验证这一点,我们在五个胎龄时生成数据,每个胎龄具有单独的协变量效应。
哪里
是具有相关性0.5和单位方差的五维一阶自回归(AR‐1)过程的协方差矩阵。我们添加了一个标量,以便此过程的实现具有最小值1,以确保分位数函数的单调性。基分位数函数
是学生的t吨具有10个自由度的分位数函数。我们选择了学生的t吨分布,因为我们的数据具有中等厚尾,而学生的t吨分布能够比较Pareto和指数尾,这是我们感兴趣的第二个因素。最后,我们对连续过程离散化导致的信息丢失感兴趣。对于先验和尾部类型的每个组合,我们评估一个具有连续响应的拟合,以及一个具有四舍五入到最接近整数的响应的拟合。我们比较了这三个因素对样本大小的影响
和
五个级别中的每个级别的观察结果。我们进行了100次蒙特卡洛复制。
为了完成CP模型,我们先分配
高斯(0.001)和
伽马(1,1)。对于IP模型,我们将高斯(0.001)先于常数基函数和高斯的参数
之前
.相关矩阵
是带相关参数的AR‐1
和被设计用于捕获回归系数中的残差相关性,以便在收缩到共同平均值后预测。对于IP模型,我们将高斯(0.001)先于平均值
和Gamma(1,1)先于精度
。我们选择了较低的阈值
上限为
。我们指定(对数刻度)
和
priors,其中1.5是标准偏差。在对数刻度上,这将大约95%的质量分配给间隔
对该区间进行指数化得到了范围(0.001,0.4),其中包括轻尾分布和重尾分布。我们为所有合身设计
和
该先验值的95%质量在(0.31,1.47)之间,取值范围很广。我们拟合5、7和9个基函数。对于每个蒙特卡罗迭代,我们选择了具有最佳(最高)对数伪边际似然的拟合(易卜拉欣、陈和辛,2005年)跨越许多基本函数。
我们将模型回归估计值与真实回归效果进行比较
在分位数级别
。我们在五个胎龄和每个感兴趣的分位数水平中的每一个对频率论分位数回归进行单独拟合。我们还拟合了一个具有线性效应的频率模型
、孕龄和交互项,使经典模型能够使用整个孕龄的所有数据。我们在图中显示了标称95%水平上平均的均方误差(MSE)和覆盖概率的总结三对于
案例。在图中三使用离散数据的模型与使用连续数据的模型在视觉上没有区别,因为离散数据的结果与连续数据的结果非常相似。这意味着,由于每周对我们的应用程序进行审查,性能几乎没有下降。对于更极端的审查,只观察到少数几个级别的响应,这可能不成立。
图的第一列三显示MSE结果。对于个体拟合,经典回归和我们的方法在分布中间的表现相似,但我们的方法对尾部的表现更好。在信息稀疏的尾部,跨分位数级别共享信息最为重要。
对于关节拟合,经典方法(在回归模型中使用胎龄和交互项)在分布中间略好,但我们的方法在尾部表现得更好。联合模型的MSE均低于独立模型,表明通过跨胎龄共享信息可以显著降低MSE。跨胎龄共享信息的收益最大的是尾部。正如重尾学生的预期一样,尾部的帕累托平均有效误差低于指数平均有效误差t吨分布式数据。我们的方法覆盖率达到或超过90%。在分布中间,频率统计方法的覆盖率超过95%,但在尾部下降到80%。所有这些结论都是针对
案例,如Web图1-15所示。
仿真研究表明,融合分位数回归和极值推理可以增强推理,尤其是尾部推理。然而,贝叶斯模型的计算要求更高。贝叶斯模型的每次模拟运行都需要几分钟,而频率学家模型只需要几秒钟。此外,频率分位数回归(它不假设参数效应在所有分位数水平上都是线性的)在其他设置中表现更好。如Web附录B所示,发现具有五个基函数的拟合缺乏灵活性,并且具有九个基函数的拟合在尾部出现过拟合。对于CP和IP模型,对数伪边际似然(LPML)最喜欢七个基函数的拟合。虽然MSE和覆盖率受M的影响,但LPML在选择最佳模型方面做得很好。实际上,我们建议适合多个M。
![t分布反应的MSE和覆盖概率,其中每个胎龄和M通过对数伪边际似然选择。上述结果分别针对经典的频率估计量、带Pareto尾的样条估计量和带指数尾的样条条估计量,标题分别为“Freq”、“Par”和“Exp”。贝叶斯估计量的最大蒙特卡罗标准误差为0.03,频率估计量的标准误差为0.61。]()
图3
MSE和覆盖概率t吨分布式响应,其中
在每个胎龄时,根据对数伪边缘似然选择M。上述结果分别针对经典的频率估计量、带Pareto尾的样条估计量和带指数尾的样条条估计量,标题分别为“Freq”、“Par”和“Exp”。贝叶斯估计量的MSE的最大蒙特卡罗标准误差为0.03,频繁度估计量的MSE的最大蒙特卡罗标准误差为0.61。
表1模型的对数伪边际似然(LPML)适用于出生结局,数值越高,拟合效果越好。为了清楚起见,从下列数值中减去胎龄(−5175982)和出生体重(−4094739)的最小值。模型类型包括指数尾(Exp)、帕累托尾(Par)以及每个公共卫生区域和孕龄(Ind)的独立模型。粗体值表示最佳拟合
. | 基本函数数. | 型号类型. | 液化石油气. |
---|
妊娠年龄 | | | |
| 5 | 费用 | 1,751,313 |
| 5 | 费用 | 0 |
| 7 | 费用 | 1,869,945 |
| 7 | 标准 | 4,190,201 |
| 7 | 印度 | 4,190,080 |
出生体重 | | | |
| 7 | 标准 | 1661 |
| 9 | 标准 | 2410 |
| 9 | 印度 | 0 |
| 11 | 费用 | 838 |
| 11 | 标准 | 2397 |
. | 基本函数数. | 型号类型. | 液化石油气. |
---|
妊娠年龄 | | | |
| 5 | 费用 | 1,751,313 |
| 5 | 费用 | 0 |
| 7 | 费用 | 1,869,945 |
| 7 | 标准 | 4,190,201 |
| 7 | 印度 | 4,190,080 |
出生体重 | | | |
| 7 | 标准 | 1661 |
| 9 | 标准 | 2410 |
| 9 | 印度 | 0 |
| 11 | 费用 | 838 |
| 11 | 标准 | 2397 |
表1模型的对数伪边际似然(LPML)适用于出生结局,数值越高,拟合效果越好。为了清楚起见,从下面显示的值中减去了胎龄(−5175982)和出生体重(−4094739)的最小值。模型类型包括指数尾(Exp)、帕累托尾(Par)以及每个公共卫生区域和孕龄(Ind)的独立模型。粗体值表示最佳拟合
. | 基本函数数. | 型号类型. | 液化石油气. |
---|
妊娠年龄 | | | |
| 5 | 费用 | 1,751,313 |
| 5 | 费用 | 0 |
| 7 | 费用 | 1,869,945 |
| 7 | 标准 | 4,190,201 |
| 7 | 印度 | 4,190,080 |
出生体重 | | | |
| 7 | 标准 | 1661 |
| 9 | 标准 | 2410 |
| 9 | 印度 | 0 |
| 11 | 费用 | 838 |
| 11 | 标准 | 2397 |
. | 基本函数数. | 型号类型. | 液化石油气. |
---|
妊娠年龄 | | | |
| 5 | 费用 | 1,751,313 |
| 5 | 费用 | 0 |
| 7 | 费用 | 1, 869, 945 |
| 7 | 标准 | 4,190,201 |
| 7 | 印度 | 4,190,080 |
出生体重 | | | |
| 7 | 标准 | 1661 |
| 9 | 标准 | 2410 |
| 9 | 印度 | 0 |
| 11 | 费用 | 838 |
| 11 | 标准 | 2397 |
![公共卫生地区(PHR)非西班牙裔黑人和非西班牙裔白人母亲孕龄差异后验分布的95%可信限值。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/biometrics/71/2/10.1111_biom.12294/2/m_biometrics_71_2_508_fig-4.jpeg?Expires=1721321640&Signature=A758JaduZ1ihbO0a74fFoNyiD9ryXeX~T3ozNRat-qDyKRus0za6NadL0wLKPUG9VlMTuc9tsfDE~ecuL01PNnZ4CEBvo3arxTtb8ML1nGfCtgW6QqR1cEf0QZBziuwXGf-Nf3rYAXf5XQTgeBqvhcO8rVehwvOpt-waqtXhGg2b40aJtKsnNOKlHhj-ayVxJ6kxyNULe9685b85SifzEwVXUWhnbfTVnGUwfY6RHAcb8iUaCyZ0ZZeHhYSu61s4mS2LmTFHVqvDfk3od~yz-dyW-O7-QRc2vQ~4~NHQxMiSByUPkNoCQgFlFDvP5JkYIxAlMQQ0Vvv-q8GE~4wAvw__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图4
公共卫生地区(PHR)非西班牙裔黑人和非西班牙裔白人母亲孕龄差异后验分布的95%可信限值。
![公共卫生区关于孕中期臭氧暴露量增加一个单位对胎龄影响的后验分布的95%可信限值。所有臭氧值都被线性转换为,因此一个单位的增加可以粗略地认为是从低暴露水平增加到中等暴露水平,或者从中等暴露水平增加到高暴露水平。]()
图5
公共卫生区关于孕中期臭氧暴露量增加一个单位对胎龄影响的后验分布的95%可信限值。所有臭氧值线性转换为
因此,一个单位的增加可以被粗略地认为是从低水平增加到中等水平,或从中水平增加到高水平。
![孕中期臭氧暴露增加一个单位对孕龄为34-42周的新生儿体重影响的后验分布的95%可信限值。所有臭氧值都线性转换为,因此一个单位的增加可以大致认为是从低水平到中等水平的暴露,或从中到高水平的暴露。浅灰色区域对应每个胎龄个体匹配的后部可信集,而深灰色区域对应整个胎龄的集体匹配。虚线表示各个拟合的95%频率置信区间的极限。]()
图6
孕中期臭氧暴露增加一个单位对孕龄为34-42周的新生儿体重影响的后验分布的95%可信限值。所有臭氧值线性转换为
因此,一个单位的增加可以被粗略地认为是从低水平增加到中等水平,或从中水平增加到高水平。浅灰色区域对应每个胎龄个体匹配的后部可信集,而深灰色区域对应整个胎龄的集体匹配。虚线表示各个拟合的95%频率置信区间的极限。
为了测试我们的模型是否具有有界支持度的分布,我们生成了响应
,其中
是贝塔(1,5)随机变量的分位数函数,以及
是Beta(5,1)随机变量的分位数函数。结果见在线附录。贝叶斯方法和频率统计方法的平均有效误差(MSE)也类似,只是在上尾。响应的右偏态使得上尾翼的推断更具挑战性,联合频率模型在拟合上尾翼方面存在很大困难。我们的方法受到了尾部覆盖不足的影响
情况下,但实现了所有分位数水平的接近标称覆盖概率
.
4出生结果分析
4.1数据描述和建模
出生数据包括德克萨斯州2002年至2004年的活产证明记录。个人特征包括婴儿性别、母亲的胎次(之前生育过的二进位)、母亲的年龄和父亲的年龄(40岁以下或40岁以上)、母亲教育和父亲教育(高中未毕业、高中毕业或高中后完成一些教育),和母亲种族(非西班牙裔白人、非西班牙裔黑人、西班牙人和其他)。所有个人特征都被视为类别变量,如霍夫曼等人。,(2008年a,2008年b). 缺失关键协变量或以胎儿自然死亡或人工终止妊娠结束的妊娠数据被丢弃。我们分析25-42周内的活产(摩根、戈登堡和舒尔金,2008年)共有565703名活产婴儿。
污染数据来自环境保护局的缩小模型(贝罗卡尔、盖尔芬德和荷兰,2010年). 我们将每个母亲的地址映射到最近的12公里
12 km网格单元质心,并将前三个月和后三个月的这些值相加。
我们适合层次模型的几个不同版本。对于胎龄,我们比较了剖宫产的集体模型2.2至PHR上的单独配合,如第节所示2.1。我们用五个和七个基函数为每个组合拟合帕累托尾和指数尾。由于大多数分娩发生在第31-42周,我们对仅在12个胎龄水平上超过7项基本功能感到不舒服。一些模型运行没有收敛(GA响应、指数尾部、,
). 其他模型运行为LPML返回NA(BW响应,指数尾
和9),表明尾部某些值的计算可能性为零。这些模型运行被省略。对于这两种分析,我们使用了与模拟研究中相同的先验值和阈值。对于范围参数
我们实现了Uniform(0,
)之前,其中
是德克萨斯州PHR质心之间最大距离的一半。我们在空间上相互关联
和
具有指数相关结构。对于出生体重,我们将我们的集体模型与每个胎龄的个体拟合进行比较。如果允许预测因子对出生体重的影响因地区和孕龄而异,14个预测因子的计算成本会很高,因此预测因子对新生儿体重的影响在整个地区都是恒定的。对于出生体重,我们拟合了7、9和11个基函数。Web附录C中包含跟踪图示例。
4.2妊娠年龄-个人特征结果
表1表明,对于胎龄,LPML的最佳模型拟合是七个基函数和帕累托尾(九个基函数,出生体重的帕累托尾数)。
黑人非西班牙裔母亲相对于白人非西班牙裔母亲对孕龄的影响如图所示4.
如Web附录D所示,黑人非西班牙裔母亲种族与第一个百分位的孕龄减少2周以上有关。大分位的影响减弱,而高分位没有显著差异。这说明了分位数函数建模捕捉分布不同方面的不同协变量效应的能力。其他具有实际意义的预测因素包括产妇产次和高中以上母亲教育与胎龄呈正相关,以及40岁以上母亲年龄与下尾胎龄呈负相关。所有胎龄的后验分位数图可在Web附录D中获得。
4.3出生体重个人特征结果
非西班牙裔黑人母亲所生婴儿的体重比非西班牙裔白人母亲所生的婴儿轻20至190克。胎龄越高,影响越大,分位数水平变化不大。来自非西班牙裔黑人母亲的婴儿患PTB和SGA的风险都很高,但出生结局与发病率和死亡率风险之间的关系很微妙。虽然PTB与负面健康结果相关,但之前的研究表明,某些PTB黑人非西班牙裔婴儿组的存活率高于PTB白人非西班牙裔婴儿组(Schieve和Handler,1996年). LBW黑人非西班牙裔婴儿的死亡率也低于白人非西班牙裔婴儿(亚历山大等人。,2003). 鉴于健康结果数据,本文中提出的方法可用于更好地理解预测因子如何通过出生结果间接影响发病率和死亡率。
虽然大多数预测因素对胎龄的影响实际上并不显著,但几乎所有的个人特征都会显著影响出生体重。对于样本量最大的胎龄,回归参数的后验分布的不确定性最小,发生在第37-40周。上尾巴的不确定性通常高于下尾巴。如图所示1出生体重的分布在胎龄较小时呈右偏态,但随着胎龄的增加而变得更加对称。这可以解释为什么在较小胎龄时,上尾的出生体重影响后验方差高于下尾。我们在Web附录D中介绍了个人特征效应。
4.4臭氧结果
对于孕龄,我们允许臭氧的影响因地区而异。城市中的臭氧水平较高,因此允许区域性影响发生变化,使得城市和农村地区的臭氧影响有所不同。此外,未测量的潜在混杂因素的分布可能因地区而异,因此允许臭氧效应在空间上发生变化可能有助于对此进行调整。
如图所示5德克萨斯州东部和南部PHRs 5、6和11的妊娠中期臭氧与孕龄呈负相关。
在第11区,第40百分位的中期臭氧的绝对影响最大,为3-4天。孕早期臭氧对PHR 5和PHR 11有负面影响。PHRs 2、3、5和6在怀孕前三个月的下尾与臭氧呈轻微负相关。之前的研究使用哈里斯县的出生记录,该县位于休斯顿,位于PHR 6,发现有证据表明,怀孕早期高浓度的臭氧增加了PTB的可能性(Warren等人。,2012). 虽然几乎所有的臭氧影响都在下尾最强烈,但在公共卫生区11,最强烈的影响位于前三个月和后三个月臭氧的40%左右。在我们的样本中,89%的PHR 11是西班牙裔,而德克萨斯州为49%。PHR 11移民工人众多,贫困程度高,出生缺陷发病率高(亨德里克斯、辛普森和拉森,1999年)因此,我们发现孕龄和臭氧之间的关系性质与德克萨斯州其他地区不同,这并不令人惊讶。
图6显示通过跨胎龄借用信息可以大幅减少变异。通过对全分位数函数建模,单个拟合更平滑,通常比频率分位数回归具有更小的方差。贝叶斯回归参数在分位数水平上持续缓慢地变化。相比之下,频率效应表现出波动性,并且有较大的标准误差,因为它们不跨分位数借用信息。
我们没有发现妊娠早期臭氧与出生体重之间存在统计上显著的关系。孕中期开始时,母亲和胎盘之间的血液交换增加。胎儿生长与孕中期大量臭氧之间的负相关可能是由于子宫胎盘血流量受损,这已被证明受母亲吸烟的影响(Mochizuki等人。,1984).
5结论
在本文中,我们提出了一类新的分层分位数函数模型,它保留了分位数回归的可解释性和密度估计的一些可塑性。我们的层次结构框架允许灵活的尾部推断,并可以对离散化的连续响应进行建模。虽然我们的应用程序只包含区间删失数据,但它很容易扩展到左删失或右删失的数据,或连续和离散响应的混合。我们的离散分位数模型可能是其他应用的可行替代方案,例如Likert尺度响应。
我们进行了一项模拟研究,结果表明,相对于典型分位数回归,我们的方法显著降低了MSE。我们发现,非裔美国人母亲所生婴儿的胎龄和出生体重分布的低尾比白人非西班牙裔母亲所生的婴儿的低尾要低得多。我们方法的有用扩展包括大量预测因子的变量选择,包括特定主题的随机效应和非参数分位数回归。
6补充资料
章节中引用的Web附录和图表2.5, 三, 4.1, 4.2、和4.3可在生物计量学Wiley Online Library上的网站,以及模拟研究和出生结果分析的代码。
致谢
作者感谢NSF拨款DMS‐1107046和NIH拨款SR01ES014843的支持。疾病控制中心和德克萨斯州卫生服务部之间的合作协议U01DD000494为这项工作提供了部分支持。我们感谢主编、副主编和两位匿名审稿人的深思熟虑和建设性意见。
工具书类
亚力山大
,G.R.公司。
,科根
,M。
,巴德
,D。
,卡洛
,西。
,艾伦
,M。
、和莫尔
,J。
(
2003
).美国出生体重/胎龄相关新生儿死亡率:1995–1997年白人、西班牙裔和黑人的比率
.儿科
111
,e61(电子61)
–e66(电子66)
.巴克
,D.J.博士。
(
2006
).胎儿生长受限的成人后果
.临床妇产科
49
,270
–283
.贝伦斯
,C.编号。
,洛佩斯
,高频。
、和加梅尔曼
,D。
(
2004
).基于阈值估计的极端事件贝叶斯分析
.统计建模
4
,227
–244
.贝罗卡尔
,V·J。
,盖尔芬德
,答:E。
、和荷兰
,D.M.博士。
(
2010
).空间和时间不一致条件下的二元时空降尺度器
.应用统计学年鉴
4
,1942
.邦德尔
,高密度。
,帝国
,B.J.公司。
、和王
,H。
(
2010
).非交叉分位数回归曲线估计
.生物特征
97
,825
–838
.汉堡
,L.F.有限责任公司。
和雷特
,J.P.公司。
(
2012
).通过验证性因子分位数回归模拟不良出生结局
.生物计量学
68
,92
–100
.陈
,J。
和拉扎尔
,不适用。
(
2010
).基于经验似然的离散数据分位数估计
.非参数统计杂志
22
,237
–255
.科尔斯
,美国。
(
2001
).极值统计建模简介
.伦敦
:施普林格
.德古伊耶
,J·G·。
和元
,A。
(
2011
).相关二元离散数据的核平滑条件分位数
.中国统计局
21
,1611
–1638
.德沃尔
,注册会计师。
(
1977
).样条函数的单调逼近
.SIAM数学分析杂志
8
,891
–905
.邓森
,D.B.博士。
,海岭
,A.H.公司。
、和Siega‐Riz公司
,上午。
(
2008
).预测簇上响应密度变化的贝叶斯推断
.美国统计协会杂志
103
,1508
–1517
.弗里杰西
,A。
,豪格
,O。
、和Rue街
,H。
(
2002
).无门限选择的动态混合模型无监督尾估计
.极端
5
,219
–235
.加尔多西
,J。
,蒙杰利
,M。
,威尔科克斯
,M。
、和张
,A。
(
1995
).可调胎儿体重标准
.妇产科超声
6
,168
–174
.石榴石
,T·J。
,克拉克
,R。
、和索普
,J.A.公司。
(
2004
).宫内生长受限增加早产儿的发病率和死亡率
.美国妇产科杂志
191
,481
–487
.亨德里克斯
,英国。
,辛普森
,J·S。
、和拉森
,钢筋混凝土。
(
1999
).1993-1995年德州-墨西哥边境的神经管缺陷
.美国流行病学杂志
149
,1119
–1127
.霍夫曼
,C.S.公司。
,门多拉
,第页。
,Savitz公司
,D.A.博士。
,海岭
,A.H.公司。
,卢米斯
,D。
,哈特曼
,英国工程师。
,歌手
,邮政编码:。
,温伯格
,H.S.公司。
、和奥尔善
,A.F.公司。
(
2008年a
).饮用水消毒副产品暴露和胎儿生长
.流行病学
19
,729
–737
.霍夫曼
,C.S.公司。
,门多拉
,第页。
,Savitz公司
,D.A.博士。
,海岭
,A.H.公司。
,卢米斯
,D。
,哈特曼
,英国工程师。
,歌手
,邮政编码:。
,温伯格
,H.S.公司。
、和奥尔善
,A.F.公司。
(
2008年b
).饮用水消毒副产品暴露和妊娠期
.流行病学
19
,738
–746
.霍因
,文学硕士。
,柯比
,钢筋混凝土。
,迈耶
,R.E.公司。
,Xing(兴)
,J。
,斯凯雷特
,N.I.公司。
,尤斯基夫
,N。
等。(
2009
).主要出生缺陷与早产的关系
.妇幼保健杂志
13
,164
–175
.易卜拉欣
,J·G·。
,陈
,M.‐H.公司。
、和辛哈
,D。
(
2005
).贝叶斯生存分析
..
卡曼
,电气工程师。
和魔杖
,M.P.公司。
(
2003
).地质添加剂模型
.英国皇家统计学会杂志C辑
52
,1
–18
.卡茨
,J。
,李
,A.控制。
,Kozuki公司
,N。
,草坪
,J。E。
,库森斯
,美国。
,布伦科
,H。
等。(
2013
).低收入和中等收入国家早产儿和小于胎龄儿的死亡率风险:一项综合国家分析
.刺胳针
382
,417
–425
.科恩克
,R。
(
2005
).分位数回归
..纽约
:剑桥大学出版社
.科恩克
,R。
和哈洛克
,K.英尺。
(
2001
).分位数回归
.经济展望杂志
15
,143
–156
.科恩克
,相对湿度。
和巴塞特
年少者,G。
(
1978
).回归分位数
.计量经济学
46
,33
–50
.马查多
,J.A.F.公司。
和席尔瓦
,J·S。
(
2005
).计数的分位数
.美国统计协会杂志
100
,1226
–1237
.Mochizuki公司
,M。
,九尾
,T。
,Masuko公司
,英国。
,大津
,T。
(
1984
).怀孕期间吸烟对胎儿胎盘-母亲系统的影响
.美国妇产科杂志
149
,413
–420
.摩根
,文学硕士。
,戈登堡
,共和国。
、和舒尔金
,J。
(
2008
).产科医生-妇科医生关于生存极限早产的实践
.母婴医学杂志
21
,115
–121
.纳西
,H。
,斯金纳
,A。
、和威廉姆斯
,B。
(
2010
).小于胎龄儿——我们仅仅使用标准的人口增长标准就遗漏了一些吗?这有关系吗?
母婴医学杂志
23
,48
–54
.帕尔逊
,E.公司。
(
1979
).非参数统计数据建模
.美国统计协会杂志
74
,105
–121
.皮尔韦
,洛杉矶。
,客人-Warnick
,G。
,斯托达德
,G·J。
,拜因顿
,C.L.公司。
、和年轻
,邮政编码:。
(
2009
).孕龄体重影响晚期早产儿死亡率
.儿科
123
,电子1072
–电子1077
.拉姆齐
,J。
(
1988
).作用中的单调回归样条
.统计科学
三
,425
–441
.帝国
,B.J.公司。
,库利
,D。
,福利
,K.M.公司。
,那不勒斯诺克
,美国。
、和沙比
,学士。
(
2013
).臭氧控制策略评估的极值分析
.应用统计学年鉴
7
,739
.帝国
,B.J.公司。
,富恩特斯
,M。
、和邓森
,D.B.博士。
(
2011
).贝叶斯空间分位数回归
.美国统计协会杂志
106
,6
–20
.帝国
,B.J.公司。
和史密斯
,L.B.公司。
(
2013
).截尾数据的贝叶斯分位数回归
.生物计量学
69
,651
–660
.罗杰斯
,J.F.公司。
和邓洛普
,A.L.公司。
(
2006
).空气污染和极低出生体重儿:目标人群?
儿科
118
,156
–164
.希夫
,洛杉矶。
和处理程序
,A。
(
1996
).芝加哥地区围产期登记中黑人和白人婴儿的早产和围产期死亡
.妇产科
88
,356
–363
.舒梅克
,美国。
(
1981
).样条函数:基本理论
.美利坚合众国
:John Wiley&Sons公司
.Šrám公司
,R·J。
,宾科娃
,B。
,戴梅克
,J。
、和博巴克
,M。
(
2005
).环境空气污染与妊娠结局:文献综述
.环境健康观点
113
,375
.托克达尔
,美国。
和卡达内
,J.B.公司。
(
2011
).同时线性分位数回归:半参数贝叶斯方法
.贝叶斯分析
6
,1
–22
.图基牌手表
,J·W·。
(
1965
).样本的哪个部分包含信息?
美国国家科学院院刊
53
,127
.王
,H。
和济
,C.‐L.公司。
(
2009
).尾部指数回归
.美国统计协会杂志
104
,1233
–1240
.王
,H·J。
,锂
,D。
、和他
,十、。
(
2012
).重尾分布的高条件分位数估计
.美国统计协会杂志
107
,1453
–1464
.沃伦
,J。
,富恩特斯
,M。
,海岭
,A。
、和兰格洛伊斯
,第页。
(
2012
).空气污染暴露与早产关系的时空建模:确定关键暴露窗口
.生物计量学
68
,1157
–1167
.威尔科克斯
,A.J.公司。
(
2001
).论出生体重的重要性和重要性
.国际流行病学杂志
30
,1233
–1241
.于
,英国。
和莫耶德
,注册会计师。
(
2001
).贝叶斯分位数回归
.统计与概率信件
54
,437
–447
.周
,H。
,兰格
,英国。
、和祖哈德
,文学硕士。
(
2010
).图形处理单元和高维优化
.统计科学
25
,311
–324
.周
,J。
,张
,H.H.公司。
、和富恩特斯
,M。
(
2012
).使用校准的气候模型输出估计气候变化对健康的影响
.农业、生物和环境统计杂志
17
,377
–394
.
©2015,国际生物识别学会