BKMR概述
我们首先简要概述BKMR。连续结果的核机器回归(KMR)模型如下所示
$$ {Y} _ i=h\左({z}(z)_{i1},\点,{z}(z)_{iM}\right)+{{\boldsymbol{x}}_i}^{\prime}\boldsymbol{\beta}+{\epsilon}_i$$
哪里Y(Y)我表示个人的响应我(我 = 1, …, n个),z(z)感应电动机是米第个暴露变量小时表示待估计的未知曝光响应函数,β表示协变量的影响(注意x个我是向量),以及残差¦Β我~N个(0, σ2)假设具有共同方差的独立恒等(iid)正态分布。如下所述,通过小时函数允许是非线性和非加性的;协变量的影响可以线性或更灵活地建模(例如,为一个或多个协变量指定具有固定自由度[DF]的样条基)。此外,如果假设任何协变量与混合物成分相互作用,那么这些协变量也可以包括在小时.
对于多污染物混合物的研究,函数小时可能包括大量感兴趣的接触,这些接触与健康结果之间的关系可能很复杂,包括一个或多个接触的非线性关联,以及可能的相互作用。即使混合物中只有少量暴露,非线性和非加性关联的组合也可能导致高维暴露-反应关系。举例来说,如果使用三个DF的样条基对混合物中的每个曝光进行建模,以考虑非线性,并包括所有交互项,那么这将导致一个模型,在4次曝光的情况下具有255个参数,在5次曝光的情况下具有1023个参数,更一般地说,(1 + DF公司)M(M) − 以下情况下的1个参数M(M)风险敞口。在高维曝光响应函数的这种设置中,指定一组基函数(例如多项式或样条项)可能很有挑战性,并且如上图所示,拟合包含所有基函数及其相互作用的模型可能会导致过拟合问题。BKMR通过使用内核机器表示来解决这个问题小时,它规范了高维曝光响应函数(详细信息见[13]). 在内核机器表示下,不是直接建模暴露与健康结果的关联,而是指定一个内核函数K(K)(z(z)我, z(z)j个)这导致了具有相似暴露特征的个体之间健康结果的相关性z(z) = (z(z)1, …, z(z)M(M)). 特别是,KMR模型假设两个具有相似值的个体z(z)(即。z(z)我接近z(z)j个)将具有类似的健康风险(即。,小时我 = 小时(z(z)我)将接近小时j个 = 小时(z(z)j个)).
在操作上,通过使用核机器表示,KMR模型可以表示为混合效应模型[19],并且在贝叶斯上下文中,先验分布被放置在所有未知参数上。利用马尔可夫链蒙特卡罗(MCMC)对模型进行拟合。Bobb等人(2015)描述了混合Gibbs/Metropolis-Hastings MCMC算法的全部细节[13]及其补充材料。
合并变量选择
为了合并变量选择,可以用辅助变量来扩充核函数(第页米,用于米 = 1, …,M(M)),这样当辅助参数等于零时,相应的暴露变量不再包括在模型中(即,如果第页米等于零,然后曝光z(z)米未选中)。用组件式变量选择法拟合BKMR可得到后验包含概率的估计值,从而为每次暴露提供变量重要性的度量。或者,可以应用分层变量选择方法,其中指定暴露组。在后一种情况下,BKMR估计了每个污染物组的后验包含概率,以及每个组内污染物的后验包括概率,前提是该组已被选入模型。层次变量选择方法有用的一个例子是通过将高度相关的污染物归入同一组来解决多重共线性问题。Bobb等人(2015)对该方法进行了评估,并与组件式变量选择方法进行了比较[13].
集群结果数据的扩展
在相关结果数据的设置中,通过在同一个人内重复测量,或通过聚集在家庭或社区内的个人,BKMR模型可以扩展为Y(Y)ij公司 = 小时(z(z)ij公司1, …, z(z)国际jM) + b条我 + x个ij公司′β + ¦Βij公司,其中Y(Y)ij公司是观察的反应j个集群内(例如,人)我,\( {b} _ i\sim N\左(0,{\tau}_b^2\右)\)是随机截距¦Βij公司~N个(0, σ2)是残差项。
表征曝光响应函数的方法
通过对BKMR模型进行拟合,可以得到曝光响应函数的估计值小时,可能包括非线性和非加性关联。除非混合物成分很少,否则不可能一次看到整个曝光响应函数。因此,需要工具来可视化小时。感兴趣的横截面的一个例子是,当所有其他风险都固定在特定水平(例如,中值)时,可视化单个风险如何与结果相关。同样,我们可以可视化两次暴露与健康结果的双变量关系,同时将所有其他暴露固定到特定水平。这些横截面和其他横截面可以使用bkmr公司软件包和如下所示。
除了可视化暴露-响应关系外,还可以对科学相关的兴趣摘要进行推断。在这里,我们定义了三个这样的总结,它们量化了总体、单一暴露和交互健康影响。特别是,我们定义了总体效果当所有风险敞口(z(z)1, …,z(z)M(M))与所有风险敞口都固定在第25个百分位时相比,所有协变量都固定在其第75个百分位数x个保持不变。用符号表示,如下所示\({\varDelta}_{tot}\left(25,75\right)=h\left({z} _1个^{75},\点,{z} _(_M)^{75}\右)-h\左({z} _1个^{25},\点,{z} _(_M)^{25}\右)\),其中\( {z} _米^第页)表示对第百分位米第个暴露变量。第二个兴趣量是单次曝光效应,我们将其定义为当一次暴露固定在第75个百分位时,与固定在第25个百分位数时相比,当所有其他暴露固定在其中值和所有协变量时,平均结果的变化x个保持不变。例如,对于曝光z(z)1,这是由\({\varDelta}_1\left(25,75\\right | 50\Big)=h\left({z} _1个^{75},{z} _2^{50},\点,{z} _(_M)^{50}\右)-h\左({z} _1个^{25}中,{z} _2^{50},\点,{z} _(_M)^{50}\右)\)对于其他暴露,数量Δ米(25, 75 | 50)的定义类似。量化潜在相互作用通常是混合物健康影响分析的另一个主要目标。为了方便这一点,我们定义了一个交互效应当所有其他暴露固定在第75个百分位时,与所有其他暴露都固定在第25个百分位数时相比,单次暴露的健康影响差异由Δ米(25, 75 |75) − Δ米(25, 75 |25). 我们注意到,这里使用第25和75百分位的选择是说明性的;可以根据需要修改这些值,并且可以使用任何阈值选择来计算上述汇总。在贝叶斯框架内,通过计算任何感兴趣的数值总结的后验平均估计值和95%可信区间,对上述参数进行推断。对的其他泛函的推断小时将风险敞口设定为固定值可以类似地进行。
二进制结果的Probit BKMR
BKMR可以通过广义线性建模扩展到二进制结果。为了贝叶斯推理的计算效率,我们使用概率回归,而不是逻辑回归。probit BKMR模型如下所示
$${\varPhi}^{-1}\left({\mu}_i\right)=h\left({z}(z)_{i1},\点,{z}(z)_{iM}\right)+{\boldsymbol{x}}_i}^{\prime}\boldsymbol{\beta}$$
哪里Φ是标准正态分布的累积分布函数(CDF)(Φ−1是probit link函数)和μ我 = P(P)(Y(Y)我 = 1) 是事件的概率(Y(Y)我是二进制[0/1]变量)。
众所周知,probit模型可以用潜在正态随机变量公式表示。特别是,上述probit模型可以表示为\( {Y} _ i^{\ast}=左({z}(z)_{i1},\点,{z}(z)_{iM}\right)+{{\boldsymbol{x}}_i}^{\prime}\boldsymbol{\beta}+{e} _ i \),其中电子我标准正常\( {Y} _ i=I\左({Y} _ i^{\ast}>0\right)\)等于1,如果\( {Y} _ i^{\ast}>0\)否则等于零。在此公式下,将BKMR模型从高斯结果扩展到二进制结果相对简单。我们可以简单地应用针对正态分布结果导出的MCMC算法,并从潜伏期的后验分布进行额外的采样\( {Y} _ i^{\ast}\)使用截断正态分布的变量。
虽然在许多环境健康应用中,概率回归往往不如逻辑回归常见,但它在潜在连续结果的尺度和结果概率的尺度上都会产生可解释的数量。特别是,通过考虑上述潜在正态公式,小时可以解释为风险敞口与一些潜在的、持续的潜在变量(Y)之间的关系∗). 例如,如果Y是个人是否有特定健康结果的指标变量,则Y∗可以解释为健康状况的潜在标志。此外,probit模型系数可以使用众所周知的公式转换为更熟悉的比值比[20]. 特别是,我们有罗吉特(μ) ≈ 1.6 · Φ−1(μ)因此β罗吉特 ≈ 1.6 · β探险家。如果结果事件的概率不太接近0或1,则此近似值适用。
高斯预测过程
拟合BKMR的一个主要计算负担是需要在算法的每次迭代中反转n×n矩阵(多次),其中n等于数据中的观察数。减少计算时间的一种方法是采用高斯预测过程[21],这是一种最初为大型空间数据集开发的方法,以前已在高斯过程先验模型中使用[22]. 在这种方法中,指定覆盖曝光空间的一组点(称为“节点”),然后计算每个曝光向量在节点集跨越的低维空间上的投影。在这种近似方法下,该算法不需要求逆n×n矩阵,只需求逆维数等于节点数的平方矩阵。
软件实施
这个bkmr公司该软件作为R(R开发核心团队2017)包实施。它依赖于以下包:dplyr、magrittr、nlme、fields、truncnorm、tidyr、MASS和tmvtnorm。R软件和这些所需的软件包可从CRAN网站获得,网址为[https://cran.r-project.org网站/]. 此外,包的日常构建bkmr公司CRAN网站上提供[https://cran.r-project.org/web/packages/bkmr/index.html]. 它已在GPL版本2下发布。GitHub上提供了源代码,网址为[https://github.com/jenfb/bkmr].
该软件包提供了一个完整的框架,用于应用BKMR对多次接触的健康影响进行分析。主要功能(kmbayes公司)实施MCMC取样器以适合BKMR模型,并包括以下功能:
在拟合BKMR模型后,可以使用一套后处理功能,包括以下功能:
-
提供模型输出的简约摘要(打印和总结方法)
-
提取后验包含概率的估计值,为每次暴露提供可变重要性的度量(提取PIP功能)
-
提取模型参数的后验分布摘要,包括后验平均值、标准偏差和分位数(提取评估功能)
-
获得多变量曝光响应函数的科学相关总结(这些函数通过下面的连续结果示例进行了详细说明)。
说明主管道的示例代码kmbayes公司功能如图所示1有关BKMR实施的其他详细信息,请参阅包概述指南[https://jenfb.github.io/bkmr/overview.html].
实际考虑因素
基于BKMR的推理取决于MCMC算法的收敛性。有几种方法可用于监测收敛,包括目视检查模型参数的轨迹图,或更正式的方法,如Gelman-Rubin诊断[23]. 软件包概述指南[https://jenfb.github.io/bkmr/overview.html]提供了关于如何修改用于运行MCMC算法的调谐参数以加快收敛的细节。
此外,评估结果对选择先验分布规范的敏感性是一种很好的做法。这可以通过更改默认设置在R包中完成。值得注意的是,我们已经发现,当使用变量选择进行BKMR时,后验包含概率的大小可能会对选择上的先验分布敏感第页米参数(尽管根据我们的经验,后验包含概率的相对顺序趋于稳定)[15]. 因此,我们建议更改这些的先前发行版的规格第页米参数;概述指南中提供了其他指导[https://jenfb.github.io/bkmr/overview.html]包括一种结合曝光响应函数平滑度的先验知识的方法。