跳到主要内容

通过贝叶斯核机器回归分析多重同时暴露对健康影响的统计软件

摘要

背景

评估多种污染物混合物对健康的影响越来越受到环境流行病学的关注。最近,一种估计混合物健康影响的新方法——贝叶斯核机器回归(BKMR)被开发出来。该方法以灵活和简约的方式估计多变量暴露响应函数,对(潜在的高维)暴露向量进行变量选择,并允许采用可适应高度相关暴露的分组变量选择方法。然而,由于缺乏可用的软件,需要以计算效率高的方式导出可解释的输出,以及无法将该方法应用于非连续的结果变量,这一新方法的应用受到了限制。

方法

本文通过(i)在R编程语言中引入一个开源软件包,即bkmr公司R包,(ii)演示可视化高维曝光响应函数的方法,以及评估科学相关总结的方法,(iii)演示二进制结果的BKMR的概率回归实现,以及(iv)描述使用高斯预测过程方法的快速BKMR版本。所有方法均使用完全可再现的示例和提供的R代码进行说明。

结果

将这些方法应用于一个连续结果示例,说明了BKMR的实施能够在高度非线性、基于生物的剂量-反应函数的背景下评估多污染物混合物的健康影响,并评估整体、单次接触和交互健康影响。高斯预测过程方法大大减少了运行时间,但精确度没有显著降低。在暴露次数较多和二分结果的情况下,probit BKMR实现能够正确识别暴露响应函数中包含的变量,并在潜在持续结果尺度或结果概率尺度上产生可解释的数量。

结论

这种新开发的软件、集成的工具套件和扩展的方法使BKMR可用于多种流行病学应用,其中多种风险因素对健康有复杂影响。

同行评审报告

背景

评估几次同时暴露对健康的影响在流行病学中越来越受到关注。例如,在环境健康方面,利益在于评估多种污染物混合物的影响,例如空气污染[1]、有毒废物[2]和持久性有机化学品[]. 尽管研究传统上侧重于估计个人暴露对健康的影响,但人们越来越认识到,人群暴露于多个领域的广泛因素,包括环境压力源、遗传和心理社会决定因素,这些因素应结合考虑[4].

研究多种同时暴露的联合效应的一个主要障碍是缺乏既定的统计方法和相应的软件。估计环境混合物的健康影响具有挑战性,因为(i)暴露通常与健康结果具有非线性和非加性(例如,交互)关系,(ii)高维暴露向量可能导致回归模型拟合不良,因为暴露数量相对于数据集中的观察数量增加,并且(iii)暴露通常高度相关。此外,多暴露健康影响分析通常有几个目标,其中可能包括估计混合物的总体影响,识别导致混合物健康影响的单个成分,可视化暴露响应函数,以及检测污染物之间的相互作用[5]. 已经提出了几种统计方法来估计多次接触对健康的影响,包括机器学习方法,如随机森林[6]; 聚类方法和其他降维方法,如主成分分析、因子分析和结构方程模型;以及套索等回归惩罚方法[7]. 然而,这些方法通常解决了一些但不是全部的挑战和/或上述科学目标。先前已发表了对以往方法及其局限性的综述,以及对选定方法性能的系统比较[1,8,9,10,11,12].

最近,我们开发了一种新的方法来评估多元暴露的联合健康影响,即贝叶斯核机器回归(BKMR),该方法同时解决了上述挑战和科学目标[13]. 首先,通过使用核函数,该方法以灵活的方式估计多变量暴露响应函数,考虑非线性和非加性效应,同时调整包括潜在混杂因素在内的协变量。其次,该方法同时结合了对(潜在大量)暴露的变量选择,以控制多重测试[14]; 这使得曝光响应函数的表示变得简约。第三,我们开发了一种分层变量选择方法,该方法通过将高度相关的风险敞口划分为组来解决多重共线性问题,然后同时对相关风险敞口组以及每个组中的个人风险敞口进行变量选择。在我们之前描述BKMR的方法学工作中[13,15],我们对这种方法的性能进行了全面评估。通过基于真实数据集的模拟研究,我们发现:(i)BKMR可以很好地估计包含非线性和非加性效应的暴露响应函数,(ii)BKM可以通过变量选择识别重要的混合物成分,以及(iii)层次变量选择方法可以检测出高度相关的重要暴露组,即使在无法识别单个成分的情况下也是如此。此外,BKMR以前曾应用于毒理学和流行病学研究,从而获得了标准回归方法无法揭示的科学见解[15,16].

一些重要的差距限制了统计方法在环境健康研究中评估多污染物混合物健康影响的适用性。其中包括缺乏应用新方法的软件、具有复杂特征的数据生成场景(例如,集群结果数据),以及需要在很短的时间内生成正确结果的高效计算算法。评估混合物对健康影响的研究面临的一个特殊挑战是,需要可视化高维暴露反应函数,并在暴露与健康结果可能存在非线性和交互关联的情况下进行推断。

在这里,我们提供了一些解决这些差距的贡献。首先,我们介绍一个开源软件包(bkmr公司) [17]它实现了新的BKMR方法,用于研究R统计程序中的混合物[18]. 该软件提供了一个通用的、用户友好的BKMR实现,以及一套用于处理模型输出的功能,使研究人员能够解决多暴露健康效应分析的多重目标。其次,我们展示了表征高维暴露-反应函数的方法,包括可视化暴露-反应关系,以及科学地评估相关总结,例如总体、单一暴露和交互健康影响。第三,我们对BKMR进行了扩展,以使模型适用于更广泛的应用,包括二进制结果的概率回归实现,以及包含随机截距以解释相关结果数据的能力。最后,我们说明了使用高斯预测过程方法的快速版本BKMR如何显著加快模型拟合。用于说明这些方法的所有实例都可以通过所提供的R代码完全再现。

方法

BKMR概述

我们首先简要概述BKMR。连续结果的核机器回归(KMR)模型如下所示

$$ {Y} _ i=h\左({z}(z)_{i1},\点,{z}(z)_{iM}\right)+{{\boldsymbol{x}}_i}^{\prime}\boldsymbol{\beta}+{\epsilon}_i$$

哪里Y(Y)表示个人的响应( = 1, …, n个),z(z)感应电动机第个暴露变量小时表示待估计的未知曝光响应函数,β表示协变量的影响(注意x个是向量),以及残差¦Β~N个(0,σ2)假设具有共同方差的独立恒等(iid)正态分布。如下所述,通过小时函数允许是非线性和非加性的;协变量的影响可以线性或更灵活地建模(例如,为一个或多个协变量指定具有固定自由度[DF]的样条基)。此外,如果假设任何协变量与混合物成分相互作用,那么这些协变量也可以包括在小时.

对于多污染物混合物的研究,函数小时可能包括大量感兴趣的接触,这些接触与健康结果之间的关系可能很复杂,包括一个或多个接触的非线性关联,以及可能的相互作用。即使混合物中只有少量暴露,非线性和非加性关联的组合也可能导致高维暴露-反应关系。举例来说,如果使用三个DF的样条基对混合物中的每个曝光进行建模,以考虑非线性,并包括所有交互项,那么这将导致一个模型,在4次曝光的情况下具有255个参数,在5次曝光的情况下具有1023个参数,更一般地说,(1 + DF公司)M(M) − 以下情况下的1个参数M(M)风险敞口。在高维曝光响应函数的这种设置中,指定一组基函数(例如多项式或样条项)可能很有挑战性,并且如上图所示,拟合包含所有基函数及其相互作用的模型可能会导致过拟合问题。BKMR通过使用内核机器表示来解决这个问题小时,它规范了高维曝光响应函数(详细信息见[13]). 在内核机器表示下,不是直接建模暴露与健康结果的关联,而是指定一个内核函数K(K)(z(z),z(z)j个)这导致了具有相似暴露特征的个体之间健康结果的相关性z(z) = (z(z)1, …, z(z)M(M)). 特别是,KMR模型假设两个具有相似值的个体z(z)(即。z(z)接近z(z)j个)将具有类似的健康风险(即。,小时 = 小时(z(z))将接近小时j个 = 小时(z(z)j个)).

在操作上,通过使用核机器表示,KMR模型可以表示为混合效应模型[19],并且在贝叶斯上下文中,先验分布被放置在所有未知参数上。利用马尔可夫链蒙特卡罗(MCMC)对模型进行拟合。Bobb等人(2015)描述了混合Gibbs/Metropolis-Hastings MCMC算法的全部细节[13]及其补充材料。

合并变量选择

为了合并变量选择,可以用辅助变量来扩充核函数(第页,用于 = 1, …,M(M)),这样当辅助参数等于零时,相应的暴露变量不再包括在模型中(即,如果第页等于零,然后曝光z(z)未选中)。用组件式变量选择法拟合BKMR可得到后验包含概率的估计值,从而为每次暴露提供变量重要性的度量。或者,可以应用分层变量选择方法,其中指定暴露组。在后一种情况下,BKMR估计了每个污染物组的后验包含概率,以及每个组内污染物的后验包括概率,前提是该组已被选入模型。层次变量选择方法有用的一个例子是通过将高度相关的污染物归入同一组来解决多重共线性问题。Bobb等人(2015)对该方法进行了评估,并与组件式变量选择方法进行了比较[13].

集群结果数据的扩展

在相关结果数据的设置中,通过在同一个人内重复测量,或通过聚集在家庭或社区内的个人,BKMR模型可以扩展为Y(Y)ij公司 = 小时(z(z)ij公司1, …, z(z)国际jM) + b条+x个ij公司β + ¦Βij公司,其中Y(Y)ij公司是观察的反应j个集群内(例如,人),\( {b} _ i\sim N\左(0,{\tau}_b^2\右)\)是随机截距¦Βij公司~N个(0,σ2)是残差项。

表征曝光响应函数的方法

通过对BKMR模型进行拟合,可以得到曝光响应函数的估计值小时,可能包括非线性和非加性关联。除非混合物成分很少,否则不可能一次看到整个曝光响应函数。因此,需要工具来可视化小时。感兴趣的横截面的一个例子是,当所有其他风险都固定在特定水平(例如,中值)时,可视化单个风险如何与结果相关。同样,我们可以可视化两次暴露与健康结果的双变量关系,同时将所有其他暴露固定到特定水平。这些横截面和其他横截面可以使用bkmr公司软件包和如下所示。

除了可视化暴露-响应关系外,还可以对科学相关的兴趣摘要进行推断。在这里,我们定义了三个这样的总结,它们量化了总体、单一暴露和交互健康影响。特别是,我们定义了总体效果当所有风险敞口(z(z)1, …,z(z)M(M))与所有风险敞口都固定在第25个百分位时相比,所有协变量都固定在其第75个百分位数x个保持不变。用符号表示,如下所示\({\varDelta}_{tot}\left(25,75\right)=h\left({z} _1个^{75},\点,{z} _(_M)^{75}\右)-h\左({z} _1个^{25},\点,{z} _(_M)^{25}\右)\),其中\( {z} _米^第页)表示第百分位第个暴露变量。第二个兴趣量是单次曝光效应,我们将其定义为当一次暴露固定在第75个百分位时,与固定在第25个百分位数时相比,当所有其他暴露固定在其中值和所有协变量时,平均结果的变化x个保持不变。例如,对于曝光z(z)1,这是由\({\varDelta}_1\left(25,75\\right | 50\Big)=h\left({z} _1个^{75},{z} _2^{50},\点,{z} _(_M)^{50}\右)-h\左({z} _1个^{25}中,{z} _2^{50},\点,{z} _(_M)^{50}\右)\)对于其他暴露,数量Δ(25,75 | 50)的定义类似。量化潜在相互作用通常是混合物健康影响分析的另一个主要目标。为了方便这一点,我们定义了一个交互效应当所有其他暴露固定在第75个百分位时,与所有其他暴露都固定在第25个百分位数时相比,单次暴露的健康影响差异由Δ(25,75 |75) − Δ(25,75 |25). 我们注意到,这里使用第25和75百分位的选择是说明性的;可以根据需要修改这些值,并且可以使用任何阈值选择来计算上述汇总。在贝叶斯框架内,通过计算任何感兴趣的数值总结的后验平均估计值和95%可信区间,对上述参数进行推断。对的其他泛函的推断小时将风险敞口设定为固定值可以类似地进行。

二进制结果的Probit BKMR

BKMR可以通过广义线性建模扩展到二进制结果。为了贝叶斯推理的计算效率,我们使用概率回归,而不是逻辑回归。probit BKMR模型如下所示

$${\varPhi}^{-1}\left({\mu}_i\right)=h\left({z}(z)_{i1},\点,{z}(z)_{iM}\right)+{\boldsymbol{x}}_i}^{\prime}\boldsymbol{\beta}$$

哪里Φ是标准正态分布的累积分布函数(CDF)(Φ−1是probit link函数)和μ = P(P)(Y(Y) = 1) 是事件的概率(Y(Y)是二进制[0/1]变量)。

众所周知,probit模型可以用潜在正态随机变量公式表示。特别是,上述probit模型可以表示为\( {Y} _ i^{\ast}=左({z}(z)_{i1},\点,{z}(z)_{iM}\right)+{{\boldsymbol{x}}_i}^{\prime}\boldsymbol{\beta}+{e} _ i \),其中电子标准正常\( {Y} _ i=I\左({Y} _ i^{\ast}>0\right)\)等于1,如果\( {Y} _ i^{\ast}>0\)否则等于零。在此公式下,将BKMR模型从高斯结果扩展到二进制结果相对简单。我们可以简单地应用针对正态分布结果导出的MCMC算法,并从潜伏期的后验分布进行额外的采样\( {Y} _ i^{\ast}\)使用截断正态分布的变量。

虽然在许多环境健康应用中,概率回归往往不如逻辑回归常见,但它在潜在连续结果的尺度和结果概率的尺度上都会产生可解释的数量。特别是,通过考虑上述潜在正态公式,小时可以解释为风险敞口与一些潜在的、持续的潜在变量(Y)之间的关系). 例如,如果Y是个人是否有特定健康结果的指标变量,则Y可以解释为健康状况的潜在标志。此外,probit模型系数可以使用众所周知的公式转换为更熟悉的比值比[20]. 特别是,我们有罗吉特(μ) ≈ 1.6 · Φ−1(μ)因此β罗吉特 ≈ 1.6 · β探险家。如果结果事件的概率不太接近0或1,则此近似值适用。

高斯预测过程

拟合BKMR的一个主要计算负担是需要在算法的每次迭代中反转n×n矩阵(多次),其中n等于数据中的观察数。减少计算时间的一种方法是采用高斯预测过程[21],这是一种最初为大型空间数据集开发的方法,以前已在高斯过程先验模型中使用[22]. 在这种方法中,指定覆盖曝光空间的一组点(称为“节点”),然后计算每个曝光向量在节点集跨越的低维空间上的投影。在这种近似方法下,该算法不需要求逆n×n矩阵,只需求逆维数等于节点数的平方矩阵。

软件实施

这个bkmr公司该软件作为R(R开发核心团队2017)包实施。它依赖于以下包:dplyr、magrittr、nlme、fields、truncnorm、tidyr、MASS和tmvtnorm。R软件和这些所需的软件包可从CRAN网站获得,网址为[https://cran.r-project.org网站/]. 此外,包的日常构建bkmr公司CRAN网站上提供[https://cran.r-project.org/web/packages/bkmr/index.html]. 它已在GPL版本2下发布。GitHub上提供了源代码,网址为[https://github.com/jenfb/bkmr].

该软件包提供了一个完整的框架,用于应用BKMR对多次接触的健康影响进行分析。主要功能(kmbayes公司)实施MCMC取样器以适合BKMR模型,并包括以下功能:

  • 结果可以是连续的或二进制的(使用家庭参数)

  • 选择包括一个随机截取来解释聚集或重复测量结果数据(身份证件参数)

  • 选择是否使用变量选择来拟合模型(薄纱)

  • 应用分层变量选择的选项()

  • 实施高斯预测过程方法以加快大样本的模型拟合()

  • 用于更改MCMC算法的默认设置的选项(控制参数参数)

在拟合BKMR模型后,可以使用一套后处理功能,包括以下功能:

  • 提供模型输出的简约摘要(打印总结方法)

  • 提取后验包含概率的估计值,为每次暴露提供可变重要性的度量(提取PIP功能)

  • 提取模型参数的后验分布摘要,包括后验平均值、标准偏差和分位数(提取评估功能)

  • 获得多变量曝光响应函数的科学相关总结(这些函数通过下面的连续结果示例进行了详细说明)。

说明主管道的示例代码kmbayes公司功能如图所示1有关BKMR实施的其他详细信息,请参阅包概述指南[https://jenfb.github.io/bkmr/overview.html].

图1
图1

显示R代码的用法示例,以适应具有连续结果的BKMR。此处“y”表示长度响应向量n个(其中n个是观察次数);'Z’是n个-由-M(M)曝光矩阵,其中M(M)是曝光响应函数中包含的曝光变量数小时; 而“X”是n个-由-P(P)协变量矩阵,其中P(P)是协变量的数量

实际考虑因素

基于BKMR的推理取决于MCMC算法的收敛性。有几种方法可用于监测收敛,包括目视检查模型参数的轨迹图,或更正式的方法,如Gelman-Rubin诊断[23]. 软件包概述指南[https://jenfb.github.io/bkmr/overview.html]提供了关于如何修改用于运行MCMC算法的调谐参数以加快收敛的细节。

此外,评估结果对选择先验分布规范的敏感性是一种很好的做法。这可以通过更改默认设置在R包中完成。值得注意的是,我们已经发现,当使用变量选择进行BKMR时,后验包含概率的大小可能会对选择上的先验分布敏感第页参数(尽管根据我们的经验,后验包含概率的相对顺序趋于稳定)[15]. 因此,我们建议更改这些的先前发行版的规格第页参数;概述指南中提供了其他指导[https://jenfb.github.io/bkmr/overview.html]包括一种结合曝光响应函数平滑度的先验知识的方法。

结果

我们使用两个示例数据集演示了上述方法。第一个例子是,我们将BKMR应用于模拟数据集,该数据集是国家环境健康科学研究所(NIEHS)主办的2015年研讨会的一部分,研讨会题为“流行病学研究中评估环境化学混合物健康影响的统计方法”研讨会的目标是通过将统计方法应用于流行病学家和毒理学家基于实际数据应用开发的通用数据集来比较统计方法[24]. 该研讨会的一个主要特点是,它使用了未开发所比较的统计方法的科学家生成的模拟数据集,这为评估方法的性能提供了客观基准。在此背景下应用BKMR说明了该方法在高度非线性、基于生物的剂量-反应函数背景下的性能。在第二个示例中,我们考虑了一个具有较大曝光次数和二分结果的模拟数据集,以说明问题BKMR。

持续结果示例

对于持续结果设置,我们使用NIEHS研讨会的第一个模拟数据集(数据集#1)[25],其中包括7个暴露变量(z(z)1, …, z(z)7)和一个单一的协变量x个在500个人中。我们应用BKMR来拟合模型E类[Y(Y)] = 小时(z(z)1, …, z(z)7) + βx,其中Y(Y)表示个人的响应,小时表示待估计的未知暴露响应函数,以及β表示协变量的影响。可复制代码以及分析的完整结果,请访问[https://jenfb.github.io/bkmr/SimData1.html]; 在这里,我们描述选择的结果。

如上所述,提供了几个功能来处理模型输出。变量选择产生后验包含概率(PIP),其值范围为0到1,其大小表示相对变量重要性。在模拟示例中,暴露的估计PIP接近0z(z)z(z)6其余曝光量为1。为了说明可视化多变量曝光响应函数的方法,我们探索了不同的横截面(图2). 例如,图2a个显示了(协变量调整)z(z)7结果表明,在较低的暴露水平下,坡度较陡,而在较高的暴露水平上,坡度似乎趋于稳定,两者之间存在非线性关系。2亿显示了z(z)1z(z)7在第三次接触的不同百分位上的反应(z(z)5),这对于可视化潜在的三方交互很有用,尽管在本例中z(z)5表明缺乏三方互动的证据。

图2
图2

曝光响应函数的横截面小时(z(z)1, …, z(z)7),使用贝叶斯核机器回归估计。单变量曝光响应函数z(z)7(95%可信区间[CI]),其中剩余风险固定在其中值。b条二元曝光响应函数z(z)7z(z)1对于z(z)5固定为第10、50或90个百分位,其余风险固定为其中值

我们还计算了统计数据,总结了上述曝光响应函数的科学相关特征(图). 对混合物(3a)总体效果的估计表明,联合暴露水平的增加与较高的结果水平相关。为了描述个人暴露对整体影响的贡献,单一暴露影响估计(3b)表明,暴露于z(z)7,z(z)1、和z(z)2与较高水平的结果以及接触z(z)5z(z)4与低水平的结果相关。单次暴露估计z(z)5当所有剩余暴露量固定在第75个百分位时,与固定在第25个百分位数时相比,其数值更大,表明z(z)5与其他暴露变量中的一个(或多个)。为了进一步探讨这种可能性,我们计算了交互效应(3c),这表明这种交互作用具有统计学意义。

图3
图3

曝光响应函数的数值总结小时(z(z)1, …, z(z)7),使用贝叶斯核机器回归估计。混合物的总体影响(95%CI),定义为当所有暴露固定在特定分位数(0.25至0.75)时,与所有暴露固定为其中值时的响应差异。b条单次暴露的健康影响(95%CI),定义为与特定暴露从第25个百分位变化到第75个百分位数相关的响应变化,其中所有其他暴露固定在特定分位(0.25、0.50或0.75)。c(c)交互影响,定义为当所有剩余暴露固定在第25个百分位时,与固定在第75个百分位数时相比,单一暴露健康影响的变化(即面板上的红点b条从相应的蓝色点中减去)

我们的结果与用于生成模拟数据集的真实曝光响应函数的比较[26]证明BKMR能够正确识别哪些暴露与这些关联的结果和方向真正相关。此外,我们能够确定各个预测因子的非线性曝光-响应关系,并很好地近似于包括非线性和非加性关联的完整曝光-响应函数(参见[https://jenfb.github.io/bkmr/SimData1.html]). 使用近似的高斯预测过程方法导致当使用100节时运行时间减少49%(从0.137到0.070秒/次MCMC迭代),并且当使用50节时运行时间减少74%(到0.036秒/次迭代),在本例中,在估计曝光响应函数的准确性方面没有任何实质性降低。使用1.7 GHz处理器和8 GB内存进行计算。

二进制结果示例

为了说明probit BKMR,我们模拟了一个包含30个暴露变量的数据集,样本大小为n个 =200.二元结果取决于四个暴露的二次项和其中两个暴露之间的线性相互作用项。此示例的可复制代码和详细结果可在[https://jenfb.github.io/bkmr/ProbitEx.html]; 选择结果如图所示4后验包含概率表明,BKMR能够正确识别暴露响应函数(4a)中包含的变量,并识别二次暴露响应函数,而无需假定该关系(4b)。如上所述,probit BKMR模型在潜在连续结果的尺度和结果概率的尺度上产生了可解释的量。这里,u形关系z(z)1表明与中度暴露相比,较高和较低暴露水平可能与较高水平的潜在持续结果相关。

图4
图4

将概率贝叶斯核机器回归拟合到模拟数据的示例输出。后验包含概率(PIP)提供了从0到1的变量重要性度量。风险敞口1-4包括在小时在真正的数据生成模型中。b条单变量曝光响应函数z(z)1与假设每个暴露变量(“线性”)的线性项的probit广义线性模型(GLM)、使用正确模型形式(“oracle”)的probit-GLM和真实暴露响应函数(“true”)相比,根据BKMR进行估算。在概率回归下,小时可以解释为暴露变量与潜在的、持续的潜在结果(例如,二元健康结果的潜在健康状态的持续标记)之间的关系。c(c)当暴露2为第75百分位与第50百分位时,所有暴露固定在其中间值,以及单个混杂因素下,比较二元结果概率的风险差异后验分布x个固定在第25或第75百分位(分别为左侧和右侧面板),以及后验平均估计值(“est”)和真实风险差异(“true”)

我们还说明了如何使用probit BKMR的预测概率来计算利息数量,例如风险差(4c)。例如,当暴露2处于第75百分位和第50百分位时,对于所有固定在其中值的剩余暴露,风险差异的点估计值(95%后验可信区间)为0.42(0.02,0.73),当单一混杂因素x个固定在第25个百分位,在混杂因素下为0.32(0.01,0.72)x个固定在第75个百分位。(真正的风险差异分别为0.32和0.28。)这表明,有证据表明,暴露水平2从中到高的增加与结果绝对风险的增加之间存在统计上显著的关联,这种关联在不同混杂水平x中持续存在。

讨论

这个bkmr公司软件包提供了BKMR的通用开源实现,这是一种新的灵活方法,用于评估同时暴露于多种并发风险因素的联合健康影响。模型规范可以适应环境健康中常见的广泛数据应用场景,包括连续或二进制结果、重复测量或聚集结果数据以及高度相关的暴露。提供了一组函数来处理模型输出,解决了有关多元曝光-响应关系特征的科学问题。

BKMR的一个关键特征是对多变量暴露反应函数的估计,在研究环境混合物的健康影响时,该函数通常是高维的。然而,在这种情况下进行推理可能是一项挑战。因此,我们提出了暴露-反应函数的几个数值总结,以使研究人员能够估计混合物的总体影响、单次暴露的健康影响和交互影响。不像统计建模中经常做的那样,要求数量与回归模型的特定参数相对应(例如,主效应或交互项的系数),我们提出的数值总结可以估算,而不管回归模型的具体形式如何。因此,它们广泛适用于从其他(即非BKMR)统计模型估计的暴露-反应关系。与任何降维技术一样,在解释摘要度量时都需要小心,因为它们可能掩盖数据的潜在复杂特征。例如,如果存在u型关系,比较高暴露与低暴露的健康结果的单一暴露总结可能会显示为无效;同样,如果一半的暴露与相似的量值呈正相关,而另一半与类似的量值呈负相关,则可以观察到明显的零总体关联。因此,建议探索一系列总结性测量,并可视化暴露响应表面的不同横截面,以及PIP或变量重要性得分。

我们实现的用于拟合BKMR的MCMC算法使用了几种技巧来加快计算速度。首先,而不是更新混合物的特定主题效果小时在用于拟合BKMR的主要函数中,我们忽略了这些参数的后验分布[13]. 这些特定主题的效果本身通常不具有科学意义;相反,研究人员通常希望估计曝光响应函数的一般形式,这可以通过上述后处理函数可视化和总结。其次,二进制结果的实现利用了概率回归的潜在正态规范,这对于贝叶斯推理具有计算优势。第三,该软件允许应用高斯预测过程方法[21]最初是为大型空间数据集开发的,该数据集将暴露空间投影到较少数量的点(“节点”)上,从而高效计算健康风险估计值。

可以添加几个其他功能。通过Poisson BKMR允许计数结果数据,可以将该模型应用于时间序列研究,以评估多个社区层面风险因素(例如温度和空气污染)的日常变化对日常结果(例如住院率)的联合健康影响[27]. 然而,在此设置中实现MCMC算法需要额外的复杂性,因为上述计算技巧不适用。此外,实现的重点是用于指定BKMR模型的核函数的特定选择,即高斯核。我们之前的模拟研究表明,该规范相对灵活,能够准确捕获真实曝光响应函数的广泛潜在形式。然而,将来可以添加指定其他内核函数的功能。按照同样的思路,我们的重点是评估持续暴露变量的联合健康影响;考虑到作为分类曝光和连续曝光功能的曝光响应表面也可能很有意义。最后,除了评估具体的交互效应汇总指标外,人们可能更广泛地感兴趣的是检测两组暴露变量是否相互作用[28,29,30]. 这可以在BKMR框架内通过应用核分解方法来评估核函数h(z(z)1,z(z)2)可以表示为h(z(z)1) + 小时(z(z)2)对于两组暴露(z(z)1z(z)2).

结论

总之,这个新开发的软件为进行混合物健康影响分析提供了一套集成的工具。该软件和扩展的工具箱使BKMR可用于广泛的流行病学应用,其中大量接触对健康具有复杂、潜在的非线性和交互影响。

缩写

BKMR公司:

贝叶斯核机器回归

CI:

可信区间

数据框:

自由度

哈萨克斯坦共和国:

核机器回归

MCMC:

马尔科夫蒙特卡洛

NIEHS:

国家环境健康科学研究所

项目实施计划:

后验包含概率

工具书类

  1. Billionnet C,Sherrill D.Annesi-Maesano I,研究G:评估接触多污染物混合物的健康影响。流行病学年鉴。2012;22:126–41.

    第条 谷歌学者 

  2. Hu H,Shine J,Wright RO.有毒废物混合物对儿童健康构成的挑战:作为案例研究的Tar Creek超级基金网站。《美国儿科临床杂志》,2007年;54:155–75.

    第条 谷歌学者 

  3. Gennings C,Sabo R,Carney E.以多氯联苯和子宫内膜异位症为例,确定与复杂疾病最相关的复杂混合物子集。流行病学。2010;21(补充4):S77–S84。

  4. Carlin DJ、Rider CV、Woychik R、Birnbaum LS。揭示环境混合物对健康的影响:NIEHS的优先事项。环境健康展望。2013;121:A6–8。

    第条 谷歌学者 

  5. Braun JM、Gennings C、Hauser R、Webster TF。关于化学混合物对人类健康的影响,流行病学研究能告诉我们什么?环境健康展望。2016;124:A6-9。

    第条 谷歌学者 

  6. 布雷曼L.随机森林。马赫学习。2001;45:5–32.

    第条 谷歌学者 

  7. Tibshirani R.通过套索回归收缩和选择。英国皇家统计学会J-B系列,1996年;58:267–88.

    谷歌学者 

  8. Dominici F、Peng RD、Barr CD、Bell ML。保护人类健康免受空气污染:从单一污染物转变为多污染物方法。流行病学。2010;21:187–94.

    第条 谷歌学者 

  9. Agier L、Portengen L、Chadeau-Hyam M、Basagana X、Giorgis-Allemand L、Siroux V、Robinson O、Vlaanderen J、Gonzalez JR、Nieuwenhuijsen MJ等。基于线性回归的统计方法的系统比较,以评估博览会与健康的关联。环境健康展望。2016;124:1848–56.

    第条 谷歌学者 

  10. Barrera-Gómez J、Agier L、Portengen L、Chadeau-Hyam M、Giorgis-Allemand L、Siroux V、Robinson O、Vlaanderen J、González JR、Nieuwenhuijsen M等。检测暴露-健康关联中相互作用的统计方法的系统比较。环境健康。2017;16:74.

    第条 谷歌学者 

  11. Sun Z、Tao Y、Li S、Ferguson KK、Meeker JD、Park SK、Batterman SA、Mukherjee B。构建含有多种污染物及其相互作用的健康风险模型的统计策略:可能的选择和比较。环境健康。2013;12:85.

    第条 谷歌学者 

  12. Stafoggia M、Breitner S、Hampel R、Basagaña X。解决多污染物混合物和多重暴露的统计方法:科学现状。2017年环境卫生代表;4:481–90.

    第条 中国科学院 谷歌学者 

  13. Bobb JF、Valeri L、Claus Henn B、Christiani DC、Wright RO、Mazumdar M、Godleski JJ、Coull BA。估算多污染物混合物健康影响的贝叶斯核机器回归。生物统计学。2015;16:493–508.

    第条 谷歌学者 

  14. Scott JG,Berger JO。变量选择问题中的贝叶斯和经验贝叶斯多重性调整。Ann Stat.2010;38:2587–619.

    第条 谷歌学者 

  15. Coull BA、Bobb JF、Wellenius GA、Kioumourtzoglou MA、Mittleman MA、Koutrakis P、Godleski JJ。第1部分:。多种空气污染成分影响的统计学习方法。Res Rep Health Eff Inst.2015年5月50日。

  16. Valeri L、Mazumdar MM、Bob JF、Claus Henn B、Rodrigues E、Sharif OIA、Kile ML、Quamruzzaman Q、Afroz S、Golam M等。产前接触金属混合物对20-40个月大婴儿神经发育结果的联合影响:来自孟加拉国农村的证据。环境健康展望。2017;125:067015.

    第条 谷歌学者 

  17. Bobb JF.bkmr:贝叶斯核机器回归。R包版本0.2.0.2017。https://github.com/jenfb/bkmr2017年4月6日访问。

  18. R核心团队。R: 用于统计计算的语言和环境。R统计计算基金会,奥地利维也纳,2017年。https://www.R-project.org/。2018年8月13日查阅。

  19. Liu D,Lin X,Ghosh D。多维遗传途径数据的半参数回归:最小二乘核机器和线性混合模型。生物计量学。2007;63:1079–88.

    第条 谷歌学者 

  20. Amemiya T.定性反应模型:一项调查。杰尔。1981;19:1483–536。

    谷歌学者 

  21. Banerjee S,Gelfand AE,Finley AO,Sang H.大型空间数据集的高斯预测过程模型。英国皇家统计学会J-B系列,2008年;70:825–48.

    第条 谷歌学者 

  22. Savitsky T,Vannucci M,Sha N.非参数高斯过程先验的变量选择:模型和计算策略。统计科学。2011;26:130–49.

    第条 谷歌学者 

  23. Gelman A,Rubin DB。使用多序列的迭代模拟推断。统计科学。1992;7:457–72.

    第条 谷歌学者 

  24. Taylor KW、Joubert BR、Braun JM、Dilworth C、Genings C、Hauser R、Heindel JJ、Rider CV、Webster TF、Carlin DJ。流行病学中评估环境化学混合物健康影响的统计方法:创新研讨会的经验教训。环境健康展望。2016;124页:A227–9。

    第条 谷歌学者 

  25. 国家环境健康科学研究所。流行病学研究中评估环境化学混合物健康影响的统计方法。2015;https://www.niehs.nih.gov/news/events/pastmtg/2015/statistical网站/。访问时间:2018年6月20日。

  26. 合成数据集#1。https://www.niehs.nih.gov/about/events/pastmtg/2015/statistical/simulated_dataset_1_answers.pdf。2017年8月10日访问。

  27. Bobb JF,Dominici F,Peng RD。简化层次模型,用于评估同时暴露于多种污染物的健康影响。《皇家统计学会杂志》2013年C辑;62:451–72.

    第条 谷歌学者 

  28. Lampa E,Lind L,Lind PM,Bornefalk-Hermansson A.流行病学和毒理学中复杂交互作用的识别:增强回归树的模拟研究。环境健康。2014;13时57分。

    第条 中国科学院 谷歌学者 

  29. Larson NB,Schaid DJ。病例对照研究中基因相互作用检测的核回归方法。基因流行病学。2013;37:695–703.

    第条 谷歌学者 

  30. Antonelli J MM,Bellinger D,Christiani D,Wright R,Coull BA。多维半参数回归模型的贝叶斯变量选择。2017;https://arxiv.org/abs/1711.11239。2018年6月21日查阅。

    谷歌学者 

下载参考资料

基金

这项工作得到了国家卫生研究院的资助[P30 ES000002,R01 ES024332-01A1,R00 ES022986,P01 CA134294];美国环境保护署(EPA)[RD-83587201];和健康影响研究所。其内容仅由受让人负责,不一定代表美国环保局的官方观点。此外,美国环保局不支持购买出版物中提及的任何商业产品或服务。

数据和材料的可用性

本研究期间生成或分析的所有数据均包含在本文及其补充信息文件中。

作者信息

作者和附属机构

作者

贡献

JFB开发了软件,进行了分析,并撰写了手稿。BC、LV和BCH对分析、结果解释和手稿写作做出了贡献。所有作者阅读并批准了最终手稿。

通讯作者

与的通信詹妮弗·鲍伯.

道德声明

道德批准和参与同意

不适用

出版同意书

不适用

竞争性利益

作者声明,他们没有相互竞争的利益。

出版商笔记

Springer Nature在公布的地图和机构关联中的管辖权主张方面保持中立。

权利和权限

开放式访问本文根据Creative Commons Attribution 4.0 International License的条款分发(http://creativecommons.org/licenses/by/4.0/),它允许在任何媒体上不受限制地使用、分发和复制,前提是您对原始作者和来源给予适当的信任,提供知识共享许可的链接,并指明是否进行了更改。知识共享公共领域专用豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有说明。

重印和许可

关于本文

检查更新。通过CrossMark验证货币和真实性

引用这篇文章

Bobb,J.F.、Claus Henn,B.、Valeri,L。等。通过贝叶斯核机器回归分析多重同时暴露对健康影响的统计软件。环境与健康 17, 67 (2018). https://doi.org/10.1186/s12940-018-0413-y

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/s12940-018-0413-y

关键词