总结

分布式滞后非线性模型(DLNMs)是一种用于描述潜在非线性和延迟相关性的建模工具。在这里,我们通过在广义可加模型(GAM)中使用惩罚样条来说明DLNM框架的扩展。该扩展提供了内置的模型选择程序,并可以通过特定惩罚来适应对滞后结构形状的假设。此外,作为特殊情况,该框架还包括以前提出的用于线性关系(DLM)的更简单模型。在模拟研究中,将缺陷DLNM的替代版本彼此进行比较,并与标准非规范版本进行比较。结果表明,这种对DLNM类的惩罚扩展提供了更大的灵活性和改进的推理属性。该框架利用了GAM的最新理论发展,并在免费可用的软件中使用高效的例程来实现。实时数据应用通过时间序列和生存分析中的两个可再现示例进行说明。

1.简介

分布式滞后模型(DLM),最初由阿尔蒙(1965))最近在流行病学上施瓦茨(2000))构成一个优雅的分析框架,以描述时间序列数据中输入和响应之间的延迟为特征的关联。DLM为响应建模公式在时间上观察到t吨就过去发生的事情而言公式预测值的x个.新数量公式,的滞后,定义了一个表示关联时间结构的新空间。在标准DLM中,参数函数用于建模滞后结构的形状,通常是多项式或不太常见的回归样条。然而,估计的形状取决于所选的参数形式,例如多项式的次数或样条曲线节点的数量和位置。已经提出了更复杂的平滑技术来解决DLM中的这个问题,包括通过广义加性模型(GAM)的惩罚样条(Zanobetti等人,2000年;Muggeo,2008年;Rushworth等人,2013年;Obermeier等人,2015年)或定义先验分布的贝叶斯方法(Welty等人,2009年). 虽然这些方法提供了更大的灵活性和更先进的模型选择程序,但它们依赖于线性或线性阈值剂量-反应关系的强烈假设,并且仅适用于时间序列数据。

最近的工作解决了这些局限性。第一,阿姆斯特朗(2006))和Gasparini等人(2010年))将DLM扩展到分布滞后非线性模型(DLNMs),一个描述二维的框架剂量-滞后反应在预测强度和滞后的维度上,相关性可能呈非线性变化。第二,加斯帕里尼(2014))广义DLM和DLNM超越了时间序列设置,将其应用扩展到其他设计和数据结构。然而,当前版本的DLNMs仍然需要用户选择表示剂量滞后响应关系的函数的参数形式。已经提出了基于信息准则的模型选择程序,但它们缺乏坚实的理论基础,并且已经证明部分影响了估计量的推断性质(Gasparini,2014年;Obermeier等人,2015年).

在本文中,我们提出了一个通过惩罚样条回归开发的扩展DLNM类。这一发展为潜在复杂的二维剂量-反应关系建模提供了更大的灵活性,并基于最近的GAM理论工作提供了内置模型选择和推断程序。此外,我们进一步扩展了该方法,通过具体惩罚的定义来适应对滞后结构形状的先验假设。该通用框架适用于基于时间序列或其他数据结构的各种研究设计中的线性或非线性滞后关系建模,并包括上述大多数特殊情况下的模型。此扩展在免费可用的软件例程中完全实现。

文章结构如下:第2节简要回顾DLNM的定义。第3节说明了DLNM缺陷版本的扩展。第4节,我们对标准版本和扩展版本的性能和推断属性进行了模拟研究。第5节,在两个可再现的说明性示例中应用了受惩罚的DLNM。最后的讨论见第6节。其他信息和结果在Web资料中提供。

2.DLNM框架

在时间序列数据中,DLM和DLNM对响应进行建模公式在时间测量公式根据预报器的滞后出现次数公式,由向量表示公式,使用公式L(左)分别为最小滞后和最大滞后(Gasparrini等人,2010年). 通过包含额外的索引结构,该框架可以扩展到时间序列设置之外,从而允许每个响应公式,使用公式,取决于等距滞后值公式在这里,由索引确定的每个观察结果例如,在时间中跟随的特定主题指的是不同的曝光曲线决定滞后剂量模式的时间t吨时间序列数据表示一种特殊情况,其中公式而扩展到更复杂的设计,如生存或重复测量纵向数据,则很简单。请参见加斯帕里尼(2014))以更详细地解释超越时间序列数据和相关代数定义的扩展。

关联通过函数表示,定义为:

(1)

这里是二维剂量-滞后响应函数公式由两个边缘函数组成:标准剂量反应函数公式,以及附加的lag-response函数公式为空间中的滞后结构建模公式.参数化(f)w个通过对向量应用已知的基变换来获得公式公式,生成边际基矩阵公式公式带尺寸公式公式分别是。可识别性约束需要重新参数化公式(请参见第3.2节). 功能,此处称为交叉基础函数和由系数参数化公式,由以下人员构成:

(2)

具有公式作为派生自的一组已知变换公式,然后由两个基矩阵之间的行式Kronecker积计算(Eilers等人,2006年),作为:

(3)

具有公式作为长度为1的向量j个. The公式交叉基矩阵公式,通过应用获得(1)(3)全套n个观测值,可以包括在标准回归模型的设计矩阵中,例如广义线性模型(GLM)或Cox比例风险模型,以估计参数公式.

通过预测效应可以恢复剂量-滞后响应面公式预测值网格x个和滞后公式为了便于解释,公式被定义为公式通过集中剂量反应函数公式预测值的参考值x个.这些影响公式按照通常的风险比率或差异等级进行解释。特别是,分析通常侧重于具体总结,例如在给定预测值下估计的滞后反应相关性,或通过在滞后期内累积风险获得的总体剂量反应相关性。代数和解释细节在其他地方给出(阿姆斯特朗,2006;Gasparrini等人,2010年;Gasparini,2014年).

3.受到处罚的DLNM

DLNM的缺陷扩展可以在GAM系列中描述(Hastie和Tibshirani,1990年;伍德,2006a). 这些模型通过允许线性预测器包括协变量的灵活平滑函数,扩展了GLM的强参数形式。GAM的最新发展使用低秩基项和一种简单的惩罚似然形式,通过惩罚回归样条来定义平滑分量(伍德,2006年b). 该定义提供了理论上可靠的估值器,使用高效且数值稳定的例程实现(伍德,2008年,2011). 我们将该方法的两个版本称为非规范化DLNM和惩罚DLNM,有时分别使用快捷方式GLM和GAM。

3.1. 处罚可能性

在未经验证的模型中,DLNM定义的剂量-反应关联可以通过最大化模型似然来估计公式根据模型参数公式,使用公式对应于交叉基系数和公式分别计算模型中附加协变量项的系数。扩展惩罚DLNM的基本思想是形成一个参数化的交叉基础,然后通过其参数应用惩罚公式使剂量反应表面光滑。遵循张量积二维平滑的类似发展(Currie等人,2004年),缺陷版本公式模型的似然由以下公式获得:

(4)

这里,惩罚公式通过以下方式获得惩罚矩阵公式公式处罚(或平滑的)参数公式控制曲面的平滑度。中的定义(4)提供了几个优点。首先,它允许沿着剂量-反应函数的两个维度进行不同程度的惩罚公式通过独立校准两个边缘空间中的平滑度x个公式通过公式公式分别是。此外,可以定义惩罚函数和非惩罚函数的混合,例如,当可以对任一函数进行强参数假设时公式公式在里面(1)(3),排除了相关的平滑参数和惩罚矩阵(4)因此,上述建议的框架包括之前建议的受惩罚的DLM(Zanobetti等人,2000年;Obermeier等人,2015年)通过指定线性未规范化公式。扩展到具有多个交叉基项或附加惩罚项的模型很简单。

3.2. 平滑器的选择

GAM中的平滑项可以由不同的平滑器以替代基函数和惩罚为特征。在受惩罚的DLNM中,平滑器的选择决定了用于生成的基变换公式公式在里面(2)(3)以及由此形成的惩罚公式公式在里面(4)在这里,我们描述了两个选项,尽管其他选项也可用(伍德,2006a).

第一个平滑器(标记为PS)基于P样条曲线(艾尔斯和马克思,1996年)它在多维平滑方面具有良好的性能,并且在惩罚定义方面既简单又灵活。该平滑器的基矩阵由以下部分组成v(v)次数B样条第页,由定义公式等距结。平滑是通过使用差分顺序惩罚与相邻样条曲线对应的系数之间的差异来实现的d日。惩罚矩阵推导为:

(5)

具有公式作为一个公式阶差矩阵d日前两个订单的示例如下:

(6)

第二个平滑器(标记为CR)基于三次回归样条曲线,并对二阶导数进行惩罚。如中所述木材(2006a),为了计算方便,该平滑器的基矩阵是使用一个特殊的参数化v(v)自然三次样条曲线,其中每个v(v)节。这些结可以放置在预测器范围内的任何位置,默认情况下,这些结位于等距分位数处。平滑是通过惩罚函数的二阶导数来实现的,推导惩罚矩阵需要更复杂的计算公式(格林和西尔弗曼,1994年).

中交叉基的张量积形式(1)(3)需要约束以确保回归参数的可识别性。具体来说,可识别性约束被吸收到公式公式通过重新参数化。此步骤与从公式在未规范化的DLNM中,并确保公式交叉基矩阵公式可以是全军衔。其他详细信息见木材(2006a)以及上述引用的参考文献。

3.3. 滞后结构的替代惩罚

可以对滞后维度中的关系的形状做出具体的假设。这些假设可以通过附加处罚纳入,处罚分为两大类。第一,不同的山脊惩罚可以强制将滞后响应曲线的不同部分收缩到空值。这些类型的惩罚可以与PS或CR平滑器一起使用,并采用两种替代形式:

(7a)
(7b)

在这里,公式是预先指定的权重对角矩阵第页,其中(7a)直接应用于公式系数公式,在中时(7b)被选为公式滞后并映射到公式通过基矩阵公式定义于(3)。这些之前在中讨论过Muggeo(2008年)和Obermeier等人(2015年).

第二种类型是可变差额惩罚这可以用于沿lag-response曲线强制实现不同程度的平滑度。这些惩罚自然是针对PS平滑器定义的,虽然在技术上也适用于CR平滑器,但后者的理论依据较少。它们采用以下形式:

(8a)
(8b)

哪里公式定义权重第页对于公式公式系数之间的差异(8a)并滞后于(8b)分别为,而公式是在中定义的矩阵(6)尺寸一致。

滞后结构的一次或多次处罚,如(5)或(7)–(8)可以通过为每个模型定义平滑参数来施加在同一模型中公式和惩罚矩阵公式在里面(4)。请参阅第4节5以了解具体示例。

3.4. 估算

通过选择基项和惩罚矩阵定义模型后,惩罚对数似然的最大化公式在里面(4)通过GAM的标准估计方法求解(伍德,2006a). 简单地说,将惩罚迭代加权最小二乘(P-IRLS)方法与多重平滑参数选择相结合来估计平滑度。可使用替代方法来估计平滑参数公式在P-IRLS中,如广义交叉验证(GCV)、无偏风险估计器(UBRE,基本上按比例的AIC)和(限制的)最大似然(REML和ML),都是使用可靠且计算效率高的例程实现的(伍德,2008年,2011). 仿真结果表明,REML和ML在均方误差性能和平滑性能方面都具有优越性(伍德,2011年).

根据系数的估计后验(co)方差矩阵计算剂量-滞后响应面及其总结的近似点-方向置信区间公式,使用经验贝叶斯估计得出(马拉和伍德,2012年). 这些解释了影响平滑项的固有偏差,并已证明提供了置信区间跨函数频率覆盖率接近标称值。虽然此处使用的估计量忽略了平滑参数估计中的不确定性公式,这对实际数据设置中的间隔性能几乎没有影响(马拉和伍德,2012年).

剂量-滞后响应表面的光滑度可以通过以下方面进行量化有效自由度(电子数据流),高边界通常由两个边缘基矩阵的维数的乘积表示,公式(当公式),以及由其零空间维数的乘积确定的下边界(当公式公式). 每个边缘基的零空间维数等于惩罚的顺序,即差序d日PS或CR平滑器中的导数阶数(通常为2)分别减去任何约束(伍德,2006a).

4.仿真研究

为了评估不同版本的缺陷DLNM的性能和推断属性,并将其与标准的非规范化方法进行比较,我们基于具有不同复杂度的剂量-剂量响应曲面的场景进行了模拟研究。

4.1. 模拟设置

预测器公式以芝加哥1987-2000年期间的每日气温序列为代表(Samet等人,2000年),标准化范围为0-10。对于每个复制,我们模拟了一个结果序列公式每日死亡人数的公式,来自平均值的泊松分布公式,使用:

(9)

我们在三个场景中重复了模拟公式,具有剂量-反应功能公式超滞后0–40描述为:

  • 场景1:一架简单的飞机;

  • 场景2:形状类似于先前估计的温度-死亡率关联;

  • 场景3:一个复杂的摆动表面。

以下是这三种情况的图形表示图1,中提供了代数细节Web附录A.截距公式用作信噪比参数,以获得公式公式在每种情况下大约为0.5。

模拟场景表示不同的二维剂量-反应关联。粗体黑线表示用于比较图2中不同模型拟合度的剂量-反应和滞后-反应关系。
图1

模拟场景表示不同的二维剂量-反应关联。粗体黑线表示用于比较不同模型在图2.

对于每个模拟序列,我们拟合了替代模型,其中第二项(9)替换为交叉基准公式。主要模型,简单地标记为GAM,使用了带有等级PS平滑器的缺陷DLNM公式(负约束)、3阶(三次B样条曲线)和二阶差分(公式)REML估计的每个边际维度的惩罚。以前的研究(伍德,2006a)表明,如果基维数足够大,能够适应潜在的边缘形状,则基维数不是关键的,而选择平滑器和估计器分别是为了它们的灵活性和推断性能。该模型与以下模型进行了比较:

  • 替代估值器:

    • -

      GLM-AIC,由(未规范化的)二次B样条函数定义,通过最小化产生1-10个组合的AIC来选择最佳等距节点数数据流(减去约束);

    • -

      GAM-AIC,将REML替换为UBRE-AIC估计器。

  • 替代平滑器:

    • -

      GAM-CR,通过将PS替换为CR平滑器来定义;

    • -

      公式,对于公式公式分别为。

  • 额外/替代处罚公式:

    • -

      公式,附加不同的脊线惩罚,如(7a)具有公式;

    • -

      公式,它完全用不同的差值惩罚取代了惩罚,如(8b),使用公式;

    • -

      公式,这完全用一个不同的脊线罚分代替了罚分,如(7a),使用公式公式.

这些附加/替代惩罚遵循滞后响应的假设,滞后响应在滞后期结束时接近零值,或在较长滞后时更平滑。请参见Muggeo(2008年)和Obermeier等人(2015年)了解详细信息。

我们使用1000个模拟副本评估了上述八个模型在中描述的三种场景中的性能图1,通过比较整个表面覆盖率和均方根误差(RMSE)(定义见Web附录B,另请参见马拉和伍德(2012年))使用估计效果公式根据预测值网格计算公式和滞后值公式.

4.2. 模拟研究结果

结果如所示表1图2.表1报告平均计算时间和电子数据流95%置信区间的经验覆盖率和相对于GAM模型的经验RMSE。图2显示估计的剂量反应和滞后反应曲线,对应于中表面的黑线图1对于GAM、GLM-AIC和公式中提供了其他模型的相同图形表示Web图S2第3章在线支持信息中。

表1

以下描述的每个场景的模拟研究结果,包括平均时间(秒,使用2.4 GHz PC)、等效自由度(edf)、覆盖范围和均方根误差(相对于GAM-REML模型的RMSE)图1跨1000个重复的替代模型

场景1场景2场景3
时间(e) 数据流覆盖(cov)RMSE公司(e) 数据流覆盖(cov)RMSE公司(e) 数据流覆盖(cov)RMSE公司
替代估值器
GAM公司3.702.810.97127.870.91119.420.921
GLM-AIC公司7.942.930.832.6730.420.851.4122.870.811.83
GAM-AIC公司5.734.540.961.7730.490.911.1022.930.951.10
替代平滑器
GAM-CR公司4.722.970.971.0237.050.951.0324.320.941
公式3.831.720.980.6328.260.911.0318.320.920.91
额外/替代处罚公式
公式4.742.730.950.9820.440.930.7616.640.890.88
公式3.662.870.971.0225.830.920.9219.850.911.03
公式4.107.450.902.6825.200.940.8023.150.970.90
场景1场景2场景3
时间(e) 数据流覆盖(cov)RMSE公司(e) 数据流覆盖(cov)RMSE公司(e) 数据流覆盖(cov)RMSE公司
替代估值器
GAM公司3.702.810.97127.870.91119.420.921
GLM-AIC公司7.942.930.832.6730.420.851.4122.870.811.83
GAM-AIC公司5.734.540.961.7730.490.911.1022.930.951.10
替代平滑器
γ-CR4.722.970.971.0237.050.951.0324.320.941
公式3.831.720.980.6328.260.911.0318.320.920.91
额外/替代处罚公式
公式4.742.730.950.9820.440.930.7616.640.890.88
公式3.662.870.971.0225.830.920.9219.850.911.03
公式4.107.450.902.6825.200.940.8023.150.970.90
表1

以下描述的每个场景的模拟研究结果,包括平均时间(秒,使用2.4 GHz PC)、等效自由度(edf)、覆盖范围和均方根误差(相对于GAM-REML模型的RMSE)图1跨1000个重复的替代模型

场景1场景2场景3
时间(e) 数据流覆盖(cov)RMSE公司(e) 数据流覆盖(cov)RMSE公司(e) 数据流覆盖(cov)RMSE公司
替代估值器
GAM公司3.702.810.97127.870.91119.420.921
GLM-AIC公司7.942.930.832.6730.420.851.4122.870.811.83
GAM-AIC公司5.734.540.961.7730.490.911.1022.930.951.10
替代平滑器
GAM-CR公司4.722.970.971.0237.050.951.0324.320.941
公式3.831.720.980.6328.260.911.0318.320.920.91
额外/替代处罚公式
公式4.742.730.950.9820.440.930.7616.640.890.88
公式3.662.870.971.0225.830.920.9219.850.911.03
公式4.107.450.902.6825.200.940.8023.150.970.90
场景1场景2场景3
时间(e) 数据流覆盖(cov)RMSE公司(e) 数据流覆盖(cov)RMSE公司(e) 数据流覆盖(cov)RMSE公司
替代估值器
GAM公司3.702.810.97127.870.91119.420.921
GLM-AIC公司7.942.930.832.6730.420.851.4122.870.811.83
GAM-AIC公司5.734.540.961.7730.490.911.1022.930.951.10
替代平滑器
GAM-CR公司4.722.970.971.0237.050.951.0324.320.941
公式3.831.720.980.6328.260.911.0318.320.920.91
额外/替代处罚公式
公式4.742.730.950.9820.440.930.7616.640.890.88
公式3.662.870.971.0225.830.920.9219.850.911.03
公式4.107.450.902.6825.200.940.8023.150.970.90
模拟研究的结果,说明了三种不同模型(见表1)在1000次重复中的性能。这些面板表示与图1中三个模拟表面(按列)中的黑体黑线相对应的剂量-反应曲线(第1-3行)和滞后-响应曲线(第4-6行)。连续的灰色、红色虚线和连续的黑色线条分别表示25个随机复制的拟合度、所有复制的平均值和真实模拟曲线。
图2

模拟研究的结果,说明了三种不同模型的性能(参见表1)在1000次重复中。面板表示剂量反应曲线(第1-3行)和lag-response曲线(第4-6行),对应于图1连续的灰色、红色虚线和连续的黑色线条分别表示25个随机复制的拟合度、所有复制的平均值和真实模拟曲线。

在所有情况下,受惩罚的DLNM似乎都优于未受惩罚的对应DLNM。特别是,GLM-AIC显示出更高的RMSE(正如图2)以及由于模型选择程序的未知额外变化而导致的严重低于平均值,这与之前的报告一致(Sylvestre和Abrahamowicz,2009年;Gasparini,2014年). 与GAM-AIC中的UBRE-AIC相比,REML估计器表现出略好的性能,后者表现出更高的RMSE和一些不足的证据,尤其是在最简单的情况下公式提供类似的输出,后者在平面场景中表现更好,这与其空空间1一致电子数据流.

模型公式在第二个场景中显示了改进的性能,其中扩展的平面区域(请参见图2)如前所述,通过增加一个变化的脊线惩罚,可以很好地拟合,这也有助于识别正确的滞后期,即使间隔远远超出了它(Obermeier等人,2015年). 这种双重惩罚模型在与惩罚假设不匹配的其他场景中也表现良好,在平面场景中只产生了轻微的偏差,正如在图2和S3。这种良好的性能是因为可以通过估计非常低的平滑参数来几乎消除额外的惩罚公式.型号公式公式在去除了标准惩罚的情况下,在第二和第三种情况下表现良好,但后者无法拟合平面剂量-滞后响应曲面,这与它对滞后响应形状形式的强烈假设不相容(参见Web图S3).

通常,受惩罚的模型显示出接近标称值的跨表面覆盖,尽管在第二种情况下,某些模型明显存在一些欠平均(另请参见Web图S4第5章在线支持信息)。此外,GAM-AIC未能在平面场景的1.4%副本中收敛,其中模拟曲面表示张量积平滑器的零空间维度。然而,对非传染性模型的分析并没有发现点估计和覆盖的问题。

5.两个例子

为了说明缺陷DLNM在不同研究设计中的应用,我们复制了两个已发表的分析。读者可以参考原始出版物,了解有关分析方法和数据的详细信息(加斯帕里尼和塞拉利昂,2014年;Gasparini,2014年).

5.1. 室外温度和全因死亡率

第一个示例说明了惩罚DLNM在时间序列数据中的应用,使用的是1993年至2006年期间伦敦的每日序列。具体而言,全因死亡率计数之间的关系公式在天t吨和室外温度公式,解释了长达25天的滞后,用形式为:

(10)

具有按10定义的自然立方花键数据流/季节和长期趋势的年份,以及公式作为一周中某一天的指示器。在最初的分析中(加斯帕里尼和塞拉利昂,2014年),使用交叉基函数在GLM中使用未规范化的DLNM对依赖关系进行建模具有公式数据流由二次B样条组成,由2个等距内部节点定义,用于剂量响应函数公式和自然三次样条,在对数刻度加截距的三个等距内节点上,用于lag-response函数公式。默认情况下,边界节点位于范围内。

我们使用带有REML估计器的GAM中的惩罚DLNM来复制分析,为两个空间指定维度为10(减去约束)的边际PS平滑器。处罚公式通过默认的二阶差分惩罚执行,如(5).扩展以前的模型(Muggeo,2008年;Obermeier等人,2015年),我们对公式使用二阶差分形式(8b)具有公式对于公式和形式上的山脊惩罚(7a)具有公式。这些选择的动机是假设形状在较长滞后时更平滑,并在滞后期结束时接近零值。

GAM使用了35.45电子数据流对剂量-滞后响应表面进行建模,并建议与热量有强烈的短期关联,与低温有更延迟的关联,这与之前的结果一致(Gasparini等人,2015年). 第一行中报告的估计值图3,与第二行中复制的原始分析非常相似。然而,值得注意的是,在估计的29个滞后响应中,双重可变惩罚的影响公式C、 当滞后大于15时,曲线向零收缩。此外,虽然非规范化DLNM的交叉基础规范最初是先验定义的,但基于AIC的选择建议了一个非常复杂且难以置信的模型公式数据流,估计值如第三行所示图3.

第一个例子:29C时的剂量-滞后反应、总累积剂量-反应和滞后反应(按列)总结了温度和全因死亡率之间的关系,由滞后空间中具有双重可变惩罚的GAM估计,具有先验选择的GLM(如Gasparini和Leone(2014)),具有AIC选择的GLM,部分处罚的GAM(按行)。1993年至2006年,伦敦。
图3

第一个例子:剂量-滞后反应、总累积剂量反应和29岁时的滞后反应公式C(按列)总结了温度与全因死亡率之间的关系,由滞后空间中具有双重可变惩罚的GAM、具有先验选择的GLM(如加斯帕里尼和塞拉利昂(2014年))、GLM与基于AIC的选择,GAM与部分惩罚(按行)。伦敦1993-2006。

如前所述(第3.1节),此建模框架的灵活性允许混合惩罚和非惩罚函数。例如,我们将PS平滑器替换为公式使用一个非规范化的双阈值函数,即线性样条,该样条模型的直线关系小于17公式C及以上21公式C、 中间是一个平坦的区域。结果显示在的最后一行图3。此型号仅使用10.64电子数据流定义剂量-滞后响应曲面,尽管这是以对两个空间之一进行强参数假设为代价的。通过选择线性函数作为公式.

5.2. 职业氡与肺癌死亡率

第二个例子描述了将受惩罚的DLNM扩展到个人时间-事件数据,使用了在科罗拉多高原矿山工作的3347名矿工的队列,并于1982年12月31日进行了随访。具体而言,肺癌死亡发生指标之间的相关性公式对于主题在这个年龄t吨以及每年的职业氡暴露量公式,以工作水平月(WLM)计量,滞后2-40年,用形式的泊松GLM估算:

(11)

该GLM近似于原始分析中应用的Cox比例风险模型(Gasparini,2014年)通过将每个个体的随访时间划分为1年期,并使用三次B样条函数建模基线风险公式带5数据流这允许使用GAM中使用生存数据实现的惩罚样条曲线。模型中的其他项是交叉基函数公式控制吸烟的滞后效应z(z)和日历年的线性项c(c)在最初的分析中,与氡的关联是用交叉基函数建模的公式由二次B样条函数组成,其中单个内部节点为59.4 WLM/年,滞后13.3年公式公式和相应范围的边界节点。截距被排除在后者之外,假设对前两年的暴露没有影响。此模型共使用9个数据流通过最小化AIC来定义关联。

使用带有REML估计器的GAM和惩罚DLNM复制分析,分别使用维度为11(负约束)和10的边际CR平滑器进行曝光和滞后空间。CR平滑器的使用允许设置剂量反应函数的结公式在对数标度中等距间隔处,考虑到氡暴露的高度偏斜分布,并允许排除s中的截距(公式)遵循先前的假设。除了在两个空间中强制执行的二阶导数的默认惩罚外,我们还添加了形式不同的脊惩罚(7b)公式具有公式如果公式否则为0,因此假设暴露于氡30年后无额外风险。

结果显示在图4缺陷DLNM(第一排)表明,在氡暴露大约11年后,肺癌死亡率风险达到峰值。非线性剂量反应表明风险如何在50 WLM/年以上趋于平缓。该模型总共使用了8.03电子数据流描述关联。这些发现与配备GLM的未经验证的DLNM一致(第二排图4),这与Cox模型的原始估计非常接近,如加斯帕里尼(2014),图2). 然而,GAM中增加的脊线惩罚在滞后期结束时产生了更精确的估计,表明风险在暴露30年后完全消失。

第二个例子:剂量-滞后反应、滞后15的剂量-反应和100 WLM/年的滞后反应(按列)总结了职业性氡暴露与肺癌死亡率之间的关系,由滞后空间中附加不同脊惩罚的GAM和基于AIC选择的GLM估算(如Gasparrini(2014))(按行)。科罗拉多高原铀矿工队列,1982年12月31日随访。
图4

第二个例子:剂量-滞后反应、滞后15的剂量-反应和100 WLM/年的滞后反应(按列)总结了职业性氡暴露与肺癌死亡率之间的关系,由滞后空间中附加不同脊惩罚的GAM和基于AIC选择的GLM估计(如加斯帕里尼(2014年))(按行)。科罗拉多高原铀矿工队列,1982年12月31日随访。

6.讨论

在本文中,我们描述了DLNM的惩罚框架,该框架通过潜在复杂边缘函数的内置平滑选择和灵活的惩罚定义来适应滞后结构的假设,为该建模类提供了重大发展。此方法包括以前用于更简单DLM的平滑方法(Zanobetti等人,2000年)作为特殊情况,并将惩罚方法完全推广到二维剂量-剂量响应曲面。DLNM框架统一了除环境研究中的时间序列分析外,为调查不同研究领域中的滞后关联而提出的方法。例如,这些研究包括癌症流行病学的病例对照研究(托马斯,1988;Hauptmann等人,2000年;Berhane等人,2008年;Richardson,2009年)药物流行病学中的生存分析(Sylvestre和Abrahamowicz,2009年;Abrahamowicz等人,2012年)

该缺陷版本解决了选择适当程度的DLNM复杂性的问题。这是传统非规范化DLNM的一个关键限制,对于这些DLNM,当前的选择方法并不有效(如中的第一个示例所示第5.1节),并产生效率较低的估计量(如第4节). 这种受惩罚的扩展基于最近讨论的可靠的理论结果和估计方法(伍德,2006年a,2008,2011),它可以通过在免费软件中实现的稳定高效的例程来执行(伍德,2006a)与标准的非规范化版本相比,它显示了改进的推理属性。

结果证实了REML和UBRE-AIC估计量的良好推断性质,前者似乎略优于后者(伍德,2011年)以及其他类型平滑器的类似性能(伍德,2006a). 后者可以根据方便的特性进行选择,例如可以使用PS平滑器包含不同的差分惩罚(请参见第5.1节)或使用CR平滑器在节点放置和截距排除方面的灵活性(参见第5.2节). 特别是,在滞后维度上包含额外的惩罚提供了一种方式来适应对基本形状的现实假设。这些附加惩罚可以基于先验知识进行选择,并不代表对滞后响应形状的强烈约束,因为它们的影响可以通过平滑参数的估计进行校准。如前所述(Muggeo,2008年;Obermeier等人,2015年)在模拟研究的第二个场景中,附加惩罚可以提高模型的拟合度,并使模型对滞后期的选择不那么敏感。

必须承认一些局限性。在有限的模拟场景和两个实际数据示例中,研究了惩罚复杂的二维函数的问题。此外,模拟显示了在最简单的场景中存在一些不收敛问题,其中选定的电子数据流趋向于接近交叉基函数的零空间,尽管这个问题似乎不会严重影响推理。惩罚方法大大改善了置信区间的覆盖特性,即使在某些场景和某些模型中,经验覆盖率低于标称值。此外,这里提出的方法共享GAM的一个已知限制,当统计能力降低时,GAM倾向于选择更简单(即更平滑)的模型。最后,剂量-反应关系的平滑方法很难验证,因为滞后维度在数据中无法直接观察到,因此无法使用标准技术,如残差分析。这些问题有望在未来的研究中得到解决。

惩罚的DLNM可以进一步扩展到可变系数模型,描述随着时间或其他预测因子空间的变化而变化的剂量-反应关系,如前面针对更简单的惩罚DLM所述(Rushworth等人,2013年)或未规范化的DLNM(Gasparini等人,2015年). 此外,DLNM类与惩罚功能回归有着有趣的联系,其中功能结果(比如剂量反应的形状)可以根据功能预测因子(比如滞后维度)而变化(McLean等人,2014年;Scheipl等人,2015年),通过此已建立的建模框架提供进一步扩展的可能性。

滞后关联几乎普遍存在于生物医学研究中,甚至更远。处罚后的DLNM提供了一个灵活的建模类来描述这些现象,避免了由于对滞后结构的错误假设而产生的偏差,有时是在使用更简单的方法时产生的,并且可能扩展了正在研究的关联的知识。DLNM最近超越时间序列数据的扩展(Gasparini,2014年)统一并扩展了不同研究设计中提出的方法,为该建模框架的原创应用铺平了道路。

7.补充材料

Web附录、Web图和R代码可在生物计量学Wiley OnlineLibrary上的网站。除了Web附录AB类,在中引用第4节,Web附录C简要描述了R包dlnm中的软件实现。R代码完全重现了模拟研究和两个示例,GitHub和第一作者的个人网站提供了更新版本(参见Web附录C).

利益冲突

没有。

致谢

这项工作和Gasparrini博士得到了英国医学研究委员会授予的赠款(赠款ID:MR/M022625/1),以及威康信托基金和伦敦卫生与热带医学院使用机构战略支持基金授予的LSHTM奖学金(赠款ID:105609/Z/14/Z)的支持。Scheipl博士通过艾美·诺特计划获得了德国研究基金会的支持,授予Sonja Greven博士GR 3793/1-1。

工具书类

阿布拉哈莫维奇
,
M。
,
波尚
,
米。
,以及
西尔维斯特
,
M.P.公司。
(
2012
).
将药物接触与不良反应联系起来的替代模型的比较
.
医学统计学
31
,
1014
1030
.

杏仁
,
美国。
(
1965
).
资本拨款与支出之间的分布滞后
.
计量经济学
33
,
178
196
.

阿姆斯特朗
,
B。
(
2006
).
环境温度和每日死亡率之间关系的模型
.
流行病学
17
,
624
631
.

贝尔哈内
,
英国。
,
豪普特曼
,
M。
,以及
兰霍兹
,
B。
(
2008
).
使用张量积样条建模暴露时间响应关系:在科罗拉多高原铀矿工队列中的应用
.
医学统计学
27
,
5484
5496
.

咖喱
,
身份证号码。
,
德班
,
M。
,以及
艾尔斯
,
P.H.C.公司。
(
2004
).
平滑和预测死亡率
.
统计建模
4
,
279
298
.

艾尔斯
,
P.H.C.公司。
,
咖喱
,
身份证号码。
,以及
德班
,
M。
(
2006
).
大型多维网格上的快速紧凑平滑
.
计算统计与数据分析
50
,
61
76
.

艾尔斯
,
P.H.C.公司。
马克思
,
出生日期。
(
1996
).
使用B样条和惩罚进行灵活平滑
.
统计科学
11
,
89
101
.

加斯帕里尼
,
答:。
(
2014
).
用分布滞后非线性模型建模暴露-反应关联
.
医学统计学
33
,
881
899
.

加斯帕里尼
,
答:。
,
阿姆斯特朗
,
B。
,以及
肯沃德
,
M.G.公司。
(
2010
).
分布式滞后非线性模型
.
医学统计学
29
,
2224
2234
.

加斯帕里尼
,
答:。
,
,
年。
,
哈希祖姆
,
M。
,
金尼
,
P.L.公司。
,
佩特科娃
,
体育。
,
拉维尼
,
E。
等(
2015
).
高温死亡率相关性的时间变化:一项多国研究
.
环境健康观点
123
,
1200
1207
.

加斯帕里尼
,
答:。
,
,
年。
,
哈希祖姆
,
M。
,
拉维尼
,
E。
,
扎诺贝蒂
,
答:。
,
施瓦茨
,
J。
等(
2015
).
高低温环境导致的死亡风险:一项多国观察研究
.
刺胳针
386
,
369
375
.

加斯帕里尼
,
答:。
塞拉利昂
,
M。
(
2014
).
分布式滞后模型的归因风险
.
BMC医学研究方法学
14
,
55
.

绿色
,
P.J.公司。
西尔弗曼
,
B.W.公司。
(
1994
).
非参数回归和广义线性模型:粗糙度惩罚方法
.
静力学和应用概率专著58
.
伦敦
:
查普曼和霍尔
.

哈斯蒂
,
T。
提比什拉尼
,
R。
(
1990
).
广义可加模型
,第2版,
伦敦
:
查普曼和霍尔/CRC,
.

豪普特曼
,
M。
,
韦尔曼
,
J。
,
鲁宾
,
J.H。
,
罗森博格
,
附言。
,以及
克里恩布鲁克
,
L。
(
2000
).
基于样条加权函数的曝光时间响应关系分析
.
生物计量学
56
,
1105
1108
.

马拉
,
G.公司。
木材
,
序号。
(
2012
).
广义可加模型分量置信区间的覆盖性质
.
斯堪的纳维亚统计杂志
39
,
53
74
.

麦克莱恩
,
M.W.公司。
,
胡克
,
G.公司。
,
斯泰克
,
上午-下午。
,
方案
,
F、。
,以及
鲁珀特
,
D。
(
2014
).
函数广义加性模型
.
计算与图形统计杂志
23
,
249
269
.

Muggeo公司
,
V.M.公司。
(
2008
).
模拟温度对死亡率的影响:具有常见断点的多段关系
.
生物统计学
9
,
613
620
.

Obermeier公司
,
五、。
,
方案
,
F、。
,
休曼
,
C、。
,
瓦瑟曼
,
J。
,以及
库亨霍夫
,
H。
(
2015
).
地震数据建模的灵活分布滞后
.
英国皇家统计学会杂志:C辑
64
,
395
412
.

理查森
,
D.B.博士。
(
2009
).
用于分析长期暴露的潜伏期模型
.
流行病学
20
,
395
399
.

拉什沃思
,
上午。
,
鲍曼
,
A.W.公司。
,
布鲁尔
,
医学博士。
,以及
兰根
,
S.J.公司。
(
2013
).
水文数据的分布式滞后模型
.
生物计量学
69
,
537
544
.

萨米特
,
J·M·。
,
Zeger公司
,
S.L.公司。
,
多米尼西
,
F、。
,
码头
,
D。
,以及
施瓦茨
,
J。
(
2000
).
国家发病率、死亡率和空气污染研究(NMMAPS)。第1部分:。方法和方法问题
.
健康影响研究所技术报告
.

方案
,
F、。
,
斯泰克
,
上午-下午。
,以及
格雷文
,
美国。
(
2015
).
函数加性混合模型
.
计算与图形统计杂志
24
,
477
501
.

施瓦茨
,
J。
(
2000
).
空气污染和每日死亡之间的分布滞后
.
流行病学
11
,
320
326
.

西尔维斯特
,
M.P.公司。
阿布拉哈莫维奇
,
M。
(
2009
).
时间相关暴露对危害累积影响的灵活建模
.
医学统计学
28
,
3437
3453
.

托马斯
,
直流电。
(
1988
).
暴露-时间-反应关系模型及其在癌症流行病学中的应用
.
公共卫生年度回顾
9
,
451
482
.

韦尔蒂
,
洛杉矶。
,
,
钢筋混凝土。
,
Zeger公司
,
S.L.公司。
,以及
多米尼西
,
F、。
(
2009
).
贝叶斯分布滞后模型:估算颗粒物空气污染对每日死亡率的影响
.
生物计量学
65
,
282
291
.

木材
,
序号。
(
2006年a
).
广义可加模型:R引论
.
佛罗里达州博卡拉顿
:
查普曼和霍尔/CRC
.

木材
,
序号。
(
2006年b
).
广义可加混合模型的低秩尺度不变张量积平滑
.
生物计量学
62
,
1025
1036
.

木材
,
序号。
(
2008
).
广义可加模型的快速稳定直接拟合与光滑度选择
.
英国皇家统计学会杂志B辑
70
,
495
518
.

木材
,
序号。
(
2011
).
半参数广义线性模型的快速稳定限制极大似然和边缘似然估计
.
英国皇家统计学会杂志B辑
73
,
36
.

扎诺贝蒂
,
答:。
,
魔杖
,
M.P.公司。
,
施瓦茨
,
J。
,以及
赖安
,
L.M.公司。
(
2000
).
广义加性分布滞后模型:量化死亡率位移
.
生物统计学
1
,
279
292
.

这是一篇根据http://creativecommons.org/licenses/by/4.0/许可证,允许在任何媒体上使用、分发和复制,前提是正确引用了原始作品。