摘要

与标准病例对照研究一样,广义病例对照研究利用结果依赖性抽样(ODS)扩展到非二元反应。我们使用最近开发的广义线性模型(GLM)的半参数扩展,开发了一种新的、统一的方法来分析GCC研究数据,与基于参数GLM的现有方法相比,该方法对模型错误指定的鲁棒性更强。为了有效的估计和推断,我们使用条件似然来解释有偏抽样设计。我们描述了条件似然下半参数GLM估计和推理的分析过程,并讨论了响应分布不明确时条件似然条件下的估计和推理问题。通过广泛的模拟研究,我们证明了我们的方法相对于现有方法的灵活性,并将该方法应用于分析最古老研究中的资产和健康动态,这也是我们研究的动机。提出的方法产生了一种简单但通用的解决方案,用于处理实际中遇到的各种可能的响应分布和采样方案中的消耗臭氧物质。

1引言

随着电子健康记录和公开研究数据库的日益普及,寻求回答新的医学和公共健康问题的研究人员可能会获得结果(例如疾病状态或定量表型)和协变量数据,但可能缺少关键的暴露变量(例如,来自分析或手动电子健康记录审查的生物标记)。通常,这样的暴露确定费用高昂,并且无法在队列的所有成员上完成。众所周知,在许多这样的“昂贵的暴露”场景中,随机抽样在估计暴露-输出关联方面可能效率低下。因此,通过结果相关抽样(ODS)对部分人群进行过抽样是有益的。最常见的ODS设计是病例对照研究,该研究在20世纪20年代开始流行,并成功地发现了唇癌和烟斗吸烟之间的关系(布罗德斯,1920年)乳腺癌和生殖史(Lane-Claypon,1926年)口腔癌和烟斗吸烟(伦巴第和多林,1928年). 病例对照研究的分析方法已经建立(康菲尔德,1951年;安德森,1972年;普伦蒂斯和派克,1979年;布雷斯洛和戴,1980年;布雷斯洛,1996年),并且通常依赖于逻辑回归模型。虽然已经提出将病例对照抽样设计扩展到非二进制分布(无法无天的等。, 1999;Scott和Wild,2011年)在标准广义线性模型(GLM;McCullagh和Nelder,1989年)框架,因为它需要根据每个不同的结果分布定制实现;每一个独特的响应都需要一个新的实现,这个实现可能会很繁琐,而且计算量很大。

为了解决这个问题,我们将ODS问题分为两个阶段进行研究(布雷斯洛和戴,1980年;布雷斯洛和凯恩,1988年;布雷斯洛,1996年;Breslow和Holubkov,1997年;Breslow和Chatterjee,1999年). 典型的两阶段研究如下所示:在第1阶段,收集响应的代表性样本(以及可能廉价的协变量),以进行大量观察。第1阶段后,根据观察到的响应信息制定抽样计划。在第2阶段,使用建议的抽样计划,选择第1阶段观测的子集来收集昂贵的暴露信息。例如,考虑一个假设的电子健康记录设置,其中研究人员对疾病状态和(相对昂贵的)遗传标记之间的关系感兴趣。可用的健康记录信息包括表型和其他标准信息,但不容易包含遗传标记数据。在本例中,电子健康记录中可用的数据是第1阶段样本。根据观察到的表型(可能具有比二进制更复杂的结构),我们设计了一个抽样方案来识别确定遗传标记的第2阶段样本。按照这个抽样方案,我们将收集选定受试者的遗传标记信息。

虽然在一些ODS设置中,阶段1和阶段2数据都可用于分析,但我们在此将注意力局限于通常观察到的设置,其中阶段2数据可用,而阶段1数据不可用。也就是说,我们只能访问“完整”数据集(无法无天的等。, 1999),而不是阶段1响应。许多这方面的例子都是通过基因型和表型数据库(dbGaP)给出的,其中大部分可用数据来自仅保留第2阶段观察结果的研究。有很多原因导致只保留第2阶段数据。例如,可能需要获得患者的同意才能将其纳入公开可用的数据存储库,而这对于那些未被选入第2阶段的患者来说可能更具挑战性。此外,还存在与数据清理相关的成本,研究人员可能不热衷于清理和管理第1阶段的廉价协变量以及未收集第2阶段暴露数据的未取样受试者的数据。仅使用第2阶段数据的研究示例是CHARGE研究(等。, 2014),其中收集了第一阶段和第二阶段数据,但只有第二阶段的数据是免费的。ODS的许多可用方法都假设包含不完整的第一阶段数据,并且不容易适应只有第二阶段数据可用的情况(例如。,查特吉等。(2003);韦弗和周(2005);等。(2017)).

对于病例对照研究数据的分析来说,logistic回归能够有效地推断暴露与产出之间的关系(康菲尔德,1951年;安德森,1972年;普伦蒂斯和派克,1979年;布雷斯洛和戴,1980年;布雷斯洛,1996年)即使我们忽略了病例对照抽样计划。然而,一般来说,分析ODS抽样方案的完整案例数据是无效的。无法无天的等。(1999)描述明确承认可能性内的设计的条件可能性计算。重要的是,即使该方法允许非二进制响应,它仍然需要响应的已知参数分布形式,如果参数形式指定错误,可能会导致对感兴趣参数的错误估计和推断。

在本报告中,我们描述了一个统一的框架,即通过利用一种吸引熟悉GLM和经典病例对照设计的人的方法,我们对两阶段研究中ODS的许多不同反应形式有一个单一的分析策略。我们考虑GLM(SPGLM;Rathouz和Gao,2009年)这为准似然(QL;韦德伯恩,1974年;McCullagh,1983年)建模框架。SPGLM对给定协变量的响应分布进行非参数建模,但与QL和其他基于函数的估计方法类似,对给定协变的响应平均值进行参数建模。为了强调与病例对照研究的联系,我们将超二进制反应的研究称为广义病例对照研究(席尔德克劳特等。, 2019). 我们将重点放在只有第2阶段数据以及用于收集这些数据的采样计划可用的设置上。我们应用SPGLM框架分析从GCC研究中收集的数据。我们的方法的主要优点是,它允许实验者以统一的方式分析GCC研究中的数据,包括各种各样的响应分布,同时还通过不必假定该分布的特定形式来增加稳健性。这种稳健性在GCC采样下很重要,因为我们将显示,全参数方法可能对响应分布的错误指定很敏感。作为一个附加功能,ODS下的响应分布采用与简单随机抽样下相同的函数形式,从而简化了从简单随机抽样到ODS的扩展。

论文组织如下。第2节,我们审查了SPGLM和GCC设计。第3节,我们使用SPGLM框架开发了GCC研究下的估计和推断程序第4节,我们进行了仿真研究,以检验SPGLM方法在错误指定情况下对类似参数方法的有效性和鲁棒性。最后,在第5节,我们使用AHEAD研究证明了我们的方法的使用,其中自变量需要专家进行广泛的访谈,因此收集起来既耗时又昂贵。此外,AHEAD研究的响应不遵循标准指数族形式之一,这意味着标准参数假设不容易实现。最后,我们进行了讨论和总结。

2建模和采样框架

2.1型号

Rathouz和Gao(2009)提出了传统GLM的半参数扩展(McCullagh和Nelder,1989年). 与传统GLM一样,他们的模型侧重于对参数平均模型的推断。然而,SPGLM在响应分布的非参数估计下运行。因此,它为QL提供了一个完整的,尽管是半参数的似然替代方法。虽然SPGLM在估计和推断方面的性能与QL相当,但完全似然的规范具有许多优点。这些优点包括用于模型比较的目标函数、进行预测的能力以及在传统的遗漏随机(MAR)假设下的潜在稳健性。方便的是,通过应用贝叶斯定理,该模型也很容易适应ODS设计,这是本文的主要主题,也是我们将详细研究的主题。

尽管与标准GLM相比,SPGLM只需要指定平均模型(即,它不需要指定响应分布);然而,它仍然保持对平均模型参数的相同解释。用户指定线性预测器,然后选择与所需模型解释相对应的链接函数。一旦指定了平均模型,条件响应分布的其余特征将以非参数方式进行估计。使用较小的分布假设,该模型可能会考虑到各种非传统响应的分析,而不必担心错误指定响应分布,从而在一系列分布形式上产生统一的方法。

为了解决问题,让论坛表示论坛协变量向量主题,并让论坛表示论坛观测矢量,其中每个观测论坛是从中采样的独立实现

(1)

对于论坛支持论坛.矢量论坛包含线性预测器的系数,以及论坛是上的非参数参考分布论坛,根据数据估计。然而,对于固定(f) 0(1)是一个自然指数族(莫里斯,1982年)具有规范参数论坛和累积量生成函数

对于给定的(f) 0因此,我们从GLM中恢复标准结果,论坛论坛推理的重点是论坛鉴于论坛

(2)

哪里论坛是线性预测值论坛是一个已知的链接函数,严格按照间隔递增论坛论坛论坛。重要的一点是,这里的自由参数是论坛(f) 0;论坛决定论坛,与(f) 0,确定论坛通过解决方案(2)。结果分数和信息论坛由提供

(3)

(4)

对于固定(f) 0论坛论坛源自标准GLM理论。

什么时候?(f) 0未知,此模型的拟合程序通过迭代估计的Fisher评分扩展而起作用论坛(f) 0保持其他参数不变;看见Wurm和Rathouz(2018)。的响应分布论坛给定协变量论坛然后通过插入估计的平均参数进行估计,论坛和参考分布,论坛,到(1).

2.2一般病例对照研究

如前所述,病例对照抽样用于二元反应的回顾性抽样研究。如果某一水平的响应(例如疾病状态)很少出现,那么病例对照抽样在样本量方面比等效等概率抽样(EPS)设计效率更高,后者根据给定的预测因子对响应进行随机抽样。原则上,没有任何东西限制病例对照概念为二元结果。例如,如果感兴趣的反应是一个计数,我们可以设计一项研究,对计数的极端水平进行过采样,以增加感兴趣的暴露与反应之间观察到的共变性。我们将此类设计称为GCC研究,并建议在基础模型是GLM家族成员时对此类研究进行分析。

为了准确定义GCC研究,我们考虑研究人员为我们提供观察结果集合的环境论坛,其中论坛包括两阶段研究第2阶段的暴露数据和调整变量。挑战在于,暴露数据是通过ODS收集的,由一个函数编码论坛关于支持论坛,定义为

(5)

在这里,论坛是用于主题。该设置与众所周知的病例对照研究非常相似;然而,对于logistic回归二元响应以外的大多数情况,研究者还必须提供论坛给分析员。

有许多不同的方法可以通过函数定义采样方案论坛例如论坛可以接收到唯一的采样概率。或者,研究人员可以选择论坛的平滑函数论坛或者实验者可以选择对特定水平的反应进行分组,并根据

哪里论坛都是切点。这种灵活性允许实验者选择简单的设计,同时仍保留响应变量的复杂性,以用于建模。

3估算和推断

3.1估算

在本节中,我们对SPGLM中平均模型的系数进行了估计和推断,并考虑了GCC抽样。从模型开始(1),根据观察到的结果值进行抽样论坛在采样数据中引入新的响应分布。为了研究这种诱导分布,我们利用了(5)使用贝叶斯规则,我们获得了以下结果密度论坛以ODS下取样为条件,

(6)

我们在哪里定义论坛论坛ODS下的诱导平均值现在是论坛,定义为

诱导方差为论坛。重要的是要注意论坛论坛(以及各自的差异)与不同的分布有关:论坛关于EPS下的响应分布,以及论坛与GCC采样的诱导分布有关。

目前专注于估算论坛带有固定的论坛、和使用(6),ODS下的条件log-likelihood函数为

得出以下项目的得分论坛,我们记得论坛论坛并应用链式规则获得

哪里论坛论坛论坛、和论坛注意,涉及每股收益均值的衍生工具(论坛)与GCC采样下的诱导平均值无关(论坛). 最后,我们得到了论坛在ODS下,

(7)

请注意(7),在ODS下获得的分数与论坛在EPS下,如所示(3),唯一的区别是论坛替换为论坛。接下来,我们考虑以下信息论坛ODS下。使用标准信息计算,

(8)

请注意,在(8),该信息涉及的比率为论坛GCC抽样和EPS下的相应值,即,论坛这让我们有理由相信,如果我们使用GCC抽样,以这样的方式进行抽样论坛(给定协变量)相对于每股收益增加,我们将提高估算效率论坛。正如我们将看到的,这只是大致正确的,因为还需要估计参考分布(f) 0然而,该比率是决定GCC抽样与随机等效研究抽样在响应方面的效率增益的驱动因素。

在EPS下,SPGLM有一个有趣的功能,其中参数论坛在平均模型中,与估计参考分布的参数正交(f) 0(Huang和Rathouz,2017年). 检查(7),我们可以看到论坛是的函数论坛因此论坛论坛在ODS下,EPS下不再存在。与所有令人讨厌的参数问题一样,这意味着论坛根据ODS,现在将影响论坛然而,这也在GCC抽样的背景下产生了另一个问题;注意,平均模型是根据论坛,因此,论坛,但使用条件似然的β的得分函数是论坛。这意味着在求解时(7)等于零,我们必须使用抽样计划和估计的响应分布来转换论坛论坛。作为(7)对于参数GLM,是指(f) 0假设具有特定的参数形式,这意味着指定错误(f) 0导致潜在偏差(以及不正确的标准误差)论坛在全参数GLM下。如所示第4节SPGLM具有足够的灵活性,可以在许多情况下消除这种偏见。除了灵活性外,SPGLM比假设响应支持无限的可能性更容易实现,因为分母中的积分(6)成为观察到的支撑的总和。在下一节中,我们将展示如何使用具有条件似然的SPGLM获得正确的推断。

3.2推断

我们将重点讨论关于平均模型中系数的推断。虽然我们已经为论坛,我们还没有方法对论坛因为这些计算并不反映参数的同时估计(f) 0ODS下。为了解决这个问题,我们注意到论坛在进行评估时(f) 0

(9)

(例如,请参见,邵,2003). 以上,论坛代表论坛联合信息矩阵的角点论坛(f) 0类似的解释适用于论坛、和论坛表示两个参数之间的交叉信息。如前所述,就ODS而言论坛(f) 0非零,因此(f) 0论坛在ODS下未获得EPS下的可用信息。

我们将推理限制在以下情况论坛具有有限支撑,表示论坛类似地,让论坛,其中第个条目论坛导出的参考分布是在论坛现在,我们写下经验(条件)似然(欧文,1991年)对于(f) 0

我们表示得分的第th个分量论坛通过论坛并使用链式法则,

屈服,屈服

(10)

然后,最大经验似然估计是论坛论坛,生成的信息为

有关分数和信息计算,请参阅在线附录A。

最后,生成的交叉信息由下式给出

(11)

注意,没有星号符号的项是对应项,就好像数据是针对响应随机采样的一样。我们注意到的第一件事(11)如果我们把这个方程简化为每股收益设置,括号中的项等于零,这与预期结果相匹配。

由于可识别性方面的技术问题(1)对参考分布施加了三个约束,这需要我们计算(f) 0本质上,这要求我们将信息投影到一个子空间中,以解释这些约束。然而,这对我们结果的解释没有重大影响,因此留给在线附录B处理。

因为我们将设置限制在响应具有有限支持的情况下,所以可以使用反向有效信息(9)对于论坛和标准最大似然结果来构造渐近校正的标准误差论坛ODS下。连同中的估算结果第3.1节,我们可以用统一的方法从任意响应分布对ODS进行渐近正确分析。

4模拟

4.1零膨胀截尾泊松

我们方法的一个主要优势是,我们同时估计了群体中给定协变量的响应分布,同时也考虑了GCC采样。这为我们在许多响应分布下处理GCC研究数据提供了一种有效且稳健的方法。本模拟研究的目标是评估在违反标准模型分布假设(例如泊松、二项式)的情况下,GCC下的SPGLM和传统GLM方法是如何工作的。我们还想评估在正确指定标准GLM的情况下,使用SPGLM估计响应分布是否会降低效率。为了研究这一点,我们从形式的平均模型开始

(12)

其中每个论坛是来自的独立样本模型(1)作为参考分布,我们考虑两种情况;第一种是修正泊松,其速率参数等于1,截断为论坛,是原始质量的三倍论坛。我们将其称为零膨胀截断泊松。这种分布旨在表示实际中可能遇到的数据,从某种意义上说,它是有限数量项目的过度分散计数,但标准GLM无法很好地捕捉到这些数据。此外,该数据生成模型类似于AHEAD研究中的“工具性日常生活活动”。对于第二种情况,我们简单地从泊松分布生成数据,平均值为论坛。对于每个设置,我们都让论坛; 这些边界集论坛。最后,我们设置论坛,让论坛或0.7,并允许样本大小如表1。我们考虑一个两阶段设计,在第1阶段随机抽样100000个观察值,然后使用GCC抽样平均抽样两个响应层的相等数量:论坛(控制)和论坛(例),在每个层次中,我们平均从每个响应级别中抽取相同数量的样本。例如,如果我们总共对1000个观测值进行采样,大约500个观测值将如下所示论坛论坛分别是。在“控制”层中,大约125个将来自而在“案例”层中,大约250人来自在小效应环境中,零膨胀、截断泊松的人群中病例的流行率约为6%(当论坛)在大效果设置中为8%(当论坛),在标准泊松设置中稍大。

表1

中描述的模拟研究的估计和推断结果第4.1节(仅β1). 我们展示了2000次重复的结果,这些重复具有不同的样本大小和预测因子的影响大小,以及两种不同的数据生成模型/分析策略

样本大小数据生成模型分析策略真值不良事件环境监理工程师AESE公司阴极保护
论坛泊松GLM泊松GLM0.20.2060.1200.1170.950
SPGLM公司0.2080.1250.1210.953
零膨胀截断泊松泊松GLM0.20.1660.1320.1220.922
SPGLM公司0.2040.1640.1630.956
论坛泊松GLM泊松GLM0.20.1990.05180.05160.952
SPGLM公司0.2000.05310.05280.955
零膨胀截断泊松泊松GLM0.20.1610.05890.05370.854
SPGLM公司0.1980.07300.07200.946
论坛泊松GLM泊松GLM0.20.2000.03680.03640.947
SPGLM公司0.2000.03780.03720.944
零膨胀截断泊松泊松GLM0.20.1610.04200.03790.794
SPGLM公司0.1990.05200.05080.941
论坛泊松GLM泊松GLM0.70.7120.1390.1410.959
SPGLM公司0.7130.1560.1560.951
零膨胀截断泊松泊松GLM0.70.5920.1480.1350.847
SPGLM公司0.7110.1850.1830.954
论坛泊松GLM泊松GLM0.70.7010.06290.06180.952
SPGLM公司0.7010.07020.06880.942
零膨胀截断泊松泊松GLM0.70.5810.06690.05970.491
SPGLM公司0.7000.08210.08080.947
论坛泊松GLM泊松GLM0.70.7000.04480.04360.954
SPGLM公司0.7000.05000.04850.940
零膨胀截断泊松泊松GLM0.70.5810.04650.04210.223
SPGLM公司0.7010.05760.05710.949
样本大小数据生成模型分析策略真值不良事件环境监理工程师AESE公司阴极保护
论坛泊松GLM泊松GLM0.20.2060.1200.1170.950
SPGLM公司0.2080.1250.1210.953
零膨胀截断泊松泊松GLM0.20.1660.1320.1220.922
SPGLM公司0.2040.1640.1630.956
论坛泊松GLM泊松GLM0.20.1990.05180.05160.952
SPGLM公司0.2000.05310.05280.955
零膨胀截断泊松泊松GLM0.20.1610.05890.05370.854
SPGLM公司0.1980.07300.07200.946
论坛泊松GLM泊松GLM0.20.2000.03680.03640.947
SPGLM公司0.2000.03780.03720.944
零膨胀、截断泊松泊松GLM0.20.1610.04200.03790.794
SPGLM公司0.1990.05200.05080.941
论坛泊松GLM泊松GLM0.70.7120.1390.1410.959
SPGLM公司0.7130.1560.1560.951
零膨胀截断泊松泊松GLM0.70.5920.1480.1350.847
SPGLM公司0.7110.1850.1830.954
论坛泊松GLM泊松GLM0.70.7010.06290.06180.952
SPGLM公司0.7010.07020.06880.942
零膨胀截断泊松泊松GLM0.70.5810.06690.05970.491
SPGLM公司0.7000.08210.08080.947
论坛泊松GLM泊松GLM0.70.7000.04480.04360.954
SPGLM公司0.7000.05000.04850.940
零膨胀截断泊松泊松GLM0.70.5810.04650.04210.223
SPGLM公司0.7010.05760.05710.949

缩写:AE,平均估计值;ESE,经验标准误差;AESE,平均估计标准误差;CP,覆盖概率,95%置信区间。

表1

中描述的模拟研究的估计和推断结果第4.1节(仅β1). 我们展示了2000次重复的结果,这些重复具有不同的样本大小和预测因子的影响大小,以及两种不同的数据生成模型/分析策略

样本大小数据生成模型分析策略真值不良事件环境监理工程师AESE公司阴极保护
论坛泊松GLM泊松GLM0.20.2060.1200.1170.950
SPGLM公司0.2080.1250.1210.953
零膨胀截断泊松泊松GLM0.20.1660.1320.1220.922
SPGLM公司0.2040.1640.1630.956
论坛泊松GLM泊松GLM0.20.1990.05180.05160.952
SPGLM公司0.2000.05310.05280.955
零膨胀截断泊松泊松GLM0.20.1610.05890.05370.854
SPGLM公司0.1980.07300.07200.946
论坛泊松GLM泊松GLM0.20.2000.03680.03640.947
SPGLM公司0.2000.03780.03720.944
零膨胀、截断泊松泊松GLM0.20.1610.04200.03790.794
SPGLM公司0.1990.05200.05080.941
论坛泊松GLM泊松GLM0.70.7120.1390.1410.959
SPGLM公司0.7130.1560.1560.951
零膨胀截断泊松泊松GLM0.70.5920.1480.1350.847
SPGLM公司0.7110.1850.1830.954
论坛泊松GLM泊松GLM0.70.7010.06290.06180.952
SPGLM公司0.7010.07020.06880.942
零膨胀截断泊松泊松GLM0.70.5810.06690.05970.491
SPGLM公司0.7000.08210.08080.947
论坛泊松GLM泊松GLM0.70.7000.04480.04360.954
SPGLM公司0.7000.05000.04850.940
零膨胀截断泊松泊松GLM0.70.5810.04650.04210.223
SPGLM公司0.7010.05760.05710.949
样本大小数据生成模型分析策略真值不良事件环境监理工程师AESE公司阴极保护
论坛泊松GLM泊松GLM0.20.2060.1200.1170.950
SPGLM公司0.2080.1250.1210.953
零膨胀截断泊松泊松GLM0.20.1660.1320.1220.922
SPGLM公司0.2040.1640.1630.956
论坛泊松GLM泊松GLM0.20.1990.05180.05160.952
SPGLM公司0.2000.05310.05280.955
零膨胀截断泊松泊松GLM0.20.1610.05890.05370.854
SPGLM公司0.1980.07300.07200.946
论坛泊松GLM泊松GLM0.20.2000.03680.03640.947
SPGLM公司0.2000.03780.03720.944
零膨胀截断泊松泊松GLM0.20.1610.04200.03790.794
SPGLM公司0.1990.05200.05080.941
论坛泊松GLM泊松GLM0.70.7120.1390.1410.959
SPGLM公司0.7130.1560.1560.951
零膨胀截断泊松泊松GLM0.70.5920.1480.1350.847
SPGLM公司0.7110.1850.1830.954
论坛泊松GLM泊松GLM0.70.7010.06290.06180.952
SPGLM公司0.7010.07020.06880.942
零膨胀截断泊松泊松GLM0.70.5810.06690.05970.491
SPGLM公司0.7000.08210.08080.947
论坛泊松GLM泊松GLM0.70.7000.04480.04360.954
SPGLM公司0.7000.05000.04850.940
零膨胀截断泊松泊松GLM0.70.5810.04650.04210.223
SPGLM公司0.7010.05760.05710.949

缩写:AE,平均估计值;ESE,经验标准误差;AESE,平均估计标准误差;CP,覆盖概率,95%置信区间。

为了研究半参数GLM的鲁棒性,我们考虑了两种不同的分析策略。首先,我们使用用于GCC采样的SPGLM分析来自前面描述的数据生成方法的结果第2阶段数据。我们还使用泊松GLM分析了相同的数据(假设论坛对于论坛)也考虑了GCC采样。这是为了(1)调查错误指定响应分布对条件似然法的影响,(2)描述与正确指定响应分布相比,估算响应分布的效率损失。为了使用SPGLM进行分析,我们使用了第3节执行相应的泊松分析,如Rathouz和Gao(2009),任何GLM都可以使用(1)例如,对于泊松GLM,论坛因此,不是估计(f) 0,我们通过提供正确的(f) 0.

表1,我们报告了2000次重复的系数估计的经验平均值和经验标准偏差、平均估计标准误差以及与斜率系数95%置信区间相关的覆盖概率。有关截距的结果如表C.1所示,可在在线附录C中找到。两种数据生成模型以及两种分析策略的结果都显示出来。对于SPGLM,我们在参数和不确定性估计中观察到最小偏差,即使对于论坛,并且在每个设置中,覆盖概率大约获得其95%的标称值。另一方面,对于泊松GLM分析,当存在模型指定错误时,感兴趣的参数存在偏差,并且覆盖范围不正确。当正确指定泊松模型时,泊松GLM模型将按预期运行,从而实现最小偏差和正确的覆盖概率。此外,SPGLM实现了最小的偏差,并且在效果规模较小的情况下,效率损失仅为5%左右,这是执行ODS提高效率的最大机会。最大的效率损失约为20%(在较大的效果大小中),但仍能达到正确的覆盖概率。

4.2过分散二项式

接下来,我们的目标是使用过度分散的二项式分布,在另一种情况下研究模型误指定的影响。这组模拟非常重要,因为它允许我们通过改变作为数据生成模型超参数的过度分散量来改变模型的误指定量。这使我们能够描述基于GLM的方法对分布错误指定的敏感程度。具体而言,数据生成如下:

  • (1)

    生成论坛.

  • (2)

    计算论坛,其中论坛(论坛或0.2和论坛).

  • (3)

    生成论坛,其中b条被选择为论坛论坛被选择以给出所需的过度分散量(相对于具有论坛)例如,论坛产量论坛过度分散。

  • (4)

    生成论坛,其中分别表示试验次数和成功概率。

这会导致二项数据出现过度分散,其中过度分散的量由参数α控制。图1,我们显示了25%、50%和100%过分散与无过分散的二项式响应相比得到的β二项式分布论坛。25%过分散的设置被视为具有“非常小”过分散量的设置。在我们的模拟中,我们将截距项更改为等于−0.6或0.2,以给出“倾斜”或“对称”响应分布。

图1

与生成概率等于的二项式响应相比,不同过分散量(25%、50%和100%)的响应分布示例论坛。此图在本文的电子版中以彩色显示,任何提及颜色的内容均指该版本

对于这些模拟,我们随机生成关于响应的第1阶段数据。在这种情况下,第1阶段数据有100万个观测值;这样,在每个响应级别中都有足够的样本来执行GCC抽样计划。我们执行GCC采样,这样在每个独特的响应级别中,我们预计会有50个样本,导致预期的样本大小为500。对于每种设置,我们都进行了两次分析:一次假设为二项式响应分布(如第4.1节,除了现在论坛)另一种方法是我们为SPGLM开发的方法。分析策略是这样的,即我们根据均值模型分析数据

采用相应的分布假设,计算GCC抽样。模拟研究重复了2000次。我们显示了中斜率参数的结果表2。有关截距的结果如表C.2所示,可在在线附录C中找到。总之,SPGLM在所有设置中都实现了近似有效的估计和推断。然而,在GCC抽样下,二项式分析在估计和推理方面都产生了不准确的结果。

表2

研究稳健性的模拟研究结果(仅β1),如中所述第4.2节

对称数据生成模型分析策略真刻度不良事件环境监理工程师AESE公司阴极保护
对称的二项式二项式GLM0.20.2010.03260.03270.954
SPGLM公司0.2010.03380.03410.953
25%过度分散二项式GLM0.20.2300.04380.03830.846
SPGLM公司0.2040.03980.04110.962
50%过度分散二项式GLM0.20.2460.05790.04280.733
SPGLM公司0.2050.04890.04850.946
100%过度分散二项式GLM0.20.2530.07660.04950.690
SPGLM公司0.2070.06280.06340.953
倾斜二项式二项式GLM0.20.2010.03260.03280.954
SPGLM公司0.2010.03410.03450.953
25%过度分散二项式GLM0.20.2260.04660.03870.852
SPGLM公司0.1960.04180.04130.940
50%过度分散二项式GLM0.20.2410.05950.04340.757
SPGLM公司0.1970.04950.04880.946
100%过度分散二项式GLM0.20.2430.08060.04990.722
SPGLM公司0.1950.06490.06360.945
对称数据生成模型分析策略真刻度不良事件环境监理工程师AESE公司阴极保护
对称的二项式二项式GLM0.20.2010.03260.03270.954
SPGLM公司0.2010.03380.03410.953
25%过度分散二项式GLM0.20.2300.04380.03830.846
SPGLM公司0.2040.03980.04110.962
50%过度分散二项式GLM0.20.2460.05790.04280.733
SPGLM公司0.2050.04890.04850.946
100%过度分散二项式GLM0.20.2530.07660.04950.690
SPGLM公司0.2070.06280.06340.953
倾斜二项式二项式GLM0.20.2010.03260.03280.954
SPGLM公司0.2010.03410.03450.953
25%过度分散二项式GLM0.20.2260.04660.03870.852
SPGLM公司0.1960.04180.04130.940
50%过度分散二项式GLM0.20.2410.05950.04340.757
SPGLM公司0.1970.04950.04880.946
100%过度分散二项式GLM0.20.2430.08060.04990.722
SPGLM公司0.1950.06490.06360.945

缩写:AE,平均估计值;ESE,经验标准误差;AESE,平均估计标准误差;CP,覆盖概率,95%置信区间。

表2

研究稳健性的模拟研究结果(仅β1),如中所述第4.2节

对称数据生成模型分析策略真正的calue不良事件环境监理工程师AESE公司阴极保护
对称的二项式二项式GLM0.20.2010.03260.03270.954
SPGLM公司0.2010.03380.03410.953
25%过度分散二项式GLM0.20.2300.04380.03830.846
SPGLM公司0.2040.03980.04110.962
50%过度分散二项式GLM0.20.2460.05790.04280.733
SPGLM公司0.2050.04890.04850.946
100%过度分散二项式GLM0.20.2530.07660.04950.690
SPGLM公司0.2070.06280.06340.953
倾斜二项式二项式GLM0.20.2010.03260.03280.954
SPGLM公司0.2010.03410.03450.953
25%过度分散二项式GLM0.20.2260.04660.03870.852
SPGLM公司0.1960.04180.04130.940
50%过度分散二项式GLM0.20.2410.05950.04340.757
SPGLM公司0.1970.04950.04880.946
100%过度分散二项式GLM0.20.2430.08060.04990.722
SPGLM公司0.1950.06490.06360.945
对称数据生成模型分析策略真刻度不良事件环境监理工程师AESE公司阴极保护
对称的二项式二项式GLM0.20.2010.03260.03270.954
SPGLM公司0.2010.03380.03410.953
25%过度分散二项式GLM0.20.2300.04380.03830.846
SPGLM公司0.2040.03980.04110.962
50%过度分散二项式GLM0.20.2460.05790.04280.733
SPGLM公司0.2050.04890.04850.946
100%过度分散二项式GLM0.20.2530.07660.04950.690
SPGLM公司0.2070.06280.06340.953
倾斜二项式二项式GLM0.20.2010.03260.03280.954
SPGLM公司0.2010.03410.03450.953
25%过度分散二项式GLM0.20.2260.04660.03870.852
SPGLM公司0.1960.04180.04130.940
50%过度分散二项式GLM0.20.2410.05950.04340.757
SPGLM公司0.1970.04950.04880.946
100%过度分散二项式GLM0.20.2430.08060.04990.722
SPGLM公司0.1950.06490.06360.945

缩写:AE,平均估计值;ESE,经验标准误差;AESE,平均估计标准误差;CP,覆盖概率,95%置信区间。

值得注意的是,即使SPGLM实现了正确的估计和推断,这些模拟中生成的β二项式数据也不是SPGLM假设模型的成员,如第2.1节尽管如此,SPGLM的灵活性足以捕获分布,从而产生可靠的统计结果。另一方面,与二项式分布的微小偏差会导致使用标准GLM方法进行不准确的分析。

5前瞻性研究

为了测试我们的方法,我们使用来自最古老的旧(AHEAD)研究中的资产和健康动态的数据实施GCC采样(索尔多等。, 1997). AHEAD研究是HRS(健康与退休研究)的一部分,由美国国家老龄研究所(拨款编号NIA U01AG009740)赞助,由密歇根大学进行。AHEAD研究是一项针对70岁及以上人群的国家纵向研究。AHEAD的目标是监测身体、功能和认知健康的转变,并研究晚年健康变化与储蓄和收入模式的关系。AHEAD的研究特别有趣,因为利益敞口,即家庭净值,是通过专家对该主题的深入访谈确定的,这既昂贵又耗时。

出于我们的目的,我们使用了1993年的完整基线数据,论坛感兴趣的变量包括:受试者报告有困难的日常生活任务中工具性活动的数量(从0到5)、年龄、性别、即时单词回忆(受试者在听他们阅读后立即列出的10个单词中的单词数量)和资产净值的分类值。我们进行了两项独立的分析,一项是回归日常生活中工具性活动的数量(年龄、性别、即时单词回忆和资产净值的分类值),另一项是对即时单词回忆的年龄、性别和资产净值分类值进行回归分析。对于以日常生活中工具性活动的数量为结果的分析,我们使用对数链接函数,对于以即时单词回忆为结果的研究,我们使用11类逻辑链接(即。,论坛). 选择这些分析是为了反映Rathouz和Gao(2009)EPS下。响应值的分布如所示表3,以及每个级别的建议样本数和相应的采样概率。请注意,对于这些候选设计,我们是过采样水平,与完整数据相比,计数相对较低。

表3

AHEAD研究的响应数据分布和拟议GCC抽样设计

响应值01245678910
工具性日常生活活动数量
计数4,8061,0433431576428
抽样概率10%30%50%70%90%100%
预期样本量4813131721105828
即时单词回忆
计数1541955261,0011450年1,35595444519610560
抽样概率100%90%70%50%30%10%30%50%70%90%100%
预期样本量1541763685014351362862231379560
响应值01245678910
日常生活工具活动数量
计数4,8061,0433431576428
抽样概率10%30%50%70%90%100%
预期样本量4813131721105828
即时单词回忆
计数1541955261,0011,4501,35595444519610560
抽样概率100%90%70%50%30%10%30%50%70%90%100%
预期样本量1541763685014351362862231379560
表3

AHEAD研究的响应数据分布和拟议GCC抽样设计

响应值01245678910
工具性日常生活活动数量
计数4,8061,0433431576428
抽样概率10%30%50%70%90%100%
预期样本量4813131721105828
即时单词回忆
计数1541955261,0011,4501,35595444519610560
抽样概率100%90%70%50%30%10%30%50%70%90%100%
预期样本量1541763685014351362862231379560
响应值01245678910
日常生活工具活动数量
计数4,8061,0433431576428
抽样概率10%30%50%70%90%100%
预期样本量4813131721105828
即时单词回忆
计数1541955261001个1,4501,35595444519610560
抽样概率100%90%70%50%30%10%30%50%70%90%100%
预期样本量1541763685014351362862231379560

我们首先使用EPS下的半参数GLM作为金标准来分析完整数据。然后,我们根据中的抽样计划从完整数据中选择一个子样本表3然后,我们使用SPGLM或基于标准GLM的分析来分析采样数据,这两种分析都考虑了适当的采样方案。在对数线性模型(工具性日常生活活动作为结果)中,基于GLM的分析的响应假设为泊松分布。同样,假设二项分布用于相应的分析,并以即时单词回忆为结果。

结果如所示表45对于几乎每个系数,SPGLM分析的估计值比等效的基于GLM的分析更接近完整的数据分析;一般来说,基于SPGLM的方法在GCC抽样下对系数进行了有效估计,而在基于GLM的分析下,对感兴趣的系数存在少量偏差。此外,重要的是,GCC采样显著降低了标准误差。例如,在第一次分析中,通过GCC抽样,EPS分析中第一级净值系数的标准误差减少了1.37倍(抽样分数平方根的0.0780/0.134倍)。因此,GCC设计几乎是两倍(1.372=1.88)与每股收益一样有效;其他回归参数也有类似的结果。在考虑立即单词回忆作为响应的分析中,检查相同的系数,我们发现标准错误减少了1.20倍。由于采样计划和模型不同,效率增益较小;然而,仍有1.45(1.20)的效率增益2). 从完整数据到修正方法的估计值之间的差异可能是由于平均模型规范的问题或(1)在涉及工具性日常生活活动的分析中,唯一明显不同的参数似乎是性别系数,平均模型的形式可能适合年龄、即时单词回忆和净值,但这种形式不适合女性与男性的比较,导致性别系数的结果不太一致。

表4

对AHEAD数据进行GCC采样的研究结果,日常生活的工具活动数量作为响应。下面我们展示了完整数据的估计系数和估计标准误差。我们还显示了基于SPGLM和GLM的分析下的估计系数和估计标准误差,这些分析实施了GCC抽样计划表3

完整数据(论坛)SPGLM-GCC公司GLM通用条款
系数估算(SE)估算(SE)估算(SE)
(截距)−3.606 (0.337)−3.588 (0.546)−5.176(0.307)
年龄0.0496 (0.00389)0.0492 (0.00634)0.0620 (0.00359)
性别:女性0.158 (0.0518)0.0434 (0.0856)0.195 (0.0470)
立即。单词回忆−0.207 (0.0141)−0.182 (0.0229)−0.252 (0.0130)
网络带宽:1–24k−0.256 (0.0780)−0.263 (0.134)−0.355 (0.0718)
净流量:25–74k−0.450 (0.0800)−0.450 (0.135)−0.602 (0.0732)
净流量:75–199k−0.692 (0.0814)−0.745 (0.135)−0.871 (0.0741)
净流量:20万+−0.763(0.0899)−0.859 (0.152)−0.936 (0.0816)
完整数据(论坛)SPGLM-GCC公司GLM通用条款
系数估算(SE)估算(SE)估算(SE)
(截距)−3.606 (0.337)−3.588 (0.546)−5.176(0.307)
年龄0.0496 (0.00389)0.0492 (0.00634)0.0620 (0.00359)
性别:女性0.158 (0.0518)0.0434 (0.0856)0.195 (0.0470)
立即。单词回忆−0.207 (0.0141)−0.182 (0.0229)−0.252 (0.0130)
网络带宽:1–24k−0.256 (0.0780)−0.263 (0.134)−0.355 (0.0718)
净流量:25–74k−0.450 (0.0800)−0.450 (0.135)−0.602 (0.0732)
净流量:75–199k−0.692 (0.0814)−0.745 (0.135)−0.871 (0.0741)
净流量:20万+−0.763(0.0899)−0.859 (0.152)−0.936 (0.0816)
表4

对AHEAD数据进行GCC抽样的研究结果,以工具性日常生活活动的数量作为响应。下面我们展示了完整数据的估计系数和估计标准误差。我们还显示了在SPGLM和基于GLM的分析下,根据表3

完整数据(论坛)SPGLM通用条款GLM通用条款
系数估算(SE)估算(SE)估算(SE)
(截距)−3.606 (0.337)−3.588 (0.546)−5.176 (0.307)
年龄0.0496 (0.00389)0.0492 (0.00634)0.0620 (0.00359)
性别:女性0.158 (0.0518)0.0434 (0.0856)0.195 (0.0470)
立即。单词回忆−0.207 (0.0141)−0.182 (0.0229)−0.252 (0.0130)
网络带宽:1–24k−0.256 (0.0780)−0.263 (0.134)−0.355 (0.0718)
净流量:25–74k−0.450 (0.0800)−0.450 (0.135)−0.602 (0.0732)
净流量:75–199k−0.692 (0.0814)−0.745(0.135)−0.871 (0.0741)
净流量:20万+−0.763 (0.0899)−0.859 (0.152)−0.936(0.0816)
完整数据(论坛)SPGLM通用条款GLM通用条款
系数估算(SE)估算(SE)估算(SE)
(截距)−3.606 (0.337)−3.588 (0.546)−5.176 (0.307)
年龄0.0496 (0.00389)0.0492 (0.00634)0.0620 (0.00359)
性别:女性0.158 (0.0518)0.0434 (0.0856)0.195 (0.0470)
立即。单词回忆−0.207 (0.0141)−0.182 (0.0229)−0.252 (0.0130)
网络带宽:1–24k−0.256 (0.0780)−0.263 (0.134)−0.355 (0.0718)
净流量:25–74k−0.450 (0.0800)−0.450 (0.135)−0.602 (0.0732)
净流量:75–199k−0.692 (0.0814)−0.745(0.135)−0.871 (0.0741)
净流量:20万+−0.763 (0.0899)−0.859 (0.152)−0.936(0.0816)
表5

对AHEAD数据进行GCC抽样并以即时单词回忆作为响应的研究结果。下面我们展示了完整数据的估计系数和估计标准误差。我们还显示了基于SPGLM和GLM的分析下的估计系数和估计标准误差,这些分析实施了GCC抽样计划表3

完整数据(论坛)SPGLM通用条款GLM-GCC公司
系数估算(SE)估算(SE)估算(SE)
(截距)2.220 (0.134)2.047 (0.172)1.403 (0.0972)
年龄−0.0393 (0.00167)−0.0372 (0.00217)−0.0249 (0.00121)
性别:女性0.215 (0.0188)0.206 (0.0236)0.133 (0.0133)
网络带宽:1–24k0.279 (0.0413)0.314 (0.0547)0.188 (0.0308)
净流量:25–74k0.388 (0.0401)0.433 (0.0535)0.259 (0.0298)
净流量:75–199k0.549 (0.0387)0.550 (0.0523)0.357 (0.0288)
净WC:20万+0.687 (0.0397)0.673 (0.0533)0.440 (0.0293)
完整数据(论坛)SPGLM通用条款GLM通用条款
系数估算(SE)估算(SE)估算(SE)
(截距)2.220 (0.134)2.047(0.172)1.403 (0.0972)
年龄−0.0393 (0.00167)−0.0372 (0.00217)−0.0249 (0.00121)
性别:女性0.215 (0.0188)0.206 (0.0236)0.133 (0.0133)
网络带宽:1–24k0.279 (0.0413)0.314 (0.0547)0.188 (0.0308)
净流量:25–74k0.388 (0.0401)0.433 (0.0535)0.259 (0.0298)
净流量:75–199k0.549 (0.0387)0.550 (0.0523)0.357 (0.0288)
净流量:20万+0.687 (0.0397)0.673 (0.0533)0.440 (0.0293)
表5

对AHEAD数据进行GCC抽样并以即时单词回忆作为响应的研究结果。下面我们展示了完整数据的估计系数和估计标准误差。我们还显示了基于SPGLM和GLM的分析下的估计系数和估计标准误差,这些分析实施了GCC抽样计划表3

完整数据(论坛)SPGLM通用条款GLM-GCC公司
系数估算(SE)估算(SE)估算(SE)
(截距)2.220 (0.134)2.047 (0.172)1.403 (0.0972)
年龄−0.0393(0.00167)−0.0372 (0.00217)−0.0249 (0.00121)
性别:女性0.215 (0.0188)0.206 (0.0236)0.133 (0.0133)
网络带宽:1–24k0.279 (0.0413)0.314 (0.0547)0.188 (0.0308)
净流量:25–74k0.388 (0.0401)0.433 (0.0535)0.259 (0.0298)
净流量:75–199k0.549 (0.0387)0.550 (0.0523)0.357 (0.0288)
净流量:20万+0.687 (0.0397)0.673 (0.0533)0.440 (0.0293)
完整数据(论坛)SPGLM通用条款GLM-GCC公司
系数估算(SE)估算(SE)估算(SE)
(截距)2.220 (0.134)2.047(0.172)1.403 (0.0972)
年龄−0.0393 (0.00167)−0.0372 (0.00217)−0.0249 (0.00121)
性别:女性0.215 (0.0188)0.206(0.0236)0.133 (0.0133)
网络带宽:1–24k0.279 (0.0413)0.314 (0.0547)0.188 (0.0308)
净流量:25–74k0.388 (0.0401)0.433 (0.0535)0.259 (0.0298)
净流量:75–199k0.549 (0.0387)0.550 (0.0523)0.357 (0.0288)
净流量:20万+0.687 (0.0397)0.673 (0.0533)0.440 (0.0293)

6讨论

AHEAD研究的结果表明,规划和执行GCC研究具有潜在的巨大益处,但正确指定响应分布也很重要。我们提出了一种渐近正确的方法,用于分析各种环境下GCC研究产生的数据。我们在GCC研究中开发了一个一致的估计量,并展示了如何获得每个设计案例的正确标准误差和推论。此外,我们已经表明,标准方法对有关响应分布的假设非常敏感,但我们的方法足够灵活,可以容纳各种可能的响应分布,而标准方法则失败了。这种灵活性使单一分析方法能够涵盖多种可能的响应结构。

既然我们已经建立了一种统一的GCC数据分析方法,未来的工作可以解决如何在给定的环境中为这类研究选择设计。例如,未来的目标是为研究人员提供指导方针和工具,以便在可能的响应值中选择最佳采样概率。此外,我们可能旨在开发使用我们的方法的方法,但通过全似然方法(与本文提出的条件似然方法相反)利用阶段1中的所有数据,以在除了兴趣暴露之外的协变量信息可用时提高兴趣参数估计的效率(例如,罗宾斯等。, 1995;查特吉等。2003年;Weaver和Zhou,2005年;等。, 2017). 在第1阶段利用剩余数据需要对感兴趣的协变量的分布进行建模,这通常是非参数的。额外的第1阶段数据需要不同的方法,这些方法与这里描述的条件似然方法不能直接比较。将SPGLM扩展到这种设置是有意义的,因为当前的方法假设给定协变量的响应分布是完全参数化的。未来研究的另一个方向是如何利用我们的工作开发工具来检查GCC研究中的建模假设。最后,未来研究的另一个领域可能是扩展SPGLM以考虑其他复杂设计,如多阶段和部分问卷设计(瓦克霍尔德等。, 1994;Whittemore和Halpern,1997年).

我们的框架是病例对照研究的自然延伸,病例对照研究是医学和公共卫生领域最常用的设计之一。使用这种新颖的方法,实践者(尤其是流行病学家和临床研究人员)将在实验设计方面具有更大的灵活性,同时还拥有一种与当前实践中使用的方法具有类似解释的工具。

数据可用性声明

支持本文研究结果的数据可从健康与退休研究数据库获取,网址为(http://hrsonline.isr.umich.edu/index.php?p=avail). 这些数据来源于公共领域的以下可用资源:AHEAD 1993 Core(http://hrsonline.isr.umich.edu/index.php?p=shoavail&iyear=BC).

支持信息

中引用的Web附录和表格第3节4可在Wiley Online Library上的Biometrics网站上获得这篇论文,还有一个标记文件,其中包含运行中描述的模拟的代码第4.2节。可通过密歇根大学的健康与退休研究下载AHEAD研究的数据。GitHub上提供了建议方法的软件,网址为(https://github.com/jmmaronge/gldrm网站). 该包通过实现第3节中描述的条件似然扩展了CRAN上可用的gldrm包。

致谢

Maronge、Schildcrout和Rathouz的这项工作得到了NIH拨款R01HL094786的支持。马龙也得到了威斯康星大学麦迪逊-莫尔斯奖学金的支持。我们要感谢编辑、副编辑和三位审稿人为改进这项工作提出的有益建议。

参考文献

安德森
J.A.公司。
(
1972
)
单独样本逻辑判别
.
生物特征
59
19
35
.

布雷斯洛
东北部。
(
1996
)
流行病学统计:病例对照研究
.
美国统计协会杂志
91
14
28
.

布雷斯洛
N。
&
凯恩
K.C.公司。
(
1988
)
两阶段病例对照数据的Logistic回归
.
生物特征
75
11
20
.

布雷斯洛
东北部。
&
查特吉
N。
(
1999
)
用于Wilms肿瘤预后的二元结果两阶段研究的设计与分析
.
英国皇家统计学会杂志。C系列(应用统计学)
48
457
468
.

布雷斯洛
N。
&
N。
(
1980
)
癌症研究中的统计方法
.
里昂
:
IARC科学出版物,国际癌症研究机构
.

布雷斯洛
东北部。
&
霍卢布科夫
R。
(
1997
)
两阶段结果相关抽样下logistic回归参数的最大似然估计
.
英国皇家统计学会杂志:B辑(统计方法)
59
447
461
.

Broders公司
交流。
(
1920
)
唇部鳞状细胞上皮瘤537例分析
.
日本汽车制造商协会
74
656
664
.

查特吉
N。
Y.-H年。
&
布雷斯洛
东北部。
(
2003
)
两阶段抽样回归问题的伪分数估计
.
美国统计协会杂志
98
158
168
.

康菲尔德
J。
(
1951
)
一种根据临床数据估计比较率的方法。应用于肺癌、乳腺癌和宫颈癌
.
JNCI:国家癌症研究所杂志
11
1269
1275
.

数据库间隙P
(
2006
).
基因型和表型数据库/国家生物技术信息中心,国家医学图书馆(NCBI/NLM)
 https://www.ncbi.nlm.nih.gov/gap。2021年4月17日访问。

小时
.
健康与退休研究(AHEAD 1993核心)公共使用数据集
. (
1993
)
密歇根大学制作并发行,由国家老龄研究所资助(拨款编号NIA U01AG009740)
.
密歇根州安阿伯
.

答:。
&
拉图兹
P.J.公司。
(
2017
)
广义线性模型中均值和误差分布的正交性
.
统计学中的传播:理论与方法
46
3290
3296
.

Lane-Claypon车道
J.E.公司。
(
1926
)
乳腺癌及其相关前期疾病的进一步报道
.
伦敦
:
H.M.S.O公司
.

无法无天的
J.F.公司。
卡尔布弗雷希
J.D.(医学博士)。
&
野生
C.J.公司。
(
1999
)
回归中响应选择性和缺失数据问题的半参数方法
.
英国皇家统计学会杂志。B系列(统计方法)
61
413
438
.

H。
M。
布罗迪
J.A.公司。
比斯
J.C.公司。
杜普伊斯
J。
勒姆利
T。
等(
2014
)
设计和分析靶向测序数据的策略:基因组流行病学(charge)联合体靶向序列研究中心脏和衰老研究的队列
.
循环:心血管遗传学
7
335
343
.

伦巴第
H.L.公司。
&
正在执行
首席风险官。
(
1928
)
马萨诸塞州癌症研究:癌症患者和非癌症患者的习惯、特征和环境
.
新英格兰医学杂志
198
481
487
.

麦库拉
第页。
(
1983
)
拟似然函数
.
统计年刊
11
59
67
.

麦库拉
第页。
&
内尔德
J。
(
1989
)
广义线性模型
,第2版。Chapman和Hall/CRC关于统计学和应用概率系列的专著。
伦敦
:
查普曼和霍尔
.

莫里斯
C.N.公司。
(
1982
)
具有二次方差函数的自然指数族
.
统计年鉴
10
65
80
.

欧文
答:。
(
1991
)
线性模型的经验似然
.
统计年刊
19
1725
1747
.

普伦蒂斯
相对湿度。
&
派克
R。
(
1979
)
Logistic疾病发病模型与病例对照研究
.
生物特征
66
403
411
.

拉图兹
P.J.公司。
&
L。
(
2009
)
未指定参考分布的广义线性模型
.
生物统计学
10
205
218
.

罗宾斯
J.M.公司。
罗特尼茨基
答:。
&
L.P.有限责任公司。
(
1995
)
数据缺失情况下重复结果的半参数回归模型分析
.
美国统计协会杂志
90
106
121
.

席尔德克劳特
J。
哈努斯
美国。
R。
泽尼克
左心室。
希斯特曼
E.F.公司。
加贝特
S.P.公司。
等(
2019
)
定量纵向结果研究的两阶段广义病例对照设计
.
美国流行病学杂志
189
81
90
.

斯科特
A.J.公司。
&
野生
C.J.公司。
(
2011
)
用响应偏差样本拟合回归模型
.
加拿大统计杂志
39
519
536
.

J。
(
2003
)
数学统计学
.
统计中的Springer文本
.
纽约
:
施普林格
.

索尔多
B.J.公司。
赫德
医学博士。
罗杰斯
W.L.公司。
&
华莱士
钢筋混凝土。
(
1997
)
高龄老人的资产和健康动态:前瞻性研究综述
.
老年学杂志:B辑
52亿
1
20
.

R。
D。
&
D.-Y.公司。
(
2017
)
两阶段抽样下的有效半参数推断及其在遗传关联研究中的应用
.
美国统计协会杂志
112
1468
1476
.

瓦克霍尔德
美国。
卡罗尔
R.J.公司。
撒尿
D。
&
盖尔
M.H.医学博士。
(
1994
)
病例对照研究的部分问卷设计
.
医学统计学
13
623
634
.

织布工
文学硕士。
&
H。
(
2005
)
具有结果相关抽样的连续结果回归模型的估计似然方法
.
美国统计协会杂志
100
459
469
.

韦德伯恩
R.W.M.公司。
(
1974
)
拟似然函数、广义线性模型和Gauss-Newton方法
.
生物特征
61
439
447
.

惠特莫尔
美国科学院。
&
哈尔佩恩
J。
(
1997
)
遗传流行病学中的多阶段抽样
.
医学统计学
16
153
167
.

Wurm公司
医学博士。
&
拉图兹
P.J.公司。
(
2018
)
带有gldrm包的半参数广义线性模型
.
R杂志
10
288
307
.

本文根据牛津大学出版社标准期刊出版模式的条款出版和发行(https://academic.oup.com/journals/pages/open_access/funder_policies/chorus/standard_publication_model)

补充数据