Generalized Case-Control Sampling under Generalized Linear Models

Maronge, Jacob M.; Tao, Ran; Schildcrout, Jonathan S.; Rathouz, Paul J.

doi:10.1111/biom.13571

摘要

与标准病例对照研究一样，广义病例对照研究利用结果依赖性抽样（ODS）扩展到非二元反应。我们使用最近开发的广义线性模型（GLM）的半参数扩展，开发了一种新的、统一的方法来分析GCC研究数据，与基于参数GLM的现有方法相比，该方法对模型错误指定的鲁棒性更强。为了有效的估计和推断，我们使用条件似然来解释有偏抽样设计。我们描述了条件似然下半参数GLM估计和推理的分析过程，并讨论了响应分布不明确时条件似然条件下的估计和推理问题。通过广泛的模拟研究，我们证明了我们的方法相对于现有方法的灵活性，并将该方法应用于分析最古老研究中的资产和健康动态，这也是我们研究的动机。提出的方法产生了一种简单但通用的解决方案，用于处理实际中遇到的各种可能的响应分布和采样方案中的消耗臭氧物质。

条件似然，效率，广义病例对照研究，广义线性模型，结果相关抽样

1引言

随着电子健康记录和公开研究数据库的日益普及，寻求回答新的医学和公共健康问题的研究人员可能会获得结果（例如疾病状态或定量表型）和协变量数据，但可能缺少关键的暴露变量（例如，来自分析或手动电子健康记录审查的生物标记）。通常，这样的暴露确定费用高昂，并且无法在队列的所有成员上完成。众所周知，在许多这样的“昂贵的暴露”场景中，随机抽样在估计暴露-输出关联方面可能效率低下。因此，通过结果相关抽样（ODS）对部分人群进行过抽样是有益的。最常见的ODS设计是病例对照研究，该研究在20世纪20年代开始流行，并成功地发现了唇癌和烟斗吸烟之间的关系(布罗德斯，1920年)乳腺癌和生殖史(Lane-Claypon，1926年)口腔癌和烟斗吸烟(伦巴第和多林，1928年). 病例对照研究的分析方法已经建立(康菲尔德，1951年;安德森，1972年;普伦蒂斯和派克，1979年;布雷斯洛和戴，1980年;布雷斯洛，1996年)，并且通常依赖于逻辑回归模型。虽然已经提出将病例对照抽样设计扩展到非二进制分布(无法无天的等。, 1999;Scott和Wild，2011年)在标准广义线性模型（GLM；McCullagh和Nelder，1989年)框架，因为它需要根据每个不同的结果分布定制实现；每一个独特的响应都需要一个新的实现，这个实现可能会很繁琐，而且计算量很大。

为了解决这个问题，我们将ODS问题分为两个阶段进行研究(布雷斯洛和戴，1980年;布雷斯洛和凯恩，1988年;布雷斯洛，1996年;Breslow和Holubkov，1997年;Breslow和Chatterjee，1999年). 典型的两阶段研究如下所示：在第1阶段，收集响应的代表性样本（以及可能廉价的协变量），以进行大量观察。第1阶段后，根据观察到的响应信息制定抽样计划。在第2阶段，使用建议的抽样计划，选择第1阶段观测的子集来收集昂贵的暴露信息。例如，考虑一个假设的电子健康记录设置，其中研究人员对疾病状态和（相对昂贵的）遗传标记之间的关系感兴趣。可用的健康记录信息包括表型和其他标准信息，但不容易包含遗传标记数据。在本例中，电子健康记录中可用的数据是第1阶段样本。根据观察到的表型（可能具有比二进制更复杂的结构），我们设计了一个抽样方案来识别确定遗传标记的第2阶段样本。按照这个抽样方案，我们将收集选定受试者的遗传标记信息。

虽然在一些ODS设置中，阶段1和阶段2数据都可用于分析，但我们在此将注意力局限于通常观察到的设置，其中阶段2数据可用，而阶段1数据不可用。也就是说，我们只能访问“完整”数据集(无法无天的等。, 1999)，而不是阶段1响应。许多这方面的例子都是通过基因型和表型数据库（dbGaP）给出的，其中大部分可用数据来自仅保留第2阶段观察结果的研究。有很多原因导致只保留第2阶段数据。例如，可能需要获得患者的同意才能将其纳入公开可用的数据存储库，而这对于那些未被选入第2阶段的患者来说可能更具挑战性。此外，还存在与数据清理相关的成本，研究人员可能不热衷于清理和管理第1阶段的廉价协变量以及未收集第2阶段暴露数据的未取样受试者的数据。仅使用第2阶段数据的研究示例是CHARGE研究(林等。, 2014)，其中收集了第一阶段和第二阶段数据，但只有第二阶段的数据是免费的。ODS的许多可用方法都假设包含不完整的第一阶段数据，并且不容易适应只有第二阶段数据可用的情况（例如。，查特吉等。(2003);韦弗和周（2005）;道等。(2017)).

对于病例对照研究数据的分析来说，logistic回归能够有效地推断暴露与产出之间的关系(康菲尔德，1951年;安德森，1972年;普伦蒂斯和派克，1979年;布雷斯洛和戴，1980年;布雷斯洛，1996年)即使我们忽略了病例对照抽样计划。然而，一般来说，分析ODS抽样方案的完整案例数据是无效的。无法无天的等。(1999)描述明确承认可能性内的设计的条件可能性计算。重要的是，即使该方法允许非二进制响应，它仍然需要响应的已知参数分布形式，如果参数形式指定错误，可能会导致对感兴趣参数的错误估计和推断。

在本报告中，我们描述了一个统一的框架，即通过利用一种吸引熟悉GLM和经典病例对照设计的人的方法，我们对两阶段研究中ODS的许多不同反应形式有一个单一的分析策略。我们考虑GLM（SPGLM；Rathouz和Gao，2009年)这为准似然（QL；韦德伯恩，1974年;McCullagh，1983年)建模框架。SPGLM对给定协变量的响应分布进行非参数建模，但与QL和其他基于函数的估计方法类似，对给定协变的响应平均值进行参数建模。为了强调与病例对照研究的联系，我们将超二进制反应的研究称为广义病例对照研究(席尔德克劳特等。, 2019). 我们将重点放在只有第2阶段数据以及用于收集这些数据的采样计划可用的设置上。我们应用SPGLM框架分析从GCC研究中收集的数据。我们的方法的主要优点是，它允许实验者以统一的方式分析GCC研究中的数据，包括各种各样的响应分布，同时还通过不必假定该分布的特定形式来增加稳健性。这种稳健性在GCC采样下很重要，因为我们将显示，全参数方法可能对响应分布的错误指定很敏感。作为一个附加功能，ODS下的响应分布采用与简单随机抽样下相同的函数形式，从而简化了从简单随机抽样到ODS的扩展。

论文组织如下。在第2节，我们审查了SPGLM和GCC设计。在第3节，我们使用SPGLM框架开发了GCC研究下的估计和推断程序第4节，我们进行了仿真研究，以检验SPGLM方法在错误指定情况下对类似参数方法的有效性和鲁棒性。最后，在第5节，我们使用AHEAD研究证明了我们的方法的使用，其中自变量需要专家进行广泛的访谈，因此收集起来既耗时又昂贵。此外，AHEAD研究的响应不遵循标准指数族形式之一，这意味着标准参数假设不容易实现。最后，我们进行了讨论和总结。

2建模和采样框架

2.1型号

Rathouz和Gao（2009）提出了传统GLM的半参数扩展(McCullagh和Nelder，1989年). 与传统GLM一样，他们的模型侧重于对参数平均模型的推断。然而，SPGLM在响应分布的非参数估计下运行。因此，它为QL提供了一个完整的，尽管是半参数的似然替代方法。虽然SPGLM在估计和推断方面的性能与QL相当，但完全似然的规范具有许多优点。这些优点包括用于模型比较的目标函数、进行预测的能力以及在传统的遗漏随机（MAR）假设下的潜在稳健性。方便的是，通过应用贝叶斯定理，该模型也很容易适应ODS设计，这是本文的主要主题，也是我们将详细研究的主题。

尽管与标准GLM相比，SPGLM只需要指定平均模型（即，它不需要指定响应分布）；然而，它仍然保持对平均模型参数的相同解释。用户指定线性预测器，然后选择与所需模型解释相对应的链接函数。一旦指定了平均模型，条件响应分布的其余特征将以非参数方式进行估计。使用较小的分布假设，该模型可能会考虑到各种非传统响应的分析，而不必担心错误指定响应分布，从而在一系列分布形式上产生统一的方法。

为了解决问题，让 $论坛$ 表示 $论坛$ 协变量向量我主题，并让 $论坛$ 表示 $论坛$ 观测矢量，其中每个观测 $论坛$ 是从中采样的独立实现

(1)

对于 $论坛$ 支持 $论坛$ ⁠.矢量 $论坛$ 包含线性预测器的系数，以及 $论坛$ 是上的非参数参考分布 $论坛$ ⁠，根据数据估计。然而，对于固定（f） ₀，(1)是一个自然指数族(莫里斯，1982年)具有规范参数 $论坛$ 和累积量生成函数

对于给定的（f） ₀因此，我们从GLM中恢复标准结果， $论坛$ 和 $论坛$ ⁠推理的重点是 $论坛$ 鉴于 $论坛$ ⁠，

(2)

哪里 $论坛$ 是线性预测值 $论坛$ 是一个已知的链接函数，严格按照间隔递增 $论坛$ ⁠， $论坛$ 和 $论坛$ ⁠。重要的一点是，这里的自由参数是 $论坛$ 和（f） ₀; $论坛$ 决定 $论坛$ ⁠，与（f） ₀，确定 $论坛$ 通过解决方案(2)。结果分数和信息 $论坛$ 由提供

(3)

和

(4)

对于固定（f） ₀， $论坛$ 和 $论坛$ 源自标准GLM理论。

什么时候？（f） ₀未知，此模型的拟合程序通过迭代估计的Fisher评分扩展而起作用 $论坛$ 和（f） ₀保持其他参数不变；看见Wurm和Rathouz（2018）。的响应分布 $论坛$ 给定协变量 $论坛$ 然后通过插入估计的平均参数进行估计， $论坛$ ⁠和参考分布， $论坛$ ⁠，到(1).

2.2一般病例对照研究

如前所述，病例对照抽样用于二元反应的回顾性抽样研究。如果某一水平的响应（例如疾病状态）很少出现，那么病例对照抽样在样本量方面比等效等概率抽样（EPS）设计效率更高，后者根据给定的预测因子对响应进行随机抽样。原则上，没有任何东西限制病例对照概念为二元结果。例如，如果感兴趣的反应是一个计数，我们可以设计一项研究，对计数的极端水平进行过采样，以增加感兴趣的暴露与反应之间观察到的共变性。我们将此类设计称为GCC研究，并建议在基础模型是GLM家族成员时对此类研究进行分析。

为了准确定义GCC研究，我们考虑研究人员为我们提供观察结果集合的环境 $论坛$ ⁠，其中 $论坛$ 包括两阶段研究第2阶段的暴露数据和调整变量。挑战在于，暴露数据是通过ODS收集的，由一个函数编码 $论坛$ 关于支持 $论坛$ ⁠，定义为

(5)

在这里， $论坛$ 是用于我主题。该设置与众所周知的病例对照研究非常相似；然而，对于logistic回归二元响应以外的大多数情况，研究者还必须提供 $论坛$ 给分析员。

有许多不同的方法可以通过函数定义采样方案 $论坛$ ⁠例如 $论坛$ 可以接收到唯一的采样概率。或者，研究人员可以选择 $论坛$ 的平滑函数 $论坛$ ⁠或者实验者可以选择对特定水平的反应进行分组，并根据

哪里 $论坛$ 都是切点。这种灵活性允许实验者选择简单的设计，同时仍保留响应变量的复杂性，以用于建模。

3估算和推断

3.1估算

在本节中，我们对SPGLM中平均模型的系数进行了估计和推断，并考虑了GCC抽样。从模型开始(1)，根据观察到的结果值进行抽样 $论坛$ 在采样数据中引入新的响应分布。为了研究这种诱导分布，我们利用了(5)使用贝叶斯规则，我们获得了以下结果密度 $论坛$ 以ODS下取样为条件，

(6)

我们在哪里定义 $论坛$ 和 $论坛$ ⁠ODS下的诱导平均值现在是 $论坛$ ⁠，定义为

诱导方差为 $论坛$ ⁠。重要的是要注意 $论坛$ 和 $论坛$ （以及各自的差异）与不同的分布有关： $论坛$ 关于EPS下的响应分布，以及 $论坛$ 与GCC采样的诱导分布有关。

目前专注于估算 $论坛$ 带有固定的 $论坛$ ⁠、和使用(6)，ODS下的条件log-likelihood函数为

得出以下项目的得分 $论坛$ ⁠，我们记得 $论坛$ 和 $论坛$ 并应用链式规则获得

哪里 $论坛$ ⁠， $论坛$ ⁠， $论坛$ ⁠、和 $论坛$ ⁠注意，涉及每股收益均值的衍生工具(⁠ $论坛$ ⁠)与GCC采样下的诱导平均值无关(⁠ $论坛$ ⁠). 最后，我们得到了 $论坛$ 在ODS下，

(7)

请注意(7)，在ODS下获得的分数与 $论坛$ 在EPS下，如所示(3)，唯一的区别是 $论坛$ 替换为 $论坛$ ⁠。接下来，我们考虑以下信息 $论坛$ ODS下。使用标准信息计算，

(8)

请注意，在(8)，该信息涉及的比率为 $论坛$ GCC抽样和EPS下的相应值，即， $论坛$ ⁠这让我们有理由相信，如果我们使用GCC抽样，以这样的方式进行抽样 $论坛$ （给定协变量）相对于每股收益增加，我们将提高估算效率 $论坛$ ⁠。正如我们将看到的，这只是大致正确的，因为还需要估计参考分布（f） ₀然而，该比率是决定GCC抽样与随机等效研究抽样在响应方面的效率增益的驱动因素。

在EPS下，SPGLM有一个有趣的功能，其中参数 $论坛$ 在平均模型中，与估计参考分布的参数正交（f） ₀(Huang和Rathouz，2017年). 检查(7)，我们可以看到 $论坛$ 是的函数 $论坛$ 因此 $论坛$ 和 $论坛$ 在ODS下，EPS下不再存在。与所有令人讨厌的参数问题一样，这意味着 $论坛$ 根据ODS，现在将影响 $论坛$ ⁠然而，这也在GCC抽样的背景下产生了另一个问题；注意，平均模型是根据 $论坛$ ⁠，因此， $论坛$ ⁠，但使用条件似然的β的得分函数是 $论坛$ ⁠。这意味着在求解时(7)等于零，我们必须使用抽样计划和估计的响应分布来转换 $论坛$ 到 $论坛$ ⁠。作为(7)对于参数GLM，是指（f） ₀假设具有特定的参数形式，这意味着指定错误（f） ₀导致潜在偏差（以及不正确的标准误差） $论坛$ 在全参数GLM下。如所示第4节SPGLM具有足够的灵活性，可以在许多情况下消除这种偏见。除了灵活性外，SPGLM比假设响应支持无限的可能性更容易实现，因为分母中的积分(6)成为观察到的支撑的总和。在下一节中，我们将展示如何使用具有条件似然的SPGLM获得正确的推断。

3.2推断

我们将重点讨论关于平均模型中系数的推断。虽然我们已经为 $论坛$ ⁠，我们还没有方法对 $论坛$ 因为这些计算并不反映参数的同时估计（f） ₀ODS下。为了解决这个问题，我们注意到 $论坛$ 在进行评估时（f） ₀是

(9)

（例如，请参见，邵，2003). 以上， $论坛$ 代表 $论坛$ 联合信息矩阵的角点 $论坛$ 和（f） ₀类似的解释适用于 $论坛$ ⁠、和 $论坛$ 表示两个参数之间的交叉信息。如前所述，就ODS而言 $论坛$ 和（f） ₀非零，因此（f） ₀和 $论坛$ 在ODS下未获得EPS下的可用信息。

我们将推理限制在以下情况 $论坛$ 具有有限支撑，表示 $论坛$ ⁠类似地，让 $论坛$ ⁠，其中米第个条目 $论坛$ 导出的参考分布是在 $论坛$ ⁠现在，我们写下经验（条件）似然(欧文，1991年)对于（f） ₀，

我们表示米得分的第th个分量 $论坛$ 通过 $论坛$ 并使用链式法则，

屈服，屈服

(10)

然后，最大经验似然估计是 $论坛$ ⁠， $论坛$ ⁠，生成的信息为

有关分数和信息计算，请参阅在线附录A。

最后，生成的交叉信息由下式给出

(11)

注意，没有星号符号的项是对应项，就好像数据是针对响应随机采样的一样。我们注意到的第一件事(11)如果我们把这个方程简化为每股收益设置，括号中的项等于零，这与预期结果相匹配。

由于可识别性方面的技术问题(1)对参考分布施加了三个约束，这需要我们计算（f） ₀本质上，这要求我们将信息投影到一个子空间中，以解释这些约束。然而，这对我们结果的解释没有重大影响，因此留给在线附录B处理。

因为我们将设置限制在响应具有有限支持的情况下，所以可以使用反向有效信息(9)对于 $论坛$ 和标准最大似然结果来构造渐近校正的标准误差 $论坛$ ODS下。连同中的估算结果第3.1节，我们可以用统一的方法从任意响应分布对ODS进行渐近正确分析。

4模拟

4.1零膨胀截尾泊松

我们方法的一个主要优势是，我们同时估计了群体中给定协变量的响应分布，同时也考虑了GCC采样。这为我们在许多响应分布下处理GCC研究数据提供了一种有效且稳健的方法。本模拟研究的目标是评估在违反标准模型分布假设（例如泊松、二项式）的情况下，GCC下的SPGLM和传统GLM方法是如何工作的。我们还想评估在正确指定标准GLM的情况下，使用SPGLM估计响应分布是否会降低效率。为了研究这一点，我们从形式的平均模型开始

(12)

其中每个 $论坛$ 是来自的独立样本模型（1）作为参考分布，我们考虑两种情况；第一种是修正泊松，其速率参数等于1，截断为 $论坛$ ⁠，是原始质量的三倍 $论坛$ ⁠。我们将其称为零膨胀截断泊松。这种分布旨在表示实际中可能遇到的数据，从某种意义上说，它是有限数量项目的过度分散计数，但标准GLM无法很好地捕捉到这些数据。此外，该数据生成模型类似于AHEAD研究中的“工具性日常生活活动”。对于第二种情况，我们简单地从泊松分布生成数据，平均值为 $论坛$ ⁠。对于每个设置，我们都让 $论坛$ ⁠; 这些边界集 $论坛$ ⁠。最后，我们设置 $论坛$ ⁠，让 $论坛$ 或0.7，并允许样本大小如表1。我们考虑一个两阶段设计，在第1阶段随机抽样100000个观察值，然后使用GCC抽样平均抽样两个响应层的相等数量： $论坛$ （控制）和 $论坛$ （例），在每个层次中，我们平均从每个响应级别中抽取相同数量的样本。例如，如果我们总共对1000个观测值进行采样，大约500个观测值将如下所示 $论坛$ 和 $论坛$ ⁠分别是。在“控制”层中，大约125个将来自年而在“案例”层中，大约250人来自年在小效应环境中，零膨胀、截断泊松的人群中病例的流行率约为6%（当 $论坛$ ⁠)在大效果设置中为8%（当 $论坛$ ⁠)，在标准泊松设置中稍大。

表1

中描述的模拟研究的估计和推断结果第4.1节（仅β₁). 我们展示了2000次重复的结果，这些重复具有不同的样本大小和预测因子的影响大小，以及两种不同的数据生成模型/分析策略

样本大小	数据生成模型	分析策略	真值	不良事件	环境监理工程师	AESE公司	阴极保护
$论坛$	泊松GLM	泊松GLM	0.2	0.206	0.120	0.117	0.950
		SPGLM公司		0.208	0.125	0.121	0.953
	零膨胀截断泊松	泊松GLM	0.2	0.166	0.132	0.122	0.922
		SPGLM公司		0.204	0.164	0.163	0.956
$论坛$	泊松GLM	泊松GLM	0.2	0.199	0.0518	0.0516	0.952
		SPGLM公司		0.200	0.0531	0.0528	0.955
	零膨胀截断泊松	泊松GLM	0.2	0.161	0.0589	0.0537	0.854
		SPGLM公司		0.198	0.0730	0.0720	0.946
$论坛$	泊松GLM	泊松GLM	0.2	0.200	0.0368	0.0364	0.947
		SPGLM公司		0.200	0.0378	0.0372	0.944
	零膨胀截断泊松	泊松GLM	0.2	0.161	0.0420	0.0379	0.794
		SPGLM公司		0.199	0.0520	0.0508	0.941
$论坛$	泊松GLM	泊松GLM	0.7	0.712	0.139	0.141	0.959
		SPGLM公司		0.713	0.156	0.156	0.951
	零膨胀截断泊松	泊松GLM	0.7	0.592	0.148	0.135	0.847
		SPGLM公司		0.711	0.185	0.183	0.954
$论坛$	泊松GLM	泊松GLM	0.7	0.701	0.0629	0.0618	0.952
		SPGLM公司		0.701	0.0702	0.0688	0.942
	零膨胀截断泊松	泊松GLM	0.7	0.581	0.0669	0.0597	0.491
		SPGLM公司		0.700	0.0821	0.0808	0.947
$论坛$	泊松GLM	泊松GLM	0.7	0.700	0.0448	0.0436	0.954
		SPGLM公司		0.700	0.0500	0.0485	0.940
	零膨胀截断泊松	泊松GLM	0.7	0.581	0.0465	0.0421	0.223
		SPGLM公司		0.701	0.0576	0.0571	0.949

样本大小	数据生成模型	分析策略	真值	不良事件	环境监理工程师	AESE公司	阴极保护
$论坛$	泊松GLM	泊松GLM	0.2	0.206	0.120	0.117	0.950
		SPGLM公司		0.208	0.125	0.121	0.953
	零膨胀截断泊松	泊松GLM	0.2	0.166	0.132	0.122	0.922
		SPGLM公司		0.204	0.164	0.163	0.956
$论坛$	泊松GLM	泊松GLM	0.2	0.199	0.0518	0.0516	0.952
		SPGLM公司		0.200	0.0531	0.0528	0.955
	零膨胀截断泊松	泊松GLM	0.2	0.161	0.0589	0.0537	0.854
		SPGLM公司		0.198	0.0730	0.0720	0.946
$论坛$	泊松GLM	泊松GLM	0.2	0.200	0.0368	0.0364	0.947
		SPGLM公司		0.200	0.0378	0.0372	0.944
	零膨胀、截断泊松	泊松GLM	0.2	0.161	0.0420	0.0379	0.794
		SPGLM公司		0.199	0.0520	0.0508	0.941
$论坛$	泊松GLM	泊松GLM	0.7	0.712	0.139	0.141	0.959
		SPGLM公司		0.713	0.156	0.156	0.951
	零膨胀截断泊松	泊松GLM	0.7	0.592	0.148	0.135	0.847
		SPGLM公司		0.711	0.185	0.183	0.954
$论坛$	泊松GLM	泊松GLM	0.7	0.701	0.0629	0.0618	0.952
		SPGLM公司		0.701	0.0702	0.0688	0.942
	零膨胀截断泊松	泊松GLM	0.7	0.581	0.0669	0.0597	0.491
		SPGLM公司		0.700	0.0821	0.0808	0.947
$论坛$	泊松GLM	泊松GLM	0.7	0.700	0.0448	0.0436	0.954
		SPGLM公司		0.700	0.0500	0.0485	0.940
	零膨胀截断泊松	泊松GLM	0.7	0.581	0.0465	0.0421	0.223
		SPGLM公司		0.701	0.0576	0.0571	0.949

缩写：AE，平均估计值；ESE，经验标准误差；AESE，平均估计标准误差；CP，覆盖概率，95%置信区间。

新标签中打开

表1

中描述的模拟研究的估计和推断结果第4.1节（仅β₁). 我们展示了2000次重复的结果，这些重复具有不同的样本大小和预测因子的影响大小，以及两种不同的数据生成模型/分析策略

样本大小	数据生成模型	分析策略	真值	不良事件	环境监理工程师	AESE公司	阴极保护
$论坛$	泊松GLM	泊松GLM	0.2	0.206	0.120	0.117	0.950
		SPGLM公司		0.208	0.125	0.121	0.953
	零膨胀截断泊松	泊松GLM	0.2	0.166	0.132	0.122	0.922
		SPGLM公司		0.204	0.164	0.163	0.956
$论坛$	泊松GLM	泊松GLM	0.2	0.199	0.0518	0.0516	0.952
		SPGLM公司		0.200	0.0531	0.0528	0.955
	零膨胀截断泊松	泊松GLM	0.2	0.161	0.0589	0.0537	0.854
		SPGLM公司		0.198	0.0730	0.0720	0.946
$论坛$	泊松GLM	泊松GLM	0.2	0.200	0.0368	0.0364	0.947
		SPGLM公司		0.200	0.0378	0.0372	0.944
	零膨胀、截断泊松	泊松GLM	0.2	0.161	0.0420	0.0379	0.794
		SPGLM公司		0.199	0.0520	0.0508	0.941
$论坛$	泊松GLM	泊松GLM	0.7	0.712	0.139	0.141	0.959
		SPGLM公司		0.713	0.156	0.156	0.951
	零膨胀截断泊松	泊松GLM	0.7	0.592	0.148	0.135	0.847
		SPGLM公司		0.711	0.185	0.183	0.954
$论坛$	泊松GLM	泊松GLM	0.7	0.701	0.0629	0.0618	0.952
		SPGLM公司		0.701	0.0702	0.0688	0.942
	零膨胀截断泊松	泊松GLM	0.7	0.581	0.0669	0.0597	0.491
		SPGLM公司		0.700	0.0821	0.0808	0.947
$论坛$	泊松GLM	泊松GLM	0.7	0.700	0.0448	0.0436	0.954
		SPGLM公司		0.700	0.0500	0.0485	0.940
	零膨胀截断泊松	泊松GLM	0.7	0.581	0.0465	0.0421	0.223
		SPGLM公司		0.701	0.0576	0.0571	0.949

样本大小	数据生成模型	分析策略	真值	不良事件	环境监理工程师	AESE公司	阴极保护
$论坛$	泊松GLM	泊松GLM	0.2	0.206	0.120	0.117	0.950
		SPGLM公司		0.208	0.125	0.121	0.953
	零膨胀截断泊松	泊松GLM	0.2	0.166	0.132	0.122	0.922
		SPGLM公司		0.204	0.164	0.163	0.956
$论坛$	泊松GLM	泊松GLM	0.2	0.199	0.0518	0.0516	0.952
		SPGLM公司		0.200	0.0531	0.0528	0.955
	零膨胀截断泊松	泊松GLM	0.2	0.161	0.0589	0.0537	0.854
		SPGLM公司		0.198	0.0730	0.0720	0.946
$论坛$	泊松GLM	泊松GLM	0.2	0.200	0.0368	0.0364	0.947
		SPGLM公司		0.200	0.0378	0.0372	0.944
	零膨胀截断泊松	泊松GLM	0.2	0.161	0.0420	0.0379	0.794
		SPGLM公司		0.199	0.0520	0.0508	0.941
$论坛$	泊松GLM	泊松GLM	0.7	0.712	0.139	0.141	0.959
		SPGLM公司		0.713	0.156	0.156	0.951
	零膨胀截断泊松	泊松GLM	0.7	0.592	0.148	0.135	0.847
		SPGLM公司		0.711	0.185	0.183	0.954
$论坛$	泊松GLM	泊松GLM	0.7	0.701	0.0629	0.0618	0.952
		SPGLM公司		0.701	0.0702	0.0688	0.942
	零膨胀截断泊松	泊松GLM	0.7	0.581	0.0669	0.0597	0.491
		SPGLM公司		0.700	0.0821	0.0808	0.947
$论坛$	泊松GLM	泊松GLM	0.7	0.700	0.0448	0.0436	0.954
		SPGLM公司		0.700	0.0500	0.0485	0.940
	零膨胀截断泊松	泊松GLM	0.7	0.581	0.0465	0.0421	0.223
		SPGLM公司		0.701	0.0576	0.0571	0.949

缩写：AE，平均估计值；ESE，经验标准误差；AESE，平均估计标准误差；CP，覆盖概率，95%置信区间。

新标签中打开

为了研究半参数GLM的鲁棒性，我们考虑了两种不同的分析策略。首先，我们使用用于GCC采样的SPGLM分析来自前面描述的数据生成方法的结果第2阶段数据。我们还使用泊松GLM分析了相同的数据（假设 $论坛$ 对于 $论坛$ ⁠)也考虑了GCC采样。这是为了（1）调查错误指定响应分布对条件似然法的影响，（2）描述与正确指定响应分布相比，估算响应分布的效率损失。为了使用SPGLM进行分析，我们使用了第3节执行相应的泊松分析，如Rathouz和Gao（2009），任何GLM都可以使用(1)例如，对于泊松GLM， $论坛$ ⁠因此，不是估计（f） ₀，我们通过提供正确的（f） ₀.

在表1，我们报告了2000次重复的系数估计的经验平均值和经验标准偏差、平均估计标准误差以及与斜率系数95%置信区间相关的覆盖概率。有关截距的结果如表C.1所示，可在在线附录C中找到。两种数据生成模型以及两种分析策略的结果都显示出来。对于SPGLM，我们在参数和不确定性估计中观察到最小偏差，即使对于 $论坛$ ⁠，并且在每个设置中，覆盖概率大约获得其95%的标称值。另一方面，对于泊松GLM分析，当存在模型指定错误时，感兴趣的参数存在偏差，并且覆盖范围不正确。当正确指定泊松模型时，泊松GLM模型将按预期运行，从而实现最小偏差和正确的覆盖概率。此外，SPGLM实现了最小的偏差，并且在效果规模较小的情况下，效率损失仅为5%左右，这是执行ODS提高效率的最大机会。最大的效率损失约为20%（在较大的效果大小中），但仍能达到正确的覆盖概率。

4.2过分散二项式

接下来，我们的目标是使用过度分散的二项式分布，在另一种情况下研究模型误指定的影响。这组模拟非常重要，因为它允许我们通过改变作为数据生成模型超参数的过度分散量来改变模型的误指定量。这使我们能够描述基于GLM的方法对分布错误指定的敏感程度。具体而言，数据生成如下：

(1)
生成 $论坛$ ⁠.
(2)
计算 $论坛$ ⁠，其中 $论坛$ (⁠ $论坛$ 或0.2和 $论坛$ ⁠).
(3)
生成 $论坛$ ⁠，其中一和b条被选择为 $论坛$ 和 $论坛$ 被选择以给出所需的过度分散量（相对于具有 $论坛$ ⁠)例如， $论坛$ 产量 $论坛$ 过度分散。
(4)
生成 $论坛$ ⁠，其中米和对分别表示试验次数和成功概率。

这会导致二项数据出现过度分散，其中过度分散的量由参数α控制。在图1，我们显示了25%、50%和100%过分散与无过分散的二项式响应相比得到的β二项式分布 $论坛$ ⁠。25%过分散的设置被视为具有“非常小”过分散量的设置。在我们的模拟中，我们将截距项更改为等于−0.6或0.2，以给出“倾斜”或“对称”响应分布。

图1

与生成概率等于的二项式响应相比，不同过分散量（25%、50%和100%）的结果响应分布示例。此图在本文的电子版中以彩色显示，任何提及颜色的地方都指的是该版本

新标签中打开下载幻灯片

与生成概率等于的二项式响应相比，不同过分散量（25%、50%和100%）的响应分布示例 $论坛$ ⁠。此图在本文的电子版中以彩色显示，任何提及颜色的内容均指该版本

对于这些模拟，我们随机生成关于响应的第1阶段数据。在这种情况下，第1阶段数据有100万个观测值；这样，在每个响应级别中都有足够的样本来执行GCC抽样计划。我们执行GCC采样，这样在每个独特的响应级别中，我们预计会有50个样本，导致预期的样本大小为500。对于每种设置，我们都进行了两次分析：一次假设为二项式响应分布（如第4.1节，除了现在 $论坛$ ⁠)另一种方法是我们为SPGLM开发的方法。分析策略是这样的，即我们根据均值模型分析数据

采用相应的分布假设，计算GCC抽样。模拟研究重复了2000次。我们显示了中斜率参数的结果表2。有关截距的结果如表C.2所示，可在在线附录C中找到。总之，SPGLM在所有设置中都实现了近似有效的估计和推断。然而，在GCC抽样下，二项式分析在估计和推理方面都产生了不准确的结果。

表2

研究稳健性的模拟研究结果（仅β₁)，如中所述第4.2节

对称	数据生成模型	分析策略	真刻度	不良事件	环境监理工程师	AESE公司	阴极保护
对称的	二项式	二项式GLM	0.2	0.201	0.0326	0.0327	0.954
		SPGLM公司		0.201	0.0338	0.0341	0.953
	25%过度分散	二项式GLM	0.2	0.230	0.0438	0.0383	0.846
		SPGLM公司		0.204	0.0398	0.0411	0.962
	50%过度分散	二项式GLM	0.2	0.246	0.0579	0.0428	0.733
		SPGLM公司		0.205	0.0489	0.0485	0.946
	100%过度分散	二项式GLM	0.2	0.253	0.0766	0.0495	0.690
		SPGLM公司		0.207	0.0628	0.0634	0.953
倾斜	二项式	二项式GLM	0.2	0.201	0.0326	0.0328	0.954
		SPGLM公司		0.201	0.0341	0.0345	0.953
	25%过度分散	二项式GLM	0.2	0.226	0.0466	0.0387	0.852
		SPGLM公司		0.196	0.0418	0.0413	0.940
	50%过度分散	二项式GLM	0.2	0.241	0.0595	0.0434	0.757
		SPGLM公司		0.197	0.0495	0.0488	0.946
	100%过度分散	二项式GLM	0.2	0.243	0.0806	0.0499	0.722
		SPGLM公司		0.195	0.0649	0.0636	0.945

对称	数据生成模型	分析策略	真刻度	不良事件	环境监理工程师	AESE公司	阴极保护
对称的	二项式	二项式GLM	0.2	0.201	0.0326	0.0327	0.954
		SPGLM公司		0.201	0.0338	0.0341	0.953
	25%过度分散	二项式GLM	0.2	0.230	0.0438	0.0383	0.846
		SPGLM公司		0.204	0.0398	0.0411	0.962
	50%过度分散	二项式GLM	0.2	0.246	0.0579	0.0428	0.733
		SPGLM公司		0.205	0.0489	0.0485	0.946
	100%过度分散	二项式GLM	0.2	0.253	0.0766	0.0495	0.690
		SPGLM公司		0.207	0.0628	0.0634	0.953
倾斜	二项式	二项式GLM	0.2	0.201	0.0326	0.0328	0.954
		SPGLM公司		0.201	0.0341	0.0345	0.953
	25%过度分散	二项式GLM	0.2	0.226	0.0466	0.0387	0.852
		SPGLM公司		0.196	0.0418	0.0413	0.940
	50%过度分散	二项式GLM	0.2	0.241	0.0595	0.0434	0.757
		SPGLM公司		0.197	0.0495	0.0488	0.946
	100%过度分散	二项式GLM	0.2	0.243	0.0806	0.0499	0.722
		SPGLM公司		0.195	0.0649	0.0636	0.945

缩写：AE，平均估计值；ESE，经验标准误差；AESE，平均估计标准误差；CP，覆盖概率，95%置信区间。

新标签中打开

表2

研究稳健性的模拟研究结果（仅β₁)，如中所述第4.2节

对称	数据生成模型	分析策略	真正的calue	不良事件	环境监理工程师	AESE公司	阴极保护
对称的	二项式	二项式GLM	0.2	0.201	0.0326	0.0327	0.954
		SPGLM公司		0.201	0.0338	0.0341	0.953
	25%过度分散	二项式GLM	0.2	0.230	0.0438	0.0383	0.846
		SPGLM公司		0.204	0.0398	0.0411	0.962
	50%过度分散	二项式GLM	0.2	0.246	0.0579	0.0428	0.733
		SPGLM公司		0.205	0.0489	0.0485	0.946
	100%过度分散	二项式GLM	0.2	0.253	0.0766	0.0495	0.690
		SPGLM公司		0.207	0.0628	0.0634	0.953
倾斜	二项式	二项式GLM	0.2	0.201	0.0326	0.0328	0.954
		SPGLM公司		0.201	0.0341	0.0345	0.953
	25%过度分散	二项式GLM	0.2	0.226	0.0466	0.0387	0.852
		SPGLM公司		0.196	0.0418	0.0413	0.940
	50%过度分散	二项式GLM	0.2	0.241	0.0595	0.0434	0.757
		SPGLM公司		0.197	0.0495	0.0488	0.946
	100%过度分散	二项式GLM	0.2	0.243	0.0806	0.0499	0.722
		SPGLM公司		0.195	0.0649	0.0636	0.945

对称	数据生成模型	分析策略	真刻度	不良事件	环境监理工程师	AESE公司	阴极保护
对称的	二项式	二项式GLM	0.2	0.201	0.0326	0.0327	0.954
		SPGLM公司		0.201	0.0338	0.0341	0.953
	25%过度分散	二项式GLM	0.2	0.230	0.0438	0.0383	0.846
		SPGLM公司		0.204	0.0398	0.0411	0.962
	50%过度分散	二项式GLM	0.2	0.246	0.0579	0.0428	0.733
		SPGLM公司		0.205	0.0489	0.0485	0.946
	100%过度分散	二项式GLM	0.2	0.253	0.0766	0.0495	0.690
		SPGLM公司		0.207	0.0628	0.0634	0.953
倾斜	二项式	二项式GLM	0.2	0.201	0.0326	0.0328	0.954
		SPGLM公司		0.201	0.0341	0.0345	0.953
	25%过度分散	二项式GLM	0.2	0.226	0.0466	0.0387	0.852
		SPGLM公司		0.196	0.0418	0.0413	0.940
	50%过度分散	二项式GLM	0.2	0.241	0.0595	0.0434	0.757
		SPGLM公司		0.197	0.0495	0.0488	0.946
	100%过度分散	二项式GLM	0.2	0.243	0.0806	0.0499	0.722
		SPGLM公司		0.195	0.0649	0.0636	0.945

缩写：AE，平均估计值；ESE，经验标准误差；AESE，平均估计标准误差；CP，覆盖概率，95%置信区间。

新标签中打开

值得注意的是，即使SPGLM实现了正确的估计和推断，这些模拟中生成的β二项式数据也不是SPGLM假设模型的成员，如第2.1节尽管如此，SPGLM的灵活性足以捕获分布，从而产生可靠的统计结果。另一方面，与二项式分布的微小偏差会导致使用标准GLM方法进行不准确的分析。

5前瞻性研究

为了测试我们的方法，我们使用来自最古老的旧（AHEAD）研究中的资产和健康动态的数据实施GCC采样(索尔多等。, 1997). AHEAD研究是HRS（健康与退休研究）的一部分，由美国国家老龄研究所（拨款编号NIA U01AG009740）赞助，由密歇根大学进行。AHEAD研究是一项针对70岁及以上人群的国家纵向研究。AHEAD的目标是监测身体、功能和认知健康的转变，并研究晚年健康变化与储蓄和收入模式的关系。AHEAD的研究特别有趣，因为利益敞口，即家庭净值，是通过专家对该主题的深入访谈确定的，这既昂贵又耗时。

出于我们的目的，我们使用了1993年的完整基线数据， $论坛$ ⁠感兴趣的变量包括：受试者报告有困难的日常生活任务中工具性活动的数量（从0到5）、年龄、性别、即时单词回忆（受试者在听他们阅读后立即列出的10个单词中的单词数量）和资产净值的分类值。我们进行了两项独立的分析，一项是回归日常生活中工具性活动的数量（年龄、性别、即时单词回忆和资产净值的分类值），另一项是对即时单词回忆的年龄、性别和资产净值分类值进行回归分析。对于以日常生活中工具性活动的数量为结果的分析，我们使用对数链接函数，对于以即时单词回忆为结果的研究，我们使用11类逻辑链接（即。， $论坛$ ⁠). 选择这些分析是为了反映Rathouz和Gao（2009）EPS下。响应值的分布如所示表3，以及每个级别的建议样本数和相应的采样概率。请注意，对于这些候选设计，我们是过采样水平，与完整数据相比，计数相对较低。

表3

AHEAD研究的响应数据分布和拟议GCC抽样设计

响应值	0	1	2	三	4	5	6	7	8	9	10
工具性日常生活活动数量
计数	4,806	1,043	343	157	64	28	—	—	—	—	—
抽样概率	10%	30%	50%	70%	90%	100%	—	—	—	—	—
预期样本量	481	313	172	110	58	28	—	—	—	—	—
即时单词回忆
计数	154	195	526	1,001	1450年	1,355	954	445	196	105	60
抽样概率	100%	90%	70%	50%	30%	10%	30%	50%	70%	90%	100%
预期样本量	154	176	368	501	435	136	286	223	137	95	60

响应值	0	1	2	三	4	5	6	7	8	9	10
日常生活工具活动数量
计数	4,806	1,043	343	157	64	28	—	—	—	—	—
抽样概率	10%	30%	50%	70%	90%	100%	—	—	—	—	—
预期样本量	481	313	172	110	58	28	—	—	—	—	—
即时单词回忆
计数	154	195	526	1,001	1,450	1,355	954	445	196	105	60
抽样概率	100%	90%	70%	50%	30%	10%	30%	50%	70%	90%	100%
预期样本量	154	176	368	501	435	136	286	223	137	95	60

新标签中打开

表3

AHEAD研究的响应数据分布和拟议GCC抽样设计

响应值	0	1	2	三	4	5	6	7	8	9	10
工具性日常生活活动数量
计数	4,806	1,043	343	157	64	28	—	—	—	—	—
抽样概率	10%	30%	50%	70%	90%	100%	—	—	—	—	—
预期样本量	481	313	172	110	58	28	—	—	—	—	—
即时单词回忆
计数	154	195	526	1,001	1,450	1,355	954	445	196	105	60
抽样概率	100%	90%	70%	50%	30%	10%	30%	50%	70%	90%	100%
预期样本量	154	176	368	501	435	136	286	223	137	95	60

响应值	0	1	2	三	4	5	6	7	8	9	10
日常生活工具活动数量
计数	4,806	1,043	343	157	64	28	—	—	—	—	—
抽样概率	10%	30%	50%	70%	90%	100%	—	—	—	—	—
预期样本量	481	313	172	110	58	28	—	—	—	—	—
即时单词回忆
计数	154	195	526	1001个	1,450	1,355	954	445	196	105	60
抽样概率	100%	90%	70%	50%	30%	10%	30%	50%	70%	90%	100%
预期样本量	154	176	368	501	435	136	286	223	137	95	60

新标签中打开

我们首先使用EPS下的半参数GLM作为金标准来分析完整数据。然后，我们根据中的抽样计划从完整数据中选择一个子样本表3然后，我们使用SPGLM或基于标准GLM的分析来分析采样数据，这两种分析都考虑了适当的采样方案。在对数线性模型（工具性日常生活活动作为结果）中，基于GLM的分析的响应假设为泊松分布。同样，假设二项分布用于相应的分析，并以即时单词回忆为结果。

结果如所示表4和5对于几乎每个系数，SPGLM分析的估计值比等效的基于GLM的分析更接近完整的数据分析；一般来说，基于SPGLM的方法在GCC抽样下对系数进行了有效估计，而在基于GLM的分析下，对感兴趣的系数存在少量偏差。此外，重要的是，GCC采样显著降低了标准误差。例如，在第一次分析中，通过GCC抽样，EPS分析中第一级净值系数的标准误差减少了1.37倍（抽样分数平方根的0.0780/0.134倍）。因此，GCC设计几乎是两倍（1.37²=1.88）与每股收益一样有效；其他回归参数也有类似的结果。在考虑立即单词回忆作为响应的分析中，检查相同的系数，我们发现标准错误减少了1.20倍。由于采样计划和模型不同，效率增益较小；然而，仍有1.45（1.20）的效率增益²). 从完整数据到修正方法的估计值之间的差异可能是由于平均模型规范的问题或(1)在涉及工具性日常生活活动的分析中，唯一明显不同的参数似乎是性别系数，平均模型的形式可能适合年龄、即时单词回忆和净值，但这种形式不适合女性与男性的比较，导致性别系数的结果不太一致。

表4

对AHEAD数据进行GCC采样的研究结果，日常生活的工具活动数量作为响应。下面我们展示了完整数据的估计系数和估计标准误差。我们还显示了基于SPGLM和GLM的分析下的估计系数和估计标准误差，这些分析实施了GCC抽样计划表3

	完整数据(⁠ $论坛$ ⁠)	SPGLM-GCC公司	GLM通用条款
系数	估算（SE）	估算（SE）	估算（SE）
（截距）	−3.606 (0.337)	−3.588 (0.546)	−5.176（0.307）
年龄	0.0496 (0.00389)	0.0492 (0.00634)	0.0620 (0.00359)
性别：女性	0.158 (0.0518)	0.0434 (0.0856)	0.195 (0.0470)
立即。单词回忆	−0.207 (0.0141)	−0.182 (0.0229)	−0.252 (0.0130)
网络带宽：1–24k	−0.256 (0.0780)	−0.263 (0.134)	−0.355 (0.0718)
净流量：25–74k	−0.450 (0.0800)	−0.450 (0.135)	−0.602 (0.0732)
净流量：75–199k	−0.692 (0.0814)	−0.745 (0.135)	−0.871 (0.0741)
净流量：20万+	−0.763（0.0899）	−0.859 (0.152)	−0.936 (0.0816)

	完整数据(⁠ $论坛$ ⁠)	SPGLM-GCC公司	GLM通用条款
系数	估算（SE）	估算（SE）	估算（SE）
（截距）	−3.606 (0.337)	−3.588 (0.546)	−5.176（0.307）
年龄	0.0496 (0.00389)	0.0492 (0.00634)	0.0620 (0.00359)
性别：女性	0.158 (0.0518)	0.0434 (0.0856)	0.195 (0.0470)
立即。单词回忆	−0.207 (0.0141)	−0.182 (0.0229)	−0.252 (0.0130)
网络带宽：1–24k	−0.256 (0.0780)	−0.263 (0.134)	−0.355 (0.0718)
净流量：25–74k	−0.450 (0.0800)	−0.450 (0.135)	−0.602 (0.0732)
净流量：75–199k	−0.692 (0.0814)	−0.745 (0.135)	−0.871 (0.0741)
净流量：20万+	−0.763（0.0899）	−0.859 (0.152)	−0.936 (0.0816)

新标签中打开

表4

对AHEAD数据进行GCC抽样的研究结果，以工具性日常生活活动的数量作为响应。下面我们展示了完整数据的估计系数和估计标准误差。我们还显示了在SPGLM和基于GLM的分析下，根据表3

	完整数据(⁠ $论坛$ ⁠)	SPGLM通用条款	GLM通用条款
系数	估算（SE）	估算（SE）	估算（SE）
（截距）	−3.606 (0.337)	−3.588 (0.546)	−5.176 (0.307)
年龄	0.0496 (0.00389)	0.0492 (0.00634)	0.0620 (0.00359)
性别：女性	0.158 (0.0518)	0.0434 (0.0856)	0.195 (0.0470)
立即。单词回忆	−0.207 (0.0141)	−0.182 (0.0229)	−0.252 (0.0130)
网络带宽：1–24k	−0.256 (0.0780)	−0.263 (0.134)	−0.355 (0.0718)
净流量：25–74k	−0.450 (0.0800)	−0.450 (0.135)	−0.602 (0.0732)
净流量：75–199k	−0.692 (0.0814)	−0.745（0.135）	−0.871 (0.0741)
净流量：20万+	−0.763 (0.0899)	−0.859 (0.152)	−0.936（0.0816）

	完整数据(⁠ $论坛$ ⁠)	SPGLM通用条款	GLM通用条款
系数	估算（SE）	估算（SE）	估算（SE）
（截距）	−3.606 (0.337)	−3.588 (0.546)	−5.176 (0.307)
年龄	0.0496 (0.00389)	0.0492 (0.00634)	0.0620 (0.00359)
性别：女性	0.158 (0.0518)	0.0434 (0.0856)	0.195 (0.0470)
立即。单词回忆	−0.207 (0.0141)	−0.182 (0.0229)	−0.252 (0.0130)
网络带宽：1–24k	−0.256 (0.0780)	−0.263 (0.134)	−0.355 (0.0718)
净流量：25–74k	−0.450 (0.0800)	−0.450 (0.135)	−0.602 (0.0732)
净流量：75–199k	−0.692 (0.0814)	−0.745（0.135）	−0.871 (0.0741)
净流量：20万+	−0.763 (0.0899)	−0.859 (0.152)	−0.936（0.0816）

新标签中打开

表5

对AHEAD数据进行GCC抽样并以即时单词回忆作为响应的研究结果。下面我们展示了完整数据的估计系数和估计标准误差。我们还显示了基于SPGLM和GLM的分析下的估计系数和估计标准误差，这些分析实施了GCC抽样计划表3

	完整数据(⁠ $论坛$ ⁠)	SPGLM通用条款	GLM-GCC公司
系数	估算（SE）	估算（SE）	估算（SE）
（截距）	2.220 (0.134)	2.047 (0.172)	1.403 (0.0972)
年龄	−0.0393 (0.00167)	−0.0372 (0.00217)	−0.0249 (0.00121)
性别：女性	0.215 (0.0188)	0.206 (0.0236)	0.133 (0.0133)
网络带宽：1–24k	0.279 (0.0413)	0.314 (0.0547)	0.188 (0.0308)
净流量：25–74k	0.388 (0.0401)	0.433 (0.0535)	0.259 (0.0298)
净流量：75–199k	0.549 (0.0387)	0.550 (0.0523)	0.357 (0.0288)
净WC：20万+	0.687 (0.0397)	0.673 (0.0533)	0.440 (0.0293)

	完整数据(⁠ $论坛$ ⁠)	SPGLM通用条款	GLM通用条款
系数	估算（SE）	估算（SE）	估算（SE）
（截距）	2.220 (0.134)	2.047（0.172）	1.403 (0.0972)
年龄	−0.0393 (0.00167)	−0.0372 (0.00217)	−0.0249 (0.00121)
性别：女性	0.215 (0.0188)	0.206 (0.0236)	0.133 (0.0133)
网络带宽：1–24k	0.279 (0.0413)	0.314 (0.0547)	0.188 (0.0308)
净流量：25–74k	0.388 (0.0401)	0.433 (0.0535)	0.259 (0.0298)
净流量：75–199k	0.549 (0.0387)	0.550 (0.0523)	0.357 (0.0288)
净流量：20万+	0.687 (0.0397)	0.673 (0.0533)	0.440 (0.0293)

新标签中打开

表5

对AHEAD数据进行GCC抽样并以即时单词回忆作为响应的研究结果。下面我们展示了完整数据的估计系数和估计标准误差。我们还显示了基于SPGLM和GLM的分析下的估计系数和估计标准误差，这些分析实施了GCC抽样计划表3

	完整数据(⁠ $论坛$ ⁠)	SPGLM通用条款	GLM-GCC公司
系数	估算（SE）	估算（SE）	估算（SE）
（截距）	2.220 (0.134)	2.047 (0.172)	1.403 (0.0972)
年龄	−0.0393（0.00167）	−0.0372 (0.00217)	−0.0249 (0.00121)
性别：女性	0.215 (0.0188)	0.206 (0.0236)	0.133 (0.0133)
网络带宽：1–24k	0.279 (0.0413)	0.314 (0.0547)	0.188 (0.0308)
净流量：25–74k	0.388 (0.0401)	0.433 (0.0535)	0.259 (0.0298)
净流量：75–199k	0.549 (0.0387)	0.550 (0.0523)	0.357 (0.0288)
净流量：20万+	0.687 (0.0397)	0.673 (0.0533)	0.440 (0.0293)

	完整数据(⁠ $论坛$ ⁠)	SPGLM通用条款	GLM-GCC公司
系数	估算（SE）	估算（SE）	估算（SE）
（截距）	2.220 (0.134)	2.047（0.172）	1.403 (0.0972)
年龄	−0.0393 (0.00167)	−0.0372 (0.00217)	−0.0249 (0.00121)
性别：女性	0.215 (0.0188)	0.206（0.0236）	0.133 (0.0133)
网络带宽：1–24k	0.279 (0.0413)	0.314 (0.0547)	0.188 (0.0308)
净流量：25–74k	0.388 (0.0401)	0.433 (0.0535)	0.259 (0.0298)
净流量：75–199k	0.549 (0.0387)	0.550 (0.0523)	0.357 (0.0288)
净流量：20万+	0.687 (0.0397)	0.673 (0.0533)	0.440 (0.0293)

新标签中打开

6讨论

AHEAD研究的结果表明，规划和执行GCC研究具有潜在的巨大益处，但正确指定响应分布也很重要。我们提出了一种渐近正确的方法，用于分析各种环境下GCC研究产生的数据。我们在GCC研究中开发了一个一致的估计量，并展示了如何获得每个设计案例的正确标准误差和推论。此外，我们已经表明，标准方法对有关响应分布的假设非常敏感，但我们的方法足够灵活，可以容纳各种可能的响应分布，而标准方法则失败了。这种灵活性使单一分析方法能够涵盖多种可能的响应结构。

既然我们已经建立了一种统一的GCC数据分析方法，未来的工作可以解决如何在给定的环境中为这类研究选择设计。例如，未来的目标是为研究人员提供指导方针和工具，以便在可能的响应值中选择最佳采样概率。此外，我们可能旨在开发使用我们的方法的方法，但通过全似然方法（与本文提出的条件似然方法相反）利用阶段1中的所有数据，以在除了兴趣暴露之外的协变量信息可用时提高兴趣参数估计的效率（例如，罗宾斯等。, 1995;查特吉等。2003年;Weaver和Zhou，2005年;道等。, 2017). 在第1阶段利用剩余数据需要对感兴趣的协变量的分布进行建模，这通常是非参数的。额外的第1阶段数据需要不同的方法，这些方法与这里描述的条件似然方法不能直接比较。将SPGLM扩展到这种设置是有意义的，因为当前的方法假设给定协变量的响应分布是完全参数化的。未来研究的另一个方向是如何利用我们的工作开发工具来检查GCC研究中的建模假设。最后，未来研究的另一个领域可能是扩展SPGLM以考虑其他复杂设计，如多阶段和部分问卷设计(瓦克霍尔德等。, 1994;Whittemore和Halpern，1997年).

我们的框架是病例对照研究的自然延伸，病例对照研究是医学和公共卫生领域最常用的设计之一。使用这种新颖的方法，实践者（尤其是流行病学家和临床研究人员）将在实验设计方面具有更大的灵活性，同时还拥有一种与当前实践中使用的方法具有类似解释的工具。

数据可用性声明

支持本文研究结果的数据可从健康与退休研究数据库获取，网址为(http://hrsonline.isr.umich.edu/index.php？p=avail). 这些数据来源于公共领域的以下可用资源：AHEAD 1993 Core(http://hrsonline.isr.umich.edu/index.php？p=shoavail&iyear=BC).

支持信息

中引用的Web附录和表格第3节和4可在Wiley Online Library上的Biometrics网站上获得这篇论文，还有一个标记文件，其中包含运行中描述的模拟的代码第4.2节。可通过密歇根大学的健康与退休研究下载AHEAD研究的数据。GitHub上提供了建议方法的软件，网址为(https://github.com/jmmaronge/gldrm网站). 该包通过实现第3节中描述的条件似然扩展了CRAN上可用的gldrm包。

致谢

Maronge、Schildcrout和Rathouz的这项工作得到了NIH拨款R01HL094786的支持。马龙也得到了威斯康星大学麦迪逊-莫尔斯奖学金的支持。我们要感谢编辑、副编辑和三位审稿人为改进这项工作提出的有益建议。

参考文献

安德森

，

J.A.公司。

(

1972

)

单独样本逻辑判别

.

生物特征

，

59

，

19

–

35

.

谷歌学者

交叉参考

书目数据库

布雷斯洛

，

东北部。

(

1996

)

流行病学统计：病例对照研究

.

美国统计协会杂志

，

91

，

14

–

28

.

布雷斯洛

，

N。

&

凯恩

，

K.C.公司。

(

1988

)

两阶段病例对照数据的Logistic回归

.

生物特征

，

75

，

11

–

20

.

谷歌学者

交叉参考

书目数据库

布雷斯洛

，

东北部。

&

查特吉

，

N。

(

1999

)

用于Wilms肿瘤预后的二元结果两阶段研究的设计与分析

.

英国皇家统计学会杂志。C系列（应用统计学）

，

48

，

457

–

468

.

谷歌学者

交叉参考

书目数据库

布雷斯洛

，

N。

&

天

，

N。

(

1980

)

癌症研究中的统计方法

.

里昂

:

IARC科学出版物，国际癌症研究机构

.

布雷斯洛

，

东北部。

&

霍卢布科夫

，

R。

(

1997

)

两阶段结果相关抽样下logistic回归参数的最大似然估计

.

英国皇家统计学会杂志：B辑（统计方法）

，

59

，

447

–

461

.

谷歌学者

交叉参考

书目数据库

Broders公司

，

交流。

(

1920

)

唇部鳞状细胞上皮瘤537例分析

.

日本汽车制造商协会

，

74

，

656

–

664

.

谷歌学者

交叉参考

书目数据库

查特吉

，

N。

，

陈

，

Y.-H年。

&

布雷斯洛

，

东北部。

(

2003

)

两阶段抽样回归问题的伪分数估计

.

美国统计协会杂志

，

98

，

158

–

168

.

谷歌学者

交叉参考

书目数据库

康菲尔德

，

J。

(

1951

)

一种根据临床数据估计比较率的方法。应用于肺癌、乳腺癌和宫颈癌

.

JNCI：国家癌症研究所杂志

，

11

，

1269

–

1275

.

谷歌学者

OpenURL占位符文本

书目数据库

数据库间隙P

(

2006

).

基因型和表型数据库/国家生物技术信息中心，国家医学图书馆（NCBI/NLM）

https://www.ncbi.nlm.nih.gov/gap。2021年4月17日访问。

小时

.

健康与退休研究（AHEAD 1993核心）公共使用数据集

. (

1993

)

密歇根大学制作并发行，由国家老龄研究所资助（拨款编号NIA U01AG009740）

.

密歇根州安阿伯

.

黄

，

答：。

&

拉图兹

，

P.J.公司。

(

2017

)

广义线性模型中均值和误差分布的正交性

.

统计学中的传播：理论与方法

，

46

，

3290

–

3296

.

Lane-Claypon车道

，

J.E.公司。

(

1926

)

乳腺癌及其相关前期疾病的进一步报道

.

伦敦

:

H.M.S.O公司

.

无法无天的

，

J.F.公司。

，

卡尔布弗雷希

，

J.D.（医学博士）。

&

野生

，

C.J.公司。

(

1999

)

回归中响应选择性和缺失数据问题的半参数方法

.

英国皇家统计学会杂志。B系列（统计方法）

，

61

，

413

–

438

.

谷歌学者

交叉参考

书目数据库

林

，

H。

，

王

，

M。

，

布罗迪

，

J.A.公司。

，

比斯

，

J.C.公司。

，

杜普伊斯

，

J。

，

勒姆利

，

T。

等(

2014

)

设计和分析靶向测序数据的策略：基因组流行病学（charge）联合体靶向序列研究中心脏和衰老研究的队列

.

循环：心血管遗传学

，

7

，

335

–

343

.

伦巴第

，

H.L.公司。

&

正在执行

，

首席风险官。

(

1928

)

马萨诸塞州癌症研究：癌症患者和非癌症患者的习惯、特征和环境

.

新英格兰医学杂志

，

198

，

481

–

487

.

谷歌学者

交叉参考

书目数据库

麦库拉

，

第页。

(

1983

)

拟似然函数

.

统计年刊

，

11

，

59

–

67

.

谷歌学者

交叉参考

书目数据库

麦库拉

，

第页。

&

内尔德

，

J。

(

1989

)

广义线性模型

，第2版。Chapman和Hall/CRC关于统计学和应用概率系列的专著。

伦敦

:

查普曼和霍尔

.

莫里斯

，

C.N.公司。

(

1982

)

具有二次方差函数的自然指数族

.

统计年鉴

，

10

，

65

–

80

.

谷歌学者

交叉参考

书目数据库

欧文

，

答：。

(

1991

)

线性模型的经验似然

.

统计年刊

，

19

，

1725

–

1747

.

谷歌学者

OpenURL占位符文本

书目数据库

普伦蒂斯

，

相对湿度。

&

派克

，

R。

(

1979

)

Logistic疾病发病模型与病例对照研究

.

生物特征

，

66

，

403

–

411

.

谷歌学者

交叉参考

书目数据库

拉图兹

，

P.J.公司。

&

高

，

L。

(

2009

)

未指定参考分布的广义线性模型

.

生物统计学

，

10

，

205

–

218

.

罗宾斯

，

J.M.公司。

，

罗特尼茨基

，

答：。

&

赵

，

L.P.有限责任公司。

(

1995

)

数据缺失情况下重复结果的半参数回归模型分析

.

美国统计协会杂志

，

90

，

106

–

121

.

谷歌学者

交叉参考

书目数据库

席尔德克劳特

，

J。

，

哈努斯

，

美国。

，

道

，

R。

，

泽尼克

，

左心室。

，

希斯特曼

，

E.F.公司。

，

加贝特

，

S.P.公司。

等(

2019

)

定量纵向结果研究的两阶段广义病例对照设计

.

美国流行病学杂志

，

189

，

81

–

90

.

谷歌学者

交叉参考

书目数据库

斯科特

，

A.J.公司。

&

野生

，

C.J.公司。

(

2011

)

用响应偏差样本拟合回归模型

.

加拿大统计杂志

，

39

，

519

–

536

.

谷歌学者

交叉参考

书目数据库

邵

，

J。

(

2003

)

数学统计学

.

统计中的Springer文本

.

纽约

:

施普林格

.

索尔多

，

B.J.公司。

，

赫德

，

医学博士。

，

罗杰斯

，

W.L.公司。

&

华莱士

，

钢筋混凝土。

(

1997

)

高龄老人的资产和健康动态：前瞻性研究综述

.

老年学杂志：B辑

，

52亿

，

1

–

20

.

谷歌学者

交叉参考

书目数据库

道

，

R。

，

曾

，

D。

&

林

，

D.-Y.公司。

(

2017

)

两阶段抽样下的有效半参数推断及其在遗传关联研究中的应用

.

美国统计协会杂志

，

112

，

1468

–

1476

.

瓦克霍尔德

，

美国。

，

卡罗尔

，

R.J.公司。

，

撒尿

，

D。

&

盖尔

，

M.H.医学博士。

(

1994

)

病例对照研究的部分问卷设计

.

医学统计学

，

13

，

623

–

634

.

织布工

，

文学硕士。

&

周

，

H。

(

2005

)

具有结果相关抽样的连续结果回归模型的估计似然方法

.

美国统计协会杂志

，

100

，

459

–

469

.

谷歌学者

交叉参考

书目数据库

韦德伯恩

，

R.W.M.公司。

(

1974

)

拟似然函数、广义线性模型和Gauss-Newton方法

.

生物特征

，

61

，

439

–

447

.

谷歌学者

OpenURL占位符文本

书目数据库

惠特莫尔

，

美国科学院。

&

哈尔佩恩

，

J。

(

1997

)

遗传流行病学中的多阶段抽样

.

医学统计学

，

16

，

153

–

167

.

Wurm公司

，

医学博士。

&

拉图兹

，

P.J.公司。

(

2018

)

带有gldrm包的半参数广义线性模型

.

R杂志

，

10

，

288

–

307

.

本文根据牛津大学出版社标准期刊出版模式的条款出版和发行(https://academic.oup.com/journals/pages/open_access/funder_policies/chorus/standard_publication_model)

下载所有幻灯片

补充数据

biom13571-sup-0001-SuppMat公司

章节中引用的Web附录和表格三和4可在Wiley Online Library的生物统计学网站上获得本文，以及一个包含运行第节中描述的模拟的代码的标记文件4.2。可通过密歇根大学的健康与退休研究下载AHEAD研究的数据。GitHub上提供了建议方法的软件，网址为(https://github.com/jmmaronge/goldrm). 该包通过实现第节中描述的条件似然扩展了CRAN上可用的gldrm包三.

-pdf文件

biom13571-sup-0002-SupMat-zip文件

biom13571-sup-0003数据代码-zip文件

月份：	总浏览次数：
2024年1月	10
2024年2月	36
2024年3月	34
2024年4月	33
2024年5月	5

文章内容

广义线性模型下的广义病例控制抽样

摘要

1引言

2建模和采样框架

2.1型号

2.2一般病例对照研究

3估算和推断

3.1估算

3.2推断

4模拟

4.1零膨胀截尾泊松

4.2过分散二项式

5前瞻性研究

6讨论

数据可用性声明

支持信息

致谢

参考文献

补充数据

引文

意见

海拔高度

电子邮件警报

电子邮件警报

中的相关文章

通过引用文章

最新的

阅读次数最多

被引用次数最多

文章内容

广义线性模型下的广义病例控制抽样

摘要

1引言

2建模和采样框架

2.1型号

2.2一般病例对照研究

3估算和推断

3.1估算

3.2推断

4模拟

4.1零膨胀截尾泊松

4.2过分散二项式

5前瞻性研究

6讨论

数据可用性声明

支持信息

致谢

参考文献

补充数据

引文

意见

海拔高度

电子邮件警报

电子邮件警报

中的相关文章

通过引用文章

最新的

阅读次数最多

被引用次数最多

此功能仅对订阅服务器可用