生物计量学。作者手稿;PMC 2020年9月1日提供。
以最终编辑形式发布为:
预防性维修识别码:项目经理C6838778
美国国立卫生研究院:NIHMS1057654号
具有信息聚类大小的有序聚类纵向数据的边际分析
,、和
阿亚·米塔尼
美国马萨诸塞州波士顿市波士顿大学公共卫生学院生物统计学系,邮编02118
伊丽莎白·K·凯
美国马萨诸塞州波士顿市波士顿大学亨利·戈德曼牙科医学院健康政策与健康服务研究部,邮编02118
克里·尼尔森(Kerrie P.Nelson)
美国马萨诸塞州波士顿市波士顿大学公共卫生学院生物统计学系,邮编02118
Aya A.Mitani,波士顿大学公共卫生学院生物统计学系,波士顿,马萨诸塞州02118,美国;
- 补充资料
新增。
GUID:344FBF89-643F-4860-B317-1CD219CA7481
总结:
信息簇大小(ICS)问题经常出现在牙科数据分析中。ICS描述了一种情况,感兴趣的结果与集群大小相关。在具有潜在ICS的纵向研究中,对边际推理建模的大部分工作都集中在持续结果上。然而,牙周疾病的结果,包括临床附着丧失,通常使用顺序评分系统进行评估。此外,由于病情恶化,参与者可能在研究过程中失去牙齿。在此,我们开发了纵向聚类加权广义估计方程(CWGEE),以模拟有序聚类纵向结果与参与者水平的健康相关协变量(包括代谢综合征和吸烟状态)的关联,以及因牙齿缺失而可能减小的聚类大小,通过拟合比例优势逻辑回归模型。使用两阶段拟最小二乘法估计随时间变化的齿内相关系数。我们工作的动机来自退伍军人事务部牙科纵向研究,参与者定期接受一般和口腔健康检查。在一项广泛的模拟研究中,我们将从具有各种工作相关结构的CWGEE获得的结果与从不考虑ICS的传统GEE获得结果进行了比较。与传统的广义估计方程方法相比,我们提出的方法具有非常低的偏差和良好的覆盖概率。
关键词:聚类数据、广义估计方程、信息聚类大小、纵向数据、有序结果、准最小二乘
1 介绍
使用广义估计方程(GEE)估计具有边际解释的参数在纵向研究中很常见(Liang和Zeger,1986年). 在一个观察单位内,随着时间的推移重复测量值是相关的,GEE通过使用工作相关矩阵和三明治方差估计来解释时间相关性。在一些纵向研究中,一个单元可以属于一个单元簇,并且可以存在多个簇。在这种情况下,存在两种不同的相关性:同一集群内单元之间的相关性和同一单元上时间观测值之间的相关性。
在用GEE拟合边际模型时,一个假设是集群规模和相关结果之间的独立性。在牙周病研究的数据中,这种假设经常被违背。牙周病的一个后果是牙齿脱落。牙齿脱落的概率随着疾病的严重程度而增加,导致更容易患牙周病的参与者的牙齿减少(簇大小较小)(结果)。这种现象被称为信息集群大小(ICS),其结果与集群大小有关。如果该研究的目的是描述协变量对随机选择参与者的典型牙齿测量结果的人群平均影响,那么常规GEE将加重健康牙齿的重量,并产生偏差参数估计值(Williamson等人,2003年).
我们的动机来自退伍军人事务部牙科纵向研究(VADLS)(Kapur等人,1972年). 研究人员反复收集参与者的牙周病程度和健康结果,以及每个参与者的牙齿级别牙周病结果。临床附着丧失(CAL)是牙周病的结果之一。CAL是牙齿牙骨质-牙釉质结合处与牙龈开始分离的牙根点之间的距离,使用四类有序评分系统进行记录(0:<2mm,1:2-2.9mm,2:3-4.9mm,3:≥5mm)。得分越高,表明牙龈和牙根之间的距离越大,被认为是牙周病预后越差。我们有兴趣研究参与者水平协变量(如代谢综合征和吸烟)对依次的随着时间的推移,CAL得分记录在牙齿水平(Kaye等人,2016). 这里,每个牙齿(单元)属于一个参与者(集群),并获得每个牙齿的时间测量值。数据可能有ICS,因为CAL总得分高的参与者在基线时牙齿往往较少。
ICS在其他医疗环境中经常被观察到。例如,在一项重复妊娠研究中,经历过不良妊娠结局的女性可能会较少再次怀孕(Chaurasia等人,2018年). 声誉良好的医院或外科医生可能会接诊高风险患者或更困难的病例,从而导致更不利的结果,如术后并发症(Panageas等人,2007年). 最后,在一项心理学研究中,参与者抑郁发作的频率也可能与每个事件的严重程度有关(Iosif和Sampson,2014年).
一些作者开发了ICS的解释方法。簇内重采样(WCR)由Hoffman等人(2001年)作为一种方法,在集群规模信息丰富的横断面研究中获得具有边际解释的参数估计。WCR涉及从每个集群(参与者)中抽取一个单元(牙齿)问更换次数(问很大),生产问数据集,其中每个数据集包含每个簇一个随机选择的观测值。由于观测值现在在每个数据集中是独立的,我们可以将广义线性模型(GLM)拟合到每个数据集,以描述预测因素和结果之间的关系。最后的WCR估计值是通过取问从每个问数据集。WCR简单直观,但计算密集,不适用于顺序结果。这是因为无法保证所有结果类别都会在每个问采样数据集。
对于ICS的横截面数据,Williamson等人(2003年)提出了聚类加权GEE(CWGEE)作为WCR的替代方法。CWGEE涉及在估计过程中使用GEE得分函数的加权平均值,其中权重是聚类大小的倒数。CWGEE与WCR渐近等价,但计算效率更高。此外,与WCR不同,CWGEE可以应用于顺序结果,而没有任何可预见的问题。
在这里,我们感兴趣的是对协变量和纵向经验随机选择的参与者的典型牙齿。Wang等人(2011)将Williamson等人的CWGEE扩展到连续结果的纵向设置,假设随着时间的推移集群规模不变,所有参与者的访问次数相同。纵向CWGEE方法还使用两阶段拟最小二乘(QLS)方法估计了随时间变化的齿内相关性(查甘蒂,1997年). 然而,在牙周病的纵向研究中,假设随着时间的推移集群大小不变是不现实的,因为参与者(尤其是那些容易患牙周病者)很可能会随着时间的流逝失去一颗或多颗牙齿。事实上,在VADLS中,几乎一半的参与者在随访期间至少失去了一颗牙。Bible等人(2016)进一步扩展了CWGEE,通过在GEE评分函数中包含另一组权重来解决这个问题,以实现连续结果。额外的权重集是每个簇中每个单元的时间观测值的倒数。请注意,在牙周病环境中,牙簇大小只能随着时间的推移而减小,因为成人牙齿缺失是永久性的。
虽然我们的论文主要关注边际模型,但混合效应模型也受到了ICS的影响,一些作者已经开发出了补救方法。其中之一是联合建模结果和给定随机效应和协变量的集群大小分布(Dunson等人,2003年).Seaman等人(2014)有一篇关于使用ICS处理集群数据的方法的全面综述文章,有一篇文章比较了联合模型方法和使用ICS进行数据的WCR之间的性能,可通过Zhang等人(2017).
当在ICS存在的情况下,对纵向聚类有序结果和协方差之间的边际关联建模时,会出现其他挑战。将GEE方法应用于有序数据时,有序响应被转换为二进制指示符向量(Lipsitz等人,1994年). 二元指标向量的边际分布是多项式,需要对二元指标之间的均值和方差矩阵进行建模。此外,为了提高GEE的效率,需要估计重复测量中每个二进制指标内的关联参数。Nooraee等人(2014)有一篇关于GEE纵向顺序数据的综合评论文章,并比较现有软件包的相对性能。然而,这些都不是为ICS提供数据而设计的。
在本文中,我们关注的是聚类纵向数据,当感兴趣的结果是有序类别变量时,聚类大小可能会减小,即受信息聚类大小的影响。特别是,我们进一步发展了Bible等人(2016)在比例优势逻辑回归模型框架下,以适应顺序结果,并使用以下方法Parsons等人(2006)构建重复响应之间的相关矩阵。在第2节,我们更详细地描述了我们提出的CWGEE方法。大量仿真研究结果见第3节.英寸第4节,我们将我们的方法和传统GEE应用于VADLS数据。最后,本文以讨论结束第5节.
2 方法
2.1. QLS施工
考虑一个纵向集群数据集,其中的单元被分组为集群,每个单元提供唯一长度的重复观测。让Y(Y)ijk公司是对k个第次访问j个来自的第个单位我第个集群,其中k个= 1, …,吨ij公司,j个= 1, …,n个我和我= 1, …,N个.让x个ijk公司成为第页×1的协变向量Y(Y)ijk公司.回应Y(Y)ijk公司是序数分数C>2类。我们的目标是拟合比例优势logistic回归模型,以描述协变量和顺序响应之间的关系:
顺序响应之间的相关性将纳入工作相关矩阵。对于比例优势模型C类别可以转换为C−1个二进制响应,以便U型国际jkc=1,如果Y(Y)ijk公司≤c(c)和U型国际jkc=0,如果Y(Y)ijk公司>c(c),用于c(c)= 1, …,C− 1. 对于每个k个第次访问j个来自的第个单位我我们有一个响应向量长度的C− 1. 然后,方程式(1)可以重新表示为每个C−1个二进制响应(Kenward等人,1994年):
让μ国际jkc=E(U型国际jkc)=优先级(Y(Y)ijk公司≤c(c)). 使用矩阵表示法,我们将j个来自的第个单位我第个簇作为。同样,让μij公司=E(U型ij公司),其中和。的协变量j个来自的第个单位我簇表示为X(X)0ij公司= (x个ij公司1…,x个ijti公司)′. 完整的数据矩阵需要包括响应向量和协变量的切点。让1tij公司和1C−1是长度为1的向量吨ij公司和C分别为-1,并让我C−1是维数的单位矩阵C− 1. 完整的数据矩阵j个第个单元我第个簇是X(X)ij公司= (1钛⊗我C−1,X(X)0ij公司⊗1C−1),其中⊗表示Kronecker产品(Parsons等人,2006年). 最后,让我们β= (η1…,ηC−1,β1…,β第页)成为(C− 1 +第页)×1系数向量。让V(V)ij公司是包含元素方差的对角矩阵U型ij公司,其中var(U型国际jkc) =μ国际jkc(1−μ伊拉克石油天然气公司)然后让R(右)ij公司是相关性矩阵,假设它是α,在的元素之间U型ij公司最后,让我们.我们现在用两种类型的权重构造误差的广义平方和;簇权重(1/n个ij公司)这与每个参与者基线时的集群大小相反我和时间权重(1/t吨ij公司)这与j个的第个齿我第个参与者(Wang等人,2011年;Bible等人,2016年):
2.2. R的规格ij公司
我们指定R(右)ij公司使用与相同的方法Parsons等人(2006).矩阵R(右)ij公司包含中每对元素之间的相关性U型ij公司.我们让R(右)ij公司=C(α) ⊗S公司,其中(吨ij公司− 1) × (吨ij公司−1)矩阵C(α)包含访问和(C− 1) × (C−1)矩阵S公司包含每次访问中二进制响应之间的相关性,以便
在比例优势逻辑回归模型中和对于c(c)1<c(c)2由提供(Kenward等人,1994年). 一阶自回归(AR1)结构是建模纵向数据访问之间相关性的常用方法。如果d日锰=|米−n个|,然后C(α)具有AR1结构,如果所有d日锰=1,则C(α)具有可交换结构。
2.3. β和α的估计
求的偏导数问W公司(α,β)关于β并将其设置为0,我们得到CWGEE得分函数:
哪里D类ij公司=∂μij公司/∂β和.使用正确的规格R(右)ij公司,这种边缘化具有从典型集群描述典型单元的典型纵向经验的解释(Bible等人,2016年). 集群内单元之间的相关性由中的集群级别权重来说明方程式(4)。我们仍然需要对单位内访问之间的相关性结构进行建模,以提高β估计。
估算程序α有两部分。类似于β,第一阶段的估算方程α通过对问W公司(α,β)关于α并将其设置为0:
的第一阶段估计α然而,它是渐近有偏的(Chaganty和Shults,1999年). 因此α通过求解以下方程获得α:
哪里是解决方程式(5).估计值β和α通过为选择起始值来获得β(通常是通过假设观测值之间的独立性来拟合GLM)和迭代方程式(4),(5)和(6)直到达到收敛。
2.4. AR1工作关联结构
如果我们选择AR1结构用于C(α),然后方程式(5)有一个封闭的解决方案。的第一阶段估计α可通过以下公式求解:
哪里和.的第二阶段估计器α通过求解给出方程式(6)减少到:
推导的详细信息方程式(7)和(8)显示在附录和补充材料分别是。
2.5. 可交换工作关联结构
如果我们选择可交换结构α减少到
哪里和。的解决方案α0可以通过寻根算法获得。第二阶段估计α由提供
三。 模拟研究
3.1. 用信息聚类大小模拟纵向聚类有序数据
为了模拟具有连续结果的纵向集群数据,Bible等人(2016)使用了一个线性混合效应模型,其中包含随机参与者水平效应和随机牙齿水平效应。为了诱导ICS,他们让每个参与者的集群大小是随机参与者水平效应的函数。然而,与线性设置不同,在有序结果的情况下,通过拟合广义线性混合模型估计的集群特定参数估计和使用GEE估计的边际(或总体平均)参数估计不相同(Fitzmaurice等人,2011年). 为了克服这个问题,桥梁分布(Wang和Louis,2003年)用于在拟合以下形式的随机截距logistic回归模型时获得成功的边际概率:
哪里b条我遵循密度的桥接分布, −∞ <b条我< ∞, 0 <ϕ< 1. 在方程式(12),β根据需要,具有边际解释。
我们扩展了下面描述的方法Parzen等人(2011年)它使用桥接分布的高斯copula来模拟时间相关的聚集有序数据,Y(Y)ijk公司.我们使用了带参数的可交换相关结构τ生成牙齿之间的相关性,并使用带参数的AR1相关结构α随着时间的推移在牙齿内生成相关性。对于每个参与者我,我们计算了基线风险λ我作为参与者特定随机效应集的函数b条我,遵循桥梁分布。每位参与者的牙齿数量(n个我)由大小为28和概率的二项分布生成λ我。我们还改变了对每个牙齿进行时间观察的次数j个每个参与者的我从2到5。以下Bible等人(2016),每个牙齿的概率j个的观察次数由n个我。有关如何模拟数据的详细描述,请参见补充材料.
模拟研究的序贯结果是C=4个类别。协变量包括参与者级二进制暴露指标(x个我)上半场(N个/2) 有接触的参与者的访问次数(访问ijk公司)以及接触和访问之间的相互作用。对于j个的第个齿我第个参与者k个第次访问时,我们的模拟模型具有以下形式:
参数的真实值为:(η1−η三,β1−β三) = (1, 2, 3, −0.5, 0.1, 0.5).
我们为每个场景模拟了1000个数据集。我们从小到大改变了参与者的数量(N个= 20, 100, 500). 每位参与者的最大牙齿数(米)设定为28颗(不包括第三磨牙在内的成人最大牙齿总数)。我们还改变了牙齿之间的相关性水平(τ)以及在牙齿内就诊之间(α)从无到高(无:τ= 0,α=0;低:τ= 0.25,α= 0.4; 介质:τ= 0.5,α=0.6,高:τ= 0.75,α= 0.8). 对于每个模拟数据集,我们应用了具有独立(Ind)、AR1和可交换(Exch)工作相关结构的CWGEE。我们还应用了两个现有R包的GEE函数奥尔吉中的函数极客(Hojsgaard等人,2006年)使用独立工作相关结构(ORDGEE-Ind),以及奥尔德洛吉中的函数骡子(图卢米斯,2015)也使用独立工作相关结构(MULTGEE Ind)。
对于每个模拟场景和方法,我们计算了平均估计值、平均稳健标准误差(SE)、1000个参数估计值的标准差(SD)(也称为经验SE)、平均相对偏差以及每个参数估计值95%置信区间的覆盖概率方程式(13)通过计算1000个参数估计值与各自真实值之间的相对差值,得出相对偏差。通过计算1000个参数估计值中每一个的95%置信区间包含各自真值的百分比,获得覆盖概率。
3.2. 仿真结果:ICS
具有小样本和中等样本的信息性集群大小的模拟场景的结果(N个=20,100),相关性中等(τ= 0.5,α=0.6)如所示.大样本的结果(N个=500)表示为补充材料表1三种CWGEE方法的平均估计值、平均SE和SD均相似。每种方法中平均SE和SD之间的差异随着样本量的增加而减小。一般来说,无论样本大小如何,CWGEE方法的平均SE略大于MULTGEE Ind的平均SE。ORDGEE Ind遇到收敛问题。当样本量较小时,1000个模拟中只有444个收敛(N个= 20). 当我们将Fisher-scoring算法的收敛标准从默认值0.0001放宽到0.01时,收敛速度没有提高。对于中等和大样本量的方法,以及使用任何样本量的其他方法,收敛性都不是问题。与其他方法相比,ORDGEE Ind参数估计的平均SE和SD始终较大。
表1
集群大小信息丰富时的模拟结果(N个= 20, 100,τ= 0.5,α= 0.6)
| | | MULTGEE公司 | 订单 | CWGEE公司 |
---|
参数 | 真相 | 结果 | 印度 | 印度 | 印度 | AR1公司 | 交易所 |
---|
N个= 20 |
---|
η1 | 1 | 估计平均值 | 1.688 | 1.700 | 1.069 | 1.067 | 1.059 |
| | 平均SE | 0.569 | 0.891 | 0.627 | 0.625 | 0.621 |
| | SD估算 | 0.613 | 1.340 | 0.739 | 0.736 | 0.726 |
| | 相对偏差(%) | 68.8 | 70 | 6.9 | 6.7 | 5.9 |
| | Cov Prob(%) | 75.4 | 77.5 | 88.1 | 87.8 | 88.7 |
η2 | 2 | 估计平均值 | 2.983 | 2.942 | 2.223 | 2.222 | 2.214 |
| | 平均SE | 0.610 | 0.915 | 0.683 | 0.681 | 0.679 |
| | SD估算 | 0.666 | 1.370 | 0.834 | 0.832 | 0.826 |
| | 相对偏差(%) | 49.2 | 47.1 | 11.1 | 11.1 | 10.7 |
| | 新冠病毒问题(%) | 62.1 | 73.4 | 85.9 | 85.2 | 86.8 |
η三 | 三 | 估计平均值 | 4.406 | 4.199 | 3.608 | 3.608 | 3.604 |
| | 平均SE | 0.735 | 0.968 | 0.815 | 0.814 | 0.812 |
| | SD估计值 | 0.820 | 1.388 | 1.140 | 1.138 | 1.136 |
| | 相对偏差(%) | 46.9 | 40 | 20.3 | 20.3 | 20.1 |
| | Cov Prob(%) | 53 | 70.3 | 78.5 | 78.1 | 79 |
β1 | −0.5 | 估计平均值 | −0.693 | −0.492 | −0.593 | −0.585 | −0.588 |
| | 平均SE | 0.863 | 1.443 | 0.950 | 0.950 | 0.944 |
| | SD估算 | 0.952 | 5.162 | 1.113 | 1.113 | 1.100 |
| | 相对偏差(%) | 38.6 | −1.6 | 18.6 | 17 | 17.6 |
| | Cov Prob(%) | 90.5 | 77.4 | 89.9 | 89.9 | 90.5 |
β2 | 0.1 | 估计平均值 | 0.155 | 0.245 | 0.114 | 0.116 | 0.120 |
| | 平均SE | 0.196 | 0.377 | 0.225 | 0.226 | 0.221 |
| | SD估算 | 0.218 | 0.611 | 0.293 | 0.291 | 0.284 |
| | 相对偏差(%) | 55.1 | 145.2 | 13.6 | 15.7 | 20.5 |
| | Cov Prob(%) | 89.5 | 76.4 | 84.6 | 85.1 | 84.8 |
β三 | 0.5 | 估计平均值 | 0.710 | 0.892 | 0.633 | 0.629 | 0.630 |
| | 平均SE | 0.371 | 0.655 | 0.412 | 0.418 | 0.414 |
| | SD估算 | 0.431 | 1.994 | 0.558 | 0.565 | 0.556 |
| | 相对偏差(%) | 42 | 78.4 | 26.6 | 25.9 | 26 |
| | Cov Prob(%) | 86.9 | 73.1 | 84.4 | 85.1 | 85.7 |
收敛率(%) | | 100 | 44.4 | 100 | 100 | 100 |
N个= 100 |
---|
η1 | 1 | 估计平均值 | 1.742 | 1.662 | 1.044 | 1.035 | 1.033 |
| | 平均SE | 0.272 | 0.506 | 0.316 | 0.309 | 0.304 |
| | SD估算 | 0.275 | 0.592 | 0.330 | 0.323 | 0.317 |
| | 相对偏差(%) | 74.2 | 66.2 | 4.4 | 3.5 | 3.3 |
| | Cov Prob(%) | 23.6 | 70.5 | 92.9 | 93.2 | 93.1 |
η2 | 2 | 估计平均值 | 2.998 | 2.919 | 2.066 | 2.057 | 2.056 |
| | 平均SE | 0.293 | 0.515 | 0.3.05 | 0.345 | 0.341 |
| | SD估算 | 0.296 | 0.600 | 0.369 | 0.363 | 0.360 |
| | 相对偏差(%) | 49.9 | 46 | 3.3 | 2.9 | 2.8 |
| | Cov Prob(%) | 8.5 | 56.1 | 92.3 | 92.8 | 92.7 |
η三 | 三 | 估计平均值 | 4.318 | 4.245 | 3.127 | 3.121 | 3.121 |
| | 平均SE | 0.344 | 0.544 | 0.431 | 0.428 | 0.427 |
| | SD估算 | 0.350 | 0.623 | 0.475 | 0.471 | 0.472 |
| | 相对偏差(%) | 43.9 | 41.5 | 4.2 | 4 | 4 |
| | Cov Prob(%) | 2.6 | 37.9 | 90.2 | 90.3 | 90.3 |
β1 | −0.5 | 估计平均值 | −0.723 | −0.844 | −0.517 | −0.513 | −0.517 |
| | 平均SE | 0.412 | 0.905 | 0.476 | 0.465 | 0.460 |
| | SD估算 | 0.418 | 1.034 | 0.502 | 0.483 | 0.478 |
| | 相对偏差(%) | 44.6 | 68.7 | 3.4 | 2.6 | 3.5 |
| | Cov Prob(%) | 91 | 89.1 | 93.6 | 93.9 | 94.1 |
β2 | 0.1 | 估计平均值 | 0.136 | 0.200 | 0.082 | 0.088 | 0.09 |
| | 平均SE | 0.096 | 0.235 | 0.120 | 0.116 | 0.112 |
| | SD估算 | 0.097 | 0.281 | 0.129 | 0.125 | 0.120 |
| | 相对偏差(%) | 35.7 | 100.2 | −18.3 | −12.5 | −10.2 |
| | 新冠病毒问题(%) | 92.8 | 90.5 | 92 | 92.9 | 92.5 |
β三 | 0.5 | 估计平均值 | 0.689 | 0.819 | 0.525 | 0.523 | 0.525 |
| | 平均SE | 0.180 | 0.531 | 0.216 | 0.214 | 0.209 |
| | SD估算 | 0.184 | 0.668 | 0.234 | 0.225 | 0.220 |
| | 相对偏差(%) | 37.9 | 63.7 | 5 | 4.6 | 5.1 |
| | Cov Prob(%) | 82.7 | 88.1 | 92.2 | 93.8 | 93.1 |
收敛速度(%) | | 100 | 98 | 100 | 100 | 100 |
在,我们描述了样本大小和相关性水平如何影响覆盖概率和绝对相对偏差。纵轴表示覆盖概率,水平虚线表示95%,水平轴表示相关性增加。气泡的大小与绝对相对偏差(%)成正比。理想的气泡尺寸较小,位于95%线附近。因为所有CWGEE方法的执行都类似,所以我们只显示CWGEE AR1的结果。总的来说,在所有样本大小和相关水平上,与MULTGEE Ind(白色)和ORDGEE Ind(灰色)的参数估计值相比,CWGEE AR1(黑色)的参数估算值偏差最小,覆盖概率更好。在三个截止参数中观察到两种方法之间偏差和覆盖概率的最大差异(η1–η三). 对于一些参数估计(η2,η三,β三)CWGEE AR1的覆盖概率较低,特别是当样本量较小时,但仍优于其他两种方法。
模拟研究中MULTGEE Ind、ORDGEE Ind、CWGEE AR1三个模型(提出的方法)的样本量和相关性的所有参数的覆盖概率和绝对相对偏差。相关性(τ是牙齿和α是牙齿内随时间变化的相关参数):无(τ= 0,α= 0); 低(τ= 0.25,α= 0.4); 医学(τ= 0.5,α= 0.6); 高(τ= 0.75,α=0.8)。参数:η1−η三,β1−β三.
3.3. 模拟结果:无ICS
为了评估CWGEE在集群大小不具信息性(即结果与集群大小无关)的情况下对有序结果的表现,我们模拟了有序数据,其中每个参与者的牙齿数量是从大小为28且概率为0.75的二项式分布中随机生成的。中等样本量场景的结果(N个=100),相关性中等(τ= 0.5,α=0.6)如所示.
表2
集群大小不具信息性时的模拟结果(N个= 100,τ= 0.5,α= 0.6)
| | | MULTGEE公司 | 订单 | 水蒸汽轮机 |
---|
参数 | 真相 | 结果 | 印度 | 印度 | 印度 | AR1公司 | 交易所 |
---|
η1 | 1 | 估计平均值 | 0.990 | 0.990 | 0.990 | 0.990 | 0.990 |
| | 平均SE | 0.240 | 0.310 | 0.240 | 0.240 | 0.240 |
| | SD估算 | 0.240 | 0.370 | 0.240 | 0.250 | 0.240 |
| | 相对偏差(%) | −1.1 | −1.4 | −0.9 | −0.8 | −0.9 |
| | Cov Prob(%) | 94.8 | 87.4 | 94.4 | 94.1 | 94.5 |
η2 | 2 | 估计平均值 | 2 | 2 | 2 | 2 | 2 |
| | 平均SE | 0.260 | 0.320 | 0.260 | 0.260 | 0.260 |
| | SD估算 | 0.270 | 0.390 | 0.270 | 0.270 | 0.270 |
| | 相对偏差(%) | 0 | −0.1 | 0.1 | 0.1 | 0.1 |
| | Cov Prob(%) | 93.6 | 87.3 | 93.3 | 93.4 | 93.7 |
η三 | 三 | 估计平均值 | 3.020 | 3.020 | 3.020 | 3.020 | 3.020 |
| | 平均SE | 0.310 | 0.350 | 0.310 | 0.310 | 0.310 |
| | SD估算 | 0.320 | 0.430 | 0.320 | 0.330 | 0.320 |
| | 相对偏差(%) | 0.6 | 0.7 | 0.6 | 0.7 | 0.6 |
| | Cov Prob(%) | 93 | 88.2 | 92.7 | 92.4 | 92.5 |
β1 | −0.5 | 估计平均值 | −0.490 | −0.510 | −0.490 | −0.490 | −0.490 |
| | 平均SE | 0.350 | 0.510 | 0.350 | 0.350 | 0.350 |
| | SD估算 | 0.350 | 0.630 | 0.350 | 0.350 | 0.350 |
| | 相对偏差(%) | −1.2 | 1 | −1.2 | −1.0 | −1.0 |
| | Cov Prob(%) | 94.7 | 88 | 94.2 | 93.9 | 94.3 |
β2 | 0.1 | 估计平均值 | 0.110 | 0.120 | 0.110 | 0.110 | 0.110 |
| | 平均SE | 0.070 | 0.110 | 0.070 | 0.070 | 0.070 |
| | SD估算 | 0.080 | 0.140 | 0.080 | 0.080 | 0.080 |
| | 相对偏差(%) | 8.7 | 18.1 | 8.5 | 7.8 | 8.3 |
| | Cov Prob(%) | 92.7 | 88.3 | 92.6 | 92.5 | 92.7 |
β三 | 0.5 | 估计平均值 | 0.500 | 0.520 | 0.500 | 0.500 | 0.500 |
| | 平均SE | 0.130 | 0.220 | 0.130 | 0.130 | 0.130 |
| | SD估算 | 0.140 | 0.280 | 0.140 | 0.140 | 0.140 |
| | 相对偏差(%) | 0.2 | 4.9 | 0.1 | 0.3 | 0.3 |
| | Cov Prob(%) | 92 | 88.5 | 92.2 | 92.2 | 92.9 |
收敛速度(%) | | 100 | 100 | 100 | 100 | 100 |
CWGEE的模拟结果在所有三种工作相关矩阵结构(Ind、AR1、Exch)中都极为相似。CWGEE Ind的结果与MULTGEE Ind.的结果几乎相同。总的来说,所有方法的相对偏差都很低,覆盖率接近95%。重要的是,在没有ICS的情况下,CWGEE方法与非加权GEE方法表现得相当好。我们观察到两种非加权方法之间存在一些差异,特别是在平均SE中。一般来说,ORDGEE Ind的SE在所有参数上都大于MULTGEE Ind。截止估计的相对偏差和覆盖概率在两种方法之间是可比较的,但β2和β三ORDGEE Ind估计值高于MULTGEE Ind估计的值。所有预测因子的覆盖概率(β1–β三)ORDGEE Ind的估算值低于MULTGEE Ind的估计值。
4 退伍军人事务部牙科纵向研究(VADLS)
VADLS于1969年启动,作为标准老化研究的延伸(Kapur等人,1972年). 每个参与者的健康状况大约每三年测量一次。这些参与者的基线医疗和牙科检查发生在1981年至2011年之间。我们限制对所有现有牙齿有完整CAL记录的参与者进行分析。我们分析的参与者总数为456人,共有9622颗牙齿。在研究过程中,245名参与者至少掉了一颗牙,总共965颗牙。
依次的CAL评分分为四类(0-3),评分越高,牙周疾病的预后越差。基线牙齿数和每位参与者的平均CAL得分之间的关系显示在。基线检查时牙齿数量越多的受试者平均基线CAL越低,反之亦然。皮尔逊相关系数(95%CI)为-0.374(-0.450,-0.292)。基线牙齿数和每位参与者的平均CAL得分之间存在着中等程度的间接关联,表明该数据集中存在ICS。由于结果CAL分数与集群大小有关,因此使用CWGEE来解释ICS是合适的。在右侧面板中我们发现,随着基线牙齿数量的增加,对每个参与者进行的最大时间观察次数也会增加。与那些牙齿较多的受试者相比,基线牙齿数较少的受试人员失去现有牙齿的速度更快。这种关系证实了基于每个参与者对每个牙齿进行的时间观察次数的第二组权重的使用。
左面板:退伍军人事务部纵向牙科研究每位参与者基线检查时牙齿数量与平均临床附着丧失(CAL)得分(0:<2mm,1:2-2.9mm,2:3-4.9mm,3:≥5mm)之间的关系(N个= 456). 右侧面板:基线检查时的牙齿数量和每个参与者牙齿上进行的最大时间观察次数之间的关系。
我们将CAL评分作为一个序数变量与就诊次数、基线年龄、吸烟状态(是/否)、代谢综合征(MetS)状态(是或否)的关系建模,如国家胆固醇教育计划成人治疗小组III标准所定义(Kaye等人,2016年)、教育水平(大学学历或更高/无)以及访问与上述每个协变量之间的相互作用:
哪里c(c)=0,1,2,并且所建模的概率是在较低(健康)分数上累积的。分析结果见根据模拟研究的预期第3节,三个CWGEE(Ind、AR1、Exch)的结果相似。在CWGEE Ind中,访视和吸烟之间的相互作用在0.05的显著性水平上具有统计学意义(第页=0.034),CWGEE AR1(第页=0.023)和CWGEE Exch(第页=0.008)但不在MULTGEE Ind中(第页=0.123)和ORDGEE Ind(第页= 0.279). 基于模拟研究和数据结构,我们认为最适合解释CWGEE AR1的结果。在其他变量不变的情况下,吸烟者和非吸烟者在每次连续就诊中CAL评分较健康的比值比分别为0.951和1.088,这表明吸烟者与非吸烟人相比,随着时间的推移,牙周疾病的预后更差。
表3
VA牙科纵向研究的分析结果显示了系数估计值(SE),N个= 456
| MULTGEE公司 | 订单 | 水蒸汽轮机 |
---|
变量 | 印度 | 印度 | 印度 | AR1公司 | 交易所 |
---|
国际1 | 1.949 (0.528) | 1.908 (0.700) | 2.038 (0.688) | 2.022 (0.703) | 1.922 (0.665) |
国际2 | 3.139 (0.530) | 3.099 (0.701) | 3.169 (0.692) | 3.142 (0.708) | 3.046 (0.670) |
国际3 | 4.082 (0.533) | 4.053(0.705) | 4.052 (0.695) | 4.014 (0.713) | 3.918 (0.675) |
访问 | 0.109 (0.179) | 0.073 (0.224) | 0.080 (0.189) | 0.084 (0.185) | 0.106 (0.162) |
年龄 | −0.030 (0.009) | −0.030 (0.011) | −0.035 (0.011) | −0.034 (0.011) | −0.032(0.011) |
吸烟 | 0.033 (0.221) | 0.022 (0.293) | −0.012 (0.232) | 0.023 (0.228) | 0.085 (0.218) |
已见人数 | −0.274 (0.122) | −0.251 (0.161) | −0.343 (0.150) | −0.314 (0.143) | −0.311 (0.138) |
教育类 | 0.420(0.134) | 0.505 (0.159) | 0.389 (0.178) | 0.373 (0.180) | 0.366 (0.170) |
就诊×年龄 | −0.004 (0.003) | −0.004 (0.004) | −0.004 (0.003) | −0.004 (0.003) | −0.005 (0.003) |
就诊×吸烟 | −0.147 (0.095) | −0.138(0.128) | −0.152 (0.083) | −0.157 (0.079) | −0.175 (0.074) |
访问×MetS | 0.053 (0.038) | 0.047 (0.052) | 0.069 (0.041) | 0.063 (0.038) | 0.062 (0.035) |
访问×教育 | 0.008 (0.042) | 0.017 (0.057) | 0.035(0.046) | 0.040 (0.045) | 0.048 (0.039) |
5 讨论
在本文中,我们开发了一个纵向CWGEE来模拟有序分类结果,它扩展了Bible等人(2016)实现持续成果。有序结果的研究提出了一系列超越持续结果的独特挑战。我们的研究是对当前ICS文献的一个重要贡献,因为许多可能与集群大小相关的临床结果都是使用顺序评分系统进行测量的,包括牙科研究和患者满意度调查。到目前为止,在具有潜在ICS的集群纵向研究中,对边际推理建模的大部分工作都集中在持续结果上。
在我们的模拟研究中,我们没有观察到在所提议的CWGEE方法中,工作相关结构的各种选择之间的相对偏差和覆盖概率存在显著差异。这与来自Wang等人(2011)和Bible等人(2016)当使用CWGEE而不是传统的GEE来用ICS分析数据时,我们观察到偏差和覆盖概率有了相当大的改善。当不存在ICS时,CWGEE方法的结果可与传统GEE方法进行比较。在以下结果中也观察到了这一点:Wang等人(2011)而且,我们很乐意使用所提出的CWGEE方法,使用任何程度的ICS分析数据。
在我们的模拟研究中,我们观察到使用夹心估值器对少数集群的SE估计不足。这是GEE中公认的问题,几位作者已经进行了调整。我们应用了由麦金农与怀特(1985)并观察到DF修正的SE和经验SE之间的更紧密一致性,以及少量集群(20和50)的覆盖概率的改进。当簇数大于100时,DF修正的SE与未修正的SE相当。
我们在模拟中将最大簇大小设置为28,以与牙科研究非常相似。然而,在其他应用程序中,最大集群大小可能要小得多。为了研究所提出的CWGEE方法在较小集群大小上的性能,我们对100和500个集群的最大集群大小分别进行了3、5和10的额外模拟。当集群大小较大时,所提出的CWGEE和未加权GEE之间的性能差异更为明显,因为集群大小越大,信息集群大小的程度越强,但当最大集群时,我们没有观察到收敛问题或参数估计性能的降低尺寸很小。其他仿真结果如所示补充材料.
我们直接估计单位内访问之间相关性结构的方法与下面描述的方法密切相关Shults和Ardythe(2002)在实施QLS方法时。另一种建模序数观测值之间关联的方法是使用全局优势比(Williamson等人,1995年)或当地赔率(Touloumis等人,2013年)参数化。然而,这些方法都还没有开发出来用于QLS估计。虽然比值比是一种更自然的关联度量,与相关系数相比,对分类变量的约束更少(Shults和Hilbe,2014年)在本文中,我们决定将关联参数视为一个“麻烦”,因为我们的重点是估计序数结果与其预测因子之间的关联,而不是估计序数观测值之间的时间关联。我们通过仿真研究获得了良好的偏差和覆盖概率结果,在ICS存在和不存在的情况下,牙内和牙间关联具有不同范围的相关性。尽管如此,基于全球或本地优势比比较CWGEE的表现是一个未来感兴趣的话题。
致谢
我们感谢副主编和两位匿名审稿人对改进手稿的评论。本研究得到了NIH拨款F31DE027589(PI:Mitani)和R01CA226805(PI:Nelson)的支持。我们还感谢Raul Garcia,DMD,MMedSc,他是牙科纵向研究的首席研究员和检查官。牙科纵向研究和正常年龄研究是马萨诸塞州退伍军人流行病学研究和信息中心的组成部分,该中心由弗吉尼亚州合作研究计划提供支持。本文中表达的观点是作者的观点,并不一定代表美国退伍军人事务部的观点。
附录
如果Cij公司(α)是一阶自回归(AR1)结构,
然后,
因为S公司−1是免费的α,
然后,方程式(5)等于
哪里
我们可以将上述方程式重新排列为
并解决α使用二次公式,得出方程式(7).
参与者信息
阿亚·米塔尼,波士顿大学公共卫生学院生物统计学系,美国马萨诸塞州波士顿02118。
伊丽莎白·K·凯,美国马萨诸塞州波士顿市波士顿大学亨利·戈德曼牙科医学院健康政策与健康服务研究部,邮编02118。
Kerrie P.Nelson,波士顿大学公共卫生学院生物统计学系,美国马萨诸塞州波士顿02118。
工具书类
- 《圣经》J、Beck JD和Datta S(2016)。移位受试者数据(卡片)的聚类调整回归:潜在信息时间聚类大小模式下的边缘推断.生物计量学
72, 441–451.[PMC免费文章][公共医学][谷歌学者]
- Chaganty NR(1997)。利用广义估计方程分析纵向数据的另一种方法.统计规划与推断杂志
63, 39–54.[谷歌学者]
- Chaganty NR和Shults J(1999)。相关参数拟最小二乘估计中渐近偏差的消除.统计规划与推断杂志
76, 145–161.[谷歌学者]
- Chaurasia A、D.L和Albert PS(2018年)。具有不完全信息簇大小的模式-混合模型:在重复妊娠研究中的应用.英国皇家统计学会期刊C辑
67, 255–273.[PMC免费文章][公共医学][谷歌学者]
- Dunson DB、Chen Z和Harry J(2003)。集群规模和亚单位特定结果联合建模的贝叶斯方法.生物计量学
59, 521–530. [公共医学][谷歌学者]
- Fitzmaurice GM、Laird NM和Ware JH(2011年)。应用的纵向分析Wiley,第2版。[谷歌学者]
- Hoffman EB、Sen PK和Weinberg CR(2001年)。带集群重采样.生物特征
88, 1121–1134.[谷歌学者]
- Hojsgaard S、Halekoh U和Yan J(2006年)。广义估计方程的R包geepack.统计软件杂志
15, 1–11.[谷歌学者]
- Iosif A和Sampson AR(2014)。具有信息簇大小的重复聚类数据模型.医学统计学
33, 738–759.[PMC免费文章][公共医学][谷歌学者]
- Kapur KK、Glass RL、Loftus ER、Alman JE和Feller RP(1972年)。退伍军人管理局口腔健康与疾病纵向研究.老龄化与人类发展
三, 125–137.[谷歌学者]
- Kaye EK、Chen N、Cabral HJ、Vokonas P和Garcia RI(2016年)。男性代谢综合征与牙周病进展.牙科研究杂志
95, 822–828.[PMC免费文章][公共医学][谷歌学者]
- Kenward MG、Lesa re E和Molenberghs G(1994年)。最大似然和广义估计方程在分析随机缺失病例纵向研究中的有序数据中的应用.生物计量学
50, 945–953. [公共医学][谷歌学者]
- Liang KY和Zeger SL(1986年)。使用广义线性模型进行纵向数据分析.生物特征
73, 13–22.[谷歌学者]
- Lipsitz S、Kim K和Zhao L(1994年)。用广义估计方程分析重复分类数据.医学统计学
13, 1149–1163. [公共医学][谷歌学者]
- MacKinnon J和White H(1985)。改进有限样本性质的异方差一致协方差矩阵估计.经济学杂志
29, 305–325.[谷歌学者]
- Nooraee N、Molenberghs G和van den Heuvel ER(2014)。纵向顺序数据的GEE:比较R-geepack、R-multgee、R-repolr、SAS-GENMOD、SPSS-GENLIN.计算统计学与数据分析
77, 70–83.[谷歌学者]
- Panageas KS、Schrag D、Localio RA、Venkatraman ES和Begg CB(2007年)。当主要预测因素为集群大小时,容量产出研究中用于解释集群的分析方法的特性.医学统计学
26, 2017–2035. [公共医学][谷歌学者]
- Parsons NR、Edmondson RN和Gilmour SG(2006年)。自相关序数得分数据拟合的广义估计方程方法及其在园艺研究中的应用.英国皇家统计学会杂志C辑应用统计学
55, 507–524.[谷歌学者]
- Parzen M、Ghosh S、Lipsitz S、Sinha D、Fitzmaurice GM、Mallick BK和Ibrahim JG(2011年)。具有边缘logit链接函数的纵向二进制数据的广义线性混合模型.应用统计学年鉴
5, 449–467.[PMC免费文章][公共医学][谷歌学者]
- Seaman S、Pavlou M和Copas A(2014)。聚类数据中基于聚类和信息聚类大小的混淆处理方法综述.医学统计学
33, 5371–5387.[PMC免费文章][公共医学][谷歌学者]
- Shults J和Ardythe ML(2002年)。使用拟最小二乘法调整两个相关水平.生物计量学
58, 521–530. [公共医学][谷歌学者]
- Shults J和Hilbe JM(2014)。拟最小二乘回归查普曼和霍尔/CRC。[谷歌学者]
- 图卢米斯A(2015)。R包multgee:多项式响应的广义估计方程求解器.统计软件杂志
64,1-14。[谷歌学者]
- Touloumis A、Agresti A和Kateri M(2013年)。使用局部比值比参数化的多项式响应的Gee.生物计量学
69, 633–640. [公共医学][谷歌学者]
- Wang M、Kong MY和Datta S(2011年)。具有潜在信息量的聚类纵向数据的边际线性模型推断.医学研究中的统计方法
20, 347–367. [公共医学][谷歌学者]
- Wang Z和Louis TA(2003)。使用桥分布函数匹配二元随机截距模型中的条件形状和边缘形状.生物特征
90, 765–775.[谷歌学者]
- Williamson JM、Datta S和Satten GA(2003年)。当集群大小具有信息性时,对集群数据的边际分析.生物计量学
59, 36–42. [公共医学][谷歌学者]
- Williamson JM、Kim KM和Lipsitz SR(1995年)。使用全局优势比分析二元有序数据.美国统计协会杂志
90,1432年至1437年。[谷歌学者]
- 张B、刘伟、张Z、瞿Y、陈Z和阿尔伯特·PS(2017)。具有信息簇大小的相关数据建模:联合建模和簇内重采样方法的评估.医学研究中的统计方法
26, 1881–1895. [公共医学][谷歌学者]