摘要
纵向数据广义线性混合模型的线性预测器中通常假设的参数函数形式可能过于严格,无法表示真正的潜在协变量效应。我们放宽了这一假设,用平滑但任意的时间函数表示这些协变量效应,并用随机效应来模拟受试者之间和受试者内部变异所引起的相关性。由于在评估拟似然函数时通常涉及到难以处理的积分林和张(1999,英国皇家统计学会杂志B辑 61,381-400)用于通过固定效应和随机效应的线性组合表示非参数函数,同时估计可变系数和方差分量。基于所提出模型的混合模型表示,开发了一个缩放的二次检验,以测试潜在的变化系数是否是某种程度的多项式。我们通过模拟研究评估程序的性能,并用印尼儿童传染病数据说明其应用。
Résumé
形式参数功能nelle utilise e couramment pour le préaire du modèle mixte linéaeire généralisésur données longiversales peutétre trop restrictive pour repsenter les effects réels de covariables sous-jacentes。实体自由假设在代表性方面影响着临时仲裁的部分功能,也影响着利用率的变化。《习惯的不可能实现的赔偿责任评估》,《准象征双重问题解决方案》(“DPQL”)de Lin et Zhang(1999)这是一种同时估计系数和方差组成的方法,它代表了非参数的函数,并结合了修正和修正的效果。Un test de khi-deux norméest développé,basésur une representation du modèle proposésous forme d’Un modéle mixte,pour tester si Un coefficient sous-jacent est d’Un-degré多项式doné。努塞瓦隆(Nousévalouns)表示,在印度儿童感染方面,程序的表现与模拟和插图的应用是分不开的。
1.简介
纵向研究通常在流行病学、社会科学和其他生物医学研究领域进行。由于纵向研究的性质,这些研究中收集的数据使我们能够解决各种研究问题。研究目标之一可能是描述感兴趣的响应变量如何随着时间的推移受到其他协变量的影响。例如,在第5节275名印尼学龄前儿童每三个月接受一次呼吸道感染和维生素A缺乏症的连续六次检查。重点是研究儿童成长过程中出现呼吸道感染的自然趋势,维生素A缺乏如何影响这种可能性,以及维生素A缺乏的影响是否独立于儿童的年龄。这些研究问题的发现将对公共卫生官员和儿科护理人员很有价值,因为轻度维生素A缺乏可以通过饮食补充维生素A来廉价纠正(Sommer、Katz和Tarwotjo,1984年).
纵向数据分析中的一个挑战是,数据是相互关联的,因为每个个体都有多个观测值。在分析中必须考虑这种相关性,才能得出有效的推论。在似然框架内,一种流行的方法是使用线性混合模型来分析连续的纵向数据(Laird和Ware,1982年;Diggle、Zeger和Liang,1994年)和广义线性混合模型(GLMMs)分析离散纵向数据(Zeger和Karim,1991年;布雷斯洛和克莱顿,1993年)其中,受试者特定的随机效应明确承认受试者之间的变异所引起的相关性。然而,标准GLMM假设参数固定效应可能过于限制,无法表示复杂的潜在协变量效应。此外,由于印尼儿童疾病研究中的二进制数据等稀疏数据,通常甚至不可能从经验上确定潜在的功能形式。因此,扩展标准GLMM以允许任意协变量效应的可能性,以及相关的估计程序以识别潜在的协变量效应,都是引人注目的发展。
沿着这些思路,人们一直在积极研究开发纵向数据的时变系数模型。胡佛等人(1998)考虑了连续纵向数据的时变系数模型,并使用平滑样条和局部加权多项式来估计时变系数,通过交叉验证估计平滑参数。林和英(2001)用单次近邻平滑估计变系数。Chiang、Rice和Wu(2001)考虑了估计时变系数的分量平滑样条方法和估计平滑参数的“leave-on-subject-out”交叉验证方法。黄、吴、周(2002)采用基函数逼近方法估计时变系数。这些参考文献中引用了其他工作。
到目前为止,人们的兴趣主要集中在连续纵向数据上,而对离散纵向数据的研究很少。Lin和Zhang(1999)提出了广义加性混合模型,其中使用加性协变量效应对GLMM中的协变量效应进行建模。在这篇文章中,我们提出了一个替代扩展,即具有不同系数的GLMMs,以解决研究问题“维生素A缺乏如何影响呼吸道感染的概率以及其影响是否独立于儿童年龄?”平滑样条用于估计光滑但任意的非参数函数。由于在评估拟似然函数时通常涉及难以处理的积分Lin和Zhang(1999)用于在统一的混合模型框架中投射估计问题,以便可以同时估计非参数函数、方差分量和平滑参数。我们在中描述了建议的模型第2节和估算程序第3节.英寸第4节,我们提出了一种检验变系数在一定时间内是否为多项式的方法。我们通过对印度尼西亚儿童疾病数据的应用来说明所提出的模型和方法第5节并在中显示仿真结果第6节.
2.变系数GLMM
假设年ij公司,我= 1, …,米,j个= 1, …,n个我,是主题的响应我在时间测量t吨ij公司,在不损失一般性的情况下,假设其位于(0,1)中。同时测量的是一个协变量x个ij公司对于一个固定效应,假设它是一个标量而不失一般性q个我-维协变量向量z(z)ij公司随机效果。给定特定主题的随机效果b我和协变量x个ij公司,的年ij公司假设与条件平均值μ无关bij公司=E(年ij公司|b我)和条件方差var(年ij公司|b我) =φω−1ij公司v(v)(μbij公司),其中v(v)(·)是指定的方差函数,ωij公司是一个已知的权重(例如,二项式分母),φ是一个离散参数,可以是已知的,也可以是需要估计的。然后,具有可变系数的广义线性混合模型(GLMM)指定了条件平均值μ之间的以下关系bij公司固定效应和随机效应:
哪里克(·)是一个已知的单调微分链接函数,βk个(t吨) (k个=0,1)是平滑但任意的时间函数t吨、和q个我-维随机效应b我假设是独立的,并且分布为N个{0,D类我(θ) }并用方差分量θ向量对响应中的相关性进行建模。
注意,随机效应维度q个我的型号(1)可以从一个主题更改为另一个主题,这允许我们指定复杂的随机效应结构,包括与时间相关的随机效应。例如,我们可以将随机效应指定为随机截距和随机时间斜率,再加上随机过程,如AR(1),如下所示:
哪里b我0,b我1是随机截距和随机时间斜率,以及U型我(t吨)是一个AR(1)随机过程。如果我们定义b我= (b我0,b我1,U型我(t吨我1), …,U型我(t吨
))T型作为一种新的随机效应,以及z(z)ij公司= (1,t吨ij公司, 0, …, 1, …, 0)T型,其中1位于(j个+2)第个位置,则上述数量可以写为z(z)T型ij公司b我显然,q个我=n个我+在这种情况下为2。当然,数据(尤其是离散数据)中可能没有足够的信息来识别如此复杂的随机效应结构。
当两个函数都为β时0(t吨)和β1(t吨)是常数,(1)减少到标准GLMM。否则,它可以被解释为具有非参数时间效应β的GLMM0(t吨)或时变截距和时变固定效应β1(t吨)协变量的x个.第二任期x个ij公司β1(t吨ij公司)英寸(1)也可以被视为x个和时间t吨注意,因为β1(t吨)是一个任意函数,x个ij公司β1(t吨ij公司)自动包含的“主要效果”x个.在特殊情况下年正态分布,具有单位链函数,β1(t吨)也是协变量的时变横截面效应x个关于响应年在这种情况下,(1)简化为所考虑的模型胡佛等人(1998)如果包含更多时变系数。Lin和Zhang(1999)考虑了GLMM的另一个扩展,其中固定效应被建模为无交互作用的非参数协变量函数的加性组合。
为了便于演示,让年= (年11, …,年
, …,年米1, …,年
)T型,b= (bT型1, …,bT型米)T型、和D类=诊断{D类1(θ), …,D类米(θ) },方差b然后是对数拟似然函数У{β0(·), β1(·), θ;年)}模型参数{β0(·), β1(·),θ}定义为
哪里
是的条件偏差函数年ij公司给定随机效应b我我们感兴趣的是估计均值结构中的非参数函数以及方差分量。我们也有兴趣对β进行假设检验1(t吨)它表征了协变量的作用x个响应时年随着时间的推移。
3.估计和推断
以下内容Lin和Zhang(1999)和格林和西尔弗曼(1994),对于给定的θ,我们估计β0(t吨)和β1(t吨)通过最大化惩罚拟似然(PQL)函数:
其中▽{β0(·), β1(·);年}是中定义的对数拟似然函数方程式(2),λk个(k个=0,1)是控制β平滑度的平滑参数k个(t吨)和模型对数据的良好性,以及小时k个是β导数阶的正整数k个(t吨). 用于估算βk个(t吨),对于选择小时k个的。因为我们将考虑测试β1(t吨)英寸第4节,我们允许不同的小时k个代表βk个(t吨)的。
PQLŞ第页{β0(·), β1(·);年}涉及到一个通常难以解决的集成。以下内容Lin和Zhang(1999),我们估计β0(t吨)和β1(t吨)通过最大化给定θ和λ的双重惩罚拟似然(DPQL)函数的逼近k个的(k个=0,1)由给出
因为d日ij公司(年ij公司, μbij公司)取决于βk个(t吨)仅通过观测时间点的值t吨ij公司,最大化
的dp(差分){β0(·), β1(·),b;年}是有序的自然平滑样条小时k个,可以表示为(Wahba,1990年)
其中0<t吨01< ⋯ <t吨0第页<1是明显的结t吨ij公司; φ千平方公里(t吨)是一个(秒−1)第个多项式(例如φ千平方公里(t吨) =t吨秒−1/(秒− 1)!,秒= 1, …,小时k个); 和R(右)k个(t吨1,t吨2)由定义
对于u个+=u个如果u个≥0,否则为0。
表示βk个= {βk个(t吨01), …, βk个(t吨0第页)}T型, δk个= (δk个1, …, δ
)T型、和一k个= (一k个1, …,一克朗)T型对于k个= 0, 1. 那么βk个以及(3)可以表示为
哪里T型k个是一个第页×小时k个矩阵,带有(我,秒)第th个元素等于φ千平方公里(t吨0我)和∑k个是一个正定矩阵(我,秒)第个元素等于R(右)k个(t吨0我,t吨0秒). 因此,中的DPQL函数(4)成为
这表明一k个单位:βk个可以被视为随机效应一k个∼N个(0, τk个Σ−1k个)的k个=0,1,其中τk个= λ−1k个。表示方式N个关联矩阵映射t吨ij公司到t吨0= (t吨01, …,t吨0第页)T型.将表达式替换为βk个进入之内克(μbij公司)英寸(1),我们获得了模型的GLMM表示:
其中μb是通过叠加μ得到的向量bij公司,T型= (NT公司0,XNT公司1), δ = (δT型0, δT型1)T型,B类0=N个Σ0,B类1=XN公司Σ1,X(X)=诊断{x个ij公司}、和Z轴矩阵是正确堆叠的结果z(z)T型ij公司.
因为这种混合模型表示与Lin和Zhang(1999),然后我们可以估计βk个(t吨)s、θ和τk个同时使用PQL方法布雷斯洛和克莱顿(1993)通过治疗一k个作为随机效应和τk个作为额外的方差分量,并对模型分量进行相应的推断。具体来说,模型参数δk个,一k个, τk个(k个=0,1)和θ可以通过迭代拟合以下线性混合模型来估计:
具有固定效应δ,独立随机效应一k个∼N个(0, τk个Σ−1k个),b∼N个(0,D类),和残差ε~N个(0,W公司−1),其中Y(Y)=T型δ+B类0一0+B类1一1+ Δ(年−μb)是混合模型表示下的工作向量,Δ=diag{克′(μbij公司)}、和W公司=图{φω−1ij公司v(v)(μbij公司)克′(μbij公司)2}. 请参见Lin和Zhang(1999)了解更多详细信息。
众所周知,上述估计过程会低估二进制数据等稀疏数据的方差分量。因此林和布雷斯洛(1996)可以应用于(1)通过加性独立随机效应,可以产生偏差较小的方差分量估计,从而减少非参数函数的偏差。Lin和Zhang(1999)对广义可加混合模型使用相同的偏差校正程序。由于我们的模型基本上具有相同的混合模型表示,方差分量和平滑参数的偏差校正采用与等式(25)相同的形式Lin和Zhang(1999).校正后,δk个和一k个(因此是βk个)可以从上述混合模型中重新估计。仿真研究证实了偏差修正估计值的总体改进。在本文的后面部分,将只介绍偏差修正估计的结果。应该指出的是,对于特殊情况年正态分布,上述推理过程在似然框架内是精确的,不需要进行偏差修正。因此,在本文中,我们将重点讨论非高斯纵向数据。
4.β的假设检验1(t吨)
在许多应用中,我们经常对测试协变量是否影响β1(t吨)是随时间变化的常数,或者是在一定程度上的多项式。因此,我们考虑测试零假设H0: β1(t吨)是一个多项式(小时k个−1)与H1: β1(t吨)是不在H中的平滑函数0.如果小时k个=1,然后测试H0: β1(t吨)是一个常量。
如中所述张和林(2003),测试H0线性混合模型表示下的方差分量测试问题(6)通过测试H0: τ1= 0. 我们遵循他们测试H的方法0: τ1得分统计=0。
简单计算表明,测试H的常规分数统计中的领先项0: τ1模型下=0(6)可以近似为
哪里Y(Y)0=T型δ+B类0一0+ Δ(年−μb)是H下简化GLMM的工作矢量0: τ1= 0
是的工作方差矩阵Y(Y)0,W公司定义于第3节但在H下评估0: τ1=0,和
和
是此简化模型下对应的PQL估计值。
如所示张和林(2003)对于较简单的半参数加性混合模型,这种类型的分数统计量通常不渐近服从正态分布或双平方分布。相反,他们发现该分布可以用缩放的二次分布来近似。按照他们的方法,我们近似地计算U型
用于测试H0: τ1=0乘以缩放的二次方随机变量κχ2ν通过匹配两个随机变量的前两个矩。
为了进行上述近似,我们需要计算E(U型
)和var(U型
). 类似于中的推导第3节属于张和林(2003),可以看出E(U型
)可以近似为e(电子)=tr(伪随机数Σ1N个T型)/2和var(U型
)通过近似有效信息
,其中ϑ=(τ0, θ, φ),对=五−1−五−1T型(T型T型五−1T型)−1T型T型五−1是投影矩阵,并且
每个数量都在简化模型下的PQL估计值中进行评估(7)然后通过计算进行假设检验S公司=U型
/κ,并将其引用到具有ν自由度的chi-squared分布,其中κ和ν是通过匹配U型
与κχ2ν.显著性水平为α的测试拒绝H0如果S公司> χ2ν, α。我们评估了此测试程序的性能,以测试第6.2节.
5.传染病数据的应用
在本节中,我们通过应用于印尼儿童传染病数据来说明所建议的方法(Zeger和Karim,1991年). 每三个月对275名印尼儿童进行一次连续六次的呼吸道感染和干眼症检查,这是一种与维生素A缺乏相关的眼部疾病,以及其他协变量信息。有关数据的更详细描述,请参阅Zeger和Karim(1991)和Sommer等人(1984年)主要目的是检查维生素A缺乏是否以及如何影响呼吸道感染。
表示方式年ij公司儿童呼吸道感染状况(1=是,0=否)我在j个第次访问,x个ij公司维生素A缺乏状态(1=是,0=否)和年龄ij公司孩子的年龄。为了解决上述研究问题,我们考虑以下变系数GLMM:
其中随机效应b我∼N个(0, θ), β0(年龄)描述了无维生素a缺乏症儿童发生呼吸道感染的自然趋势,以及β1(年龄)表征维生素A缺乏对呼吸道感染的影响;也就是说,如果孩子在某个年龄段维生素a缺乏t吨,呼吸道感染的对数比值比将增加β1(t吨)由于自然趋势的影响。
估计的功能
对于k个=0,1,两者都有小时k个设置为2显示在图1a和1b以及95%(逐点)置信区间。选择小时k个的意思是
的是自然三次样条曲线。孩子之间的差异估计为
估计标准误差为0.32。估计
非常类似于
在中获得Lin和Zhang(1999)从一个半参数加性混合模型,其中只有年龄的主要影响是非参数建模。根据估计
我们发现,维生素A缺乏症的影响从出生到3.5岁左右略有增加,然后逐渐减少,这表明我们可以在儿童到3.5岁时加强维生素A补充。然而,与宽置信区间相比,估计
相对平坦。应用中制定的测试程序第4节检验原假设H0: β1(年龄)是一个常数,产生了2.92个自由度的二次方统计值2.05,没有对H提供任何重要证据0然后通过设置β继续分析1(年龄)=β1,估计为0.44,估计标准误差为0.50。
![印尼儿童传染病数据的模型(8)及其逐点95%置信区间估计(a)和(b):---,估计;---,置信区间。]()
图1
估算
(a) 以及
(b) 来自模型(8)印尼儿童传染病数据的点态95%置信区间:---,估计;---,置信区间。
6.模拟研究
6.1. 估算程序模拟
我们进行了一项仿真研究,以评估为变系数GLMM开发的估计程序的性能。对于每个主题我=1,…,100,取决于独立的受试者特定随机效应b我∼N个(0,θ=0.5),条件独立二进制(N个=1)或二项式(N个=8)数据年ij公司~垃圾箱(N个, πbij公司)为生成了j个=1,…,5和N个=1,8,根据以下变系数GLMM得出:
哪里t吨ij公司=trun{(我+ 9)/10}/50 + 0.2(j个−1)用于我=1,…,100和j个=1,…,5是[0,1]和trun中50个等距时间点(z(z))是返回整数部分的截断运算符z(z);x个ij公司是从Bin(1,0.5)生成的100个实现,并在以后的所有模拟运行中固定;和
和B类第页,q个(t吨)是带参数的β密度函数第页和q个为每个设计生成了500个数据集,并在年制定了估算程序第3节具有小时0和小时1这两个值都设置为2,应用于每个数据集。为了进行比较,还通过假设β拟合了一个错误的模型1(t吨)是一个常量。
图2a和2b表示估计值的平均值
和
对于N个=1和N个=500次模拟运行中的8次。虽然当稀疏二进制数据的基本真函数复杂时,估计过程可能会产生不一致的估计,但估计函数捕获了真函数的总体模式,当二项式分母增加到8时,偏差会显著减小。图2c表示估计值的平均值
对于N个=1和N个=8,错误假设β1(t吨)是一个常量。这个数字清楚地表明了估计的糟糕表现
.图3a和3b给出了经验和估计标准误差的平均值。总的来说,它们彼此非常一致,尤其是当二项式分母为8时。最后,图4a和4b给出了95%置信区间的估计逐点覆盖概率。二进制数据情况下某些位置的低覆盖概率(N个=1)主要是由于估计函数中存在较大偏差。当二项式分母增加到8时,覆盖概率迅速接近标称水平。
![基于500次模拟运行,(a)和(b)的经验(---)和估计(---)标准误差。]()
图3
经验(---)和估计(---)标准误差
(a) 和
(b) 基于500次模拟运行。
![基于500次模拟运行的β0(t)(a)和β1(t),经验覆盖概率。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/biometrics/60/1/10.1111_j.0006-341X.2004.00165.x/2/m_biometrics_60_1_8_f4.gif?Expires=1722803540&Signature=NeR9zpd4zH1FTZs~M5PFZXf2ve6U0KVCwH82UXmdoFia3psZEyEObdRWjWymbGgzvgj8muES5jZ13uhUNkeXLJM4wuc9XQ7y1s6BU5J7bMA~Suls8UvAfCsxO1aq42q645UsCuVJmbgBaKKHWAWK8UKyyEJEi6T-YRvY7tYtSL7MvjCMhBwtRuts2-nJMbbrNldE8l23YlJhw5DAhJ9mUT9eXv3T5Q93xr7H2r~0GC3StZ6bAg6qrU5OAodFEBBrljOcUnZFbLsEdD~Coretkft6eb1CKvG-udSpmWbgWTm7sLYvds5WavVYNv8fbMmUJritbHwJAESME2OXATMNRg__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图4
β95%置信区间的经验覆盖概率0(t吨)(a)和β1(t吨)(b)基于500次模拟运行:---,标称水平95%;---,经验覆盖概率。
方差分量估计的蒙特卡罗平均
对于二进制数据为0.41,经验标准误差为0.22,其标准误差估计值的蒙特卡罗平均值为0.23。对于二项式分母等于8的二项式数据,相应的数字为0.48、0.09和0.09。这些模拟结果表明,虽然估计
对于稀疏二进制数据有明显的偏差,当二项式分母增加到8时,偏差几乎消失。同时,方差分量估计的估计标准误差与经验标准误差吻合得很好,即使对于稀疏的二元数据也是如此。随着二项式分母从1增加到8,方差分量估计值的渐近行为在其减少的偏差和标准误差中清楚地表明。
6.2. 多项式检验的模拟
我们还进行了一项模拟研究,以评估第4节。因为在实践中,我们通常更感兴趣的是了解协变量效应是否随时间而恒定,所以我们考虑这个特殊的测试问题。与中使用的设计相似第6.1节,给定b我∼N个(0,θ=0.5),条件独立二进制(N个=1)或二项式(N个=8)数据年ij公司以成功概率π生成bij公司令人满意的
哪里
对于d日=0、1、…、4和β0(t吨)和β1(t吨)模型中使用的函数相同吗(9)因此,d日=0对应于零假设H0: β1(t吨)是一个常量。作为d日增加,模型距离H更远0每个设置生成1000个数据集,测试程序在第4节将标称水平α=0.05应用于每个数据集。
图5a和5b显示测试统计的直方图S公司在H下获得0对于二元和二项式数据,与估计的缩放二次方密度叠加。这些数字表明,估计密度与经验密度相当吻合。在不同备选方案(例如。,d日=0、1、2、3、4)对于二进制数据为0.040、0.09、0.24、0.53和0.77,对于二项式分母等于8的二项式数据为0.045、0.51、0.98、1.00和1.00。它们被计算为1000次模拟运行的百分比,其中H0被拒绝。对于二进制数据,该测试有点保守,对于检测偏离恒定系数的情况并不十分有效。然而,当二项式分母增加到8时,尽管仍然是保守的,但经验大小更接近标称水平,并且测试产生了检测偏离常数的高功率。
![第6.2节中的测试统计S直方图与N=1(a)和N=8(b)的估计密度叠加。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/biometrics/60/1/10.1111_j.0006-341X.2004.00165.x/2/m_biometrics_60_1_8_f5.gif?Expires=1722803540&Signature=i3bkjvnBHIeghUjYReOUUx0JWdGBLHMK58~oKGX3o-OLTV4RYnEnAk3FwS1qs2rYgyQyYrlTmslmnwGpUwVIrlq6FNrE1YBFTEFLw~Bho49o6ezgBQZgVvdt2-RtkQkRKigvO-5pVUMPiY6dqONxBfYEQUjETq3DIZpw3FMXDZ8Y-zkopk91M8RXcwFGQnO3otaEfInZFZ2rvYHyMTNCN4xMX~fHXXWMoJ5tCM0Puisqj~3XLUpp07MHvzzGLntC0Eb7T9p19~ffZU4FmWywQV9cFfYgxVvYfH-QCIhdy~31uh9P3dYn~N-tToB1bK88sOv6GRSEqHQOqFn5PAOhqg__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图5
测试统计直方图S公司从第6.2节与估计密度叠加N个=1(a)和N个=8(b)。
7.讨论
本文针对纵向数据提出了一种变系数广义线性混合模型,并使用了双重惩罚拟似然方法Lin和Zhang(1999)开发模型组件的估算程序。为了简单起见,我们考虑了一个变化系数,但模型可以很容易地扩展,以包括更多的变化系数或其他协变量的参数效应。通过使用双重惩罚拟似然方法,我们能够将该模型的估计问题转化为一个统一的混合模型框架,同时估计非参数函数、平滑参数和方差分量。虽然仿真结果表明,该估计方法对稀疏二进制数据的性能不太令人满意,但我们仍然可以将其用作探索工具。估计的非参数函数可能建议数据的参数模型。当数据不太稀疏时(例如,分母等于8的二项式数据),估计过程表现得相当好。仿真研究表明,如果将时变系数错误地建模为常数,则可能会对模型参数做出错误的推断。
我们还提出了一种方法来测试所提出模型中的变系数是否是某种程度的多项式。模拟研究表明,尽管该测试可能是保守的,并且在检测稀疏数据(例如具有中等样本大小的二进制数据)偏离感兴趣假设时产生的功率相对较低,但对于分母等于8的二项式数据等稀疏数据,其性能会迅速提高。测试的保守性质可能是由于平滑样条曲线倾向于对底层函数进行过度平滑。因此,可能需要将平滑参数调整为欠平滑β0(t吨)如果主要分析目标是对β进行假设检验1(t吨).
在测试感兴趣的协变量效应时,用于拟议模型和后来用于简化模型的估计方法基本上是基于使用广义线性混合模型表示的观测数据的拟似然函数中积分的拉普拉斯近似。众所周知,这种近似会产生回归系数和方差分量的有偏估计,特别是对于二进制数据等稀疏数据(Breslow和Lin,1995年;Lin和Breslow,1996年). 这些偏差然后传递到估计的非参数函数。因此,开发其他方法来拟合模型并对不同系数进行假设检验是非常有意义的。由于非参数函数的混合模型表示中通常存在高维随机效应,因此使用传统方法(如数值积分)评估所需的拟似然函数是不现实的。目前正在研究其他方法,如蒙特卡罗方法,以执行所需的集成。
估计平滑参数的另一种方法是为相关非高斯数据开发交叉验证程序。然而,在由Kohn、Ansley和Tharm(1991年)用于独立高斯数据,稍后通过王(1998)对于相关高斯数据,受限最大似然估计过程的性能与交叉验证和广义交叉验证一样好,甚至更好。开发相关非高斯数据的交叉验证程序,并将其性能与REML估计程序的性能进行比较,这将是一项有趣的未来研究。
致谢
这项工作得到了NIH拨款R01-CA85848和北卡罗来纳州立大学教师研究和专业发展基金的支持。我要感谢主编和副主编以及一位裁判对原稿的有益评论。
工具书类
布雷斯洛
,东北。
和克莱顿
,D.G.公司。
(
1993
).广义线性混合模型中的近似推理
.美国统计协会杂志
88
,9
–25
.布雷斯洛
,东北。
和林
,十、。
(
1995
).单分散分量广义线性混合模型的偏差修正
.生物特征
82
,81
–91
.蒋介石
,C.T.公司。
,大米
,J.A.公司。
、和吴
,首席执行官。
(
2001
).具有重复测量因变量的变系数模型的光滑样条估计
.美国统计协会杂志
96
,605
–619
.挖掘
,P.J.公司。
,利亚尼
,K.Y.公司。
、和Zeger公司
,S.L.公司。
(
1994
).纵向数据分析
.纽约
:牛津大学出版社
.绿色
,P.J.公司。
和西尔弗曼
,B.W.公司。
(
1994
).非参数回归与广义线性模型
.伦敦
:查普曼和霍尔
.胡佛
,D.R.公司。
,大米
,J.A.公司。
,吴
,首席执行官。
、和杨
,L.P.公司。
(
1998
).纵向数据时变系数模型的非参数平滑估计
.生物特征
85
,809
–822
.黄
,J.H。
,吴
,首席执行官。
、和周
,L。
(
2002
).用于重复测量分析的变系数模型和基函数近似
.生物特征
89
,111
–128
.科恩
,R。
,安斯利
,C.频率。
、和Tharm公司
,D。
(
1991
).样条平滑参数的交叉验证和极大似然估计的性能
.美国统计协会杂志
86
,1042
–1050
.莱尔德
,N.M.公司。
和器皿
,J.H。
(
1982
).纵向数据的随机效应模型
.生物计量学
38
,963
–974
.林
,D.Y.博士。
和应
,Z.公司。
(
2001
).纵向数据的半参数和非参数回归分析(讨论)
.美国统计协会杂志
96
,103
–126
.林
,十、。
和布雷斯洛
,东北。
(
1996
).多分散分量广义线性混合模型的偏差修正
.美国统计协会杂志
91
,1007
–1016
.林
,十、。
和张
,D。
(
1999
).广义可加混合模型的光滑样条推理
.英国皇家统计学会杂志B辑
61
,381
–400
.索默
,答:。
,卡茨
,J。
、和塔沃特乔
,一、。
(
1984
).轻度维生素A缺乏儿童呼吸道感染和腹泻风险增加
.美国临床营养学杂志
40
,1090
–1095
.Wahba公司
,G.公司。
(
1990
).观测数据的样条方法
.宾夕法尼亚州费城
:工业和应用数学学会
.王
,Y.D.年。
(
1998
).具有相关随机误差的光滑样条模型
.美国统计协会杂志
93
,441
,341
–348
.Zeger公司
,S.L.公司。
和卡里姆
,M.R.先生。
(
1991
).具有随机效应的广义线性模型:吉布斯抽样方法
.美国统计协会杂志
86
,79
–86
.张
,D。
和林
,十、。
(
2003
).半参数可加混合模型的假设检验
.生物统计学
4
(1
),57
–74
.
©2004国际生物识别学会。