<trans data-src="Robust Estimating Functions and Bias Correction for Longitudinal Data Analysis">纵向数据分析中的稳健估计函数和偏差修正

当反应被χ污染时，100×偏差和100×MSE的比较²（4） −4基于200次模拟

	AR1型			EXC公司				AR1公司			EXC公司
ρ	U型_克	U型_对	U型_N个	U型_克	U型_对	U型_N个	ρ	U型_克	U型_对	U型_N个	U型_克	U型_对	U型_N个
（a） λ=5%
			100×偏差（β₁)							100×偏差（β₂)
0	−0.09	−1.34	−0.09	−0.10	−1.31	0.37	0	0.01	−0.07	0.01	0.01	−0.08	−0.15
0.25	−1.27	−2.07	−1.26	−0.81	−1.76	−0.58	0.25	0.42	0.21	0.42	0.31	0.14	0.16
0.5	0.68	−0.54	0.68	0.64	−0.54	−1.48	0.5	−0.19	−0.31	−0.19	−0.18	−0.33	0.35
0.8	−0.06	−0.97	−0.06	−0.08	−1.04	−0.12	0.8	−0.05	−0.34	−0.50	−0.02	−0.34	0.28
			100×MSE（β₁)							100×MSE（β₂)
0	1.69	1.39	1.69	1.69	1.39	1.70	0	0.12	0.10	0.12	0.12	0.10	0.12
0.25	2.21	2.19	2.21	2.24	2.20	2.24	0.25	0.14	0.14	0.14	0.14	0.14	0.14
0.5	2.71	2.22	2.71	2.77	2.34	2.77	0.5	0.17	0.14	0.17	0.17	0.15	0.17
0.8	2.21	1.95	2.22	2.27	2.05	2.27	0.8	0.09	0.09	0.09	0.10	0.10	0.10
（b） λ=20%
			100×偏差（β₁)							100×偏差（β₂)
0	1.46	−4.96	1.47	1.41	−4.99	1.43	0	−0.05	−0.16	−0.05	−0.04	−0.15	−0.04
0.25	−0.26	−6.81	−0.24	−0.53	−7.10	−0.52	0.25	0.14	0.15	0.14	0.22	0.22	0.22
0.5	−2.19	−6.76	−2.19	−2.36	−7.52	−2.36	0.5	0.72	0.04	0.73	0.76	0.16	0.76
0.8	−0.86	−7.32	−0.82	−0.67	−7.48	−0.63	0.8	−0.28	−0.60	−0.28	−0.27	−0.61	−0.28
			100×MSE（β₁)							100×MSE（β₂)
0	3.65	2.49	3.66	3.66	2.48	3.67	0	0.26	0.16	0.26	0.26	0.16	0.26
0.25	3.62	3.27	3.63	3.59	3.30	3.59	0.25	0.22	0.18	0.23	0.23	0.18	0.23
0.5	3.84	3.30	3.85	4.62	3.73	4.64	0.5	0.25	0.17	0.25	0.27	0.18	0.28
0.8	2.89	2.58	2.91	3.20	2.92	3.22	0.8	0.13	0.12	0.14	0.15	0.13	0.15

	AR1公司			EXC公司				AR1公司			EXC公司
ρ	U型_克	U型_对	U型_N个	U型_克	U型_对	U型_N个	ρ	U型_克	U型_对	U型_N个	U型_克	U型_对	U型_N个
（a） λ=5%
			100×偏差（β₁)							100×偏差（β₂)
0	−0.09	−1.34	−0.09	−0.10	−1.31	0.37	0	0.01	−0.07	0.01	0.01	−0.08	−0.15
0.25	−1.27	−2.07	−1.26	−0.81	−1.76	−0.58	0.25	0.42	0.21	0.42	0.31	0.14	0.16
0.5	0.68	−0.54	0.68	0.64	−0.54	−1.48	0.5	−0.19	−0.31	−0.19	−0.18	−0.33	0.35
0.8	−0.06	−0.97	−0.06	−0.08	−1.04	−0.12	0.8	−0.05	−0.34	−0.50	−0.02	−0.34	0.28
			100×MSE（β₁)							100×MSE（β₂)
0	1.69	1.39	1.69	1.69	1.39	1.70	0	0.12	0.10	0.12	0.12	0.10	0.12
0.25	2.21	2.19	2.21	2.24	2.20	2.24	0.25	0.14	0.14	0.14	0.14	0.14	0.14
0.5	2.71	2.22	2.71	2.77	2.34	2.77	0.5	0.17	0.14	0.17	0.17	0.15	0.17
0.8	2.21	1.95	2.22	2.27	2.05	2.27	0.8	0.09	0.09	0.09	0.10	0.10	0.10
（b） λ=20%
			100×偏差（β₁)							100×偏差（β₂)
0	1.46	−4.96	1.47	1.41	−4.99	1.43	0	−0.05	−0.16	−0.05	−0.04	−0.15	−0.04
0.25	−0.26	−6.81	−0.24	−0.53	−7.10	−0.52	0.25	0.14	0.15	0.14	0.22	0.22	0.22
0.5	−2.19	−6.76	−2.19	−2.36	−7.52	−2.36	0.5	0.72	0.04	0.73	0.76	0.16	0.76
0.8	−0.86	−7.32	−0.82	−0.67	−7.48	−0.63	0.8	−0.28	−0.60	−0.28	−0.27	−0.61	−0.28
			100×MSE（β₁)							100×MSE（β₂)
0	3.65	2.49	3.66	3.66	2.48	3.67	0	0.26	0.16	0.26	0.26	0.16	0.26
0.25	3.62	3.27	3.63	3.59	3.30	3.59	0.25	0.22	0.18	0.23	0.23	0.18	0.23
0.5	3.84	3.30	3.85	4.62	3.73	4.64	0.5	0.25	0.17	0.25	0.27	0.18	0.28
0.8	2.89	2.58	2.91	3.20	2.92	3.22	0.8	0.13	0.12	0.14	0.15	0.13	0.15

注：样本量K（K）为100，真实数据具有AR1相关结构。协变量随时间变化。鲁棒方法基于Huber函数，τ=1.345。考虑了AR1和EXC工作相关结构。

表1

当反应被χ污染时，100×偏差和100×MSE的比较²（4） −4基于200次模拟

	AR1公司			EXC公司				AR1公司			EXC公司
ρ	U型_克	U型_对	U型_N个	U型_克	U型_对	U型_N个	ρ	U型_克	U型_对	U型_N个	U型_克	U型_对	U型_N个
（a） λ=5%
			100×偏差（β₁)							100×偏差（β₂)
0	−0.09	−1.34	−0.09	−0.10	−1.31	0.37	0	0.01	−0.07	0.01	0.01	−0.08	−0.15
0.25	−1.27	−2.07	−1.26	−0.81	−1.76	−0.58	0.25	0.42	0.21	0.42	0.31	0.14	0.16
0.5	0.68	−0.54	0.68	0.64	−0.54	−1.48	0.5	−0.19	−0.31	−0.19	−0.18	−0.33	0.35
0.8	−0.06	−0.97	−0.06	−0.08	−1.04	−0.12	0.8	−0.05	−0.34	−0.50	−0.02	−0.34	0.28
			100×MSE（β₁)							100×MSE（β₂)
0	1.69	1.39	1.69	1.69	1.39	1.70	0	0.12	0.10	0.12	0.12	0.10	0.12
0.25	2.21	2.19	2.21	2.24	2.20	2.24	0.25	0.14	0.14	0.14	0.14	0.14	0.14
0.5	2.71	2.22	2.71	2.77	2.34	2.77	0.5	0.17	0.14	0.17	0.17	0.15	0.17
0.8	2.21	1.95	2.22	2.27	2.05	2.27	0.8	0.09	0.09	0.09	0.10	0.10	0.10
（b） λ=20%
			100×偏差（β₁)							100×偏差（β₂)
0	1.46	−4.96	1.47	1.41	−4.99	1.43	0	−0.05	−0.16	−0.05	−0.04	−0.15	−0.04
0.25	−0.26	−6.81	−0.24	−0.53	−7.10	−0.52	0.25	0.14	0.15	0.14	0.22	0.22	0.22
0.5	−2.19	−6.76	−2.19	−2.36	−7.52	−2.36	0.5	0.72	0.04	0.73	0.76	0.16	0.76
0.8	−0.86	−7.32	−0.82	−0.67	−7.48	−0.63	0.8	−0.28	−0.60	−0.28	−0.27	−0.61	−0.28
			100×MSE（β₁)							100×MSE（β₂)
0	3.65	2.49	3.66	3.66	2.48	3.67	0	0.26	0.16	0.26	0.26	0.16	0.26
0.25	3.62	3.27	3.63	3.59	3.30	3.59	0.25	0.22	0.18	0.23	0.23	0.18	0.23
0.5	3.84	3.30	3.85	4.62	3.73	4.64	0.5	0.25	0.17	0.25	0.27	0.18	0.28
0.8	2.89	2.58	2.91	3.20	2.92	3.22	0.8	0.13	0.12	0.14	0.15	0.13	0.15

	AR1公司			EXC公司				AR1型			EXC公司
ρ	U型_克	U型_对	U型_N个	U型_克	U型_对	U型_N个	ρ	U型_克	U型_对	U型_N个	U型_克	U型_对	U型_N个
（a） λ=5%
			100×偏差（β₁)							100×偏差（β₂)
0	−0.09	−1.34	−0.09	−0.10	−1.31	0.37	0	0.01	−0.07	0.01	0.01	−0.08	−0.15
0.25	−1.27	−2.07	−1.26	−0.81	−1.76	−0.58	0.25	0.42	0.21	0.42	0.31	0.14	0.16
0.5	0.68	−0.54	0.68	0.64	−0.54	−1.48	0.5	−0.19	−0.31	−0.19	−0.18	−0.33	0.35
0.8	−0.06	−0.97	−0.06	−0.08	−1.04	−0.12	0.8	−0.05	−0.34	−0.50	−0.02	−0.34	0.28
			100×MSE（β₁)							100×MSE（β₂)
0	1.69	1.39	1.69	1.69	1.39	1.70	0	0.12	0.10	0.12	0.12	0.10	0.12
0.25	2.21	2.19	2.21	2.24	2.20	2.24	0.25	0.14	0.14	0.14	0.14	0.14	0.14
0.5	2.71	2.22	2.71	2.77	2.34	2.77	0.5	0.17	0.14	0.17	0.17	0.15	0.17
0.8	2.21	1.95	2.22	2.27	2.05	2.27	0.8	0.09	0.09	0.09	0.10	0.10	0.10
（b） λ=20%
			100×偏差（β₁)							100×偏差（β₂)
0	1.46	−4.96	1.47	1.41	−4.99	1.43	0	−0.05	−0.16	−0.05	−0.04	−0.15	−0.04
0.25	−0.26	−6.81	−0.24	−0.53	−7.10	−0.52	0.25	0.14	0.15	0.14	0.22	0.22	0.22
0.5	−2.19	−6.76	−2.19	−2.36	−7.52	−2.36	0.5	0.72	0.04	0.73	0.76	0.16	0.76
0.8	−0.86	−7.32	−0.82	−0.67	−7.48	−0.63	0.8	−0.28	−0.60	−0.28	−0.27	−0.61	−0.28
			100×MSE（β₁)							100×MSE（β₂)
0	3.65	2.49	3.66	3.66	2.48	3.67	0	0.26	0.16	0.26	0.26	0.16	0.26
0.25	3.62	3.27	3.63	3.59	3.30	3.59	0.25	0.22	0.18	0.23	0.23	0.18	0.23
0.5	3.84	3.30	3.85	4.62	3.73	4.64	0.5	0.25	0.17	0.25	0.27	0.18	0.28
0.8	2.89	2.58	2.91	3.20	2.92	3.22	0.8	0.13	0.12	0.14	0.15	0.13	0.15

注：样本量K（K）为100，真实数据具有AR1相关结构。协变量随时间变化。稳健方法基于τ=1.345的Huber函数。考虑了AR1和EXC工作相关结构。

然而，由于稳健估计中存在大量偏差，泊松响应不再如此。偏差校正还导致MSE降低。当污染率较高（20%）时，稳健GEE估计值可能会有很大偏差。表2使用Huber方法比较泊松数据的估计量的偏差和均方误差（MSE）；注意，表中的“φ”表示泊松数据的过度分散。对于泊松数据，我们还使用Cantoni和Ronchetti（2001）（表示为U型_C类).

表2

基于100个模拟的泊松响应100×偏差和100×MSE的比较

ρ; φ	U型_克	U型_对	U型_C类	U型_N个	ρ; φ	U型_克	U型_对	U型_C类	U型_N个
（a） λ=5%
		100×偏差（β₁)					100×偏差（β₂)
0; 1	0.85	−3.28	−0.56	0.82	0; 1	−0.55	1.16	−0.11	−0.54
0; 2	−0.60	−9.18	−5.35	0.91	0; 2	0.45	3.87	2.08	−0.15
0.25; 2	−0.69	−10.49	−6.55	0.90	0.25; 2	0.48	4.77	2.92	−0.19
0.5; 2	−0.49	−9.18	−5.33	1.03	0.5; 2	0.29	3.66	1.86	−0.31
0.8；三	−2.97	−16.80	−12.10	2.06	0.8; 三	1.80	7.10	4.85	−0.06
		100×毫秒（β₁)					100×MSE（β₂)
0; 1	0.43	0.48	0.36	0.42	0; 1	0.21	0.19	0.17	0.21
0; 2	0.64	1.42	0.83	0.68	0; 2	0.33	0.44	0.32	0.35
0.25; 2	0.69	1.85	1.14	0.71	0.25; 2	0.35	0.60	0.44	0.36
0.5; 2	1.09	1.83	1.22	1.18	0.5; 2	0.52	0.58	0.47	0.55
0.8; 三	1.48	4.29	2.83	1.68	0.8; 三	0.57	1.01	0.71	0.64
（b） λ=20%
		100×偏差（β₁)					100×偏差（β₂)
0; 1	−1.30	−13.40	−9.48	−1.40	0; 1	0.95	5.62	3.81	0.93
0; 2	−0.88	−17.10	−12.20	3.94	0; 2	1.08	6.21	3.99	−0.86
0.25; 2	−0.27	−16.90	−11.90	4.18	0.25; 2	−0.20	5.47	3.25	−2.05
0.5; 2	0.08	−17时	−12.10	5.05	0.5; 2	−0.43	5.35	3.14	−2.46
		100×MSE（β₁)					100×MSE（β₂)
0; 1	0.94	2.28	1.36	0.90	0; 1	0.57	0.59	0.41	0.55
0; 2	1.75	4.43	2.88	2.13	0; 2	0.95	1.11	0.84	1.03
0.25; 2	1.26	3.96	2.46	1.59	0.25; 2	0.67	0.80	0.57	0.76
0.5; 2	1.71	4.33	2.80	2.26	0.5; 2	0.87	1	0.74	1.02

ρ; φ	U型_克	U型_对	U型_C类	U型_N个	ρ; φ	U型_克	U型_对	U型_C类	U型_N个
（a） λ=5%
		100×偏差（β₁)					100×偏差（β₂)
0; 1	0.85	−3.28	−0.56	0.82	0; 1	−0.55	1.16	−0.11	−0.54
0; 2	−0.60	−9.18	−5.35	0.91	0; 2	0.45	3.87	2.08	−0.15
0.25; 2	−0.69	−10.49	−6.55	0.90	0.25; 2	0.48	4.77	2.92	−0.19
0.5; 2	−0.49	−9.18	−5.33	1.03	0.5; 2	0.29	3.66	1.86	−0.31
0.8; 三	−2.97	−16.80	−12.10	2.06	0.8; 三	1.80	7.10	4.85	−0.06
		100×MSE（β₁)					100×MSE（β₂)
0; 1	0.43	0.48	0.36	0.42	0; 1	0.21	0.19	0.17	0.21
0; 2	0.64	1.42	0.83	0.68	0; 2	0.33	0.44	0.32	0.35
0.25; 2	0.69	1.85	1.14	0.71	0.25; 2	0.35	0.60	0.44	0.36
0.5; 2	1.09	1.83	1.22	1.18	0.5; 2	0.52	0.58	0.47	0.55
0.8; 三	1.48	4.29	2.83	1.68	0.8; 三	0.57	1.01	0.71	0.64
（b） λ=20%
		100×偏差（β₁)					100×偏差（β₂)
0; 1	−1.30	−13.40	−9.48	−1.40	0; 1	0.95	5.62	3.81	0.93
0; 2	−0.88	−17.10	−12.20	3.94	0; 2	1.08	6.21	3.99	−0.86
0.25; 2	−0.27	−16.90	−11.90	4.18	0.25; 2	−0.20	5.47	3.25	−2.05
0.5; 2	0.08	−17.00	−12.10	5.05	0.5; 2	−0.43	5.35	3.14	−2.46
		100×MSE（β₁)					100×MSE（β₂)
0; 1	0.94	2.28	1.36	0.90	0; 1	0.57	0.59	0.41	0.55
0; 2	1.75	4.43	2.88	2.13	0; 2	0.95	1.11	0.84	1.03
0.25; 2	1.26	3.96	2.46	1.59	0.25; 2	0.67	0.80	0.57	0.76
0.5; 2	1.71	4.33	2.80	2.26	0.5; 2	0.87	1	0.74	1.02

注：样本量K（K）为100，则真相关结构和工作相关结构均为AR1。协变量随时间变化。稳健方法基于τ=1.345的Huber函数。

表2

基于100个模拟的泊松响应100×偏差和100×MSE的比较

ρ; φ	U型_克	U型_对	U型_C类	U型_N个	ρ；φ	U型_克	U型_对	U型_C类	U型_N个
（a） λ=5%
		100×偏差（β₁)					100×偏差（β₂)
0; 1	0.85	−3.28	−0.56	0.82	0; 1	−0.55	1.16	−0.11	−0.54
0; 2	−0.60	−9.18	−5.35	0.91	0; 2	0.45	3.87	2.08	−0.15
0.25; 2	−0.69	−10.49	−6.55	0.90	0.25; 2	0.48	4.77	2.92	−0.19
0.5; 2	−0.49	−9.18	−5.33	1.03	0.5; 2	0.29	3.66	1.86	−0.31
0.8; 三	−2.97	−16.80	−12.10	2.06	0.8; 三	1.80	7.10	4.85	−0.06
		100×MSE（β₁)					100×MSE（β₂)
0; 1	0.43	0.48	0.36	0.42	0; 1	0.21	0.19	0.17	0.21
0; 2	0.64	1.42	0.83	0.68	0; 2	0.33	0.44	0.32	0.35
0.25; 2	0.69	1.85	1.14	0.71	0.25; 2	0.35	0.60	0.44	0.36
0.5; 2	1.09	1.83	1.22	1.18	0.5; 2	0.52	0.58	0.47	0.55
0.8；三	1.48	4.29	2.83	1.68	0.8; 三	0.57	1.01	0.71	0.64
（b） λ=20%
		100×偏差（β₁)					100×偏差（β₂)
0; 1	−1.30	−13.40	−9.48	−1.40	0; 1	0.95	5.62	3.81	0.93
0; 2	−0.88	−17.10	−12.20	3.94	0; 2	1.08	6.21	3.99	−0.86
0.25; 2	−0.27	−16.90	−11.90	4.18	0.25; 2	−0.20	5.47	3.25	−2.05
0.5; 2	0.08	−17.00	−12.10	5.05	0.5; 2	−0.43	5.35	3.14	−2.46
		100×MSE（β₁)					100×MSE（β₂)
0; 1	0.94	2.28	1.36	0.90	0; 1	0.57	0.59	0.41	0.55
0; 2	1.75	4.43	2.88	2.13	0; 2	0.95	1.11	0.84	1.03
0.25; 2	1.26	3.96	2.46	1.59	0.25; 2	0.67	0.80	0.57	0.76
0.5; 2	1.71	4.33	2.80	2.26	0.5; 2	0.87	1	0.74	1.02

ρ; φ	U型_克	U型_对	U型_C类	U型_N个	ρ; φ	U型_克	U型_对	U型_C类	U型_N个
（a） λ=5%
		100×偏差（β₁)					100×偏差（β₂)
0; 1	0.85	−3.28	−0.56	0.82	0; 1	−0.55	1.16	−0.11	−0.54
0; 2	−0.60	−9.18	−5.35	0.91	0; 2	0.45	3.87	2.08	−0.15
0.25; 2	−0.69	−10.49	−6.55	0.90	0.25; 2	0.48	4.77	2.92	−0.19
0.5; 2	−0.49	−9.18	−5.33	1.03	0.5; 2	0.29	3.66	1.86	−0.31
0.8; 三	−2.97	−16.80	−12时10分	2.06	0.8; 三	1.80	7.10	4.85	−0.06
		100×MSE（β₁)					100×MSE（β₂)
0; 1	0.43	0.48	0.36	0.42	0; 1	0.21	0.19	0.17	0.21
0; 2	0.64	1.42	0.83	0.68	0; 2	0.33	0.44	0.32	0.35
0.25; 2	0.69	1.85	1.14	0.71	0.25; 2	0.35	0.60	0.44	0.36
0.5; 2	1.09	1.83	1.22	1.18	0.5; 2	0.52	0.58	0.47	0.55
0.8; 三	1.48	4.29	2.83	1.68	0.8; 三	0.57	1.01	0.71	0.64
（b） λ=20%
		100×偏差（β₁)					100×偏差（β₂)
0; 1	−1.30	−13.40	−9.48	−1.40	0; 1	0.95	5.62	3.81	0.93
0; 2	−0.88	−17.10	−12.20	3.94	0; 2	1.08	6.21	3.99	−0.86
0.25; 2	−0.27	−16.90	−11.90	4.18	0.25; 2	−0.20	5.47	3.25	−2.05
0.5; 2	0.08	−17.00	−12.10	5.05	0.5; 2	−0.43	5.35	3.14	−2.46
		100×MSE（β₁)					100×MSE（β₂)
0; 1	0.94	2.28	1.36	0.90	0; 1	0.57	0.59	0.41	0.55
0; 2	1.75	4.43	2.88	2.13	0; 2	0.95	1.11	0.84	1.03
0.25; 2	1.26	3.96	2.46	1.59	0.25; 2	0.67	0.80	0.57	0.76
0.5; 2	1.71	4.33	2.80	2.26	0.5; 2	0.87	1	0.74	1.02

注：样本量K（K）为100，则真相关结构和工作相关结构均为AR1。协变量随时间变化。稳健方法基于τ=1.345的Huber函数。

即使在正常情况下，如果污染分布不对称，也存在明显的偏差。当λ=20%时，所有情况下的偏差都会变得更大。我们的方法在所有情况下都成功地消除了稳健GEE估计中的偏差。EXC和AR1工作模型下的类似结果表明，工作相关性矩阵似乎对性能没有影响。

然而，对于对称分布（正态），正如我们所预期的那样，在偏差校正中没有增益。在表3，偏差对于受污染的泊松数据，即使λ=5%，也约为12%，这表明需要对有效的统计推断进行偏差校正。

表3

基于100个模拟的泊松响应100×偏差和100×MSE的比较

ρ; φ	U型_克	U型_对	U型_C类	U型_N个	ρ; φ	U型_克	U型_对	U型_C类	U型_N个
（a） λ=5%，协变量为二元（0或1，各50%）
		100×偏差（β₁)					100×偏差（β₂)
0; 1	−0.43	−3.78	−1.63	−0.48	0; 1	0.17	0.30	0.18	0.17
0; 2	0.02	−7.65	−4.78	−0.25	0; 2	0.24	0.87	0.51	0.24
0.25; 2	−0.85	−8.97	−6.27	−1.15	0.25; 2	0.53	1.31	0.89	0.53
0.5; 2	0.41	−8.37	−5.72	−0.01	0.5; 2	0.79	1.71	1.34	0.81
0.8; 三	−1.68	−11.70	−8.00	−2.18	0.8; 三	1.73	2.90	2.08	1.72
（b） λ=20%，协变量为二元（0或1，各50%）
		100×偏差（β₁)					100×偏差（β₂)
0; 1	1.38	−7.73	−5.04	1.10	0; 1	0.29	0.79	0.45	0.27
0; 2	−0.33	−10.20	−6.48	−0.67	0; 2	0.49	1.38	0.75	0.47
0.25; 2	−0.79	−10.80	−7.15	−1.16	0.25; 2	0.56	1.59	0.91	0.55
0.5; 2	−1.41	−11.50	−7.93	−1.80	0.5; 2	0.73	1.89	1.17	0.73
0.8; 三	1.76	−13.50	−8.9	0.78	0.8；三	1.51	3.67	2.56	1.51
（c） λ=20%，协变量随时间变化
		100×偏差（β₁)					100×偏差（β₂)
0; 1	0.98	−9.88	−7.91	1.17	0; 1	1.07	1.40	1.04	1.03
0; 2	−0.83	−11.50	−8.95	−0.51	0; 2	0.93	2.08	1.55	0.89
0.25; 2	1.54	−10.00	−7.53	1.79	0.25; 2	1.21	1.82	1.35	1.14
0.5; 2	−0.93	−12.10	−9.55	−0.66	0.5; 2	1.27	2.48	1.91	1.23
0.8; 三	2.74	−10.70	−7.87	2.88	0.8；三	2.14	2.77	2.20	2.06

ρ; φ	U型_克	U型_对	U型_C类	U型_N个	ρ; φ	U型_克	U型_对	U型_C类	U型_N个
（a） λ=5%，协变量为二元（0或1，各50%）
		100×偏差（β₁)					100×偏差（β₂)
0; 1	−0.43	−3.78	−1.63	−0.48	0; 1	0.17	0.30	0.18	0.17
0; 2	0.02	−7.65	−4.78	−0.25	0; 2	0.24	0.87	0.51	0.24
0.25; 2	−0.85	−8.97	−6.27	−1.15	0.25; 2	0.53	1.31	0.89	0.53
0.5; 2	0.41	−8.37	−5.72	−0.01	0.5; 2	0.79	1.71	1.34	0.81
0.8; 三	−1.68	−11.70	−8.00	−2.18	0.8; 三	1.73	2.90	2.08	1.72
（b） λ=20%，协变量为二元（0或1，各50%）
		100×偏差（β₁)					100×偏差（β₂)
0; 1	1.38	−7.73	−5.04	1.10	0; 1	0.29	0.79	0.45	0.27
0; 2	−0.33	−10.20	−6.48	−0.67	0; 2	0.49	1.38	0.75	0.47
0.25; 2	−0.79	−10.80	−7.15	−1.16	0.25; 2	0.56	1.59	0.91	0.55
0.5; 2	−1.41	−11.50	−7.93	−1.80	0.5; 2	0.73	1.89	1.17	0.73
0.8; 三	1.76	−13.50	−8.9	0.78	0.8; 三	1.51	3.67	2.56	1.51
（c） λ=20%，协变量随时间变化
		100×偏差（β₁)					100×偏差（β₂)
0; 1	0.98	−9.88	−7.91	1.17	0; 1	1.07	1.40	1.04	1.03
0; 2	−0.83	−11.50	−8.95	−0.51	0; 2	0.93	2.08	1.55	0.89
0.25; 2	1.54	−10.00	−7.53	1.79	0.25; 2	1.21	1.82	1.35	1.14
0.5; 2	−0.93	−12.10	−9.55	−0.66	0.5; 2	1.27	2.48	1.91	1.23
0.8; 三	2.74	−10.70	−7.87	2.88	0.8; 三	2.14	2.77	2.20	2.06

注：样本量K（K）为100，Huber函数（τ=1.8）。真相关结构为AR1，工作相关为EXC。污染率为λ=0.05。

表3

基于100个模拟的泊松响应100×偏差和100×MSE的比较

ρ; φ	U型_克	U型_对	U型_C类	U型_N个	ρ; φ	U型_克	U型_对	U型_C类	U型_N个
（a） λ=5%，协变量为二元（0或1，各50%）
		100×偏差（β₁)					100×偏差（β₂)
0; 1	−0.43	−3.78	−1.63	−0.48	0; 1	0.17	0.30	0.18	0.17
0; 2	0.02	−7.65	−4.78	−0.25	0; 2	0.24	0.87	0.51	0.24
0.25; 2	−0.85	−8.97	−6.27	−1.15	0.25; 2	0.53	1.31	0.89	0.53
0.5; 2	0.41	−8.37	−5.72	−0.01	0.5; 2	0.79	1.71	1.34	0.81
0.8; 三	−1.68	−11.70	−8点	−2.18	0.8; 三	1.73	2.90	2.08	1.72
（b） λ=20%，协变量为二元（0或1，各50%）
		100×偏差（β₁)					100×偏差（β₂)
0; 1	1.38	−7.73	−5.04	1.10	0; 1	0.29	0.79	0.45	0.27
0; 2	−0.33	−10.20	−6.48	−0.67	0; 2	0.49	1.38	0.75	0.47
0.25; 2	−0.79	−10.80	−7.15	−1.16	0.25; 2	0.56	1.59	0.91	0.55
0.5; 2	−1.41	−11.50	−7.93	−1.80	0.5; 2	0.73	1.89	1.17	0.73
0.8; 三	1.76	−13.50	−8.9	0.78	0.8; 三	1.51	3.67	2.56	1.51
（c） λ=20%，协变随时间变化
		100×偏差（β₁)					100×偏差（β₂)
0; 1	0.98	−9.88	−7.91	1.17	0; 1	1.07	1.40	1.04	1.03
0; 2	−0.83	−11.50	−8.95	−0.51	0; 2	0.93	2.08	1.55	0.89
0.25; 2	1.54	−10.00	−7.53	1.79	0.25; 2	1.21	1.82	1.35	1.14
0.5; 2	−0.93	−12.10	−9.55	−0.66	0.5; 2	1.27	2.48	1.91	1.23
0.8; 三	2.74	−10.70	−7.87	2.88	0.8; 三	2.14	2.77	2.20	2.06

ρ; φ	U型_克	U型_对	U型_C类	U型_N个	ρ; φ	U型_克	U型_对	U型_C类	U型_N个
（a） λ=5%，协变为二进制（0或1，各50%）
		100×偏差（β₁)					100×偏差（β₂)
0; 1	−0.43	−3.78	−1.63	−0.48	0; 1	0.17	0.30	0.18	0.17
0; 2	0.02	−7.65	−4.78	−0.25	0; 2	0.24	0.87	0.51	0.24
0.25; 2	−0.85	−8.97	−6.27	−1.15	0.25; 2	0.53	1.31	0.89	0.53
0.5; 2	0.41	−8.37	−5.72	−0.01	0.5; 2	0.79	1.71	1.34	0.81
0.8; 三	−1.68	−11.70	−8.00	−2.18	0.8; 三	1.73	2.90	2.08	1.72
（b） λ=20%，协变量为二元（0或1，各50%）
		100×偏差（β₁)					100×偏差（β₂)
0; 1	1.38	−7.73	−5.04	1.10	0; 1	0.29	0.79	0.45	0.27
0; 2	−0.33	−10月20日	−6.48	−0.67	0; 2	0.49	1.38	0.75	0.47
0.25; 2	−0.79	−10.80	−7.15	−1.16	0.25; 2	0.56	1.59	0.91	0.55
0.5; 2	−1.41	−11.50	−7.93	−1.80	0.5; 2	0.73	1.89	1.17	0.73
0.8; 三	1.76	−13.50	−8.9	0.78	0.8; 三	1.51	3.67	2.56	1.51
（c） λ=20%，协变量随时间变化
		100×偏差（β₁)					100×偏差（β₂)
0; 1	0.98	−9.88	−7.91	1.17	0; 1	1.07	1.40	1.04	1.03
0; 2	−0.83	−11.50	−8.95	−0.51	0; 2	0.93	2.08	1.55	0.89
0.25; 2	1.54	−10.00	−7.53	1.79	0.25; 2	1.21	1.82	1.35	1.14
0.5; 2	−0.93	−12.10	−9.55	−0.66	0.5; 2	1.27	2.48	1.91	1.23
0.8; 三	2.74	−10.70	−7.87	2.88	0.8; 三	2.14	2.77	2.20	2.06

注：样本量K（K）为100，Huber函数（τ=1.8）。真相关结构为AR1，工作相关为EXC。污染率为λ=0.05。

表3还显示了50%的受试者有四个观察值，而其他50%受试者则有八个观察值时泊松数据估计值的MSE。考虑了两种类型的协变量（簇级和簇内）。同样已基本移除。与其他估计量相比，偏差修正估计量的MSE也大大降低。

偏差修正估计器的性能与GEE估计器类似。这是因为对于GEE方法，平均值和方差函数几乎是正确指定的。但对于稳健方法，均值和方差函数总是被错误指定。因此，我们的模拟设置有利于GEE方法。

偏差校正成功地减少了偏差。但这通常会导致新估计器的方差较大，因此MSE较大。的确，如所示表1和2，在某些情况下，建议的方法效果较差。因为我们对偏差的估计是基于对异常值不敏感的稳健估计函数，所以我们期望在某些情况下表现良好（请参阅表3).

我们还检查了各种其他λ值和M（M）结合不同的协变量设计和Huber函数中不同的τ值（簇大小相等和不等），得出了非常相似的结论。

4.示例

我们现在使用癫痫发作研究的数据集进行说明。有关研究的详细信息，请参阅塔尔和维尔（1990）这项随机试验包括31名接受进展治疗的患者和28名接受安慰剂治疗的患者。59名患者的癫痫发作计数以连续4个2周的间隔进行记录，基线周期为8周。实验期间使用了两种不同的治疗方法（安慰剂和药物）。我们在模型中考虑了四个因素：治疗（安慰剂为0，药物为1），年龄对数，基线发作次数（除以4，然后进行对数转换），以及治疗与基线发作之间的相互作用。log-link函数，μ_它=经验(x个^T型_它β），以及过分散的泊松方差var(年_它) =φμ_它在我们的分析中使用。发现与受试者的相关性很强(⁠对于具有AR1工作相关假设的GEE方法），提出了各种协方差模型来解释泊松回归模型中的额外变化。

我们首先使用GLM（独立GEE模型）对数据进行拟合，发现过度分散参数φ为3.8。所有受试者的平均成对剩余产品也显示出显著的受试者内相关性。因此，我们采用了普通的GEE方法（即。，L（左）_第页-标准，第页=2）具有AR1工作相关结构。β及其相应标准误差的估计值见表4.正如所指出的Diggle等人（2002年），207号患者在基线检查时癫痫发作次数极高，治疗后癫痫发作次数增加了一倍（见图1.5Diggle等人，2002年). 一种简单的方法是丢弃该患者的数据(Diggle等人，2002年). 然而，我们的残差图显示，112、207、225和227名患者都可能是“异常值”(图1)，并且很难证明将它们全部排除在分析之外是合理的，因为这样做没有临床依据(塔尔和维尔，1990年). 因此，使用一些稳健估计方法进行分析非常有趣。

表4

使用AR1工作模型对癫痫数据的参数估计（括号中的标准误差）

拦截		治疗	日志（年龄）	日志（基线）	互动
τ=1.345的Huber函数
	−3.07 (0.93)	−1.49 (0.42)	0.98 (0.27)	0.94（0.09）	0.62 (0.17)
	−2.83 (0.99)	−1.48 (0.39)	0.88 (0.30)	0.96 (0.08)	0.59（0.17）
	−2.70 (0.98)	−1.43 (0.39)	0.86 (0.29)	0.94 (0.07)	0.58 (0.17)
	−3.00 (1.02)	−1.49 (0.35)	0.97 (0.31)	0.94（0.07）	0.62 (0.14)
向右：L（左）_第页规范(第页= 2.0)
	−3.07 (0.93)	−1.49 (0.42)	0.98 (0.27)	0.94 (0.09)	0.62 (0.17)
稳健的GEE(第页= 1.5)
	−2.75 (1.08)	−1.51 (0.42)	0.86 (0.33)	0.96 (0.08)	0.62 (0.18)
	−2.69 (1.33)	−1.31 (0.46)	0.87 (0.40)	0.93 (0.07)	0.57 (0.20)
	−3.16 (1.08)	−1.54（0.37）	1.01 (0.33)	0.94 (0.10)	0.64 (0.15)

拦截		治疗	日志（年龄）	日志（基线）	互动
τ=1.345的Huber函数
	−3.07 (0.93)	−1.49 (0.42)	0.98 (0.27)	0.94 (0.09)	0.62 (0.17)
	−2.83 (0.99)	−1.48 (0.39)	0.88 (0.30)	0.96（0.08）	0.59 (0.17)
	−2.70 (0.98)	−1.43 (0.39)	0.86 (0.29)	0.94 (0.07)	0.58 (0.17)
	−3.00 (1.02)	−1.49 (0.35)	0.97 (0.31)	0.94 (0.07)	0.62 (0.14)
向右：L（左）_第页规范(第页= 2.0)
	−3.07 (0.93)	−1.49 (0.42)	0.98 (0.27)	0.94 (0.09)	0.62 (0.17)
稳健的GEE(第页= 1.5)
	−2.75 (1.08)	−1.51（0.42）	0.86 (0.33)	0.96 (0.08)	0.62 (0.18)
	−2.69 (1.33)	−1.31 (0.46)	0.87（0.40）	0.93 (0.07)	0.57 (0.20)
	−3.16 (1.08)	−1.54 (0.37)	1.01 (0.33)	0.94 (0.10)	0.64 (0.15)

表4

使用AR1工作模型对癫痫数据的参数估计（括号中的标准误差）

拦截		治疗	日志（年龄）	日志（基线）	互动
τ=1.345的Huber函数
	−3.07 (0.93)	−1.49 (0.42)	0.98 (0.27)	0.94 (0.09)	0.62 (0.17)
	−2.83 (0.99)	−1.48 (0.39)	0.88 (0.30)	0.96 (0.08)	0.59 (0.17)
	−2.70 (0.98)	−1.43 (0.39)	0.86 (0.29)	0.94 (0.07)	0.58 (0.17)
	−3.00 (1.02)	−1.49 (0.35)	0.97 (0.31)	0.94 (0.07)	0.62 (0.14)
地点：L（左）_第页规范(第页= 2.0)
	−3.07 (0.93)	−1.49 (0.42)	0.98 (0.27)	0.94（0.09）	0.62 (0.17)
稳健的GEE(第页= 1.5)
	−2.75 (1.08)	−1.51 (0.42)	0.86 (0.33)	0.96 (0.08)	0.62 (0.18)
	−2.69（1.33）	−1.31 (0.46)	0.87 (0.40)	0.93 (0.07)	0.57 (0.20)
	−3.16 (1.08)	−1.54 (0.37)	1.01 (0.33)	0.94 (0.10)	0.64 (0.15)

拦截		治疗	日志（年龄）	日志（基线）	互动
τ=1.345的Huber函数
	−3.07 (0.93)	−1.49 (0.42)	0.98 (0.27)	0.94 (0.09)	0.62 (0.17)
	−2.83 (0.99)	−1.48 (0.39)	0.88 (0.30)	0.96 (0.08)	0.59 (0.17)
	−2.70（0.98）	−1.43 (0.39)	0.86 (0.29)	0.94 (0.07)	0.58 (0.17)
	−3.00 (1.02)	−1.49（0.35）	0.97 (0.31)	0.94 (0.07)	0.62 (0.14)
向右：L（左）_第页规范(第页= 2.0)
	−3.07 (0.93)	−1.49 (0.42)	0.98（0.27）	0.94 (0.09)	0.62 (0.17)
稳健的GEE(第页= 1.5)
	−2.75 (1.08)	−1.51 (0.42)	0.86 (0.33)	0.96 (0.08)	0.62 (0.18)
	−2.69 (1.33)	−1.31 (0.46)	0.87 (0.40)	0.93 (0.07)	0.57 (0.20)
	−3.16 (1.08)	−1.54 (0.37)	1.01 (0.33)	0.94 (0.10)	0.64 (0.15)

图1

癫痫发作数据的残差图。通过患者ID识别可能的异常值。

新标签中打开下载幻灯片

我们使用τ=1.345的Huber函数进一步应用了稳健的GEE方法。这种方法导致估计值发生了重大变化。正如人们所料，残差图显示出高度偏斜。因此，在应用稳健方法时，有必要进行偏差修正。因此，我们考虑了两者和⁠。请注意与GEE估计值有很大不同，这意味着在评估E｛ψ（ε_它)}可能不合适。因此，我们的无分布偏差校正方法在稳健估计过程中可能有用。我们还发现E的偏差(U型_对)用这两种方法估计和⁠，显示出实质性差异。作为进一步的检查，我们使用预测值作为平均值生成了泊松数据，并获得了皮尔逊残差。情节比年的情节对称得多图1，表明发作计数数据比泊松分布更为偏斜。

另一种使GEE估计器鲁棒的方法是使用L（左）_第页-范数而不是Huber函数。这是因为当1≤第页< 2. 在表4，我们还对第页= 1.5. 与GEE相比（即。，第页=2）结果，估计值，尤其是截距，差异很大。然而，对于第页=1.5，稳健GEE的估计值显示出与普通GEE的一些显著差异。注意，所有稳健估计，包括Huber方法的估计，都不再保留相同的含义。因此，我们预计估计值会有所不同，因为残差是高度倾斜的，为了进行有效的推断，有必要进行偏差校正。此外，通过偏差修正，估计值应具有相同的含义，以便直接比较变得有意义。带有偏差修正的估计值更接近GEE估计值。从Huber估计结果中也可以得出关于偏差修正的类似结论。

5.讨论

考虑的稳健方法Preisser和Qaqish（1999）,Hu和Lachin（2001）、和Cantoni和Ronchetti（2001）为稳健推断建立了一种有用且方便的方法。我们的目的是消除由于增强GEE估计量而产生的偏差。这里提出的方法是无分布的，一般适用。我们的模拟研究表明，偏差校正对连续分布和离散分布都有效。如前所述，U型_选择（β）是理论上的最优估计函数。但它需要分布假设，因此它仍然是一种基于相似性的方法。当难以指定“真实”分布时，我们的无分布方法提供了一种有用的替代方法。

在存在过度分散的情况下Cantoni和Ronchetti（2001）只能根据二项式或泊松分布等已知分布校正部分偏差。通过使用β二项式和负二项式分布，将他们的方法推广到过分散二项式和泊松分布是很有意思的。然而，这种偏差校正是特定于分布的，即诱导过度分散的不同分布将导致不同的偏差表达式。当可能性出现错误时，进一步检查这些基于相似性的偏差校正方法的性能也很有意思。另一方面，我们可能希望根据转换后的残差（如中位数）得出结论，即使对于偏态分布，也可能不需要进行偏差校正。例如，在比较两种治疗方法时，中位数而不是平均值也是合适的，并且无需校正中位数估计值以使其成为平均值估计值。

致谢

我们要感谢联合主编和副主编的建设性意见，这些意见使论文得到了很大的改进。这项研究得到了新加坡国立大学拨款R-155-000-037-112的部分支持。

工具书类

坎通尼

,

E.公司。

和

龙凯蒂

,

E.公司。

(

2001

).

广义线性模型的稳健推理。

美国统计协会杂志

96

,

1022

–

1030

.

芝加哥

,

电子显微镜。

(

1994

).

交叉试验中的M估计

.

生物识别

50

,

486

–

493

.

挖掘

,

第J页。

,

亨格蒂

,

第页。

,

梁

,

K.Y.公司。

、和

Zeger公司

,

S.L.公司。

(

2002

).

纵向数据分析

，第2版。

牛津

:

牛津大学出版社

.

腮

,

附言。

(

2000

).

纵向数据的稳健混合线性模型分析。

医学统计学

19

,

975

–

987

.

他

,

十、。

,

朱

,

Z.-Y.公司。

、和

冯

,

W.K.公司。

(

2002

).

具有未指定依赖结构的纵向数据的半参数模型估计。

生物计量学

89

,

579

–

590

.

胡

,

墨西哥。

和

拉金

,

J·M·。

(

2001

).

稳健估计方程在定量纵向数据分析中的应用。

医学统计学

20

,

3411

–

3428

.

胡贝尔

,

第J页。

(

1981

).

稳健的统计

.

纽约

:

威利

.

哈金斯

,

风险管理。

(

1993

).

一种稳健的重复测量分析方法

.

生物识别

49

,

715

–

720

.

荣格

,

S.-H.公司。

(

1996

).

中值回归模型的拟似然

.

美国统计协会杂志

91

,

251

–

257

.

荣格（Jung）

,

S.-H.公司。

和

应

,

Z.公司。

(

2003

).

重复测量数据的基于秩的回归。

生物计量学

90

,

731

–

740

.

梁

,

K.Y.公司。

和

泽格

,

S.L.公司。

(

1986

).

使用广义线性模型进行纵向数据分析。

生物计量学

73

,

13

–

22

.

普赖塞尔

,

J.S.公司。

和

卡奇什

,

B.F.公司。

(

1999

).

基于二进制响应的聚类数据稳健回归

.

生物识别

55

,

574

–

579

.

卡奇什

,

B.F.公司。

和

普赖塞尔

,

J.S.公司。

(

1999

).

相关结果回归的阻力拟合——估计方程法

.

统计规划与推断杂志

75

,

415

–

431

.

施拉德尔

,

风险管理。

和

赫特曼斯佩格

,

T.P.公司。

(

1980

).

基于似然比准则的方差稳健分析

.

生物计量学

67

,

93

–

101

.

小型

,

C.G.公司。

和

麦克利什

,

D.升。

(

1994

).

概率统计推断中的希尔伯特空间方法

.

纽约

:

威利

.

街道

,

J.O.公司。

,

卡罗尔

,

右J。

、和

鲁珀特

,

D。

(

1988

).

关于用迭代加权最小二乘法计算稳健回归估计的注记

.

美国统计学家

42

,

152

–

154

.

OpenURL占位符文本

塔尔

,

P.F.公司。

和

维尔

,

南卡罗来纳州。

(

1990

).

具有过分散性的纵向计数数据的协方差模型

.

生物识别

46

,

657

–

671

.

王

,

Y.-G.公司。

和

凯里

,

V·J。

(

2003

).

工作相关结构错误指定、估计和协变量设计：对GEE绩效的影响

.

生物计量学

90

,

29

–

41

.

王

,

Y.-G.公司。

和

凯里

,

V·J。

(

2004

).

非定时重复测量的工作相关模型的无偏估计方程。

美国统计协会杂志

99

,

845

–

853

.