生物特征。2016年9月;103(3): 547–562.
具有失效时间结果的病例组研究的变量选择
- 补充资料
补充数据。
GUID:3148DC7F-BE4A-49C4-B64C-2BDF390E3D49
摘要
病例-协方差分析设计广泛应用于大型队列研究中,以降低与协变量测量相关的成本。在许多这样的研究中,协变量的数量非常大,因此需要一种有效的变量选择方法。在本文中,我们研究了在具有发散参数数的病例队列设计中,使用平滑剪裁的绝对偏差惩罚的变量选择过程的性质。我们建立了最大惩罚伪部分似然估计量的一致性和渐近正态性,并证明了所提出的变量选择方法是一致的,并且具有渐近预言性质。仿真研究比较了该方法与基于Akaike信息准则和Bayesian信息准则的调谐参数选择方法的有限样本性能。我们建议在病例组研究中使用建议的程序,并将其应用于Busselton Health Study。
关键词:案例协方差设计、参数离散数、Oracle属性、平滑剪裁绝对偏差、生存分析、变量选择
3.具有惩罚伪部分似然的变量选择
3.1. 惩罚伪部分似然
我们将惩罚伪部分似然定义为
哪里是一个非负惩罚函数.非负调谐参数控制模型的复杂性。我们使用平滑剪裁的绝对偏差惩罚(Fan&Li,2001年)具有协变量特定调谐参数,允许不同的回归系数具有不同的惩罚函数。平滑剪裁的绝对偏差惩罚为
对一些人来说和。罚款的一阶导数为
3.2. 规律性条件
对于每个,我们定义
我们需要以下正则性条件:
条件1-
和;
条件5-
作为;
条件6-
对于。
条件1保证在研究结束时有有限的基线累积风险和非空风险集。条件2要求每个与时间相关的协变量的随机过程几乎肯定具有有界变化。条件3基本上要求在发散维下是可积的,因此关于()可以互换。条件4确保在正则设计和案例短设计下,得分函数的协方差矩阵都是正定的,并且所有的特征值都一致有界; 它假设用于变量选择的目标函数的非奇异Hessian矩阵。其他变量选择工作中也假设了相同的条件(彭帆,2004;Cai等人,2005年;Cho&Qu,2013年). 条件5规定了所建议的程序能够区分非零参数和零参数的速率。作为,该过程检测到的非零参数的大小可以接近零,但速度慢于调谐参数。这个条件是推导所提出的过程的渐近性质所必需的,并且已经被许多作者假设(例如。,彭帆,2004;Wang等人,2009年;Cho&Qu,2013年;Fan&Tang,2013年). 在现实的生物医学研究中,通常存在一个固定的最小临床重要效应大小。任何小于此大小的影响都可以有效地视为零。因此,条件5是一个合理的要求。条件6意味着那些有限样本估计值与将自动缩小为零;这有助于建立变量选择的oracle属性。
确认
我们感谢Matthew Knuiman教授和Busselton人口医学研究基金会允许在§5.2的分析中使用这些数据。这项工作得到了美国国立卫生研究院的部分支持。
工具书类
- Akaike H.(1973)。高斯自回归滑动平均模型的最大似然辨识。生物特征 60, 255–65.[谷歌学者]
- 巴洛·W·E(1994)。病例组设计的稳健方差估计。生物计量学 50, 1064–72. [公共医学][谷歌学者]
- Borgan O.、Langholz B.、Samuelsen S.O.、Goldstein L.和Pogoda J.(2000)。暴露分层病例组设计。寿命数据分析。 6, 39–58. [公共医学][谷歌学者]
- 蔡杰、范杰、李瑞和周华(2005)。多元失效时间数据的变量选择。生物特征 92,303–16。[PMC免费文章][公共医学][谷歌学者]
- Cho H.&Qu A.(2013)。参数发散相关数据的模型选择。统计师。西尼卡 23, 901–27.[谷歌学者]
- 考克斯·D·R(1972)。回归模型和生命表(含讨论)。J.R.统计。Soc.B公司 34, 187–220.[谷歌学者]
- Craven P.和Wahba G.(1979年)。用样条函数平滑噪声数据:用广义交叉验证方法估计平滑的正确程度。数字。数学。 31, 377–403.[谷歌学者]
- Cullen K.J.(1972年)。1966年至1970年Busselton人群的大规模健康检查。澳大利亚。医学杂志。 2, 714–8. [公共医学][谷歌学者]
- Fan J.&Li R.(2001)。基于非冲突惩罚似然的变量选择及其oracle性质。《美国统计杂志》。协会。 96, 1348–60.[谷歌学者]
- Fan J.&Li R.(2002)。Cox比例风险模型和脆弱性模型的变量选择。安。统计师。 30, 74–99.[谷歌学者]
- Fan Y.和Tang C.Y.(2013)。高维惩罚似然中的调谐参数选择。J.R.统计。Soc.B公司 75, 531–52.[谷歌学者]
- Hastie T.、Tibshirani R.J.和Friedman J.(2009年)。统计学习的要素柏林:Springer,第二版。[谷歌学者]
- Huber P.J.(1973)。稳健回归:渐近、猜想和蒙特卡罗。安。统计师。 1, 799–821.[谷歌学者]
- Hunter D.&Li R.(2005)。使用MM算法选择变量。安。统计师。 33, 1617–42.[PMC免费文章][公共医学][谷歌学者]
- Kalbfleisch J.D.和Lawless J.F.(1988年)。疾病发病率和死亡率多状态模型的可能性分析。统计师。医学。 7, 149–60. [公共医学][谷歌学者]
- Kang S.和Cai J.(2009)。具有多种疾病结局的病例组研究的边际风险模型。生物特征 96, 887–901.[PMC免费文章][公共医学][谷歌学者]
- Kim S.,Cai J.和Lu W.(2013)。病例组研究的更有效估计。生物特征 100, 695–708.[PMC免费文章][公共医学][谷歌学者]
- Knuiman M.W.、Divitini M.L.、Olynyk J.K.、Cullen D.J.和Bartholomew H.C.(2003)。血清铁蛋白与心血管疾病:西澳大利亚州Busselton 17年随访研究。美国流行病学杂志。 158, 144–9. [公共医学][谷歌学者]
- Kulich M.和Lin D.(2004)。提高病例组研究中相对风险评估的效率。《美国统计杂志》。协会。 99, 832–44.[谷歌学者]
- Leeb H.&Pötscher B.M.(2005)。模型选择与推理:事实与虚构。计量经济学。理论 21, 21–59.[谷歌学者]
- Leeb H.&Pötscher B.M.(2006)。可以估计模型选择后估计量的条件分布吗?安。统计师。 34, 2554–91.[谷歌学者]
- 林德(2000)。关于Cox比例风险模型对调查数据的拟合。生物特征 87,第37页至第47页。[谷歌学者]
- Meinshausen N.&Bühlmann P.(2010)。稳定性选择(讨论)。J.R.统计。Soc.B公司 72, 417–73.[谷歌学者]
- 彭浩、范杰(2004)。参数个数发散的非凹陷惩罚似然。安。统计师。 32, 928–61.[谷歌学者]
- Portnoy S.(1988)。指数族参数趋于无穷大时似然方法的渐近性。安。统计师。 16, 356–66.[谷歌学者]
- Pötscher B.M.和Leeb H.(2009)。惩罚极大似然估计量的分布:LASSO、SCAD和阈值。J.穆特。分析。 100, 2065–82.[谷歌学者]
- Prentice R.L.(1986)。流行病学队列研究和疾病预防试验的病例组设计。生物特征 73, 1–11.[谷歌学者]
- Schwarz G.(1978)。估算模型的维数。安。统计师。 6,461-4。[谷歌学者]
- Self S.G.和Prentice R.L.(1988年)。病例组研究的渐近分布理论和效率结果。安。统计师。 16, 64–81.[谷歌学者]
- Tibshirani R.J.(1996)。通过套索回归收缩和选择。J.R.统计。Soc.B公司 58, 267–88.[谷歌学者]
- Tibshirani R.J.(1997年)。Cox模型中变量选择的套索方法。统计师。医学。 16, 385–95. [公共医学][谷歌学者]
- 王宏、李斌和冷川(2009)。具有发散参数数的收缩率调谐参数选择。J.R.统计。Soc.B公司 71, 671–83.[谷歌学者]
- 王浩、李瑞和蔡家乐(2007)。平滑剪裁绝对偏差方法的参数选择器调整。生物特征 94, 553–68.[PMC免费文章][公共医学][谷歌学者]
- 张春华(2010)。极小极大凹惩罚下的几乎无偏变量选择。安。统计师。 38, 894–942.[谷歌学者]
- 张毅、李瑞和蔡家乐(2010)。基于广义信息准则的正则化参数选择。《美国统计杂志》。协会。 105, 312–23.[PMC免费文章][公共医学][谷歌学者]
- 邹H.(2006)。自适应套索及其oracle性质。《美国统计杂志》。协会。 101, 1418–29.[谷歌学者]
- 邹浩和张浩(2009)。参数发散的自适应弹性网。安。统计师。 37, 1733–51.[PMC免费文章][公共医学][谷歌学者]