跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
美国统计协会。作者手稿;PMC 2023年1月1日提供。
以最终编辑形式发布为:
美国统计协会杂志,2022年;117(537): 469–481.
2020年8月19日在线发布。 数字对象标识:10.1080/01621459.2020.1787840
预防性维修识别码:项目经理C9455891
美国国立卫生研究院:美国国家卫生研究院1641051
PMID:36091664

带有误差的间歇消费食品分布的半参数估计

关联数据

补充资料

摘要

观察到从24小时饮食召回中收集的饮食数据存在显著的测量误差。在非参数曲线估计文献中,大部分工作都致力于设计在噪声污染下一致的方法,这些方法传统上用于分析这些数据。然而,一些食物,如酒精或水果只是偶尔食用,可能不会在实施24小时召回的当天食用。这些所谓的过零点使得现有的非参数估计值失效,需要为这些数据开发新的技术。我们开发了两个新的一致性半参数估计量,用于估计此类偶发消费食品数据的分布,仅对模型中一些不太重要的部分进行参数假设。我们建立了它的理论性质,并在模拟数据和实际数据中说明了我们的完全数据驱动方法的良好性能。补充资料对于本文,可以在线获取。

关键词:渐近理论、反褶积、过零点、测量误差、非参数反褶积算

1.简介

多年来,美国(NHANES:国家健康和营养检查调查)、澳大利亚(例如,2007年澳大利亚国家儿童营养和身体活动调查)、加拿大(加拿大社区健康调查)和其他地方的国家营养调查都使用了24小时膳食召回(24HR)。24HR旨在收集过去24小时内营养素和食物摄入的准确信息,作为饮食评估的主要自我报告工具(Dwyer等人,2003年). 在国家调查中收集饮食数据的主要目的是估计各种营养素和食物组在人群和亚人群中的正常(即长期平均)摄入量分布,并监测这些摄入量随时间的变化。数据的另一个重要用途是将个人的正常摄入量与健康结果测量值(如肥胖或血压)联系起来。由于24小时摄入量仅记录了一天的食物/营养素摄入量,因此它不是一个很好甚至可靠的长期平均摄入量估计值。因此,仅使用24HR来估计正常摄入量的分布,而不考虑24HR的固有测量误差,对于重要数量(例如百分位数)来说,这是一种严重的偏差。

有大量的文献表明,当每天摄入食物/营养素时,估算正常摄入分布的测量误差。在该标准设置中,如果X(X)是未观察到和未观察到的正常摄入量,以及W公司单个24HR的结果,数据的典型模型W公司1,...,W公司n个是经典误差模型,其中W公司 =X +U型具有X(X)U型独立,在哪里U型表示测量误差。大多数文献都使用这个简单的模型或其变体,并假设24HR的日常可变性或测量误差具有完全已知的分布。通常W公司的不满足经典的加性误差模型,它是满足该模型的数据的转换版本。例如,通常假设模型在对数转换后满足。在这里,通常假设W公司=X(X)+U型,其中W公司=日志(W公司),X(X)=日志(X(X))、和U型=日志(U型)。更一般地说,通常假设模型在W公司的已被单调函数转换小时.

在营养学研究中,人们对偶尔食用的食物的通常摄入量相当感兴趣,例如鱼、全谷物、全水果、果汁、深绿色和橙色蔬菜和豆类(DOL)、牛奶等(参见,例如。,Guenther等人2008;Guenther、Reedy和Krebs-Smith,2008年;Guenther等人,2014年). 例如,在2001-2004年NHANES中,任何一天报告的总水果、全水果、全谷物、DOL和牛奶的非消耗百分比分别为17%、40%、42%、50%和12%。这些变量在非消费日等于零,在消费日严格为正。

通常每个受试者都有几个24小时回忆,因此观察结果是重复回忆的样本W公司ij公司对于= 1,...,n个,j个= 1,...,J,J≥ 2. 营养调查的一个主要目标是估计个人通常摄入量的分布,即T型=E类(W公司ij公司|X(X)). 重要的是要认识到,这是起初的数据规模。这个W公司ij公司’s仍然可以被视为日常变化所污染的正常摄入量的一个版本,但由于非消费日的过量零点,我们无法使用经典的加性误差模型来描述它们。

关于过零点加测量误差的问题,已有文献和相关的多种建模方法,我们使用与该文献一致的模型;看见Tooze、Grunwald和Jones(2002年),Tooze等人(2006年),Li、Shao和Palta(2005),Kipnis等人(2009年),Keogh等人(2011年),Zhang,Midthune,Pérez等人(2011),Zhang、Midthune、Guenther等人(2011年)、和卡罗尔(2014)然而,所有这些参考都是完全参数,并假设在数据转换后,每个随机变量都是正态分布的;看见第2节在这项工作中,我们是第一个提出通常摄入量分布估计量的人T型这打破了参数分布假设。正如我们所示,这个问题在技术上很难解决,需要全新的分析方法。

虽然我们工作的动机来自营养,但过量零问题出现在许多不同的领域,如生态学(Fletcher、MacKenzie和Villouta,2005年),环境(田2005)和药物测试(周和涂1999). 在那里,数据通常通过两个组件进行建模:一个用于说明观察到非零值的概率,另一个用于反映非零值分布。然后,人们的兴趣通常是(但不限于)估算模型的每个组成部分。我们在这项工作中提出的方法使我们能够得出这样的估计,作为我们估计程序的副产品。

本文的结构如下。我们在中介绍了我们的模型和数据第2节.我们在年引进的估算正常摄入量分布的方法第3节其中,对于误差密度已知和未知的情况,我们给出了两种不同的估计。我们导出了估计量的渐近性质第4节.英寸第5节在展示了如何在实践中选择我们的程序所需的平滑参数后,我们在模拟数据上说明了它们的数值性能,并应用该方法估计了美国一项饮食研究中的通常酒精和水果摄入的分布。结果的证明很长,在补充材料.

2.模型和数据

我们对日常(即长期日均)摄入量感兴趣T型一种食物。而不是观察T型,我们观察数据W公司ij公司,用于= 1,...,n个j个= 1,...,J,其中W公司ij公司代表报告的食物摄入量当天第个个人j个.有时个人不食用食物,因此W公司ij公司= 0. 在食用食物的日子里,食物摄入量的测量方法是W公司ij公司,经过适当的转换后,它是通常摄入的版本X(X)受到经典测量误差的影响。

Tooze等人(2006年),2010)和Kipnis等人(2009年)考虑了这个问题的参数模型。在他们的公式中,他们假设饮食成分的摄入概率可以通过已知的严格递增的累积分布函数来描述H(H)例如,logistic分布函数。我们上下文中的等效公式如下。具体来说,对于= 1,...,n个j个= 1,...,J,他们假设对于一些潜在变量X(X)与正常摄入量有关,

(W公司j个>0X(X))=H(H)(β0+β1X(X))H(H)β(X(X)),

哪里β0β1未知参数和βT型= (β0,β1). 例如,在大多数情况下,在给定的一天吃某种食物的概率是该食物通常摄入量的增加函数:我们平均吃的食物越多,我们在给定的日子吃的可能性就越大。

在食用食物的日子里,经过适当的转换,测得的食物摄入量满足经典误差模型。具体来说,我们假设存在一个已知的严格单调函数小时:(0,)例如,对数变换,使得给定潜在变量X(X),的W公司ij公司是独立的,并且

(W公司˜j个v(v)W公司j个>0,X(X)=x)=(X(X)+U型j个v(v)X(X)=x),

哪里W公司˜j个=小时(W公司j个)U型ij公司表示独立于(i、 j个)并且独立于X(X)。转换后经典测量误差的假设在饮食评估文献中相当标准,并已被使用Kipnis等人(2009年),Zhang、Midthune、Guenther等人(2011年)、和Zhang,Midthune,Pérez等人(2011)此外,假设测量误差之间的独立性在复制时间相差很远的情况下也是典型的。我们分析的数据类型第5.5节我们工作的灵感来源于至少3个月后进行的复制,这是复制的标准抽样模式,因此在时间上相差很大。

取决于密度(f)U型U型ij公司(a)已知;或(b)未知,(f)U型通常假设是对称的和连续的。此外X(X)独立且同分布,且其密度(f)X(X)未知。自始至终,对于任何随机变量Z轴,我们使用(f)Z轴表示其密度。

最后,根据关于重复污染数据的标准经典误差模型假设,我们假设个人食用食物后两天的测量食物摄入量是独立的X(X)具体来说,由于复制满足经典误差模型,我们假设,对于1≤n个j个j个′,

(W公司˜j个v(v),W公司˜j个w个W公司j个>0,W公司j个>0,X(X)=x)=(X(X)+U型j个v(v)X(X)=x)(X(X)+U型j个w个X(X)=x).

这些假设意味着

(W公司˜j个v(v)W公司j个>0,X(X)=x)=(U型j个v(v)x),
(1)

(W公司˜j个v(v),W公司˜j个w个W公司j个>0,W公司j个>0,X(X)=x)=(U型j个v(v)x)(U型j个w个x).
(2)

我们的目标是估计通常摄入量的分布函数,在文献中定义为随机变量T型=E(W公司ij公司|X(X)). 我们强调这一点X(X)不是此人的正常摄入量,T型是,而且X(X)是与正常摄入量相关的潜在变量。

3.方法

3.1. 基本计算

查找的表达式F类T型(t吨)=(T型t吨),我们首先表示随机变量T型作为

T型=E类(W公司j个X(X))=E类[W公司j个{(W公司j个=0)+(W公司j个>0)}X(X)]=E类(W公司j个W公司j个>0,X(X))H(H)β(X(X)),=H(H)β(X(X))(小时1(f)U型)(X(X)),
(3)

在哪里写最后一个方程式,我们使用了以下事实E类(W公司j个W公司j个>0,X(X))=小时1(v(v))(f)U型(v(v)X(X))d日v(v)=(小时1(f)U型)(X(X)),它来自(1),我们假设小时1在整个实线上定义良好。我们推断

F类T型(t吨)={H(H)β(X(X))(小时1(f)U型)(X(X))t吨}=A类β(t吨)(f)X(X)(x)d日x,

哪里

A类β(t吨)={x:H(H)β(x)(小时1(f)U型)(x)t吨}.
(4)

很容易看出这一点A类β(t吨)==1第页[21,2],其中2<<2第页,1,12第页不需要是有限的,除非H(H)β(x)(小时1(f)U型)(x)无限多次地振荡,第页是有限的。在这个符号中,F类T型(t吨)可以表示为

F类T型(t吨)==1第页212(f)X(X)(x)d日x==12第页(1)(f)X(X)(x)d日x==12第页(1)T型()(||<)+(2第页=),
(5)

在哪里,对所有人来说,

T型()=(f)X(X)(x)d日x.
(6)

因此,要估计F类T型(t吨),只需估计j个的,取决于未知β0β1、和函数T型,这取决于未知(f)X(X)。我们将演示如何在第3.3节.

备注3.1。

While期间第页j个的取决于t吨,为了简化表示,我们没有在符号中明确表示这种依赖关系。

为了节省空间,我们定义如下

j个<j个J=j个=1J1j个=j个+1J.
(7)

3.2. 当fU型已知

我们首先展示如何估计β,T型F类T型在这种情况下(f)U型已知。

参数β= (β0, β1)T型通过隐式定义H(H)β(x)=(W公司j个>0X(X)=x),由于X(X)未被观察到。因此,β不能直接估计,我们使用估计方程方法。β2,我们需要找到两个依赖于H(H)β并且可以从W公司ij公司的。事实上H(H)β其尾部趋于零限制了方程的选择。例如,尽管克/小时β =fX(X)积分为1,我们可以估计根据我们的数据,方程式1=(x)/H(H)β(x)d日x数值不太稳定,因为它涉及到除以H(H)β.

经过调查,在每个个体只有两个重复的情况下,我们发现方程式(8)(9)数值稳定,易于从我们的数据中估计。请参见备注3.2对于在具有三个或更多个复制的情况下更稳定的方法。定义(8)(9),从中召回第2节那个,为了j个j′,Wij公司W公司j个有条件地独立于X(X).出租g=fX(X)H(H)β,我们推断

第页W公司+,W公司+(W公司j个>0,W公司j个>0)=(W公司j个>0,W公司j个>0X(X)=x)(f)X(X)(x)d日x=H(H)β(x)(x)d日x,
(8)

+E类{W公司˜j个(W公司j个>0)(W公司j个>0)}=E类{W公司˜j个(W公司j个>0)X(X)=x}(x)d日x=E类(W公司˜j个W公司j个>0,X(X)=x)H(H)β(x)(x)d日x=xH(H)β(x)(x)d日x.
(9)

这里我们使用了这样一个事实E类(W公司˜j个W公司j个>0,X(X)=x)=u个(f)U型(u个x)d日u个=x,从1)和对称性(f)U型.使用(7),我们可以估计第页W公司+,W公司++通过

第页^W公司+,W公司+=2n个J(J1)=1n个j个<j个J(W公司j个>0,W公司j个>0),
(10)

^+=1n个J(J1)=1n个j个<j个J(W公司˜j个+W公司˜j个)(W公司j个>0,W公司j个>0).
(11)

推导β0β1(8)(11),尚待估计在的右侧(8)(9).现在=(f)X(X)H(H)β、和(f)X(X)由于X(X)未被观察到。然而,由于我们观察到W公司˜j个什么时候W公司ij公司>0,我们可以估计W公司˜j个W公司j个>0,这可能与通过调节X(X),如下所示。出租第页W公司+=(W公司j个k个>0),无条件概率,并使用(1),我们有

(f)W公司˜j个k个W公司j个k个>0(v(v))=(f)W公司˜j个W公司j个>0,X(X)=x(v(v))H(H)β(x)(f)X(X)(x)d日x/第页W公司+=(f)U型(v(v)x)(x)d日x/第页W公司+.

如果ϕW公司˜+ϕU型表示的傅里叶变换第页W公司+(f)W公司˜j个k个W公司j个k个>0(f)U型傅里叶反演定理分别表明,如果ϕU型(t吨)全部>0t吨,

(x)=12πe(电子)t吨xϕW公司˜+(t吨)ϕU型(t吨)d日t吨.
(12)

现在什么时候第页W公司+>0,ϕW公司˜+(t吨)可以通过无偏估计

ϕ^W公司˜+(t吨)=1n个Jj个=1n个k个=1Je(电子)t吨W公司˜j个k个(W公司j个k个>0),
(13)

看见引理F.1在中补充材料然而,ϕ^W公司˜+本质上是一个经验特征函数,其尾部太不可靠,无法直接插入(12)在相关的标准反卷积问题中,通常通过加权函数来衰减尾部效应,加权函数是称为核的函数的傅立叶变换,由平滑参数缩放小时(参见,例如。,卡罗尔和霍尔1988;Stefanski和Carroll 1990年). 使用类似的想法,让ϕk个表示实对称核函数的傅里叶变换K(K)然后让小时>0是带宽。假设ϕu个(t吨)≠0表示全部t吨,我们估计(x)由

^(x;小时)=12πe(电子)t吨xϕ^W公司˜+(t吨)ϕU型(t吨)ϕK(K)(小时t吨)d日t吨=1n个J小时j个=1n个k个=1JK(K)U型(xW公司˜j个k个小时;小时)(W公司j个k个>0),
(14)

哪里

K(K)U型(x;小时)=12πe(电子)t吨xϕK(K)(t吨)ϕU型(t吨/小时)d日t吨=12π余弦(t吨x)ϕK(K)(t吨)ϕU型(t吨/小时)d日t吨.
(15)

最后,我们估计β= (β0,β1)T型按值β^=(β^0,β^1)T型同时满足

H(H)β^(x)^(x;小时β)d日x=第页^W公司+,W公司+,xH(H)β^(x)^(x;小时β)d日x=^+,
(16)

哪里小时β是一种特殊的选择小时将在中讨论第5.1节.

备注3.2。

如果我们有J每个个体≥3次重复,而不是使用+(9),我们使用第页W公司+,W公司+,W公司+(W公司j个>0,W公司k个>0,W公司>0)=H(H)β2(x)(x)d日x,如果J≥3,比+的确,我们可以估计第页W公司+,W公司+,W公司+通过第页^W公司+,W公司+,W公司+=c1=1n个j个k个(W公司j个>0,W公司k个>0,W公司>0),其中第二个总和为1≤j个,k个, ℓ ≤Jc是四项总和中的项数。为了估计积分,我们替换通过^。请注意第页W公司+,W公司+,W公司+=H(H)β2(x)(x)d日x然而+=xH(H)β(x)(x)d日x后一个积分涉及乘法x取值介于−∞和∞之间的项,以便估计时的估计误差(x)和H(H)β(x)(请参见(16))被这个乘法放大了x术语。另一方面,在第页W公司+,W公司+,W公司+,乘法x术语替换为H(H)β(x),其中后者取[0,1]中的值,该值衰减了(x)和H(H)β(x). 第4节,我们为我们的估计量版本开发了理论β使用+,但使用的估算器版本的理论第页^W公司+,W公司+,W公司+几乎是一样的。特别是,只要J≥3,我们的定理的表述是一致的。

接下来,我们将展示如何估计T型()=(f)X(X)(x)d日x(6)。根据g的定义,我们有(f)X(X)=H(H)β1,可以通过以下公式进行估算(f)^X(X)=H(H)β^1^(;小时),使用^β^同上,其中小时>0是可能与不同的带宽小时β(16)。自H(H)是严格递增的累积分布函数,当β^1<0,最大值x(,]H(H)1(β^0+β^1x)=H(H)β^1()<,对于所有固定年;此外,(f)^X(X)在标准条件下是可积的(参见,例如。,风扇1991a第4.2节). 在这种情况下,我们可以估计T型()通过^T型()=(f)^X(X)(x)d日x.何时β^1>0,H(H)β^1(x)=H(H)1(β^0+β^1x)作为x→−∞, 这可能会导致数值问题,除非我们避开H(H)β^1(x)太大。要做到这一点,我们可以写T型()=1(f)X(X)(x)d日x我们可以通过^T型()=1(f)^X(X)(x)d日x总结一下,所有人我们估计T型()通过

^T型()={(f)^X(X)(x)d日x=H(H)β^1(x)^(x;小时)d日x什么时候β^10,1(f)^X(X)(x)d日x=1H(H)β^1(x)^(x;小时)d日x什么时候β^1>0
(17)

最后,为了估算F类T型(5),仍需构造j个的。从调用第3.1节这些都是通过A类β在里面(4)作为A类β(t吨)==1第页[21,2],其中1< · · · <第页对于每个t吨,我们可以估计A类β(t吨)由A类β^(t吨)={x:H(H)β^(x)(小时1(f)U型)(x)t吨}具有β^同上。我们推导出估计量j个^j个通过表达A类β^(t吨)作为A类β^(t吨)==1第页[^21,^2],其中^1<...<^2第页最后,采取^T型如中所示(17),每个t吨我们可以估计F类t吨(t吨)由

F类^T型(t吨)==12第页(1)^T型(^)(|^|<)+(^2第页=).
(18)

3.3. 当fU型未知

实际上,误差密度(f)U型并不总是已知的,在这种情况下,需要根据数据进行估计。如果我们有一个参数化模型(f)U型,未知参数可以从W公司˜j个k个第页,开发(2),然后我们可以替换ϕU型在我们的估计中第3节通过结果估计ϕU型例如,如果唯一未知的是误差方差σU型2,并调用中的符号(7),可以通过以下公式进行估算

σ^U型2=j个=1n个k个<k个J(W公司˜j个k个W公司˜j个k个)2(W公司j个k个>0,W公司j个k个>0)2j个=1n个k个<k个J(W公司j个k个>0,W公司j个k个>0).

如果我们没有参数模型(f)U型在标准反褶积问题中,Delaigle、Hall和Meister(2008)建议的估算ϕU型通过重复数据差异的经验特征函数。虽然我们的背景不同,但我们可以使用类似的想法。签署人引理F.3在中补充材料,我们有ϕU型=ϕ1/2,在哪里,对所有人来说u个,ϕ(u个)=E类{e(电子)u个(W公司˜j个k个W公司˜j个k个)W公司j个k个>0,W公司j个k个>0}可以通过以下方式进行估算

ϕ^(u个)=j个=1n个k个<k个Je(电子)u个(W公司˜j个k个W公司˜j个k个)(W公司j个k个>0,W公司j个k个>0)/j个=1n个k个<k个J(W公司j个k个>0,W公司j个k个>0).

φU型(u个)全部>0u个,这意味着估计ϕU型(u个)由

ϕ^U型(u个)=|j个=1n个k个<k个J余弦{u个(W公司˜j个k个W公司˜j个k个)}(W公司j个k个>0,W公司j个k个>0)j个=1n个k个<k个J(W公司j个k个>0,W公司j个k个>0)|1/2.
(19)

如中所示第3.2节,估计F类T型我们需要估计β,T型j个的。按照该节进行,对于β,我们需要解决(16),在那里更换^(14)使用的版本ϕ^U型而不是ϕU型。然而,这需要两次集成ϕ^U型,尾部不可靠,分母为(14).这会导致技术问题,通过更换可以缓解这些问题ϕU型通过尾部修正ϕ^U型.

具体来说,在尾部我们使用脊函数ρ这样它就可以保持ϕ˜U型不会变得太小。就是说,我们接受ϕ˜U型(u个)=ϕ^U型(u个){ϕ^U型(u个)τn个}+ρ(u个){ϕ^U型(u个)<τn个},其中τn个>0是阈值。然后,我们估计β按值β˜=(β˜0,β˜1)T型这满足了(16),在那里更换^(14)使用的版本ϕ˜U型而不是ϕ^U型.

估计T型,首先回忆上述解释(17)为了避免除以H(H)β当后者太接近零时,我们根据是否使用两个不同的公式β1≤0或β1> 0. 在以下情况下β是估计的,我们可以在(17)并更换β^在那里β˜φU型在里面^通过ϕ˜U型同上。然而,数值实验表明,积分在以下表达式中T型在里面第3.2节在估计之前,它改进了结果估计。这导致

T型()={H(H)β1()()(x){H(H)β1(x)}d日x什么时候β10,1第页W公司++H(H)β1()()+(x){H(H)β1(x)}d日x什么时候β1>0,
(20)

然后我们可以通过

˜T型()={H(H)β˜1()˜(;小时)˜(x;小时){H(H)β˜1(x)}d日x什么时候β˜10,1第页^W公司++H(H)β˜1()˜(;小时)+˜(x;小时){H(H)β˜1(x)}d日x什么时候β˜1>0,
(21)

具有β˜同上,其中

˜(x;小时)=第页^W公司+212πϕK(K)(小时u个){u个1e(电子)u个xϕ^W公司+(u个)/ϕ˜U型(u个)}d日u个,
(22)

第页^W公司+=1n个Jj个=1n个k个=1j个(W公司j个k个>0)
(23)

是的估计值(x)=x()d日第页W公司+=(W公司j个>0),其中带宽小时可能与不同小时β.

估算j个的更简单。我们按照进行第3.2节,除了我们更换(f)U型(x)通过核估计(f)^U型(x)=(2π)1e(电子)u个xϕK(K)(小时U型u个)ϕ^U型(u个)d日u个,使用ϕ^U型(19),K(K)核函数和小时U型>0 a带宽。换句话说,对于所有人t吨我们估计A类β(t吨)由A类˜β˜(t吨)={x:H(H)β˜(x)(小时1(f)^U型)(x)t吨}具有β˜同上,并表示A类˜β˜(t吨)作为A类˜β˜(t吨)==1第页[˜21,˜2]哪里˜1<<˜2第页是我们对j个的。在某些情况下,可能需要截断卷积积分小时1(f)^U型以确保后者是有限的,概率为1。在实际中总是这样,积分是用有限和近似的。

最后,遵循(5),我们估计F类T型(t吨)由

F类˜T型(t吨)==12第页(1)˜T型(˜)(|˜|<)+(˜2第页=).
(24)

4.理论

4.1. 理论中考虑的案例

在非参数反褶积文献中,众所周知,误差分布的光滑性对估计量的收敛速度有很大影响,而估计量的速度取决于ϕU型(Stefanski和Carroll 1990;风扇1991b). 区分两类主要误差是标准的:普通平滑误差,即u尾部多项式快速衰减为零,超光滑误差,其中u以指数速度衰减。证明这两种情况的理论结果需要相似但不同的论据。此外,超光滑误差情形在理论上最不有趣,因为在这种情况下,非参数估计以非常慢的对数速度收敛:这对我们的估计也是如此。在普通的平滑误差情况下,可以得到更有趣的结果。因此,由于我们的技术论据已经很长了,所以我们仅针对普通光滑情况提出理论。

备注4.1。

尽管在超光滑误差情况下具有对数收敛速度,但在反褶积文献中,非参数估计通常也能很好地处理这些误差。事实上,误差方差的大小等各种因素都会影响估计器的性能,因此,在超光滑误差情况下,实际性能通常优于标准渐近性预测的性能。例如,Delaigle(2008)世卫组织采用双重渐近方法,同时考虑样本大小和误差方差的大小。特别是,即使在超光滑的情况下,非参数估计通常也比参数估计执行得更好,除非我们对参数模型有一个大致的概念,该模型离真实曲线不太远,无法进行估计。在我们的数值计算中,我们将考虑普通光滑误差和超光滑误差,我们将看到,即使误差是超光滑的(例如,正态分布),我们的估计器在理论对数率下仍表现良好,并且显著优于基于不正确参数假设的参数估计器。

出于同样的原因,我们仅针对以下情况推导理论:β1> 0. 这是一个有趣的实践案例,因为X(X)应该会导致更高的消费概率。该案例与以下案例之间的唯一区别β1<0是指,当β1<0,我们需要调整证明中的一些参数提案C.2在中补充材料(第C.2节)考虑到以下事实:β1<0,方程式H(H)β(x)小时1(f)U型(x)=t吨可以有多个解决方案。这可以使用相对标准但较长的参数来完成。我们在补充材料β1< 0.

第4.3节,其中我们推导了以下情况下的理论(f)U型未知,主要挑战是跟踪更换的影响ϕu个通过ϕ˜U型关于我们估计量的性质。可以证明,估计β对我们的结果只有二阶效应。因此,再次考虑到我们的技术论证已经很长了,在这种情况下(f)U型未知,我们在假设下证明了我们的结果β已知。

最后,与通常处理非参数曲线估计问题一样,我们可以使用有限阶核(具有有限个非零矩),也可以使用无限阶核(例如由以下公式定义的sinc核)ϕK(K)(t吨)=[1,1](t吨).无限阶核具有更好的理论性质,但在实际中,它们往往会产生摆动估计量,因此在我们的工作中,我们使用有限阶核。我们注意到sinc内核的证明比我们的证明更容易。

4.2. 理论当fu个已知

我们需要以下假设。

假设A。

(A1)(f)U型是对称密度ϕU型(u个)全部>0u个此外,ϕU型有三个连续导数并且存在有限常数cU型>0和α>1这样|u个||u个|αϕU型(u个)=cU型1|u个||u个|α+1ϕU型(u个)=αcU型1,其中ϕU型是的衍生物ϕu个.

(A2)K(K)是真实的、连续的和对称的,并且是这样的ϕK(K)消失在外面(−1,1)米+3个连续且有界的导数,对于一些正整数m,ϕk个(0)=1和ϕK(K)(u个)=1+O(运行)(|u个|+1)作为u个0

(A3)H(H)是两倍连续可微的,H(H)(x)全部>0x,H(H)有界,|x|H(H)(x)d日x<|xH(H)(x)|d日x<。此外,ϕH(H)是连续可微的,并且存在两个常数D、 ϑ>1这样对所有人u个,最大值{|ϕH(H)(u个)|,|ϕH(H)(u个)|}D类最小值(1,|u个|ϑ).

(A4)(f)W公司˜j个k个W公司j个k个>0有界且存在δ>0,这样x4+δ(f)W公司j个k个W公司j个k个>0(x)d日x<.

(A5)=(f)X(X)H(H)β是连续的,x2(x)d日x<,并且存在常量γ>0和Cg公司>0,以便所有人u个,|ϕ(u个)|C类(1+|u个|)γ。此外,有界导数和()Lipschitz是连续的英寸(A2)。此外,还有c>0,以便所有人xj个|x(j个)(x)| <c、和函数x克()(x)Lipschitz连续。

(A6)2≤J型<∞.

(A7)第页W公司+>0第页W公司+,W公司+>0,使用第页W公司+如第5页和第页W公司+,W公司+截至(8).

(A8)适用于小时˜=小时小时˜=小时β,作为n个,小时˜0,n个小时˜,小时˜|日志小时˜|20,小时˜α1/2(日志n个)1/20n个1/2(日志n个)1小时˜α+1/2=具有α如(A1)所示。

(A9)存在一个常数cβ>0使得β0,β1,β^0,β^1(cβ,cβ)此外,对于任何ϵ>0和β¯2具有β¯<cβ,inf公司|ββ¯|>ϵ{H(H)β¯(x)(x)d日x第页W公司+,W公司+}2+{xH(H)β¯(x)(x)d日x+}2>0={H(H)β(x)(x)d日x第页W公司+,W公司+}2+{xH(H)β(x)(x)d日x+}2.

假设(A1)与风扇(1991a)马斯里(1993)证明了反褶积核密度估计在一般光滑误差情况下的渐近正态性。唯一的区别是我们假设α>1,而不是α≥0或α≥1,并且ϕu个有三个(而不是两个)连续导数,我们需要证明β^许多分布都满足这些条件。假设(A2)在反褶积文献中相当标准(参见,例如。,风扇1991a,1991亿;Masry 1993年). 它没有太多限制,因为我们可以选择内核。假设(A3)在我们的上下文中也不是很严格,并且例如通过逻辑分布和正态分布来满足。假设(A4)用于获得β^; 它满足于任何具有有限前五阶矩的分布。施加的条件假设(A5)与(f)X(X)在里面风扇(1991a,1991年b)马斯里(1993),上的条件除外x克(j个)(x),用于控制β^假设(A6)仅表明我们至少需要J=2次重复,这是确定β0β1并估计误差密度;另请参见Delaigle、Hall和Meister(2008)。如果我们观察到一些非零数据,则无法避免假设(A7)。假设(A8)与反褶积文献中通常施加的条件类型相同。

假设(A9)相当技术性。条件如A),β0,β1,β^0,β^1(cβ,cβ)通常用于参数估计问题,其中需要确定收敛速度。条件inf公司|ββ¯|>ϵ{H(H)β¯(x)(x)d日x第页W公司+,W公司+}2+{xH(H)β¯(x)(x)d日x+}2>0={H(H)β(x)(x)d日x第页W公司+,W公司+}2+{xH(H)β(x)(x)d日x+}2保证方程组由(8)(11)允许在的真实值附近有一个独特的解决方案β(参见,例如。,范德法特1998,第5章)。实际上,因为H(H)已知,可以通过检查不同的β.

定理4.1建立的渐近行为F类^T型在这种情况下β1> 0. 其证明见补充材料(第C节),并使用与使用的参数类型类似的参数霍尔和拉希里(2008),Dattner、Goldenshluger和Juditsky(2011),Dattner和Reiser(2013),Delaigle和Hall(2015)、和Datta等人(2018).如中所述第4.1节,在以下情况下可以建立类似的结果β1<0,使用标准但较长的参数。在这种情况下F类^T型(t吨)F类T型(t吨)(25)将包含相关的正态分布项的总和。具体来说,代替ξ(t吨)英寸定理4.1,会有一个总和,比如ξk个(t吨)的,加上一个确定的顺序项小时米+1类似于右侧的第三项和第四项(25).

定理4.1。

在条件(A1)-(A9)下,如果β1>0和小时对于任何t吨+这样的话啜饮x小时1(f)U型(x)>t吨,作为n个→∞ 我们有

F类^T型(t吨)F类T型(t吨)=n个1/2小时α+1/2{ξ(t吨)+O(运行)(1)}+(n个1/2小时βα+1日志n个+小时β+1)ζn个(t吨,β)+小时+1μK(K),+1(+1)![H(H)β1{xβ(t吨)}(){xβ(t吨)}+xβ(t吨)()(x){H(H)β1(x)}d日x]+o个(小时+1),
(25)

哪里ζn个(t吨,β) =O(运行)美国。(1),ξ(t吨)是均值和方差为零的正态随机变量σ2{xβ(t吨)}=第页W公司+J1(f)W公司˜j个k个W公司j个k个>0{xβ(t吨)}H(H)β2{xβ(t吨)}K(K)2(x)d日x,xβ(t吨)是方程的唯一解H(H)β(x)小时1(f)U型(x)=t吨,K(K)(x)=cU型π101u个α1ϕK(K)(u个)(u个x)d日u个μK(K),+1=u个+1K(K)(u个)d日u个.

从我们对定理的证明中可以看出(25)仅来自对β通过β^(如果β已知且无需估计,则此项消失)。除了满足条件(A8)外,如果小时β被选中,以便小时β/小时0和小时β1/2日志n个0作为n个→∞, 那么这个项与其他项相比是可以忽略不计的,因此估计β通过β^对的渐近行为没有影响F类^T型(t吨)F类T型(t吨)。然后,通过取相同大小的第一项和第三项,即取小时n个1/(2+2α+1),这导致F类^T型(t吨)=F类T型(t吨)+O(运行)P(P){n个(+1)/(2+2α+1)}.

备注4.2。

定理4.1为提供逐点一致性率F类^T型并提出了一个问题,即是否可以在类似于我们的设置下获得统一的一致性率。虽然提供一个严格的答案需要大量额外的技术计算页面,但我们的证明中的元素与定理2.2的证明中提出的论点相结合马斯里(1993)建议可以这样做,并表明对于任何紧凑型C类令人满意的啜饮x小时1(f)U型(x)>啜饮t吨C类t吨,它保持为n→∞那啜饮t吨C类|F类^T型F类T型|几乎可以肯定是正常的n个1/2小时α+1/2(日志n个)1/2+n个1/2小时βα+1日志n个+小时β+1+小时+1。支持这一观点的理论论据在补充材料(第D节).

4.3. 理论当fu个未知

在以下情况下(f)U型未知,估计量的大样本行为F类˜T型定义于第3.3节可以通过表达F类˜T型F类T型作为

F类˜T型F类T型=(F类˜T型F类˜T型0)+(F类˜T型0F类^T型0)+(F类^T型0F类T型),
(26)

哪里F类˜T型0F类^T型0分别是的版本,F类˜T型F类^T型哪里βA类β已知,请参阅补充材料(第E节)。右侧的第一项(26)来自估计的影响β关于估计量的渐近性质;第二项反映了估算的影响φU型通过ϕ˜U型在一个场景中βA类β将是已知的,而第三个术语是(25)哪里β已知。因此,粗略地说,当研究F类˜T型,只有右边的第二项(26)与学习时出现的术语显著不同F类^T型在里面定理4.1因此,由于我们的技术论据非常长,我们只为第二学期提供了严格的结果,请参阅定理4.2.

对于第三项,可以很容易地从定理4.1那个F类^T型0F类T型=O(运行)(n个1/2小时α1/2+小时+1)关于第一项,通过合并与我们的证明中使用的类似的论点定理4.14.2,可以证明F类˜T型(t吨)F类˜T型0(t吨)=O(运行){n个(1+b条n个)},其中n个=n个1/2日志n个小时βα+1+小时β+1,它也出现在定理4.1,是由估计β通过β˜、和b条n个=n个1/2(日志n个)1/2小时α+小时γ2α+(2α=γ)|日志小时|由于估计φU型通过ϕ˜U型,另请参见定理4.2最后,学习右侧的第二项(25),我们需要以下附加条件。

假设B。

(B1)存在两个常数R(右)>0和δ∈(0,1),因此x>R(右),(|U型11U型12|>x)(日志x)1/δ.

(B2)n个小时日志n个<n个n个1/2(日志n个)1/2小时2α=,使用α如(A1)所示。

(B3)0<τn个<小时α+δ对一些人来说δ'>0,带α如(A1)所示。

假设(B1)用于获得ϕ˜U型ϕU型,无论何时E类(\U型\𝛿)<∞对于某些δ>0,这可以说不是很严格。假设(B2)与Delaigle、Hall和Meister(2008年,定理3.1)。

下一个定理为右边的第二项建立了渐近性质(25)。请参阅补充材料(第E节)作为证据。

定理4.2。

假设β1≠ 0. 在条件(A1)-(A8)和(B1)-(B3)下,存在一个常数η>0,这样对于任何t吨+并且足够大n个,

|F类˜T型0(t吨)F类^T型0(t吨)|ηj个=12第页(|j个|<)H(H)β2(j个)n个1/2(日志n个)1/2×{1+n个1/2(日志n个)1/2小时α+小时γ2α+(2α=γ)|日志小时|}美国。

结合这个定理和上面的讨论,我们得出如下结论

F类˜T型(t吨)F类T型(t吨)=O(运行)[{n个+n个1/2(日志n个)1/2}(1+b条n个)]+O(运行)(n个1/2小时α1/2+小时+1),

哪里n个=n个1/2日志n个小时βα+1+小时β+1b条n个=n个1/2(日志n个)1/2小时α+小时γ2α+(2α=γ)|日志小时|为了进行比较,如果(f)U型在中已知定理4.1我们确定了F类^T型(t吨)F类T型(t吨)=O(运行)(n个)+O(运行)(n个1/2小时α+1/2+小时+1)因此,估计(f)U型导致额外的订单条款错误n个−1/2(日志n个)1/2b条n个.

5.数字方面

5.1. f时的带宽选择U型已知

在以下情况下已知,我们需要选择两种带宽,小时小时β.带宽小时β不如小时因为它用于辅助步骤,在这里我们计算仅用于估计β.现在和密度(f)W公司˜j个k个W公司j个k个>0的数据W公司˜j个对于其中W公司ij公司>0通过方程式关联

(f)W公司˜j个k个W公司j个k个>0(v(v))=(f)W公司˜j个W公司j个>0,X(X)=x(v(v))H(H)β(x)(f)X(X)(x)d日x/第页W公司+=(f)U型(v(v)x)(x)d日x/第页W公司+.

因此,通过去卷积得到的密度(f)W公司˜j个k个W公司j个k个>0等于/第页W公司+,这意味着小时β等于反卷积插件带宽Delaigle和Gijbels(2002年,2004)根据W公司˜j个是为了哪个W公司ij公司> 0. 在下面的讨论之后定理4.1,我们可以将此带宽乘以n个以便小时β=o个(小时),但我们发现这在实践中是不必要的。

一旦我们获得了估算值β^属于β使用计算小时β,我们需要计算小时由我们的估计员使用F类^T型属于F类T型。我们建议使用由Delaigle和Hall(2008),如下所示。首先,如果我们知道F类T型,我们可以选择小时以尽量减少D类(F类^T型,F类T型)|F类^T型(t吨)F类T型(t吨)|d日F类T型(t吨)相反,SIMEX方法包括模拟两个级别的数据,即SIMEX 1和SIMEX 2,这两个级别数据的污染程度甚至比原始数据更严重,并从中推断出使带宽最小化的带宽D类(F类^T型,F类T型).

在SIMEXk个级别,用于k个=1,2,我们创建数据(W公司k个,j个,W公司˜k个,j个,T型k个,)其中包含k个(W公司j个,W公司˜j个,T型)的。使用符号W公司0,j个=W公司j个,在SIMEXk个水平(k个=1,2),用于= 1,...,n个j个= 1,...,J我们按以下步骤进行。首先,生成U型k个,j个~(f)U型.如果W公司k个1,1>0,采取T型k个,=H(H)β(W公司k个1,1)(小时1(f)U型)(W公司k个1,1)W公司˜k个,j个=W公司˜k个1,1+U型k个,j个W公司k个,j个=小时1(W公司˜k个,j个); 不定义T型k、 我,W公司˜k个,j个W公司k、 ij公司否则。将这些数据重新标记为T型k个,1,...,T型k个,n个k个,W公司˜k个,1j个,...,W公司˜k个,n个k个j个W公司k个,1j个,...,W公司k个,n个k个j个,其中n个k个是非零数W公司k个−1,1的。然后,以概率1H(H)β^(W公司˜k个1,1),套W公司k、 日本到零。

对于k个=1,2,在SIMEX中,分布F类T型k个T型k、 我扮演的角色F类T型,我们观察到T型k、 我因此,除了计算我们的估算值之外F类^T型k个属于F类T型k个使用中的方法第3.2节应用于W公司k、 ij公司,我们也可以计算F类^T型k个,电磁脉冲,的经验分布函数T型k、 我的。后者是比前者更好的估计量,因此我们可以合理地近似D类(F类^T型k个,F类T型k个)=|F类^T型k个(t吨)F类T型k个(t吨)|d日F类T型k个(t吨)通过D类^k个(F类^T型k个,F类^T型k个,电磁脉冲)=n个1|F类^T型k个,电磁脉冲(T型k个,)F类^T型k个(T型k个,)|因此,我们可以选择带宽小时k个用于估算F类T型k个通过最小化D类^k个.

由于SIMEX数据是根据原始数据构建的,使用与相关数据相同的测量误差结构W公司˜j个是到的X(X)的,然后改写Delaigle和Hall(2008),W公司˜2,j个措施W公司˜1,j个W公司˜1,j个措施W公司˜j个以与相同的方式W公司˜j个措施X(X).如中所示Delaigle和Hall(2008),这表明小时2小时1在这两者之间模仿小时1小时从这个意义上说小时2/小时1小时1/小时这促使我们选择计算带宽F类^T型作为小时=小时12/小时2.正如所指出的Delaigle和Hall(2008),这种方法变化太大,因为带宽小时k个取决于生成的特定SIMEX样本。和他们一样,为了稳定程序,在两个SIMEX级别上,我们生成了几个,B类比方说SIMEX样本,然后选择小时k个使结果的平均值最小化B类距离D类^k个(F类^T型k个,F类^T型k个,电磁脉冲)在我们的模拟中,我们B类= 20.

5.2. 实现时间fU型未知

在这种情况下,其中(f)U型未知,按非参数估计,如第3.3节,我们需要选择三个附加参数:岭函数ρ,阈值τn个和带宽小时U型用于计算(f)^U型。山脊和τn个只需避免使用ϕ^U型当它太接近零时。在标准反褶积问题中Delaigle、Hall和Meister(2008),Delaigle和Meister(2008)、和Delaigle和Hall(2016),这些作者认为我们可以ρ等于拉普拉斯随机变量的特征函数,方差等于u的经验方差,我们遵循他们的建议。在他们的情况下τn个等于ϕ^U型(t吨),其中t吨*是最小的t吨>0,其中ϕ^U型(t吨)有一个局部最小值,但通常是t吨*太大了。我们通过采取t吨*等于最小值t吨>0,其中ϕ^U型(t吨)达到其最大局部最大值。这种直觉是,在它的主体之外ϕ^U型对应于纯噪声,任何小于这些摆动中最大值的都应对应于噪声。

选择小时U型,回想一下,这个带宽是由我们的估计器使用的(f)^U型根据数据计算U型˜~(f)U型(f)U型,其中U型˜的表示样本W公司˜j个k个W公司˜j个k个W公司j个k个>0,W公司j个k个>0的。因为我们的目标是估算小时1(f)U型如果我们知道(f)U型我们会选择小时U型使积分平方误差最小ISE公司={小时1(f)^U型(x)小时1(f)U型(x)}2d日x,但我们不知道(f)U型因此,我们使用SIMEX过程。

为此,请考虑估计(f)U型,1=(f)U型*(f)U型(f)U型,2=(f)U型,1*(f)U型,1,使用我们估算的版本(f)^U型应用于数据U型˜,2~(f)U型,2U型˜,~(f)U型,2(f)U型,2.给,U型˜,2U型˜,可以分别取四个和八个独立变量的和U型˜随机抽取,替换U型˜的。我们还可以构造无错误的数据U型˜,2~(f)U型,2U型˜,1~(f)U型,1,其中后者是通过取两个独立的U型˜的。利用这些无误差数据,我们还可以计算标准核密度估计量(f)^U型,1,E类F类(f)^U型,2,E类F类远离的(f)U型,1(f)U型,2.由于这些收敛速度更快(f)U型,1(f)U型,2这表明,对于k个=1,2,我们可以选择带宽小时U、 k个用于计算(f)^U型,k个通过最小化的值ISE公司k个={小时1(f)^U型,k个(x)小时1(f)^U型,k个,E类F类(x)}2d日x那么,由于(f)U型1(f)U型2在这两者之间模仿(f)U型(f)U型1,这促使我们假设小时U型/小时U型,1小时U型,1/小时U型,2并采取小时U型=小时U型,12/小时U型,2.如中所示第5.1节,我们通过生成B类=20个此类样品和取样小时U型,k个使结果的平均值最小化B类ISEk公司。

我们还需要选择小时如中所示第5.1节,但在这里,我们不能使用与之前完全相同的SIMEX方法(f)U型未知。为了克服这个困难k个=1,2,而不是生成U型k、 ij公司~(f)U型,我们生成U型1,ij公司U型2,ij公司通过分别从(W公司1W公司2)/2是为了哪个W公司1W公司j个2非零,并且(W公司j个1W公司j个2+W公司j个1W公司j个2)/其中2个W公司1,W公司2,W公司j个1、和W公司j个2非零,这是一种近似的取值方式U型1,j个~(f)U型(f)U型(2)U型2,ij公司(f)U型*(f)U型*(f)U型*(f)U型(2·). U型j个j个Ûjs所有变量都有相同的方差,那么(f)U型(f)U型(f)U型(2)被中间人模仿(f)U型(f)U型(2)(f)U型 *(f)U型*(f)U型*(f)U型(). 或者,我们可以从(f)^U型但这很耗时。

最后,我们注意到,在大多数情况下,估计量F类˜T型属于F类T型从估计量中获得T型(21)比在(17)适用于中讨论的未知错误情况第3.3节,称之为F类˜T型,2然而,在某些情况下F类˜T型(t吨)某些情况下会大于1t吨是的,在这种情况下,我们使用F类˜T型,2,除非它也大于1并且对于较小的值t吨F类˜T型(t吨),在这种情况下,我们更换F类˜T型(t吨)>1乘以1。我们发现这种方法比简单地更换F类˜T型(t吨)>1乘以1。同样,在某些情况下F类˜T型(t吨)远离1作为t吨增加,在这种情况下,我们使用F类˜T型,2.

5.3. 单调化估计

虽然我们对F类T型与反褶积问题中的通常情况一样,在有限样本中,它们不一定是的非递减函数t吨(在有限样本中,标准反褶积核密度估计量不一定处处为正,因此其相应的分布函数也不一定是单调的。)可以使用文献中存在的程序使其单调。例如,在我们的上下文中Dette、Neumeyer和Pilz(2006年)在间隔上单调化[a、 b条],估计量F类ˇT型(例如。,F类˜T型F类^T型)第页,共页F类T型如下所示。

V(V)=F类T型(U型),其中U型~U型[a、 b条]然后让(f)V(V),F类V(V)、和F类T型(1)分别表示V的密度V(V),和的倒数F类T型.然后针对v(v)∈ [F类T型(),F类T型(b条)],我们可以写F类T型(1)(v(v))=+(b条)F类T型()v(v)(f)V(V)(x)d日x因此,至o个获得的递增估计F类T型(1)(v(v))对于v(v)∈ [F类t吨(),Ft吨(b条)],我们可以接受

F类ˇT型(1)(v(v))=+(b条)F类ˇT型()v(v)(f)^V(V)(x)d日x,

哪里(f)^V(V)是的正估计量(f)V(V)根据样本构建V(V)1,...,V(V)N个,使用V(V)j个=F类ˇT型(U型j个)Uj公司~U型[a、 b条],用于j个= 1,...,N个.我们得到了F类t吨上的[,b条]通过数值反转F类ˇT型(1).

(f)V(V)支撑紧密,可能在和b,而不是(f)^V(V)为了成为标准的核密度估计量,我们使用probit变换版本的Geenens(2014)这是为这种密度设计的。我们使用了作者提供的R代码,其中建议使用最小二乘交叉验证带宽。对于b条,我们采取[,b条]是我们寻求估计的时间间隔F类(在我们的案例中,这是数字中使用的间隔)。然而,如果(f)U型未知,F类˜T型有时在接近零的间隔上是平的(回想一下T型>0),部分原因是我们设置了F类˜T型如果取负值,则为零。在这种情况下,为了避免使用货币化程序引入重大偏差,我们采取是最小的数字F类˜T型不平坦。

5.4. 仿真

我们将我们的方法应用于以下四个模型的数据,在每种情况下,我们取H(H)成为物流职能和小时作为日志转换,因为这些是应用程序中常用的:

  1. X(X)~x2(10),U型ij公司~N个(0, σ2)和(a):β= (−5, 1.5)T型或(b):β= (−5, 1)T型;
  2. X(X)~N个(−2, 2),U型ij公司~N个(0, σ2)和(a):β= (3, 0.3)T型或(b):β= (1.6, 0.3)T型;
  3. X(X)~N个(−2, 2),U型ij公司~拉普拉斯(a)和(a):β= (3,0.3)T型或(b):β= (1.6, 0.3)T型;
  4. X(X)~0.3牛顿(-3,1)+0.7牛顿(3,1),U型ij公司-N个(0, σ2)和(a):β= (3, 0.7)T型或(b):β= (2, 0.7)T型。对于每个模型,(W公司j个>0)情况(a)比情况(b)大,因此我们可以预期F类T型在情况(a)下比在情况(b)下更容易估计,因为我们实际上有更多的数据来计算我们的半参数估计量。

在每种情况下j个=1、2和= 1,..., n、 我们设置了W公司ij公司概率为零H(H)β(X(X)). 对于W公司j个≠0我们取了W公司˜j个=X(X)+U型j个,其中U型ij公司独立于X(X),以及参数的位置σU型ij公司这样,噪声信号比NSR=var(U型)/无功功率,无功功率(X(X))等于10%或25%。对于每个配置,我们生成了200个大小的样本n个等于100250或500。

在每种情况下,我们都应用了我们的方法,假设误差密度已知,其中我们使用了估计器F类^T型(18),或者假设误差密度未知,我们使用估计量F类˜T型(24)结合单调化过程第5.3节。我们还计算了一个朴素估计量F类^T型,天真属于F类T型通过计算小时(W公司¯)的,在哪里W公司¯=(W公司1+W公司2)/2假装平均值W公司ij公司可以被视为X(X)的。最后,我们计算了F类T型其中位于(12)我们估计ϕW公司+通过第页W公司+乘以特征函数W公司˜W公司>0(请参见方程式(12))假设W公司˜W公司>0~N个(μW公司,σW公司2)具有μw个和σW公司通过经验平均值和方差估计(f)U型正确指定。这种参数假设对于模型(ii)和(iii)是正确的,但对于模型(i)和(iv)是不正确的。

为了评估我们的程序的性能,对于每个模型组合的200个生成样本中的每一个,n个、NSR和β,对于每个F类^T型,F类^T型,天真、和F类˜T型此处一般表示为F类^,我们计算了综合加权绝对偏差国际水处理协会(F类^)=|F类^(t吨)F类T型(t吨)|(f)T型(t吨)d日t吨对于每个估计器和每个配置,我们获得了200个IWAD值,并计算了其第一、第五和第九个十分位。结果,报告于表1对于F类^T型F类˜T型和中表2对于F类^T型,天真参数估计清楚地表明,naive估计的性能很差,因此在本节的其余部分将不考虑。不出所料,结果还表明,在参数正态假设正确的模型(ii)和(iii)中,参数估计优于我们的估计,尽管后者表现得相当好。然而,在这种参数假设不正确的模型(i)和(iv)中,我们的半参数估计比参数估计性能要好得多,即使在这些情况下,测量误差是正态分布的。

表1。

模拟结果。

(f)U型已知,估计值F类^T型
(f)U型未知,估计器F类˜T型
M(M)国家统计局n个= 100n个= 250n个= 500n个= 100n个= 250n个= 500

(i) (a)10%28.6[14.7,52.9]18.3[9.9,42.2]14.3[8.2,27.7]37.3[16.2,98.0]25.3[12.3,49.2]19.2[10.1,37.3]
25%34.5[16.1,65.4]23.4[13.6,35.7]19.5[10.6,29.0]46.6[20.9,95.0]32.7[14.2,68.3]24.3[12.8,47.7]
(i) (b)10%30.6[16.6,55.7]20.1[10.2,43.0]16.2[9.4,46.6]50.8[23.6,106]48.5[17.7,102]37.8[14.8,77.7]
25%32.4[16.5,60.2]25.5[14.5,39.9]18.9[12.3,28.5]53.9[25.5,113]36.1[16.2,85.3]29.8[14.7,65.1]
(ii)(a)10%31.0[16.0,64.6]19.6[9.2,61.7]12.4[6.9,25.4]33.1[16.8,68.1]23.1[11.9,45.1]16.1[7.6,38.5]
25%31.0[16.7,62.2]20.4[11.1,38.6]14.4[7.5,32.8]37.3[17.8,82.2]23.6[12.4,56.0]18.8[9.5,40.5]
(ii)(b)10%32.6[14.1,58.0]19.0[8.9,46.3]15.5[7.8,28.6]38.4[20.7,72.4]25.8[12.9,50.1]19.9[9.7,38.6]
25%34.2[18.2,64.6]23.5[12.8,40.1]18.8[9.6,41.0]37.9[19.1,82.8]25.1[10.8,53.1]20.9[10.5,40.5]
(iii)(a)10%28.5[13.9,57.2]17.6[9.4,32.3]13.6[7.8,22.5]32.4[15.2,64.0]20.4[11.4,37.7]14.8[8.2,25.8]
25%27.7[14.5,52.6]19.3[9.8,33.5]13.9[7.0,25.1]35.1[18.5,73.6]22.2[10.8,49.9]16.4[9.0,35.2]
(iii)(b)10%31.9[16.9,61.4]20.6[10.8,35.5]14.5[8.2,25.2]34.9[19.7,72.1]27.8[12.4,53.5]22.9[9.9,47.7]
25%34.8[16.9,60.0]21.6[11.0,37.4]14.6[9.3,25.9]36.7[17.7,76.2]26.7[12.6,53.1]21.2[10.7,44.2]
(iv)(a)10%34.3[21.2,57.8]21.9[13.2,39.7]16.7[9.5,29.6]33.8[17.8,74.5]22.6[13.0,42.0]19.1[10.6,33.2]
25%36.9[23.7,61.9]27.1[19.9,39.9]22.3[16.9,30.0]47.2[26.0,89.9]33.9[18.8,58.7]25.2[14.4,44.2]
(iv)(b)10%31.8[19.3,57.0]23.5[13.1,46.4]18.5[11.5,37.2]37.8[21.2,66.4]23.9[13.9,40.1]19.2[11.4,33.4]
25%37.3[24.2,60.0]27.7[19.6,41.5]24.2[16.6,32.5]45.2[23.5,108]33.4[22.0,56.7]26.5[16.1,40.2]

注:对于每个估算器F类^T型F类˜T型、每个模型(表中用M表示)和每个噪声信号比(NSR),数字显示为10×IWAD 200个值的中位数[第一个十分位,第九个十分位]。

表2。

的模拟结果F类^T型,天真以及参数估计器,其假设W公司˜W公司>0~N个(μW公司,σW公司2).

F类^T型,天真 参数估计器


M(M)国家统计局n个= 100n个= 250n个= 500n个= 100n个= 250n个= 500

(i) (a)10%65.2[31.7,107]67.1[44.0,91.2]66.5[53.6,84.9]38.7[24.0,69.5]35.1[23.6,53.4]34.7[26.6,47.8]
25%152[111,195]156[133,180]156[141,173]40.2[23.5,7.0]35.3[23.6,54.4]34.9[26.3,48.2]
(i) (b)10%72.4[38.8,114]74.5[50.4,99.5]73.9[59.3,92.0]41.7[25.6,66.7]36.7[26.5,54.2]36.7[28.7,48.5]
25%150[111,194]155[132,179]155[139,173]41.1[26.1,66.8]36.6[26.3,53.8]37.0[27.9,48.8]
(ii)(a)10%49.4[28.1,83.6]46.8[28.8,63.5]45.3[31.3,58.3]23.6[8.8,42.9]14.8[5.8,31.6]10.0[4.2,20.7]
25%35.8[21.4,66.1]30.7[16.9,46.1]27.4[18.4,38.4]25.1[9.9,43.6]15.8[6.3,31.8]10.0[4.5,20.7]
(ii)(b)10%160[134,186]158[141,175]158[147,168]28.9[11.1,53.2]16.5[7.5,35.2]12.4[5.1,23.6]
25%139[112,167]137[120,154]137[126,147]30.3[11.1,54.3]17.4[7.7,34.4]12.2[4.7,23.7]
(iii)(a)10%51.0[28.5,75.3]44.7[31.5,65.4]44.5[33.2,57.2]21.6[9.5,47.3]14.2[5.1,30.7]9.6[3.9,20.8]
25%33.5[21.0,53.0]26.4[17.4,43.6]25.0[17.4,35.0]22.8[9.2,48.8]15.1[5.2,31.5]9.7[4.0,20.4]
(iii)(b)10%162[135,184]157[142,173]157[146,168]24.5[10.9,52.5]17.2[7.2,31.9]11.6[5.3,24.7]
25%138[109,160]132[117,149]133[123,143]24.6[12.1,53.4]17.9[7.8,34.1]13.0[5.1,25.4]
(iv)(a)10%54.0[35.1,78.6]53.1[40.8,68.9]54.5[42.5,67.1]42.5[31.5,67.6]42.1[33.8,54.5]40.1[34.4,48.2]
25%86.7[60.2,112]85.2[70.7,103]85.6[72.8,97.4]43.5[32.5,64.8]40.8[33.7,53.5]39.7[34.4,47.8]
(iv)(b)10%69.9[52.9,96.4]71.8[58.2,88.1]72.2[60.3,84.9]40.0[27.0,66.3]36.5[27.4,49.9]33.9[27.9,42.2]
25%101[76.6,126]102[88.7,118]103[91.2,115]41.7[28.1,64.6]36.4[27.9,49.5]33.6[27.9,42.0]

注:对于每个型号(表中用M表示)和每个噪声信号比(NSR),数字显示为10×IWAD 200个值的中位数[第一个十分位数,第九个十分位数]。

针对每个配置和每个F类^T型F类˜T型,我们还绘制了与给出IWAD第一、第五和第九个十分位的三个样本相对应的估计曲线;在图表中,我们将其称为q个0.1,q个0.5q个0.9在图中,为了增加可见性,我们绘制了日志(t吨+1) 与F类T型(t吨). 图1,我们展示了模型(i)(a)和(i)n个=250,在误差密度已知的情况下,我们使用估计器F类^T型,在误差密度未知的情况下,我们使用估计量F类˜T型。与表格一起,该图毫不奇怪地说明了估算F类T型在以下情况下更容易(f)U型我们知道什么时候需要进行估算,但我们的估算程序即使在需要进行估计。与表格一起,该图还说明了估算F类T型W公司ij公司当NRS较低时,取零值的s较低。

保存图片、插图等的外部文件。对象名为nihms-1641051-f0001.jpg

这里,IWAD代表文本中定义的综合加权绝对偏差,NSR代表文本中确定的噪声信号比。与估计器IWAD的第一、第五和第九个十分位对应的估计曲线F类˜T型(24)(前两列)或F类^T型(18)(第三列)根据200个样本大小计算n个当误差密度未知且NSR=10%(第一列)或NSR=25%(第二列),或当误差密度已知且NSR=25%(第三列)时,根据模型(i)(a)(第一行)和(i)。实线表示真实F类T型.

图2,我们比较了模型(ii)(b)和(iii)(b)以及NSR=10%或25%的估计曲线。该图与表格一起说明了估算F类T型当NSR较小且误差密度为拉普拉斯模型(iii)时,比理论预期的正常模型(ii)更容易(正常误差是超光滑的,导致收敛速度较慢)。最后,在图3我们给出了估计量F类^T型对于模型(iv)(a)和NSR=25%,对于尺寸的样品n个=100、250和500。该图与表格一起说明了这样一个事实,即我们的估计值随着样本量的增加而提高n个增加。

保存图片、插图等的外部文件。对象名称为nihms-1641051-f0002.jpg

这里,IWAD代表文本中定义的综合加权绝对偏差,NSR代表文本中确定的噪声信号比。与估计器IWAD的第一、第五和第九个十分位对应的估计曲线F类˜T型(24)根据模型(ii)(b)中的200个样本计算,当n个=100且NSR=10%(第一列)或n个=100且NSR=25%(第二列)或模型(iii)(b),当n个=100和NsR=25%(第三列)。实线表示真实F类T型.

保存图片、插图等的外部文件。对象名称为nihms-1641051-f0003.jpg

这里,IWAD代表文本中定义的综合加权绝对偏差。与估计器IWAD的第一、第五和第九个十分位对应的估计曲线F类^T型(18)当NSR=25%(第一列)和n个=100(第一列),n个=250(第二列)或n个=500(第三列)。实线表示真实F类T型.

5.5. 应用程序

我们将我们的方法应用于美国餐桌就餐研究(EATS,Subar等人,2001年). 在本研究中,n个=965名参与者报告了他们的酒精摄入量以及24小时召回(24HR)后的水果总摄入量J=4个不同且间隔较大的天数。我们拿走了小时作为日志转换,以及H(H)成为物流配送函数。很大一部分人在任何一天都不吃水果,更大一部分人每天都不饮酒。

我们比较了我们的半参数估计F类T型对于这些数据,使用中描述的全参数估计器Tooze等人(2010年)并在SAS程序中实现,该程序可在https://epi.grants.cancer.gov/deet/usualintakes/method.html由美国国家癌症研究所(NCI)编写。该估计器在很大程度上依赖于转换后的数据和正态分布的误差。为了使数据更接近正常值,我们遵循了营养流行病学中的常见做法,即剔除或审查难以置信的小变量值。在我们的分析中,我们用零取代了任何如此少的摄入:(a)<0.7克酒精,相当于<0.6盎司美国5%的12盎司标准啤酒;和(b)<0.30份标准水果,相当于<中等大小苹果的1/3。这导致了更合理的参数估计。

虽然参数估计器假设误差分布是正态分布的,但在本例中,这种分布实际上是未知的,因此在计算估计器时,我们使用了估计器F类˜T型第3.3节。因为每个个体有2个以上的重复,估计β我们考虑中描述的过程的一个版本备注3.2适应以下情况(f)U型未知。具体来说,我们估计β按值β˜=(β˜0,β˜1)T型这满足了第页^W公司+,W公司+=H(H)β2(x)˜(x)d日x第页^W公司+,W公司+,W公司+=H(H)β2(x)˜(x)d日x,其中第页^W公司+,W公司+第页^W公司+,W公司+,W公司+分别定义为(10)和中备注3.2,以及其中˜是的一个版本^(14)使用ϕ˜U型而不是ϕ^U型(请参见第3.3节).

结果估计值F类T型如所示图4在饮酒的情况下,我们的半参数估计量和现有的参数估计量给出了类似的结果,这表明在这种情况下,正态性假设是合理的(对这些数据的q-q图分析证实了这一点:它只表明与正态性有适度的偏离)。然而,就水果消费而言,这两个估计值存在显著差异,表明在这种情况下,正态性假设不太合理(事实上,对数据的q-q图分析表明,与正态性的背离更为明显)。

保存图片、插图等的外部文件。对象名为nihms-1641051-f0004.jpg

半参数估计的比较F类˜T型(24)和一个全参数估计量,当T型通常的饮酒量(左)或水果摄入量(右)。

补充材料

补充1

单击此处查看。(1.0M,拉链)

基金

Delaigle的工作得到了澳大利亚研究委员会的一个发现项目(DP170102434)的支持。卡米兰德的工作得到了加拿大自然科学与工程研究委员会(NSERC)的拨款和澳大利亚研究委员会的发现项目(DP170102434)的支持。卡罗尔的研究得到了NIH资助:U01-CA057030。

脚注

补充资料

这个补充材料包括计算估计器的技术细节和Matlab代码。我们无权发布本文分析的EATS数据集,但可以由美国国家癌症研究所(NCI,网址:http://www.cancer.gov/)与该机构签订数据传输协议。

工具书类

  • Carroll RJ(2014),“估计膳食消费模式的分布,”统计科学,29, 2–8. [2][PMC免费文章][公共医学][谷歌学者]
  • Carroll RJ和Hall P(1988),“密度反褶积的最优收敛速度,”美国统计协会杂志,83, 1184–1186. [4][谷歌学者]
  • Datta G、Delaigle A、Hall P和Wang L(2018),“辅助数据测量有误差时小区域的半参数预测区间,”中国统计局,28, 2309–2335. [6][谷歌学者]
  • Dattner I、Goldenshluger A和Juditsky A(2011),“关于分布函数的反褶积,”统计年鉴,39, 2477–2501. [6][谷歌学者]
  • Dattner I和Reiser B(2013),“测量误差模型中分布函数的估计,”统计规划与推断杂志,143, 479–493. [6][谷歌学者]
  • Delaigle A(2008),“反褶积问题的另一种观点,”中国统计局,18, 1025–1045. [5][谷歌学者]
  • Delaigle A和Gijbels I(2002),“污染样品的积分平方密度导数的估计,”英国皇家统计学会杂志B辑,64, 869–886. [8][谷歌学者]
  • ________ (2004), “反卷积核密度估计中的实用带宽选择,”计算统计与数据分析,45, 249–267. [8][谷歌学者]
  • Delaigle A和Hall P(2008),“使用SIMEX平滑变量误差问题中的参数选择,”美国统计协会杂志,103,280–287. [8][谷歌学者]
  • _______ (2015), “考虑稀释的分组测试数据的非参数方法,”生物特征,102, 871–887. [6][谷歌学者]
  • ________ (2016), “误差分布未知时的非参数反褶积方法,”英国皇家统计学会杂志B辑,78, 231–252.[谷歌学者]
  • Delaigle A、Hall P和Meister A(2008),“关于重复测量的反卷积,”统计年鉴,36, 665–685. [4,6,7,8][谷歌学者]
  • Delaigle A和Meister A(2008),“异方差密度估计,”伯努利,14,562-579,doi:10.3150/08-BEJ121。[交叉参考][谷歌学者]
  • Dette H、Neumeyer N和Pilz KF(2006年),“一类严格单调回归函数的简单非参数估计,”伯努利,12, 469–490. [9][谷歌学者]
  • Dwyer J、Picciano MF、Raiten DJ和指导委员会(2003年),“食品和膳食补充剂摄入量数据收集:我们在美国的饮食,”营养学杂志,133,590S–600S。[1] [公共医学][谷歌学者]
  • 范J(1991a),“解卷积核密度估计的渐近正态性,”Sankhya,A系列,53, 97–110. [4,6][谷歌学者]
  • _______(1991b),“非参数反褶积问题的最优收敛速度,”统计年鉴,19, 1257–1272. [5,6][谷歌学者]
  • Fletcher D、MacKenzie D和Villouta E(2005),“多零偏差数据建模:一种结合普通回归和Logistic回归的简单方法,”环境与生态统计,12, 45–54. [2][谷歌学者]
  • Geenens G(2014),“单位区间核密度估计的Probit变换,”美国统计协会杂志,109, 346–358. [9][谷歌学者]
  • Guenther PM、Reedy J、Krebs-Smith SM和Reeve BB(2008),“2005年健康饮食指数评价,”美国饮食协会学报,108, 1854–1864. [1] [公共医学][谷歌学者]
  • Guenther PM、Reedy J和Krebs-Smith SM(2008),“2005年健康饮食指数的编制,”美国饮食协会学报,108, 1896–1901. [1] [公共医学][谷歌学者]
  • Guenther PM、Kirkpatrick SL、Reedy J、Krebs Smith SM、Buckman DW、Dodd KW、Casavale KO和Carroll RJ(2014),“根据2010年美国人饮食指南,2010年健康饮食指数是衡量饮食质量的有效可靠指标,”营养学杂志,144, 399–407. [1][PMC免费文章][公共医学][谷歌学者]
  • Hall P和Lahiri S(2008),“反褶积问题中分布、矩和分位数的估计,”统计年鉴,36, 2110–2134. [6][谷歌学者]
  • Keogh RH和White IR(2011),“纠正食物摄入量记录中的错误时,允许从不食用或偶尔食用的消费者,”生物统计学,12,624–636. [2][PMC免费文章][公共医学][谷歌学者]
  • Kipnis V、Midthune D、Buckman DW、Dodd KW、Guenther PM、Krebs-Smith SM、Subar AF、Tooze JA、Carroll RJ和Freedman LS(2009),“具有多余零和测量误差的建模数据:应用于评估偶尔摄入的食物与健康结果之间的关系,”生物计量学,65, 1003–1010. [2][PMC免费文章][公共医学][谷歌学者]
  • Li L、Shao J和Palta M(2005),“具有半连续协变量的纵向测量误差模型,”生物计量学,61, 824–830. [2] [公共医学][谷歌学者]
  • Masry E(1993),“平稳过程多元密度反褶积的强相合性和速度,”随机过程及其应用,47, 53–74. [6,7][谷歌学者]
  • Stefanski LA和Carroll RJ(1990),“去卷积核密度估计,”统计,21, 169–184. [4,5][谷歌学者]
  • Subar AF、Thompson FE、Kipnis V、Midthune D、Hurwitz P、McNutt S、McIntosh A和Rosenfeld S(2001),”Block、Willett和National Cancer Institute食物频率问卷的比较验证:美国餐桌上的饮食研究美国流行病学杂志,154, 1089–1099. [10] [公共医学][谷歌学者]
  • Tian L(2005),“零膨胀对数正态数据均值的推论:广义变量法,”医学统计学,24, 3223–3232. [2] [公共医学][谷歌学者]
  • Tooze JA、Grunwald GK和Jones RH(2002),“重复测量数据零聚集分析,”医学研究中的统计方法,11, 341–355. [2] [公共医学][谷歌学者]
  • Tooze JA、Midthune D、Dodd KW、Freedman LS、Krebs Smith SM、Subar AF、Guenther PM、Carroll RJ和Kipnis V(2006),”一种新的估计偶发性消费食品通常摄入量的统计方法及其在分配中的应用,”美国饮食协会学报,106, 1575–1587. [2][PMC免费文章][公共医学][谷歌学者]
  • Tooze JA、Kipnis V、Buckman DW、Carroll RJ、Freedman LS、Guenther PM、Krebs Smith SM、Subar AF和Dodd KW(2010),”估算营养素正常摄入量分布的混合效应模型方法:NCI方法,”医学统计学,29, 2857–2868. [2,11][PMC免费文章][公共医学][谷歌学者]
  • van der Vaart AW(1998),渐近统计,纽约:剑桥大学出版社。[6][谷歌学者]
  • Zhang S、Midthune D、Guenther PM、Krebs-Smith SM、Kipnis V、Dodd KW、Buckman DW、Tooze JA、Freedman LS和Carroll RJ(2011),“一种新的零膨胀膳食数据多元测量误差模型及其在膳食评估中的应用,”应用统计学年鉴,5, 1456–1487. [2][PMC免费文章][公共医学][谷歌学者]
  • Zhang S、Midthune D、Pérez A、Buckman DW、Kipnis V、Freedman LS、Dodd KW、Krebs-Smith SM和Carroll RJ(2011),“突发性膳食成分的双变量测量误差模型拟合,”国际生物统计学杂志,7, 1. [2][PMC免费文章][公共医学][谷歌学者]
  • Zhou X和Tu W(1999),“样本包含对数正态和可能零观测值时几种独立总体均值的比较,”生物计量学,55, 645–651. [2] [公共医学][谷歌学者]