1.简介
多年来,美国(NHANES:国家健康和营养检查调查)、澳大利亚(例如,2007年澳大利亚国家儿童营养和身体活动调查)、加拿大(加拿大社区健康调查)和其他地方的国家营养调查都使用了24小时膳食召回(24HR)。24HR旨在收集过去24小时内营养素和食物摄入的准确信息,作为饮食评估的主要自我报告工具(Dwyer等人,2003年). 在国家调查中收集饮食数据的主要目的是估计各种营养素和食物组在人群和亚人群中的正常(即长期平均)摄入量分布,并监测这些摄入量随时间的变化。数据的另一个重要用途是将个人的正常摄入量与健康结果测量值(如肥胖或血压)联系起来。由于24小时摄入量仅记录了一天的食物/营养素摄入量,因此它不是一个很好甚至可靠的长期平均摄入量估计值。因此,仅使用24HR来估计正常摄入量的分布,而不考虑24HR的固有测量误差,对于重要数量(例如百分位数)来说,这是一种严重的偏差。
有大量的文献表明,当每天摄入食物/营养素时,估算正常摄入分布的测量误差。在该标准设置中,如果X(X)是未观察到和未观察到的正常摄入量,以及W公司单个24HR的结果,数据的典型模型W公司1,...,W公司n个是经典误差模型,其中W公司我
=X我
+U型我具有X(X)我和U型我独立,在哪里U型我表示测量误差。大多数文献都使用这个简单的模型或其变体,并假设24HR的日常可变性或测量误差具有完全已知的分布。通常W公司我的不满足经典的加性误差模型,它是满足该模型的数据的转换版本。例如,通常假设模型在对数转换后满足。在这里,通常假设,其中,、和。更一般地说,通常假设模型在W公司我的已被单调函数转换.
在营养学研究中,人们对偶尔食用的食物的通常摄入量相当感兴趣,例如鱼、全谷物、全水果、果汁、深绿色和橙色蔬菜和豆类(DOL)、牛奶等(参见,例如。,Guenther等人2008;Guenther、Reedy和Krebs-Smith,2008年;Guenther等人,2014年). 例如,在2001-2004年NHANES中,任何一天报告的总水果、全水果、全谷物、DOL和牛奶的非消耗百分比分别为17%、40%、42%、50%和12%。这些变量在非消费日等于零,在消费日严格为正。
通常每个受试者都有几个24小时回忆,因此观察结果是重复回忆的样本W公司ij公司对于我= 1,...,n个,j个= 1,...,J,J≥ 2. 营养调查的一个主要目标是估计个人通常摄入量的分布,即T型我=E类(W公司ij公司|X(X)我). 重要的是要认识到,这是起初的数据规模。这个W公司ij公司’s仍然可以被视为日常变化所污染的正常摄入量的一个版本,但由于非消费日的过量零点,我们无法使用经典的加性误差模型来描述它们。
关于过零点加测量误差的问题,已有文献和相关的多种建模方法,我们使用与该文献一致的模型;看见Tooze、Grunwald和Jones(2002年),Tooze等人(2006年),Li、Shao和Palta(2005),Kipnis等人(2009年),Keogh等人(2011年),Zhang,Midthune,Pérez等人(2011),Zhang、Midthune、Guenther等人(2011年)、和卡罗尔(2014)然而,所有这些参考都是完全参数,并假设在数据转换后,每个随机变量都是正态分布的;看见第2节在这项工作中,我们是第一个提出通常摄入量分布估计量的人T型我这打破了参数分布假设。正如我们所示,这个问题在技术上很难解决,需要全新的分析方法。
虽然我们工作的动机来自营养,但过量零问题出现在许多不同的领域,如生态学(Fletcher、MacKenzie和Villouta,2005年),环境(田2005)和药物测试(周和涂1999). 在那里,数据通常通过两个组件进行建模:一个用于说明观察到非零值的概率,另一个用于反映非零值分布。然后,人们的兴趣通常是(但不限于)估算模型的每个组成部分。我们在这项工作中提出的方法使我们能够得出这样的估计,作为我们估计程序的副产品。
本文的结构如下。我们在中介绍了我们的模型和数据第2节.我们在年引进的估算正常摄入量分布的方法第3节其中,对于误差密度已知和未知的情况,我们给出了两种不同的估计。我们导出了估计量的渐近性质第4节.英寸第5节在展示了如何在实践中选择我们的程序所需的平滑参数后,我们在模拟数据上说明了它们的数值性能,并应用该方法估计了美国一项饮食研究中的通常酒精和水果摄入的分布。结果的证明很长,在补充材料.
2.模型和数据
我们对日常(即长期日均)摄入量感兴趣T型一种食物。而不是观察T型,我们观察数据W公司ij公司,用于我= 1,...,n个和j个= 1,...,J,其中W公司ij公司代表报告的食物摄入量我当天第个个人j个.有时我个人不食用食物,因此W公司ij公司= 0. 在食用食物的日子里,食物摄入量的测量方法是W公司ij公司,经过适当的转换后,它是通常摄入的版本X(X)我受到经典测量误差的影响。
Tooze等人(2006年),2010)和Kipnis等人(2009年)考虑了这个问题的参数模型。在他们的公式中,他们假设饮食成分的摄入概率可以通过已知的严格递增的累积分布函数来描述H(H)例如,logistic分布函数。我们上下文中的等效公式如下。具体来说,对于我= 1,...,n个和j个= 1,...,J,他们假设对于一些潜在变量X(X)我与正常摄入量有关,
哪里β0和β1未知参数和βT型= (β0,β1). 例如,在大多数情况下,在给定的一天吃某种食物的概率是该食物通常摄入量的增加函数:我们平均吃的食物越多,我们在给定的日子吃的可能性就越大。
在食用食物的日子里,经过适当的转换,测得的食物摄入量满足经典误差模型。具体来说,我们假设存在一个已知的严格单调函数例如,对数变换,使得给定潜在变量X(X)我,的W公司ij公司是独立的,并且
哪里和U型ij公司表示独立于(i、 j个)并且独立于X(X)我。转换后经典测量误差的假设在饮食评估文献中相当标准,并已被使用Kipnis等人(2009年),Zhang、Midthune、Guenther等人(2011年)、和Zhang,Midthune,Pérez等人(2011)此外,假设测量误差之间的独立性在复制时间相差很远的情况下也是典型的。我们分析的数据类型第5.5节我们工作的灵感来源于至少3个月后进行的复制,这是复制的标准抽样模式,因此在时间上相差很大。
取决于密度(f)U型的U型ij公司(a)已知;或(b)未知,(f)U型通常假设是对称的和连续的。此外X(X)我独立且同分布,且其密度(f)X(X)未知。自始至终,对于任何随机变量Z轴,我们使用(f)Z轴表示其密度。
最后,根据关于重复污染数据的标准经典误差模型假设,我们假设个人食用食物后两天的测量食物摄入量是独立的X(X)我具体来说,由于复制满足经典误差模型,我们假设,对于1≤我≤n个和j个≠j个′,
这些假设意味着
我们的目标是估计通常摄入量的分布函数,在文献中定义为随机变量T型我=E(W公司ij公司|X(X)我). 我们强调这一点X(X)我不是我此人的正常摄入量,T型我是,而且X(X)我是与正常摄入量相关的潜在变量。
3.方法
3.1. 基本计算
查找的表达式,我们首先表示随机变量T型我作为
在哪里写最后一个方程式,我们使用了以下事实,它来自(1),我们假设在整个实线上定义良好。我们推断
哪里
很容易看出这一点,其中,一1和一2第页不需要是有限的,除非无限多次地振荡,第页是有限的。在这个符号中,F类T型(t吨)可以表示为
在哪里,对所有人来说,
因此,要估计F类T型(t吨),只需估计一j个的,取决于未知β0和β1、和函数,这取决于未知(f)X(X)。我们将演示如何在第3.3节.
备注3.1。
While期间第页和一j个的取决于t吨,为了简化表示,我们没有在符号中明确表示这种依赖关系。
为了节省空间,我们定义如下
3.2. 当fU型已知
我们首先展示如何估计β,和F类T型在这种情况下(f)U型已知。
参数β= (β0, β1)T型通过隐式定义,由于X(X)我的未被观察到。因此,β不能直接估计,我们使用估计方程方法。自,我们需要找到两个依赖于H(H)β并且可以从W公司ij公司的。事实上H(H)β其尾部趋于零限制了方程的选择。例如,尽管克/小时β
=fX(X)积分为1,我们可以估计克根据我们的数据,方程式数值不太稳定,因为它涉及到除以H(H)β.
经过调查,在每个个体只有两个重复的情况下,我们发现方程式(8)和(9)数值稳定,易于从我们的数据中估计。请参见备注3.2对于在具有三个或更多个复制的情况下更稳定的方法。定义(8)和(9),从中召回第2节那个,为了j个≠j′,Wij公司和有条件地独立于X(X)我.出租g=fX(X)H(H)β,我们推断
这里我们使用了这样一个事实,从1)和对称性(f)U型.使用(7),我们可以估计和米+通过
推导β0和β1从(8)到(11),尚待估计克在的右侧(8)和(9).现在克=(f)X(X)H(H)β、和(f)X(X)由于X(X)我的未被观察到。然而,由于我们观察到什么时候W公司ij公司>0,我们可以估计,这可能与克通过调节X(X)我,如下所示。出租,无条件概率,并使用(1),我们有
如果和ϕU型表示的傅里叶变换和(f)U型傅里叶反演定理分别表明,如果ϕU型(t吨)全部>0,
现在什么时候,可以通过无偏估计
看见引理F.1在中补充材料然而,本质上是一个经验特征函数,其尾部太不可靠,无法直接插入(12)在相关的标准反卷积问题中,通常通过加权函数来衰减尾部效应,加权函数是称为核的函数的傅立叶变换,由平滑参数缩放小时(参见,例如。,卡罗尔和霍尔1988;Stefanski和Carroll 1990年). 使用类似的想法,让ϕk个表示实对称核函数的傅里叶变换K(K)然后让小时>0是带宽。假设ϕu个(t吨)≠0表示全部t吨,我们估计克(x)由
哪里
最后,我们估计β= (β0,β1)T型按值同时满足
哪里小时β是一种特殊的选择小时将在中讨论第5.1节.
备注3.2。
如果我们有J每个个体≥3次重复,而不是使用米+在(9),我们使用,如果J≥3,比米+的确,我们可以估计通过,其中第二个总和为1≤j个,k个, ℓ ≤J和c是四项总和中的项数。为了估计积分,我们替换克通过。请注意然而后一个积分涉及乘法x取值介于−∞和∞之间的项,以便估计时的估计误差克(x)和H(H)β(x)(请参见(16))被这个乘法放大了x术语。另一方面,在,乘法x术语替换为H(H)β(x),其中后者取[0,1]中的值,该值衰减了克(x)和H(H)β(x). 在第4节,我们为我们的估计量版本开发了理论β使用米+,但使用的估算器版本的理论几乎是一样的。特别是,只要J≥3,我们的定理的表述是一致的。
接下来,我们将展示如何估计在(6)。根据g的定义,我们有,可以通过以下公式进行估算,使用和同上,其中小时>0是可能与不同的带宽小时β在(16)。自H(H)是严格递增的累积分布函数,当,,对于所有固定年;此外,在标准条件下是可积的(参见,例如。,风扇1991a和第4.2节). 在这种情况下,我们可以估计通过.何时,作为x→−∞, 这可能会导致数值问题,除非我们避开太大。要做到这一点,我们可以写我们可以通过总结一下,所有人我们估计通过
最后,为了估算F类T型在(5),仍需构造一j个的。从调用第3.1节这些都是通过A类β在里面(4)作为,其中一1< · · · <一第页对于每个,我们可以估计A类β(t吨)由具有同上。我们推导出估计量的一j个通过表达作为,其中最后,采取如中所示(17),每个我们可以估计F类t吨(t吨)由
3.3. 当fU型未知
实际上,误差密度(f)U型并不总是已知的,在这种情况下,需要根据数据进行估计。如果我们有一个参数化模型(f)U型,未知参数可以从‘第页,开发(2),然后我们可以替换ϕU型在我们的估计中第3节通过结果估计ϕU型例如,如果唯一未知的是误差方差,并调用中的符号(7),可以通过以下公式进行估算
如果我们没有参数模型(f)U型在标准反褶积问题中,Delaigle、Hall和Meister(2008)建议的估算ϕU型通过重复数据差异的经验特征函数。虽然我们的背景不同,但我们可以使用类似的想法。签署人引理F.3在中补充材料,我们有,在哪里,对所有人来说,可以通过以下方式进行估算
自φU型(u个)全部>0,这意味着估计ϕU型(u个)由
如中所示第3.2节,估计F类T型我们需要估计β,和一j个的。按照该节进行,对于β,我们需要解决(16),在那里更换在(14)使用的版本而不是ϕU型。然而,这需要两次集成,尾部不可靠,分母为(14).这会导致技术问题,通过更换可以缓解这些问题ϕU型通过尾部修正.
具体来说,在尾部我们使用脊函数ρ这样它就可以保持不会变得太小。就是说,我们接受,其中τn个>0是阈值。然后,我们估计β按值这满足了(16),在那里更换在(14)使用的版本而不是.
估计,首先回忆上述解释(17)为了避免除以H(H)β当后者太接近零时,我们根据是否使用两个不同的公式β1≤0或β1> 0. 在以下情况下β是估计的,我们可以在(17)并更换在那里和φU型在里面通过同上。然而,数值实验表明,积分克在以下表达式中在里面第3.2节在估计之前,它改进了结果估计。这导致
然后我们可以通过
具有同上,其中
是的估计值和,其中带宽小时可能与不同小时β.
估算一j个的更简单。我们按照进行第3.2节,除了我们更换(f)U型(x)通过核估计,使用在(19),K(K)核函数和小时U型>0 a带宽。换句话说,对于所有人我们估计A类β(t吨)由具有同上,并表示作为哪里是我们对一j个的。在某些情况下,可能需要截断卷积积分以确保后者是有限的,概率为1。在实际中总是这样,积分是用有限和近似的。
最后,遵循(5),我们估计F类T型(t吨)由
5.数字方面
5.1. f时的带宽选择U型已知
在以下情况下傅已知,我们需要选择两种带宽,小时和小时β.带宽小时β不如小时因为它用于辅助步骤,在这里我们计算克仅用于估计β.现在克和密度的数据对于其中W公司ij公司>0通过方程式关联
因此,通过去卷积得到的密度从傅等于,这意味着小时β等于反卷积插件带宽Delaigle和Gijbels(2002年,2004)根据是为了哪个W公司ij公司> 0. 在下面的讨论之后定理4.1,我们可以将此带宽乘以n个以便小时β=o个(小时),但我们发现这在实践中是不必要的。
一旦我们获得了估算值属于β使用计算小时β,我们需要计算小时由我们的估计员使用属于F类T型。我们建议使用由Delaigle和Hall(2008),如下所示。首先,如果我们知道F类T型,我们可以选择小时以尽量减少相反,SIMEX方法包括模拟两个级别的数据,即SIMEX 1和SIMEX 2,这两个级别数据的污染程度甚至比原始数据更严重,并从中推断出使带宽最小化的带宽.
在SIMEXk个级别,用于k个=1,2,我们创建数据其中包含k个与的。使用符号,在SIMEXk个水平(k个=1,2),用于我= 1,...,n个和j个= 1,...,J我们按以下步骤进行。首先,生成.如果,采取和和; 不定义T型k、 我,和W公司k、 ij公司否则。将这些数据重新标记为,和,其中n个k个是非零数W公司k个−1,我1的。然后,以概率,套W公司k、 日本到零。
对于k个=1,2,在SIMEX中,分布的T型k、 我扮演的角色F类T型,我们观察到T型k、 我因此,除了计算我们的估算值之外属于使用中的方法第3.2节应用于W公司k、 ij公司,我们也可以计算,的经验分布函数T型k、 我的。后者是比前者更好的估计量,因此我们可以合理地近似通过因此,我们可以选择带宽小时k个用于估算通过最小化.
由于SIMEX数据是根据原始数据构建的,使用与相关数据相同的测量误差结构是到的X(X)我的,然后改写Delaigle和Hall(2008),措施和措施以与相同的方式措施X(X)我.如中所示Delaigle和Hall(2008),这表明小时2和小时1在这两者之间模仿小时1和小时从这个意义上说小时2/小时1≈小时1/小时这促使我们选择计算带宽作为.正如所指出的Delaigle和Hall(2008),这种方法变化太大,因为带宽小时k个取决于生成的特定SIMEX样本。和他们一样,为了稳定程序,在两个SIMEX级别上,我们生成了几个,B类比方说SIMEX样本,然后选择小时k个使结果的平均值最小化B类距离在我们的模拟中,我们B类= 20.
5.2. 实现时间fU型未知
在这种情况下,其中(f)U型未知,按非参数估计,如第3.3节,我们需要选择三个附加参数:岭函数ρ,阈值τn个和带宽小时U型用于计算。山脊和τn个只需避免使用当它太接近零时。在标准反褶积问题中Delaigle、Hall和Meister(2008),Delaigle和Meister(2008)、和Delaigle和Hall(2016),这些作者认为我们可以ρ等于拉普拉斯随机变量的特征函数,方差等于u的经验方差,我们遵循他们的建议。在他们的情况下τn个等于,其中t吨*是最小的t吨>0,其中有一个局部最小值,但通常是t吨*太大了。我们通过采取t吨*等于最小值t吨>0,其中达到其最大局部最大值。这种直觉是,在它的主体之外对应于纯噪声,任何小于这些摆动中最大值的都应对应于噪声。
选择小时U型,回想一下,这个带宽是由我们的估计器使用的根据数据计算,其中的表示样本,的。因为我们的目标是估算如果我们知道(f)U型我们会选择小时U型使积分平方误差最小,但我们不知道(f)U型因此,我们使用SIMEX过程。
为此,请考虑估计(f)U型,1=(f)U型*(f)U型和(f)U型,2=(f)U型,1*(f)U型,1,使用我们估算的版本应用于数据和.给,和可以分别取四个和八个独立变量的和随机抽取,替换的。我们还可以构造无错误的数据和,其中后者是通过取两个独立的的。利用这些无误差数据,我们还可以计算标准核密度估计量和远离的(f)U型,1和(f)U型,2.由于这些收敛速度更快(f)U型,1和(f)U型,2这表明,对于k个=1,2,我们可以选择带宽小时U、 k个用于计算通过最小化的值那么,由于和在这两者之间模仿(f)U型和,这促使我们假设小时U型/小时U型,1≈小时U型,1/小时U型,2并采取.如中所示第5.1节,我们通过生成B类=20个此类样品和取样小时U型,k个使结果的平均值最小化B类ISEk公司。
我们还需要选择小时如中所示第5.1节,但在这里,我们不能使用与之前完全相同的SIMEX方法(f)U型未知。为了克服这个困难k个=1,2,而不是生成U型k、 ij公司~(f)U型,我们生成U型1,ij公司和U型2,ij公司通过分别从是为了哪个W公司我1和W公司j个2非零,并且(W公司j个1—W公司j个2+W公司j个1—W公司j个2)/其中2个W公司我1,W公司我2,W公司j个1、和W公司j个2非零,这是一种近似的取值方式和U型2,ij公司∼(f)U型*(f)U型*(f)U型*(f)U型(2·). 自U型j个j个和Ûjs所有变量都有相同的方差,那么(f)U型和被中间人模仿和(f)U型
*(f)U型*(f)U型*(f)U型(2·). 或者,我们可以从但这很耗时。
最后,我们注意到,在大多数情况下,估计量属于F类T型从估计量中获得我T型在(21)比在(17)适用于中讨论的未知错误情况第3.3节,称之为然而,在某些情况下某些情况下会大于1t吨是的,在这种情况下,我们使用,除非它也大于1并且对于较小的值t吨比,在这种情况下,我们更换乘以1。我们发现这种方法比简单地更换乘以1。同样,在某些情况下远离1作为t吨增加,在这种情况下,我们使用.
5.3. 单调化估计
虽然我们对F类T型与反褶积问题中的通常情况一样,在有限样本中,它们不一定是的非递减函数t吨(在有限样本中,标准反褶积核密度估计量不一定处处为正,因此其相应的分布函数也不一定是单调的。)可以使用文献中存在的程序使其单调。例如,在我们的上下文中Dette、Neumeyer和Pilz(2006年)在间隔上单调化[a、 b条],估计量(例如。,或)第页,共页F类T型如下所示。
让V(V)=F类T型(U型),其中U型~U型[a、 b条]然后让(f)V(V),F类V(V)、和分别表示V的密度V(V),和的倒数F类T型.然后针对v(v)∈ [F类T型(一),F类T型(b条)],我们可以写因此,至o个获得的递增估计对于v(v)∈ [F类t吨(一),Ft吨(b条)],我们可以接受
哪里是的正估计量(f)V(V)根据样本构建V(V)1,...,V(V)N个,使用和Uj公司~U型[a、 b条],用于j个= 1,...,N个.我们得到了F类t吨上的[一,b条]通过数值反转.
自(f)V(V)支撑紧密,可能在一和b,而不是为了成为标准的核密度估计量,我们使用probit变换版本的Geenens(2014)这是为这种密度设计的。我们使用了作者提供的R代码,其中建议使用最小二乘交叉验证带宽。对于一和b条,我们采取[一,b条]是我们寻求估计的时间间隔F类(在我们的案例中,这是数字中使用的间隔)。然而,如果(f)U型未知,有时在接近零的间隔上是平的(回想一下T型>0),部分原因是我们设置了如果取负值,则为零。在这种情况下,为了避免使用货币化程序引入重大偏差,我们采取一是最小的数字不平坦。
5.4. 仿真
我们将我们的方法应用于以下四个模型的数据,在每种情况下,我们取H(H)成为物流职能和作为日志转换,因为这些是应用程序中常用的:
X(X)我~x2(10),U型ij公司~N个(0, σ2)和(a):β= (−5, 1.5)T型或(b):β= (−5, 1)T型;
X(X)我~N个(−2, 2),U型ij公司~N个(0, σ2)和(a):β= (3, 0.3)T型或(b):β= (1.6, 0.3)T型;
X(X)我~N个(−2, 2),U型ij公司~拉普拉斯(a)和(a):β= (3,0.3)T型或(b):β= (1.6, 0.3)T型;
X(X)我~0.3牛顿(-3,1)+0.7牛顿(3,1),U型ij公司-N个(0, σ2)和(a):β= (3, 0.7)T型或(b):β= (2, 0.7)T型。对于每个模型,情况(a)比情况(b)大,因此我们可以预期F类T型在情况(a)下比在情况(b)下更容易估计,因为我们实际上有更多的数据来计算我们的半参数估计量。
在每种情况下j个=1、2和我= 1,..., n、 我们设置了W公司ij公司概率为零H(H)β(X(X)我). 对于W公司j个≠0我们取了,其中U型ij公司独立于X(X)我,以及参数的位置σ从U型ij公司这样,噪声信号比NSR=var(U型)/无功功率,无功功率(X(X))等于10%或25%。对于每个配置,我们生成了200个大小的样本n个等于100250或500。
在每种情况下,我们都应用了我们的方法,假设误差密度已知,其中我们使用了估计器在(18),或者假设误差密度未知,我们使用估计量在(24)结合单调化过程第5.3节。我们还计算了一个朴素估计量属于F类T型通过计算的,在哪里假装平均值W公司ij公司的可以被视为X(X)我的。最后,我们计算了F类T型其中位于(12)我们估计通过乘以特征函数(请参见方程式(12))假设具有μw个和σW公司通过经验平均值和方差估计(f)U型正确指定。这种参数假设对于模型(ii)和(iii)是正确的,但对于模型(i)和(iv)是不正确的。
为了评估我们的程序的性能,对于每个模型组合的200个生成样本中的每一个,n个、NSR和β,对于每个,、和此处一般表示为,我们计算了综合加权绝对偏差对于每个估计器和每个配置,我们获得了200个IWAD值,并计算了其第一、第五和第九个十分位。结果,报告于对于和和中对于参数估计清楚地表明,naive估计的性能很差,因此在本节的其余部分将不考虑。不出所料,结果还表明,在参数正态假设正确的模型(ii)和(iii)中,参数估计优于我们的估计,尽管后者表现得相当好。然而,在这种参数假设不正确的模型(i)和(iv)中,我们的半参数估计比参数估计性能要好得多,即使在这些情况下,测量误差是正态分布的。
表1。
| | (f)U型已知,估计值
| (f)U型未知,估计器
|
---|
M(M) | 国家统计局 | n个= 100 | n个= 250 | n个= 500 | n个= 100 | n个= 250 | n个= 500 |
---|
|
(i) (a) | 10% | 28.6[14.7,52.9] | 18.3[9.9,42.2] | 14.3[8.2,27.7] | 37.3[16.2,98.0] | 25.3[12.3,49.2] | 19.2[10.1,37.3] |
| 25% | 34.5[16.1,65.4] | 23.4[13.6,35.7] | 19.5[10.6,29.0] | 46.6[20.9,95.0] | 32.7[14.2,68.3] | 24.3[12.8,47.7] |
(i) (b) | 10% | 30.6[16.6,55.7] | 20.1[10.2,43.0] | 16.2[9.4,46.6] | 50.8[23.6,106] | 48.5[17.7,102] | 37.8[14.8,77.7] |
| 25% | 32.4[16.5,60.2] | 25.5[14.5,39.9] | 18.9[12.3,28.5] | 53.9[25.5,113] | 36.1[16.2,85.3] | 29.8[14.7,65.1] |
(ii)(a) | 10% | 31.0[16.0,64.6] | 19.6[9.2,61.7] | 12.4[6.9,25.4] | 33.1[16.8,68.1] | 23.1[11.9,45.1] | 16.1[7.6,38.5] |
| 25% | 31.0[16.7,62.2] | 20.4[11.1,38.6] | 14.4[7.5,32.8] | 37.3[17.8,82.2] | 23.6[12.4,56.0] | 18.8[9.5,40.5] |
(ii)(b) | 10% | 32.6[14.1,58.0] | 19.0[8.9,46.3] | 15.5[7.8,28.6] | 38.4[20.7,72.4] | 25.8[12.9,50.1] | 19.9[9.7,38.6] |
| 25% | 34.2[18.2,64.6] | 23.5[12.8,40.1] | 18.8[9.6,41.0] | 37.9[19.1,82.8] | 25.1[10.8,53.1] | 20.9[10.5,40.5] |
(iii)(a) | 10% | 28.5[13.9,57.2] | 17.6[9.4,32.3] | 13.6[7.8,22.5] | 32.4[15.2,64.0] | 20.4[11.4,37.7] | 14.8[8.2,25.8] |
| 25% | 27.7[14.5,52.6] | 19.3[9.8,33.5] | 13.9[7.0,25.1] | 35.1[18.5,73.6] | 22.2[10.8,49.9] | 16.4[9.0,35.2] |
(iii)(b) | 10% | 31.9[16.9,61.4] | 20.6[10.8,35.5] | 14.5[8.2,25.2] | 34.9[19.7,72.1] | 27.8[12.4,53.5] | 22.9[9.9,47.7] |
| 25% | 34.8[16.9,60.0] | 21.6[11.0,37.4] | 14.6[9.3,25.9] | 36.7[17.7,76.2] | 26.7[12.6,53.1] | 21.2[10.7,44.2] |
(iv)(a) | 10% | 34.3[21.2,57.8] | 21.9[13.2,39.7] | 16.7[9.5,29.6] | 33.8[17.8,74.5] | 22.6[13.0,42.0] | 19.1[10.6,33.2] |
| 25% | 36.9[23.7,61.9] | 27.1[19.9,39.9] | 22.3[16.9,30.0] | 47.2[26.0,89.9] | 33.9[18.8,58.7] | 25.2[14.4,44.2] |
(iv)(b) | 10% | 31.8[19.3,57.0] | 23.5[13.1,46.4] | 18.5[11.5,37.2] | 37.8[21.2,66.4] | 23.9[13.9,40.1] | 19.2[11.4,33.4] |
| 25% | 37.3[24.2,60.0] | 27.7[19.6,41.5] | 24.2[16.6,32.5] | 45.2[23.5,108] | 33.4[22.0,56.7] | 26.5[16.1,40.2] |
表2。
的模拟结果以及参数估计器,其假设.
| |
| 参数估计器 |
---|
| |
|
|
---|
M(M) | 国家统计局 | n个= 100 | n个= 250 | n个= 500 | n个= 100 | n个= 250 | n个= 500 |
---|
|
(i) (a) | 10% | 65.2[31.7,107] | 67.1[44.0,91.2] | 66.5[53.6,84.9] | 38.7[24.0,69.5] | 35.1[23.6,53.4] | 34.7[26.6,47.8] |
| 25% | 152[111,195] | 156[133,180] | 156[141,173] | 40.2[23.5,7.0] | 35.3[23.6,54.4] | 34.9[26.3,48.2] |
(i) (b) | 10% | 72.4[38.8,114] | 74.5[50.4,99.5] | 73.9[59.3,92.0] | 41.7[25.6,66.7] | 36.7[26.5,54.2] | 36.7[28.7,48.5] |
| 25% | 150[111,194] | 155[132,179] | 155[139,173] | 41.1[26.1,66.8] | 36.6[26.3,53.8] | 37.0[27.9,48.8] |
(ii)(a) | 10% | 49.4[28.1,83.6] | 46.8[28.8,63.5] | 45.3[31.3,58.3] | 23.6[8.8,42.9] | 14.8[5.8,31.6] | 10.0[4.2,20.7] |
| 25% | 35.8[21.4,66.1] | 30.7[16.9,46.1] | 27.4[18.4,38.4] | 25.1[9.9,43.6] | 15.8[6.3,31.8] | 10.0[4.5,20.7] |
(ii)(b) | 10% | 160[134,186] | 158[141,175] | 158[147,168] | 28.9[11.1,53.2] | 16.5[7.5,35.2] | 12.4[5.1,23.6] |
| 25% | 139[112,167] | 137[120,154] | 137[126,147] | 30.3[11.1,54.3] | 17.4[7.7,34.4] | 12.2[4.7,23.7] |
(iii)(a) | 10% | 51.0[28.5,75.3] | 44.7[31.5,65.4] | 44.5[33.2,57.2] | 21.6[9.5,47.3] | 14.2[5.1,30.7] | 9.6[3.9,20.8] |
| 25% | 33.5[21.0,53.0] | 26.4[17.4,43.6] | 25.0[17.4,35.0] | 22.8[9.2,48.8] | 15.1[5.2,31.5] | 9.7[4.0,20.4] |
(iii)(b) | 10% | 162[135,184] | 157[142,173] | 157[146,168] | 24.5[10.9,52.5] | 17.2[7.2,31.9] | 11.6[5.3,24.7] |
| 25% | 138[109,160] | 132[117,149] | 133[123,143] | 24.6[12.1,53.4] | 17.9[7.8,34.1] | 13.0[5.1,25.4] |
(iv)(a) | 10% | 54.0[35.1,78.6] | 53.1[40.8,68.9] | 54.5[42.5,67.1] | 42.5[31.5,67.6] | 42.1[33.8,54.5] | 40.1[34.4,48.2] |
| 25% | 86.7[60.2,112] | 85.2[70.7,103] | 85.6[72.8,97.4] | 43.5[32.5,64.8] | 40.8[33.7,53.5] | 39.7[34.4,47.8] |
(iv)(b) | 10% | 69.9[52.9,96.4] | 71.8[58.2,88.1] | 72.2[60.3,84.9] | 40.0[27.0,66.3] | 36.5[27.4,49.9] | 33.9[27.9,42.2] |
| 25% | 101[76.6,126] | 102[88.7,118] | 103[91.2,115] | 41.7[28.1,64.6] | 36.4[27.9,49.5] | 33.6[27.9,42.0] |
针对每个配置和每个和,我们还绘制了与给出IWAD第一、第五和第九个十分位的三个样本相对应的估计曲线;在图表中,我们将其称为q个0.1,q个0.5和q个0.9在图中,为了增加可见性,我们绘制了日志(t吨+1) 与F类T型(t吨). 在,我们展示了模型(i)(a)和(i)n个=250,在误差密度已知的情况下,我们使用估计器,在误差密度未知的情况下,我们使用估计量。与表格一起,该图毫不奇怪地说明了估算F类T型在以下情况下更容易(f)U型我们知道什么时候需要进行估算,但我们的估算程序即使在傅需要进行估计。与表格一起,该图还说明了估算F类T型当W公司ij公司’当NRS较低时,取零值的s较低。
这里,IWAD代表文本中定义的综合加权绝对偏差,NSR代表文本中确定的噪声信号比。与估计器IWAD的第一、第五和第九个十分位对应的估计曲线在(24)(前两列)或在(18)(第三列)根据200个样本大小计算n个当误差密度未知且NSR=10%(第一列)或NSR=25%(第二列),或当误差密度已知且NSR=25%(第三列)时,根据模型(i)(a)(第一行)和(i)。实线表示真实F类T型.
在,我们比较了模型(ii)(b)和(iii)(b)以及NSR=10%或25%的估计曲线。该图与表格一起说明了估算F类T型当NSR较小且误差密度为拉普拉斯模型(iii)时,比理论预期的正常模型(ii)更容易(正常误差是超光滑的,导致收敛速度较慢)。最后,在我们给出了估计量对于模型(iv)(a)和NSR=25%,对于尺寸的样品n个=100、250和500。该图与表格一起说明了这样一个事实,即我们的估计值随着样本量的增加而提高n个增加。
这里,IWAD代表文本中定义的综合加权绝对偏差,NSR代表文本中确定的噪声信号比。与估计器IWAD的第一、第五和第九个十分位对应的估计曲线在(24)根据模型(ii)(b)中的200个样本计算,当n个=100且NSR=10%(第一列)或n个=100且NSR=25%(第二列)或模型(iii)(b),当n个=100和NsR=25%(第三列)。实线表示真实F类T型.
这里,IWAD代表文本中定义的综合加权绝对偏差。与估计器IWAD的第一、第五和第九个十分位对应的估计曲线在(18)当NSR=25%(第一列)和n个=100(第一列),n个=250(第二列)或n个=500(第三列)。实线表示真实F类T型.
5.5. 应用程序
我们将我们的方法应用于美国餐桌就餐研究(EATS,Subar等人,2001年). 在本研究中,n个=965名参与者报告了他们的酒精摄入量以及24小时召回(24HR)后的水果总摄入量J=4个不同且间隔较大的天数。我们拿走了作为日志转换,以及H(H)成为物流配送函数。很大一部分人在任何一天都不吃水果,更大一部分人每天都不饮酒。
我们比较了我们的半参数估计F类T型对于这些数据,使用中描述的全参数估计器Tooze等人(2010年)并在SAS程序中实现,该程序可在https://epi.grants.cancer.gov/deet/usualintakes/method.html由美国国家癌症研究所(NCI)编写。该估计器在很大程度上依赖于转换后的数据和正态分布的误差。为了使数据更接近正常值,我们遵循了营养流行病学中的常见做法,即剔除或审查难以置信的小变量值。在我们的分析中,我们用零取代了任何如此少的摄入:(a)<0.7克酒精,相当于<0.6盎司美国5%的12盎司标准啤酒;和(b)<0.30份标准水果,相当于<中等大小苹果的1/3。这导致了更合理的参数估计。
虽然参数估计器假设误差分布是正态分布的,但在本例中,这种分布实际上是未知的,因此在计算估计器时,我们使用了估计器从第3.3节。因为每个个体有2个以上的重复,估计β我们考虑中描述的过程的一个版本备注3.2适应以下情况(f)U型未知。具体来说,我们估计β按值这满足了和,其中和分别定义为(10)和中备注3.2,以及其中是的一个版本在(14)使用而不是(请参见第3.3节).
结果估计值F类T型如所示在饮酒的情况下,我们的半参数估计量和现有的参数估计量给出了类似的结果,这表明在这种情况下,正态性假设是合理的(对这些数据的q-q图分析证实了这一点:它只表明与正态性有适度的偏离)。然而,就水果消费而言,这两个估计值存在显著差异,表明在这种情况下,正态性假设不太合理(事实上,对数据的q-q图分析表明,与正态性的背离更为明显)。
半参数估计的比较在(24)和一个全参数估计量,当T型通常的饮酒量(左)或水果摄入量(右)。