Semiparametric Estimation of the Distribution of Episodically Consumed Foods Measured With Error

Félix Camirand Lemyre; Raymond J. Carroll; Aurore Delaigle

doi:10.1080/01621459.2020.1787840

美国统计协会。作者手稿；PMC 2023年1月1日提供。

以最终编辑形式发布为：

美国统计协会杂志，2022年；117(537): 469–481.

2020年8月19日在线发布。数字对象标识：10.1080/01621459.2020.1787840

预防性维修识别码：项目经理C9455891

美国国立卫生研究院：美国国家卫生研究院1641051

PMID：36091664

带有误差的间歇消费食品分布的半参数估计

费利克斯·卡米兰·莱梅尔,^a中，^b条雷蒙德·卡罗尔,^c、，^d日和奥罗尔·德莱格尔^{e（电子）}

作者信息版权和许可信息 PMC免责声明

关联数据

补充资料: 附录1。
NIHMS1641051-补充-Supp_1.zip（100万）
GUID:37B32664-88C9-4863-9D0B-86EF5BDD6993

摘要

观察到从24小时饮食召回中收集的饮食数据存在显著的测量误差。在非参数曲线估计文献中，大部分工作都致力于设计在噪声污染下一致的方法，这些方法传统上用于分析这些数据。然而，一些食物，如酒精或水果只是偶尔食用，可能不会在实施24小时召回的当天食用。这些所谓的过零点使得现有的非参数估计值失效，需要为这些数据开发新的技术。我们开发了两个新的一致性半参数估计量，用于估计此类偶发消费食品数据的分布，仅对模型中一些不太重要的部分进行参数假设。我们建立了它的理论性质，并在模拟数据和实际数据中说明了我们的完全数据驱动方法的良好性能。补充资料对于本文，可以在线获取。

关键词：渐近理论、反褶积、过零点、测量误差、非参数反褶积算

1.简介

多年来，美国（NHANES：国家健康和营养检查调查）、澳大利亚（例如，2007年澳大利亚国家儿童营养和身体活动调查）、加拿大（加拿大社区健康调查）和其他地方的国家营养调查都使用了24小时膳食召回（24HR）。24HR旨在收集过去24小时内营养素和食物摄入的准确信息，作为饮食评估的主要自我报告工具(Dwyer等人，2003年). 在国家调查中收集饮食数据的主要目的是估计各种营养素和食物组在人群和亚人群中的正常（即长期平均）摄入量分布，并监测这些摄入量随时间的变化。数据的另一个重要用途是将个人的正常摄入量与健康结果测量值（如肥胖或血压）联系起来。由于24小时摄入量仅记录了一天的食物/营养素摄入量，因此它不是一个很好甚至可靠的长期平均摄入量估计值。因此，仅使用24HR来估计正常摄入量的分布，而不考虑24HR的固有测量误差，对于重要数量（例如百分位数）来说，这是一种严重的偏差。

有大量的文献表明，当每天摄入食物/营养素时，估算正常摄入分布的测量误差。在该标准设置中，如果X（X）是未观察到和未观察到的正常摄入量，以及W公司单个24HR的结果，数据的典型模型W公司₁,...,W公司_n个是经典误差模型，其中W公司_我 =X_我 +U型_我具有X（X）_我和U型_我独立，在哪里U型_我表示测量误差。大多数文献都使用这个简单的模型或其变体，并假设24HR的日常可变性或测量误差具有完全已知的分布。通常W公司_我的不满足经典的加性误差模型，它是满足该模型的数据的转换版本。例如，通常假设模型在对数转换后满足。在这里，通常假设 ${W公司}_{我}^{'} = {X（X）}_{我}^{'} + {U型}_{我}^{'}$ ，其中 ${W公司}_{我}^{'} = 日志 ({W公司}_{我})$ , ${X（X）}_{我}^{'} = 日志 ({X（X）}_{我})$ 、和 ${U型}_{我}^{'} = 日志 ({U型}_{我})$ 。更一般地说，通常假设模型在W公司_我的已被单调函数转换 $小时$ .

在营养学研究中，人们对偶尔食用的食物的通常摄入量相当感兴趣，例如鱼、全谷物、全水果、果汁、深绿色和橙色蔬菜和豆类（DOL）、牛奶等（参见，例如。，Guenther等人2008;Guenther、Reedy和Krebs-Smith，2008年;Guenther等人，2014年). 例如，在2001-2004年NHANES中，任何一天报告的总水果、全水果、全谷物、DOL和牛奶的非消耗百分比分别为17%、40%、42%、50%和12%。这些变量在非消费日等于零，在消费日严格为正。

通常每个受试者都有几个24小时回忆，因此观察结果是重复回忆的样本W公司_ij公司对于我= 1,...,n个,j个= 1,...,J,J≥ 2. 营养调查的一个主要目标是估计个人通常摄入量的分布，即T型_我=E类(W公司_ij公司|X（X）_我). 重要的是要认识到，这是起初的数据规模。这个W公司_ij公司’s仍然可以被视为日常变化所污染的正常摄入量的一个版本，但由于非消费日的过量零点，我们无法使用经典的加性误差模型来描述它们。

关于过零点加测量误差的问题，已有文献和相关的多种建模方法，我们使用与该文献一致的模型；看见Tooze、Grunwald和Jones（2002年）,Tooze等人（2006年）,Li、Shao和Palta（2005）,Kipnis等人（2009年）,Keogh等人（2011年）,Zhang，Midthune，Pérez等人（2011）,Zhang、Midthune、Guenther等人（2011年）、和卡罗尔（2014）然而，所有这些参考都是完全参数，并假设在数据转换后，每个随机变量都是正态分布的；看见第2节在这项工作中，我们是第一个提出通常摄入量分布估计量的人T型_我这打破了参数分布假设。正如我们所示，这个问题在技术上很难解决，需要全新的分析方法。

虽然我们工作的动机来自营养，但过量零问题出现在许多不同的领域，如生态学(Fletcher、MacKenzie和Villouta，2005年)，环境(田2005)和药物测试(周和涂1999). 在那里，数据通常通过两个组件进行建模：一个用于说明观察到非零值的概率，另一个用于反映非零值分布。然后，人们的兴趣通常是（但不限于）估算模型的每个组成部分。我们在这项工作中提出的方法使我们能够得出这样的估计，作为我们估计程序的副产品。

本文的结构如下。我们在中介绍了我们的模型和数据第2节.我们在年引进的估算正常摄入量分布的方法第3节其中，对于误差密度已知和未知的情况，我们给出了两种不同的估计。我们导出了估计量的渐近性质第4节.英寸第5节在展示了如何在实践中选择我们的程序所需的平滑参数后，我们在模拟数据上说明了它们的数值性能，并应用该方法估计了美国一项饮食研究中的通常酒精和水果摄入的分布。结果的证明很长，在补充材料.

2.模型和数据

我们对日常（即长期日均）摄入量感兴趣T型一种食物。而不是观察T型，我们观察数据W公司_ij公司，用于我= 1,...,n个和j个= 1,...,J，其中W公司_ij公司代表报告的食物摄入量我当天第个个人j个.有时我个人不食用食物，因此W公司_ij公司= 0. 在食用食物的日子里，食物摄入量的测量方法是W公司_ij公司，经过适当的转换后，它是通常摄入的版本X（X）_我受到经典测量误差的影响。

Tooze等人（2006年）,2010)和Kipnis等人（2009年）考虑了这个问题的参数模型。在他们的公式中，他们假设饮食成分的摄入概率可以通过已知的严格递增的累积分布函数来描述H（H）例如，logistic分布函数。我们上下文中的等效公式如下。具体来说，对于我= 1,...,n个和j个= 1,...,J，他们假设对于一些潜在变量X（X）_我与正常摄入量有关，

ℙ ({W公司}_{我 j个} > 0 ∣ {X（X）}_{我}) = H（H） (β_{0} + β_{1} {X（X）}_{我}) \equiv {H（H）}_{β} ({X（X）}_{我}),

哪里β₀和β₁未知参数和β^T型= (β₀,β₁). 例如，在大多数情况下，在给定的一天吃某种食物的概率是该食物通常摄入量的增加函数：我们平均吃的食物越多，我们在给定的日子吃的可能性就越大。

在食用食物的日子里，经过适当的转换，测得的食物摄入量满足经典误差模型。具体来说，我们假设存在一个已知的严格单调函数 $小时 : (0, \infty) \to ℝ$ 例如，对数变换，使得给定潜在变量X（X）_我，的W公司_ij公司是独立的，并且

ℙ ({\tilde{W公司}}_{我 j个} \leq v（v） ∣ {W公司}_{我 j个} > 0, {X（X）}_{我} = x) = ℙ ({X（X）}_{我} + {U型}_{我 j个} \leq v（v） ∣ {X（X）}_{我} = x),

哪里 ${\tilde{W公司}}_{我 j个} = 小时 ({W公司}_{我 j个})$ 和U型_ij公司表示独立于(i、 j个)并且独立于X（X）_我。转换后经典测量误差的假设在饮食评估文献中相当标准，并已被使用Kipnis等人（2009年）,Zhang、Midthune、Guenther等人（2011年）、和Zhang，Midthune，Pérez等人（2011）此外，假设测量误差之间的独立性在复制时间相差很远的情况下也是典型的。我们分析的数据类型第5.5节我们工作的灵感来源于至少3个月后进行的复制，这是复制的标准抽样模式，因此在时间上相差很大。

取决于密度（f）_U型的U型_ij公司（a）已知；或（b）未知，（f）_U型通常假设是对称的和连续的。此外X（X）_我独立且同分布，且其密度（f）_X（X）未知。自始至终，对于任何随机变量Z轴，我们使用（f）_Z轴表示其密度。

最后，根据关于重复污染数据的标准经典误差模型假设，我们假设个人食用食物后两天的测量食物摄入量是独立的X（X）_我具体来说，由于复制满足经典误差模型，我们假设，对于1≤我≤n个和j个≠j个′,

\begin{array}{l} ℙ ({\tilde{W公司}}_{我 j个} \leq v（v）, {\tilde{W公司}}_{我 {j个}^{'}} \leq w个 ∣ {W公司}_{我 j个} > 0, {W公司}_{我 {j个}^{'}} > 0, {X（X）}_{我} = x) \\ = ℙ ({X（X）}_{我} + {U型}_{我 j个} \leq v（v） ∣ {X（X）}_{我} = x) ℙ ({X（X）}_{我} + {U型}_{我 {j个}^{'}} \leq w个 ∣ {X（X）}_{我} = x) . \end{array}

这些假设意味着

ℙ ({\tilde{W公司}}_{我 j个} \leq v（v） ∣ {W公司}_{我 j个} > 0, {X（X）}_{我} = x) = ℙ ({U型}_{我 j个} \leq v（v） - x),

(1)

\begin{array}{l} ℙ ({\tilde{W公司}}_{我 j个} \leq v（v）, {\tilde{W公司}}_{我^{'} j个} \leq w个 ∣ {W公司}_{我 j个} > 0, {W公司}_{我 {j个}^{'}} > 0, {X（X）}_{我} = x) \\ = ℙ ({U型}_{我 j个} \leq v（v） - x) ℙ ({U型}_{我 {j个}^{'}} \leq w个 - x) . \end{array}

(2)

我们的目标是估计通常摄入量的分布函数，在文献中定义为随机变量T型_我=E(W公司_ij公司|X（X）_我). 我们强调这一点X（X）_我不是我此人的正常摄入量，T型_我是，而且X（X）_我是与正常摄入量相关的潜在变量。

3.方法

3.1. 基本计算

查找的表达式 ${F类}_{T型} (t吨) = ℙ ({T型}_{我} \leq t吨)$ ，我们首先表示随机变量T型_我作为

\begin{array}{l} {T型}_{我} = E类 ({W公司}_{我 j个} ∣ {X（X）}_{我}) = E类 [{W公司}_{我 j个} {我 ({W公司}_{我 j个} = 0) + 我 ({W公司}_{我 j个} > 0)} ∣ {X（X）}_{我}] \\ = E类 ({W公司}_{我 j个} ∣ {W公司}_{我 j个} > 0, {X（X）}_{我}) {H（H）}_{β} ({X（X）}_{我}), \\ = {H（H）}_{β} ({X（X）}_{我}) ({小时}^{- 1} * {（f）}_{U型}) ({X（X）}_{我}), \end{array}

(3)

在哪里写最后一个方程式，我们使用了以下事实 $E类 ({W公司}_{我 j个} ∣ {W公司}_{我 j个} > 0, {X（X）}_{我}) = \int {小时}^{- 1} (v（v）) {（f）}_{U型} (v（v） - {X（X）}_{我}) d日 v（v） = ({小时}^{- 1} * {（f）}_{U型}) ({X（X）}_{我})$ ，它来自(1)，我们假设 ${小时}^{- 1}$ 在整个实线上定义良好。我们推断

{F类}_{T型} (t吨) = ℙ {{H（H）}_{β} ({X（X）}_{我}) ({小时}^{- 1} * {（f）}_{U型}) ({X（X）}_{我}) \leq t吨} = \int_{{A类}_{β} (t吨)} {（f）}_{X（X）} (x) d日 x,

哪里

{A类}_{β} (t吨) = {x : {H（H）}_{β} (x) ({小时}^{- 1} * {（f）}_{U型}) (x) \leq t吨} .

(4)

很容易看出这一点 ${A类}_{β} (t吨) = \cup_{我 = 1}^{第页} [一_{2 我 - 1}, 一_{2 我}]$ ，其中 $一_{2} < \dots < 一_{2 第页}, 一_{1}$ ,一₁和一_2第页不需要是有限的，除非 ${H（H）}_{β} (x) ({小时}^{- 1} * {（f）}_{U型}) (x)$ 无限多次地振荡，第页是有限的。在这个符号中，F类_T型(t吨)可以表示为

\begin{array}{l} {F类}_{T型} (t吨) = \sum_{我 = 1}^{第页} \int_{一_{2 我 - 1}}^{一_{2 我}} {（f）}_{X（X）} (x) d日 x = \sum_{我 = 1}^{2 第页} {(- 1)}^{我} \int_{- \infty}^{一_{我}} {（f）}_{X（X）} (x) d日 x \\ = \sum_{我 = 1}^{2 第页} {(- 1)}^{我} 我_{T型} (一_{我}) 我 (| 一_{我} | < \infty) + 我 (一_{2 第页} = \infty), \end{array}

(5)

在哪里，对所有人来说 $年 \in ℝ$ ,

我_{T型} (年) = \int_{- \infty}^{年} {（f）}_{X（X）} (x) d日 x .

(6)

因此，要估计F类_T型(t吨)，只需估计一_j个的，取决于未知β₀和β₁、和函数 $我_{T型}$ ，这取决于未知（f）_X（X）。我们将演示如何在第3.3节.

备注3.1。

While期间第页和一_j个的取决于t吨，为了简化表示，我们没有在符号中明确表示这种依赖关系。

为了节省空间，我们定义如下

\sum_{j个 < {j个}^{'}}^{J} = \sum_{j个 = 1}^{J - 1} \sum_{{j个}^{'} = j个 + 1}^{J} .

(7)

3.2. 当f_U型已知

我们首先展示如何估计β, $我_{T型}$ 和F类_T型在这种情况下（f）_U型已知。

参数β= (β₀, β₁)^T型通过隐式定义 ${H（H）}_{β} (x) = ℙ ({W公司}_{我 j个} > 0 ∣ {X（X）}_{我} = x)$ ，由于X（X）_我的未被观察到。因此，β不能直接估计，我们使用估计方程方法。自 $β \in ℝ^{2}$ ，我们需要找到两个依赖于H（H）_β并且可以从W公司_ij公司的。事实上H（H）_β其尾部趋于零限制了方程的选择。例如，尽管克/小时_β =f_X（X）积分为1，我们可以估计克根据我们的数据，方程式 $1 = \int 克 (x) / {H（H）}_{β} (x) d日 x$ 数值不太稳定，因为它涉及到除以H（H）_β.

经过调查，在每个个体只有两个重复的情况下，我们发现方程式（8）和(9)数值稳定，易于从我们的数据中估计。请参见备注3.2对于在具有三个或更多个复制的情况下更稳定的方法。定义(8)和(9)，从中召回第2节那个，为了j个≠j′，W_ij公司和 ${W公司}_{我 {j个}^{'}}$ 有条件地独立于X（X）_我.出租g=f_X（X）H（H）_β，我们推断

\begin{array}{l} {第页}_{{W公司}_{+}, {W公司}_{+}} \equiv ℙ ({W公司}_{我 j个} > 0, {W公司}_{我 {j个}^{'}} > 0) \\ = \int ℙ ({W公司}_{我 j个} > 0, {W公司}_{我 {j个}^{'}} > 0 ∣ {X（X）}_{我} = x) {（f）}_{X（X）} (x) d日 x \\ = \int {H（H）}_{β} (x) 克 (x) d日 x, \end{array}

(8)

\begin{array}{l} 米_{+} \equiv E类 {{\tilde{W公司}}_{我 j个} 我 ({W公司}_{我 j个} > 0) 我 ({W公司}_{我 {j个}^{'}} > 0)} \\ = \int E类 {{\tilde{W公司}}_{我 j个} 我 ({W公司}_{我 j个} > 0) ∣ {X（X）}_{我} = x} 克 (x) d日 x \\ = \int E类 ({\tilde{W公司}}_{我 j个} ∣ {W公司}_{我 j个} > 0, {X（X）}_{我} = x) {H（H）}_{β} (x) 克 (x) d日 x \\ = \int x {H（H）}_{β} (x) 克 (x) d日 x . \end{array}

(9)

这里我们使用了这样一个事实 $E类 ({\tilde{W公司}}_{我 j个} ∣ {W公司}_{我 j个} > 0, {X（X）}_{我} = x) = \int u个 {（f）}_{U型} (u个 - x) d日 u个 = x$ ，从1）和对称性（f）_U型.使用(7)，我们可以估计 ${第页}_{{W公司}_{+},}_{{W公司}_{+}}$ 和米₊通过

{\hat{第页}}_{{W公司}_{+}, {W公司}_{+}} = \frac{2}{n个 J (J - 1)} \sum_{我 = 1}^{n个} \sum_{j个 < {j个}^{'}}^{J} 我 ({W公司}_{我 j个} > 0, {W公司}_{我 {j个}^{'}} > 0),

(10)

{\hat{米}}_{+} = \frac{1}{n个 J (J - 1)} \sum_{我 = 1}^{n个} \sum_{j个 < {j个}^{'}}^{J} ({\tilde{W公司}}_{我 j个} + {\tilde{W公司}}_{我 {j个}^{'}}) 我 ({W公司}_{我 j个} > 0, {W公司}_{我 {j个}^{'}} > 0) .

(11)

推导β₀和β₁从(8)到(11)，尚待估计克在的右侧(8)和(9).现在克=（f）_X（X）H（H）_β、和（f）_X（X）由于X（X）_我的未被观察到。然而，由于我们观察到 ${\tilde{W公司}}_{我 j个}$ 什么时候W公司_ij公司>0，我们可以估计 ${\tilde{W公司}}_{我 j个} ∣ {W公司}_{我 j个} > 0$ ，这可能与克通过调节X（X）_我，如下所示。出租 ${第页}_{{W公司}_{+}} = ℙ ({W公司}_{j个 k个} > 0)$ ，无条件概率，并使用(1)，我们有

\begin{array}{l} {（f）}_{{\tilde{W公司}}_{j个 k个} ∣ {W公司}_{j个 k个} > 0} (v（v）) = \int {（f）}_{{\tilde{W公司}}_{我 j个} ∣ {W公司}_{我 j个} > 0, {X（X）}_{我} = x} (v（v）) {H（H）}_{β} (x) {（f）}_{X（X）} (x) d日 x / {第页}_{{W公司}_{+}} \\ = \int {（f）}_{U型} (v（v） - x) 克 (x) d日 x / {第页}_{{W公司}_{+}} . \end{array}

如果 $ϕ_{{\tilde{W公司}}_{+}}$ 和ϕ_U型表示的傅里叶变换 $第页 {W公司}_{+} {（f）}_{{\tilde{W公司}}_{j个 k个} ∣ {W公司}_{j个 k个} > 0}$ 和（f）_U型傅里叶反演定理分别表明，如果ϕ_U型(t吨)全部>0 $t吨 \in ℝ$ ,

克 (x) = \frac{1}{2 π} \int_{- \infty}^{\infty} {e（电子）}^{- 我 t吨 x} \frac{ϕ_{{\tilde{W公司}}_{+}} (t吨)}{ϕ_{U型} (t吨)} d日 t吨 .

(12)

现在什么时候 ${第页}_{{W公司}_{+}} > 0$ , $ϕ_{{\tilde{W公司}}_{+}} (t吨)$ 可以通过无偏估计

{\hat{ϕ}}_{{\tilde{W公司}}_{+}} (t吨) = \frac{1}{n个 J} \sum_{j个 = 1}^{n个} \sum_{k个 = 1}^{J} {e（电子）}^{我 t吨 {\tilde{W公司}}_{j个 k个}} 我 ({W公司}_{j个 k个} > 0),

(13)

看见引理F.1在中补充材料然而， ${\hat{ϕ}}_{{\tilde{W公司}}_{+}}$ 本质上是一个经验特征函数，其尾部太不可靠，无法直接插入(12)在相关的标准反卷积问题中，通常通过加权函数来衰减尾部效应，加权函数是称为核的函数的傅立叶变换，由平滑参数缩放小时（参见，例如。，卡罗尔和霍尔1988;Stefanski和Carroll 1990年). 使用类似的想法，让ϕ_k个表示实对称核函数的傅里叶变换K（K）然后让小时>0是带宽。假设ϕ_u个(t吨)≠0表示全部t吨，我们估计克(x)由

\begin{array}{l} \hat{克} (x; 小时) = \frac{1}{2 π} \int_{- \infty}^{\infty} {e（电子）}^{- 我 t吨 x} \frac{{\hat{ϕ}}_{{\tilde{W公司}}_{+}} (t吨)}{ϕ_{U型} (t吨)} ϕ_{K（K）} (小时 t吨) d日 t吨 \\ = \frac{1}{n个 J 小时} \sum_{j个 = 1}^{n个} \sum_{k个 = 1}^{J} {K（K）}_{U型} (\frac{x - {\tilde{W公司}}_{j个 k个}}{小时}; 小时) 我 ({W公司}_{j个 k个} > 0), \end{array}

(14)

哪里

\begin{array}{l} {K（K）}_{U型} (x; 小时) = \frac{1}{2 π} \int_{- \infty}^{\infty} {e（电子）}^{- 我 t吨 x} \frac{ϕ_{K（K）} (t吨)}{ϕ_{U型} (t吨 / 小时)} d日 t吨 \\ = \frac{1}{2 π} \int_{- \infty}^{\infty} 余弦 (t吨 x) \frac{ϕ_{K（K）} (t吨)}{ϕ_{U型} (t吨 / 小时)} d日 t吨 . \end{array}

(15)

最后，我们估计β= (β₀,β₁)^T型按值 $\hat{β} = {({\hat{β}}_{0}, {\hat{β}}_{1})}^{T型}$ 同时满足

\begin{array}{l} \int {H（H）}_{\hat{β}} (x) \hat{克} (x; {小时}_{β}) d日 x = \hat{第页} {W公司}_{+}, {W公司}_{+}, \\ \int x {H（H）}_{\hat{β}} (x) \hat{克} (x; {小时}_{β}) d日 x = {\hat{米}}_{+}, \end{array}

(16)

哪里小时_β是一种特殊的选择小时将在中讨论第5.1节.

备注3.2。

如果我们有J每个个体≥3次重复，而不是使用米₊在(9)，我们使用 ${第页}_{{W公司}_{+}, {W公司}_{+}, {W公司}_{+}} \equiv ℙ ({W公司}_{我 j个} > 0, {W公司}_{我 k个} > 0, {W公司}_{我 ℓ} > 0) = \int {H（H）}_{β}^{2} (x) 克 (x) d日 x$ ，如果J≥3，比米₊的确，我们可以估计 ${第页}_{{W公司}_{+}, {W公司}_{+}, {W公司}_{+}}$ 通过 ${\hat{第页}}_{{W公司}_{+}, {W公司}_{+}, {W公司}_{+}} = c^{- 1} \sum_{我 = 1}^{n个} \sum_{j个 \neq k个 \neq ℓ} 我 ({W公司}_{我 j个} > 0, {W公司}_{我 k个} > 0, {W公司}_{我 ℓ} > 0)$ ，其中第二个总和为1≤j个,k个, ℓ ≤J和c是四项总和中的项数。为了估计积分，我们替换克通过 $\hat{克}$ 。请注意 ${第页}_{{W公司}_{+}, {W公司}_{+}, {W公司}_{+}} = \int {H（H）}_{β}^{2} (x) 克 (x) d日 x$ 然而 $米_{+} = \int x {H（H）}_{β} (x) 克 (x) d日 x$ 后一个积分涉及乘法x取值介于−∞和∞之间的项，以便估计时的估计误差克(x)和H（H）_β(x)（请参见(16))被这个乘法放大了x术语。另一方面，在 ${第页}_{{W公司}_{+}, {W公司}_{+}, {W公司}_{+}}$ ，乘法x术语替换为H（H）_β(x)，其中后者取[0，1]中的值，该值衰减了克(x)和H（H）_β(x). 在第4节，我们为我们的估计量版本开发了理论β使用米₊，但使用的估算器版本的理论 ${\hat{第页}}_{{W公司}_{+}, {W公司}_{+}, {W公司}_{+}}$ 几乎是一样的。特别是，只要J≥3，我们的定理的表述是一致的。

接下来，我们将展示如何估计 $我_{T型} (年) = \int_{- \infty}^{年} {（f）}_{X（X）} (x) d日 x$ 在(6)。根据g的定义，我们有 ${（f）}_{X（X）} = {H（H）}_{β}^{- 1} 克$ ，可以通过以下公式进行估算 ${\hat{（f）}}_{X（X）} = {H（H）}_{\hat{β}}^{- 1} \hat{克} (\cdot; 小时)$ ，使用 $\hat{克}$ 和 $\hat{β}$ 同上，其中小时>0是可能与不同的带宽小时_β在(16)。自H（H）是严格递增的累积分布函数，当 ${\hat{β}}_{1} < 0$ , ${最大值}_{x \in (- \infty, 年]} {H（H）}^{- 1} ({\hat{β}}_{0} + {\hat{β}}_{1} x) = {H（H）}_{\hat{β}}^{- 1} (年) < \infty$ ，对于所有固定年；此外， ${\hat{（f）}}_{X（X）}$ 在标准条件下是可积的（参见，例如。，风扇1991a和第4.2节). 在这种情况下，我们可以估计 $我_{T型} (年)$ 通过 ${\hat{我}}_{T型} (年) = \int_{- \infty}^{年} {\hat{（f）}}_{X（X）} (x) d日 x$ .何时 ${\hat{β}}_{1} > 0$ , ${H（H）}_{\hat{β}}^{- 1} (x) = {H（H）}^{- 1} ({\hat{β}}_{0} + {\hat{β}}_{1} x) \to \infty$ 作为x→−∞, 这可能会导致数值问题，除非我们避开 ${H（H）}_{\hat{β}}^{- 1} (x)$ 太大。要做到这一点，我们可以写 $我_{T型} (年) = 1 - \int_{年}^{\infty} {（f）}_{X（X）} (x) d日 x$ 我们可以通过 ${\hat{我}}_{T型} (年) = 1 - \int_{年}^{\infty} {\hat{（f）}}_{X（X）} (x) d日 x$ 总结一下，所有人 $年 \in ℝ$ 我们估计 $我_{T型} (年)$ 通过

{\hat{我}}_{T型} (年) = {\begin{matrix} \int_{- \infty}^{年} {\hat{（f）}}_{X（X）} (x) d日 x = \int_{- \infty}^{年} {H（H）}_{\hat{β}}^{- 1} (x) \hat{克} (x; 小时) d日 x \\ 什么时候 {\hat{β}}_{1} \leq 0, \\ 1 - \int_{年}^{\infty} {\hat{（f）}}_{X（X）} (x) d日 x = 1 - \int_{年}^{\infty} {H（H）}_{\hat{β}}^{- 1} (x) \hat{克} (x; 小时) d日 x \\ 什么时候 {\hat{β}}_{1} > 0 \end{matrix}

(17)

最后，为了估算F类_T型在(5)，仍需构造一_j个的。从调用第3.1节这些都是通过A类_β在里面(4)作为 ${A类}_{β} (t吨) = \cup_{我 = 1}^{第页} [一_{2 我 - 1}, 一_{2 我}]$ ，其中一₁< · · · <一_第页对于每个 $t吨 \in ℝ$ ，我们可以估计A类_β(t吨)由 ${A类}_{\hat{β}} (t吨) = {x : {H（H）}_{\hat{β}} (x) ({小时}^{- 1} * {（f）}_{U型}) (x) \leq t吨}$ 具有 $\hat{β}$ 同上。我们推导出估计量 $\hat{一_{j个}}$ 的一_j个通过表达 ${A类}_{\hat{β}} (t吨)$ 作为 ${A类}_{\hat{β}} (t吨) = \cup_{我 = 1}^{第页} [{\hat{一}}_{2 我 - 1}, {\hat{一}}_{2 我}]$ ，其中 ${\hat{一}}_{1} < ... < {\hat{一}}_{2 第页}$ 最后，采取 ${\hat{我}}_{T型}$ 如中所示(17)，每个 $t吨 \in ℝ$ 我们可以估计F类_t吨(t吨)由

{\hat{F类}}_{T型} (t吨) = \sum_{我 = 1}^{2 第页} {(- 1)}^{我} {\hat{我}}_{T型} ({\hat{一}}_{我}) 我 (| {\hat{一}}_{我} | < \infty) + 我 ({\hat{一}}_{2 第页} = \infty) .

(18)

3.3. 当f_U型未知

实际上，误差密度（f）_U型并不总是已知的，在这种情况下，需要根据数据进行估计。如果我们有一个参数化模型（f）_U型，未知参数可以从 ${\tilde{W公司}}_{j个 k个}$ ‘第页，开发(2)，然后我们可以替换ϕ_U型在我们的估计中第3节通过结果估计ϕ_U型例如，如果唯一未知的是误差方差 $σ_{U型}^{2}$ ，并调用中的符号(7)，可以通过以下公式进行估算

{\hat{σ}}_{U型}^{2} = \frac{\sum_{j个 = 1}^{n个} \sum_{k个 < {k个}^{'}}^{J} {({\tilde{W公司}}_{j个 k个} - {\tilde{W公司}}_{j个 {k个}^{'}})}^{2} 我 ({W公司}_{j个 k个} > 0, {W公司}_{j个 {k个}^{'}} > 0)}{2 \sum_{j个 = 1}^{n个} \sum_{k个 < {k个}^{'}}^{J} 我 ({W公司}_{j个 k个} > 0, {W公司}_{j个 {k个}^{'}} > 0)} .

如果我们没有参数模型（f）_U型在标准反褶积问题中，Delaigle、Hall和Meister（2008）建议的估算ϕ_U型通过重复数据差异的经验特征函数。虽然我们的背景不同，但我们可以使用类似的想法。签署人引理F.3在中补充材料，我们有 $ϕ_{U型} = ϕ_{-}^{1 / 2}$ ，在哪里，对所有人来说 $u个 \in ℝ$ , $ϕ_{-} (u个) = E类 {{e（电子）}^{我 u个 ({\tilde{W公司}}_{j个 k个} - {\tilde{W公司}}_{j个 {k个}^{'}})} ∣ {W公司}_{j个 k个} > 0, {W公司}_{j个 {k个}^{'}} > 0}$ 可以通过以下方式进行估算

\begin{array}{l} {\hat{ϕ}}_{-} (u个) = \sum_{j个 = 1}^{n个} \sum_{k个 < {k个}^{'}}^{J} {e（电子）}^{我 u个 ({\tilde{W公司}}_{j个 k个} - {\tilde{W公司}}_{j个 {k个}^{'}})} 我 ({W公司}_{j个 k个} > 0, {W公司}_{j个 {k个}^{'}} > 0) \\ / \sum_{j个 = 1}^{n个} \sum_{k个 < {k个}^{'}}^{J} 我 ({W公司}_{j个 k个} > 0, {W公司}_{j个 {k个}^{'}} > 0) . \end{array}

自φ_U型(u个)全部>0 $u个 \in ℝ$ ，这意味着估计ϕ_U型(u个)由

\begin{array}{l} {\hat{ϕ}}_{U型} (u个) \\ = {| \frac{\sum_{j个 = 1}^{n个} \sum_{k个 < {k个}^{'}}^{J} 余弦 {u个 ({\tilde{W公司}}_{j个 k个} - {\tilde{W公司}}_{j个 {k个}^{'}})} 我 ({W公司}_{j个 k个} > 0, {W公司}_{j个 {k个}^{'}} > 0)}{\sum_{j个 = 1}^{n个} \sum_{k个 < {k个}^{'}}^{J} 我 ({W公司}_{j个 k个} > 0, {W公司}_{j个 {k个}^{'}} > 0)} |}^{1 / 2} . \end{array}

(19)

如中所示第3.2节，估计F类_T型我们需要估计β, $我_{T型}$ 和一_j个的。按照该节进行，对于β，我们需要解决(16)，在那里更换 $\hat{克}$ 在(14)使用的版本 ${\hat{ϕ}}_{U型}$ 而不是ϕ_U型。然而，这需要两次集成 ${\hat{ϕ}}_{U型}$ ，尾部不可靠，分母为(14).这会导致技术问题，通过更换可以缓解这些问题ϕ_U型通过尾部修正 ${\hat{ϕ}}_{U型}$ .

具体来说，在尾部我们使用脊函数ρ这样它就可以保持 ${\tilde{ϕ}}_{U型}$ 不会变得太小。就是说，我们接受 ${\tilde{ϕ}}_{U型} (u个) = {\hat{ϕ}}_{U型} (u个) 我 {{\hat{ϕ}}_{U型} (u个) \geq τ_{n个}} + ρ (u个) 我 {{\hat{ϕ}}_{U型} (u个) < τ_{n个}}$ ，其中τ_n个>0是阈值。然后，我们估计β按值 $\tilde{β} = {({\tilde{β}}_{0}, {\tilde{β}}_{1})}^{T型}$ 这满足了(16)，在那里更换 $\hat{克}$ 在(14)使用的版本 ${\tilde{ϕ}}_{U型}$ 而不是 ${\hat{ϕ}}_{U型}$ .

估计 $我_{T型}$ ，首先回忆上述解释(17)为了避免除以H（H）_β当后者太接近零时，我们根据是否使用两个不同的公式β₁≤0或β₁> 0. 在以下情况下β是估计的，我们可以在(17)并更换 $\hat{β}$ 在那里 $\tilde{β}$ 和φ_U型在里面 $\hat{克}$ 通过 ${\tilde{ϕ}}_{U型}$ 同上。然而，数值实验表明，积分克在以下表达式中 $我_{T型}$ 在里面第3.2节在估计之前，它改进了结果估计。这导致

我_{T型} (年) = {\begin{matrix} {H（H）}_{β}^{- 1} (年) 克 (年) - \int_{- \infty}^{年} 克 (x) {{H（H）}_{β}^{- 1} (x)}^{'} d日 x \\ 什么时候 β_{1} \leq 0, \\ 1 - {第页}_{{W公司}_{+}} + {H（H）}_{β}^{- 1} (年) 克 (年) + \int_{年}^{\infty} 克 (x) {{H（H）}_{β}^{- 1} (x)}^{'} d日 x \\ 什么时候 β_{1} > 0, \end{matrix}

(20)

然后我们可以通过

{\tilde{我}}_{T型} (年) = {\begin{array}{l} {H（H）}_{\tilde{β}}^{- 1} (年) \tilde{克} (年; 小时) - \int_{- \infty}^{年} \tilde{克} (x; 小时) {{H（H）}_{\tilde{β}}^{- 1} (x)}^{'} d日 x \\ 什么时候 {\tilde{β}}_{1} \leq 0, \\ 1 - {\hat{第页}}_{{W公司}_{+}} + {H（H）}_{\tilde{β}}^{- 1} (年) \tilde{克} (年; 小时) + \int_{年}^{\infty} \tilde{克} (x; 小时) {{H（H）}_{\tilde{β}}^{- 1} (x)}^{'} d日 x \\ 什么时候 {\tilde{β}}_{1} > 0, \end{array}

(21)

具有 $\tilde{β}$ 同上，其中

\tilde{克} (x; 小时) = \frac{{\hat{第页}}_{{W公司}_{+}}}{2} - \frac{1}{2 π} \int ϕ_{K（K）} (小时 u个) ℑ {{u个}^{- 1} {e（电子）}^{- 我 u个 x} {\hat{ϕ}}_{{W公司}_{+}} (u个) / {\tilde{ϕ}}_{U型} (u个)} d日 u个,

(22)

{\hat{第页}}_{{W公司}_{+}} = \frac{1}{n个 J} \sum_{j个 = 1}^{n个} \sum_{k个 = 1}^{j个} 我 ({W公司}_{j个 k个} > 0)

(23)

是的估计值 $克 (x) = \int_{- \infty}^{x} 克 (年) d日年$ 和 ${第页}_{{W公司}_{+}} = ℙ ({W公司}_{我 j个} > 0)$ ，其中带宽小时可能与不同小时_β.

估算一_j个的更简单。我们按照进行第3.2节，除了我们更换（f）_U型(x)通过核估计 ${\hat{（f）}}_{U型} (x) = {(2 π)}^{- 1} \int {e（电子）}^{- 我 u个 x} ϕ_{K（K）} ({小时}_{U型} u个) {\hat{ϕ}}_{U型} (u个) d日 u个$ ，使用 ${\hat{ϕ}}_{U型}$ 在(19),K（K）核函数和小时_U型>0 a带宽。换句话说，对于所有人 $t吨 \in ℝ$ 我们估计A类_β(t吨)由 ${\tilde{A类}}_{\tilde{β}} (t吨) = {x : {H（H）}_{\tilde{β}} (x) ({小时}^{- 1} * {\hat{（f）}}_{U型}) (x) \leq t吨}$ 具有 $\tilde{β}$ 同上，并表示 ${\tilde{A类}}_{\tilde{β}} (t吨)$ 作为 ${\tilde{A类}}_{\tilde{β}} (t吨) = \cup_{我 = 1}^{第页} [{\tilde{一}}_{2 我 - 1}, {\tilde{一}}_{2 我}]$ 哪里 ${\tilde{一}}_{1} < \dots < {\tilde{一}}_{2 第页}$ 是我们对一_j个的。在某些情况下，可能需要截断卷积积分 ${小时}^{- 1} * {\hat{（f）}}_{U型}$ 以确保后者是有限的，概率为1。在实际中总是这样，积分是用有限和近似的。

最后，遵循(5)，我们估计F类_T型(t吨)由

{\tilde{F类}}_{T型} (t吨) = \sum_{我 = 1}^{2 第页} {(- 1)}^{我} {\tilde{我}}_{T型} ({\tilde{一}}_{我}) 我 (| {\tilde{一}}_{我} | < \infty) + 我 ({\tilde{一}}_{2 第页} = \infty) .

(24)

4.理论

4.1. 理论中考虑的案例

在非参数反褶积文献中，众所周知，误差分布的光滑性对估计量的收敛速度有很大影响，而估计量的速度取决于ϕ_U型(Stefanski和Carroll 1990;风扇1991b). 区分两类主要误差是标准的：普通平滑误差，即u尾部多项式快速衰减为零，超光滑误差，其中u以指数速度衰减。证明这两种情况的理论结果需要相似但不同的论据。此外，超光滑误差情形在理论上最不有趣，因为在这种情况下，非参数估计以非常慢的对数速度收敛：这对我们的估计也是如此。在普通的平滑误差情况下，可以得到更有趣的结果。因此，由于我们的技术论据已经很长了，所以我们仅针对普通光滑情况提出理论。

备注4.1。

尽管在超光滑误差情况下具有对数收敛速度，但在反褶积文献中，非参数估计通常也能很好地处理这些误差。事实上，误差方差的大小等各种因素都会影响估计器的性能，因此，在超光滑误差情况下，实际性能通常优于标准渐近性预测的性能。例如，Delaigle（2008）世卫组织采用双重渐近方法，同时考虑样本大小和误差方差的大小。特别是，即使在超光滑的情况下，非参数估计通常也比参数估计执行得更好，除非我们对参数模型有一个大致的概念，该模型离真实曲线不太远，无法进行估计。在我们的数值计算中，我们将考虑普通光滑误差和超光滑误差，我们将看到，即使误差是超光滑的（例如，正态分布），我们的估计器在理论对数率下仍表现良好，并且显著优于基于不正确参数假设的参数估计器。

出于同样的原因，我们仅针对以下情况推导理论：β₁> 0. 这是一个有趣的实践案例，因为X（X）_我应该会导致更高的消费概率。该案例与以下案例之间的唯一区别β₁<0是指，当β₁<0，我们需要调整证明中的一些参数提案C.2在中补充材料（第C.2节）考虑到以下事实：β₁<0，方程式 ${H（H）}_{β} (x) {小时}^{- 1} * {（f）}_{U型} (x) = t吨$ 可以有多个解决方案。这可以使用相对标准但较长的参数来完成。我们在补充材料当β₁< 0.

在第4.3节，其中我们推导了以下情况下的理论（f）_U型未知，主要挑战是跟踪更换的影响ϕ_u个通过 ${\tilde{ϕ}}_{U型}$ 关于我们估计量的性质。可以证明，估计β对我们的结果只有二阶效应。因此，再次考虑到我们的技术论证已经很长了，在这种情况下（f）_U型未知，我们在假设下证明了我们的结果β已知。

最后，与通常处理非参数曲线估计问题一样，我们可以使用有限阶核（具有有限个非零矩），也可以使用无限阶核（例如由以下公式定义的sinc核） $ϕ_{K（K）} (t吨) = 我 [- 1, 1] (t吨)$ .无限阶核具有更好的理论性质，但在实际中，它们往往会产生摆动估计量，因此在我们的工作中，我们使用有限阶核。我们注意到sinc内核的证明比我们的证明更容易。

4.2. 理论当f_u个已知

我们需要以下假设。

假设A。

（A1）（f）_U型是对称密度ϕ_U型(u个)全部>0u个此外，ϕ_U型有三个连续导数并且存在有限常数c_U型>0和α>1这样 $林_{| u个 | \to \infty} | u个 |^{α} ϕ_{U型} (u个) = c_{U型}^{- 1}$ 和 $林_{| u个 | \to \infty} | u个 |^{α + 1} ϕ_{U型}^{'} (u个) = - α c_{U型}^{- 1}$ ，其中 $ϕ_{U型}^{'}$ 是的衍生物ϕ_u个.

（A2）K（K）是真实的、连续的和对称的，并且是这样的ϕ_K（K）消失在外面（−1，1）米+3个连续且有界的导数，对于一些正整数m，ϕ_k个(0)=1和 $ϕ_{K（K）} (u个) = 1 + O（运行） (| u个 |^{米 + 1})$ 作为u个→ 0

（A3）H（H）是两倍连续可微的，H（H）(x)全部>0 $x \in ℝ, {H（H）}^{'}$ 有界， $\int | x | {H（H）}^{'} (x) d日 x < \infty$ 和 $\int | x {H（H）}^{''} (x) | d日 x < \infty$ 。此外， $ϕ_{{H（H）}^{'}}$ 是连续可微的，并且存在两个常数D、 ϑ>1这样对所有人 $u个 \in ℝ$ , $最大值 {| ϕ_{{H（H）}^{'}} (u个) |, | ϕ_{{H（H）}^{'}}^{'} (u个) |} \leq D类最小值 (1, | u个 |^{- ϑ})$ .

（A4） ${（f）}_{{\tilde{W公司}}_{j个 k个} ∣ {W公司}_{j个 k个} > 0}$ 有界且存在δ>0，这样 $\int x^{4 + δ} {（f）}_{{W公司}_{j个 k个} ∣ {W公司}_{j个 k个} > 0} (x) d日 x < \infty$ .

（A5）克=（f）_X（X）H（H）_β是连续的， $\int x^{2} 克 (x) d日 x < \infty$ ，并且存在常量γ>0和Cg公司>0，以便所有人 $u个 \in ℝ, | ϕ_{克} (u个) | \leq {C类}_{克} {(1 + | u个 |)}^{- γ}$ 。此外，克有米有界导数和克^(米)Lipschitz是连续的米英寸（A2）。此外，还有c_克>0，以便所有人 $x \in ℝ$ 和j个≤米|x_克^(j个)(x)| <c_克、和函数x克^(米)(x)Lipschitz连续。

（A6）2≤J型<∞.

（A7） ${第页}_{{W公司}_{+}} > 0$ 和 ${第页}_{{W公司}_{+}, {W公司}_{+}} > 0$ ，使用 ${第页}_{{W公司}_{+}}$ 如第5页和 ${第页}_{{W公司}_{+},}_{{W公司}_{+}}$ 截至(8).

（A8）适用于 $\tilde{小时} = 小时$ 和 $\tilde{小时} = {小时}_{β}$ ，作为 $n个 \to \infty, \tilde{小时} \to 0$ , $n个 \tilde{小时} \to \infty$ , $\tilde{小时} | 日志 \tilde{小时} |^{2} \to 0$ , ${\tilde{小时}}^{α - 1 / 2} {(日志 n个)}^{1 / 2} \to 0$ 和 ${n个}^{1 / 2} {(日志 n个)}^{- 1} {\tilde{小时}}^{α + 1 / 2} = \infty$ 具有α如（A1）所示。

（A9）存在一个常数c_β>0使得β₀,β₁, ${\hat{β}}_{0}$ , ${\hat{β}}_{1} \in (- c_{β}, c_{β})$ 此外，对于任何ϵ>0和 $\bar{β} \in ℝ^{2}$ 具有 $‖ \bar{β} ‖_{\infty} < c_{β}$ , ${inf公司}_{| β - \bar{β} | > ϵ} {\int {H（H）}_{\bar{β}} (x) 克 (x) d日 x - {第页}_{{W公司}_{+}, {W公司}_{+}}}^{2} + {\int x {H（H）}_{\bar{β}} (x) 克 (x) d日 x - 米_{+}}^{2} > 0 = {\int {H（H）}_{β} (x) 克 (x) d日 x - {第页}_{{W公司}_{+}, {W公司}_{+}}}^{2} + {\int x {H（H）}_{β} (x) 克 (x) d日 x - 米_{+}}^{2}$ .

假设（A1）与风扇（1991a）和马斯里（1993）证明了反褶积核密度估计在一般光滑误差情况下的渐近正态性。唯一的区别是我们假设α>1，而不是α≥0或α≥1，并且ϕ_u个有三个（而不是两个）连续导数，我们需要证明 $\hat{β}$ 许多分布都满足这些条件。假设（A2）在反褶积文献中相当标准（参见，例如。，风扇1991a,1991亿;Masry 1993年). 它没有太多限制，因为我们可以选择内核。假设（A3）在我们的上下文中也不是很严格，并且例如通过逻辑分布和正态分布来满足。假设（A4）用于获得 $\hat{β}$ ; 它满足于任何具有有限前五阶矩的分布。施加的条件克假设（A5）与（f）_X（X）在里面风扇（1991a,1991年b）和马斯里（1993），上的条件除外x克^(j个)(x)，用于控制 $\hat{β}$ 假设（A6）仅表明我们至少需要J=2次重复，这是确定β₀和β₁并估计误差密度；另请参见Delaigle、Hall和Meister（2008）。如果我们观察到一些非零数据，则无法避免假设（A7）。假设（A8）与反褶积文献中通常施加的条件类型相同。

假设（A9）相当技术性。条件如A),β₀,β₁, ${\hat{β}}_{0}$ , ${\hat{β}}_{1} \in (- c_{β}, c_{β})$ 通常用于参数估计问题，其中需要确定收敛速度。条件 ${inf公司}_{| β - \bar{β} | > ϵ} {\int {H（H）}_{\bar{β}} (x) 克 (x) d日 x - {第页}_{{W公司}_{+}, {W公司}_{+}}}^{2} + {\int x {H（H）}_{\bar{β}} (x) 克 (x) d日 x - 米_{+}}^{2} > 0 = {\int {H（H）}_{β} (x) 克 (x) d日 x - {第页}_{{W公司}_{+}, {W公司}_{+}}}^{2} + {\int x {H（H）}_{β} (x) 克 (x) d日 x - 米_{+}}^{2}$ 保证方程组由(8)和(11)允许在的真实值附近有一个独特的解决方案β（参见，例如。，范德法特1998，第5章）。实际上，因为H（H）已知，可以通过检查不同的β.

定理4.1建立的渐近行为 ${\hat{F类}}_{T型}$ 在这种情况下β₁> 0. 其证明见补充材料（第C节），并使用与使用的参数类型类似的参数霍尔和拉希里（2008）,Dattner、Goldenshluger和Juditsky（2011）,Dattner和Reiser（2013）,Delaigle和Hall（2015）、和Datta等人（2018）.如中所述第4.1节，在以下情况下可以建立类似的结果β₁<0，使用标准但较长的参数。在这种情况下 ${\hat{F类}}_{T型} (t吨) - {F类}_{T型} (t吨)$ 在(25)将包含相关的正态分布项的总和。具体来说，代替ξ(t吨)英寸定理4.1，会有一个总和，比如ξ_k个(t吨)的，加上一个确定的顺序项小时^米+1类似于右侧的第三项和第四项(25).

定理4.1。

在条件（A1）-（A9）下，如果β₁>0和 $小时$ 对于任何 $t吨 \in ℝ_{+}$ 这样的话 ${啜饮}_{x \in ℝ} {小时}^{- 1} * {（f）}_{U型} (x) > t吨$ ，作为n个→∞ 我们有

\begin{array}{l} {\hat{F类}}_{T型} (t吨) - {F类}_{T型} (t吨) = {n个}^{- 1 / 2} {小时}^{- α + 1 / 2} {ξ (t吨) + {O（运行）}_{ℙ} (1)} \\ + ({n个}^{- 1 / 2} {小时}_{β}^{- α + 1} 日志 n个 + {小时}_{β}^{米 + 1}) ζ_{n个} (t吨, β) \\ + {小时}^{米 + 1} \frac{μ_{K（K）, 米 + 1}}{(米 + 1)!} [{H（H）}_{β}^{- 1} {x_{β} (t吨)} 克^{(米)} {x_{β} (t吨)} \\ + \int_{x_{β} (t吨)}^{\infty} 克^{(米)} (x) {{H（H）}_{β}^{- 1} (x)}^{'} d日 x] + o个 ({小时}^{米 + 1}), \end{array}

(25)

哪里ζ_n个(t吨,β) =O（运行）_美国。(1),ξ(t吨)是均值和方差为零的正态随机变量 $σ^{2} {x_{β} (t吨)} = {第页}_{{W公司}_{+}} J^{- 1} {（f）}_{{\tilde{W公司}}_{j个 k个} ∣ {W公司}_{j个 k个} > 0} {x_{β} (t吨)} {H（H）}_{β}^{- 2} {x_{β} (t吨)} \int_{- \infty}^{\infty} {K（K）}^{2} (x) d日 x, x_{β} (t吨)$ 是方程的唯一解 ${H（H）}_{β} (x) {小时}^{- 1} * {（f）}_{U型} (x) = t吨$ , $K（K） (x) = c_{U型} π^{- 1} \int_{0}^{1} {u个}^{α - 1} ϕ_{K（K）} (u个) 罪 (u个 x) d日 u个$ 和 $μ_{K（K）, 米 + 1} = \int {u个}^{米 + 1} K（K） (u个) d日 u个$ .

从我们对定理的证明中可以看出(25)仅来自对β通过 $\hat{β}$ （如果β已知且无需估计，则此项消失）。除了满足条件（A8）外，如果小时_β被选中，以便小时_β/小时→ 0和 ${小时}_{β}^{1 / 2} 日志 n个 \to 0$ 作为n个→∞, 那么这个项与其他项相比是可以忽略不计的，因此估计β通过 $\hat{β}$ 对的渐近行为没有影响 ${\hat{F类}}_{T型} (t吨) - {F类}_{T型} (t吨)$ 。然后，通过取相同大小的第一项和第三项，即取 $小时 ≍ {n个}^{- 1 / (2 米 + 2 α + 1)}$ ，这导致 ${\hat{F类}}_{T型} (t吨) = {F类}_{T型} (t吨) + {O（运行）}_{P（P）} {{n个}^{- (米 + 1) / (2 米 + 2 α + 1)}}$ .

备注4.2。

定理4.1为提供逐点一致性率 ${\hat{F类}}_{T型}$ 并提出了一个问题，即是否可以在类似于我们的设置下获得统一的一致性率。虽然提供一个严格的答案需要大量额外的技术计算页面，但我们的证明中的元素与定理2.2的证明中提出的论点相结合马斯里（1993）建议可以这样做，并表明对于任何紧凑型 $C类 \subset ℝ$ 令人满意的 ${啜饮}_{x \in ℝ} {小时}^{- 1} * {（f）}_{U型} (x) > {啜饮}_{t吨 \in C类} t吨$ ，它保持为n→∞那 ${啜饮}_{t吨 \in C类} | {\hat{F类}}_{T型} - {F类}_{T型} |$ 几乎可以肯定是正常的 ${n个}^{- 1 / 2} {小时}^{- α + 1 / 2} {(日志 n个)}^{1 / 2} + {n个}^{- 1 / 2} {小时}_{β}^{- α + 1} 日志 n个 + {小时}_{β}^{米 + 1} + {小时}^{米 + 1}$ 。支持这一观点的理论论据在补充材料（第D节）.

4.3. 理论当f_u个未知

在以下情况下（f）_U型未知，估计量的大样本行为 ${\tilde{F类}}_{T型}$ 定义于第3.3节可以通过表达 ${\tilde{F类}}_{T型} - {F类}_{T型}$ 作为

{\tilde{F类}}_{T型} - {F类}_{T型} = ({\tilde{F类}}_{T型} - {\tilde{F类}}_{T型}^{0}) + ({\tilde{F类}}_{T型}^{0} - {\hat{F类}}_{T型}^{0}) + ({\hat{F类}}_{T型}^{0} - {F类}_{T型}),

(26)

哪里 ${\tilde{F类}}_{T型}^{0}$ 和 ${\hat{F类}}_{T型}^{0}$ 分别是的版本， ${\tilde{F类}}_{T型}$ 和 ${\hat{F类}}_{T型}$ 哪里β和A类_β已知，请参阅补充材料（第E节）。右侧的第一项(26)来自估计的影响β关于估计量的渐近性质；第二项反映了估算的影响φ_U型通过 ${\tilde{ϕ}}_{U型}$ 在一个场景中β和A类_β将是已知的，而第三个术语是(25)哪里β已知。因此，粗略地说，当研究 ${\tilde{F类}}_{T型}$ ，只有右边的第二项(26)与学习时出现的术语显著不同 ${\hat{F类}}_{T型}$ 在里面定理4.1因此，由于我们的技术论据非常长，我们只为第二学期提供了严格的结果，请参阅定理4.2.

对于第三项，可以很容易地从定理4.1那个 ${\hat{F类}}_{T型}^{0} - {F类}_{T型} = {O（运行）}_{ℙ} ({n个}^{- 1 / 2} {小时}^{α - 1 / 2} + {小时}^{米 + 1})$ 关于第一项，通过合并与我们的证明中使用的类似的论点定理4.1和4.2，可以证明 ${\tilde{F类}}_{T型} (t吨) - {\tilde{F类}}_{T型}^{0} (t吨) = {O（运行）}_{ℙ} {一_{n个} (1 + {b条}_{n个})}$ ，其中 $一_{n个} = {n个}^{- 1 / 2} 日志 n个 {小时}_{β}^{- α + 1} + {小时}_{β}^{米 + 1}$ ，它也出现在定理4.1，是由估计β通过 $\tilde{β}$ 、和 ${b条}_{n个} = {n个}^{- 1 / 2} {(日志 n个)}^{1 / 2} {小时}^{- 三 α} + {小时}^{γ - 2 α} + 我 (2 α = γ) | 日志小时 |$ 由于估计φ_U型通过 ${\tilde{ϕ}}_{U型}$ ，另请参见定理4.2最后，学习右侧的第二项(25)，我们需要以下附加条件。

假设B。

（B1）存在两个常数R（右）>0和δ∈（0,1），因此x>R（右）, $ℙ (| {U型}_{11} - {U型}_{12} | > x) \leq {(日志 x)}^{- 1 / δ}$ .

（B2） $林_{n个 \to \infty} 小时日志 n个 < \infty$ 和 $林_{n个 \to \infty} {n个}^{1 / 2} {(日志 n个)}^{- 1 / 2} {小时}^{2 α} = \infty$ ，使用α如（A1）所示。

（B3） $0 < τ_{n个} < {小时}^{α + δ^{'}}$ 对一些人来说δ'>0，带α如（A1）所示。

假设（B1）用于获得 ${\tilde{ϕ}}_{U型}$ 和ϕ_U型，无论何时E类(\U型\^𝛿)<∞对于某些δ>0，这可以说不是很严格。假设（B2）与Delaigle、Hall和Meister（2008年，定理3.1）。

下一个定理为右边的第二项建立了渐近性质(25)。请参阅补充材料（第E节）作为证据。

定理4.2。

假设β₁≠ 0. 在条件（A1）-（A8）和（B1）-（B3）下，存在一个常数η>0，这样对于任何 $t吨 \in ℝ_{+}$ 并且足够大n个,

\begin{array}{l} | {\tilde{F类}}_{T型}^{0} (t吨) - {\hat{F类}}_{T型}^{0} (t吨) | \leq η \sum_{j个 = 1}^{2 第页} 我 (| 一_{j个} | < \infty) {H（H）}_{β}^{- 2} (一_{j个}) {n个}^{- 1 / 2} {(日志 n个)}^{1 / 2} \\ \times {1 + {n个}^{- 1 / 2} {(日志 n个)}^{1 / 2} {小时}^{- 三 α} + {小时}^{γ - 2 α} \\ + 我 (2 α = γ) | 日志 小时 |} 美国。 \end{array}

结合这个定理和上面的讨论，我们得出如下结论

\begin{array}{l} {\tilde{F类}}_{T型} (t吨) - {F类}_{T型} (t吨) = {O（运行）}_{ℙ} [{一_{n个} + {n个}^{- 1 / 2} {(日志 n个)}^{1 / 2}} (1 + {b条}_{n个})] \\ + {O（运行）}_{ℙ} ({n个}^{- 1 / 2} {小时}^{α - 1 / 2} + {小时}^{米 + 1}), \end{array}

哪里 $一_{n个} = {n个}^{- 1 / 2} 日志 n个 {小时}_{β}^{- α + 1} + {小时}_{β}^{米 + 1}$ 和 ${b条}_{n个} = {n个}^{- 1 / 2} {(日志 n个)}^{1 / 2} {小时}^{- 三 α} + {小时}^{γ - 2 α} + 我 (2 α = γ) | 日志小时 |$ 为了进行比较，如果（f）_U型在中已知定理4.1我们确定了 ${\hat{F类}}_{T型} (t吨) - {F类}_{T型} (t吨) = {O（运行）}_{ℙ} (一_{n个}) + {O（运行）}_{ℙ} ({n个}^{- 1 / 2} {小时}^{- α + 1 / 2} + {小时}^{米 + 1})$ 因此，估计（f）_U型导致额外的订单条款错误n个^−1/2（日志n个)^1/2和b条_n个.

5.数字方面

5.1. f时的带宽选择_U型已知

在以下情况下傅已知，我们需要选择两种带宽，小时和小时_β.带宽小时_β不如小时因为它用于辅助步骤，在这里我们计算克仅用于估计β.现在克和密度 ${（f）}_{{\tilde{W公司}}_{j个 k个} ∣ {W公司}_{j个 k个} > 0}$ 的数据 ${\tilde{W公司}}_{我 j个}$ 对于其中W公司_ij公司>0通过方程式关联

\begin{array}{l} {（f）}_{{\tilde{W公司}}_{j个 k个} ∣ {W公司}_{j个 k个} > 0} (v（v）) = \int {（f）}_{{\tilde{W公司}}_{我 j个} ∣ {W公司}_{我 j个} > 0, {X（X）}_{我} = x} (v（v）) {H（H）}_{β} (x) {（f）}_{X（X）} (x) d日 x / {第页}_{{W公司}_{+}} \\ = \int {（f）}_{U型} (v（v） - x) 克 (x) d日 x / {第页}_{{W公司}_{+}} . \end{array}

因此，通过去卷积得到的密度 ${（f）}_{{\tilde{W公司}}_{j个 k个} ∣ {W公司}_{j个 k个} > 0}$ 从傅等于 $克 / {第页}_{{W公司}_{+}}$ ，这意味着小时_β等于反卷积插件带宽Delaigle和Gijbels（2002年,2004)根据 ${\tilde{W公司}}_{我 j个}$ 是为了哪个W公司_ij公司> 0. 在下面的讨论之后定理4.1，我们可以将此带宽乘以n个以便小时_β=o个(小时)，但我们发现这在实践中是不必要的。

一旦我们获得了估算值 $\hat{β}$ 属于β使用计算小时_β，我们需要计算小时由我们的估计员使用 ${\hat{F类}}_{T型}$ 属于F类_T型。我们建议使用由Delaigle和Hall（2008），如下所示。首先，如果我们知道F类_T型，我们可以选择小时以尽量减少 $D类 ({\hat{F类}}_{T型}, {F类}_{T型}) \equiv \int | {\hat{F类}}_{T型} (t吨) - {F类}_{T型} (t吨) | d日 {F类}_{T型} (t吨)$ 相反，SIMEX方法包括模拟两个级别的数据，即SIMEX 1和SIMEX 2，这两个级别数据的污染程度甚至比原始数据更严重，并从中推断出使带宽最小化的带宽 $D类 ({\hat{F类}}_{T型}, {F类}_{T型})$ .

在SIMEXk个级别，用于k个=1,2，我们创建数据 $({W公司}_{k个, 我 j个}, {\tilde{W公司}}_{k个, 我 j个}, {T型}_{k个, 我})$ 其中包含k个与 $({W公司}_{我 j个}, {\tilde{W公司}}_{我 j个}, {T型}_{我})$ 的。使用符号 ${W公司}_{0, 我 j个} = {W公司}_{我 j个}$ ，在SIMEXk个水平(k个=1，2），用于我= 1,...,n个和j个= 1,...,J我们按以下步骤进行。首先，生成 ${U型}_{k个, 我 j个} ~ {（f）}_{U型}$ .如果 ${W公司}_{k个 - 1, 我 1} > 0$ ，采取 ${T型}_{k个, 我} = {H（H）}_{β} ({W公司}_{k个 - 1, 我 1}) ({小时}^{- 1} * {（f）}_{U型}) ({W公司}_{k个 - 1, 我 1})$ 和 ${\tilde{W公司}}_{k个, 我 j个} = {\tilde{W公司}}_{k个 - 1, 我 1} + {U型}_{k个, 我 j个}$ 和 ${W公司}_{k个, 我 j个} = {小时}^{- 1} ({\tilde{W公司}}_{k个, 我 j个})$ ; 不定义T型_{k、我}, ${\tilde{W公司}}_{k个, 我 j个}$ 和W公司_{k、 ij公司}否则。将这些数据重新标记为 ${T型}_{k个, 1}, ..., {T型}_{k个, {n个}_{k个}}$ , ${\tilde{W公司}}_{k个, 1 j个}, ..., {\tilde{W公司}}_{k个, {n个}_{k个} j个}$ 和 ${W公司}_{k个, 1 j个}, ..., {W公司}_{k个, {n个}_{k个} j个}$ ，其中n个_k个是非零数W公司_k个−1,_我1的。然后，以概率 $1 - {H（H）}_{\hat{β}} ({\tilde{W公司}}_{k个 - 1, 我 1})$ ，套W公司_{k、日本}到零。

对于k个=1，2，在SIMEX中，分布 ${F类}_{{T型}_{k个}}$ 的T型_{k、我}扮演的角色F类_T型，我们观察到T型_{k、我}因此，除了计算我们的估算值之外 ${\hat{F类}}_{{T型}_{k个}}$ 属于 ${F类}_{{T型}_{k个}}$ 使用中的方法第3.2节应用于W公司_{k、 ij公司}，我们也可以计算 ${\hat{F类}}_{{T型}_{k个}, 电磁脉冲}$ ，的经验分布函数T型_{k、我}的。后者是比前者更好的估计量，因此我们可以合理地近似 $D类 ({\hat{F类}}_{{T型}_{k个}}, {F类}_{{T型}_{k个}}) = \int | {\hat{F类}}_{{T型}_{k个}} (t吨) - {F类}_{{T型}_{k个}} (t吨) | d日 {F类}_{{T型}_{k个}} (t吨)$ 通过 ${\hat{D类}}_{k个} ({\hat{F类}}_{{T型}_{k个}}, {\hat{F类}}_{{T型}_{k个}, 电磁脉冲}) = {n个}^{- 1} \sum_{我} | {\hat{F类}}_{{T型}_{k个}, 电磁脉冲} ({T型}_{k个, 我}) - {\hat{F类}}_{{T型}_{k个}} ({T型}_{k个, 我}) |$ 因此，我们可以选择带宽小时_k个用于估算 ${F类}_{{T型}_{k个}}$ 通过最小化 ${\hat{D类}}_{k个}$ .

由于SIMEX数据是根据原始数据构建的，使用与相关数据相同的测量误差结构 ${\tilde{W公司}}_{我 j个}$ 是到的X（X）_我的，然后改写Delaigle和Hall（2008）, ${\tilde{W公司}}_{2, 我 j个}$ 措施 ${\tilde{W公司}}_{1, 我 j个}$ 和 ${\tilde{W公司}}_{1, 我 j个}$ 措施 ${\tilde{W公司}}_{我 j个}$ 以与相同的方式 ${\tilde{W公司}}_{我 j个}$ 措施X（X）_我.如中所示Delaigle和Hall（2008），这表明小时₂和小时₁在这两者之间模仿小时₁和小时从这个意义上说小时₂/小时₁≈小时₁/小时这促使我们选择计算带宽 ${\hat{F类}}_{T型}$ 作为 $小时 = {小时}_{1}^{2} / {小时}_{2}$ .正如所指出的Delaigle和Hall（2008），这种方法变化太大，因为带宽小时_k个取决于生成的特定SIMEX样本。和他们一样，为了稳定程序，在两个SIMEX级别上，我们生成了几个，B类比方说SIMEX样本，然后选择小时_k个使结果的平均值最小化B类距离 ${\hat{D类}}_{k个} ({\hat{F类}}_{{T型}_{k个}}, {\hat{F类}}_{{T型}_{k个}, 电磁脉冲})$ 在我们的模拟中，我们B类= 20.

5.2. 实现时间f_U型未知

在这种情况下，其中（f）_U型未知，按非参数估计，如第3.3节，我们需要选择三个附加参数：岭函数ρ，阈值τ_n个和带宽小时_U型用于计算 ${\hat{（f）}}_{U型}$ 。山脊和τ_n个只需避免使用 ${\hat{ϕ}}_{U型}$ 当它太接近零时。在标准反褶积问题中Delaigle、Hall和Meister（2008）,Delaigle和Meister（2008）、和Delaigle和Hall（2016），这些作者认为我们可以ρ等于拉普拉斯随机变量的特征函数，方差等于u的经验方差，我们遵循他们的建议。在他们的情况下τ_n个等于 ${\hat{ϕ}}_{U型} (t吨 *)$ ，其中t吨*是最小的t吨>0，其中 ${\hat{ϕ}}_{U型} (t吨)$ 有一个局部最小值，但通常是t吨*太大了。我们通过采取t吨*等于最小值t吨>0，其中 ${\hat{ϕ}}_{U型} (t吨)$ 达到其最大局部最大值。这种直觉是，在它的主体之外 ${\hat{ϕ}}_{U型}$ 对应于纯噪声，任何小于这些摆动中最大值的都应对应于噪声。

选择小时_U型，回想一下，这个带宽是由我们的估计器使用的 ${\hat{（f）}}_{U型}$ 根据数据计算 ${\tilde{U型}}_{我} ~ {（f）}_{U型} * {（f）}_{U型}$ ，其中 ${\tilde{U型}}_{我}$ 的表示样本 ${\tilde{W公司}}_{j个 k个} - {\tilde{W公司}}_{j个 {k个}^{'}} ∣ {W公司}_{j个 k个} > 0$ , ${W公司}_{j个 {k个}^{'}} > 0$ 的。因为我们的目标是估算 ${小时}^{- 1} * {（f）}_{U型}$ 如果我们知道（f）_U型我们会选择小时_U型使积分平方误差最小 $ISE公司 = \int {{小时}^{- 1} * {\hat{（f）}}_{U型} (x) - {小时}^{- 1} * {（f）}_{U型} (x)}^{2} d日 x$ ，但我们不知道（f）_U型因此，我们使用SIMEX过程。

为此，请考虑估计（f）_U型,₁=（f）_U型*（f）_U型和（f）_U型,2=（f）_U型,1*（f）_U型,1，使用我们估算的版本 ${\hat{（f）}}_{U型}$ 应用于数据 ${\tilde{U型}}_{我, 2} ~ {（f）}_{U型, 2}$ 和 ${\tilde{U型}}_{我, 三} ~ {（f）}_{U型, 2} * {（f）}_{U型, 2}$ .给， ${\tilde{U型}}_{我, 2}$ 和 ${\tilde{U型}}_{我, 三}$ 可以分别取四个和八个独立变量的和 ${\tilde{U型}}_{我}$ 随机抽取，替换 ${\tilde{U型}}_{我}$ 的。我们还可以构造无错误的数据 ${\tilde{U型}}_{我, 2} ~ {（f）}_{U型, 2}$ 和 ${\tilde{U型}}_{我, 1} ~ {（f）}_{U型, 1}$ ，其中后者是通过取两个独立的 ${\tilde{U型}}_{我}$ 的。利用这些无误差数据，我们还可以计算标准核密度估计量 ${\hat{（f）}}_{U型, 1, E类 F类}$ 和 ${\hat{（f）}}_{U型, 2, E类 F类}$ 远离的（f）_U型,₁和（f）_U型,₂.由于这些收敛速度更快（f）_U型,1和（f）_U型,2这表明，对于k个=1,2，我们可以选择带宽小时_{U、 k个}用于计算 ${\hat{（f）}}_{U型, k个}$ 通过最小化的值 ${ISE公司}_{k个} = \int {{小时}^{- 1} * {\hat{（f）}}_{U型, k个} (x) - {小时}^{- 1} * {\hat{（f）}}_{U型, k个, E类 F类} (x)}^{2} d日 x$ 那么，由于 ${（f）}_{{U型}_{1}}$ 和 ${（f）}_{{U型}_{2}}$ 在这两者之间模仿（f）_U型和 ${（f）}_{{U型}_{1}}$ ，这促使我们假设小时_U型/小时_U型,1≈小时_U型,1/小时_U型,2并采取 ${小时}_{U型} = {小时}_{U型, 1}^{2} / {小时}_{U型, 2}$ .如中所示第5.1节，我们通过生成B类=20个此类样品和取样小时_U型,k个使结果的平均值最小化B类ISEk公司。

我们还需要选择小时如中所示第5.1节，但在这里，我们不能使用与之前完全相同的SIMEX方法（f）_U型未知。为了克服这个困难k个=1,2，而不是生成U型_{k、 ij公司}~（f）_U型，我们生成U型_1,ij公司和U型_2,ij公司通过分别从 $({W公司}_{我 1} - {W公司}_{我 2}) / \sqrt{2}$ 是为了哪个W公司_我1和W公司_j个2非零，并且(W公司_j个1—W公司_j个2+W公司_j个1—W公司_j个2)/其中2个W公司_我1,W公司_我2,W公司_j个1、和W公司_j个2非零，这是一种近似的取值方式 ${U型}_{1, 我 j个} ~ {（f）}_{U型} * {（f）}_{U型} (\sqrt{2} \cdot)$ 和U型_2,ij公司∼（f）_U型*（f）_U型*（f）_U型*（f）_U型(2·). 自U型_j个j个和Ûjs所有变量都有相同的方差，那么（f）_U型和 ${（f）}_{U型} * {（f）}_{U型} (\sqrt{2} \cdot)$ 被中间人模仿 ${（f）}_{U型} * {（f）}_{U型} (\sqrt{2} \cdot)$ 和（f）_U型 *（f）_U型*（f）_U型*（f）_U型(2·). 或者，我们可以从 ${\hat{（f）}}_{U型}$ 但这很耗时。

最后，我们注意到，在大多数情况下，估计量 ${\tilde{F类}}_{T型}$ 属于F类_T型从估计量中获得我_T型在(21)比在(17)适用于中讨论的未知错误情况第3.3节，称之为 ${\tilde{F类}}_{T型, 2}$ 然而，在某些情况下 ${\tilde{F类}}_{T型} (t吨)$ 某些情况下会大于1t吨是的，在这种情况下，我们使用 ${\tilde{F类}}_{T型, 2}$ ，除非它也大于1并且对于较小的值t吨比 ${\tilde{F类}}_{T型} (t吨)$ ，在这种情况下，我们更换 ${\tilde{F类}}_{T型} (t吨) > 1$ 乘以1。我们发现这种方法比简单地更换 ${\tilde{F类}}_{T型} (t吨) > 1$ 乘以1。同样，在某些情况下 ${\tilde{F类}}_{T型} (t吨)$ 远离1作为t吨增加，在这种情况下，我们使用 ${\tilde{F类}}_{T型, 2}$ .

5.3. 单调化估计

虽然我们对F类_T型与反褶积问题中的通常情况一样，在有限样本中，它们不一定是的非递减函数t吨（在有限样本中，标准反褶积核密度估计量不一定处处为正，因此其相应的分布函数也不一定是单调的。）可以使用文献中存在的程序使其单调。例如，在我们的上下文中Dette、Neumeyer和Pilz（2006年）在间隔上单调化[a、 b条]，估计量 ${\overset{ˇ}{F类}}_{T型}$ （例如。， ${\tilde{F类}}_{T型}$ 或 ${\hat{F类}}_{T型}$ )第页，共页F类_T型如下所示。

让V（V）=F类_T型(U型)，其中U型~U型[a、 b条]然后让（f）_V（V）,F类_V（V）、和 ${F类}_{T型}^{(- 1)}$ 分别表示V的密度V（V），和的倒数F类_T型.然后针对v（v）∈ [F类_T型(一),F类_T型(b条)]，我们可以写 ${F类}_{T型}^{(- 1)} (v（v）) = 一 + (b条 - 一) \int_{{F类}_{T型} (一)}^{v（v）} {（f）}_{V（V）} (x) d日 x$ 因此，至o个获得的递增估计 ${F类}_{T型}^{(- 1)} (v（v）)$ 对于v（v）∈ [F类_t吨(一)，F_t吨(b条)]，我们可以接受

{\overset{ˇ}{F类}}_{T型}^{(- 1)} (v（v）) = 一 + (b条 - 一) \int_{{\overset{ˇ}{F类}}_{T型} (一)}^{v（v）} {\hat{（f）}}_{V（V）} (x) d日 x,

哪里 ${\hat{（f）}}_{V（V）}$ 是的正估计量（f）_V（V）根据样本构建V（V）₁,...,V（V）_N个，使用 ${V（V）}_{j个} = {\overset{ˇ}{F类}}_{T型} ({U型}_{j个})$ 和Uj公司~U型[a、 b条]，用于j个= 1,...,N个.我们得到了F类_t吨上的[一,b条]通过数值反转 ${\overset{ˇ}{F类}}_{T型}^{(- 1)}$ .

自（f）_V（V）支撑紧密，可能在一和b，而不是 ${\hat{（f）}}_{V（V）}$ 为了成为标准的核密度估计量，我们使用probit变换版本的Geenens（2014）这是为这种密度设计的。我们使用了作者提供的R代码，其中建议使用最小二乘交叉验证带宽。对于一和b条，我们采取[一,b条]是我们寻求估计的时间间隔F类（在我们的案例中，这是数字中使用的间隔）。然而，如果（f）_U型未知， ${\tilde{F类}}_{T型}$ 有时在接近零的间隔上是平的（回想一下T型>0），部分原因是我们设置了 ${\tilde{F类}}_{T型}$ 如果取负值，则为零。在这种情况下，为了避免使用货币化程序引入重大偏差，我们采取一是最小的数字 ${\tilde{F类}}_{T型}$ 不平坦。

5.4. 仿真

我们将我们的方法应用于以下四个模型的数据，在每种情况下，我们取H（H）成为物流职能和 $小时$ 作为日志转换，因为这些是应用程序中常用的：

X（X）_我~x²(10),U型_ij公司~N个(0, σ²)和（a）：β= (−5, 1.5)^T型或（b）：β= (−5, 1)^T型;
X（X）_我~N个(−2, 2),U型_ij公司~N个(0, σ²)和（a）：β= (3, 0.3)^T型或（b）：β= (1.6, 0.3)^T型;
X（X）_我~N个(−2, 2),U型_ij公司~拉普拉斯（a）和（a）：β= (3,0.3)^T型或（b）：β= (1.6, 0.3)^T型;
X（X）_我~0.3牛顿（-3，1）+0.7牛顿（3，1），U型_ij公司-N个(0, σ²)和（a）：β= (3, 0.7)^T型或（b）：β= (2, 0.7)^T型。对于每个模型， $ℙ ({W公司}_{我 j个} > 0)$ 情况（a）比情况（b）大，因此我们可以预期F类_T型在情况（a）下比在情况（b）下更容易估计，因为我们实际上有更多的数据来计算我们的半参数估计量。

在每种情况下j个=1、2和我= 1,..., n、我们设置了W公司_ij公司概率为零H（H）_β(X（X）_我). 对于W公司_j个≠0我们取了 ${\tilde{W公司}}_{我 j个} = {X（X）}_{我} + {U型}_{我 j个}$ ，其中U型_ij公司独立于X（X）_我，以及参数的位置σ从U型_ij公司这样，噪声信号比NSR=var(U型)/无功功率，无功功率(X（X）)等于10%或25%。对于每个配置，我们生成了200个大小的样本n个等于100250或500。

在每种情况下，我们都应用了我们的方法，假设误差密度已知，其中我们使用了估计器 ${\hat{F类}}_{T型}$ 在(18)，或者假设误差密度未知，我们使用估计量 ${\tilde{F类}}_{T型}$ 在(24)结合单调化过程第5.3节。我们还计算了一个朴素估计量 ${\hat{F类}}_{T型, 天真}$ 属于F类_T型通过计算 $小时 ({\bar{W公司}}_{我})$ 的，在哪里 ${\bar{W公司}}_{我} = ({W公司}_{我 1} + {W公司}_{我 2}) / 2$ 假装平均值W公司_ij公司的可以被视为X（X）_我的。最后，我们计算了F类_T型其中位于(12)我们估计 $ϕ_{{W公司}_{+}}$ 通过 ${第页}_{{W公司}_{+}}$ 乘以特征函数 $\tilde{W公司} ∣ W公司 > 0$ （请参见方程式（12）)假设 $\tilde{W公司} ∣ W公司 > 0 ~ N个 (μ_{W公司}, σ_{W公司}^{2})$ 具有μ_w个和σ_W公司通过经验平均值和方差估计（f）_U型正确指定。这种参数假设对于模型（ii）和（iii）是正确的，但对于模型（i）和（iv）是不正确的。

为了评估我们的程序的性能，对于每个模型组合的200个生成样本中的每一个，n个、NSR和β，对于每个 ${\hat{F类}}_{T型}$ , ${\hat{F类}}_{T型, 天真}$ 、和 ${\tilde{F类}}_{T型}$ 此处一般表示为 $\hat{F类}$ ，我们计算了综合加权绝对偏差 $国际水处理协会 (\hat{F类}) = \int | \hat{F类} (t吨) - {F类}_{T型} (t吨) | {（f）}_{T型} (t吨) d日 t吨$ 对于每个估计器和每个配置，我们获得了200个IWAD值，并计算了其第一、第五和第九个十分位。结果，报告于表1对于 ${\hat{F类}}_{T型}$ 和 ${\tilde{F类}}_{T型}$ 和中表2对于 ${\hat{F类}}_{T型, 天真}$ 参数估计清楚地表明，naive估计的性能很差，因此在本节的其余部分将不考虑。不出所料，结果还表明，在参数正态假设正确的模型（ii）和（iii）中，参数估计优于我们的估计，尽管后者表现得相当好。然而，在这种参数假设不正确的模型（i）和（iv）中，我们的半参数估计比参数估计性能要好得多，即使在这些情况下，测量误差是正态分布的。

表1。

模拟结果。

		（f）_U型已知，估计值 ${\hat{F类}}_{T型}$			（f）_U型未知，估计器 ${\tilde{F类}}_{T型}$
M（M）	国家统计局	n个= 100	n个= 250	n个= 500	n个= 100	n个= 250	n个= 500

（i）（a）	10%	28.6[14.7,52.9]	18.3[9.9,42.2]	14.3[8.2,27.7]	37.3[16.2,98.0]	25.3[12.3,49.2]	19.2[10.1,37.3]
	25%	34.5[16.1,65.4]	23.4[13.6,35.7]	19.5[10.6,29.0]	46.6[20.9,95.0]	32.7[14.2,68.3]	24.3[12.8,47.7]
（i）（b）	10%	30.6[16.6,55.7]	20.1[10.2,43.0]	16.2[9.4,46.6]	50.8[23.6,106]	48.5[17.7,102]	37.8[14.8,77.7]
	25%	32.4[16.5,60.2]	25.5[14.5,39.9]	18.9[12.3,28.5]	53.9[25.5,113]	36.1[16.2,85.3]	29.8[14.7,65.1]
（ii）（a）	10%	31.0[16.0,64.6]	19.6[9.2,61.7]	12.4[6.9,25.4]	33.1[16.8,68.1]	23.1[11.9,45.1]	16.1[7.6,38.5]
	25%	31.0[16.7,62.2]	20.4[11.1,38.6]	14.4[7.5,32.8]	37.3[17.8,82.2]	23.6[12.4,56.0]	18.8[9.5,40.5]
（ii）（b）	10%	32.6[14.1,58.0]	19.0[8.9,46.3]	15.5[7.8,28.6]	38.4[20.7,72.4]	25.8[12.9,50.1]	19.9[9.7,38.6]
	25%	34.2[18.2,64.6]	23.5[12.8,40.1]	18.8[9.6,41.0]	37.9[19.1,82.8]	25.1[10.8,53.1]	20.9[10.5,40.5]
（iii）（a）	10%	28.5[13.9,57.2]	17.6[9.4,32.3]	13.6[7.8,22.5]	32.4[15.2,64.0]	20.4[11.4,37.7]	14.8[8.2,25.8]
	25%	27.7[14.5,52.6]	19.3[9.8,33.5]	13.9[7.0,25.1]	35.1[18.5,73.6]	22.2[10.8,49.9]	16.4[9.0,35.2]
（iii）（b）	10%	31.9[16.9,61.4]	20.6[10.8,35.5]	14.5[8.2,25.2]	34.9[19.7,72.1]	27.8[12.4,53.5]	22.9[9.9,47.7]
	25%	34.8[16.9,60.0]	21.6[11.0,37.4]	14.6[9.3,25.9]	36.7[17.7,76.2]	26.7[12.6,53.1]	21.2[10.7,44.2]
（iv）（a）	10%	34.3[21.2,57.8]	21.9[13.2,39.7]	16.7[9.5,29.6]	33.8[17.8,74.5]	22.6[13.0,42.0]	19.1[10.6,33.2]
	25%	36.9[23.7,61.9]	27.1[19.9,39.9]	22.3[16.9,30.0]	47.2[26.0,89.9]	33.9[18.8,58.7]	25.2[14.4,44.2]
（iv）（b）	10%	31.8[19.3,57.0]	23.5[13.1,46.4]	18.5[11.5,37.2]	37.8[21.2,66.4]	23.9[13.9,40.1]	19.2[11.4,33.4]
	25%	37.3[24.2,60.0]	27.7[19.6,41.5]	24.2[16.6,32.5]	45.2[23.5,108]	33.4[22.0,56.7]	26.5[16.1,40.2]

在单独的窗口中打开

注：对于每个估算器 ${\hat{F类}}_{T型}$ 和 ${\tilde{F类}}_{T型}$ 、每个模型（表中用M表示）和每个噪声信号比（NSR），数字显示为10^三×IWAD 200个值的中位数[第一个十分位，第九个十分位]。

表2。

的模拟结果 ${\hat{F类}}_{T型}_{，天真}$ 以及参数估计器，其假设 $\tilde{W公司} ∣ W公司 > 0 ~ N个 (μ W公司, σ_{W公司}^{2})$ .

		${\hat{F类}}_{T型}_{，天真}$			参数估计器

M（M）	国家统计局	n个= 100	n个= 250	n个= 500	n个= 100	n个= 250	n个= 500

（i）（a）	10%	65.2[31.7,107]	67.1[44.0,91.2]	66.5[53.6,84.9]	38.7[24.0,69.5]	35.1[23.6,53.4]	34.7[26.6,47.8]
	25%	152[111,195]	156[133,180]	156[141,173]	40.2[23.5,7.0]	35.3[23.6,54.4]	34.9[26.3,48.2]
（i）（b）	10%	72.4[38.8,114]	74.5[50.4,99.5]	73.9[59.3,92.0]	41.7[25.6,66.7]	36.7[26.5,54.2]	36.7[28.7,48.5]
	25%	150[111,194]	155[132,179]	155[139,173]	41.1[26.1,66.8]	36.6[26.3,53.8]	37.0[27.9,48.8]
（ii）（a）	10%	49.4[28.1,83.6]	46.8[28.8,63.5]	45.3[31.3,58.3]	23.6[8.8,42.9]	14.8[5.8,31.6]	10.0[4.2,20.7]
	25%	35.8[21.4,66.1]	30.7[16.9,46.1]	27.4[18.4,38.4]	25.1[9.9,43.6]	15.8[6.3,31.8]	10.0[4.5,20.7]
（ii）（b）	10%	160[134,186]	158[141,175]	158[147,168]	28.9[11.1,53.2]	16.5[7.5,35.2]	12.4[5.1,23.6]
	25%	139[112,167]	137[120,154]	137[126,147]	30.3[11.1,54.3]	17.4[7.7,34.4]	12.2[4.7,23.7]
（iii）（a）	10%	51.0[28.5,75.3]	44.7[31.5,65.4]	44.5[33.2,57.2]	21.6[9.5,47.3]	14.2[5.1,30.7]	9.6[3.9,20.8]
	25%	33.5[21.0,53.0]	26.4[17.4,43.6]	25.0[17.4,35.0]	22.8[9.2,48.8]	15.1[5.2,31.5]	9.7[4.0,20.4]
（iii）（b）	10%	162[135,184]	157[142,173]	157[146,168]	24.5[10.9,52.5]	17.2[7.2,31.9]	11.6[5.3,24.7]
	25%	138[109,160]	132[117,149]	133[123,143]	24.6[12.1,53.4]	17.9[7.8,34.1]	13.0[5.1,25.4]
（iv）（a）	10%	54.0[35.1,78.6]	53.1[40.8,68.9]	54.5[42.5,67.1]	42.5[31.5,67.6]	42.1[33.8,54.5]	40.1[34.4,48.2]
	25%	86.7[60.2,112]	85.2[70.7,103]	85.6[72.8,97.4]	43.5[32.5,64.8]	40.8[33.7,53.5]	39.7[34.4,47.8]
（iv）（b）	10%	69.9[52.9,96.4]	71.8[58.2,88.1]	72.2[60.3,84.9]	40.0[27.0,66.3]	36.5[27.4,49.9]	33.9[27.9,42.2]
	25%	101[76.6,126]	102[88.7,118]	103[91.2,115]	41.7[28.1,64.6]	36.4[27.9,49.5]	33.6[27.9,42.0]

在单独的窗口中打开

注：对于每个型号（表中用M表示）和每个噪声信号比（NSR），数字显示为10^三×IWAD 200个值的中位数[第一个十分位数，第九个十分位数]。

针对每个配置和每个 ${\hat{F类}}_{T型}$ 和 ${\tilde{F类}}_{T型}$ ，我们还绘制了与给出IWAD第一、第五和第九个十分位的三个样本相对应的估计曲线；在图表中，我们将其称为q个_0.1,q个_0.5和q个_0.9在图中，为了增加可见性，我们绘制了日志(t吨+1）与F类_T型(t吨). 在图1，我们展示了模型（i）（a）和（i）n个=250，在误差密度已知的情况下，我们使用估计器 ${\hat{F类}}_{T型}$ ，在误差密度未知的情况下，我们使用估计量 ${\tilde{F类}}_{T型}$ 。与表格一起，该图毫不奇怪地说明了估算F类_T型在以下情况下更容易（f）_U型我们知道什么时候需要进行估算，但我们的估算程序即使在傅需要进行估计。与表格一起，该图还说明了估算F类_T型当W公司_ij公司’当NRS较低时，取零值的s较低。

保存图片、插图等的外部文件。对象名为nihms-1641051-f0001.jpg

在单独的窗口中打开

图1。

这里，IWAD代表文本中定义的综合加权绝对偏差，NSR代表文本中确定的噪声信号比。与估计器IWAD的第一、第五和第九个十分位对应的估计曲线 ${\tilde{F类}}_{T型}$ 在(24)（前两列）或 ${\hat{F类}}_{T型}$ 在(18)（第三列）根据200个样本大小计算n个当误差密度未知且NSR=10%（第一列）或NSR=25%（第二列），或当误差密度已知且NSR=25%（第三列）时，根据模型（i）（a）（第一行）和（i）。实线表示真实F类_T型.

在图2，我们比较了模型（ii）（b）和（iii）（b）以及NSR=10%或25%的估计曲线。该图与表格一起说明了估算F类_T型当NSR较小且误差密度为拉普拉斯模型（iii）时，比理论预期的正常模型（ii）更容易（正常误差是超光滑的，导致收敛速度较慢）。最后，在图3我们给出了估计量 ${\hat{F类}}_{T型}$ 对于模型（iv）（a）和NSR=25%，对于尺寸的样品n个=100、250和500。该图与表格一起说明了这样一个事实，即我们的估计值随着样本量的增加而提高n个增加。

保存图片、插图等的外部文件。对象名称为nihms-1641051-f0002.jpg

在单独的窗口中打开

图2。

这里，IWAD代表文本中定义的综合加权绝对偏差，NSR代表文本中确定的噪声信号比。与估计器IWAD的第一、第五和第九个十分位对应的估计曲线 ${\tilde{F类}}_{T型}$ 在(24)根据模型（ii）（b）中的200个样本计算，当n个=100且NSR=10%（第一列）或n个=100且NSR=25%（第二列）或模型（iii）（b），当n个＝100和NsR＝25%（第三列）。实线表示真实F类_T型.

保存图片、插图等的外部文件。对象名称为nihms-1641051-f0003.jpg

在单独的窗口中打开

图3。

这里，IWAD代表文本中定义的综合加权绝对偏差。与估计器IWAD的第一、第五和第九个十分位对应的估计曲线 ${\hat{F类}}_{T型}$ 在(18)当NSR=25%（第一列）和n个＝100（第一列），n个=250（第二列）或n个=500（第三列）。实线表示真实F类_T型.

5.5. 应用程序

我们将我们的方法应用于美国餐桌就餐研究（EATS，Subar等人，2001年). 在本研究中，n个=965名参与者报告了他们的酒精摄入量以及24小时召回（24HR）后的水果总摄入量J=4个不同且间隔较大的天数。我们拿走了 $小时$ 作为日志转换，以及H（H）成为物流配送函数。很大一部分人在任何一天都不吃水果，更大一部分人每天都不饮酒。

我们比较了我们的半参数估计F类_T型对于这些数据，使用中描述的全参数估计器Tooze等人（2010年）并在SAS程序中实现，该程序可在https://epi.grants.cancer.gov/deet/usualintakes/method.html由美国国家癌症研究所（NCI）编写。该估计器在很大程度上依赖于转换后的数据和正态分布的误差。为了使数据更接近正常值，我们遵循了营养流行病学中的常见做法，即剔除或审查难以置信的小变量值。在我们的分析中，我们用零取代了任何如此少的摄入：（a）<0.7克酒精，相当于<0.6盎司美国5%的12盎司标准啤酒；和（b）<0.30份标准水果，相当于<中等大小苹果的1/3。这导致了更合理的参数估计。

虽然参数估计器假设误差分布是正态分布的，但在本例中，这种分布实际上是未知的，因此在计算估计器时，我们使用了估计器 ${\tilde{F类}}_{T型}$ 从第3.3节。因为每个个体有2个以上的重复，估计β我们考虑中描述的过程的一个版本备注3.2适应以下情况（f）_U型未知。具体来说，我们估计β按值 $\tilde{β} = {({\tilde{β}}_{0}, {\tilde{β}}_{1})}^{T型}$ 这满足了 ${\hat{第页}}_{{W公司}_{+}, {W公司}_{+}} = \int {H（H）}_{β}^{2} (x) \tilde{克} (x) d日 x$ 和 ${\hat{第页}}_{{W公司}_{+}, {W公司}_{+}, {W公司}_{+}} = \int {H（H）}_{β}^{2} (x) \tilde{克} (x) d日 x$ ，其中 ${\hat{第页}}_{{W公司}_{+}, {W公司}_{+}}$ 和 ${\hat{第页}}_{{W公司}_{+}, {W公司}_{+}, {W公司}_{+}}$ 分别定义为(10)和中备注3.2，以及其中 $\tilde{克}$ 是的一个版本 $\hat{克}$ 在(14)使用 ${\tilde{ϕ}}_{U型}$ 而不是 ${\hat{ϕ}}_{U型}$ （请参见第3.3节).

结果估计值F类_T型如所示图4在饮酒的情况下，我们的半参数估计量和现有的参数估计量给出了类似的结果，这表明在这种情况下，正态性假设是合理的（对这些数据的q-q图分析证实了这一点：它只表明与正态性有适度的偏离）。然而，就水果消费而言，这两个估计值存在显著差异，表明在这种情况下，正态性假设不太合理（事实上，对数据的q-q图分析表明，与正态性的背离更为明显）。

保存图片、插图等的外部文件。对象名为nihms-1641051-f0004.jpg

在单独的窗口中打开

图4。

半参数估计的比较 ${\tilde{F类}}_{T型}$ 在(24)和一个全参数估计量，当T型通常的饮酒量（左）或水果摄入量（右）。

补充材料

补充1

单击此处查看。^{（1.0M，拉链）}

基金

Delaigle的工作得到了澳大利亚研究委员会的一个发现项目（DP170102434）的支持。卡米兰德的工作得到了加拿大自然科学与工程研究委员会（NSERC）的拨款和澳大利亚研究委员会的发现项目（DP170102434）的支持。卡罗尔的研究得到了NIH资助：U01-CA057030。

脚注

补充资料

这个补充材料包括计算估计器的技术细节和Matlab代码。我们无权发布本文分析的EATS数据集，但可以由美国国家癌症研究所（NCI，网址：http://www.cancer.gov/)与该机构签订数据传输协议。

工具书类

Carroll RJ（2014），“估计膳食消费模式的分布,”统计科学,29, 2–8. [2][PMC免费文章][公共医学][谷歌学者]
Carroll RJ和Hall P（1988），“密度反褶积的最优收敛速度,”美国统计协会杂志,83, 1184–1186. [4][谷歌学者]
Datta G、Delaigle A、Hall P和Wang L（2018），“辅助数据测量有误差时小区域的半参数预测区间,”中国统计局,28, 2309–2335. [6][谷歌学者]
Dattner I、Goldenshluger A和Juditsky A（2011），“关于分布函数的反褶积,”统计年鉴,39, 2477–2501. [6][谷歌学者]
Dattner I和Reiser B（2013），“测量误差模型中分布函数的估计,”统计规划与推断杂志,143, 479–493. [6][谷歌学者]
Delaigle A（2008），“反褶积问题的另一种观点,”中国统计局,18, 1025–1045. [5][谷歌学者]
Delaigle A和Gijbels I（2002），“污染样品的积分平方密度导数的估计,”英国皇家统计学会杂志B辑,64, 869–886. [8][谷歌学者]
________ (2004), “反卷积核密度估计中的实用带宽选择,”计算统计与数据分析,45, 249–267. [8][谷歌学者]
Delaigle A和Hall P（2008），“使用SIMEX平滑变量误差问题中的参数选择,”美国统计协会杂志,103,280–287. [8][谷歌学者]
_______ (2015), “考虑稀释的分组测试数据的非参数方法,”生物特征,102, 871–887. [6][谷歌学者]
________ (2016), “误差分布未知时的非参数反褶积方法,”英国皇家统计学会杂志B辑,78, 231–252.[谷歌学者]
Delaigle A、Hall P和Meister A（2008），“关于重复测量的反卷积,”统计年鉴,36, 665–685. [4,6,7,8][谷歌学者]
Delaigle A和Meister A（2008），“异方差密度估计,”伯努利,14，562-579，doi:10.3150/08-BEJ121。[交叉参考][谷歌学者]
Dette H、Neumeyer N和Pilz KF（2006年），“一类严格单调回归函数的简单非参数估计,”伯努利,12, 469–490. [9][谷歌学者]
Dwyer J、Picciano MF、Raiten DJ和指导委员会（2003年），“食品和膳食补充剂摄入量数据收集：我们在美国的饮食,”营养学杂志,133，590S–600S。[1] [公共医学][谷歌学者]
范J（1991a），“解卷积核密度估计的渐近正态性,”Sankhya，A系列,53, 97–110. [4,6][谷歌学者]
_______（1991b），“非参数反褶积问题的最优收敛速度,”统计年鉴,19, 1257–1272. [5,6][谷歌学者]
Fletcher D、MacKenzie D和Villouta E（2005），“多零偏差数据建模：一种结合普通回归和Logistic回归的简单方法,”环境与生态统计,12, 45–54. [2][谷歌学者]
Geenens G（2014），“单位区间核密度估计的Probit变换,”美国统计协会杂志,109, 346–358. [9][谷歌学者]
Guenther PM、Reedy J、Krebs-Smith SM和Reeve BB（2008），“2005年健康饮食指数评价,”美国饮食协会学报,108, 1854–1864. [1] [公共医学][谷歌学者]
Guenther PM、Reedy J和Krebs-Smith SM（2008），“2005年健康饮食指数的编制,”美国饮食协会学报,108, 1896–1901. [1] [公共医学][谷歌学者]
Guenther PM、Kirkpatrick SL、Reedy J、Krebs Smith SM、Buckman DW、Dodd KW、Casavale KO和Carroll RJ（2014），“根据2010年美国人饮食指南，2010年健康饮食指数是衡量饮食质量的有效可靠指标,”营养学杂志,144, 399–407. [1][PMC免费文章][公共医学][谷歌学者]
Hall P和Lahiri S（2008），“反褶积问题中分布、矩和分位数的估计,”统计年鉴,36, 2110–2134. [6][谷歌学者]
Keogh RH和White IR（2011），“纠正食物摄入量记录中的错误时，允许从不食用或偶尔食用的消费者,”生物统计学,12,624–636. [2][PMC免费文章][公共医学][谷歌学者]
Kipnis V、Midthune D、Buckman DW、Dodd KW、Guenther PM、Krebs-Smith SM、Subar AF、Tooze JA、Carroll RJ和Freedman LS（2009），“具有多余零和测量误差的建模数据：应用于评估偶尔摄入的食物与健康结果之间的关系,”生物计量学,65, 1003–1010. [2][PMC免费文章][公共医学][谷歌学者]
Li L、Shao J和Palta M（2005），“具有半连续协变量的纵向测量误差模型,”生物计量学,61, 824–830. [2] [公共医学][谷歌学者]
Masry E（1993），“平稳过程多元密度反褶积的强相合性和速度,”随机过程及其应用,47, 53–74. [6,7][谷歌学者]
Stefanski LA和Carroll RJ（1990），“去卷积核密度估计,”统计,21, 169–184. [4,5][谷歌学者]
Subar AF、Thompson FE、Kipnis V、Midthune D、Hurwitz P、McNutt S、McIntosh A和Rosenfeld S（2001），”Block、Willett和National Cancer Institute食物频率问卷的比较验证：美国餐桌上的饮食研究”美国流行病学杂志,154, 1089–1099. [10] [公共医学][谷歌学者]
Tian L（2005），“零膨胀对数正态数据均值的推论：广义变量法,”医学统计学,24, 3223–3232. [2] [公共医学][谷歌学者]
Tooze JA、Grunwald GK和Jones RH（2002），“重复测量数据零聚集分析,”医学研究中的统计方法,11, 341–355. [2] [公共医学][谷歌学者]
Tooze JA、Midthune D、Dodd KW、Freedman LS、Krebs Smith SM、Subar AF、Guenther PM、Carroll RJ和Kipnis V（2006），”一种新的估计偶发性消费食品通常摄入量的统计方法及其在分配中的应用,”美国饮食协会学报,106, 1575–1587. [2][PMC免费文章][公共医学][谷歌学者]
Tooze JA、Kipnis V、Buckman DW、Carroll RJ、Freedman LS、Guenther PM、Krebs Smith SM、Subar AF和Dodd KW（2010），”估算营养素正常摄入量分布的混合效应模型方法：NCI方法,”医学统计学,29, 2857–2868. [2,11][PMC免费文章][公共医学][谷歌学者]
van der Vaart AW（1998），渐近统计，纽约：剑桥大学出版社。[6][谷歌学者]
Zhang S、Midthune D、Guenther PM、Krebs-Smith SM、Kipnis V、Dodd KW、Buckman DW、Tooze JA、Freedman LS和Carroll RJ（2011），“一种新的零膨胀膳食数据多元测量误差模型及其在膳食评估中的应用,”应用统计学年鉴,5, 1456–1487. [2][PMC免费文章][公共医学][谷歌学者]
Zhang S、Midthune D、Pérez A、Buckman DW、Kipnis V、Freedman LS、Dodd KW、Krebs-Smith SM和Carroll RJ（2011），“突发性膳食成分的双变量测量误差模型拟合,”国际生物统计学杂志,7, 1. [2][PMC免费文章][公共医学][谷歌学者]
Zhou X和Tu W（1999），“样本包含对数正态和可能零观测值时几种独立总体均值的比较,”生物计量学,55, 645–651. [2] [公共医学][谷歌学者]

带有误差的间歇消费食品分布的半参数估计

费利克斯·卡米兰·莱梅尔

雷蒙德·卡罗尔

Aurore Delaigle公司

关联数据

摘要

1.简介

2.模型和数据

3.方法

3.1. 基本计算

备注3.1。

3.2. 当fU型已知

备注3.2。

3.3. 当fU型未知

4.理论

4.1. 理论中考虑的案例

备注4.1。

4.2. 理论当fu个已知

假设A。

定理4.1。

备注4.2。

4.3. 理论当fu个未知

假设B。

定理4.2。

5.数字方面

5.1. f时的带宽选择U型已知

5.2. 实现时间fU型未知

5.3. 单调化估计

5.4. 仿真

表1。

表2。

5.5. 应用程序

补充材料

补充1

基金

脚注

工具书类

3.2. 当f_U型已知

3.3. 当f_U型未知

4.2. 理论当f_u个已知

4.3. 理论当f_u个未知

5.1. f时的带宽选择_U型已知

5.2. 实现时间f_U型未知