GSS估计器的推导
考虑估计概率密度函数(pdf)的问题(f)x个(x个)与随机变量相关X(X)基于被附加测量误差污染的样本,W公司j个=X(X)j个+U型j个,j个=1,…,n个。这里X(X)j个是真正的利益衡量标准W公司j个和U型j个分别表示污染观测值和测量误差。假设X(X)j个是iid公司(f)x个(x个),的U型j个是iid公司(f)u个(u个)、和X(X)j个和U型j个都是相互独立的j个此外U型j个假设具有平均值为0且方差为0的对称分布\(\西格玛{u}^{2}\)正如反褶积文献中的典型情况一样U型j个假设完全已知。如果有可用的辅助数据,将有可能放宽这一假设和估计(f)u个(u个);参见示例Delaigle等人(2008年).
这里开发的反褶积估计器假设(f)x个(x个)属于GSS分布类。那就是,X(X)=ξ+ωZ轴具有\(\xi\in\mathbb{R}\)和ω>0表示位置和比例参数,并带有Z轴有pdf
$$f_{z}(z)=2f_{0}(z)\pi(z,z\in\mathbb{R}$$
(1)
具有(f)0(z(z))一个围绕0对称的pdfπ(z(z)),以下称为偏斜函数,满足不等式约束0≤π(z(z))=1−π(z(z))≤1。事实上,任何满足该不等式约束的函数都可以与任何对称pdf配对(f)0(z(z))并将导致(1)成为有效的pdf。对应的pdfX(X)是(f)x个(x个)=(2/ω)(f)0[(x个−ξ)/ω]π[(x个−ξ)/ω].
这里考虑的方法本质上是半参数的。对称pdf(f)0(z(z))假设已知,但未对倾斜函数进行参数假设π(z(z)). (事实上,如果对称分量(f)0(z(z))假设未知,pdf(f)z(z)(z(z))无法识别;见附录A.1款详细信息)。基础密度(f)0(z(z))提供了模型的基本结构和倾斜函数π(z(z))捕获与基本模型的偏差。因此,该方法试图获取参数和非参数解决方案的最佳结果,GSS系列为建模提供了非常灵活的方法(f)z(z)(z(z)).
GSS随机变量在偶数变换下具有不变性,这对于本节剩余部分中反褶积估计器的开发至关重要。让Z轴根据GSS(1)然后让Z轴0具有对称pdf(f)0(z(z)). 对于任何偶数函数t吨(z(z)),它认为\(t(Z)\重叠{d}{=}t(Z_{0})\)具有\(\覆盖{d}{=}\)表示分配平等;参见中的命题1.4阿扎里尼(2013)因此t吨(Z轴)仅取决于(f)0(z(z))而不是打开π(z(z)). 现在,让我们ψz(z)(t吨)表示的特征函数Z轴,并让c(c)0(t吨)=回复[ψz(z)(t吨)]和秒0(t吨)=我[ψz(z)(t吨)]表示的实部和虚部ψz(z)(t吨). 实分量可以表示为c(c)0(t吨)=E[cos(t吨Z轴)]. 根据偶数变换的性质,可以得出如下结论c(c)0(t吨)=E[cos(t吨Z轴0)]它是与(f)0(z(z)).
现在,假设(ξ,ω)已知,并定义W公司∗=(W公司−ξ)/ω此外,请注意W公司∗=Z轴+ω−1U型因此具有特征功能\(幻影{\dot{i}\!}\psi{w^{ast}}(t)=\psi}z}(t/\omega)\psi_{u}(t)\)哪里ψu个(t吨)是的实值特征函数U型。由此可见
$$\text{Re}\left\{\psi_{w^{ast}}(t)\right\}=c_{0}(t)\psi_{u}(t/\omega)$$
(2)
和
$$\text{Im}\left\{\psi{w^{ast}}(t)\right\}=s_{0}(t)\psi_{u}(t/\omega)$$
(3)
功能c(c)0(t吨)和ψu个(t吨)英寸(2)和(三)在以下情况下是已知的秒0(t吨)未知。注意到(f)z(z)(z(z))可以表示为
$$f_{z}(z)=f_{0}(z)+\frac{1}{2\pi}\int_{mathbb{R}}\sin(tz)s_{0{(t)dt$$
(4)
由此可以得出秒0(t吨)可用于构造(f)z(z)(z(z)). 为此,对于随机样本W公司1,…,W公司n个,让\(W_{j}^{ast}=(W_{j}-\xi)/\omega\)对于j个=1,…,n个,并定义
$$\波浪线{s}_{0}(t)=\frac{1}{\psi{u}(t/\omega)}\frac}1}{n}\sum{1\leqj\leqn}\sin\left(tW{j}^{ast}\right)$$
这个经验估计量,虽然对秒0(t吨),不适合估算(f)z(z)(z(z))在中替换时(4)当积分发散时。这是由于\(\波浪号{s}_{0}(t)\).同时秒0(t吨)收敛到0作为|t吨|→∞对于任何连续分布,\(\波浪号{s}_{0}(t)\)对应于经验度量,并偏离为|t吨|→∞这是在注意到有界周期函数\(n^{-1}\和{j}\sin(tW{j}^{ast})\)除以ψu个(t吨/ω),后者减小为0|t吨|增加。
接下来,考虑“平滑”估计
$$\帽子{s}_{0}(t)=\frac{\psi_{k}(ht)}{\psi.{u}(t/\omega)}\frac{1}{n}\sum_{1\leqj\leqn}\sin\left(tW{j}^{ast}\right)$$
(5)
哪里ψk个(t吨)是非负权重函数,并且小时是一个带宽参数。该估计器具有预期\(\mathrm{E}[\hat{s}_{0}(t)]=\psi{k}(ht)s{0}(t)\)因此对秒0(t吨). 然而,它也具有一些理想的特性。首先,它是一个奇数函数,\(\帽子{s}_{0}(-t)=-\hat{s}_{0}(t)\)为所有人\(t \ in \ mathbb R \)第二,替代(5)到(4)定义良好的估计量的结果(f)z(z)(z(z)),
$$\帽子{f}_{z} (z)=f_{0}(z)+\frac{1}{2\pi}\int_{mathbbR}\sin(tz){s}_{0}(t)dt$$
(6)
假如ψk个(t吨)被选择为|ψk个(小时t吨)/ψu个(t吨/ω)|→0作为|t吨|→∞.选择ψk个(t吨)在有界区间之外为0将满足这个要求。
估算员(6)与通常的非参数反褶积估计器存在相同的缺点,因为它可能部分为负。实际上,负数部分可以被截断,而结果函数可以重新缩放为1。要避免这种特殊修复,请合并公式(1)和(4)以获得
$$\pi(z)=\frac{1}{2}-\裂缝{1}{4\pi f_{0}(z)}\int_{R}\sin\left(tz\right)s_{0{(t)dt$$
(7)
替换(5)英寸(7)以及身份罪(t吨z(z))=(e(电子)我t吨z(z)−e(电子)−我t吨z(z))/(2我),给出
$$\hat{\pi}(z)=\frac{1}{2}+\frac}1}{8f{0}(z)}\left\{\波浪线{f}_{w^{*}}(z)-\波浪线{f}_{w^{*}}(-z)\右\}$$
(8)
哪里\(\波浪号{f}_{w^{*}}(z)=(nh\omega)^{-1}\sum K_{h\omega}[(z-w_{j}^{*{})/(h\omega)]\)是经过充分研究的非参数反褶积密度估计量卡罗尔和霍尔(1988)带反褶积核\(K{h}(y)=(2\pi)^{-1}{\int_{\mathbbR}}e^{-ity}\psi_{K}(t)/\psi_{u}(t/h)dt).潜在的(6)部分消极反映在(8)不是测距。具体来说,有可能\({\pi}(z)不在\left[0,1\right]\中)对于一组z(z)非零测量。一个范围修正的倾斜函数估计量是\(\tilde{\pi}(z)=\ max\left[0,\ min\left\{1,\ hat{\pi}\left(z\ right)\ right\}\right]\)。的估计密度函数X(X)基于范围校正的偏斜函数为
$$\tilde{f}\left(x|\xi,\omega\right)=\frac{1}{\omega}f_{0}\left(\frac}x-\xi}{\omega}\rift)\ tilde{\pi}\left$$
(9)
使用范围校正的倾斜函数估计确保(9)始终是有效的pdf。不需要对负值进行任何额外的截断,也不需要像直接实现(6).
估计量的一些性质
距离修正估计器\(\波浪线{\pi}(z)\)渐近等价于\({\pi}(z)\)英寸(8)关于的任何闭子集\(\mathbb{R}\)因此,后者将用于评估GSS反褶积估计器的特性。首先,注意使用非参数反褶积估计器的已知期望值\(\波浪号{f}_{w^{\ast}}(z)\),它来自(8)那个
$$E\left[\hat{\pi}(z)\right]-\pi(z$$
使用常量c(c)k个仅取决于内核函数ψk个(t吨). 因此,对于适当选择的带宽小时,\({\pi}(z)\)是一致的π(z(z)),和密度估计器\(\波浪线{f}(x|\xi,\omega)\)英寸(9)也是一致的(f)x个(x个).
平均积分平方误差(MISE),见附录A.2款,是
$${}\text{MISE}(h)=\左(2\pi\右)^{-1}\int_{\mathbb{R}\left\{\frac{\psi_{k}^{2}(ht)}{n}\left[\frac[1-c{0}(2t)\psi{u}]+\左[\psi_{k}(ht)-1\右]^{2} 秒_{0}^{2}(t)\右\}dt$$
(10)
当分配Z轴对称,即。π(z(z))=所有的1/2z(z)以便秒0(t吨)=0表示所有t吨,并让MISEsym(对称)表示对称计算的MISE,
$$\开始{array}{*{20} 我}\text(文本){杂项}_{text{sym}}(h)&=left(4\pi\right)^{-1}\int_{mathbb{R}\frac{\psi_{k}^{2}(ht)}{n}\left[\frac[1-c{0}(2t)\psi{u}1}\int_{\mathbb{R}}\frac{\psi_{k}^{2}(ht)}{\psi.{u}^{2](t/\omega)}dt。\结束{数组}$$
这里的不等式是在注意到|1−c(c)0(2t吨)ψu个(2t吨/ω)|全部≤2t吨.MISE的这个上界sym(对称)与非参数反褶积估计器的渐近MISE成正比,参见Stefanski&Carroll(1990)中的方程(2.7)。因此,在对称情况下,对于正确指定的对称分量,人们预计GSS反卷积估计器的性能不会比非参数反卷积估计器差c(c)0(t吨). 事实上,由于这是一个上限,因此可能会大幅提高效率。我们在后面一节中给出的模拟结果与此说法一致。