跳到主要内容

广义偏对称分布的密度反褶积

摘要

假设随机变量属于广义偏对称(GSS)分布族,则考虑密度反褶积问题。该方法是半参数的,因为假定GSS分布的对称分量已知,并且使用反褶积核方法估计捕获对称分量偏差的倾斜函数。这需要指定带宽参数。推导了GSS反卷积估计器的平均积分平方误差(MISE),并提出了两种基于近似MISE的带宽估计方法。还开发了一种广义矩方法来估计潜在的GSS位置和尺度参数。给出了仿真研究结果,包括GSS方法与非参数反褶积估计器的比较。对于所考虑的大多数模拟设置,GSS估计器的性能优于非参数估计器。

介绍

当需要估计概率密度函数(pdf)时,就会出现密度反褶积问题(f)x个(x个)随机变量的X(X)使用被测量误差污染的观测值。具体来说,观察到的样本包括数据W公司j个=X(X)j个+U型j个,j个=1,…,n个,其中X(X)j个独立且分布一致(iid公司)pdf随机变量(f)x个(x个)和U型j个iid公司用pdf测量误差变量(f)u个(u个). 本文提出了一种半参数估计方法(f)x个(x个)这是假设X(X)属于广义偏对称分布。GSS反褶积模型X(X)指定基本对称分布,为模型提供基本结构。此后,使用核方法估计一个偏移函数,该函数捕获了与指定对称分布的偏差。这种半参数GSS方法试图获取参数和非参数解决方案的最佳结果,并为建模提供了非常灵活的方法(f)x个(x个).

估算问题(f)x个(x个)从被污染的样品中W公司1,…,W公司n个首先考虑的是卡罗尔和霍尔(1988)斯蒂芬斯基和卡罗尔(1990)世界卫生组织在完全已知测量误差分布的假设下提出了一个完全非参数解(f)u个(u个). 从那时起,关于这个主题的许多工作接踵而至。风扇(1991a)和风扇(1991b)考虑了密度反卷积估计器的理论特性,以及Fan and Truong(1993)将该方法推广到非参数回归。Diggle和Hall(1993)Neumann和Hössjer(1997))考虑到测量误差分布未知的情况,并假设有外部误差数据样本可用于估计测量误差分布。Delaigle等人(2008年)考虑如何使用复制数据来估计测量误差的特征函数。非参数估计器需要选择带宽参数。两级插件带宽Delaigle和Gijbels(2002)已成为应用的金标准;Delaigle和Gijbels(2004)提供了几种流行的带宽选择方法的概述。Delaigle和Hall(2008)考虑在各种测量误差问题中使用模拟提取(SIMEX)进行带宽选择。

最近的两篇论文以新的方式研究了反褶积问题。Delaigle和Hall(2014)考虑参数辅助非参数密度反褶积,而Delaigle和Hall(2016)利用经验相位函数估计pdf(f)x个(x个)测量误差具有未知分布且无需复制数据。相位函数法施加了以下限制X(X)没有对称分量,且特征函数U型是真正有价值的,严格来说是积极的。

GSS分布族是本文估计的基础,其历史可以追溯到阿扎里尼(1985),第一份讨论所谓偏正态分配。自年以来,随着Genton(2004)阿扎里尼(2013)提供了关于该主题的现有文献的良好概述。GSS的大部分研究都是理论性的。虽然这项理论工作对于理解GSS分布的统计特性很重要,但在文献中,这一系列的应用价值通常尚未实现。在应用中使用GSS分布的显著例外包括药代动力学数据的建模,参见Chu等人(2001),耕作过程中土壤的重新分配,见Van Oost等人(2003年)),以及病例对照研究的回顾性分析,见Guolo(2008)所有这些作者都考虑了全参数模型。Arellano-Valle等人(2005))考虑全参数测量误差模型,假设X(X)U型遵循偏态正态分布。Lachos等人(2010年)已建模X(X)假设时使用偏态正态分布的尺度U型是法线的混合。此外,两者都是Kim等人(2016)Wang等人(2017)考虑使用偏对称分布的因子分析模型。最近,Kahrari等人(2019年)使用偏正态柯西分布和Arellano Valle等人(2020)考虑了使用两段正态分布来考虑偏度的测量误差问题。没有发现在测量误差上下文中应用GSS分布的其他工作。

本论文的结构如下。在下一节中,将开发GSS反褶积估计器,并导出其一些理论性质。在接下来的部分中,将考虑倾斜函数的带宽估计方法。在此基础上,提出了一种估计GSS位置和尺度参数的广义矩量法(GMM)。倒数第二部分给出了模拟结果,最后给出了两个实际数据应用。附录包含一些技术参数和其他模拟结果。

广义偏对称反褶积

GSS估计器的推导

考虑估计概率密度函数(pdf)的问题(f)x个(x个)与随机变量相关X(X)基于被附加测量误差污染的样本,W公司j个=X(X)j个+U型j个,j个=1,…,n个。这里X(X)j个是真正的利益衡量标准W公司j个U型j个分别表示污染观测值和测量误差。假设X(X)j个iid公司(f)x个(x个),的U型j个iid公司(f)u个(u个)、和X(X)j个U型j个都是相互独立的j个此外U型j个假设具有平均值为0且方差为0的对称分布\(\西格玛{u}^{2}\)正如反褶积文献中的典型情况一样U型j个假设完全已知。如果有可用的辅助数据,将有可能放宽这一假设和估计(f)u个(u个);参见示例Delaigle等人(2008年).

这里开发的反褶积估计器假设(f)x个(x个)属于GSS分布类。那就是,X(X)=ξ+ωZ轴具有\(\xi\in\mathbb{R}\)ω>0表示位置和比例参数,并带有Z轴有pdf

$$f_{z}(z)=2f_{0}(z)\pi(z,z\in\mathbb{R}$$
(1)

具有(f)0(z(z))一个围绕0对称的pdfπ(z(z)),以下称为偏斜函数,满足不等式约束0≤π(z(z))=1−π(z(z))≤1。事实上,任何满足该不等式约束的函数都可以与任何对称pdf配对(f)0(z(z))并将导致(1)成为有效的pdf。对应的pdfX(X)(f)x个(x个)=(2/ω)(f)0[(x个ξ)/ω]π[(x个ξ)/ω].

这里考虑的方法本质上是半参数的。对称pdf(f)0(z(z))假设已知,但未对倾斜函数进行参数假设π(z(z)). (事实上,如果对称分量(f)0(z(z))假设未知,pdf(f)z(z)(z(z))无法识别;见附录A.1款详细信息)。基础密度(f)0(z(z))提供了模型的基本结构和倾斜函数π(z(z))捕获与基本模型的偏差。因此,该方法试图获取参数和非参数解决方案的最佳结果,GSS系列为建模提供了非常灵活的方法(f)z(z)(z(z)).

GSS随机变量在偶数变换下具有不变性,这对于本节剩余部分中反褶积估计器的开发至关重要。Z轴根据GSS(1)然后让Z轴0具有对称pdf(f)0(z(z)). 对于任何偶数函数t吨(z(z)),它认为\(t(Z)\重叠{d}{=}t(Z_{0})\)具有\(\覆盖{d}{=}\)表示分配平等;参见中的命题1.4阿扎里尼(2013)因此t吨(Z轴)仅取决于(f)0(z(z))而不是打开π(z(z)). 现在,让我们ψz(z)(t吨)表示的特征函数Z轴,并让c(c)0(t吨)=回复[ψz(z)(t吨)]和0(t吨)=我[ψz(z)(t吨)]表示的实部和虚部ψz(z)(t吨). 实分量可以表示为c(c)0(t吨)=E[cos(t吨Z轴)]. 根据偶数变换的性质,可以得出如下结论c(c)0(t吨)=E[cos(t吨Z轴0)]它是与(f)0(z(z)).

现在,假设(ξ,ω)已知,并定义W公司=(W公司ξ)/ω此外,请注意W公司=Z轴+ω−1U型因此具有特征功能\(幻影{\dot{i}\!}\psi{w^{ast}}(t)=\psi}z}(t/\omega)\psi_{u}(t)\)哪里ψu个(t吨)是的实值特征函数U型。由此可见

$$\text{Re}\left\{\psi_{w^{ast}}(t)\right\}=c_{0}(t)\psi_{u}(t/\omega)$$
(2)

$$\text{Im}\left\{\psi{w^{ast}}(t)\right\}=s_{0}(t)\psi_{u}(t/\omega)$$
(3)

功能c(c)0(t吨)和ψu个(t吨)英寸(2)和()在以下情况下是已知的0(t吨)未知。注意到(f)z(z)(z(z))可以表示为

$$f_{z}(z)=f_{0}(z)+\frac{1}{2\pi}\int_{mathbb{R}}\sin(tz)s_{0{(t)dt$$
(4)

由此可以得出0(t吨)可用于构造(f)z(z)(z(z)). 为此,对于随机样本W公司1,…,W公司n个,让\(W_{j}^{ast}=(W_{j}-\xi)/\omega\)对于j个=1,…,n个,并定义

$$\波浪线{s}_{0}(t)=\frac{1}{\psi{u}(t/\omega)}\frac}1}{n}\sum{1\leqj\leqn}\sin\left(tW{j}^{ast}\right)$$

这个经验估计量,虽然对0(t吨),不适合估算(f)z(z)(z(z))在中替换时(4)当积分发散时。这是由于\(\波浪号{s}_{0}(t)\).同时0(t吨)收敛到0作为|t吨|对于任何连续分布,\(\波浪号{s}_{0}(t)\)对应于经验度量,并偏离为|t吨|这是在注意到有界周期函数\(n^{-1}\和{j}\sin(tW{j}^{ast})\)除以ψu个(t吨/ω),后者减小为0|t吨|增加。

接下来,考虑“平滑”估计

$$\帽子{s}_{0}(t)=\frac{\psi_{k}(ht)}{\psi.{u}(t/\omega)}\frac{1}{n}\sum_{1\leqj\leqn}\sin\left(tW{j}^{ast}\right)$$
(5)

哪里ψk个(t吨)是非负权重函数,并且小时是一个带宽参数。该估计器具有预期\(\mathrm{E}[\hat{s}_{0}(t)]=\psi{k}(ht)s{0}(t)\)因此对0(t吨). 然而,它也具有一些理想的特性。首先,它是一个奇数函数,\(\帽子{s}_{0}(-t)=-\hat{s}_{0}(t)\)为所有人\(t \ in \ mathbb R \)第二,替代(5)到(4)定义良好的估计量的结果(f)z(z)(z(z)),

$$\帽子{f}_{z} (z)=f_{0}(z)+\frac{1}{2\pi}\int_{mathbbR}\sin(tz){s}_{0}(t)dt$$
(6)

假如ψk个(t吨)被选择为|ψk个(小时t吨)/ψu个(t吨/ω)|0作为|t吨|.选择ψk个(t吨)在有界区间之外为0将满足这个要求。

估算员(6)与通常的非参数反褶积估计器存在相同的缺点,因为它可能部分为负。实际上,负数部分可以被截断,而结果函数可以重新缩放为1。要避免这种特殊修复,请合并公式(1)和(4)以获得

$$\pi(z)=\frac{1}{2}-\裂缝{1}{4\pi f_{0}(z)}\int_{R}\sin\left(tz\right)s_{0{(t)dt$$
(7)

替换(5)英寸(7)以及身份罪(t吨z(z))=(e(电子)t吨z(z)e(电子)t吨z(z))/(2),给出

$$\hat{\pi}(z)=\frac{1}{2}+\frac}1}{8f{0}(z)}\left\{\波浪线{f}_{w^{*}}(z)-\波浪线{f}_{w^{*}}(-z)\右\}$$
(8)

哪里\(\波浪号{f}_{w^{*}}(z)=(nh\omega)^{-1}\sum K_{h\omega}[(z-w_{j}^{*{})/(h\omega)]\)是经过充分研究的非参数反褶积密度估计量卡罗尔和霍尔(1988)带反褶积核\(K{h}(y)=(2\pi)^{-1}{\int_{\mathbbR}}e^{-ity}\psi_{K}(t)/\psi_{u}(t/h)dt).潜在的(6)部分消极反映在(8)不是测距。具体来说,有可能\({\pi}(z)不在\left[0,1\right]\中)对于一组z(z)非零测量。一个范围修正的倾斜函数估计量是\(\tilde{\pi}(z)=\ max\left[0,\ min\left\{1,\ hat{\pi}\left(z\ right)\ right\}\right]\)。的估计密度函数X(X)基于范围校正的偏斜函数为

$$\tilde{f}\left(x|\xi,\omega\right)=\frac{1}{\omega}f_{0}\left(\frac}x-\xi}{\omega}\rift)\ tilde{\pi}\left$$
(9)

使用范围校正的倾斜函数估计确保(9)始终是有效的pdf。不需要对负值进行任何额外的截断,也不需要像直接实现(6).

估计量的一些性质

距离修正估计器\(\波浪线{\pi}(z)\)渐近等价于\({\pi}(z)\)英寸(8)关于的任何闭子集\(\mathbb{R}\)因此,后者将用于评估GSS反褶积估计器的特性。首先,注意使用非参数反褶积估计器的已知期望值\(\波浪号{f}_{w^{\ast}}(z)\),它来自(8)那个

$$E\left[\hat{\pi}(z)\right]-\pi(z$$

使用常量c(c)k个仅取决于内核函数ψk个(t吨). 因此,对于适当选择的带宽小时,\({\pi}(z)\)是一致的π(z(z)),和密度估计器\(\波浪线{f}(x|\xi,\omega)\)英寸(9)也是一致的(f)x个(x个).

平均积分平方误差(MISE),见附录A.2款,是

$${}\text{MISE}(h)=\左(2\pi\右)^{-1}\int_{\mathbb{R}\left\{\frac{\psi_{k}^{2}(ht)}{n}\left[\frac[1-c{0}(2t)\psi{u}]+\左[\psi_{k}(ht)-1\右]^{2} 秒_{0}^{2}(t)\右\}dt$$
(10)

当分配Z轴对称,即。π(z(z))=所有的1/2z(z)以便0(t吨)=0表示所有t吨,并让MISEsym(对称)表示对称计算的MISE,

$$\开始{array}{*{20} 我}\text(文本){杂项}_{text{sym}}(h)&=left(4\pi\right)^{-1}\int_{mathbb{R}\frac{\psi_{k}^{2}(ht)}{n}\left[\frac[1-c{0}(2t)\psi{u}1}\int_{\mathbb{R}}\frac{\psi_{k}^{2}(ht)}{\psi.{u}^{2](t/\omega)}dt。\结束{数组}$$

这里的不等式是在注意到|1−c(c)0(2t吨)ψu个(2t吨/ω)|全部≤2t吨.MISE的这个上界sym(对称)与非参数反褶积估计器的渐近MISE成正比,参见Stefanski&Carroll(1990)中的方程(2.7)。因此,在对称情况下,对于正确指定的对称分量,人们预计GSS反卷积估计器的性能不会比非参数反卷积估计器差c(c)0(t吨). 事实上,由于这是一个上限,因此可能会大幅提高效率。我们在后面一节中给出的模拟结果与此说法一致。

带宽选择

GSS反卷积估计器的实现需要一个带宽参数小时待指定。本节介绍了两种选择带宽的方法。第一种方法使用交叉验证(CV)近似积分平方误差(ISE),第二种方法近似(10).

交叉验证带宽

对于GSS反卷积估计器,基于密度的ISE与虚分量的ISE成比例0(t吨)特征函数的,

$$\int_{\mathbb R}\left[\tilde{f}_{z} (z)-f{z}(z)\右]^{2} 第纳尔\propto\int_{\mathbb R}\left[\hat{s}_{0}(t)-s_{0}(t)\右]^{2}日期$$
(11)

这源于Parseval的身份,并回忆起真实的组件c(c)0(t吨)已知。C类(小时)表示通过展开右侧的正方形得到的表达式(11)并且只保留涉及估计器的项\(\帽子{s}_{0}(t)\),

$$C(h)=\int_{\mathbb R}\hat{s}_{0}^{2}(t)dt-2\int_{mathbb R}\hat{s}_{0}(t)s{0}(t)dt$$
(12)

现在,注意中的第二个积分(12)可以写为

$$\int_{\mathbb R}\hat{s}_{0}(t)s_{0}(t)dt=\sum_{i=1}^{n}\int_{\mathbb R}\frac{\psi_{k}(ht)\sin(tW_{i}^{ast})}{\psi.u}(t/\omega)}s_{0}(t)dt$$
(13)

定义\(\波浪号{s}_{(i)}(t)\)估计0(t吨)不包括第次观察,

$$\波浪线{s}_{(i)}(t)=\压裂{(n-1)^{-1}\sum_{j\neqi}\sin(tW_{j}^{*})}{\psi_{u}(t/\omega)}$$

此数量对0(t吨)为所有人、和\(\波浪号{s}_{(i)}(t)\)独立于W公司CV分数由以下内容替代\(\波浪号{s}_{(i)}(t)\)英寸(13)对于每个在夏天,给予

$${}\hat{C}(h)\,=\,\int_{mathbb R}\frac{\psi{k}(ht)}{\psi.u}^{2}(t/\omega)}\left[\psi_{k}(ht)\left\{frac{1}{n}\sum_{j=1}^{n}\sin(tW_{j}^{*})\right\}^2}\,-\,\ frac{2}{n(n-1)}\sum{i=1}^{n}\sum_{j\neqi}\sin(tW_{i}^{*})\sin(tW_{j}^{})\!\right]$$
(14)

此结果与斯蒂芬斯基和卡罗尔(1990)在非参数设置中,但这里只需要估计特征函数的虚分量。CV带宽定义为\(\波浪号{h}\)最大限度地减少\(hat{C}(h)\).

MISE带宽

考虑MISE(10),注意其中唯一未知的量是\(s_{0}^{2}(t)\)此外,请注意\(\mathrm{E}\left[\sin(tW_{j}^{*})\sin(tW_{k}^{})\right]=\psi_{u}^{2}(t/\omega)s_{0}^{2](t)\)无论何时j个k个因此,\(s_{0}^{2}(t)\)可以通过以下方式进行估算

$$\帽子{s}_{2} (t)=max\left\{0,\frac{1}{n(n-1)\psi_{u}^{2}(t/\omega)}\sum_{j=1}^{n}\sum_{k\neqj}\sin(tW_{j}^{*})\sin(tW_{k}^{})\right\}\mathcal{I}(|leq\kappa)$$
(15)

哪里\(\mathcal{I}(\cdot)\)指示灯功能和κ是一个正常数。常量κ可以认为是一个平滑参数,它确保了估计器\(\帽子{s}_{2} (t)\)对于较大的值表现良好|t吨|. 理想的,κ应以数据相关的方式选择,并且此方法的开发正在进行中。然而,根据大量的模拟工作,我们发现κ[3,5]对于所考虑的各种潜在GSS分布来说,工作得相当好。现在,采取(10),替换\(\帽子{s}_{2} (t)\)对于\(s_{0}^{2}(t)\),忽略不依赖于带宽的组件,得出MISE近似值

$$开始{对齐}\hat{M}(h)&=\frac{1}{h}\int{\mathbb R}\left\{\frac}\psi{k}^{2}(t)}{n\psi{u}^}2}[t/(h\omega)]}\left[\frac[1-\psi_{u}[2t/(h\omega)]c_{0}(2t/h)}{2}\right]\right.\\&+\左侧。\左[\frac{n-1}{n}\psi{k}(t)-2\right]\psi}k}{s}_{2} (t/h)右侧日期。\结束{对齐}$$
(16)

MISE近似带宽定义为\(\波浪线{h}\)最大限度地减少\(hat{M}(h)\).

位置和规模估计

广义矩量法

至此,位置和比例参数ξω已被视为已知量。这在实践中是不现实的。文献中考虑了已知对称分量的GSS参数估计,参见Ma等人(2005)Azzalini等人(2010年)、和Potgieter和Genton(2013)然而,这些作者都没有考虑到测量误差的存在。在此,提出了一种考虑测量误差的广义矩量法(GMM)。回想一下W公司j个=X(X)j个+U型j个=ξ+ωZ轴j个+U型j个,j个=1,…,n个.让M(M)≥2为正整数,并假设Z轴j个U型j个至少有2个M(M)有限力矩。T型k个表示(2k个)第个中心力矩,

$$T_{k}:=T_{k{(\xi,\omega)=n^{-1}\sum_{j=1}^{n}\left(\frac{W_{j}-\xi}{\omega}\right)^{2k}$$
(17)

该变量的期望值为E[T型k个]=E[(Z轴+ω−1U型)2k个]并允许扩张

$$\mathrm{E}\left[T_{k}\right]=\sum_{j=0}^{k}{2k}\choose{2j}}\omega^{-2(k-j)}\mathrm{E}\ left[Z^{2j{\right]\mathrm2{E}\left[U^{2(k-j)}\rift]$$
(18)

根据偶数变换的GSS性质,\(\mathrm{E}[Z^{2j}]=\mathrm{E}[Z_{0}^{2j}]\)对于j个=1,…,M(M)具有Z轴0pdf格式的随机变量(f)0(z(z)). 此外U型假设此分布已知,则不会产生任何问题。因此,E类[T型k个]可以使用(18).

现在,定义二次型\(D(\xi,\omega)=n\mathbf{T}_{M} ^{\top}\mathbf{\Sigma}^{-1}\mathbf{T}(T)_{M} \)具有T型M(M)表示向量T型M(M)=(T型1−E[T型1],…,T型M(M)−E[T型M(M)])具有协方差矩阵。协方差矩阵有个条目ij公司=n个−1(E)[T型+j个]−E[T型]E类[T型j个]). GMM估计量被定义为D类(ξ,ω). 在评估中D类(ξ,ω),期望值E[T型k个],k个=1,…,M(M)和协方差矩阵是参数的函数ω,但不是的ξ.

从多种GMM解决方案中选择

GMM方法遇到的一个困难是统计数据D类(ξ,ω)通常有多个极小值,而全局极小值并不总是对应于“正确”解。此等效问题也发生在非测量误差设置中,是倾斜函数未知的伪影;参见第7.2.2节阿扎里尼(2013)以获取概述和说明。考虑的解决方案包括选择具有估计倾斜函数二阶导数最小平方积分的模型,以及根据匹配的基于模型和经验的倾斜系数选择解决方案。

现在,假设D类(ξ,ω)有J型局部极小值出现在\(([hat{xi}{j},\hat{omega}{j{)\),j个=1,…,J型此外,让\(\波浪号{f}_{j} (x|\hat{\xi}{j},\hat}{j{)表示GSS密度反卷积估计器(9)使用溶液获得\((hat{\xi}_{j},hat{\omega}_{j})\)因此,J型计算了不同的GSS反卷积估值器。使用j个估算密度,定义k个模型简化力矩,

$$\波浪线{\mu}_{j,k}=\int_{\mathbb{R}}x^{k}\波浪线{f}_{j} (x|hat{xi}{j},hat{omega}{j{)dx$$
(19)

和模型简化特征函数,

$$\波浪线{\phi}_{j}(t)=\int_{\mathbb{R}}\exp(itx)\波浪线{f}_{j} (x|hat{xi}{j},hat{omega}{j{)dx$$
(20)

基于这些数量,现在提出了两种不同的选择方法。自始至终,将假定测量误差U型具有约为0的对称分布。

倾斜度匹配:在模型中W公司=X(X)+U型,偏斜度X(X)可以通过以下方式进行估算\(\hat{gamma}_{x}=\left[{hat{sigma}_{w}^{2}}/{(\hat{sigma}_{w}^{2}-{\sigma}{u}^{2})^{3/2}}\right]\hat{\gamma}{w}\)哪里\({\sigma}_{w}^{2}\)\(\hat{\gamma}_{w}\)表示样本方差和偏度iid公司随机变量W公司1,…,W公司n个现在,对于j个第个解决方案对\(([hat{xi}{j},\hat{omega}{j{)),GSS模型的简化偏度由下式给出\(\hat{\gamma}_{j}=\left({\tilde{\mu})_{j,3}-3\波浪线{\mu}{j,2}_{j,2}-\波浪线{\mu}_{j,1}^{2}}\右)具有\(波浪线{\mu}{j,k}\)定义见(19). 所选择的解是隐含偏度最接近经验偏度的解。具体来说,让\(d_{j}=hat{gamma}_{x}-\帽{\gamma}_{j}|\),j个=1,…,J型,所选解决方案为\((\hat{\xi}_{j^{ast}},\hat}\omega}_{j^{ast{})具有j个=arg最小值1≤j个J型d日j个.

相位函数匹配:相位函数是特征函数的标准化版本,是密度反褶积中最新使用的工具-参见Delaigle和Hall(2016)Nghiem和Potgieter(2018)了解更多详细信息。ρw个(t吨)和ρx个(t吨),表示的相位函数X(X)W公司=X(X)+U型。对于U型具有严格的正特征函数,这些相位函数相等,ρw个(t吨)=ρx个(t吨)为所有人t吨.相位函数的经验估计X(X)\(\hat{\rho}_{x}(t)=hat{\ psi}_{w}(t)/|hat{psi}_{w}_(t)|\)具有\({\psi}_{w}(t))经验特征函数W公司、和\(|z|=(z\bar{z})^{1/2}\)\(\bar{z}\)表示的复合范数和复合词z(z)。对于j个第个GMM解决方案\(([hat{xi}{j},\hat{omega}{j{)\),模型简化相位函数由下式给出\(tilde{\rho}{j}(t)=\tilde{\phi}{j{(t具有\(波浪线{\phi}{j}(t))定义见(20). 现在,让w个(t吨)表示围绕0对称的非负权重函数,定义距离度量\(R{j}=\int_{\mathbb{R}}\vert\hat{\rho}_{x}(t)-\tilde{\rho}_{j}(t)\vert w(t)dt\)对于j个=1,…,J型。选择解决方案为\((({xi}{j^{ast}},{omega}{j*{ast})具有j个=arg最小值1≤j个J型R(右)j个也就是说,所选解具有最小的相位函数距离。在本文中,权重函数\(w(t)=[1-(t/t^{\ast})^{2}]^{3}\\mathcal{I}(|t|\leq t^{\ast})\)将与一起使用t吨最小的t吨>0,这样\(|\hat{\psi}_{w}(t)|\leqn^{-1/4}\)根据Delaigle和Hall(2016).

模拟研究

通过大量仿真评估了GSS反卷积估计器的性能。出租ϕ(z(z))和Φ(z(z))表示标准正态密度和分布函数、数据X(X)1,…,X(X)n个由对称分量的GSS分布生成(f)0(z(z))=ϕ(z(z))并使用三种不同的倾斜函数,π0(z(z))=1/2,π1(z(z))=Φ(9.9625z(z))和π2(z(z))=Φ(z(z)−2z(z)). 位置和比例参数为ξ=0和ω=1.图1说明了生成的三个pdf(f)x个(x个)=(2/ω)ϕ[(x个ξ)/ω]πk个[(x个ξ)/ω],k个=0,1,2. 注意倾斜函数π0(z(z))不引入任何对称偏差,对应于正态分布的模拟。此外,倾斜函数π1(z(z))导致正斜交分布,而π2(z(z))导致双峰分布。

图1
图1

模拟研究中使用的斜对称密度

考虑了两种测量误差分布U型1,…,U型n个为正态或拉普拉斯,平均值为0,方差选择为具有噪声信号比\(\text{NSR}=\sigma_{u}^{2}/\sigma_{x}^{2])0.2或0.5。样品W公司j个=X(X)j个+U型j个,j个=1,…,n个,使用n个{50100200500}是根据描述的每个可能的模拟配置生成的。

甲骨文估值器的比较

本文的第一个仿真研究将所提出的GSS估计与已建立的非参数估计进行了比较卡罗尔和霍尔(1988),并假设存在神谕为每个估计器选择“最佳”可能的带宽。具体来说,对于一个样本W公司1,…,W公司n个,让\(\波浪号{f}_{\text{gss}}(x|h)\)\(\波浪号{f}_{\text{np}}(x|h)\)分别表示带带宽的GSS和非参数估计量小时ISE定义为

$$\text(美元){ISE}_{\mathrm{m}}(h)=\int_{\mathbb R}\left[\tilde{f}_{\mathrm{m}}(x|h)-f{x}(x)\右]^{2} dx公司$$

其中m{gss,np}。然后,“最佳”带宽是使估计密度和真实密度之间的ISE最小的值。此外,当GMM为GSS位置和规模参数产生多个解决方案时,预言机也会选择产生最小ISE的解决方案。实际上,不存在执行这些选择的甲骨文。即使如此,在这种理想条件下比较估计值,也说明了这些方法的最佳性能。

对于每个仿真配置,N个生成1000个样本。由于ISE中偶尔会出现非常大的异常值,因此报告了中间ISE(而非平均ISE)。还报告了ISE的第一和第三个四分位数。的结果n个{200500}总结见表1、和用于n个{50100}见附录表6答5.

表1 100×ISE的中位数,以及第一和第三个四分位数[1,]对于oracle GSS和非参数(NP)反褶积估值器

检查工作台1显示了GSS估计器相对于非参数估计器的性能。在具有倾斜函数的对称情况下π0(z(z))ISE中位数的下降幅度最大,在所有情况下均超过50%。对于倾斜函数π1(z(z))和π2(z(z)),中位数ISE的降低也被认为高达40%。有一个例子是,非参数估计量的中位数ISE小于GSS估计量的中位数ISE——偏斜函数π2(z(z))NSR=0.5、拉普拉斯测量误差和样本量n个=200。(同样适用于样本大小n个=表6中的50和100。)然而,具有样本量的等效场景n个=500的GSS估计值具有较小的中间ISE。这可能表明在较小样本中估计位置和尺度参数以及存在大量大于正常值的测量误差时的影响。总的来说,GSS反褶积估计器性能很好。因此,通过对称pdf的先验规范强加的附加结构(f)0(z(z))会导致ISE大幅下降。

带宽估计

接下来的仿真研究研究了两种拟议的带宽估计方法。具体来说,CV和MISE带宽以及两级插件(PI)带宽Delaigle和Gijbels(2002)最初是为非参数反褶积而开发的。对于每个模拟样本,计算ISE。必要时,使用具有相函数匹配的GMM解决方案选择。计算了带PI带宽的非参数反褶积估计器;为了便于参考,本文列出了相应的结果。表中总结了这些方法的ISE中值2样品尺寸n个{200500},以及附录中的表7和表8答5样品尺寸n个{50,100}.

表2具有CV、MISE和PI带宽的GSS反褶积估计器和具有PI带宽的非参数(NP)估计器的100×ISE中位数。样本大小n个=200
表3具有CV、MISE和PI带宽的GSS反褶积估计器和具有PI带宽的非参数(NP)估计器的100×ISE中位数。样本大小n个=500

在表格中2可以看出,没有一种公认的“最佳”带宽方法。对于倾斜函数π0(对称情况)和π2,PI带宽通常具有最小的中间ISE。在这些相同的场景中,MISE经常(但绝不是始终如一)优于CVπ1(z(z))MISE带宽表现最好。在所有模拟设置中,有一种GSS带宽方法比非参数估计器具有更好的性能。这些相同的结论大致适用于样本量n个附录中的{50100}答5.

上述结果仅限于GMM估计器的相函数匹配,因为发现偏度匹配通常具有更好的性能。有关比较两种GMM匹配方法的模拟详细信息,请参见附录答3.

GMM估计

进行了另一项模拟研究,并考虑了M(M)(使用的偶数矩数)(ξ,ω). 这些模拟结果见附录A.4款总之,值越大M(M)=5通常被认为表现出色M(M)=2用于π1(z(z))和π2(z(z)). 在对称π0(z(z))案例,M(M)=2表现略好于M(M)=5.在所有情况下,均方根误差(RMSE)被用作标准。

数据应用程序

煤的耐磨性指标数据

来自工业应用程序的数据,首先由伦巴第(2005),在这里进行分析。这些数据是通过采集煤炭批次,将其分为两部分,并将每半批随机分配给用于测量煤炭磨损指数(AI)(衡量煤炭质量)的两种方法之一而获得的。观测数据由98对组成(w个1,w个2)假设来自一个人口W公司1=X(X)+U型1W公司2=μ+σ(X(X)+U型2). 在这里,X(X)表示真正的AI第批,U型1U型2表示测量误差和常数μσ解释了两种AI测量方法在不同尺度上的差异。有趣的是估算(f)x个(x个)人工智能的真实密度。然而,数据(w个1,w个2)首先需要以合理的方式进行组合。

为此,让μw个,k个\(\西格玛_{w,k}^{2}\)表示W公司ki公司,k个=1,2,并让μx个\(\西格玛{x}^{2}\)表示X(X)。请注意μw个,1=μx个,μw个,2=μ+σμx个,\(\西格玛{w,1}^{2}=\西格马{x}^{2%+\西格玛{u}^{2])、和\(\西格玛{w,2}^{2}=\西格马{2}\左(\西格玛{x}^{2%+\西格玛{u}^{2]\右)\)通过将总体矩替换为样本矩,估计量\({\sigma}=s{w,2}/s{w,1}=0.679)\(\hat{\mu}=\bar{w}_{2} -\hat{\sigma}\bar{w}_{1}=59.503\)获得。在这里,\((\bar{w}_{1} ,s_{w,1})\)表示观测值的样本平均值和标准偏差w个1-具有类似定义的数据w个2-数量。现在,将成对观察结果组合为\(w{i}=0.5w{1i}+0.5\左(w_{2i}-\帽子(右)/帽子(西格玛)。在人口层面,这对应于W公司X(X)+0.5(U型1+U型2):=X(X)+ε.测量误差方差的估计\(西格玛{\varepsilon}^{2}\)通过计算获得\({\sigma}_{u}^{2}=(2n)^{-1}\sum\left[W_{1i}-\左侧(W_{2i}-\帽子{\mu}\right)/\hat{\sigma}\right]^{2}=174.6\)并注意到\({\sigma}_{\varepsilon}^{2}=174.6/2=87.3)。这与W公司噪声信号比NSR=16.35%.

的GSS反卷积估计器(f)x个(x个)现在是假设正常对称分量计算的,(f)0(z(z))=ϕ(z(z))以及测量误差的拉普拉斯分布ε(也计算了假设正常测量的等效估计器,其形状几乎相同。)M(M)=5给出解决方案对\(([hat{xi}{1},hat{omega}{1{)=\左(192.88,29.90\右)\)\(([hat{xi}{2},\hat{omega}{2{)=\左(230.41,32.43\右)\)。对于其中的每一个,对应的倾斜函数估计\(\波浪线{\pi}{j}(z)\)和相位函数距离R(右)j个计算,后者使用权重函数w个(t吨)=[1−(t吨/t吨)2]对于t吨[−t吨,t吨]和t吨=0.06. 在这里,R(右)1=0.023<0.046=R(右)2因此解决方案\(([hat{xi}{1},\hat{omega}{1{)\)带有估计的倾斜函数\(\波浪线{\pi}{1}(z)\)已选定。偏态匹配导致选择相同的解决方案。2显示了核密度估计(f)w个(w个),受污染的密度W公司以及GSS反褶积估计器(f)x个(x个)MISE带宽\(波浪线{h}=0.102\).

图2
图2

磨料指数密度估算

该应用程序说明了GSS方法在较小样本中有时遇到的一个不太吸引人的方面。请注意GSS估计值中的尖锐“边缘”x个=225。这是计算距离检测倾斜函数估计时应用的硬截断的伪影\(\波浪线{\pi}(z)\)。由此得出的密度估计值此时不可微。当非参数反褶积估计量被截断为正时,这等价于非参数反卷积估计量中的不可微点。

收缩压数据

这里的数据是n个=弗雷明汉心脏研究的1615名男性参与者,例如Carroll等人(2006年)了解更多详细信息。数据包括两次患者检查(研究中的第二次和第三次检查)的收缩压测量值。在每次检查中,获得两次重复测量,给出数据(SBP21、SBP22、SBP31、SBP32). P(P)1=(SBP21+SBP公司22)/2和P(P)2=(SBP31+SBP公司32)/2表示每次检查时观察到的平均收缩压,并计算转换变量W公司j个=对数(P(P)j个−50),j个=1,2,根据建议Carroll等人(2006年)这样做是为了调整数据中存在的较大偏度。测量W公司=(W公司1+W公司2)/2=X(X)+U型是真正长期平均收缩压的替代物X(X)(在转换后的对数刻度上)。使用复制品(W公司1,W公司2),估计标准偏差\({\sigma}_{x}=0.1976)\({\sigma}_{u}=0.0802)获得。

假设测量误差为拉普拉斯分布的GSS反卷积估计器U型并使用正常参考密度(f)0(z(z))=ϕ(z(z))已计算。GMM与M(M)=5导致只有一个解决方案,\(([hat{xi},\hat{omega})=(4.429,0.210)\),因此不需要进行选择。显示了GSS反卷积估计器和非参数反卷积估计器,两者都具有PI带宽。

图3
图3

测井密度反褶积估值器(SBP-50)

非参数反褶积估计器以前曾用于弗雷明翰心脏研究。因此,令人放心的是,GSS估计器在外观上没有什么不同。

结论

本文考虑广义偏对称分布族变量的密度反褶积问题。实施需要估计位置和比例参数(ξ,ω),以及倾斜函数的估计π(z(z)). 提出了这两个量的估算方法,并进行了广泛的模拟研究。在进行的仿真研究中,一般认为GSS反卷积估计器比非参数反卷积估计器(使用中值ISE作为标准)有较大改进。

还有几个与GSS反褶积相关的问题可以考虑。首先,估计器需要指定已知对称分量(f)0(z(z)). 虽然这样做是为了确保模型的可识别性,但可以考虑几个候选对称密度,并从中选择“最佳”。还可以探讨特定对称组件的相关完好无损测试问题。其次,应该注意的是,受污染的W公司也有GSS分销。因此,另一种建模方法可以估计W公司直接,然后恢复的pdfX(X)最后,在仿真研究中观察到,在一些孤立的实例中,非参数反褶积核在选择条件下的性能优于GSS估计器,而在预言条件下,对于相同的仿真配置,GSS性能更好。这表明可能进一步完善带宽计算和解决方案选择程序,相关工作正在进行中。

附录

A.1广义偏对称表示

这里,我们建立了任何连续随机变量作为GSS分布具有非唯一表示。这在一定程度上激发了对pdf采用参数形式的需求(f)0(z(z))进行估算时。Y(Y)用pdf表示连续随机变量(f)()然后让ξ成为一个实数。此外,让B类成为伯努利人(第页=0.5)随机变量,并定义新的随机变量D类ξ=|Y(Y)ξ|和T型=B类D类ξ−(1−B类)D类ξ.随机变量T型约为0且具有pdf格式(f)t吨(t吨)=(1/2)[(f)(ξ+t吨)+(f)(ξt吨)]. 接下来,定义

$$\pi{t}(t)=\压裂{1}{2}\压裂{f{y}(\xi+t)}{f{t}(t)}=\压裂$$

并注意到πt吨(t吨)满足0≤πt吨(t吨)=1−πt吨(−t吨)≤1.通过构造,可以得出以下结论(f)()可以表示为(f)()=2(f)t吨(ξ)πt吨(ξ). 假设Y(Y)方差有限T型由提供\(\omega_{\xi}^{2}=\int_{\mathbb{R}}t^{2} (f)_{t} (t)日期然后,让(f)ξ(t吨)=(f)t吨(t吨/ωξ)/ωξπξ(t吨)=πt吨(t吨/ωξ),可以写入

$$f_{y}(y)=\frac{2}{\omega{\xi}}f_{\xi{\left(\frac}y-\xi}{\omega{\xineneneep}\right)\pi{\xi}\left$$

此表示形式不依赖于的特定值ξ因此,适用于ξ。但是ξ与不同的对称组件关联(f)ξ(z(z))和倾斜函数πξ(z(z)). 因此,有一系列分布(f)ξ(z(z))约为0且单位方差对称,因此随机变量Y(Y)可以表示为GSS分布,其对称分量属于该族。本文的工作是基于这样一个假设,即在族中正确指定一个对称分布是可能的(f)ξ(z(z)).

A.2 MISE推导

推导平均积分平方误差(MISE)的表达式,考虑估计器\(\帽子{s}_{0}(t)\)定义于(5). 回想一下\(\mathrm{E}\left[\hat{s}_{0}(t)\右]=\psi{k}(ht)s{0}(t)此外,它具有协方差结构

$$\开始{aligned}\text{Cov}\left[\hat{s}_{0}(t{1}),\hat{s}_{0}(t{2})\右]&=\压裂{\psi{k}(ht{1})\psi}k}_{1} -吨_{2} )\psi_{u}[(t_{1} -吨_{2} )/\omega]-c{0}(t_{1}+t_{2})\psi_{u}[(t_{1}+t_{2})/\omega)]}{2 \psi_{u}(t_{1}/\omega)\psi_{u}(t_{2}/\omega)}-s_{0}(t_{1})s_{0}(t_{2})\right]。\结束{对齐}$$

GSS估计器的积分平方误差(ISE)现在可以表示为\(\帽子{s}_{0}(t)\),

$$\开始{数组}{@{}rcl@{}}\text{ISE}&=&\int_{\mathbb{R}}\left[\tilde{f}_{z} (z)-f{z}(z)\右]^{2} 第纳尔\\&=&\压裂{1}{2\pi}\int_{\mathbb{R}}\left|\hat{\psi}{z}(t)-\psi{z}(t)\right|^{2} 日期\\&=&\压裂{1}{2\pi}\int_{mathbb{R}}\left[\hat{s}_{0}(t)-s_{0}(t)\右]^{2} 日期\结束{数组}$$

其中,第一个等式是Parseval恒等式的应用,第二个等式在注意到估计的特征函数后\({\psi}_{z}(t))和真实特征函数ψz(z)(t吨)具有公共实成分c(c)0(t吨)这就抵消了,只剩下估计的和真实的虚部。还要注意,ISE是带宽的函数小时通过\(\帽子{s}_{0}(t)\)现在,可以使用与\(\帽子{s}_{0}(t)\),在后一种设置中t吨1=t吨2=t吨.等式。10跟随。

A.3 GMM估计器模拟

GMM估计的性能(ξ,ω)在模拟研究中进行了评估。数据模拟如主文件所述。对于每个模拟数据集,估计量最小化D类(ξ,ω)都获得了M(M)=2和M(M)=5个偶数矩。而用于M(M)=5的设置可以说包含了额外的信息,在估计这些高阶矩时引入了大量额外的可变性。这个模拟探索了这样做的好处(如果有的话)\(([hat{xi}{j},\hat{omega}{j{)),j个=1,…,J型假设存在一个能够选择最接近真值(0,1)的解的预言符(使用欧几里德距离测量)。总共N个=为每个模拟配置生成1000个样本。均方根误差(RMSE)被用作标准,结果如表4所示。

表4 GMM估计值的RMSE,N个=正常,=拉普拉斯

在设置中X(X)正常,即使用π0(z(z)),使用M(M)=与案例相比,5个力矩导致RMSE小幅增加M(M)=2.RMSE的平均增长ξ为1.2%和用于ω为9.5%跨越考虑的设置。另一方面,倾斜函数的模拟结果π1(z(z))和π2(z(z))看起来很不一样。这里是RMSEξ倾斜函数和RMSE均减小ω倾斜函数的减少π2(z(z)). 此外ω对于π2(z(z))在所考虑的模拟设置中保持不变。对称情况下RMSE增加的一个可能原因是,基本分布是正态的,因此高阶矩不包含有关分布的任何“额外”信息。另一方面,对于π1(z(z))和π2(z(z))高阶样本矩与正态性有着实质性的背离,尽管其变异性很大,但确实包含了关于潜在分布的有用信息。由于对称情况下RMSE的增加与非对称情况下的减少相比相对较小,本文使用GMM估计M(M)在所有其他模拟中=5。

A.4方案选择模拟

下面的仿真结果比较了偏态匹配和相位函数距离解选择机制的性能。按照“模拟研究”部分。对于每个模拟样本,所有GMM解决方案\((hat{\xi}_{j},hat{\omega}_{j})\),j个=1,…,J型获得了。然后,对偏度匹配和相位函数匹配进行解选择。这些技术需要选择带宽。仿真实现了CV、MISE和PI带宽选择。然而,关于这些选择方法的结论非常相似,因此这里只包括MISE带宽结果。为了将这些选择结果与上下文关联,还报告了能够选择具有最小ISE的解决方案的预言器对应的结果,以及盲目选择该方法随机选择一个GMM解决方案。

表5总结了模拟结果。在该表中,偏度匹配的中间ISE和相位函数距离在SKW和PHS列中给出。MIN列包含预言者选择ISE最小的溶液的中间ISE,而RND列包含随机选择GMM溶液之一的中间ISE。最后,NP列给出了带PI带宽的非参数反褶积估计器的中值ISE,以供参考。

表5具有MISE带宽的GSS估计器的100×ISE中位数
表6 100×ISE的中位数,以及第一和第三个四分位数[1,]对于oracle GSS和非参数(NP)反褶积估值器,样本大小n个=50,100

表5的检验表明,在偏态和相函数匹配下的估计通常优于完全非参数估计,但偏态函数组合除外π2(z(z))和拉普拉斯测量误差。然而,正如表中所示,在预言机带宽下,GSS估计器优于非参数估计器1这确实表明,通过细化参数估计和带宽选择,仍然有可能进一步改进GSS估计器——这是一项正在进行的工作。表5的进一步检查表明,在偏度和相位函数匹配下的估计性能优于随机选择,除了随机选择优于偏度匹配π1(z(z))和正常测量误差。虽然在少数情况下,偏度匹配的性能优于相位函数匹配,但相位函数匹配通常具有很好的性能,并且接近oracle选择下最小ISE的最佳性能。

A.5补充仿真结果

本小节包含两组补充仿真结果。表6中的第一项与样本大小的oracle估计值的比较有关n个={50,100}. 表7和表8中的第二个例子是比较样本大小的带宽估计方法n个={50,100}. 从这些结果中得出的结论与“模拟研究“主要论文的第节,为了完整起见,此处包括和。

表7具有CV、MISE和PI带宽的GSS反褶积估计器和具有PI带宽的非参数(NP)估计器的100×ISE中位数。样本大小n个=50
表8具有CV、MISE和PI带宽的GSS反褶积估计器和具有PI带宽的非参数(NP)估计器的100×ISE中位数。样本大小n个=100

数据和材料的可用性

煤炭耐磨性指数数据见伦巴第(2005)。这些数据是专有的,不能公开发布。收缩压数据在Carroll等人(2006年)并构成弗雷明翰心脏研究的一个子集。本文中使用的数据子集在R(右)包裹去噪.

缩写

简历:

交叉验证

总经理:

广义命名法

GSS:

广义偏对称

iid(识别码):

独立且相同分布

ISE公司:

积分平方误差

其他:

平均积分平方误差

pdf格式:

概率密度函数

圆周率:

插入

RMSE公司:

均方根误差

工具书类

下载参考资料

致谢

不适用。

资金

作者没有资金来源可申报。

作者信息

作者和附属机构

作者

贡献

这是一篇单作者的论文,所有的研究和写作都是由作者完成的。作者阅读并批准了最后的手稿。

通讯作者

通信至科内利斯·波吉特.

道德声明

竞争性利益

提交人声明,他没有相互竞争的利益。

其他信息

出版商备注

Springer Nature在公布的地图和机构关联中的管辖权主张方面保持中立。

权利和权限

开放式访问本文是根据Creative Commons Attribution 4.0国际许可证授权的,该许可证允许以任何媒体或格式使用、共享、改编、分发和复制,只要您对原始作者和来源给予适当的信任,提供指向Creative Commons许可证的链接,并指出是否进行了更改。本文中的图像或其他第三方材料包含在文章的Creative Commons许可证中,除非材料的信用额度中另有说明。如果文章的知识共享许可证中没有包含材料,并且您的预期用途不被法律法规允许或超出了允许的用途,则您需要直接获得版权所有者的许可。要查看此许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.

转载和许可

关于这篇文章

检查更新。通过CrossMark验证货币和真实性

引用本文

Potgieter,C.J.广义偏对称分布的密度反褶积。J Stat Distribute应用程序 7, 2 (2020). https://doi.org/10.1186/s40488-020-00103-y

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/s40488-020-00103-y

关键词