在本文中,为了一般性,我们忽略了线性模型的思想(2).我们获得了中真条件分位数的直接估计(1):
$$\widehat美元{问}_{y} (\tau|\mathbf{x})=\widehat{问}_{y} (\tau|x_{1},x_{2},\ldots,x_{d})=\widehat{F}^{-1}(\tau|\mathbf{x})$$
使用局部条件分位数估计ξ我(τ|x个我)=问年(τ|x个我)基于我给定随机样本的第个点{(年我,x个我),我= 1,…,n个},用于x个我=(x个1我,x个2我,…,x个di(数字))T型.
我们构造了以下直接非参数分位数回归的五步算法:
第1步:估计的条件密度年对于给定的x个=(x个1,x个2,…,x个d日)使用核密度估计方法(Silverman1986; 斯科特2015):
$$\widehat{f}(y|\mathbf{x}$$
(4)
哪里\(\widehat{f}(y,\mathbf{x})\)是联合密度的估计值年和x个,和\(\widehat{g}(\mathbf{x)}\)是边缘密度的估计值x个.
A类d日-随机样本的维数核密度估计X(X)我=(X(X)1我,X(X)2我,…,X(X)di(数字)),我=1,2,…,n个,来自人群x个=(x个1,x个2,…,x个d日)接头密度克(x个),由给出
$$\widehat{g}(\mathbf{x})=\frac{1}{nh^{d}}\sum\limits_{i=1}^{n} K(K)\左\{\frac{\mathbf{x}-\马特布夫{X}(X)_{i} }{h}\right\}$$
哪里小时>0是带宽和内核函数K(K)(x个)是为定义的函数d日-尺寸x个=(x个1,x个2,…,x个d日)这满足了\(int\limits_{R^{d}}K(\mathbf{x})d\mathbf}x}=1.\)
福奈加(1972)建议使用
$$\widehat{g}(\mathbf{x})=\frac{(\det\mathbf}S})^{-1/2}}{nh^{d}}\sum\limits_{i=1}^{n} k\左\{\frac{(\mathbf{x}-\马特布夫{X}(X)_{i} )^{T}\mathbf{S}^{-1}(\mathbf{x}-\马特布夫{X}(X)_{i} )}{h^{2}}\right\}$$
哪里S公司是数据的样本协方差矩阵,K(K)是正常的内核,函数k个是
$$k(u)=\左(\frac{1}{2\pi}\right)^{d/2}\exp\left(-\frac}u}{2}\rift),\四k(\mathbf{x}^{T}\mathbf{x)}=k(\mathbf{x{)=(2\pi)^{-d/2}\exp\left \mathbf{.}$$
插入式带宽选择器小时>0将由(Silverman)提供1986,第85页)作为
$$h_{opt}=\left\{\nint t^{2} K(K)(t) dt\right\}^{-2/(d+2)}\left\{\int K(t)^{2} 日期\右\}^{1/(d+4)}\left\{\int\left(\nabla^{2} 克(\mathbf{x})\右)^{2} d日\mathbf{x}\right\}^{-1/(d+4)}n^{-1-(d/4)}$$
(5)
如果使用多元正态核对具有单位方差的正态分布数据进行平滑,
$$h_{opt}=\left\{\frac{4}{d+2}\right\}^{1/(d+4)}n^{-1/(d+4)}$$
第二步:估计的条件c.d.f年给定x个:
$$\widehat{F}(y|\mathbf{x})=\int_{-\infty}^{y}\wideha{F}(y |\mathbf{x{)dy$$
第三步:估计局部条件分位数函数ξ(τ|x个)第页,共页年鉴于x个通过倒置估计的条件c.d.f。\(\widehat{F}(y|\mathbf{x})\).
$$\widehat{\xi}(\tau|\mathbf{x})=\wideheat{Q_y}}(\t au|\mathbf{x})=\inf\{y:\wideha t{F}(y|\mathbf{x{)\geq\tau\}=\wide hat{F{^{-1}(.tau|\mathbf{x})$$
很难计算全局反函数\(\widehat{\xi}(\tau | \mathbf{x})\)核估计的条件c.d.f。\(\widehat{F}(y | \mathbf{x})\)它有很多术语。为了避免计算上的全局困难,我们估计了局部条件分位数ξ我(τ|x个我)第页,共页年鉴于x个我通过反转\(\widehat{F}(y|\mathbf{x}_{i} )\)在我第个数据点(年我,x个我):
$$\widehat{\xi_{i}}(\tau|\mathbf{x}_{i} )=\widehat{Q_{y}}(\tau|\mathbf{x}_{i})=\inf\{y:\wideheat{F}(y|\mathbf{x}_{i} )\geq\tau\}=\widehat{F}^{-1}(\tau|\mathbf{x}_{i} ),i=1,2,t,n$$
(6)
因此,我们有n个点\(\左(\mathbf{x}_{i} ,\widehat{\xi_{i}}(\tau|\mathbf{x}_{i} )\右),\;i=1,2,\ldot,n.)
第4步:我们提出了一个直接的非参数分位数回归估计τ第条条件分位数曲线x个通过使用Nadaraya Watson(NW)非参数回归估计量(Scott,2015,第242页)\(\左(\mathbf{x}_{i} ,\widehat{\xi_{i}}(\tau|\mathbf{x}_{i} )\右),\;i=1,2,\ldot,n:\)
$$Q_{D}(\tau|\mathbf{x})=\widehat{xi}(\t au|\mathbf{x})=\frac{\sum\limits_{i=1}^{n} K(K)_{\mathbf{h}}\left{\mathbf{x}-\mathbf{X}_{i}\right \}\widehat{xi_{i}}(\tau | \mathbf{x}_{i} )}{\sum\limits_{j=1}^{n} K(K)_{\mathbf{h}}\left\{\mathbf{x}-\马特布夫{X}(X)_{j} \right\}}=\sum\limits_{i=1}^{n} W公司_{h{\mathbf{x}}(\mathbf2{x},\mathbf{X}(X)_{i} \mathbf{)}\widehat{\xi_{i}}(\tau|\mathbf{x}_{i} ),{\quad}0<\tau<1$$
(7)
哪里\(W_{h_{x}}(\mathbf{x},\mathbf{X}(X)_{i} \mathbf{)}\)称为等效内核,并且小时=(小时1,…,小时d日),
$$W_{h_{\mathbf{x}}(\mathbf2{x},\mathbf{X}(X)_{i} \mathbf{)=}\frac{K_{\mathbf{h}}\left\{\mathbf{x}-\马特布夫{X}(X)_{i} \right\}}{\sum\limits_{j=1}^{n} K_{\mathbf{h}}\left\{\mathbf{x}-\马特布夫{X}(X)_{j} \right\}},\quad i=1,2,\ldot,n$$
哪里
$$K_{mathbf{h}}\left\{mathbf{x}-\马特布夫{X}_{i} \right\}=\frac{1}{nh{1}\ldots{h}_{d} }\prod\limits_{j=1}^{d} K(K)\左(frac{x-x{ij}}{h{j}}\右),四元i=1,\ldot,n$$
哪里K(K)是内核函数,并且小时j个>0是的带宽j个第个维度。
新观点(7)它使用第三步(6)数值结果:n个点\(\左(\mathbf{x}_{i} ,\widehat{\xi_{i}}(\tau|\mathbf{x}_{i} )\右),\;i=1,2,\ldot,n,\)估计τ基于这些的分位数函数n个点,然后平滑这些点n个指出。
在本文中,对于核回归,我们使用K(K)这是标准的正常内核。与公式类似(5),我们使用最佳带宽j个第个维度(Silverman1986,第40页),
$${}h_{j,opt}\,=\,\left\{\intt^{2} K(K)(t) dt\right\}^{-2/5}\left\{\int K(t)^{2} 日期\right\}^{1/5}\left\{\int\left(\nabla^{2}\widehat{g{j}}(x{j})\right)^{2} d日\马特布夫{x}_{j} \ right \}^{-1/5}n ^{-1/5},\ quad j\,=\,1,\ ldots,d$$
(8)
哪里\(\widehat{g}_{j} (x{j})\)估计是j个第维边缘密度x个j个在里面x个=(x个1,x个2,…,x个d日),n个是随机样本的样本大小(4).
步骤5:检查所有程序,并进行必要的调整。