跳到主要内容

分位数回归的非参数方法

摘要

分位数回归估计条件分位数,在现实世界中有着广泛的应用。估计高条件分位数是一个重要问题。正则分位数回归(QR)方法通常设计线性或非线性模型,然后估计系数以获得估计的条件分位数。这种方法可能受到线性模型设置的限制。为了克服这一问题,本文提出了一种具有五步算法的直接非参数分位数回归方法。蒙特卡罗仿真表明,相对于常规QR估计,所提出的直接QR估计具有良好的效率。本文还使用该方法研究了两个实际应用示例。仿真和实例研究表明,所提出的直接非参数分位数回归模型比常规分位数回归方法更适合数据集。

介绍

研究分位数回归对估计实际事件中的高条件分位数非常重要Koenker(2005)一些极端事件可能对社会造成损害:股市崩盘、管道故障、大洪水、野火、污染、地震和飓风。我们希望估计随机变量的高条件分位数具有累积分布函数(c.d.f.)F类()给定一个变量向量,x个=(x个1,x个2,,x个d日)、和x个第页=(1,x个1,x个2,…,x个d日)T型R(右)第页哪里第页=d日+1τ第个条件线性分位数定义为

$$Q_{y}(\tau|\mathbf{x})=Q_{y}(\tau|x_{1},x_{2},\ldots,x{d})=F^{-1}(\ tau|\ mathbf}),\text{}0<\tau<1$$
(1)

传统的分位数回归涉及到τ的第个条件分位数回归(QR)对于给定的x个通常将线性模型设置为

$$Q_{y}(\tau|\mathbf{x})=\mathbf{x}_{p} ^{T}\mathbf{\beta}(\tau)=\beta{0}(\T)+\beta_{1}(-tau)x{1}+\cdots+\beta(\T)x{d},0<\tau<1$$
(2)

哪里β(τ)=(β0(τ),β1(τ),β2(τ),…,βd日(τ))T型.

对于线性模型(2),我们估计系数β(τ)=(β0(τ),β1(τ),β2(τ),…,βd日(τ))T型R(右)第页从随机样本中{(,x个),=1,…,n个},其中x个圆周率=(1,x个1,x个2,…,x个身份证件)T型第页-尺寸设计矢量和是具有c.d.f的连续分布的单变量响应变量。F类(). Koenker和Bassett(1978)提出了一个L(左)1-获得估计量的加权损失函数\(\widehat{\mathbf{\beta}}(\tau)\)通过求解

$$\widehat{\mathbf{\beta}}(\tau)=\text{arg}\mathop{\text{min}}\limits_{\mathbf{\beta}(\t au)\R在R^{p}}\sum\limits\{i=1}^{n}\rho_{\tau}(y)中_{我}-\马特布夫{x}_{pi}^{T}\mathbf{\beta}(\tau)),\0<\tau<1$$
(3)

哪里ρτ是损失函数,即

$$\rho_{\tau}(u)=u(\tau-I(u<0))=\left\{\begin{array}{l}u(\tao-1),u<0;\\u\tau,\u\geq 0。\右端{数组}$$

线性分位数回归问题可以表示为线性规划

$$\mathop{\text{min}}\limits_{(\mathbf{beta}(\tau),\mathbf{u},\mathbf{v})\in R^{p}\ times R_{+}^{2n}}\{\tau\mathbv{1}_{n} ^{T}\mathbf{u}+(1-\tau)\mathbf{1}_{n} ^{T}\mathbf{v}|\tathbf{X\beta}(\tau)+\tathbf{u}-\mathbf{v}=\mathbf{y}\}$$

哪里\(\mathbf{1}_{n} ^{T}\)是一个n个-的向量1第页,X(X)表示n个×第页设计矩阵,以及u个,v(v)n个带有元素的×1向量u个,v(v),=1,…,n个(Koenker,2005)。

近年来,研究正在寻求估计器效率的改进(3)(Yu等人。2003; 王和李2013; Huang等人。2015; 黄和阮2017). 正则线性分位数回归(2)需要估计员\(\widehat{\mathbf{\beta}}(\tau)\)在里面(3)用于估计的条件分位数曲线。但这种估计的条件分位数曲线在模型设置下可能会受到限制。

近年来,许多研究使用了分位数回归的非参数方法,例如Chaudhuri(2003)、Yu和Jones(1991),Hall等人(1999)和Yu等人(2003). Keoker第7章(2005)提出了局部多项式分位数回归(LPQR)等方法。我们还可以在Li和Racine中看到关于理论、方法和应用的详细讨论(2007)和蔡(2013).

为了克服模型设置的局限性(2)本文利用非参数核密度估计和非参数核回归的思想,提出了一种直接的非参数分位数回归方法。该方法不仅不同于现有的大多数非参数分位数回归方法,而且克服了分位数曲线估计的交叉问题。我们希望看到新方法相对于常规线性分位数回归和其他非参数分位数回归方法是否有改进,我们将在本文中进行两项研究:

1.将进行蒙特卡罗模拟,以确认新的直接QR估计相对于常规QR估计和非参数LPQR具有更好的效率。

2.新提出的方法将应用于两个真实世界的极端事件示例,并与Huang和Nguyen(2017)中的线性模型进行比较。

在节中2,我们提出了一种直接的非参数分位数回归估计。第节中给出了分位数模型的质量比较的相对度量.在第节中4Gumbel第二类二元指数分布生成的Monte Carlo模拟结果甘贝尔(1960)与现有的线性QR和LPQR方法相比,该直接方法具有较高的效率。在节中5,将正则线性分位数回归和提出的直接分位数回归应用于两个实际例子:布法罗降雪和CO2黄和阮的排放示例(2017). 这些实例的研究表明,所提出的直接非参数分位数回归模型比现有的线性分位数回归方法更适合数据。

建议的直接非参数分位数回归

在本文中,为了一般性,我们忽略了线性模型的思想(2).我们获得了中真条件分位数的直接估计(1):

$$\widehat美元{问}_{y} (\tau|\mathbf{x})=\widehat{问}_{y} (\tau|x_{1},x_{2},\ldots,x_{d})=\widehat{F}^{-1}(\tau|\mathbf{x})$$

使用局部条件分位数估计ξ(τ|x个)=(τ|x个)基于给定随机样本的第个点{(,x个),= 1,…,n个},用于x个=(x个1,x个2,…,x个di(数字))T型.

我们构造了以下直接非参数分位数回归的五步算法:

第1步:估计的条件密度对于给定的x个=(x个1,x个2,,x个d日)使用核密度估计方法(Silverman1986; 斯科特2015):

$$\widehat{f}(y|\mathbf{x}$$
(4)

哪里\(\widehat{f}(y,\mathbf{x})\)是联合密度的估计值x个,\(\widehat{g}(\mathbf{x)}\)是边缘密度的估计值x个.

A类d日-随机样本的维数核密度估计X(X)=(X(X)1,X(X)2,…,X(X)di(数字)),=1,2,…,n个,来自人群x个=(x个1,x个2,,x个d日)接头密度(x个),由给出

$$\widehat{g}(\mathbf{x})=\frac{1}{nh^{d}}\sum\limits_{i=1}^{n} K(K)\左\{\frac{\mathbf{x}-\马特布夫{X}(X)_{i} }{h}\right\}$$

哪里小时>0是带宽和内核函数K(K)(x个)是为定义的函数d日-尺寸x个=(x个1,x个2,…,x个d日)这满足了\(int\limits_{R^{d}}K(\mathbf{x})d\mathbf}x}=1.\)

福奈加(1972)建议使用

$$\widehat{g}(\mathbf{x})=\frac{(\det\mathbf}S})^{-1/2}}{nh^{d}}\sum\limits_{i=1}^{n} k\左\{\frac{(\mathbf{x}-\马特布夫{X}(X)_{i} )^{T}\mathbf{S}^{-1}(\mathbf{x}-\马特布夫{X}(X)_{i} )}{h^{2}}\right\}$$

哪里S公司是数据的样本协方差矩阵,K(K)是正常的内核,函数k个

$$k(u)=\左(\frac{1}{2\pi}\right)^{d/2}\exp\left(-\frac}u}{2}\rift),\四k(\mathbf{x}^{T}\mathbf{x)}=k(\mathbf{x{)=(2\pi)^{-d/2}\exp\left \mathbf{.}$$

插入式带宽选择器小时>0将由(Silverman)提供1986,第85页)作为

$$h_{opt}=\left\{\nint t^{2} K(K)(t) dt\right\}^{-2/(d+2)}\left\{\int K(t)^{2} 日期\右\}^{1/(d+4)}\left\{\int\left(\nabla^{2} 克(\mathbf{x})\右)^{2} d日\mathbf{x}\right\}^{-1/(d+4)}n^{-1-(d/4)}$$
(5)

如果使用多元正态核对具有单位方差的正态分布数据进行平滑,

$$h_{opt}=\left\{\frac{4}{d+2}\right\}^{1/(d+4)}n^{-1/(d+4)}$$

第二步:估计的条件c.d.f给定x个:

$$\widehat{F}(y|\mathbf{x})=\int_{-\infty}^{y}\wideha{F}(y |\mathbf{x{)dy$$

第三步:估计局部条件分位数函数ξ(τ|x个)第页,共页鉴于x个通过倒置估计的条件c.d.f。\(\widehat{F}(y|\mathbf{x})\).

$$\widehat{\xi}(\tau|\mathbf{x})=\wideheat{Q_y}}(\t au|\mathbf{x})=\inf\{y:\wideha t{F}(y|\mathbf{x{)\geq\tau\}=\wide hat{F{^{-1}(.tau|\mathbf{x})$$

很难计算全局反函数\(\widehat{\xi}(\tau | \mathbf{x})\)核估计的条件c.d.f。\(\widehat{F}(y | \mathbf{x})\)它有很多术语。为了避免计算上的全局困难,我们估计了局部条件分位数ξ(τ|x个)第页,共页鉴于x个通过反转\(\widehat{F}(y|\mathbf{x}_{i} )\)第个数据点(,x个):

$$\widehat{\xi_{i}}(\tau|\mathbf{x}_{i} )=\widehat{Q_{y}}(\tau|\mathbf{x}_{i})=\inf\{y:\wideheat{F}(y|\mathbf{x}_{i} )\geq\tau\}=\widehat{F}^{-1}(\tau|\mathbf{x}_{i} ),i=1,2,t,n$$
(6)

因此,我们有n个\(\左(\mathbf{x}_{i} ,\widehat{\xi_{i}}(\tau|\mathbf{x}_{i} )\右),\;i=1,2,\ldot,n.)

第4步:我们提出了一个直接的非参数分位数回归估计τ第条条件分位数曲线x个通过使用Nadaraya Watson(NW)非参数回归估计量(Scott,2015,第242页)\(\左(\mathbf{x}_{i} ,\widehat{\xi_{i}}(\tau|\mathbf{x}_{i} )\右),\;i=1,2,\ldot,n:\)

$$Q_{D}(\tau|\mathbf{x})=\widehat{xi}(\t au|\mathbf{x})=\frac{\sum\limits_{i=1}^{n} K(K)_{\mathbf{h}}\left{\mathbf{x}-\mathbf{X}_{i}\right \}\widehat{xi_{i}}(\tau | \mathbf{x}_{i} )}{\sum\limits_{j=1}^{n} K(K)_{\mathbf{h}}\left\{\mathbf{x}-\马特布夫{X}(X)_{j} \right\}}=\sum\limits_{i=1}^{n} W公司_{h{\mathbf{x}}(\mathbf2{x},\mathbf{X}(X)_{i} \mathbf{)}\widehat{\xi_{i}}(\tau|\mathbf{x}_{i} ),{\quad}0<\tau<1$$
(7)

哪里\(W_{h_{x}}(\mathbf{x},\mathbf{X}(X)_{i} \mathbf{)}\)称为等效内核,并且小时=(小时1,…,小时d日),

$$W_{h_{\mathbf{x}}(\mathbf2{x},\mathbf{X}(X)_{i} \mathbf{)=}\frac{K_{\mathbf{h}}\left\{\mathbf{x}-\马特布夫{X}(X)_{i} \right\}}{\sum\limits_{j=1}^{n} K_{\mathbf{h}}\left\{\mathbf{x}-\马特布夫{X}(X)_{j} \right\}},\quad i=1,2,\ldot,n$$

哪里

$$K_{mathbf{h}}\left\{mathbf{x}-\马特布夫{X}_{i} \right\}=\frac{1}{nh{1}\ldots{h}_{d} }\prod\limits_{j=1}^{d} K(K)\左(frac{x-x{ij}}{h{j}}\右),四元i=1,\ldot,n$$

哪里K(K)是内核函数,并且小时j个>0是的带宽j个第个维度。

新观点(7)它使用第三步(6)数值结果:n个\(\左(\mathbf{x}_{i} ,\widehat{\xi_{i}}(\tau|\mathbf{x}_{i} )\右),\;i=1,2,\ldot,n,\)估计τ基于这些的分位数函数n个点,然后平滑这些点n个指出。

在本文中,对于核回归,我们使用K(K)这是标准的正常内核。与公式类似(5),我们使用最佳带宽j个第个维度(Silverman1986,第40页),

$${}h_{j,opt}\,=\,\left\{\intt^{2} K(K)(t) dt\right\}^{-2/5}\left\{\int K(t)^{2} 日期\right\}^{1/5}\left\{\int\left(\nabla^{2}\widehat{g{j}}(x{j})\right)^{2} d日\马特布夫{x}_{j} \ right \}^{-1/5}n ^{-1/5},\ quad j\,=\,1,\ ldots,d$$
(8)

哪里\(\widehat{g}_{j} (x{j})\)估计是j个第维边缘密度x个j个在里面x个=(x个1,x个2,…,x个d日),n个是随机样本的样本大小(4).

步骤5:检查所有程序,并进行必要的调整。

分位数回归模型的优良率比较

为了比较(3)和中的直接非参数QR估计(7),我们扩展了Koenker和Machado测量薄膜质量的思想(1999). 我们建议使用亲属R(右)(τ), 0<τ<1,定义为

$$相对\text{}R(\tau)=1-\frac{V_{D}(\tao)}{V_}R}(\t au)},\quad-1\leqR(\teau)\leq1,\quad\text{where}$$
(9)
$$V_{D}(\tau)=\sum_{y_{i}\geqQ_{Dneneneep(\tau|\mathbf{x}_{i} )}\frac{\tau}{n}\left\vert y_{i} -问_{D} (\tau|\mathbf{x}_{i} )\right\vert+\sum_{y_{i}<Q_{D}(\tau|\mathbf{x}_{i} )}\frac{(1-\tau)}{n}\left\vert y_{i} -问_{D} (\tau|\mathbf{x}_{i} )\right\vert$$

哪里D类(τ|x个)通过以下方式获得(7) ,

$$V_{R}(\tau)=\sum_{y_{i}\geq\mathbf{x}_{i} ^{T}\widehat{mathbf{beta}}(\tau)}\frac{\tau}{n}\left\vert y_{我}-\马特布夫{x}_{i} ^{T}\widehat{mathbf{beta}}(\tau)\right\vert+\sum_{y_{i}<\mathbf{x}_{i} ^{T}\widehat{mathbf{beta}}(\tau)}\frac{(1-\tau_{我}-\马特布夫{x}_{i} ^{T}\widehat{\mathbf{\beta}}(\tau)\right\vert$$

哪里\(\widehat{\mathbf{\beta}}(\tau)\)由提供(3).

仿真

为了研究中提出的直接非参数分位数回归估计(7),在本节中,将进行蒙特卡罗模拟。我们生成大小随机样本n个每个都来自第二类Gumbel的双变量指数分布甘贝尔(1960)它具有非线性条件分位数函数鉴于x个在里面(11).它有c.d.f。F类(x个,)和密度函数(f)(x个,)英寸(10):

$$F(x,y)=(1-e^{-x})(1-e ^{-y}))(1+\alpha e^{-(x+y)}),\;x\geq 0,\;y\geq 0,\;\α>0$$
(10)
$$f(x,y)=e^{-(x+y)}(1+\alpha(2e^{-x}-1)(2e)^{-y}-1)),\;x\geq 0,\;y\geq 0,\;\alpha>0$$

条件密度对于给定的x个

$$f(y|x)=e^{-y}(1+\alpha(2e^{-x}-1)(2e)^{-y}-1)),\;x\geq 0,\;y\geq 0,\;\alpha>0$$

有条件现金流对于给定的x个

$$F(y|x)=e^{-y}(\alpha(2e^{-x}-1)(1-e^{-y})-1)+1,\;x\geq 0,\;y\geq 0,\;\alpha>0$$

真实的τ的第个条件分位数函数鉴于x个属于(10)

$$\开始{数组}{@{}rcl@{}}\xi(\tau|x)\,=\,Q_{y}^{-x}-1)}{\alpha(2e^{-x}\,-\,1)\,-\\,1\,+\,\sqrt{(\alpha-(2e ^{-x}\,-\,1^{2}-4\α-τ(2e^{-x}-1)}}\右),\\x\geq 0,\;\α>0,\;0<\tau<1.&&\符号\结束{数组}$$
(11)

出租α=1,c.d.f.英寸(10)如图所示1.

图1
图1

Gumbel第二类二元指数分布的c.d.fα=1

我们使用三种分位数回归方法:

1.正则分位数回归R(右)(τ|x个)估计基于(3) 以下为:

$$Q_{R}(\tau|x)=\widehat{beta}_{0}(\t au)+\wideha t{beta}_{1}(.tau)x.\quad 0<\tau<1$$
(12)

2.一阶线性多项式分位数回归(LPQR)有限合伙人(τ|x个)(乔杜里1991,基克2005、Yu和Jones1998),用于z在附近x个,

$$Q_{LP}(\tau|x)=\widehat{一}_{0}(\tau,x)+\widehat{一}_{1} (τ,x)(z-x)。\四元0<τ<1$$
(13)

哪里

在R^{p}}\sum\limits_{i=1}^{n}\rho_{tau}(y)中$$\widehat{\mathbf{a}}(\tau,x)=\arg\min_{\mathbf{\beta}(\t au)_{i} -a个_{0}(\t,x)-a{1}(\tau,x)(x_{i} -x个))K \左(\压裂{x-x_{i}}{h}\右),\四元0<τ<1$$

在这里(τ,x个)=(0(τ,x个),1(τ,x个))T型,小时K(K)是带宽和内核函数。LPQR可以通过R(右)包“quantreg”Koenker(2018).

3.直接非参数分位数回归D类(τ|x个)估计基于(7)

$$Q_{D}(\tau|x)=\sum\limits_{i=1}^{n} W公司_{h{\mathbf{x}}}(\mathbf{x},\mathbf1{x}{i}\mathbf2)}\widehat{xi{i}}$$
(14)

哪里\(\widehat{\xi_{i}}(\tau|x{i})\)通过以下方式获得(6),\(W_{h_{\mathbf{x}}}(\mathbf2{x},\mathbf{X}(X)_{i} \mathbf{)}\)由提供(7).

对于每种方法,我们都会生成大小n个=100,=100个样本。R(右),(τ|x个),L(左)P(P),(τ|x个)和D类,(τ|x个),=1,2,…,,估计在第个样本。α=1英寸(11).然后是真实的τ第个条件分位数是

$${}\xi(\tau|x)=Q_{y}(\tao|x)=ln\左(\frac{2e^{-x}-1}{电子^{-x}-1+\平方{e^{-2x}-\τ(2e^{-x}-1)}}\右),\;x\geq 0,\;\α>0,\;0<τ<1$$
(15)

估计量的模拟均方误差(12),(13)(14)是:

$$开始{数组}{@{}rcl@{}}SMSE(Q_{R}(\tau|x))&=&\frac{1}{m}\sum\limits_{i=1}^{m}\int_{0}^{N}(Q_}R,i}(\t au|x^{2} dx公司; \结束{数组}$$
(16)
$$\begin{array}{@{}rcl@{}}SMSE(Q_{LP}(\tau|x))&=&\frac{1}{m}\sum\limits_{i=1}^{m}\int_{0}^{N}(Q_}LP,i}(\t au|x^{2} dx公司,\结束{数组}$$
(17)
$$开始{数组}{@{}rcl@{}}SMSE(Q_{D}(\tau|x))&=&\frac{1}{m}\sum\limits_{i=1}^{m}\int_{0}^{N}(Q_}D,i}(\t au|x^{2} dx公司,\结束{数组}$$
(18)

其中真实的τ第个条件分位数(τ|x个)定义于(15).N个是有限的x个使c.d.f(10) F类(N个,N个)≈1.我们认为N个=6,模拟效率(SEFF)由下式给出

$$SEFF(Q_{LP}(\tau|x))=\压裂{SMSE(Q__{R}(\t au|x$$

哪里S公司M(M)S公司E类(R(右)(τ|x个)),S公司M(M)S公司E类(有限合伙人(τ|x个))和S公司M(M)S公司E类(D类(τ|x个))定义于(16), (17)(18) ,分别是。

1表明所有S公司E类F类F类(D类(τ|x个))大于1时τ=0.95,…, 0.99.

表1模拟均方误差(SMSE)和估算效率(SEFF)(τ|x个),=100,n个=100,N个=6.

2比较S公司M(M)S公司E类(R(右)(τ|x个)),S公司M(M)S公司E类(有限合伙人(τ|x个))使用S公司M(M)S公司E类(D类(τ|x个))的τ=0.95,…,0.99. 它证明了S公司M(M)S公司E类(D类(τ|x个))值小于两者S公司M(M)S公司E类(有限合伙人(τ|x个))和S公司M(M)S公司E类(R(右)(τ|x个))因此,仿真结果表明,所提出的估计器D类(τ|x个)相对于常规线性估计器效率更高R(右)(τ|x个)和非参数局部多项式估计D类(τ|x个).

图2
图2

S公司M(M)S公司E类(D类(τ))是红色实线,S公司M(M)S公司E类(有限合伙人(τ))是绿色的点划线,S公司M(M)S公司E类(R(右)(τ|x个))是蓝色虚线。b条 S公司E类F类F类(D类(τ|x个))是红色实线,S公司E类F类F类(有限合伙人(τ|x个))是绿色虚线,S公司E类F类F类(R(右)(τ|x个))lect 1为蓝色虚线

接下来,我们比较D类(τ|x个)和R(右)(τ|x个)图4.

图3
图3

的方框图()τ=0.95分位数曲线;(b条)τ=0.97分位数曲线;(c(c))τ=0.99分位数曲线。真正的条件分位数线是蓝色的

图4
图4

n个=100,=100,τ=0.95模拟,真正的分位数-绿色破折号;平均规则QR-蓝色破折号;平均直接QD-red固体

显示了的箱线图R(右)(τ|x个)和D类(τ|x个)的τ=0.95、0.97和0.99。(真正的条件分位数用蓝线表示)。这个D类(τ|x个)方差比R(右)(τ|x个).

4显示了100个估计值的平均曲线τ=0.95分位数曲线R(右)(τ|x个)(蓝色虚线)和D类(τ|x个)(红色固体)。平均值D类(τ|x个)曲线比R(右)(τ|x个)到真正的分位数曲线(绿色虚线)。

从模拟的总体结果来看,我们可以得出以下结论:1和图2,、和4为显示τ=0.95,…,0.99,建议的直接估计量D类(τ|x个)英寸(7)相对于常规回归更有效R(右)(τ|x个)英寸(2)和中的非参数LPQR(13).

应用程序的真实示例

在本节中,我们将以下两个回归模型应用于布法罗降雪和CO2黄和阮的排放示例(2017):

1.正则分位数回归R(右)(τ|x个)在模型中(2)使用刺激器\(\widehat{\beta}(\tau)\)在里面(3);

2.直接非参数分位数回归D类(τ|x个)英寸(7).

5.1水牛城降雪示例

黄和阮(2017)在本例中使用了以下线性二阶多项式分位数回归模型(国家气象局预报办公室2017):

$$Q_{y}(\tau|x)=\β_{0}(\tau)+\β_{1}(\tau)x+\β_{2}(\tau)x^{2}$$

哪里表示总降雪量(厘米)和x个表示最高温度(°C类).

本文在第节中使用了提出的五步算法2获得新的直接非参数分位数估计D类(τ|x个)英寸(7).我们比较了新的估计器D类(τ|x个)使用正则分位数估计器R(右)(τ|x个)在黄和阮(2017). 2和图5显示两个估计值的差异。5a、 b和c显示了日降雪量与最高温度的散点图R(右)、和D类分位数曲线τ=0.95、0.97和0.99。有趣的是D类曲线似乎比R(右)曲线。

图5
图5

以水牛城降雪为例,数据为蓝色,n个=316, ()常规R(右)−破折号;(b条)直接D类−固体;(c(c))两个常规R(右)和直接D类τ=0.95(黑色),τ=0.97(绿色)和τ=0.99(红色)

表2水牛的日降雪量(cm),使用R(右)D类

2列出了给定最高温度下布法罗降雪分位数的估计值τ=0.97和0.99。它证明了当分位数处于高位时τ,的D类给出的降雪预测比R(右)降雪量与最高温度的关系不一定是线性的。

6和表显示相对值R(右)(τ)英寸(9)对于给定的τ=0.95,…,0.99. 我们注意到R(右)(τ)>0表示V(V)D类(τ)<V(V)R(右)(τ)和D类比更适合数据R(右).

图6
图6

相对R(右)τ属于D类相对于R(右)布法罗降雪的例子

表3相对R(右)(τ)水牛城降雪示例的值

5c表明,提出的直接非参数分位数回归D类预测对于中等温度,例如5°C类至10°C类布法罗的降雪量可能比常规降雪量小,但变化较大D类预测。温度超过10°时C类,的D类预计降雪量将比常规降雪量大得多R(右)预测。另一方面,对于非常低的温度,例如−15°C类至0°C类,的D类R(右)两者都预测更有可能出现可能造成破坏的极端大雪。因此,大雪预报与寒冷天气预报有关。但预测降雪与来自D类不是简单的线性关系R(右)预测。我们还注意到,大量降雪发生在-5°之间C类至0°C类; 预测来自D类反映了这一事实,并给出了不同的预测。

5.2一氧化碳2排放示例

Huang和Nguyen(2017)在本例中使用了线性分位数回归模型:

$$Q_{y}(\tau|x_{1},x_{2})=\beta_{0}(\t au)+\beta_2}$$

其中y代表CO2人均排放量(吨),x个1代表人均国内生产总值(GPD)的ln(美元)x个2表示人均用电量ln(E.C.)(千瓦)(二氧化碳信息分析中心(2017)).

类似于小节中的布法罗降雪示例5.1,我们在第节中使用了提出的五步算法2获得新的直接非参数分位数估计D类(τ|x个)英寸(7).我们比较了新的估计器D类(τ|x个)使用正则分位数估计器R(右)(τ|x个)在黄和阮(2017). 数字7,8和表4,5显示两个估计值的差异。7a显示CO的三维散点图2排放量与ln(GDP)和ln(EC)的关系R(右)曲面位于τ=0.97. 7b显示CO的三维散点图2排放量与ln(GDP)和ln(EC)的拟合直接D类曲面位于τ=0.97. 7c显示了3D散点图R(右)(绿色)和直接D类CO的(红色)分位数表面2排放量与ln(GDP)和ln(E.C.)τ=0.97. 有趣的是R(右)D类分位数曲面。

图7
图7

CO的3D绘图2发射,数据-蓝色,n个=123, ()常规R(右)−绿色τ=0.97; (b条)直接D类−红色τ=0.97; (c(c))常规R(右)−绿色和直接D类−图中红色τ=0.97

图8
图8

CO的2D图2发射,数据-蓝色,n个=123, ()常规R(右)(短划线)和直接D类CO(固体)2当该国的E.C.为2980.96千瓦时,排放量与ln(GDP)τ=0.97(绿色)和0.99(红色)。(b条)常规R(右)(破折号)和直接D类CO(固体)2当国家GDP为13359.73美元时,排放与ln(E.C.)τ=0.97(绿色)和0.99(红色)

表4 CO2按(GDP)估算值计算的高分位数的人均排放量R(右)D类
表5 CO2(E.C.)估算值中给出的高分位数的人均排放量R(右)D类

我们可能会看到R(右)D类分位数曲线在二维图中更清晰。8a显示CO的二维散点图2当该国的E.C.为2980.96千瓦时,排放与ln(GDP)之比R(右)和直接D类曲线位于τ=0.97. 8b显示CO的二维散点图2当该国GDP为13359.73美元时,排放量与ln(E.C.)之比R(右)和直接D类曲线位于τ=0.97. 我们注意到R(右)D类分位数回归曲线似乎与数据相符。一般来说D类曲线遵循的数据模式比R(右)分位数行,以及D类产生不同的估计CO2排放量比R(右)估计为高分位数。在图中7,有趣的是D类条件分位数曲面与R(右).

表格45提供各国CO估计高分位数的详细信息2排放τ=0.97,当这些国家消耗2980.96千瓦的电力,国内生产总值分别为13359.73美元时。

9和表6显示相对R(右)(τ)英寸(9),对于τ=0.95,…,0.99. Relative的所有值R(右)(τ)大于0,表示V(V)D类(τ)<V(V)R(右)(τ)它还建议直接分位数回归估计D类更适合CO2排放数据比正则分位数回归估计器R(右).

图9
图9

相对R(右)(τ)第页,共页D类相对于R(右)对于CO2排放示例

表6相对R(右)(τ)CO值2排放示例

总之,有趣的是,所提出的直接估计器D类给出了比R(右)CO上2相对于国内生产总值和发电量的排放量。这些关系不一定是线性的和无模型的。我们预计D类可能更合理。这些预测可能有助于防止CO的进一步损害2排放到环境中。

结论

经过以上研究,我们可以得出以下结论:

1.本文提出了一种新的无模型直接非参数分位数回归方法。它使用非参数密度估计和非参数回归技术来估计高条件分位数。本文提出了一种计算五步算法,克服了线性分位数回归模型和其他一些非参数分位数回归方法中估计的局限性。

2.蒙特卡罗模拟研究了第二类具有非线性条件分位数函数的甘贝尔二元指数分布。在Huang和Nguyen中,模拟不同于具有线性条件分位数函数的二元Pareto分布(2017). 仿真结果表明,相对于正则分位数回归估计量和局部多项式非参数估计量,该方法更有效。

3.提出的新的直接非参数分位数回归可用于预测降雪和CO的极值2黄和阮的排放示例(2017). 提出的直接分位数回归D类估计器给出了各种各样的预测,这些预测与数据非常吻合。关系的预测不仅仅是线性的。我们预计D类可能比常规分位数回归预测更合理。新的估计值可能有助于防止极端事件对人类和环境的进一步损害。

4.提出的直接非参数分位数回归为分位数回归提供了一种替代方法。建议对该方法的细节进行进一步研究。

工具书类

下载参考资料

致谢

我们感谢审稿人和编辑的评论。他们帮助我们改进了论文。这项研究得到了加拿大自然科学与工程研究委员会(NSERC公司)授予MLH,RGPIN-2014-04621。我们非常感谢雷蒙娜·雷特和詹妮·蒂乌为改进论文所做的工作和提出的建议。

作者信息

作者和附属机构

作者

贡献

作者MLH和CN进行了这项工作,并共同起草了手稿。两位作者阅读并批准了最终手稿。

通讯作者

与的通信黄美玲.

道德声明

竞争性利益

作者声明,他们没有相互竞争的利益。

出版商备注

Springer Nature在公布的地图和机构关联中的管辖权主张方面保持中立。

权利和权限

开放式访问本文根据Creative Commons Attribution 4.0 International License的条款分发(http://creativecommons.org/licenses/by/4.0/),它允许在任何媒体上不受限制地使用、分发和复制,前提是您对原始作者和来源给予适当的信任,提供知识共享许可的链接,并指明是否进行了更改。

转载和许可

关于本文

检查更新。通过CrossMark验证货币和真实性

引用这篇文章

Huang,M.L.,Nguyen,C.分位数回归的非参数方法。J Stat Distribute应用程序 5, 3 (2018). https://doi.org/10.1186/s40488-018-0084-9

下载引文

  • 收到:

  • 认可的:

  • 已发布:

  • 内政部:https://doi.org/10.1186/s40488-018-0084-9

关键词

AMS 2010主题分类