A nonparametric approach for quantile regression

Huang, Mei Ling; Nguyen, Christine

doi:10.1186/s40488-018-0084-9

研究
开放式访问
出版：2018年7月18日

分位数回归的非参数方法

统计分布与应用杂志 体积 5，物品编号：三(2018)引用这篇文章

6474访问
4引文
2海拔高度
韵律学细节

摘要

分位数回归估计条件分位数，在现实世界中有着广泛的应用。估计高条件分位数是一个重要问题。正则分位数回归（QR）方法通常设计线性或非线性模型，然后估计系数以获得估计的条件分位数。这种方法可能受到线性模型设置的限制。为了克服这一问题，本文提出了一种具有五步算法的直接非参数分位数回归方法。蒙特卡罗仿真表明，相对于常规QR估计，所提出的直接QR估计具有良好的效率。本文还使用该方法研究了两个实际应用示例。仿真和实例研究表明，所提出的直接非参数分位数回归模型比常规分位数回归方法更适合数据集。

介绍

研究分位数回归对估计实际事件中的高条件分位数非常重要Koenker（2005）一些极端事件可能对社会造成损害：股市崩盘、管道故障、大洪水、野火、污染、地震和飓风。我们希望估计随机变量的高条件分位数年具有累积分布函数（c.d.f.）F类(年)给定一个变量向量，x个=(x个₁,x个₂,…,x个_d日)、和x个_第页=(1,x个₁,x个₂,…,x个_d日)^T型∈R（右）^第页哪里第页=d日+1τ第个条件线性分位数定义为

$$Q_{y}（\tau|\mathbf{x}）=Q_{y}（\tau|x_{1}，x_{2}，\ldots，x{d}）=F^{-1}（\ tau|\ mathbf}），\text{}0<\tau<1$$

(1)

传统的分位数回归涉及到τ的第个条件分位数回归（QR）年对于给定的x个通常将线性模型设置为

$$Q_{y}（\tau|\mathbf{x}）=\mathbf{x}_{p} ^{T}\mathbf{\beta}（\tau）=\beta{0}（\T）+\beta_{1}（-tau）x{1}+\cdots+\beta（\T）x{d}，0<\tau<1$$

(2)

哪里β(τ)=(β₀(τ),β₁(τ),β₂(τ),…,β_d日(τ))^T型.

对于线性模型(2),我们估计系数β(τ)=(β₀(τ),β₁(τ),β₂(τ),…,β_d日(τ))^T型∈R（右）^第页从随机样本中{(年_我,x个_我),我=1,…,n个}，其中x个_圆周率=(1,x个_我1,x个_我2,…,x个_身份证件)^T型是第页-尺寸设计矢量和年_我是具有c.d.f的连续分布的单变量响应变量。F类(年). Koenker和Bassett(1978)提出了一个L（左）₁-获得估计量的加权损失函数\（\widehat{\mathbf{\beta}}（\tau）\）通过求解

$$\widehat{\mathbf{\beta}}（\tau）=\text{arg}\mathop{\text{min}}\limits_{\mathbf{\beta}（\t au）\R在R^{p}}\sum\limits\{i=1}^{n}\rho_{\tau}（y）中_{我}-\马特布夫{x}_{pi}^{T}\mathbf{\beta}（\tau）），\0<\tau<1$$

（3）

哪里ρ_τ是损失函数，即

$$\rho_{\tau}（u）=u（\tau-I（u<0））=\left\{\begin{array}{l}u（\tao-1），u<0；\\u\tau，\u\geq 0。\右端{数组}$$

线性分位数回归问题可以表示为线性规划

$$\mathop{\text{min}}\limits_{（\mathbf{beta}（\tau），\mathbf{u}，\mathbf{v}）\in R^{p}\ times R_{+}^{2n}}\{\tau\mathbv{1}_{n} ^{T}\mathbf{u}+（1-\tau）\mathbf{1}_{n} ^{T}\mathbf{v}|\tathbf{X\beta}（\tau）+\tathbf{u}-\mathbf{v}=\mathbf{y}\}$$

哪里\（\mathbf{1}_{n} ^{T}\）是一个n个-的向量1第页，X（X）表示n个×第页设计矩阵，以及u个,v（v）是n个带有元素的×1向量u个_我,v（v）_我,我=1,…,n个（Koenker，2005）。

近年来，研究正在寻求估计器效率的改进（3）（Yu等人。2003; 王和李2013; Huang等人。2015; 黄和阮2017). 正则线性分位数回归(2)需要估计员\（\widehat{\mathbf{\beta}}（\tau）\）在里面（3）用于估计的条件分位数曲线。但这种估计的条件分位数曲线在模型设置下可能会受到限制。

近年来，许多研究使用了分位数回归的非参数方法，例如Chaudhuri(2003)、Yu和Jones(1991)，Hall等人(1999)和Yu等人(2003). Keoker第7章(2005)提出了局部多项式分位数回归（LPQR）等方法。我们还可以在Li和Racine中看到关于理论、方法和应用的详细讨论(2007)和蔡(2013).

为了克服模型设置的局限性(2)本文利用非参数核密度估计和非参数核回归的思想，提出了一种直接的非参数分位数回归方法。该方法不仅不同于现有的大多数非参数分位数回归方法，而且克服了分位数曲线估计的交叉问题。我们希望看到新方法相对于常规线性分位数回归和其他非参数分位数回归方法是否有改进，我们将在本文中进行两项研究：

1.将进行蒙特卡罗模拟，以确认新的直接QR估计相对于常规QR估计和非参数LPQR具有更好的效率。

2.新提出的方法将应用于两个真实世界的极端事件示例，并与Huang和Nguyen（2017）中的线性模型进行比较。

在节中2，我们提出了一种直接的非参数分位数回归估计。第节中给出了分位数模型的质量比较的相对度量三.在第节中4Gumbel第二类二元指数分布生成的Monte Carlo模拟结果甘贝尔（1960）与现有的线性QR和LPQR方法相比，该直接方法具有较高的效率。在节中5，将正则线性分位数回归和提出的直接分位数回归应用于两个实际例子：布法罗降雪和CO₂黄和阮的排放示例(2017). 这些实例的研究表明，所提出的直接非参数分位数回归模型比现有的线性分位数回归方法更适合数据。

建议的直接非参数分位数回归

在本文中，为了一般性，我们忽略了线性模型的思想(2).我们获得了中真条件分位数的直接估计(1):

$$\widehat美元{问}_{y} （\tau|\mathbf{x}）=\widehat{问}_{y} （\tau|x_｛1｝，x_｛2｝，\ldots，x_｛d｝）=\widehat｛F｝^｛-1｝（\tau|\mathbf｛x｝）$$

使用局部条件分位数估计ξ_我(τ|x个_我)=问_年(τ|x个_我)基于我给定随机样本的第个点{(年_我,x个_我),我= 1,…,n个}，用于x个_我=(x个_1我,x个_2我,…,x个_{di（数字）})^T型.

我们构造了以下直接非参数分位数回归的五步算法：

第1步：估计的条件密度年对于给定的x个=(x个₁,x个₂,…,x个_d日)使用核密度估计方法（Silverman1986; 斯科特2015):

$$\widehat{f}（y|\mathbf{x}$$

(4)

哪里\（\widehat{f}（y，\mathbf{x}）\）是联合密度的估计值年和x个,和\（\widehat{g}（\mathbf{x）}\）是边缘密度的估计值x个.

A类d日-随机样本的维数核密度估计X（X）_我=(X（X）_1我,X（X）_2我,…,X（X）_{di（数字）}),我=1,2,…,n个，来自人群x个=(x个₁,x个₂,…,x个_d日)接头密度克(x个)，由给出

$$\widehat{g}（\mathbf{x}）=\frac{1}{nh^{d}}\sum\limits_{i=1}^{n} K（K）\左\{\frac{\mathbf{x}-\马特布夫{X}（X）_{i} }{h}\right\}$$

哪里小时>0是带宽和内核函数K（K）(x个)是为定义的函数d日-尺寸x个=(x个₁,x个₂,…,x个_d日)这满足了\（int\limits_{R^{d}}K（\mathbf{x}）d\mathbf}x}=1.\）

福奈加(1972)建议使用

$$\widehat{g}（\mathbf{x}）=\frac{（\det\mathbf}S}）^{-1/2}}{nh^{d}}\sum\limits_{i=1}^{n} k\左\{\frac{（\mathbf｛x｝-\马特布夫{X}（X）_{i} ）^{T}\mathbf{S}^{-1}（\mathbf{x}-\马特布夫{X}（X）_{i} ）}{h^{2}}\right\}$$

哪里S公司是数据的样本协方差矩阵，K（K）是正常的内核，函数k个是

$$k（u）=\左（\frac{1}{2\pi}\right）^{d/2}\exp\left（-\frac}u}{2}\rift），\四k（\mathbf{x}^{T}\mathbf{x）}=k（\mathbf{x{）=（2\pi）^{-d/2}\exp\left \mathbf{.}$$

插入式带宽选择器小时>0将由（Silverman）提供1986，第85页）作为

$$h_{opt}=\left\{\nint t^{2} K（K）（t） dt\right\}^{-2/（d+2）}\left\{\int K（t）^{2} 日期\右\}^{1/（d+4）}\left\{\int\left（\nabla^{2} 克（\mathbf{x}）\右）^{2} d日\mathbf{x}\right\}^{-1/（d+4）}n^{-1-（d/4）}$$

（5）

如果使用多元正态核对具有单位方差的正态分布数据进行平滑，

$$h_{opt}=\left\{\frac{4}{d+2}\right\}^{1/（d+4）}n^{-1/（d+4）}$$

第二步：估计的条件c.d.f年给定x个:

$$\widehat{F}（y|\mathbf{x}）=\int_{-\infty}^{y}\wideha{F}（y |\mathbf{x{）dy$$

第三步：估计局部条件分位数函数ξ(τ|x个)第页，共页年鉴于x个通过倒置估计的条件c.d.f。\（\widehat{F}（y|\mathbf{x}）\）.

$$\widehat{\xi}（\tau|\mathbf{x}）=\wideheat{Q_y}}（\t au|\mathbf{x}）=\inf\{y:\wideha t{F}（y|\mathbf{x{）\geq\tau\}=\wide hat{F{^{-1}（.tau|\mathbf{x}）$$

很难计算全局反函数\（\widehat｛\xi｝（\tau | \mathbf｛x｝）\）核估计的条件c.d.f。\（\widehat｛F｝（y | \mathbf｛x｝）\）它有很多术语。为了避免计算上的全局困难，我们估计了局部条件分位数ξ_我(τ|x个_我)第页，共页年鉴于x个_我通过反转\（\widehat{F}（y|\mathbf{x}_{i} ）\）在我第个数据点(年_我,x个_我):

$$\widehat{\xi_{i}}（\tau|\mathbf{x}_{i} ）=\widehat{Q_{y}}（\tau|\mathbf{x}_{i}）=\inf\{y:\wideheat{F}（y|\mathbf{x}_{i} ）\geq\tau\}=\widehat{F}^{-1}（\tau|\mathbf{x}_{i} ），i=1,2，t，n$$

(6)

因此，我们有n个点\（\左（\mathbf{x}_{i} ，\widehat{\xi_{i}}（\tau|\mathbf{x}_{i} ）\右），\；i=1,2，\ldot，n.）

第4步：我们提出了一个直接的非参数分位数回归估计τ第条条件分位数曲线x个通过使用Nadaraya Watson（NW）非参数回归估计量（Scott，2015，第242页）\（\左（\mathbf{x}_{i} ，\widehat{\xi_{i}}（\tau|\mathbf{x}_{i} ）\右），\；i=1,2，\ldot，n:\）

$$Q_{D}（\tau|\mathbf{x}）=\widehat{xi}（\t au|\mathbf{x}）=\frac{\sum\limits_{i=1}^{n} K（K）_｛\mathbf｛h｝｝\left｛\mathbf{x}-\mathbf｛X｝_｛i｝\right \｝\widehat｛xi_｛i｝｝（\tau | \mathbf{x}_{i} ）}{\sum\limits_{j=1}^{n} K（K）_{\mathbf{h}}\left\{\mathbf{x}-\马特布夫{X}（X）_{j} \right\}}=\sum\limits_{i=1}^{n} W公司_{h{\mathbf{x}}（\mathbf2{x}，\mathbf{X}（X）_{i} \mathbf{）}\widehat{\xi_{i}}（\tau|\mathbf{x}_{i} ），{\quad}0<\tau<1$$

(7)

哪里\（W_{h_{x}}（\mathbf{x}，\mathbf{X}（X）_{i} \mathbf{）}\）称为等效内核，并且小时=(小时₁,…,小时_d日),

$$W_{h_{\mathbf{x}}（\mathbf2{x}，\mathbf{X}（X）_{i} \mathbf{）=}\frac{K_{\mathbf{h}}\left\{\mathbf{x}-\马特布夫{X}（X）_{i} \right\}}{\sum\limits_{j=1}^{n} K_{\mathbf{h}}\left\{\mathbf{x}-\马特布夫{X}（X）_{j} \right\}}，\quad i=1,2，\ldot，n$$

哪里

$$K_{mathbf{h}}\left\{mathbf{x}-\马特布夫｛X｝_{i} \right\}=\frac{1}{nh{1}\ldots｛h｝_{d} }\prod\limits_{j=1}^{d} K（K）\左（frac{x-x{ij}}{h{j}}\右），四元i=1，\ldot，n$$

哪里K（K）是内核函数，并且小时_j个>0是的带宽j个第个维度。

新观点(7)它使用第三步(6)数值结果：n个点\（\左（\mathbf{x}_{i} ，\widehat{\xi_{i}}（\tau|\mathbf{x}_{i} ）\右），\；i=1,2，\ldot，n，\）估计τ基于这些的分位数函数n个点，然后平滑这些点n个指出。

在本文中，对于核回归，我们使用K（K）这是标准的正常内核。与公式类似（5），我们使用最佳带宽j个第个维度（Silverman1986，第40页），

$${}h_{j，opt}\，=\，\left\{\intt^{2} K（K）（t） dt\right\}^{-2/5}\left\{\int K（t）^{2} 日期\right\}^{1/5}\left\{\int\left（\nabla^{2}\widehat{g{j}}（x{j}）\right）^{2} d日\马特布夫{x}_{j} \ right \｝^｛-1/5｝n ^｛-1/5｝，\ quad j\，=\，1，\ ldots，d$$

(8)

哪里\（\widehat｛g｝_{j} （x{j}）\）估计是j个第维边缘密度x个_j个在里面x个=(x个₁,x个₂,…,x个_d日),n个是随机样本的样本大小(4).

步骤5：检查所有程序，并进行必要的调整。

分位数回归模型的优良率比较

为了比较（3）和中的直接非参数QR估计(7),我们扩展了Koenker和Machado测量薄膜质量的思想(1999). 我们建议使用亲属R（右）(τ), 0<τ<1，定义为

$$相对\text{}R（\tau）=1-\frac{V_{D}（\tao）}{V_}R}（\t au）}，\quad-1\leqR（\teau）\leq1，\quad\text{where}$$

(9)

$$V_{D}（\tau）=\sum_{y_{i}\geqQ_{Dneneneep（\tau|\mathbf{x}_{i} ）}\frac{\tau}{n}\left\vert y_{i} -问_{D} （\tau|\mathbf{x}_{i} ）\right\vert+\sum_｛y_｛i｝＜Q_｛D｝（\tau|\mathbf{x}_{i} ）}\frac{（1-\tau）}{n}\left\vert y_{i} -问_{D} （\tau|\mathbf{x}_{i} ）\right\vert$$

哪里问_D类(τ|x个_我)通过以下方式获得（7），和

$$V_{R}（\tau）=\sum_{y_{i}\geq\mathbf｛x｝_{i} ^{T}\widehat{mathbf{beta}}（\tau）}\frac{\tau}{n}\left\vert y_{我}-\马特布夫{x}_{i} ^{T}\widehat{mathbf{beta}}（\tau）\right\vert+\sum_{y_{i}<\mathbf{x}_{i} ^{T}\widehat{mathbf{beta}}（\tau）}\frac{（1-\tau_{我}-\马特布夫{x}_{i} ^{T}\widehat{\mathbf{\beta}}（\tau）\right\vert$$

哪里\（\widehat{\mathbf{\beta}}（\tau）\）由提供(3).

仿真

为了研究中提出的直接非参数分位数回归估计(7),在本节中，将进行蒙特卡罗模拟。我们生成米大小随机样本n个每个都来自第二类Gumbel的双变量指数分布甘贝尔（1960）它具有非线性条件分位数函数年鉴于x个在里面(11).它有c.d.f。F类(x个,年)和密度函数（f）(x个,年)英寸(10):

$$F（x，y）=（1-e^{-x}）（1-e ^{-y}））（1+\alpha e^{-（x+y）}），\；x\geq 0，\；y\geq 0，\；\α>0$$

(10)

$$f（x，y）=e^{-（x+y）}（1+\alpha（2e^{-x}-1)（2e）^{-y}-1)),\;x\geq 0，\；y\geq 0，\；\alpha>0$$

条件密度年对于给定的x个是

$$f（y|x）=e^{-y}（1+\alpha（2e^{-x}-1)（2e）^{-y}-1)),\;x\geq 0，\；y\geq 0，\；\alpha>0$$

有条件现金流年对于给定的x个是

$$F（y|x）=e^{-y}（\alpha（2e^{-x}-1)（1-e^{-y}）-1）+1，\；x\geq 0，\；y\geq 0，\；\alpha>0$$

真实的τ的第个条件分位数函数年鉴于x个属于(10)是

$$\开始{数组}{@{}rcl@{}}\xi（\tau|x）\，=\，Q_{y}^{-x}-1)}{\alpha（2e^{-x}\，-\，1）\，-\\，1\，+\，\sqrt{（\alpha-（2e ^{-x}\，-\，1^{2}-4\α-τ（2e^{-x}-1)}}\右），\\x\geq 0，\；\α>0，\；0<\tau<1.&&\符号\结束{数组}$$

(11)

出租α=1，c.d.f.英寸(10)如图所示1.

我们使用三种分位数回归方法：

1.正则分位数回归问_R（右）(τ|x个)估计基于（3）以下为：

$$Q_{R}（\tau|x）=\widehat{beta}_{0}（\t au）+\wideha t{beta}_{1}（.tau）x.\quad 0<\tau<1$$

(12)

2.一阶线性多项式分位数回归（LPQR）问_{有限合伙人}(τ|x个)（乔杜里1991，基克2005、Yu和Jones1998)，用于z在附近x个,

$$Q_{LP}（\tau|x）=\widehat{一}_{0}（\tau，x）+\widehat{一}_{1} （τ，x）（z-x）。\四元0<τ<1$$

（13）

哪里

在R^{p}}\sum\limits_{i=1}^{n}\rho_{tau}（y）中$$\widehat{\mathbf{a}}（\tau，x）=\arg\min_{\mathbf{\beta}（\t au）_{i} -a个_{0}（\t，x）-a{1}（\tau，x）（x_{i} -x个))K \左（\压裂{x-x_{i}}{h}\右），\四元0<τ<1$$

在这里一(τ,x个)=(一₀(τ,x个),一₁(τ,x个))^T型,小时和K（K）是带宽和内核函数。LPQR可以通过R（右）包“quantreg”Koenker（2018）.

3.直接非参数分位数回归问_D类(τ|x个)估计基于(7)

$$Q_{D}（\tau|x）=\sum\limits_{i=1}^{n} W公司_{h{\mathbf{x}}}（\mathbf{x}，\mathbf1{x}{i}\mathbf2）}\widehat{xi{i}}$$

(14)

哪里\（\widehat{\xi_{i}}（\tau|x{i}）\）通过以下方式获得(6),\（W_{h_{\mathbf{x}}}（\mathbf2{x}，\mathbf{X}（X）_{i} \mathbf{）}\）由提供(7).

对于每种方法，我们都会生成大小n个=100,米=100个样本。问_{R（右）,我}(τ|x个),问_{L（左）P（P）,我}(τ|x个)和问_D类,我(τ|x个),我=1,2,…,米，估计在我第个样本。让α=1英寸(11).然后是真实的τ第个条件分位数是

$${}\xi（\tau|x）=Q_{y}（\tao|x）=ln\左（\frac{2e^｛-x｝-1}{电子^{-x}-1+\平方{e^{-2x}-\τ（2e^{-x}-1)}}\右），\；x\geq 0，\；\α>0，\；0<τ<1$$

(15)

估计量的模拟均方误差(12),（13）和(14)是：

$$开始{数组}{@{}rcl@{}}SMSE（Q_{R}（\tau|x））&=&\frac{1}{m}\sum\limits_{i=1}^{m}\int_{0}^{N}（Q_}R，i}（\t au|x^{2} dx公司; \结束{数组}$$

(16)

$$\begin{array}{@{}rcl@{}}SMSE（Q_{LP}（\tau|x））&=&\frac{1}{m}\sum\limits_{i=1}^{m}\int_{0}^{N}（Q_}LP，i}（\t au|x^{2} dx公司，\结束{数组}$$

(17)

$$开始{数组}{@{}rcl@{}}SMSE（Q_{D}（\tau|x））&=&\frac{1}{m}\sum\limits_{i=1}^{m}\int_{0}^{N}（Q_}D，i}（\t au|x^{2} dx公司，\结束{数组}$$

(18)

其中真实的τ第个条件分位数问_年(τ|x个)定义于(15).N个是有限的x个使c.d.f(10) F类(N个,N个)≈1.我们认为N个=6，模拟效率（SEFF）由下式给出

$$SEFF（Q_{LP}（\tau|x））=\压裂{SMSE（Q__{R}（\t au|x$$

哪里S公司M（M）S公司E类(问_R（右）(τ|x个)),S公司M（M）S公司E类(问_{有限合伙人}(τ|x个))和S公司M（M）S公司E类(问_D类(τ|x个))定义于(16), (17)和（18），分别是。

表1表明所有S公司E类F类F类(问_D类(τ|x个))大于1时τ=0.95,…, 0.99.

表1模拟均方误差（SMSE）和估算效率（SEFF）问_年(τ|x个),米=100,n个＝100，N个=6.

全尺寸桌子

图2比较S公司M（M）S公司E类(问_R（右）(τ|x个)),S公司M（M）S公司E类(问_{有限合伙人}(τ|x个))使用S公司M（M）S公司E类(问_D类(τ|x个))的τ=0.95,…,0.99. 它证明了S公司M（M）S公司E类(问_D类(τ|x个))值小于两者S公司M（M）S公司E类(问_{有限合伙人}(τ|x个))和S公司M（M）S公司E类(问_R（右）(τ|x个))因此，仿真结果表明，所提出的估计器问_D类(τ|x个)相对于常规线性估计器效率更高问_R（右）(τ|x个)和非参数局部多项式估计问_D类(τ|x个).

接下来，我们比较问_D类(τ|x个)和问_R（右）(τ|x个)图三和4.

图三显示了的箱线图问_R（右）(τ|x个)和问_D类(τ|x个)的τ=0.95、0.97和0.99。（真正的条件分位数用蓝线表示）。这个问_D类(τ|x个)方差比问_R（右）(τ|x个)秒.

图4显示了100个估计值的平均曲线τ=0.95分位数曲线问_R（右）(τ|x个)（蓝色虚线）和问_D类(τ|x个)（红色固体）。平均值问_D类(τ|x个)曲线比问_R（右）(τ|x个)到真正的分位数曲线（绿色虚线）。

从模拟的总体结果来看，我们可以得出以下结论：1和图2,三、和4为显示τ=0.95，…，0.99，建议的直接估计量问_D类(τ|x个)英寸(7)相对于常规回归更有效问_R（右）(τ|x个)英寸(2)和中的非参数LPQR(13).

应用程序的真实示例

在本节中，我们将以下两个回归模型应用于布法罗降雪和CO₂黄和阮的排放示例(2017):

1.正则分位数回归问_R（右）(τ|x个)在模型中(2)使用刺激器\（\widehat{\beta}（\tau）\）在里面（3）;

2.直接非参数分位数回归问_D类(τ|x个)英寸(7).

5.1水牛城降雪示例

黄和阮(2017)在本例中使用了以下线性二阶多项式分位数回归模型（国家气象局预报办公室2017):

$$Q_｛y｝（\tau|x）=\β_｛0｝（\tau）+\β_｛1｝（\tau）x+\β_｛2｝（\tau）x^｛2｝$$

哪里年表示总降雪量(厘米)和x个表示最高温度（°C类).

本文在第节中使用了提出的五步算法2获得新的直接非参数分位数估计问_D类(τ|x个)英寸(7).我们比较了新的估计器问_D类(τ|x个)使用正则分位数估计器问_R（右）(τ|x个)在黄和阮(2017). 表2和图5显示两个估计值的差异。图5a、 b和c显示了日降雪量与最高温度的散点图问_R（右）、和问_D类分位数曲线τ=0.95、0.97和0.99。有趣的是问_D类曲线似乎比问_R（右）曲线。

表2水牛的日降雪量（cm），使用问_R（右）和问_D类

全尺寸桌子

表2列出了给定最高温度下布法罗降雪分位数的估计值τ=0.97和0.99。它证明了当分位数处于高位时τ，的问_D类给出的降雪预测比问_R（右）降雪量与最高温度的关系不一定是线性的。

图6和表三显示相对值R（右）(τ)英寸(9)对于给定的τ=0.95,…,0.99. 我们注意到R（右）(τ)>0表示V（V）_D类(τ)<V（V）_R（右）(τ)和问_D类比更适合数据问_R（右）.

表3相对R（右）(τ)水牛城降雪示例的值

全尺寸桌子

图5c表明，提出的直接非参数分位数回归问_D类预测对于中等温度，例如5°C类至10°C类布法罗的降雪量可能比常规降雪量小，但变化较大问_D类预测。温度超过10°时C类，的问_D类预计降雪量将比常规降雪量大得多问_R（右）预测。另一方面，对于非常低的温度，例如− 15°C类至0°C类，的问_D类和问_R（右）两者都预测更有可能出现可能造成破坏的极端大雪。因此，大雪预报与寒冷天气预报有关。但预测降雪与来自问_D类不是简单的线性关系问_R（右）预测。我们还注意到，大量降雪发生在-5°之间C类至0°C类; 预测来自问_D类反映了这一事实，并给出了不同的预测。

5.2一氧化碳₂排放示例

Huang和Nguyen（2017）在本例中使用了线性分位数回归模型：

$$Q_{y}（\tau|x_{1}，x_{2}）=\beta_{0}（\t au）+\beta_2}$$

其中y代表CO₂人均排放量（吨），x个₁代表人均国内生产总值（GPD）的ln（美元）x个₂表示人均用电量ln（E.C.）（千瓦）（二氧化碳信息分析中心(2017)).

类似于小节中的布法罗降雪示例5.1，我们在第节中使用了提出的五步算法2获得新的直接非参数分位数估计问_D类(τ|x个)英寸(7).我们比较了新的估计器问_D类(τ|x个)使用正则分位数估计器问_R（右）(τ|x个)在黄和阮(2017). 数字7,8和表4,5显示两个估计值的差异。图7a显示CO的三维散点图₂排放量与ln（GDP）和ln（EC）的关系问_R（右）曲面位于τ=0.97. 图7b显示CO的三维散点图₂排放量与ln（GDP）和ln（EC）的拟合直接问_D类曲面位于τ=0.97. 图7c显示了3D散点图问_R（右）（绿色）和直接问_D类CO的（红色）分位数表面₂排放量与ln（GDP）和ln（E.C.）τ=0.97. 有趣的是问_R（右）和问_D类分位数曲面。

表4 CO₂按（GDP）估算值计算的高分位数的人均排放量问_R（右）和问_D类

全尺寸桌子

表5 CO₂（E.C.）估算值中给出的高分位数的人均排放量问_R（右）和问_D类

全尺寸桌子

我们可能会看到问_R（右）和问_D类分位数曲线在二维图中更清晰。图8a显示CO的二维散点图₂当该国的E.C.为2980.96千瓦时，排放与ln（GDP）之比问_R（右）和直接问_D类曲线位于τ=0.97. 图8b显示CO的二维散点图₂当该国GDP为13359.73美元时，排放量与ln（E.C.）之比问_R（右）和直接问_D类曲线位于τ=0.97. 我们注意到问_R（右）和问_D类分位数回归曲线似乎与数据相符。一般来说问_D类曲线遵循的数据模式比问_R（右）分位数行，以及问_D类产生不同的估计CO₂排放量比问_R（右）估计为高分位数。在图中7，有趣的是问_D类条件分位数曲面与问_R（右）.

表格4和5提供各国CO估计高分位数的详细信息₂排放τ=0.97，当这些国家消耗2980.96千瓦的电力，国内生产总值分别为13359.73美元时。

图9和表6显示相对R（右）(τ)英寸(9),对于τ=0.95,…,0.99. Relative的所有值R（右）(τ)大于0，表示V（V）_D类(τ)<V（V）_R（右）(τ)它还建议直接分位数回归估计问_D类更适合CO₂排放数据比正则分位数回归估计器问_R（右）.

表6相对R（右）(τ)CO值₂排放示例

全尺寸桌子

总之，有趣的是，所提出的直接估计器问_D类给出了比问_R（右）CO上₂相对于国内生产总值和发电量的排放量。这些关系不一定是线性的和无模型的。我们预计问_D类可能更合理。这些预测可能有助于防止CO的进一步损害₂排放到环境中。

结论

经过以上研究，我们可以得出以下结论：

1.本文提出了一种新的无模型直接非参数分位数回归方法。它使用非参数密度估计和非参数回归技术来估计高条件分位数。本文提出了一种计算五步算法，克服了线性分位数回归模型和其他一些非参数分位数回归方法中估计的局限性。

2.蒙特卡罗模拟研究了第二类具有非线性条件分位数函数的甘贝尔二元指数分布。在Huang和Nguyen中，模拟不同于具有线性条件分位数函数的二元Pareto分布(2017). 仿真结果表明，相对于正则分位数回归估计量和局部多项式非参数估计量，该方法更有效。

3.提出的新的直接非参数分位数回归可用于预测降雪和CO的极值₂黄和阮的排放示例(2017). 提出的直接分位数回归问_D类估计器给出了各种各样的预测，这些预测与数据非常吻合。关系的预测不仅仅是线性的。我们预计问_D类可能比常规分位数回归预测更合理。新的估计值可能有助于防止极端事件对人类和环境的进一步损害。

4.提出的直接非参数分位数回归为分位数回归提供了一种替代方法。建议对该方法的细节进行进一步研究。

工具书类

二氧化碳信息分析中心（2017）。网址：http://www.cdiac.ornl.gov。2014年10月20日访问。
蔡，Z：应用非参数计量经济学。厦门大学王亚南经济研究所，中国（2013）。
谷歌学者
Chaudhuri，P：回归分位数的非参数估计及其局部Bahadur表示。Ann.Stat.2，760–777（1991年）。
第条数学科学网数学谷歌学者
Fukunaga，K：统计模式识别简介。纽约学术出版社（1972年）。
数学谷歌学者
冈贝尔，EJ：双变量指数分布。《美国统计协会期刊》第55卷，第698–707页（1960年）。
第条数学科学网数学谷歌学者
霍尔，P，沃尔夫，RCL，姚，Q：估计条件分布的方法。《美国统计协会期刊》94，154-163（1999）。
第条数学科学网数学谷歌学者
Huang，ML，Nguyen，C：极端事件的高分位数回归。J.Stat.分销申请。4（4），1-20（2017）。
数学谷歌学者
Huang，ML，Xu，X，Tashnev，D：加权线性分位数回归。J.Stat.计算。模拟。85(13), 2596–2618 (2015).
第条数学科学网谷歌学者
Koenker，R：分位数回归。剑桥大学出版社，纽约（2005年）。
书数学谷歌学者
Koenker，R.包《关特雷格：分位数回归》（2018）。R包，5.35版（可从https://www.r-project.org). 2018年4月23日访问。
Koenker，R，Bassett，GW:回归分位数。经济计量学。46, 33–50 (1978).
第条数学科学网数学谷歌学者
Koenker，R，Machado，JAF：分位数回归的拟合优度和相关推理过程。《美国统计协会期刊》96（454），1296-1311（1999）。
第条数学科学网数学谷歌学者
Li，Q，Racine，JS:非参数计量经济学理论与实践。普林斯顿大学出版社，牛津（2007年）。
数学谷歌学者
国家气象局预报办公室（2017年）。网址：www.weather.gov/buf。2014年9月22日查阅。
Scott，DW:多元密度估计，理论，实践和可视化，第二版。John Wiley&Sons，纽约（2015）。
数学谷歌学者
Silverman，BW：统计和数据分析的密度估计。查普曼和霍尔，伦敦（1986年）。
书数学谷歌学者
Wang，HJ，Li，D：通过幂变换估计极端条件分位数。《美国统计协会期刊》108（503），1062-1074（2013）。
第条数学科学网数学谷歌学者
Yu，K，Lu，Z，Stander，J：分位数回归：应用和当前研究领域。统计员。52(3), 331–350 (2003).
数学科学网谷歌学者
Yu，K，Jones，MC：局部线性回归分位数回归。《美国法律总汇汇编》第93228-238页（1998年）。
第条数学科学网数学谷歌学者

下载参考资料

致谢

我们感谢审稿人和编辑的评论。他们帮助我们改进了论文。这项研究得到了加拿大自然科学与工程研究委员会(NSERC公司)授予MLH，RGPIN-2014-04621。我们非常感谢雷蒙娜·雷特和詹妮·蒂乌为改进论文所做的工作和提出的建议。

作者信息

作者和附属机构

加拿大安大略省圣凯瑟琳斯布罗克大学数学与统计系，L2S 3A1
黄美玲
加拿大安大略省M9L 1T9多伦多Apotex公司
克里斯汀·阮

作者

黄美玲
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
克里斯汀·阮
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者

贡献

作者MLH和CN进行了这项工作，并共同起草了手稿。两位作者阅读并批准了最终手稿。

通讯作者

与的通信黄美玲.

道德声明

竞争性利益

作者声明，他们没有相互竞争的利益。

出版商备注

Springer Nature在公布的地图和机构关联中的管辖权主张方面保持中立。

权利和权限

开放式访问本文根据Creative Commons Attribution 4.0 International License的条款分发(http://creativecommons.org/licenses/by/4.0/)，它允许在任何媒体上不受限制地使用、分发和复制，前提是您对原始作者和来源给予适当的信任，提供知识共享许可的链接，并指明是否进行了更改。

转载和许可

关于本文

引用这篇文章

Huang，M.L.，Nguyen，C.分位数回归的非参数方法。J Stat Distribute应用程序 5, 3 (2018). https://doi.org/10.1186/s40488-018-0084-9

下载引文

收到:2017年9月12日
认可的:2018年5月31日
已发布:2018年7月18日
内政部:https://doi.org/10.1186/s40488-018-0084-9

关键词

AMS 2010主题分类

一次：62G32；二级：62J05

分位数回归的非参数方法

摘要

介绍

建议的直接非参数分位数回归

分位数回归模型的优良率比较

仿真

应用程序的真实示例

5.1水牛城降雪示例

5.2一氧化碳2排放示例

结论

工具书类

致谢

作者信息

作者和附属机构

贡献

通讯作者

道德声明

竞争性利益

出版商备注

权利和权限

关于本文

引用这篇文章

分享这篇文章

关键词

AMS 2010主题分类

5.2一氧化碳₂排放示例