跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
J应用统计。2022; 49(15): 3804–3822.
2021年8月17日在线发布。 数字对象标识:2010年10月80日/02664763.2021.1965966
预防性维修识别码:PMC9621269型
PMID:36324488

密度比模型下随机优势松弛指数的统计推断

威威庄, 李亚东,b条邱国欣a、,c(c)

摘要

随机优势度通常用于通过比较随机变量的分布来对其进行排序,因此在经济学和金融学中得到了广泛的应用。在实际应用中,完全随机优势度要求太高,难以满足,因此随机优势度的松弛指标受到了更多的关注。这个π指数是两种分布之间最大的差距,可以用来衡量偏离完全优势的程度。传统的估计方法是使用经验分布函数进行估计。考虑到被比较的种群通常具有相同的性质,我们可以在一定条件下通过密度比模型将种群联系起来。基于此模型,我们提出了一种新的估计量,并建立了其统计推断理论。仿真结果表明,该估计器大大提高了测试的估计效率和功率,覆盖概率与测试的置信水平相匹配,表明了该估计员的优越性。最后,我们将我们的方法应用于中国家庭收入的一个实际例子。

关键词:Bootstrap检验、密度比模型、经验似然、随机优势
数学学科分类(2010)62E20、60E15、90C15

1介绍

在应用统计学中,我们经常对两个种群之间的优势关系感兴趣。例如,在经济学中,两个社会人口群体的收入分配是比较的对象。不同阶次的随机优势度(SD)是累积分布函数(CDF)之间的偏阶。特别是单变量分布G公司支配分布F类如果全部x个,G公司(x个)F类(x个)这种关系意味着人口中的成员比例较高G公司具有以上值x个为所有人x个。也就是说,由G公司当优势关系保持时,无可争议地优越(见图1).

保存图片、插图等的外部文件。对象名称为CJAS_A_1965966_F0001_c.jpg

的情节G公司占主导地位F类.

统计和计量经济学期刊上有许多文献涉及与完全随机优势相关的测试问题[11,13,19,28]. 然而,正如伯杰已经指出的那样[6]戴维森和杜克洛斯[12]和阿尔·瓦雷斯-埃斯特班等人[1],在应用程序中完全支配可能很少见,因此很难使用。分布尾部的微小偏差可能导致完全随机优势失效,在这种情况下,存在近似的随机优势关系(见图2).

保存图片、插图等的外部文件。对象名称为CJAS_A_1965966_F0002_OC.jpg

的情节G公司大约占主导地位F类.

为了解决上述问题,主要有两条途径:一是从假设检验的角度。考虑到持续测试的不可行性G公司(x个)F类(x个)为所有人x个、伯杰[6]提出了限制随机优势(RSD)的概念,其中“限制”意味着测试G公司(x个)F类(x个)不包括抽样分布的尾部。因此,介绍了如何限制测试间隔的问题。有很多关于限制随机优势的文章[7,9,12,16,21]. 另一种方法是测量偏离随机优势的程度。莱西诺和利维[17]提出了几乎随机优势(ASD)的概念,通过定义ASD指数来衡量这种偏差

α(F类,G公司)={G公司>F类}G公司(x个)F类(x个)d日x个|F类(x个)G公司(x个)|d日x个,

哪里α(F类,G公司)实际上是非主导面积在总封闭面积中的比例F类G公司.ali lvarez-Esteban公司等。 [2]建议γ衡量距离的索引F类G公司都来自随机顺序。这个γ索引度量不包含的集合的长度,定义如下:

γ(F类,G公司)=(0,1):F类1()>G公司1(),

哪里代表勒贝格量度。庄等人[29]提出了一个半参数估计γ基于密度比模型(DRM)的索引,并开发了相应的推理方法。他们的仿真结果表明,半参数估计器可以显著提高估计效率和测试功率。

实际上,在γ该指数由ala-lvarez-Esteban等人提出[1]还提出了一个近似的随机优势指数π在修剪方面。如图所示2显示,G公司占主导地位F类除了左尾巴上的一小部分。修剪右尾部后F类和左尾G公司(移除π两种情况下的分数),结果F类~G公司~满足这一点G公司~占主导地位F类~.对于修剪分数π[0,1),存在以下混合物分解:

F类=(1π)F类~+πH(H)F类对于一些CDFF类~,G公司~这样的话G公司~d日o个n个e(电子)F类~,G公司=(1π)G公司~+πH(H)G公司,
(1)

哪里H(H)F类H(H)G公司是分布函数。必须注意的是,上述分解模型并不是唯一的,不同的分解对应不同的修剪分数。最小的π满意模型(1)可以用完全优势来衡量分歧。

阿尔瓦雷斯-埃斯特班等。 [1]选择π(F类,G公司)=啜饮x个R(右){G公司(x个)F类(x个)}作为最小的π,并指出该模型(1)仅当且仅当ππ(F类,G公司)也就是说,任何修剪分数π满意模型(1)不应小于π(F类,G公司).松弛指数π(F类,G公司)这是我们的利益所在。在完全显性的假设检验中,无效假设通常是G公司占主导地位F类G公司不占主导地位F类,这是一个0-1关系。然而,在近似优势中,它不再是一个0-1检验问题,我们关心的是近似优势的程度,假设检验变成:

H(H)0:π(F类,G公司)π0 H(H)1:π(F类,G公司)<π0,
(2)

哪里π0[0,1)是测试值。拒绝空值将提供统计证据来支持这一点G公司近似占主导地位F类分歧程度低于π0。以及何时π0=0它成为对完全支配关系的检验。阿尔瓦雷斯·埃斯特班等人[1]使用经验分布F类˘G公司˘n个估计π(F类,G公司)并推导了其统计推断理论。

πˆE类M(M)P(P)=π(F类˘,G公司˘n个)=啜饮x个R(右)G公司˘n个(x个)F类˘(x个).
(3)

然而,在应用问题中,被比较的人口通常具有相同的性质:在经济学中,他们可以是几个社会-人口群体的收入分配[,5,7,11]; 在金融领域,它们通常是资产回报分配[14,20,23]. 在这些情况下,密度比模型提供了一个半参数模型来连接这些种群。当种群密度函数满足一定假设时,我们可以基于混合样本估计每个CDF。因此,与非参数模型相比,该模型可以提高估计效率[4,10,15,24–27].

我们提出了一种半参数方法来估计近似优势指数π在DRM下使用经验似然(EL)。当两个分布之间的差距只有一个最大点时,得到的估计是渐近正态的。考虑到渐近方差的复杂形式,提出了一种自举方法来估计它。我们表明,自举方法对假设检验和置信区间都很有效。仿真研究表明,即使在轻度模型错误指定的情况下,所提出的估计量也大大提高了估计效率和假设检验的能力,并且覆盖概率与检验的置信水平相匹配,这表明了所提出估计量的优越性。为了证明我们提出的方法的有用性,我们还将其应用于实际数据示例。

论文组织如下。在节中2首先简要介绍了密度比模型。然后,我们提出了一个半参数估计π指数并证明其渐近分布。最后,开发了一种bootstrap方法来测试假设并构造置信区间。在节中松弛优势指数,π采用三种方法对指数进行估计,并通过点估计的效率、假设检验的能力和置信区间的覆盖概率来比较它们的性能。在节中4,我们应用我们的方法分析了中国家庭收入的一个实际数据示例。定理证明包含在附录1中,一些补充的模拟结果显示在附录2中。

2半参数估计π指数

2.1. DRM简介

在本节中,我们首先简要介绍DRMF类0,F类1…,F类,1是独立的CDF。如果这些分布通过

d日F类k个(x个)=经验θk个T型q个(x个)d日F类0(x个),k个=1,2,,,
(4)

哪里q个(x个)是一些预先指定的向量值基函数θT型=(θ1T型,θ2T型,,θT型)是未知的参数向量。我们接受θ0=0为了简单起见。在上述假设下,这些分布具有相同的支持。在这个公式中,基线分布F类0未指定。DRM非常灵活,包括许多常见的分布族:整个正态分布族q个(x个)=(1,x个,x个2)T型; 伽马分布族q个(x个)=(1,x个,日志x个)T型。的组件q个(x个)线性无关,其第一个元素为1。选择q个(x个)可以在应用程序中逐个进行设置。如果人口分布是正态的,q个(x个)=(1,x个,x个2)T型是一个不错的选择,而对于生存型观测,q个(x个)=(1,x个,日志x个)T型是一个不错的选择。应该指出q个(x个)=(1,x个,x个2,日志|x个|,日志2|x个|)T型涵盖了大量的分销家庭。

假设F类k个n个k个,k个=0,,.让x个k个j个表示观测值,k个=0,1,,,j个=1,2,,n个k个。对于k个=0,1,,,假设x个k个1,x个k个2,,x个k个n个k个独立且同分布F类k个假设总样本量n个=k个=0n个k个,和样本分数ρk个=n个k个/n个保持不变,k个=0,1,,接下来,我们估计模型参数θF类0根据最大经验似然。表示第页k个j个=d日F类0(x个k个j个)为所有人k个,j个,对数经验似然函数为

n个(θ,第页k个j个)=k个,j个日志(第页k个j个)+k个,j个θk个T型q个(x个k个j个),
(5)

其中,关于{k个,j个}在整个范围内[22]. DRM假设表明k个=0,1,,,

经验θk个T型q个(x个)d日F类0(x个)=1

因此,对于任何k个=0,1,,,j个=1,2,,n个k个,θ第页k个j个需要满足以下约束:

第页k个j个0,k个,j个第页k个j个=1,k个,j个第页k个j个经验θk个T型q个(x个k个j个)=1
(6)

最大经验似然估计量θˆ是的最大点(5).

Keziou和Leoni-Aubin[15]指出了基于DRM的最大EL估计器和两者的最大对偶EL估计器的等价性θF类0在(4). 此外,Li等。 [18]仔细比较了基于DRM的EL估计方法和双样本DRM下的双EL估计方法,发现这两种方法对任何潜在参数都具有相同的点估计。等。 [8]使用双EL比率来研究多样本DRM下的假设检验问题,以避免无法获得基于DRM的EL比率检验的极限分布。除了理论上的优点外,与基于最大DRM的EL方法相比,双重EL估计具有更简单的分析形式和更容易计算。因此,在本文中,我们认为θˆ作为以下双EL函数的最大点:

~n个θ=k个,j个日志1+第页=1ρ第页经验θ第页T型q个(x个k个j个)1+k个,j个θk个T型q个x个k个j个.

给定最大对偶EL估计量θˆ,的拟合值第页k个j个

第页ˆk个j个=n个小时(x个k个j个;θˆ)1,

哪里小时(x个;θ)=k个=0ρk个经验{θk个T型q个(x个)}因此,拟合的人口分布F类k个由提供

F类ˆk个(x个)=第页,j个第页ˆ第页j个经验θˆk个τq个(x个)(x个第页j个)(x个第页j个x个)=n个k个1第页,j个小时k个(x个第页j个;θˆ)(x个第页j个x个),
(7)

哪里小时k个(x个;θ)=ρk个经验{θk个T型q个(x个)}/小时(x个;θ)、和(A类)表示事件的指示功能A类.

陈和刘[10]显示了对于任何实数x个0,x个1,,x个支持F类0(x个),n个{F类ˆ第页(x个第页)F类第页(x个第页)},第页=0,,,与平均值共同渐近正态0和协方差矩阵={ω第页(x个第页,x个)}0第页,.表示δ第页=1如果第页 = 否则为0。F类¯()=第页ρ第页F类第页(),并定义

σ第页(x个,)=ρ第页1δ第页F类第页(x个)F类第页(x个)F类(),α第页(x个)=x个δ第页小时第页()小时第页()小时()d日F类¯(),

哪里x个=最小值(x个,).然后,ω第页(x个第页,x个)由提供

ω第页(x个第页,x个)=σ第页(x个第页,x个)(ρ第页ρ)1α第页(x个第页x个)B类第页T型(x个第页)W公司1B类(x个),
(8)

哪里B类第页(x个)是长度向量医学博士用它的第th段长度d日存在,=1,2,,,

B类第页,(x个)=x个δ第页小时第页()小时第页()小时()q个()d日F类¯().

2.2. 建议估算值π指数

在陈和刘的条件下[10]我们认为F类=F类第页G公司=F类是DRM中的两个分布,以及F类G公司是连续的。表示F类ˆD类R(右)M(M)G公司ˆD类R(右)M(M)估计值由(7). 我们提出的估计量如下所示

πˆD类R(右)M(M)=πF类ˆD类R(右)M(M),G公司ˆD类R(右)M(M)=啜饮x个R(右)G公司ˆD类R(右)M(M)(x个)F类ˆD类R(右)M(M)(x个).
(9)

W公司n个(x个)=n个1/2[F类ˆD类R(右)M(M)(x个)G公司ˆD类R(右)M(M)(x个)F类(x个)G公司(x个)],x个R(右),

弱收敛到高斯过程W公司(x个)在所有有限维分布中[10]. 高斯过程W公司(x个)具有均值零和协方差函数

C类o个v(v)W公司(x个),W公司()=ω第页第页(x个,x个)+ω(,)ω第页(x个,)ω第页(,x个),

哪里ω第页在中给出(8). 什么时候?x个=========================================================================,我们得到方差函数

第页W公司(x个)=ω第页第页(x个,x个)+ω(x个,x个)2ω第页(x个,x个).
(10)

定理2.1

假设陈和刘的条件[10]保持。对于连续分布F类G公司,表示Γ(F类,G公司)={x个R(右):G公司(x个)F类(x个)=π(F类,G公司)},其中π(F类,G公司)=啜饮x个R(右){G公司(x个)F类(x个)}.然后,

n个1/2πF类ˆD类R(右)M(M),G公司ˆD类R(右)M(M)π(F类,G公司)啜饮x个Γ(F类,G公司)W公司(x个).
(11)

附录1中给出了证明。注意,如果π(F类,G公司)=0,Γ(F类,G公司)=R(右).如果Γ(F类,G公司)比如说,由一个点组成x个0,然后啜饮x个Γ(F类,G公司)W公司(x个)=W公司(x个0)、和W公司(x个0)以正态居中,方差由(10). 如果Γ(F类,G公司)包含两个或多个点,则啜饮x个Γ(F类,G公司)W公司(x个)不正常。

阿尔瓦雷斯-埃斯特班等。 [1]给出了以下形式的完全非参数估计(). 与传统的经验似然估计相比,我们的估计在理论上应该具有较小的方差。我们可以从中看到(8). 另一方面,如果我们知道F类G公司属于参数化分布族F类(x个)=F类(x个;ζ)G公司(x个)=G公司(x个;η),我们可以得到最大似然估计ζ*η*,然后估计π(F类,G公司)通过F类(x个;ζ*)G公司(x个;η*)也就是说,

πˆP(P)A类R(右)=啜饮x个R(右)G公司(x个;η*)F类(x个;ζ*).
(12)

这种参数估计应该是有效的,并且具有良好的渐近性质,但可能在很大程度上依赖于模型假设。在许多情况下,我们无法确切地知道数据来自哪个参数模型。

2.3. Bootstrap假设检验和置信区间

什么时候?Γ(F类,G公司)由一个点组成,定理2.1中的渐近结论具有渐近方差表达式,但这取决于未知的分布配置F类G公司为了克服这一困难,我们提出了一种自举方法。具体步骤如下:

步骤1。对于给定的k个 (k个=0,1,,),绘制条件独立和相同分布的样本{X(X)k个j个*,j个=1,2,,n个k个}{X(X)k个j个,j个=1,2,,n个k个}.

第2步。在DRM假设下,计算最大经验似然估计θˆ*基于引导示例{X(X)k个j个*,j个=1,2,,n个k个}随后,获得引导分布估计值,特别是,F类ˆD类R(右)M(M)*G公司ˆD类R(右)M(M)*.

步骤3。自然,得到πˆD类R(右)M(M)*=啜饮x个R(右){G公司ˆD类R(右)M(M)*(x个)F类ˆD类R(右)M(M)*(x个)}.

步骤4。重复步骤1-3 R(右)次数并获得{πˆD类R(右)M(M),*,=1,,R(右)}.

步骤5。计算σ*ˆ通过

σ*ˆ=(R(右)1)1=1R(右)πˆD类R(右)M(M),*E类(πˆD类R(右)M(M),*)21/2,

哪里E类()表示平均函数。

从附录1定理2.1的证明中,很容易看出n个1/2(πˆD类R(右)M(M)*πˆD类R(右)M(M))含羞草n个1/2(πˆD类R(右)M(M)π)如果Γ(F类,G公司)只包含一个点。因此,我们直接给出以下结果。

定理2.2

P(P)*表示给定数据的条件概率。假设陈和刘的所有条件[10]满足和分布F类G公司是连续的。如果Γ(F类,G公司)由一个点组成,那么n个,

啜饮x个|P(P)*n个1/2(πˆD类R(右)M(M)*πˆD类R(右)M(M))x个P(P)*n个1/2(πˆD类R(右)M(M)π)x个|=o个第页(1).

此外,基于引导变量σ*ˆ,我们可以检验假设并构造置信区间。给定显著性水平α,让z(z)α表示α-标准正态分布的分位数。对于测试值π0[0,1),如果

n个(πˆD类R(右)M(M)π0)<σ*ˆz(z)α,
(13)

我们拒绝零假设H(H)0英寸(2). 拒绝H(H)0将提供统计证据支持这一点G公司大约占主导地位F类分歧程度小于π0同时π(F类,G公司)1α水平可以通过以下公式给出

πˆD类R(右)M(M)n个1/2σ*ˆz(z)α/2,πˆD类R(右)M(M)+n个1/2σ*ˆz(z)α/2.
(14)

3模拟研究

本节的主要目的是证明所建议的估计量的优越性π索引。点估计的有效性、假设检验的能力和置信区间的覆盖概率将证明其优越性。我们的模拟实验涵盖了alavarez-Esteban中的大多数示例等。 [2]. 对于不同的分布族,我们选择适当的分布参数F类G公司这样的话π(F类,G公司)=0.01,0.05,0.10,0.25分别是。然后,我们比较了π模拟索引。

必须指出的是,如果我们事先了解参数分布族F类G公司参数化方法应具有最佳性能。因此,参数方法的性能可以作为比较半参数方法和非参数方法性能的理想基准。

3.1. 点估计量效率的比较

π*表示索引的真实值。我们估计π的索引F类G公司在适用的情况下通过所有三种方法。平均绝对百分比误差(MAPE)

M(M)A类P(P)E类=1N个=1N个π()π*π*

和均方根误差(RMSE)

R(右)M(M)S公司E类=N个1=1N个(π()π*)21/2

将用于评估不同估计器的性能,其中π()是基于模拟数据集和N个是重复次数。我们之所以使用MAPE和RMSE,是因为它们都是估算精度的常用度量。此外,MAPE中的绝对值可以避免负偏差和正偏差相互抵消。此外,MAPE不仅考虑了估计值与实际值之间的偏差,还考虑了偏差与实际值的比率。我们将在模拟研究中分别考虑以下三种情况。

  • 两个样本正态分布;
  • 多样本伽马分布;
  • 错误指定密度比模型下的性能。

3.1.1、。两个样本正态分布

我们首先考虑正常情况。假设F类G公司是两个具有不同均值和方差的正态分布。它们的分布满足DRMq个(x个)={1,x个,x个2}T型根据阿尔瓦雷斯-埃斯特班等人[2],F类被选为N个(0,1)、和G公司是具有平均值的正态分布μ和方差σ2。对于σ{0.7,1,1.5},求解相应的值μ这样的话π(F类,G公司)=0.01,0.05,0.10,0.25。我们将样本大小设置为n个0=n个1=1000仿真结果如表所示A1类附录2中。

正如所料,参数估计器具有最佳性能,但我们提出的估计器几乎是最优的。基于直接经验分布的估计显然不如所提出的方法。什么时候?π与非参数估计相比,三种估计量的MAPE都变大了,并且我们的估计量的估计效率得到了更大的提高。具体来说,当π=0.25,半参数的MAPE和RMSE都减少了约20%与非参数的比较;什么时候π=0.10,相应的下降幅度约为22%25%分别为;什么时候π=0.05,他们都是26%; 以及何时π=0.01,它们是关于41%39%这些结果证明了基于DRM的半参数估计的优越性A1类,我们还可以看到σ=1明显较高,原因是F类G公司在这种情况下过于接近,如果样本不够大,估计的偏差π将更大。

3.1.2. 多样本伽马分布

接下来,我们考虑多样本伽马情况。数据由四个具有密度的双参数伽马分布生成

(f)(x个;α,β)=βαx个α1经验(βx个)/Γ(α),x个>0,

具有自由度α和速率参数β.跟随庄等。 [29],我们采取F类=F类0具有(α,β)=(,1)。选择F类1,F类2F类与各自的α=5,7和9,并将它们与适当的β值,以便π(F类0,F类j个)=0.01,0.05,0.10,0.25分别针对每个j个 = 1, 2, 3. 我们从中生成750个相同大小的样本F类0…,F类和估算π(F类0,F类j个)对于j个 = 1、2、3,基于合并样本。其他两个估计值仅使用两个总体的数据,F类0F类j个对于每个j个在模拟中,我们假设q个(x个)={1,x个,日志(x个)}T型模拟结果见表A2类附录2中。

从表A2类可以看出,参数方法的性能仍然最好,半参数次之,非参数方法最差。与非参数方法相比,半参数方法可以有效地降低MAPE和RMSE,但它不再是近似最优的。半参数方法和参数方法之间存在差距。这个案例告诉我们,DRM中的样本越多,估计效率就不会有更多的提高,因为当使用更多的其他样本来估计目标种群分布时,可能会引入更多的杂质。

3.1.3、。错误指定的密度比模型下的性能

在实际应用中,我们通常不能准确地知道种群分布,因此很难选择一个完全匹配的种群q个(x个)在本小节中,我们研究了在轻度模型错误指定情况下所提出的估计器的性能。严重的规格错误是不感兴趣的,因为用户会注意到模型的不匹配,并选择更好的q个(x个).

在不失一般性的情况下,我们假设F类G公司属于不同的人口家庭。特别是,我们设置F类为伽马分布(α,β)=(,1)、和G公司是具有密度函数的对数正态分布

(f)x个;μ,σ=12πσx个经验12σ2(自然对数x个μ)2,x个>0

类似地,有三种选择σ(σ{0.7,1,1.5})将被考虑。对于以下三种选择中的每一种σ,求解相应的值μ这样的话π(F类,G公司)=0.01,0.05,0.10,0.25分别是。在模拟中,使用q个(x个)={1,日志(x个),x个,x个}T型,尽管正确的基函数应该是q个(x个)={1,日志(x个),日志2(x个),x个}T型样本大小和重复次数均为1000。仿真结果如表所示A3号附录2中。

当模型指定错误时,我们提出的估计仍然比非参数估计具有更好的性能。在这种情况下,半参数的MAPE和RMSE减少了大约16%17%分别说明了基于DRM的半参数估计的优越性和鲁棒性。

在本节末尾,我们补充了样本大小对估计效率的影响。以两个样本正态分布为例,除了样本大小外,所有配置都保持不变。我们考虑了五种样本量组合:(n个0,n个1)=(100,100),(200,200),(500,500),(100,200)(100,400),结果基于1000次重复。仿真结果如表所示A4(A4)A8类附录2中。

不同样本量组合的模拟结果显示出相似的模式:如预期,参数方法的性能最好,半参数次之,非参数方法最差。与非参数估计相比,半参数估计显著降低了MAPE和RMSE。什么时候?π与非参数方法相比,三个估计量的MAPE变大,我们的估计量的估计效率得到了更大的提高。很自然地看到,对于所有三个估计量来说,更多的样本都会导致更高的估计效率,即使样本大小不平衡。随着样本量的增加,半参数方法对估计效率的改进有所下降,但仍然显著,具体来说,就MAPE而言,它们是36%,32%,30%27%什么时候n个0=n个1=100,200,500和1000。

3.2. Bootstrap假设检验和置信区间

在本节中,我们使用第节中提出的引导方法2.3检验假设并为π索引。由于计算量大,我们只考虑第节中规定的正常模型3.1.1,并使用相同的模拟设置。我们选择π零假设中的值{0.01,0.05,0.10,0.25}.如上所述选择模型参数,我们将样本大小、引导重采样数和模拟重复次数都设置为1000。

首先,我们考虑以下形式的单边假设检验π(F类,G公司)π0,并在5%10%级别。结果如表所示A9附录2中。结果表明,我们提出的估计器在测试功率方面具有良好的性能。当零为真时,拒绝率是产生I类错误的模拟概率。我们可以看到,模拟的I类错误概率与5%10%测试的显著水平高于al-lvarez-Esteban报告的非参数结果等。 [2]. 举例来说π=0.05,在5%水平,拒绝率H(H)0:π0.10为0.056、0.058和0.054,当σ=0.7,1分别为1.5和1.5,而al-lvarez-Esteban报告的非参数结果等。 [2]分别为0.031、0.015和0.065。一般来说,非参数检验有低估拒绝率的倾向,原因是非参数估计量往往高估拒绝率π索引,尤其是当π很小,导致正偏态正态分布。虽然我们的半参数估计大大缓解了这一趋势,但在某些情况下可能过于正确,从而导致有点过度拒绝。另一方面,当零点为假时,我们提出的估计器具有很高的抑制零点的能力。例如,考虑一下这种情况π=0.05σ=0.7,拒绝空值的比率H(H)0:π0.10达到99.6%5%级别。

现在,我们构建95%90%双边置信区间,并记录覆盖真实值的时间百分比π索引。结果见表A10号机组附录2中。通常,置信区间的覆盖概率与置信水平表现出良好的一致性,但在某些情况下存在一定的覆盖不足,这与上述过度拒绝一致。

4应用于实际数据示例

在本节中,我们将把我们的方法应用于实际数据示例:中国家庭收入的比较。在财富经济学中,随机支配理论被广泛应用于研究贫困和不平等问题。通过比较两个社会群体的收入分配,我们可以知道他们中哪一个更富有。我们比较了中国云南省和山东省2013年的家庭收入分布。数据来自中国收入分配研究所收集的2013年中国家庭收入项目(CHIP2013)。样本大小1山东省为1391人,云南省为1072人。表中给出了一些描述性统计数据1.

表1。

家庭收入数据的描述性统计。

 平均值标准偏差。中值的第5百分位第95百分位
山东51,30734,37044,7589,645116,138
云南50,92038,14339,82510,711129,169

除第95个百分点外,云南其他描述性统计数据均低于山东,这表明云南的贫富差距可能更大。F类0,F类1分别表示云南和山东的相应家庭收入分配。我们选择q个(x个)={1,日志(x个),x个,x个2}T型拟合DRM。拟合的分布曲线如图所示我们可以看到,底部的分布80%山东省的家庭收入低于云南省,表明山东省家庭收入水平普遍较高。然后我们计算π指数来进一步证明这一点。πˆ(F类0,F类1)=0.015具有95%置信区间[0.001,0.028]、和πˆ(F类1,F类0)=0.037具有95%置信区间[0.003,0.071]前者低于后者的一半,因此山东更有可能占据云南的主导地位。最后,我们得出结论:2013年,山东省的家庭收入水平普遍高于云南省,云南省的贫富差距更为严重。

保存图片、插图等的外部文件。对象名称为CJAS_A_1965966_F0003_OB.jpg

DRM下云南和山东家庭收入的预计CDF。

5结论

在本文中,基于DRM和随机优势理论,我们提出了一个半参数估计π索引,并证明其统计特性。当只有一个点最大化两个分布之间的差距时,估计π指数服从渐近正态分布。考虑到渐近正态分布中方差的复杂形式,提出了一种bootstrap方法对其进行估计。在仿真中,通过点估计的效率、假设检验的能力和置信区间的覆盖概率,结果表明了该方法的优越性。最后,我们运用我们的方法对中国家庭收入进行了比较分析。在证券市场上,π指数可能是一种新的资产绩效衡量指标,它可以对均值-方差规则无法区分的资产进行排序。在比较两种收入分配时,π指数可以告诉我们偏离完全优势的程度。未来,金融从业者可能会应用此π对不同资产进行排名并构建其投资组合的索引。当样本容量不够大(如几百个)时,如果满足DRM,则与非参数估计相比,该估计可以获得更大的估计效率提高。

致谢

本研究得到了国家自然科学基金(No.71971204,71871208,11701518])和安徽省自然科学基金会(1908085MG236)的资助。我们非常感谢两位匿名推荐人的宝贵意见。

附录。

附录1.定理证明thm2.1。

通过附录1,为了简化符号,我们重写了F类ˆD类R(右)M(M)作为F类ˆ、和G公司ˆD类R(右)M(M)作为G公司ˆ.让

αn个(x个)=F类ˆ(x个)F类(x个),x个R(右),

βn个(x个)=G公司ˆ(x个)G公司(x个),x个R(右).

表示αn个=啜饮x个R(右)|αn个(x个)|、和βn个=啜饮x个R(右)|βn个(x个)|在给出定理2.1的证明之前,我们首先说明以下两个引理。

引理A.1

表示Δn个=2[αn个+βn个].对于连续分布F类G公司,表示Γδ(F类,G公司)={x个R(右):|G公司(x个)F类(x个)π(F类,G公司)|δ},然后

啜饮x个Γ(F类,G公司)W公司n个(x个)n个πF类ˆ,G公司ˆπ(F类,G公司)啜饮x个ΓΔn个(F类,G公司)W公司n个(x个)
(A1)

证明。

根据以下定义Γ(F类,G公司),我们有

n个πF类ˆ,G公司ˆπ(F类,G公司)=n个啜饮x个R(右)G公司ˆ(x个)F类ˆ(x个)π(F类,G公司)n个啜饮x个Γ(F类,G公司)G公司ˆ(x个)F类ˆ(x个)π(F类,G公司)=啜饮x个Γ(F类,G公司)n个G公司ˆ(x个)F类ˆ(x个)(G公司(x个)F类(x个))=啜饮x个Γ(F类,G公司)W公司n个(x个).

因此,我们得到了(A1类). 另一方面,请注意

G公司ˆ(x个)F类ˆ(x个)=(G公司ˆ(x个)G公司(x个))(F类ˆ(x个)F类(x个))+(G公司(x个)F类(x个)).

任何人都很容易看到这一点x个R(右),

G公司ˆ(x个)F类ˆ(x个)G公司(x个)F类(x个)+αn个+βn个,

而对于任何x个Γ(F类,G公司),

G公司ˆ(x个)F类ˆ(x个)π(F类,G公司)αn个βn个.

因此,对于任何x个外部ΓΔn个(F类,G公司)、以及任何x个Γ(F类,G公司),我们有

G公司ˆ(x个)F类ˆ(x个)<π(F类,G公司)Δn个+αn个+βn个=π(F类,G公司)αn个βn个G公司ˆ(x个)F类ˆ(x个).

由此可见π(F类ˆ,G公司ˆ)=啜饮x个ΓΔn个(F类,G公司)(G公司ˆ(x个)F类ˆ(x个)).然后,

n个π(F类ˆ,G公司ˆ)π(F类,G公司)=啜饮x个ΓΔn个(F类,G公司)n个G公司ˆ(x个)F类ˆ(x个)π(F类,G公司)啜饮x个ΓΔn个(F类,G公司)n个G公司ˆ(x个)F类ˆ(x个)(G公司(x个)F类(x个))=啜饮x个ΓΔn个(F类,G公司)W公司n个(x个).

从而证明了引理。

引理A.2

陈和刘[10] —

在陈和刘的条件下[10],我们有

啜饮x个R(右)|F类ˆ(x个)F类(x个)|=O(运行)第页(n个1/2),

啜饮x个R(右)|G公司ˆ(x个)G公司(x个)|=O(运行)第页(n个1/2).

从这个引理中可以明显看出Δn个接下来,我们给出定理2.1的证明。

定理2.1的证明。

发件人(A1类),我们可以看到,这足以证明

啜饮x个Γ(F类,G公司)W公司n个(x个)啜饮x个Γ(F类,G公司)W公司(x个),
(A2)

啜饮x个ΓΔn个(F类,G公司)W公司n个(x个)啜饮x个Γ(F类,G公司)W公司(x个).
(A3)

它源自第节2.2那个

W公司n个(x个)W公司(x个).

因此,我们可以立即获得(A2类)和

啜饮x个ΓΔn个(F类,G公司)W公司n个(x个)啜饮x个ΓΔn个(F类,G公司)W公司(x个).
(A4)

所以,为了证明(A3号),关键是展示

啜饮x个ΓΔn个(F类,G公司)W公司(x个)啜饮x个Γ(F类,G公司)W公司(x个).
(A5)

事实上,通过连续性,啜饮x个ΓΔn个(F类,G公司)W公司(x个)=W公司(x个n个)对一些人来说x个n个ΓΔn个(F类,G公司)通过紧性,我们可以从任何子序列(我们一直表示的子序列)中提取出另一个子序列x个n个)这样的话x个n个x个0.自Δn个0,我们有x个0Γ(F类,G公司)W公司(x个n个)W公司(x个0)也就是说,

啜饮n个啜饮x个ΓΔn个(F类,G公司)W公司n个(x个)啜饮x个Γ(F类,G公司)W公司(x个).

另一方面,

啜饮x个Γ~Δ(F类,G公司)W公司n个(x个)啜饮x个Γ(F类,G公司)W公司(x个).

然后(第5页)获得。证明了该定理。

附录2.模拟结果。

表C1。

模拟RMSE(每一个的上一行π)和MAPE(每行的下一行π)的三个估计值π(N个(0,1),N个(μ,σ2)).

  πˆE类M(M)P(P) πˆD类R(右)M(M) πˆP(P)A类R(右) πˆE类M(M)P(P) πˆD类R(右)M(M) πˆP(P)A类R(右) πˆE类M(M)P(P) πˆD类R(右)M(M) πˆP(P)A类R(右)
π σ=0.7 σ=1 σ=1.5
0.010.0070.0050.0040.0280.0150.0150.0070.0040.004
 0.5710.3650.3402.3071.1191.1110.5260.3460.319
0.050.0150.0110.0110.0260.0180.0180.0140.0110.010
 0.2330.1790.1720.4170.2840.2830.2240.1700.163
0.100.0180.0140.0140.0240.0170.0170.0180.0140.014
 0.1420.1170.1130.1920.1390.1390.1430.1150.110
0.250.0200.0170.0160.0240.0180.0180.0210.0170.016
 0.0650.0550.0520.0750.0570.0560.0670.0540.051

表C2。

模拟RMSE(每一个的上一行π)和MAPE(每行的下一行π)的三个估计值π(Γ(,1),Γ(α,β)).

  πˆE类M(M)P(P) πˆD类R(右)M(M) πˆP(P)A类R(右) πˆE类M(M)P(P) πˆD类R(右)M(M) πˆP(P)A类R(右) πˆE类M(M)P(P) πˆD类R(右)M(M) πˆP(P)A类R(右)
π α=5 α=7 α=9
0.010.0120.0070.0040.0100.0050.0030.0080.0050.003
 0.9370.5640.2560.7330.4210.2060.6020.3550.185
0.050.0200.0150.0090.0170.0120.0080.0130.0100.008
 0.3210.2350.1010.2600.1910.0880.2120.1660.101
0.100.0220.0170.0110.0180.0160.0130.0180.0140.009
 0.1780.1330.0620.1450.1270.0860.1450.1130.053
0.250.0230.0190.0140.0230.0190.0130.0210.0190.014
 0.0730.0610.0340.0730.0600.0320.0670.0600.037

表C3。

模拟RMSE(每一个的上一行π)和MAPE(每行的下一行π)的三个估计值π(Γ(,1),L(左)N个(μ,σ2)).

  πˆE类M(M)P(P) πˆD类R(右)M(M) πˆP(P)A类R(右) πˆE类M(M)P(P) πˆD类R(右)M(M) πˆP(P)A类R(右) πˆE类M(M)P(P) πˆD类R(右)M(M) πˆP(P)A类R(右)
π σ=0.7 σ=1 σ=1.5
0.010.0210.0140.0220.0110.0070.0080.0070.0070.005
 1.6971.1791.2880.8440.6040.6290.5100.5490.364
0.050.0230.0190.0210.0160.0130.0120.0120.0100.009
 0.3680.3020.3010.2570.2040.1990.1810.1580.142
0.100.0220.0190.0190.0190.0150.0150.0150.0130.012
 0.1740.1490.1490.1480.1230.1210.1170.1010.097
0.250.0220.0190.0180.0200.0170.0190.0180.0170.015
 0.0720.0620.0590.0650.0540.0560.0580.0520.048

表C4。

模拟RMSE(每一个的上一行π)和MAPE(每行的下一行π)的三个估计值π(N个(0,1),N个(μ,σ2))什么时候n个0=n个1=100.

  πˆE类M(M)P(P) πˆD类R(右)M(M) πˆP(P)A类R(右) πˆE类M(M)P(P) πˆD类R(右)M(M) πˆP(P)A类R(右) πˆE类M(M)P(P) πˆD类R(右)M(M) πˆP(P)A类R(右)
π σ=0.7 σ=1 σ=1.5
0.010.0320.0170.0150.0890.0480.0470.0310.0170.014
 2.4581.2581.0517.5743.4163.2882.3941.2041.014
0.050.0550.0360.0330.0890.0520.0510.0510.0350.032
 0.8660.5620.5251.4960.8320.8200.7880.5340.502
0.100.0630.0450.0440.0810.0540.0530.0640.0460.043
 0.5050.3580.3490.6550.4350.4280.4980.3630.339
0.250.0700.0540.0500.0750.0560.0550.0710.0550.053
 0.2250.1710.1600.2460.1800.1770.2260.1750.168

表C5。

模拟RMSE(每一个的上一行π)和MAPE(每行的下一行π)的三个估计值π(N个(0,1),N个(μ,σ2))什么时候n个0=n个1=200.

  πˆE类M(M)P(P) πˆD类R(右)M(M) πˆP(P)A类R(右) πˆE类M(M)P(P) πˆD类R(右)M(M) πˆP(P)A类R(右) πˆE类M(M)P(P) πˆD类R(右)M(M) πˆP(P)A类R(右)
π σ=0.7 σ=1 σ=1.5
0.010.0220.0120.0110.0630.0330.0320.0200.0110.010
 1.5820.9050.7995.2672.3952.3421.4740.8570.758
0.050.0360.0250.0240.0590.0350.0350.0350.0240.023
 0.5520.3940.3740.9620.5710.5690.5430.3820.361
0.100.0460.0330.0320.0580.0410.0400.0420.0320.030
 0.3570.2670.2560.4670.3270.3220.3340.2600.245
0.250.0470.0380.0360.0510.0390.0390.0480.0380.037
 0.1490.1200.1160.1620.1250.1250.1550.1200.116

表C6。

模拟RMSE(每一个的上一行π)和MAPE(每行的下一行π)的三个估计值π(N个(0,1),N个(μ,σ2))什么时候n个0=n个1=500.

  πˆE类M(M)P(P) πˆD类R(右)M(M) πˆP(P)A类R(右) πˆE类M(M)P(P) πˆD类R(右)M(M) πˆP(P)A类R(右) πˆE类M(M)P(P) πˆD类R(右)M(M) πˆP(P)A类R(右)
π σ=0.7 σ=1 σ=1.5
0.010.0110.0070.0060.0390.0200.0200.0110.0060.006
 0.8720.5220.4803.2931.4841.4650.8470.4960.440
0.050.0220.0150.0150.0370.0240.0240.0210.0150.014
 0.3390.2430.2310.5880.3860.3850.3350.2430.229
0.100.0260.0200.0200.0350.0240.0240.0250.0190.018
 0.2050.1630.1570.2860.1960.1950.1990.1550.147
0.250.0290.0240.0230.0310.0240.0240.0290.0240.023
 0.0940.0760.0720.0980.0760.0760.0950.0770.073

表C7。

模拟RMSE(每一个的上一行π)和MAPE(每行的下一行π)的三个估计值π(N个(0,1),N个(μ,σ2))什么时候n个0=100n个1=200.

  πˆE类M(M)P(P) πˆD类R(右)M(M) πˆP(P)A类R(右) πˆE类M(M)P(P) πˆD类R(右)M(M) πˆP(P)A类R(右) πˆE类M(M)P(P) πˆD类R(右)M(M) πˆP(P)A类R(右)
π σ=0.7 σ=1 σ=1.5
0.010.0300.0170.0140.0770.0420.0410.0240.0130.011
 2.2171.2021.0046.5732.9342.8561.8160.9590.804
0.050.0460.0310.0290.0750.0450.0440.0420.0280.027
 0.7260.4880.4611.2350.7140.7070.6620.4470.433
0.100.0560.0420.0400.0690.0470.0460.0500.0350.034
 0.4450.3290.3160.5620.3770.3710.3990.2820.270
0.250.0640.0480.0460.0650.0490.0490.0580.0450.044
 0.2030.1540.1450.2110.1570.1560.1880.1450.140

表C8。

模拟RMSE(每个的上排π)和MAPE(每行的下一行π)的三个估计值π(N个(0,1),N个(μ,σ2))什么时候n个0=100n个1=400.

  πˆE类M(M)P(P) πˆD类R(右)M(M) πˆP(P)A类R(右) πˆE类M(M)P(P) πˆD类R(右)M(M) πˆP(P)A类R(右) πˆE类M(M)P(P) πˆD类R(右)M(M) πˆP(P)A类R(右)
π σ=0.7 σ=1 σ=1.5
0.010.0260.0150.0130.0710.0380.0370.0210.0110.010
 1.9391.0590.9005.9782.6812.6341.5960.8100.749
0.050.0440.0300.0280.0680.0420.0410.0360.0240.024
 0.6800.4760.4571.1050.6580.6550.5600.3810.370
0.100.0500.0380.0370.0640.0440.0430.0430.0310.030
 0.3950.3030.2940.5170.3480.3430.3420.2490.243
0.250.0570.0450.0440.0610.0450.0440.0490.0380.037
 0.1780.1450.1410.1940.1430.1420.1600.1230.119

表C9。

不合格率H(H):π(N个(0,1),N个(μ,σ2))π0(针对每个π0,上一行用于5%级别和下一行10%级别)。

 真的π真的π真的π
 0.010.050.100.250.010.050.100.250.010.050.100.25
π0 σ=0.7 σ=1 σ=1.5
0.010.0680000.0420000.060000
 0.1300000.0870000.121000
0.0510.056000.7500.0580010.05400
 10.114000.8120.1020010.11000
0.1010.9960.056010.8460.058010.9920.0560
 10.9980.098010.9060.106010.9960.0930
0.251110.0431110.0441110.066
 1110.1121110.0981110.118

表C10。

覆盖概率(%)置信区间的π0,的上排95%置信级别和下一行90%置信水平)。

π0 σ=0.7 σ=1 σ=1.5
0.0193.494.294.6
 88.288.190.8
0.0595.293.294.8
 89.886.990
0.1094.29494.4
 89.488.888.6
0.2595.29594.2
 90.290.489.6

资金筹措表

本研究得到了中国自然科学基金[批准号719712047187120811701518]和安徽省自然科学基金(批准号1908085MG236]的支持。

注释

1收入数据大于99%分位数和小于0的分位数被删除。

披露声明

提交人没有报告潜在的利益冲突。

工具书类

1阿尔瓦雷斯-埃斯特班P.C.、Del Barrio E.、Cuesta-Albertos J.A.和Matrán C。,随机序污染模型,测试 25(2016),第751-774页。[谷歌学者]
2阿尔瓦雷斯-埃斯特班P.C.、Del Barrio E.、Cuesta-Albertos J.A.和Matrán C。,治疗改善评估模型:理想与可行,统计科学。 32(2017),第469-485页。[谷歌学者]
3Anderson G。,收入分配中随机优势的非参数检验,计量经济学 64(1996),第1183-1193页。[谷歌学者]
4Anderson J.A。,多元逻辑复合物,生物特征 66(1979年),第751-774页。[谷歌学者]
5阿特金森A.B。,关于贫困的衡量,计量经济学 55(1987),第749-764页。[谷歌学者]
6伯杰·R.L。,随机顺序的非参数交叉联合检验,英寸统计决策及相关专题IVS.S.Gupta和J.O.Berger编辑,第2卷,Springer-Verlag,纽约,1988年。
7Bishop J.A.、Chow K.V.和Formby J.P。,1967-1986年增长、衰退和美国收入分配的随机优势分析,南方。经济。J。 57(1991年),第936-946页。[谷歌学者]
8Cai S.、Chen J.和Zidek J.V。,密度比模型下多样本假设检验,统计正弦。 27(2017),第761-783页。[谷歌学者]
9Chen S.、Datt G.和Ravallion M。,发展中国家的贫困在增加吗?,收入财富收入 40(1994年),第359-376页。[谷歌学者]
10陈杰、刘毅。,密度比模型下的分位数和分位数函数估计,Ann.统计。 41(2013),第1669–1692页。[谷歌学者]
11Davidson R.和Duclos J.Y。,随机优势的统计推断以及贫困和不平等的测量,计量经济学 68(2000),第1435-1464页。[谷歌学者]
12Davidson R.和Duclos J.Y。,限制随机优势测试,经济。版次。 32(2013),第125-84页。[谷歌学者]
13Donald S.G.和Hsu Y.C。,提高随机优势检验的能力,经济学。版次。 35(2016),第553-585页。[谷歌学者]
14Gasbarro D.、Wong W.K.和Kenton Zumwalt J。,iShares的随机优势分析,Eur.J.金融 13(2007),第89-101页。[谷歌学者]
15Keziou A.和Leoni-Aubin S。,半参数双样本密度比模型的经验似然,J.统计计划。推断 138(2008),第915-928页。[谷歌学者]
16Lehmann E.L.和Rojo J。,不变方向排序,安。统计师。 20(1992年),第2100–2110页。[谷歌学者]
17Leshno M.和Levy H。,所有人都喜欢,大多数决策者都喜欢:几乎是随机支配,管理。科学。 48(2002),第1074–1085页。[谷歌学者]
18李宏、刘勇、刘勇和张瑞。,密度比模型下经验似然及其双重似然的比较,J.非参数。斯达。 30(2018),第581-597页。[谷歌学者]
19Linton O.、Maasoumi E.和Whang Y.J。,一般抽样方案下随机优势的一致性检验,经济收益率。螺柱。 72(2005),第735-765页。[谷歌学者]
20梅耶·J·。,随机优势对共同基金绩效的进一步应用,J.财务数量。分析。 12(1977年),第235-242页。[谷歌学者]
21莫斯勒·K·。,经济不平等在一个和多个维度上的限制性洛伦兹优势,《经济学杂志》。不平等。 2(2004),第89-103页。[谷歌学者]
22欧文A。,经验可能性查普曼和霍尔出版社,纽约,2001年。[谷歌学者]
23Porter R.B.和Gaumniz J.E。,随机优势与均值方差投资组合分析:一项实证评估,美国经济。版次。 62(1972年),第438–446页。[谷歌学者]
24秦杰。,有偏采样、参数过识别问题及其他,施普林格,纽约,2017年。[谷歌学者]
25秦杰、张波。,基于病例对照数据的logistic回归模型的有效性检验,生物特征 84(1997),第609-618页。[谷歌学者]
26Wang C.、Marriott P.和Li P。,具有多余零观测值的多个非负分布的同质性检验,计算。统计数据分析。 114(2017),第146-157页。[谷歌学者]
27Wang C.、Marriott P.和Li P。,具有多余零观测值的多重非负分布均值的半参数推断,J.多变量。分析。 166(2018),第182-197页。[谷歌学者]
28Zheng B.、Formby J.P.、Smith W.J.和Chow V.K。,不等式排序、归一化随机优势和统计推断,J.总线。经济。斯达。 18(2000),第479-488页。[谷歌学者]
29庄伟、胡斌、陈杰。,密度比模型下优势指数的半参数推断,生物特征 106(2019年),第229-241页。[谷歌学者]

文章来自应用统计学杂志由以下人员提供泰勒和弗朗西斯