摘要

比率型回归估计量是一种在简单随机抽样(SRS)和两阶段抽样下流行且易于实现的启发式估计量。但现有的方法是基于普通最小二乘回归系数的,这对于数据中存在的异常值不是一种有效的方法。在本文中,我们首先提出了一类完全辅助信息的估计,然后针对数据中存在离群值的部分辅助信息提出了一种估计。为了解决这个问题,我们首先通过在现有估计量中引入L矩的特征,提出了一类不同的估计量。随后,分位数回归估计量被定义为在存在离群值时更稳健。这些技术使建议的估计器能够处理异常值问题。为了证明所提出的估计量具有更好的性能,使用R语言进行了数值研究。为了计算均方误差(MSE),针对自适应估计量和建议估计量表达了假设方程。对相对效率百分比(PRE)进行比较,以证明建议的估算值的合理性。

1.简介

辅助信息是抽样调查中解决数据集缺失问题的关键工具。通过使用辅助信息,可以提高均值估计的估计精度。1814年,拉普拉斯提出了一个想法,并证明了以简单而简洁的方式使用辅助信息的重要性。他发现了通过使用出生登记簿中提供的信息而不是对全国人口进行人口普查来估计国家人口的想法。但只有给出了年出生率,才能实现这一目标。此外,研究通常更侧重于数据,例如,可能的选民更喜欢大众化(或保守主义)政治舞台或在百货商店购物的客户的平均工资。研究者在使用人口普查数据时通常接受零差异;然而,在基于调查的评估中,通常不会忽略样本不一致性。专家的观点可以通过对一个或几个人口参数的非常有根据的假设来传达。少数专家可以对种群参数或基本分布施加一系列限制。总的来说,辅助信息可以是附带的两类信息,例如具有明确性质的辅助信息,例如人口普查信息、专家的假设或其他线性限制,另一类是已知的具有一定程度不确定性的信息,例如调查结果和先前分析的估计。有关详细研究,感兴趣的读者可以参考[15]。

人口参数的估计有几种估计方法,例如人口平均值、平均值、中位数、分位数和分布函数。这些估计量需要有关辅助变量和研究变量参数的信息。由于辅助信息的使用改善了估计员的估计结果,这也是抽样调查中的一种常见做法,因为它对于制定不同情况的抽样方案非常有用。辅助变量和学习变量之间的关系是线性关系。例如,在体重和身高的情况下,它们之间形成了线性关系。线性关系的另一个例子是需求和供应,随着需求增加,供应也会增加。在这些情况下,可以通过使用辅助信息来改进研究变量的估计结果。为了获取辅助信息,可以使用不同的来源,例如人口普查数据和通过实验或专家意见收集的已收集数据的结果或发现。这种类型的信息可以用在不同的方法中。通过人口普查收集的数据可以用来获得这些参数的可能性分布,例如年龄、体重和身高。辅助信息可在估算阶段或设计阶段使用,或两者都使用。如果通过利用辅助信息找到总体参数的估计值,则可以更有效地提高基于传统校准、比率和回归方法的估计结果的有效性。关于有效利用辅助信息估计总体参数的这些方法,发表了许多研究。例如,请参见[6]。

文章的其余部分安排如下:2,我们介绍了与本文相关的文献综述,给出了初始定义,并给出了自适应估计的详细信息。章节利用L矩的特征和分位数回归讨论了所提出的估计量。章节4阐述了所提出和自适应估计量的仿真研究和性能。章节5解释结果,并在第节中得出结论6.

2.使用L矩特征的自适应估计

有不同的技术可以消除数据中的异常值并使其正常用于分析。但随着统计学的发展,人们发现,当从数据中删除离群值时,由于不满足充分性假设,可能会影响结果的广泛性。根据统计充分性的假设,通过利用全部数据或信息进行分析,可以提高结果的准确性。但是,如果从数据中删除异常值以使其正常,则意味着实际数据或信息的某些部分被削减,这可能会影响结果。根据现代统计数据,离群值并不总是导致糟糕的结果,但有时也会提供非常有用的信息。因此,估计值的结果更加可靠,因为从这些估计值得出的信息更加全面、绝对和详尽。

有许多基于传统矩的估计值,但它们受到异常值的影响。当数据的结果曲线中出现极值或异常值尖峰时,L矩在这种情况下更加稳健。对于存在平均值的任何随机变量,L矩被定义为顺序统计的特定线性组合的期望值[7]. 软管插入19世纪形成了关于L矩的一般理论的基础,该理论总结和描述了理论概率分布,总结和描述观测数据的样本,估计参数和数量,以及分布的假设检验。该理论包括静态过程,如顺序统计的使用,并带来了一些有希望的创新,如峰度和偏度的测量,以及估计许多分布参数的新程序。L矩理论与传统矩理论相似,并以这种方式加以区分,它是数据的线性函数,能产生更有效的参数估计,受样本波动性影响较小,对数据中的异常值更有效,并且能够从小样本中对基本分布进行更安全的推断。L‐moments提供了一种广泛实用的工具。数据集的前几个样本L矩和L矩比的计算提供了绘制样本的位置、离散度和形状的有用总结。

许多研究人员(包括Shahzad et al[4]. 然而,我们将把与L矩相关的汇总统计数据与OLS回归系数结合起来:

在上面的方程式中,是总体平均数,而样本平均数表示为;尺寸样本n个是在简单随机抽样方案下从总体中抽取的。然而,可以是(0,1)或一些其他已知的总体度量。我们使用的是基于L动量的峰度,由L表示-基于L力矩的变化系数,用L表示-基于L矩的偏度表示为L-以L表示的基于L力矩的标准偏差- 是相关系数,OLS回归系数表示为.的均方误差(MSE)可以写为

因此,.此外,呈现无偏方差,以及是的协方差Y(Y)X(X)家庭成员见表1.

3.建议的分位数回归比率型估计类

通过将OLS回归系数替换为分位数回归系数,我们提出了以下类别的估计量,因为分位数回归对异常值更为稳健,并且当数据集遇到极值或异常值问题时,最好将其用于估计目的。分位数回归在存在离群值时提供了更好的估计,当我们使用分位数回归技术进行估计时,则无需从数据中消除离群值:连同

因此,是属于分位数的连续分段线性函数或损失函数这在.重要的是要注意具有与上述章节中已经解释过的相同含义。此外,是分位数回归系数,当变量。拟议估计器的均方误差(MSE)在数学上表示为

值得注意的是分位数用于本文的拟议工作。根据第5,我们观察到,通过使用分位数回归系数,该估计器的效率显著提高。此外,通过使用这三个提到的分位数,我们提出的类包含27个从属关系。为了可读性,我们提供了所建议类与MSE的27个从属关系,压缩形式如下所示哪里如前一节所述,具有相同的含义。有关在调查抽样中使用L矩特征的更多详细信息,请参见[811]. 表中提供了家庭成员2.

3.1. 两阶段抽样方案(部分信息)

当补充变量的信息对于总体平均值未知时,最好使用两阶段抽样方案。奈曼[12]被认为是人口参数概率抽样方法的先驱。两阶段抽样方法更简单、更可靠。该抽样计划用于通过从第一阶段抽样中选择有价值的样本和在第二阶段抽样中选取足够大的样本,更有效地找到有关补充变量的数据。为了研究更稳健的估算方法,请参考感兴趣的读者[1314]。

在两阶段抽样方案下,我们选择了一个大小为人口数量单位N个借助SRSWOR方法。然后,我们选择第二阶段样本,即。,是第一阶段的子样本。

3.2. 采用两阶段抽样方法的自适应估计和建议估计

因此,显示样本平均值为2阶段和是1的样本平均值标准阶段。此外,具有解释的类似含义。家庭成员如表所示12分别是。

使用泰勒级数方法,我们导出了如下所示:

因此,

通过使用协方差和方差的符号以及替换值和在方程式中(8),MSE公式可以写为

通过交换具有很容易找到拟议估计器族的MSE,如下所示:

因此,.

在部分信息下,拟议家庭与其MSE的27个家庭从属关系以压缩形式表示如下:

4.仿真研究

为了通过与现有估计器进行比较来评估该估计器的性能,我们使用了三种不同的总体。

人口-1:在pop-1中,将“1977年非房地产农场贷款总额”数据集作为辅助变量(X(X)),而“同年房地产贷款总额”作为研究变量(Y(Y)),其中.数据来自[15]。

现有估计器与而他们的平行拟议估值与.因此,每个现有估计器的结果及其相应的拟议估计器()在同一行中给出,例如在表中5以及现有和拟议估计器的相对效率百分比(PRE)表中也列出了5在部分信息下。

人口1:在第二人口中,使用了“美国谷物”数据,该数据由美利坚合众国65种常规谷物组成。该数据集是从数据包标签上的可用信息中收集的,Venables和Ripley也使用了该数据集[16]. 数据中有许多变量。但一份中的一克纤维应视为辅助变量(X(X)),而一克钾被视为研究变量(Y(Y)); 因此,.

人口2:在第三个人口中,我们还考虑了“美国谷物”数据[16]. 由于数据中有许多变量可用,因此我们在第三次模拟研究中使用了该数据集中的另一个变量。一份中的一克钠被视为辅助变量,而“卡路里数”被视为研究变量(Y(Y)). 因此,N个.

5.结果和讨论

在数值研究的基础上,结果如表所示5在完整和部分信息设置下。从这些表格中可以清楚地看出具有在建议的类中考虑的性能优于现有类的相应估计值,即。,.本文还证明了在部分信息情况下,所提出的估计量比现有估计量更有用,因为所提出估计量的PRE比自适应估计量高,这证明了所提出的估计器具有更好的性能。

6.结论

本文首先利用完全辅助信息,然后利用部分辅助信息,对均值估计提出了一类新的估计量。通过在现有估计器中引入L矩和分位数回归方法,显著提高了估计器的性能,如表中所示5。由于拟议估计器的PRE显著增加,因此有证据表明,拟议估计员的表现远远好于现有估计器。此外,该估计器对异常值更为稳健,并提供更好的估计。

6.1. 最后备注

在本文开头,Shahzad等人继续参与其中[4]对于抽样方法下的平均值估计,我们提出了一类分位数回归比型估计量,使用具有极值或离群值的非正态数据集的总体平均值的L矩。在给定辅助变量总体平均值的情况下,所提出的估计类优于现有的估计类。我们从数学上推导了MSE表达式。我们还针对我们提供了部分信息的情况建议了现有的和建议的类。为了证明所提估值器的有效性,使用了三个不同的实际数据集进行仿真。根据数值算例的结果,证明了该估计器对给定情况下的调查更有效。

数据可用性

用于支持研究结果的数据包括在本文中。

利益冲突

提交人声明,不存在利益冲突。