$\开始组$

我想知道样本量和变异系数(CV)之间的关系。CV定义为标准偏差与平均值的比值。我们可以说“较小的样本量会导致较大的CV,所以这种关系是负相关的”吗?

我们的情况:有许多小地区。每个区域都有自己的样本。值得注意的是,城市地区的样本规模较大,而农村地区的样本容量较小。现在,我们得到了面积服从泊松分布的数据。当我们分别计算所有地区的CV时,我们发现样本量较小的农村地区CV较大。我们想调查这是否是样本量的影响。

库(dplyr)库(rsample)cv<-函数(x){返回(sd(x)/平均值(x))}sim<-data.frame(id=1:100000,变量=rpois(100000,5),组10=样品(1:10100000,替换=真),group100=样本(1:100100000,替换=真),group1000=样本(1:1000100000,替换=真),group10000=样本(1:10000000000,替换=真))AA<-空G<-c(10100100010000)for(k in 1:4){对于(1:G[k]中的j){如果(k==1){一个<-dplyr::滤波器(sim,group10==j)}否则,如果(k==2){A<-dplyr::过滤器(sim,group100==j)}否则,如果(k==3){A<-dplyr::过滤器(sim,group1000==j)}否则,如果(k==4){A<-dplyr::filter(sim,group10000==j)}AA<-rbind(AA,c(G[k],j、,nrow(A),平均值(A$变量),var(A$变量),sd(A$变量),cv(A$变量)))}}AA<-as.data.frame(AA)列名(AA)<-c(“组”、“组N”、“N”、”平均值“、”变异“、”SD“、”CV“)封头(AA)尾部(AA)AA10<-AA%>%过滤器(组==10)AA100<-AA%>%过滤器(组==100)AA1000<-AA%>%过滤器(组==1000)AA10000<-AA%>%过滤器(组==10000)(cv(sim$变量))par(mfrow=c(1,4))绘图(AA10$N,AA10$CV,ylim=c(0,1.2),ylab=“CV”,xlab=“样本量”,main=“10组”)abline(h=cv(sim$变量),col=“red”)绘图(AA100$N、 AA100型$CV,ylim=c(0,1.2),ylab=“CV”,xlab=“样本大小”,main=“100组”)abline(h=cv(sim$变量),col=“红色”)绘图(AA1000$N,AA1000$CV,ylim=c(0,1.2),ylab=“CV”,xlab=“样本量”,main=“1000-组”)abline(h=cv(sim$变量),col=“red”)绘图(AA10000$N、 10000澳大利亚元$CV,ylim=c(0,1.2),ylab=“CV”,xlab=“样本大小”,main=“10000-组”)abline(h=cv(sim$变量),col=“red”)开发关闭()

在此处输入图像描述

$\端组$
18
  • 1
    $\开始组$ 快速回答:不。CV是一种无量纲指标,可以比较不同尺度的数据的可变性--样本大小不是一个考虑因素例如,血压的收缩和舒张指标的平均值和标准偏差不同。每个CV允许一个人确定哪个指标具有更多的可变性。 $\端组$ 5月12日1:17
  • 2
    $\开始组$ 这看起来不像是一项关于样本大小变化的研究,因为您是从不同的分布中进行采样的。你能解释一下你认为你的代码在运行吗? $\端组$
    ——沃伯
    5月12日18:03
  • 2
    $\开始组$ 这个问题没有任何意义,如果没有细节就无法回答。您假设数据的分布是什么?你的代码(应该)在做什么?它似乎模拟了四种样本大小,但您的图表显示了更多的样本大小。在后面的评论中,您讨论了CV与n相关的发现,但我在您的图表中看不到这一点。需要更多细节。 $\端组$ 5月12日20:05
  • 2
    $\开始组$ 这个问题和它的答案(我也是!)不太一致。第一个答案是针对最初的问题,简短到可以全部引用:我想知道样本量和变异系数(CV)之间的关系。CV定义为标准偏差与平均值的比值。我们可以说“样本量越大,变异系数越小,所以这种关系具有负相关性”吗?现在这个问题正在不规则地演变成一个关于(a)一些数据,(b)一些模拟结果,它们之间显然并不接近。 $\端组$ 5月14日17:32
  • 2
    $\开始组$ 我有一个尴尬的元问题,问起来很简单,但可能很难解决。为什么变异系数是你的经验项目的自然度量?当正的测量变量是SD与平均值大致成比例时,这一点最有意义,这正是计算它们的比率的原因。 $\端组$ 5月14日17:34

3个答案

重置为默认值
10
$\开始组$

样本大小n美元$对可观测的变异系数施加了上限。这些限制已被注意到,因此得出了以下结果,但在实践中并不常见。在我看来,采样变化通常是一个更大的问题。

Katsnelson和Kotz(1957)证明,只要所有数据都为零或正,那么变异系数就不能超过$\sqrt{n−1}$Longley(1952年)早些时候提到过这一结果。

Cramér(1946357)的结果不太明显,Kirby(1974)的结果也不太普遍。

Cramér,H.1946年。统计学的数学方法新泽西州普林斯顿:普林斯顿大学出版社。

Katsnelson,J.和S.Kotz。1957年。关于一些变异性度量的上限。《气象学、地球物理学和生物气候学档案》B辑8: 103–107.

Kirby,W.1974年。样本统计的代数有界性。水资源研究10: 220–222.

朗利,R.W.1952年。降水变化的测量。每月天气回顾80: 111–117.

请参见https://journals.sagepub.com/doi/pdf/10.1177/1536867X1001000311用于讨论样本偏度和峰度的类似极限。

$\端组$
7
$\开始组$

@戴夫按照你的建议。

快速回答:不。CV是一种无量纲指标,可以比较不同尺度下数据的可变性——不考虑样本大小。例如,血压的收缩和舒张指标的平均值和标准偏差不同。每个CV允许一个人确定哪个指标具有更多的可变性。

$\端组$
5
  • $\开始组$ 但是,平均值和标准偏差都包括计算它们的样本量。 $\端组$
    ——Tky公司
    5月12日3:32
  • 5
    $\开始组$ @计算结果如下按比例缩放根据样本大小,但参数是总体特征(它们是常数)。较小的样本估计这些参数的精度较低,这导致观测到的CV更为极端。 $\端组$
    ——P球
    5月12日9:07
  • $\开始组$ @我真的很感谢你的评论。是的,我确认了R代码的“较小的样本估计这些参数的精度较低”。我想确定一下你所说的“极端观察到的简历”是什么意思。你的意思是只对简历进行“高估”吗? $\端组$
    ——Tky公司
    5月12日11:47
  • $\开始组$ @不,它们在两个方向上都更极端(更大和更小;真实值的过高和过低估计)。你也可以在图中清楚地看到这一点——小样本量也会导致较小的观察到的CV。 $\端组$
    ——P球
    5月12日12:10
  • 2
    $\开始组$ @PBulls采样变化是主要问题,因此非常欢迎将您的意见转化为答案。 $\端组$ 5月12日17:22
7
$\开始组$

我们可以说“较小的样本量会导致较大的CV,所以这种关系是负相关的”吗?

你的图表显示了非常相似的变化系数$\frac{\sqrt{5}}{5}\约44.7\%$不同之处在于,样本并不总是具有这种精确的变异系数,并且对于较小的样本大小,CV的变异较大。


顺便说一句,您的代码非常冗长、间接且难以理解。

直接从具有不同样本大小的泊松分布中采样会更容易。例如

例子

设定种子(1)n=1:10000cv=rep(NA,长度(n))for(ni in n){x=rpois(ni,5)cv[ni]=sd(x)/平均值(x)}绘图(n,cv,pch=20)行(c(110000),c(1,1)*1/sqrt(5),col=2)
$\端组$

不是你想要的答案吗?浏览标记的其他问题问你自己的问题.