杂志的下一篇文章
用于近似贝叶斯计算的函数数据曲线配准
特刊下一篇
野生动物遥测数据的本福德定律
期刊上的上一篇文章
利用训练样本和测试样本推断线性IV模型岭估计
特刊上一篇文章
第一位数振荡
 
 
订购文章重印
字体类型:
宋体 佐治亚州 宋体,Verdana
字体大小:
澳大利亚 澳大利亚 澳大利亚
行距:
列宽:
背景:
第条

关于Benford定律符合性的一些新检验

通过
罗伊·塞尔奎蒂
1,†
克劳迪奥·卢皮
2,*
1
意大利罗马萨皮恩扎大学社会经济科学系,P.le Aldo Moro 5,I-00185 Rome
2
意大利坎波巴索I-86100 Via De Sanctis snc Molise大学经济系
*
信件应寄给的作者。
伦敦南岸大学商学院,103 Borough Road,London SE1 0AA,UK。
统计信息 2021,4(3) ,第745-761页;https://doi.org/10.3390/stats4030044
收到的提交文件:2021年7月19日/修订日期:2021年9月1日/接受日期:2021年9月2日/发布日期:2021年9月6日
(本文属于特刊Benford定律及其应用)

摘要

以下为:
本文提出了新的观点和方法论工具,用于验证Benford定律在大型给定数据集中的有效性。为此,我们首先提出了新的通用测试方法,用于检查给定数据集与通用目标分布的统计一致性;我们还提供了相关检验统计量的渐近分布的显式表示。然后,我们讨论了这种新型装置对本福德定律的适用性。我们进行了大量的蒙特卡罗模拟,以研究引入的测试的大小和能力。最后,我们讨论了具有挑战性的主题,即在大量观察数据存在的情况下,以统计可靠的方式解释两种分布之间的一致性。

1.简介

数据规则性是许多数据集的相关属性,这些数据集的元素在创建统一框架的同时保持其个性。此类统计特征的最具说明性的例子之一是年引入的Benford定律[1]并在中成功测试和描述[2]. Benford定律是一种魔术法则,对于它,给定数据集元素的第一个数字遵循特定的分布,以下称为本福德分布有关这项法律的所有细节,我们请感兴趣的读者参阅[,4,5,6].
本福德定律一点也不直观;然而,多年来,在弗兰克·本福德的论文出现很久之后(见[2])发现了几个坚实的理论动机和解释,从数学上验证了这一现象(参见参考文献[4,5,7,8,9,10,11,12]). 令人惊讶的是,这种数字模式在许多情况下都适用,在经济领域的数据集(例如[13,14,15,16])、会计(例如[17,18,19]),金融(例如[20,21,22,23,24,25])地球物理和水文学(例如[26,27,28])以及社会科学(例如[29,30,31]).
Benford定律的方法论方面在于如何测试给定样本的经验分布与Benford变量的一致性。这一问题的根源在于两个随机变量之间统计距离的定义,最常见的是X平方和平均绝对偏差(MAD)。
本文论述了这一具有挑战性的研究主题。具体来说,我们在此提出了一些新的测试,以验证从给定总体获得的经验分布的符合性。在这方面,我们提到了最近的贡献[32]作者建议根据平均值进行统计测试。在引用论文之后,我们首先介绍了基于均值的一致性测试。此外,我们还开发了一种基于方差的测试以及一种基于均值和方差的联合测试,用于验证给定分布与目标分布的符合性。此外,我们还提出了基于Wald统计的测试和基于MAD的测试的新版本。我们研究了所提出检验的渐近分布;此外,我们特别关注它们的大小和功率,这是通过一组大型蒙特卡罗模拟进行的研究。
我们还关注所谓的“权力过剩问题”。在这方面,我们提到了科索沃的批评([12],在本期特刊中),作者提到“本福德定律中错误使用了奇方检验”。从这个角度来看,我们还提到了选择临界阈值的主题,以使完全/边际/可接受地符合Benford定律(参见[,4]以及最近由[33]). 最后,利用重采样技术处理了“功率过剩问题”。
本文的其余部分组织如下:下一节介绍了新的测试并推导了它们的渐近零分布;第3节说明了在第一位和前两位Benford定律的相关情况下,为调查拟议测试的大小和功率特性而进行的广泛蒙特卡罗分析;“功率过剩问题”在第4节; 最后一节得出了一些结论。附录报告了一些进一步的技术细节。

2.符合本福德定律的新测试

在本节中,我们报告了符合Benford定律的新检验统计量及其渐近分布的分析推导。
提议1。 
考虑一个随机样本 x 1 , , x n个 来自均值μ、方差的总体 σ 2 ,以及第三和第四个中心力矩 μ μ 4 。假设所有力矩直到第四个力矩都是有限的。 x ¯ n个 n个 2 分别为样本均值和样本方差。然后:
x ˜ n个 以下为: = n个 x ¯ n个 μ σ   d日 N个 ( 0 , 1 ) ;
˜ n个 2 以下为: = n个 n个 2 σ 2 μ 4 σ 4   d日 N个 ( 0 , 1 ) ;
n个 μ σ 以下为: = x ˜ n个 + ˜ n个 2 2 1 + μ σ μ 4 σ 4 1 2   d日 N个 ( 0 , 1 ) ;
w个 μ σ 以下为: = x ˜ n个 , ˜ n个 2 1 μ σ μ 4 σ 4 μ σ μ 4 σ 4 1 1 x ˜ n个 ˜ n个 2 = z(z) n个 1 z(z) n个   d日 χ 2 ( 2 ) ,
具有 z(z) n个 表示的转置 z(z) n个
证明。 
证明(1)和(2)参见,例如[34](定理10.1)。
为了证明(),首先要注意:
冠状病毒 ( x ˜ n个 , ˜ n个 2 ) = n个 σ n个 μ 4 σ 4 冠状病毒 ( x ¯ n个 , n个 2 )
= n个 σ μ 4 σ 4 μ n个
= μ σ μ 4 σ 4
哪里 冠状病毒 ( x ¯ n个 , n个 2 ) = μ / n个 参见[35]; ()然后从(1)和(2)并根据相关随机变量之和的方差规则。
现在让我们定义 z(z) n个 以下为: = ( x ˜ n个 , ˜ n个 2 ) Cramér–Wold装置意味着 z(z) n个 是(渐近)多元正态的,如果 λ z(z) n个 是(渐近)一元正态的 λ R(右) 2 然而,每个 λ R(右) 2 定义两个(渐近)正态变量的线性组合 λ z(z)是平凡的(渐近的)单变量正态。因此:
n个 x ˜ n个 ˜ n个 2   d日 N个 0 0 , 1 μ σ μ 4 σ 4 μ σ μ 4 σ 4 1 N个 ( 0 , )
和(4)如下所示。
备注 1 
命题1中所述的结果可用于测试任何给定分布的一致性(拟合优度),直到第四个有限矩。如果μ,σ, μ 、和 μ 4 是Benford分布的那些,那么方程(1)可用于建立基于平均值的一致性测试:哈斯勒和侯赛因库恰克最近确实提出了这种测试[32]. 方程式(2)是基于方差的正常一致性测试的基础,而()可用于基于均值和方差联合构建正态一致性测试。最后(4)是一种结合考虑均值和方差的齐方一致性检验。
备注 2 
当参照正态分布测试一致性时(4)简化是因为 μ = 0 :的确,在正态分布下,样本均值和样本方差是独立的:样本均值和方差对于任何其他分布都不是独立的随机变量,如[36].
提议2。 
考虑一个随机样本 x 1 , , x n个 从离散随机变量 k个 n个 具有单个概率的类 第页 以下为: = ( 第页 1 , , 第页 k个 ) ,带有 第页 j 0 j { 1 , , k个 } .让 如果 n个 以下为: = ( 如果 n个 1 , 如果 n个 k个 ) 是p的一致估计并定义 e(电子) n个 以下为: = ( e(电子) n个 1 , , e(电子) n个 k个 ) = 如果 n个 第页 以下为: = 诊断 ( 第页 ) 第页 第页 然后:
w个 以下为: = n个 e(电子) n个 * * 1 e(电子) n个 *   d日 χ 2 ( k个 1 )
哪里 e(电子) n个 * 以下为: = ( e(电子) n个 1 , , e(电子) n个 , k个 1 ) * 是由第一个 k个 1 行和列 此外:
M(M) A类 D类 以下为: = n个 k个 j = 1 k个 如果 n个 j 第页 j 第页 j ( 1 第页 j )   d日 N个 2 π , 1 k个 2 = 1 k个 j = 1 k个 第页 j
哪里:
第页 j = 2 π ρ j 电弧正弦 ( ρ j ) + 1 ρ j 2 2 π
以及:
ρ j = 第页 第页 j ( 1 第页 ) ( 1 第页 j )
证明。 
为了证明(9),让 j 以下为: = 1 X(X) = j 具有 1 κ 是指示函数,当条件为 κ 则满足,否则为0。此外, j 伯尔尼 ( 第页 j ) S公司 n个 j 以下为: = = 1 n个 j 比诺姆 n个 第页 j , n个 第页 j ( 1 第页 j ) 然后:
e(电子) n个 j 以下为: = S公司 n个 j n个 第页 j n个 第页 j ( 1 第页 j ) = n个 S公司 n个 j n个 第页 j 第页 j ( 1 第页 j ) = n个 如果 n个 j 第页 j 第页 j ( 1 第页 j ) = n个 e(电子) n个 j 第页 j ( 1 第页 j )   d日 N个 ( 0 , 1 )
通过中心极限定理。此外 e(电子) n个 = 诊断 ( 第页 ) 第页 第页 ,如图所示[37]. 再次调用Cramér–Wold设备 n个   e(电子)   d日 N个 ( 0 , ) 和(9)是一个Wald-like统计,带有 χ 2 ( k个 1 ) 零下的极限分布[38](第71页)。
为了证明(10),我们利用这个事实,如果 ( 0 , 1 ) ,然后查看[36]:
E类 | | = 2 π
此外:
无功功率,无功功率 ( | | ) = E类 ( | | 2 ) E类 ( | | ) 2 = 2 π 0 2 e(电子) 2 2 d日 2 π = 1 2 π
因此,通过(13):
n个 e(电子) n个 j 以下为: = n个 如果 n个 j 第页 j 第页 j ( 1 第页 j )   d日 N个 2 π , 1 2 π
此外, n个 e(电子) n个 以下为: = n个 ( e(电子) n个 1 , , e(电子) n个 k个 )   d日 N个 ı 2 π , R(右) 由Cramér–Wold设备提供 ı k个-一的向量。
利用以下事实 ( X(X) , ) 具有均值为0,方差为的二元正态分布 ı 和相关性 θ ,然后[39]:
E类 | X(X) | | | = 2 π θ 电弧正弦 ( θ ) + 1 θ 2
因此:
E类 | e(电子) n个 | | e(电子) n个 j | = 2 π ρ j 电弧正弦 ( ρ j ) + 1 ρ j 2
哪里 ρ j 是之间的相关性 e(电子) n个 e(电子) n个 j 以下为:
ρ j = 第页 第页 j ( 1 第页 ) ( 1 第页 j )
然后,请注意:
冠状病毒 | e(电子) n个 | | e(电子) n个 j | = E类 | e(电子) n个 | | e(电子) n个 j | E类 | e(电子) n个 | E类 | e(电子) n个 j | = 2 π ρ j 电弧正弦 ( ρ j ) + 1 ρ j 2 2 π
因此,协方差矩阵R(右)是:
R(右) = 第页 11 第页 12 第页 1 k个 第页 12 第页 22 第页 2 k个 第页 1 k个 第页 2 k个 第页 k个 k个 = 第页 j
具有:
第页 j = 2 π ρ j 电弧正弦 ( ρ j ) + 1 ρ j 2 2 π
最后:
n个 k个 j = 1 k个 e(电子) n个 j = 1 k个 j = 1 k个 n个 如果 n个 j 第页 j 第页 j ( 1 第页 j )   d日 N个 2 π , 1 k个 2 ı R(右) ı
备注3。 
命题2中所述的结果可用于测试任何给定离散分布的一致性(拟合优度),并在以下情况下专门适用于第一位或前两位Benford定律 第页 = 日志 10 ( 1 + 1 / d日 ) ,使用其中之一 d日 = 1 , , 9 d日 = 10 , , 99 .给(9)是一种Wald-like测试,而(10)是中提倡的平均绝对偏差(MAD)统计的修正[,40],其中每个绝对偏差由系数调整 1 / 第页 j ( 1 第页 j ) 从而强调与较小预期频率的偏差,并将样本量n的平方根作为偏差测量的一个因素。
备注4。 
Wald-like系列 χ 2 中的统计信息(9)与通常情况相同 χ 2 计算为 n个 j = 1 k个 e(电子) n个 j 2 / 第页 j .一个证明,它也证明了 * 是非奇异的,在中提供附录A
备注5。 
方程式(10)明确表明,与通常所断言的相反,例如[](第158页) M(M) A类 D类 统计的:
M(M) A类 D类 以下为: = 1 k个 j = 1 k个 如果 n个 j 第页 j
不独立于n,事实上, O(运行) 第页 n个 1 2

3.蒙特卡罗模拟

针对不同的样本量,在25000次蒙特卡罗复制中研究了拟议测试的大小(错误拒绝零假设的概率)和威力(当零假设为假时,测试拒绝零假设能力)n个,在空值和选定的有趣替代项下(所有计算和图形都是使用R版本4.0.5生成的[41]和ggplot2,版本3.3.3[42]). 每个备选方案均以混合物表示:
第页 = λ 第页 B类 + ( 1 λ ) 第页 A类
哪里 第页 B类 以下为: = ( 第页 B类 1 , , 第页 B类 k个 ) 是Benford概率的向量, 第页 A类 以下为: = ( 第页 A类 1 , , 第页 A类 k个 ) 是某些“污染”分布的概率向量,以及k个是位数。 λ { 0.75 , 0.80 , , 0.95 } 是混合参数。在处理数据操作问题时, 1 λ 可以解释为操纵数据的一部分。
模拟中使用了以下混合物:
  • 均匀混合物: 第页 A类 描述了与所考虑的Benford分布具有相同支持度的离散均匀分布;
  • 正常混合物: 第页 A类 是的概率 N个 ( μ B类 , σ 2 ) ,带有 μ B类 Benford分布的平均值和 σ = 4 μ B类 ;
  • 随机扰动混合物:本福德定律被对应于每个数字的随机量所扰动。更准确地说, 第页 A类 = u个 第页 B类 具有 u个 单位 ( 0 , 2 第页 B类 ) 。由于此混合包含随机性元素,因此每个蒙特卡罗迭代使用不同的混合。然而,所有试验的混合物都是相同的;
  • 欠报混合:在替代方案下,通过将“四舍五入”数字的概率置零并将此概率赋给前面的数字来修改Benford的分布:例如, 第页 A类 20 = 0 第页 A类 19 = 第页 B类 19 + 第页 B类 20 。此混合物仅参考前两位数字的情况。
上述混合物绘制于图1对于第一个两位数的案例。每种混合物的相应数据由向量概率的多项式分布生成。为了减少蒙特卡洛变异性,所有测试都应用于相同的数据,较大的样本包括较小样本的观察结果。
我们不是报告冗长且难以比较的结果表,而是通过图形方法总结模拟结果(如[43,44]). 为了总结测试的尺寸特性,我们绘制了尺寸偏差(即。, c(c) t吨 u个 z(z) e(电子) n个 n个 z(z) e(电子) )相对于标称尺寸。当不存在尺寸畸变时, c(c) t吨 u个 z(z) e(电子) = n个 n个 z(z) e(电子) ,该图与纵坐标为零的水平线重合;然而,这只是一个理论案例,因为在实践中,尺寸偏差往往会反映实验的随机性。为了报告功率结果,我们使用尺寸-功率曲线:这些曲线使我们能够轻松地将每个测试的功率与其对应起来实际的(而不是名义上的)并在完全公平的基础上比较不同测试的威力。这条线 第页 w个 e(电子) 第页 = c(c) t吨 u个 z(z) e(电子) 也作为参考报告,表示无实际用途测试的性能(在空值和备选方案下的拒绝分数相同);尺寸-功率曲线离这条线越远,测试越有力。

3.1. 第一位数定律

无论样本大小如何,测试通常都具有很好的尺寸特性,尺寸偏差约为零(参见图2). 只有修改后的MAD测试在对应5%标称尺寸的空值(相对于标称尺寸有+0.01的偏差)下倾向于略微过度拒绝。换言之,与5%标称尺寸相对应的修正MAD试验的实际尺寸约为6%,对于较大的标称尺寸,差异趋于减小。
就权力而言,不同测试的表现取决于所考虑的具体替代假设。正态均值检验(1)在存在均匀混合替代方案的情况下是最强大的(图3),然后是 χ 2 ( 2 ) 均值和方差检验(4)均值和方差的正态检验().
在有正常混合替代品的情况下(图4),的 χ 2 ( 2 ) (4)和均值的正态检验(1)表现最好,其次是调整后的MAD(10)和Wald-like χ 2 ( d日 1 ) 测试(9).
最后,在存在扰动Benford分布的情况下(图5),最高功率由 χ 2 ( d日 1 ) (9)和调整后的MAD(10)测试,然后是 χ 2 ( 2 ) 测试(4).

3.2. 前两位数定律

所有测试的大小都大致正确,即使是在样本很小的情况下(参见图6). 与标称尺寸相关的所有偏差均在 ± 0.005 ,唯一的例外是普通的X平方检验,它显示了 0.010 与通常使用的标称尺寸值相对应 n个 = 250
正如预期的那样,测试的功率性能关键取决于备选方案。基于平均值的正态检验(1)在这里考虑的测试中,在均匀混合替代方案的存在下,是最有力的测试(参见图7). 这个 χ 2 ( 2 ) 均值和方差检验(4)以及均值和方差的正态检验()在短距离内跟随。
在有正常混合替代品的情况下(参见图8),的 χ 2 ( 2 ) 测试(4)是最有力的,其次是正态方差检验(2). 值得注意的是,在第一位数的情况下,正态方差检验没有幂;在这里,正态均值检验没有效力。其他测试通常在前两位比第一位更强大。
当备选方案可以描述为“扰动Benford”分布时(图9)或在舍入行为方面(图10),然后是 χ 2 ( d日 1 ) 在“经典”或等效Wald公式中(9)和修改后的MAD(10)性能非常接近,是迄今为止最强大的测试。测试顺序与第一个数字的情况相同;然而,在第一个数字的情况下,测试通常更强大。
这些结果表明,在应用中,通常最好不要依赖单个测试,而是使用一组不同的测试来检测与零的特定偏差。

4.统计与实际意义

1998年,格兰杰[45](第260页)指出,在存在非常大的数据集的情况下:
“使用现行标准,几乎所有具体的零假设都将被拒绝。可能有必要用一些经济重要性指标来取代统计重要性的概念。”
这显然与以下事实有关:任何一致性检验的效力都会随着样本量的增加而增加n个即。, π 1 作为 n个 (带有 π 表示测试的威力)。当然,一致性是任何统计测试都需要的属性。对称的情况下n个在典型样本量较大的情况下,在Benford定律的经验应用中,其相关性稍低。然而,已经观察到,在样本量较小的情况下标准一致性测试可能会严重缺乏效力(参见,例如[12]). 在我们的背景下n个需要近似测试渐近分布)。
事实上n个林德利在1957年的一篇论文中已经强调了“问题”和一些相关的明显矛盾的含义[46]. “大n个问题“困扰着本福德分布一致性的实证检验,在关于本福德定律的文献中广泛存在(如尼格里尼的贡献[,40]以及本期特刊中的科索夫斯基论文[12]). 事实上,尼格里尼[](第158页)声称:
“需要的是忽略记录数的测试。平均绝对偏差( M(M) A类 D类 )test就是这样一种测试,公式如方程式7.7所示。[…]没有提及记录的数量,N个,见方程式7.7。”
然而,尼格里尼的声明 M(M) A类 D类 不依赖于观测值的数量,只有在给出数据的数字相对频率而不是估计的情况下才有效。必须根据观测数据估计相对频率,这使得 M(M) A类 D类 取决于样本量,尽管MAD公式中没有明确显示样本量。事实上,在命题2中,我们证明了尼格里尼 M(M) A类 D类 O(运行) 第页 n个 1 2 根据Benford的分配(见上文备注5)。的确,图11清楚地表明 M(M) A类 D类 完全符合 1 / n个 在null下:因此,为 M(M) A类 D类 无论样本大小如何,都可能导致有偏见的结论。
对于大数据集中微小的无趣偏差,拒绝(本福德定律)零假设的风险可以用两种不同的方式处理:(i)使用显著性水平 α n个 随增加而减少n个; (ii)使用“由于n个引导程序[47]评估重要性。在下文中,我们将具体参考“前两位数字”的情况来解释第二种方法。
如果可用样本非常大(例如。, n个 > 3000 )然后,这个想法是在从原始数据中随机重采样的大量较小样本上重复测试一致性。如果观测值是独立的、同分布的(IID),那么较小的样本将具有与原始数据相同的分布,从而可以检查较小数据集的一致性。在这样做的过程中,我们牺牲了一些能力,以便只检测“有趣的”(或相当大的)偏离null的情况。测试统计数据是在大量随机子样本上计算的,这一事实使我们能够推导出统计数据的分布,而不依赖于单个结果。整个过程举例如下图12如果数据符合“前两位数字”Benford定律(图中第一行),以及可能与零位(第二行)的无趣偏差和与零位的更大偏差(第三行)。在这个例子中,随机子样本由1750个观察值组成,与图11,表示将0.0022作为MAD的“临界值”与n个=1750确保Nigrini测试的近似值为5%。考虑的测试是 M(M) A类 D类 根据我们的模拟结果,在存在扰动的Benford替代方案时,那些是最强大的(参见图9). 第三列(面板C、F、I)图12报告了超过5000个长度随机子样本的常规(或Wald)齐方检验统计量的估计密度n个=1750(蓝色曲线)以及 χ 2 ( 89 ) 零分布(红色)。优势概率(一种效果大小的度量,对应于实验曲线下的随机选择点大于零曲线下的任意选择点的概率:参见,例如[48](第11章))也对这两种分布进行了比较。
面板A–C英寸图12表明一致性无效未被拒绝:该结论使用完整样本(面板A)以及单个子样本(面板B)或5000个随机子样本(板C)继续。在“无趣”备选方案下,使用二次方或调整后的 M(M) A类 D类 测试,但使用固定的“临界值”0.0022 M(M) A类 D类 (面板D)。使用子样本,没有一个标准能够决定性地拒绝空值,这表明数据与空值的偏差很小。当偏差较大时(面板G–I) M(M) A类 D类 仍然不能拒绝完整样本中的null(图G),而第页其他两个测试的值实际上为零。在单个子样本中,所有三个标准都正确地拒绝了一致性无效(面板H),面板I显示,在齐方检验中的“影响大小”很大,优势概率约为0.9。

5.结论

本文介绍了用前四个有限矩检验给定分布的一致性的新方法。然后,测试专门针对第一位数字和前两位数字本福德定律的特殊情况。进行了广泛的蒙特卡罗分析,以研究测试的大小和功率特性。结果表明,根据替代假设的性质,考虑到不同的测试表现不同,建议在实际应用中使用不同的测试。
本文还解决了超大样本下测试的“功率过剩”问题:基于重采样技术的拟议解决方案似乎能够调和来自MAD标准的证据(如[])通过可靠的基于统计的测试。

作者贡献

两位作者对这项工作的贡献是一样的。两位作者都阅读并同意手稿的出版版本。

基金

这项研究没有得到外部资助。

致谢

作者感谢三位匿名审稿人的评论和建设性批评。

利益冲突

作者声明没有利益冲突。

附录A

备注证明4。 
为了简单且不失通用性,我们考虑 k个 = 类。 第页 以下为: = ( 第页 1 , 第页 2 , 第页 ) 如果 n个 以下为: = ( 如果 n个 1 , 如果 n个 2 , 如果 n个 ) 是这样的 第页 0 、和 ı 第页 = ı 如果 n个 = 1 具有 ı 以下为: = ( 1 , 1 , 1 )
“经典”卡方统计是:
χ 2 = = 1 n个 如果 n个 n个 第页 2 n个 第页 = n个 如果 n个 1 第页 1 2 第页 1 + 如果 n个 2 第页 2 2 第页 2 + 如果 n个 第页 2 第页 = n个 第页 1 第页 2 第页 如果 n个 1 第页 1 2 第页 2 第页 + 如果 n个 2 第页 2 2 第页 1 第页 + 如果 n个 第页 2 第页 1 第页 2 = n个 第页 1 第页 2 第页 如果 n个 1 第页 1 2 第页 2 + 如果 n个 2 第页 2 2 第页 1 ( 1 第页 1 第页 2 ) + 第页 1 如果 n个 1 + 第页 2 如果 n个 2 2 第页 1 第页 2 = n个 第页 1 第页 2 第页 如果 n个 1 第页 1 2 第页 2 如果 n个 1 第页 1 2 第页 1 第页 2 如果 n个 1 第页 1 2 第页 2 2 + 如果 n个 2 第页 2 2 第页 1 如果 n个 2 第页 2 2 第页 1 2 如果 n个 2 第页 2 2 第页 1 第页 2 + 如果 n个 1 第页 1 2 第页 1 第页 2 + 如果 n个 2 第页 2 2 第页 1 第页 2 + 2 第页 1 如果 n个 1 第页 2 如果 n个 2 第页 1 第页 2 = n个 第页 1 第页 2 第页 如果 n个 1 第页 1 2 第页 2 如果 n个 1 第页 1 2 第页 2 2 + 如果 n个 2 第页 2 2 第页 1 如果 n个 2 第页 2 2 第页 1 2 + 2 第页 1 如果 n个 1 第页 2 如果 n个 2 第页 1 第页 2
请注意 在这种情况下是:
= 诊断 ( 第页 ) 第页 第页 = 第页 1 第页 1 2 第页 1 第页 2 第页 1 第页 第页 1 第页 2 第页 2 第页 2 2 第页 2 第页 第页 1 第页 第页 2 第页 第页 第页 2
并且决定了 * 是:
* = 第页 1 第页 1 2 第页 2 第页 2 2 第页 1 2 第页 2 2 = 第页 1 第页 2 第页 1 第页 2 2 第页 1 2 第页 2 = 第页 1 第页 2 1 第页 1 第页 2 = 第页 1 第页 2 第页
它与零不同,除非 第页 s为零,这被假设排除了。因此, * 总是可逆的。
Wald统计 χ W公司 2 可以显式地写为
w个 以下为: = n个 如果 n个 1 第页 1 , 如果 n个 2 第页 2 * 1 如果 n个 1 第页 1 如果 n个 2 第页 2 = n个 第页 1 第页 2 第页 如果 n个 1 第页 1 , 如果 n个 2 第页 2 第页 2 第页 2 2 第页 1 第页 2 第页 1 第页 2 第页 1 第页 1 2 如果 n个 1 第页 1 如果 n个 2 第页 2 = n个 第页 1 第页 2 第页 如果 n个 1 第页 1 第页 2 第页 2 2 + 如果 n个 2 第页 2 第页 1 第页 2 如果 n个 2 第页 2 第页 1 第页 1 2 + 如果 n个 1 第页 1 第页 1 第页 2 如果 n个 1 第页 1 如果 n个 2 第页 2 = n个 第页 1 第页 2 第页 如果 n个 1 第页 1 2 第页 2 第页 2 2 + 如果 n个 1 第页 1 如果 n个 2 第页 2 第页 1 第页 2 + 如果 n个 2 第页 2 2 第页 1 第页 1 2 + 如果 n个 1 第页 1 如果 n个 2 第页 2 第页 1 第页 2 = n个 第页 1 第页 2 第页 如果 n个 1 第页 1 2 第页 2 第页 2 2 + 如果 n个 2 第页 2 2 第页 1 第页 1 2 + 2 如果 n个 1 第页 1 如果 n个 2 第页 2 第页 1 第页 2 = n个 第页 1 第页 2 第页 如果 n个 1 第页 1 2 第页 2 如果 n个 1 第页 1 2 第页 2 2 + 如果 n个 2 第页 2 2 第页 1 如果 n个 2 第页 2 2 第页 1 2 + 2 如果 n个 1 第页 1 如果 n个 2 第页 2 第页 1 第页 2
等于(A1)。

工具书类

  1. 纽科姆,S.注:自然数中不同数字的使用频率。美国数学杂志。 1881,4, 39–40. [谷歌学者] [交叉参考] [绿色版本]
  2. Benford,F.反常数定律。程序。美国菲洛斯。Soc公司。 1938,78, 551–572. [谷歌学者]
  3. M.J.尼格里尼。Benford定律:法务会计、审计和欺诈检测的应用; 约翰·威利父子公司:美国新泽西州霍博肯,2012年。[谷歌学者] [交叉参考]
  4. 阿联酋科索沃。本福德定律:理论、相对量的一般定律和法医欺诈检测应用; 《世界科学:新加坡》,2014年。[谷歌学者]
  5. 伯杰,A。;希尔,T.P。本福德定律导论; 普林斯顿大学出版社:美国新泽西州普林斯顿,2015年。[谷歌学者]
  6. Miller,S.J.(编辑)本福德定律:理论与应用; 普林斯顿大学出版社:美国新泽西州普林斯顿,2015年。[谷歌学者]
  7. Raimi,R.A.第一个数字问题。美国数学。周一。 1976,83, 521–538. [谷歌学者] [交叉参考]
  8. Hill,T.P.有效数字定律的统计推导。统计科学。 1995,10, 354–363. [谷歌学者] [交叉参考]
  9. Leemis,L.Benford的《法律几何》。本福德定律:理论与应用; Miller,S.J.,编辑。;普林斯顿大学出版社:美国新泽西州普林斯顿,2015;第4章;第109-118页。[谷歌学者]
  10. Miller,S.J.(编辑)傅里叶分析和本福德定律。本福德定律:理论与应用; 普林斯顿大学出版社:美国新泽西州普林斯顿,2015年;第3章;第68–105页。[谷歌学者]
  11. Schürger,K.Lévy过程和Benford定律。本福德定律:理论与应用; Miller,S.J.,编辑。;普林斯顿大学出版社:美国新泽西州普林斯顿,2015;第6章;第135–173页。[谷歌学者]
  12. A.E.Kossovsky关于Benford定律中错误使用切分检验。统计信息 2021,4,27。[谷歌学者] [交叉参考]
  13. Ausloos,M。;Cerqueti,R。;Mir,T.A.评估可能的税收操纵的数据科学:意大利案例。混沌孤子分形 2017,104, 238–256. [谷歌学者] [交叉参考] [绿色版本]
  14. Mir,T.A。;Ausloos,M。;Cerqueti,R.Benford定律预测了总所得税的数字分布:意大利城市和地区惊人的一致性。欧洲物理学。J·B 2014,87, 1–8. [谷歌学者] [交叉参考] [绿色版本]
  15. Nye,J。;《数字的政治经济学:本福德定律在国际宏观经济统计中的应用》。BE J.宏观经济学。 2007,7, 17. [谷歌学者] [交叉参考]
  16. Tödter,《K.H.Benford定律作为经济学欺诈指标》。德国。经济。版次。 2009,10, 339–351. [谷歌学者] [交叉参考]
  17. 杜奇,C。;西尔利森。;Pacini,C.有效利用本福德定律来协助发现会计数据中的欺诈行为。J.法医账户。 2004,5, 17–34. [谷歌学者]
  18. 尼格里尼,M.J.我有你的电话号码。J.账户。 1999,187, 79–83. [谷歌学者]
  19. 史J。;Ausloos,M。;Zhu,T.Benford定律是测试发展中国家财务报告可靠性的第一个有效数字和分布距离。物理。统计力学。申请。 2018,492, 878–888. [谷歌学者] [交叉参考] [绿色版本]
  20. Ley,E.关于美国股指数字的特殊分布。美国统计局。 1996,50, 311–313. [谷歌学者] [交叉参考]
  21. Ceuster,M.J.D。;Dhane,G。;Schatteman,T.关于股票市场中的心理障碍假说和本福德定律。J.恩皮尔。财务。 1998,5, 263–279. [谷歌学者] [交叉参考]
  22. Clippe,P。;Ausloos、M.Benford定律和金融数据的泰尔变换。物理。统计力学。申请。 2012,391, 6556–6567. [谷歌学者] [交叉参考] [绿色版本]
  23. Mir,T.A.全球非法资金流动的领先数字分布。资格。数量。 2014,50, 271–281. [谷歌学者] [交叉参考] [绿色版本]
  24. Ausloos,M。;卡斯特拉诺,R。;Cerqueti,R.《信用违约掉期的规则与差异:通过Benford定律的数据科学方法》。混沌孤子分形 2016,90, 8–17. [谷歌学者] [交叉参考] [绿色版本]
  25. 里奇奥尼,J。;Cerqueti,R.《金融市场的常规路径:调查本福德定律》。混沌孤子分形 2018,107, 186–194. [谷歌学者] [交叉参考]
  26. Sambridge,M。;Tkalć,H。;Jackson,A.Benford的自然科学定律。地球物理学。Res.Lett公司。 2010,37. [谷歌学者] [交叉参考]
  27. 迪亚兹,J。;Gallart,J。;Ruiz,M.论Benford定律检测地震和识别地震信号的能力。地震。Res.Lett公司。 2014,86, 192–201. [谷歌学者] [交叉参考] [绿色版本]
  28. Ausloos,M。;Cerqueti,R。;Lupi,C.水文地质时间序列的长期特性和数据有效性:以帕格利亚河为例。物理。统计力学。申请。 2017,470, 39–50. [谷歌学者] [交叉参考] [绿色版本]
  29. Mir,T.领先数字法则和世界宗教。物理。统计力学。申请。 2012,391, 792–798. [谷歌学者] [交叉参考] [绿色版本]
  30. Mir,T.宗教活动数据的本福德定律行为。物理。统计力学。申请。 2014,408, 1–9. [谷歌学者] [交叉参考] [绿色版本]
  31. Ausloos,M。;Herteliu,C。;Ileanu,B.Benford出生数据定律的崩溃。物理。统计力学。申请。 2015,419, 736–745. [谷歌学者] [交叉参考] [绿色版本]
  32. 哈斯勒,美国。;Hosseinkouchack,M.测试纽康-本福德定律:实验证据。申请。经济。莱特。 2019,26, 1762–1769. [谷歌学者] [交叉参考]
  33. Cerqueti,R。;Maggi,M.数据有效性和与本福德定律的统计一致性。混沌孤子分形 2021,144, 110740. [谷歌学者] [交叉参考]
  34. O.林顿。概率论、统计学和计量经济学; 学术出版社:英国伦敦,2017年。[谷歌学者]
  35. Zhang,L.样本均值和样本方差:它们的协方差及其(In)依赖性。美国统计局。 2007,61, 159–160. [谷歌学者] [交叉参考]
  36. 正常样本平均偏差与标准偏差之比的Geary、R.C.矩。生物特征 1936,28, 295. [谷歌学者] [交叉参考]
  37. 乔拉基安,V。;洛克哈特,R.A。;Stephens,M.A.Cramér-von Mises离散分布统计。可以。J.统计。 1994,22, 125–137. [谷歌学者] [交叉参考]
  38. 怀特,H。计量经济学的渐近理论; 经济理论、计量经济学和数理经济学;学术出版社:英国伦敦,1984年。[谷歌学者]
  39. 韦纳,J.A。;Smythe,R.T.计算两个布朗面积积分的协方差。内尔统计局。 2002,56, 101–109. [谷歌学者] [交叉参考] [绿色版本]
  40. Drake,P.D。;Nigrini,M.J.使用本福德定律的计算机辅助分析程序。J.账户。教育。 2000,18, 127–146. [谷歌学者] [交叉参考]
  41. R开发核心团队。R: 统计计算语言与环境; R统计计算基金会:奥地利维也纳,2019年。[谷歌学者]
  42. 威克姆,H。ggplot2:用于数据分析的优雅图形; 使用R!施普林格:美国纽约州纽约市,2016年。[谷歌学者]
  43. 戴维森,R。;MacKinnon,J.G.《研究假设检验的大小和功效的图形方法》。曼奇。附表。 1998,66, 1–26. [谷歌学者] [交叉参考]
  44. Lloyd,C.J.估算根据尺寸调整的试验功率。J.统计计算。模拟。 2005,75, 921–934. [谷歌学者] [交叉参考]
  45. Granger,C.W.从超大屏幕和高频数据中提取信息。内尔统计局。 1998,52, 258–272. [谷歌学者] [交叉参考]
  46. Lindley,D.V.《统计悖论》。生物特征 1957,44, 187–192. [谷歌学者] [交叉参考]
  47. 比克尔,P.J。;Götze,F。;van Zwet,W.R.重新取样少于n个观察结果:收益、损失和损失补救措施。威廉·范·茨威特作品选; 施普林格:美国纽约州纽约市,2011年;第267-297页。[谷歌学者] [交叉参考] [绿色版本]
  48. 卡明,G。理解新统计:效应大小、置信区间和元分析; 劳特利奇:美国纽约州纽约市,2012年。[谷歌学者]
图1。前两位数Benford定律(红色)的概率函数与替代假设下使用的混合物的概率函数(蓝色)进行比较。在图中,混合参数 λ = 0.6 被用来夸大视觉效果。较大的值 λ 模拟中使用了,结果是备选方案下的分布更接近于零下的分布。
图1。前两位数Benford定律(红色)的概率函数与替代假设下使用的混合物的概率函数(蓝色)进行比较。在图中,混合参数 λ = 0.6 被用来夸大视觉效果。的较大值 λ 模拟中使用了,结果是备选方案下的分布更接近于零下的分布。
统计数字04 00044 g001
图2。第一位数测试:实际尺寸与标称尺寸的偏差。测试如下:“调整MAD”,调整MAD(10); “Chi-sq(2)”, χ 2 ( 2 ) 均值和方差检验(4); “Chi-sq(d-1)”, χ 2 ( 8 ) 测试(9); “平均值”,平均值的正态检验(1); “均值和方差”,均值和方差的正态检验(); “方差”,方差的正态检验(2). 观察次数显示在每个面板的顶部。
图2。第一位数测试:实际尺寸与标称尺寸的偏差。测试如下:“调整MAD”,调整MAD(10); “Chi-sq(2)”, χ 2 ( 2 ) 均值和方差检验(4); “卡平方(d-1)”, χ 2 ( 8 ) 测试(9); “平均值”,平均值的正态检验(1); “均值和方差”,均值和方差的正态检验(); “方差”,方差的正态检验(2). 观察次数显示在每个面板的顶部。
统计数字04 00044 g002
图3。第一位数测试:针对均匀混合替代方案的测试的大小-功率曲线 λ = 0.9 测试如下:“调整MAD”,调整MAD(10); “Chi-sq(2)”, χ 2 ( 2 ) 均值和方差检验(4); “Chi-sq(d-1)”, χ 2 ( 8 ) 测试(9); “平均值”,平均值的正态检验(1); “均值和方差”,均值和方差的正态检验(); “方差”,方差的正态检验(2). 虚线为 第页 w个 e(电子) 第页 = c(c) t吨 u个 z(z) e(电子) 。观察次数显示在每个面板的顶部。
图3。第一位数测试:针对均匀混合替代方案的测试的大小-功率曲线 λ = 0.9 测试如下:“调整MAD”,调整MAD(10); “Chi-sq(2)”, χ 2 ( 2 ) 均值和方差检验(4); “卡平方(d-1)”, χ 2 ( 8 ) 测试(9); “平均值”,平均值的正态检验(1); “均值和方差”,均值和方差的正态检验(); “方差”,方差的正态检验(2). 虚线为 第页 w个 e(电子) 第页 = c(c) t吨 u个 z(z) e(电子) 。观察次数显示在每个面板的顶部。
统计数字04 00044 g003
图4。第一位数测试:与正常混合方案相比,测试的大小-功率曲线 λ = 0.9 测试如下:“调整MAD”,调整MAD(10); “Chi-sq(2)”, χ 2 ( 2 ) 均值和方差检验(4); “Chi-sq(d-1)”, χ 2 ( 8 ) 测试(9); “平均值”,平均值的正态检验(1); “均值和方差”,均值和方差的正态检验(); “方差”,方差的正态检验(2). 虚线为 第页 w个 e(电子) 第页 = c(c) t吨 u个 z(z) e(电子) 。观察结果的数量显示在每个面板的顶部。
图4。第一位数测试:与正常混合方案相比,测试的大小-功率曲线 λ = 0.9 测试如下:“调整MAD”,调整MAD(10); “Chi-sq(2)”, χ 2 ( 2 ) 均值和方差检验(4); “Chi-sq(d-1)”, χ 2 ( 8 ) 测试(9); “平均值”,平均值的正态检验(1); “均值和方差”,均值和方差的正态检验(); “方差”,方差的正态检验(2). 虚线为 第页 w个 e(电子) 第页 = c(c) t吨 u个 z(z) e(电子) 。观察次数显示在每个面板的顶部。
统计数字04 00044 g004
图5。第一位数测试:针对扰动混合方案的测试的大小-功率曲线 λ = 0.75 测试如下:“调整MAD”,调整MAD(10); “Chi-sq(2)”, χ 2 ( 2 ) 均值和方差检验(4); “Chi-sq(d-1)”, χ 2 ( 8 ) 测试(9); “平均值”,平均值的正态检验(1); “均值和方差”,均值和方差的正态检验(); “方差”,方差的正态检验(2). 虚线为 第页 w个 e(电子) 第页 = c(c) t吨 u个 z(z) e(电子) 。观察次数显示在每个面板的顶部。
图5。第一位数测试:针对扰动混合方案的测试的大小-功率曲线 λ = 0.75 测试如下:“调整MAD”,调整MAD(10); “平方尺(2)”, χ 2 ( 2 ) 均值和方差检验(4); “Chi-sq(d-1)”, χ 2 ( 8 ) 测试(9); “平均值”,平均值的正态检验(1); “均值和方差”,均值和方差的正态检验(); “方差”,方差的正态检验(2). 虚线为 第页 w个 e(电子) 第页 = c(c) t吨 u个 z(z) e(电子) 。观察次数显示在每个面板的顶部。
统计数字04 00044 g005
图6。前两位数测试:实际尺寸与标称尺寸的偏差。测试如下:“调整MAD”,调整MAD(10); “Chi-sq(2)”, χ 2 ( 2 ) 均值和方差检验(4); “Chi-sq(d-1)”, χ 2 ( 89 ) 测试(9); “平均值”,平均值的正态检验(1); “均值和方差”,均值和方差的正态检验(); “方差”,方差的正态检验(2). 观察次数显示在每个面板的顶部。
图6。前两位数测试:实际尺寸与标称尺寸的偏差。测试如下:“调整MAD”,调整MAD(10); “Chi-sq(2)”, χ 2 ( 2 ) 均值和方差检验(4); “Chi-sq(d-1)”, χ 2 ( 89 ) 测试(9); “平均值”,平均值的正态检验(1); “均值和方差”,均值和方差的正态检验(); “方差”,方差的正态检验(2). 观察次数显示在每个面板的顶部。
统计数字04 00044 g006
图7。前两位数测试:针对均匀混合替代方案的测试的大小-功率曲线 λ = 0.9 测试如下:“调整MAD”,调整MAD(10); “Chi-sq(2)”, χ 2 ( 2 ) 均值和方差检验(4); “卡平方(d-1)”, χ 2 ( 89 ) 测试(9); “平均值”,平均值的正态检验(1); “均值和方差”,均值和方差的正态检验(); “方差”,方差的正态检验(2). 虚线为 第页 w个 e(电子) 第页 = c(c) t吨 u个 z(z) e(电子) 。观察次数显示在每个面板的顶部。
图7。前两位数测试:针对均匀混合替代方案的测试的大小-功率曲线 λ = 0.9 测试如下:“调整MAD”,调整MAD(10); “Chi-sq(2)”, χ 2 ( 2 ) 均值和方差检验(4); “Chi-sq(d-1)”, χ 2 ( 89 ) 测试(9); “平均值”,平均值的正态检验(1); “均值和方差”,均值和方差的正态检验(); “方差”,方差的正态检验(2). 虚线为 第页 w个 e(电子) 第页 = c(c) t吨 u个 z(z) e(电子) 。观察次数显示在每个面板的顶部。
统计数字04 00044 g007
图8。前两位数测试:与正常混合方案相比,测试的大小-功率曲线 λ = 0.9 测试如下:“调整MAD”,调整MAD(10); “Chi-sq(2)”, χ 2 ( 2 ) 均值和方差检验(4); “Chi-sq(d-1)”, χ 2 ( 89 ) 测试(9); “平均值”,平均值的正态检验(1); “均值和方差”,均值和方差的正态检验(); “方差”,方差的正态检验(2). 虚线为 第页 w个 e(电子) 第页 = c(c) t吨 u个 z(z) e(电子) 。观察次数显示在每个面板的顶部。
图8。前两位数测试:与正常混合方案相比,测试的大小-功率曲线 λ = 0.9 测试如下:“调整MAD”,调整MAD(10); “Chi-sq(2)”, χ 2 ( 2 ) 均值和方差检验(4); “Chi-sq(d-1)”, χ 2 ( 89 ) 测试(9); “平均值”,平均值的正态检验(1); “均值和方差”,均值和方差的正态检验(); “方差”,方差的正态检验(2). 虚线为 第页 w个 e(电子) 第页 = c(c) t吨 u个 z(z) e(电子) 。观察次数显示在每个面板的顶部。
统计数据04 00044 g008
图9。前两位数测试:针对扰动混合方案的测试的大小-功率曲线 λ = 0.75 测试如下:“调整MAD”,调整MAD(10); “平方尺(2)”, χ 2 ( 2 ) 均值和方差检验(4); “Chi-sq(d-1)”, χ 2 ( 89 ) 测试(9); “平均值”,平均值的正态检验(1); “均值和方差”,均值和方差的正态检验(); “方差”,方差的正态检验(2). 虚线为 第页 w个 e(电子) 第页 = c(c) t吨 u个 z(z) e(电子) 。观察次数显示在每个面板的顶部。
图9。前两位数测试:针对扰动混合方案的测试的大小-功率曲线 λ = 0.75 测试如下:“调整MAD”,调整MAD(10); “Chi-sq(2)”, χ 2 ( 2 ) 均值和方差检验(4); “Chi-sq(d-1)”, χ 2 ( 89 ) 测试(9); “平均值”,对平均值的正常测试(1); “均值和方差”,均值和方差的正态检验(); “方差”,方差的正态检验(2). 虚线为 第页 w个 e(电子) 第页 = c(c) t吨 u个 z(z) e(电子) 。观察次数显示在每个面板的顶部。
统计数字04 00044 g009
图10。前两位数字测试:针对四舍五入混合方案的测试的大小-功率曲线 λ = 0.75 测试如下:“调整MAD”,调整MAD(10); “Chi-sq(2)”, χ 2 ( 2 ) 均值和方差检验(4); “Chi-sq(d-1)”, χ 2 ( 89 ) 测试(9); “平均值”,平均值的正态检验(1); “均值和方差”,均值和方差的正态检验(); “方差”,方差的正态检验(2). 虚线为 第页 w个 e(电子) 第页 = c(c) t吨 u个 z(z) e(电子) 。观察次数显示在每个面板的顶部。
图10。前两位数字测试:针对四舍五入混合方案的测试的大小-功率曲线 λ = 0.75 测试如下:“调整MAD”,调整MAD(10); “Chi-sq(2)”, χ 2 ( 2 ) 均值和方差检验(4); “卡平方(d-1)”, χ 2 ( 89 ) 测试(9); “平均值”,平均值的正态检验(1); “均值和方差”,均值和方差的正态检验(); “方差”,方差的正态检验(2). 虚线为 第页 w个 e(电子) 第页 = c(c) t吨 u个 z(z) e(电子) 。观察次数显示在每个面板的顶部。
统计数字04 00044 g010
图11。估计的平均值 M(M) A类 D类 根据(Benford定律)零假设(蓝点)和 α / n个 (黑色曲线)用于不同的样本大小 n个 ( 250 , 500 , , 10 , 000 ) α 是用于报告的比例因子 1 / n个 规模与 M(M) A类 D类 阴影区域代表估计分布的中心90% M(M) A类 D类 s.水平虚线对应于尼格里尼建议的临界值(0.0022)。垂直虚线对应于 n个 = 1750
图11。估计的平均值 M(M) A类 D类 根据(Benford定律)零假设(蓝点)和 α / n个 (黑色曲线)用于不同的样本大小 n个 ( 250 , 500 , , 10 , 000 ) α 是用于报告的比例因子 1 / n个 规模与 M(M) A类 D类 阴影区域代表估计分布的中心90% M(M) A类 D类 s.水平虚线对应于尼格里尼建议的临界值(0.0022)。垂直虚线对应于 n个 = 1750
统计数字04 00044 g011
图12。跨样本的一致性测试行为。第一行(面板A类C类),数据符合“前两位数”Benford定律。第二排(面板D类F类),数据遵循扰动的Benford定律 λ = 0.95 .第三排(面板G公司),数据符合扰动的Benford定律 λ = 0.75 .第一列(面板A类,D类,G公司)报告整个样本的计算结果n个= 15,000. 第二列(面板B类,E类,H(H))相对于单个随机子样本n个= 1750. 第三列(面板C类,F类,)报告了超过5000个长度随机子样本的常规(或Wald)X平方检验统计量的估计密度(蓝色)n个=1750以及 χ 2 ( 89 ) 零分布下的分布(红色)。 P(P) ( χ 89 2 ) P(P) ( A类 d日 j M(M) A类 D类 ) 表示第页常规(或Wald)齐方检验值和调整后的 M(M) A类 D类 分别进行测试。 P(P) 第页 b 如果 u个 第页 是对优势概率的估计。
图12。跨样本的一致性测试行为。第一行(面板A类C类),数据符合“前两位数”Benford定律。在第二排(面板D类F类),数据遵循扰动的Benford定律 λ = 0.95 .第三排(面板G公司),数据符合扰动的Benford定律 λ = 0.75 第一列(面板A类,D类,G公司)报告整个样本的计算结果n个= 15,000. 第二列(面板B类,E类,H(H))相对于单个随机子样本n个= 1750. 第三列(面板C类,F类,)报告了超过5000个长度随机子样本的常规(或Wald)X平方检验统计量的估计密度(蓝色)n个=1750以及 χ 2 ( 89 ) 零分布下的分布(红色)。 P(P) ( χ 89 2 ) P(P) ( A类 d日 j M(M) A类 D类 ) 表示第页常规(或Wald)齐方检验值和调整后的 M(M) A类 D类 分别进行测试。 P(P) 第页 b 如果 u个 第页 是对优势概率的估计。
统计数字04 00044 g012
出版商备注:MDPI对公布的地图和机构关联中的管辖权主张保持中立。

分享和引用

MDPI和ACS样式

Cerqueti,R。;卢皮,C。符合本福德定律的一些新测试。统计信息 2021,4第745-761页。https://doi.org/10.3390/stats4030044

AMA风格

Cerqueti R、Lupi C。符合本福德定律的一些新测试。统计信息. 2021; 4(3):745-761。https://doi.org/10.3390/stats4030044

芝加哥/图拉宾风格

塞尔奎蒂、罗伊和克劳迪奥·卢皮。2021.“符合本福德定律的一些新测试”统计信息第4,3号:745-761。https://doi.org/10.3390/stats4030044

文章指标

返回页首顶部