Benford定律和Zipf定律

以怪异但统一的观点数字分布在随机选取的数字中,如果被调查的数字不是完全随机的,而是以某种方式出现的,那就令人大吃一惊了与社会或自然有关,第一个数字的分布不均匀。更准确地说,数字D作为第一个数字出现,频率与日志10(1+1/D)换句话说,在大约30%的情况下,人们可能期望1是随机数的第一位,在大约18%的情况下会出现2,在12%的情况下出现3,在9%的情况下发生4,在8%的情况下产生5,等等。这就是所谓的本福德定律.(我很感激萨拉·杰恩农民将Benford定律与数字的分布在别处讨论。她还给我指出了一篇关于本福德定律的很好的文章新科学家(1999年7月10日,第26-30页)

1881年,美国天文学家西蒙·纽科姆(Simon Newcomb)发现了这一定律,他注意到对数书的第一页比剩下的几页脏得多。1938年,弗兰克·本福德(Frank Benford)对涵盖各种自然现象的数据清单进行了全面调查,得出了相同的公式。(Benford的原始数据表可以在Eric Weisstein的数学宝库-本福德定律页面.)该法律适用于预算、所得税或人口数字以及书中所列人员的街道地址美国科学家.面对法律的这种普遍性,令人惊讶的是,存在一个更通用的框架-齐普夫定律这又属于一个更一般的尺度现象。

听起来很奇怪,本福德定律可以从第一原理来解释,其中最主要的是数学的纯粹普遍性。从上千家公司的年度报告中收集的预算数据乍一看可能是随机的,但可以很合理地假设公司预算取决于几个参数:公司规模、公司所属的特定行业、管理质量、市场状况。流域的大小是河流深度和宽度的函数。大多数相关性或多或少用简单的公式表示:线性、幂或指数、振荡、导致饱和。

功能依赖性丰富。这就是为什么学习微积分如此有意义。但函数的概念并没有简化为函数关系。A类功能是三个属性的集合:域、范围和范围中元素对功能域中元素的特定依赖形式。公式表示的相同函数依赖关系y=x2将定义不同的功能取决于感兴趣的领域。后一种观察对于理解本福德定律的起源非常重要。

例如,河流流域的统计数据可能不包括一定规模以下的河流。小溪称为小溪在社会方面(野餐区vs.海滩前线),政治方面(夏季干涸的小溪不能作为良好的州边界),军事方面(军队没有经过特殊训练就涉水而过),以及生态方面(蚊子vs.鲑鱼的产卵地),都发挥着与河流不同的作用。在另一个极端,水管的宽度有一个自然的上限,在这个上限之后,谈论湖泊、海湾、海洋或海洋更为合理。同样,人口数据可能会跳过低端17户家庭组成的村庄(例如,如果数据是由有线电视公司收集的),当然,在高端,有事实表明,拥有数百万人口的超级城市数量非常有限。

考虑到这一点,很自然,服从幂律之一(b)的现象的统计数据偏向范围的下部,而饱和现象(d)的统计数据倾向于偏向范围的上部。

马克·尼格里尼来自南卫理公会大学(Southern Methodist University),他近年来率先将本福德定律应用于逃税和其他欺诈检测,这为股市提供了一个例子。(见他最近的一本书使用本福德定律进行数字分析:审计师的测试统计假设在牛市期间,市场平均指数以平均1000美元开始,每年增长20%。未来10年,我们将获得市场指标的以下统计数据:

年份01245678910
平均10001200144017282074248829863583430051606192

40%的数据以数字1开头。

为了进一步调查,这里有一个简短的关于本福德定律的网络资源列表,在页面下方,还有两本描述齐普夫定律和人格的书籍摘录。

工具书类

  1. 尼格里尼先生,本福德定律:法务会计、审计和欺诈检测的应用,威利,2012(a配套网站)

在互联网上

  1. 本福德定律页面,埃里克·魏斯坦
  2. 本福德定律,凯文·布朗
  3. BENFORD在线双语通过阿诺·伯杰泰德·希尔
  4. Terry Tao的观点

这是摘自
夸克和捷豹
作者:Murray Gell-Mann,Freeman&Co,1994

……然而,我们经常会遇到不太理想的情况。我们可能会发现规律,预测其他地方也会出现类似的规律,发现预测得到了证实,从而确定了一个稳健的模式:然而,这可能是一个我们无法解释的模式。在这种情况下,我们谈论的是“经验主义”或“现象学”理论,用花哨的词语基本上意味着我们看到了正在发生的事情,但还不理解。有许多这样的经验理论将日常生活中遇到的事实联系在一起。

假设我们拿起一本统计事实的书,比如《世界年鉴》。往里看,我们看到了美国大都市地区的列表,按人口减少的顺序排列,以及人口数字。个别州和其他国家的城市也可能有相应的列表。在每个列表中,每个城市都可以分配一个等级,即1代表人口最多的城市,2代表人口次之的城市,依此类推。所有这些列表都有一个通用规则来描述人口如何随着等级的增加而减少吗?大致来说,是的。准确地说,人口与等级成反比;换句话说,连续的总体大致与1、1/2、1/3、1/4、1/5、1/6、1/7、1/8、1/9、1/10、1/11等成比例。

现在,让我们按照业务量(比如某一年的销售额)的递减顺序来看最大的商业公司名单。有没有一个近似的规则来描述公司的销售额如何随排名而变化?是的,这和人口的规律是一样的。业务量与公司的排名大致成反比。

某一国家在某一年的出口额按货币价值递减顺序如何?再次,我们发现相同的规则是一个合理的近似值。

该规则的一个有趣的结果很容易通过仔细阅读所提到的任何列表来验证,例如一份城市及其人口的列表。首先让我们看看,比如说,每个人口数字的第三位数。正如预期的那样,第三位数是随机分布的;第三位的0、1、2、3等数字大致相等。然而,对于第一个数字的分布,情况完全不同。1占绝对优势,其次是2,以此类推。最初9岁的人口比例非常小。第一个数字的行为是由规则预测的,如果严格遵守该规则,则首字母1s与首字母9s的比例为45比1。

排名
n个
 西蒂人口
(1990)
未修改
齐普夫定律
10,000,000
除以n个
被改进的
齐普夫定律
5,000,000
除以
(n个- 2/5)3/4
1 纽约7,322,56410,000,0007,334,265
7 底特律1,027,9741,428,5711,214,261
13 巴尔的摩736,014769,231747,639
19 华盛顿特区。606,900526,316558,258
25 新奥尔良496,938400,000452,656
31 密苏里州堪萨斯城。434,829322, 581384,308
37 弗吉尼亚州弗吉尼亚海滩。393, 089270,270336,015
49 托莱多332,943204,082271,639
61 阿灵顿州261,721163,934230,205
73 路易斯安那州巴吞鲁日。219,531136,986201,033
85 佛罗里达州希亚莱。188,008117,647179,243
97 加利福尼亚州贝克斯菲尔德。174,820103, 093162,270
美国城市人口1994年世界年鉴与Zipf的原始法律及其修改版本相比。

如果我们放下《世界年鉴》,拿起一本关于密码的书,其中列出了某种英语文本中最常见的单词,并按出现频率的降序排列,会怎么样?每个单词的出现频率与其等级的函数关系的近似规则是什么?同样,我们遇到了同样的规则,它也适用于其他语言。

20世纪30年代初,哈佛大学教授德语的乔治·金斯利·齐普夫(George Kingsley Zipf)注意到了许多这种关系,这些关系都是现在所说的齐普夫定律的各个方面。今天,我们可以说,齐夫定律是许多所谓的标度定律或幂律的例子之一,在物理、生物和行为科学的许多地方都会遇到。但在20世纪30年代,这样的法律仍然有点新奇。

在齐普夫定律中,所研究的量与秩成反比,即与1、1/2、1/3、1/4等成正比。贝诺伊特·曼德布洛(Benoit Mandelbrot)表明,通过对该序列进行两种修改,可以获得更一般的幂律(几乎是最一般的幂定律)。第一个改动是在秩中添加一个常数,给出1/(1+常数)、1/(2+常数)、1/1(3+常数)、l/(4+常数)等。进一步的改动允许不使用这些分数,而使用它们的平方、立方体、平方根或它们的任何其他幂。例如,平方的选择将产生序列1/(1+常数)2 1/(2+常数)2,1(3+常数)2,1(4+常数)2等。更一般的幂律中的幂是1表示齐普夫定律,2表示平方,3表示立方体,1/2表示平方根,等等。数学也给出了幂的中间值的含义,例如3/4或1.0237。一般来说,我们可以把幂看作是1加上一个秒常数。就像第一个常数被加到秩上一样,第二个常数也被加到幂上。Zipf定律是这两个常数为零的特殊情况。

曼德尔布罗特对齐普夫定律的概括仍然很简单:额外的复杂性只在于引入了两个新的可调常数,一个数字加到秩上,一个数加到幂1上。(顺便说一句,一个可调常数被称为“参数”,这个词最近被广泛误用,可能是受到了类似单词“周长”的影响。修改后的幂律有两个额外的参数。)在任何给定的情况下,与其将数据与Zipf的原始定律进行比较,人们可以引入这两个常数,并对其进行调整,以便与数据进行最佳拟合。我们可以在第94页的图表中看到,Zipf定律的稍加修改的版本如何比Zipf的原始规则(两个常数都设置为零)更适合一些人口数据,而Zipf规则已经相当有效。“略微修改”意味着在用于比较的修改后的幂律中,新常数的值很小。(图表中的常数仅仅是通过检查数据来选择的。最佳拟合会产生与实际人口更为一致的结果。)

当齐普夫(Zipf)首次描述他的定律时,当时几乎没有其他的标度定律,他试图提出一个重要的问题,即他的原理是如何将行为科学与物理科学区分开来的,在物理科学中,这些定律被认为是不存在的。今天,在物理学中发现了如此多的幂律之后,这些言论往往会减损齐普夫的声誉,而不是提升他的声誉。据说还有另一种情况也有损他的声誉,即他对希德的欧洲领土重组表示了一定的同情,也许可以通过论证这些征服倾向于使欧洲国家的人口更符合齐普夫定律来证明他的态度。

这是摘自
自然的分形几何
作者:Benoit Mandelbrot,Freeman&Co,1983年

乔治·金斯利·齐普夫

(1902-1950)

美国学者齐普夫(Zipf)起初是一位语言学家,但后来将自己描述为一位统计人类生态学家。他在哈佛大学当了20年的讲师,在发表论文后不久就去世了,显然是自费出版的,人类行为与最省力原则(Zipf 1949-1965)。

这是其中一本书(福尼尔1907年是另一本),书中从多个方向闪现的天才几乎被荒诞的观念和奢侈所淹没。一方面,它处理性器官的形状,并证明奥地利的Anschluss进入德国是合理的,因为它改进了数学公式的拟合。另一方面,在社会科学统计中,数学方便性和经验拟合的最佳组合通常是通过标度概率分布给出的,这是一条经验性定律,其中充满了不断锤炼的图表。第38章研究了一些示例。

自然科学家在“齐普夫定律”中认识到,当证据表明其有效性时,物理学和天文学毫不掩饰地接受了尺度定律的对应物。因此,物理学家们很难想象,当齐普夫和他之前的帕雷托在社会科学领域遵循同样的程序,以同样的结果时,反对的激烈程度。目前仍在进行各种各样的尝试,以提前对基于双对数图的所有证据进行怀疑。但我认为,如果不是因为它所导致的结论的性质,这种方法仍然没有争议。不幸的是,一个直接的双对数图表明了一种与高斯法则背道而驰的分布,而高斯法则长期以来一直没有受到质疑。应用统计学家和社会科学家没有注意到Zipf,这有助于解释他们领域的惊人落后。

齐普夫为收集社会科学中双曲线定律的例子带来了百科全书般的热情,也为捍卫他的发现和其他人的类似发现带来了不屈不挠的毅力。然而,本文清楚地表明,他的基本信念是没有价值的。在社会科学中,频率分布并非总是双曲线,在自然科学中,也并非总是高斯分布。一个更严重的失败是,Zipf将他的发现与空洞的口头辩论联系在一起,而根本无法将其整合到一个思想体系中。

在我人生的关键时刻(第42章),我读到了一篇关于人类行为由数学家J·L·沃尔什提出。由于只提到了什么是好的,这篇综述极大地影响了我早期的科学工作,其间接影响仍在继续。因此,我非常感谢Zipf through Walsh。

否则,齐普夫的影响力很可能仍然很小。人们可以从他身上,以最清晰的方式,甚至是漫画的方式,看到围绕任何跨学科方法的非凡困难。

洛克菲勒大学的W.Li综合书目关于齐普夫定律。


相关材料
阅读更多。。。

  • 利率计算
  • 什么是分数?
  • 什么是百分比?
  • Bloopers百分比
  • 稀释的油漆
  • 相关性和因果关系:统计事实的误用和误解
  • Benford定律和Zipf定律
  • |联系人| |首页| |目录| |概率|

    版权所有©1996-2018亚历山大·博戈莫尼

    71695919