跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
Philos Trans A数学物理工程科学。2015年4月13日;373(2039): 20140252.
数字对象标识:10.1098/rsta.2014.0252
预防性维修识别码:PMC4360088型
PMID:25750151

从证据到理解:对Fisher(1922)《理论统计学的数学基础》的评论

摘要

随着时间的推移,统计的性质发生了变化。它最初涉及描述性的“国家事务”,即概述人口数量、经济实力和社会状况。但在二十世纪期间,它的目标扩大到包括推断——如何使用数据阐明潜在机制,未来可能发生什么,如果采取某些行动会发生什么。这一发展的核心是罗纳德·费舍尔。在他的一生中,他为统计学的许多重大概念性进展负责。这一点在他1922年的论文中得到了特别说明,他在论文中介绍了许多概念,这些概念对于我们理解如何从数据中提取意义一直到今天都是至关重要的。毫不夸张地说,正如费舍尔在本文中描述和发展的思想所说明的那样,费舍尔的工作是所有现代科学的基础,更是如此。这篇评论是为庆祝该杂志350周年而写的英国皇家学会哲学汇刊.

关键词:推断,逆概率,参数,统计,似然

罗纳德·费舍尔1922年的开创性论文《论理论统计的数学基础》[1]1921年6月25日提交给皇家学会,同年11月17日阅读,并于次年4月19日发表在学会杂志上。一位现代统计学家读这篇论文时,不得不对其贡献感到惊讶。乍一看,这篇论文似乎介绍了一些概念,人们可能期望这些概念会在几十年中逐步发展,每一个概念都是在一篇自己的开创性论文中介绍的。这些包括一致性、效率、充分性、有效性,当然还有可能性。然而,从无到有的创造的表象实际上有点误导人。1922年的报纸并不是凭空出现的。与大多数其他科学“突破”一样,这是精心提炼、抛光和澄清的结果。同样,费舍尔并不是唯一一个这样思考的人。弗朗西斯·埃奇沃思(Francis Edgeworth)提出了类似的想法,并在1908年发表的一篇论文中进行了描述[2]尽管直到费舍尔的论文发表后才意识到这一点。此外,费舍尔并没有随着1922年论文的发表而停止思考这些问题,而是继续探索和进一步发展这些想法(例如[,4])事实上,在他的一生中,他都在努力应对自己的想法所提出的挑战。

1922年那篇论文出现的背景令人困惑。最小二乘法在曲线拟合中得到了很好的理解,Pearson已经描述了这两种方法χ2-测试和力矩法。贝叶斯定理、正态分布和Studentt吨大家都知道。但这是一个没有联系的想法列表,缺乏统一的基础设施。在费舍尔的传记中,他的女儿琼·费舍尔·博克斯(Joan Fisher Box)说:“现在很难想象数学统计领域在20世纪头几十年的样子。按照现代标准,话语的术语显得粗糙而陈旧,讨论极为混乱…整个田野就像一个未经勘探的考古遗址,在瓦砾堆积的上方几乎看不到它的结构[5,第62页]。

从1922年的论文标题可以看出,费舍尔的目的是提供某种统一理论,为了促进这一点,他确定了三个基本目标:

  • — 规范他指的是选择相关的分布族;
  • — 估计决定如何推导统计数据,这些统计数据是对(假设)总体参数的估计;
  • — 分布,确定统计数据的分布。

顺便说一句,我忍不住要评论一下,已故的丹尼斯·林德利(Dennis Lindley)在他年轻时被任命为剑桥大学的一个职位时说,提供统一的理论也是他的目标[6]. 鉴于费舍尔和林德利有着相似的目标,有趣的是他们提出了两种互补的方法。然而,在某种程度上,他们都有相同的策略:我们将看到费舍尔反对逆概率的概念,并试图消除它。林德利和其他人通过重新定义“概率”的含义来解决逆概率的挑战(因此,德菲内蒂的“概率不存在”[7,第x页])。

在给出了一系列定义之后,费希尔1922年的论文首先评论了“统计学在理论方面长期被忽视”。它说“这个科学机构的基本原理仍然处于模糊状态”[1第310页]。他把这种令人遗憾的事态归咎于两个因素。

第一种是认为,如果主题容易受到不确定性的影响(“较大或较小的错误”[1(第311页),那么对思想或概念的精确定义要么是不可能的,要么是不必要的。当然,随着对统计工具所带来的巨大进步的观察所积累的后见之明,人们现在可能会说,如果主题容易受到不确定性的影响,那么对统计方法的需求就更大了。虽然卢瑟福在他著名的观察中有一个事实成分,即“如果你的实验需要统计数据,你应该做一个更好的实验”,但他忽略了这样一个事实,即几乎从定义上来说,任何在知识边界上的调查都必须,测量中存在不确定性和误差,因此需要统计数据来梳理答案。

费舍尔其次将20世纪初统计数据的糟糕状态归因于对参数及其估计的未知真实值使用同一个词所引起的混乱。事实上,尽管“参数”一词在当时的物理学中偶尔使用,但在统计学中几乎是未知的。费舍尔在1922年的论文中明确使用术语“参数”和“统计”来区分用法,他介绍了术语和区别。(根据Stigler[8]在报纸上用了57次,我做了58次。)

从费舍尔的角度来看,关于第二个混淆的关键点是,它“似乎表明前一个数量,而不仅仅是后一个数量容易出错”。这一观点对费舍尔的观点至关重要,因为它使他能够继续说,在他看来,正是这一点“导致了逆概率基本悖论的生存到今天,就像一个难以逾越的丛林阻碍了统计概念精确化的进展”[1第311页]。

“直接概率”是指观察的偶然性。如果我们掷一枚公平的硬币,根据定义,观察头部的(直接)概率是1/2。如果硬币不公平(例如,可能是弯曲的),那么得到头部的概率可能不是1/2。也许是多一点,所以如果我们把硬币扔很多次,我们会看到更多的正面而不是反面。这个概率是公平硬币的1/2,但对于有偏见的硬币来说可能有些不同,这是一个参数。一系列掷骰子中的头部比例是一个统计数字。

“反向概率”是指参数可能采用的值。我们可以想象一个可能值的分布,即钱币到达顶峰的概率-峰值为1/2,这是我们认为最可能的值,但随着我们远离1/2而衰减,以反映我们认为钱币可能存在偏差的数量。正如Fisher所说,对参数值的这种分布进行推测表明,参数而不仅仅是统计数据“容易出错”。

回顾费舍尔的工作,我们可以看到他的思想的逐步发展,特别是在澄清似然和最大似然的概念方面。这个过程与逐渐变化的术语相匹配;例如,从“绝对标准”到1922年论文中的“最佳”,再到“最大似然”。

从1912年他还是一名本科生时写的第一篇论文来看,这一发展是显而易见的。在这里,他指出,正在使用的两种估计方法都没有问题。在最小二乘曲线拟合中,如果横坐标被转换,则可以得到不同的解,而在矩量法中,使用哪种矩的选择是没有理由的。然后费舍尔提出了一个解决方案,说“我们可以直接解决真正的问题”[9]并指出P(P),可以使用获得具有不同参数值的观测数据的概率在这些值之间进行选择。不幸的是,他用“参数的最可能值集将P(P)最大值'[9]-虽然在最后一节中,他确实放弃了这一点:P(P)仅为相对概率,适用于点与点的比较,但不能解释为区域上的概率分布[9]. 在这篇论文中,他似乎在慢慢地在脑海中澄清P(P)视为数据和P(P)作为参数的函数,这一澄清在1922年完成。

例如,在1922年的论文中,他纠正了自己的错误,并引入了一个新术语来澄清问题:“我必须承认,在我最初关于最大可能性方法的陈述中,我的论点是基于逆概率原则的……因此,经过考虑,我认为概率这个词在这种联系中被错误地使用了:概率是频率的比率,关于这些值的频率,我们什么都不知道。我们必须回到实际情况第页,我们一无所知的频率,将产生三倍于另一个值的观测结果第页…我建议我们可以不混淆可能性的一个值第页是另一个可能性的三倍[1第326页]。

同样,在他的其他论文中,他的思想逐渐得到完善。1921年发表的一篇论文的结尾[10]针对相关系数的分布,Fisher添加了“关于Bayes规则和我的最佳评估方法之间混淆的注释”。他说,“我对这个问题的处理与贝叶斯完全不同。贝叶斯[11]试图找到……实际可能性人口价值处于任何给定范围内…如果不了解不同值的统计机制,这样的问题是不确定的ρ我们可以从样本中发现可能性的任何特定值ρ,如果我们将可能性定义为一个与概率成比例的量,从一个特定值为ρ,具有观测值的样本,应获得'[10,第24页]。他再次强调了费舍尔的不同之处[1第326页]:“似然在这里并不是松散地用作概率的同义词,而是简单地表示假设量的这些值的相对频率第页实际上会产生观察到的样本”。

他接着描述了这两个概念之间的区别:“因此,从形式上讲,[可能性]类似于逆频率分布模式的计算。这种相似性是非常肤浅的:如果假设量的测量尺度被改变,那么模式必须改变其位置,并且通过适当的尺度改变可以产生任何价值;但最佳值,也就是所谓的最大似然位置,在任何这样的变换中都是完全不变的。”[1第327页]。这是他在费舍尔(Fisher)关于规模转换的观点的详细阐述[9]. 他强调,似然“不是一个微分元素,也不能被积分:它被分配给变化范围的特定点,而不是它的特定元素”[1第327页]。

他还指出了“这种方法和贝叶斯方法”之间的进一步区别,即(在估计比例时第页贝叶斯使用了一个统一的先验。在评论了这样一个事实之后,这产生了“一个至关重要的知识,即第页出于完全无知的假设[1第325页],Fisher指出,这意味着第页,可以同样合法地选择它来参数化问题。

费希尔在1922年发表的论文中描述的其他概念证明了该论文的独创性和广泛影响。它们包括假设无限总体(对象取特定值的概率被明确定义为假设的无限种群中拥有该属性值的对象的比例),一致性(即,当应用于整个总体时,导出的统计值应等于参数),效率(“在大样本中,当统计分布趋于正态时,应选择概率误差最小的统计”[1第316页)和充足性(如果估计量包含样本中未知参数的全部信息,则估计量就足够了)。根据费希尔对效率和充分性的定义信息与统计分析相关。从他的审议中产生信息的概念并不奇怪:他认为,统计方法的目的是将一组数据减少到与手头目标相关的几个数量,从而保留所有相关信息,排除无关信息。

像所有最好的统计学家一样,费舍尔的动机是实际问题。他想开发统计方法来处理他在现实生活中遇到的各种数据和问题,而不是促进数学理想化。我们发现,尽管这篇论文是“基于数学基础”的,但它包括了对实际例子的讨论。他对天文学家阿瑟·爱丁顿爵士(Sir Arthur Eddington)的断言进行了修正,从而在小范围内说明了他使用实际问题的方式。

在他致力于可能性研究的同时,费舍尔探索了利用估值器的抽样特性(例如上述一致性和效率)评估估值器的概念(我们现在认为这是统计频率学派的特征)。Eddington声称,正态分布标准误差的最佳估计值是绝对偏差的平均值。费舍尔展示了[12]事实并非如此,事实上,平方偏差的平均值包含“关于标准误差的全部信息”。正如他在《费雪》中所说[1第315页]:“理论统计学的讨论可以被视为估计问题和分布问题之间的交替。首先,根据常识考虑设计了一种计算总体参数之一的方法:我们接下来需要知道其可能的误差,因此计算出统计数据样本分布的近似解。很明显,可以使用其他统计数据作为相同参数的估计值。当比较这些统计数据的可能误差时,通常会发现,在大样本中,一种特定的计算方法得出的结果比其他计算方法给出的结果更不受随机误差的影响。

如果1922年的论文将费舍尔的两部分工作结合在一起,那么合并并不像他最初希望的那样顺利。1921年11月他向皇家学会提交论文的摘要(自然,1921年11月24日)改为“通过最大似然法获得的统计数据始终是充分的统计数据”。然而,到1922年这篇论文真正出版时,这种确定性已经消失了:“我们需要一种方法,对于每个特定的问题,它将自动引导我们找到满足充分性标准的统计数据。我相信,这种方法是由最大似然法提供的,尽管我对我能提出的任何证明的数学严密性都不满意。”[1第323页]。

费舍尔非常有创造力,所以也许并不奇怪,他的所有想法都是相互一致的。回想一下约翰·梅纳德·凯恩斯(John Maynard Keynes),当他被指控前后矛盾时,他说当事实改变时,他改变了主意。关于费舍尔,埃夫隆说:“费舍尔通常写得好像手头有一套完整的统计推理逻辑,但这并没有阻止他在想出另一个里程碑式的想法时改变他的系统。”[13, §4.3].

1922年的这篇论文很长,大约60页,并不是所有的内容都能引起现代人的极大兴趣。本文的后半部分主要涉及皮尔逊曲线族、矩方法和离散分布,影响较小。

费希尔1922年的论文为统计推断提供了坚实框架的要素,这些要素仍然是实际应用的核心。然而,想法不断发展,费舍尔在近一个世纪前寻求开发的框架随着时间的推移得到了阐述、批评和挑战,这一点也不奇怪。科学进步通常是一个识别概念中的裂缝的问题,这些裂缝表现为模糊和混淆,然后用探照灯照射这些裂缝。统计学科就是这样。

费舍尔在他对逆概率的有力谴责中,召集了几位著名的权威人士支持(“对布尔、维恩和克里斯塔尔的批评为废除这种方法做了一些事情……尽管我们可能完全同意克里斯塔尔认为逆概率是一个错误……”[1,第311页]),并描述了一个逐渐增加对该概念不足之处的理解的过程。然而,扎贝尔[14]他指出,这幅画像“似乎并不完全可信”。其他杰出的统计学家当然支持这一概念,并广泛传授了基于这一概念的方法。此外,“实际上,1886年至1930年期间用英语编写的每一本概率教科书都包含该主题,以及大多数法语和德语文本”[14第253页]。尽管如此,费舍尔和杰里兹·内曼(Jerzy Neyman)在一个密切相关的推理范式中工作,成功地将基于逆概率概念的方法的开发推迟了25年。扎贝尔[14第247页]将其描述为“对贝叶斯统计的几乎致命的打击”。

当然,正如任何现代统计学家都知道的那样,这次打击并不是完全地致命的。包括萨维奇、德菲内蒂、拉姆齐、杰恩斯、理查德·考克斯、杰弗里斯和林德利在内的几位思想家并没有摒弃逆概率的概念,而是寻求另一种看待它的方式——这在很大程度上是一种范式的转变(或者可能是范式的复兴,因为这是贝叶斯和其他人对概率的看法)。这种另类观点导致了所谓的贝叶斯主义者统计学院。开发的核心是证明任何内部一致的推理方法都必须基于通过贝叶斯定理更新概率。(例如,如果有可能找到各种赌注的组合,那么概率系统就是“不连贯的”,每种赌注都是你乐意接受的,但总的来说,哪种赌注可以保证损失。)

贝叶斯统计这个短语很不幸,因为全部的统计学家承认贝叶斯理论的重要性,这是一个纯粹的概率数学定理。这个术语也很不幸,因为它涵盖了各种不同的统计推断方法,当应用于实际问题时,可能会得出不同的结论。尽管如此,他们有着广泛的共同基础,即他们从费舍尔支持的相对频率概念中放松了概率的概念。在贝叶斯方法中,任何未知的数量——比如给出硬币出现概率的参数——都是随机变量。

尽管在解释费舍尔的一些概念时仍然存在困难(尤其是他的基准推断)没有一个推理学派是没有概念或实践问题的。例如,在贝叶斯方法中,将先验分布解释为初始置信度是非常好的,前提是要做出真正的努力来确定它们是什么。然而,通常情况下,选择先验值是基于数学上的便利性,而不是削弱了概念基础。当我们学习逻辑时,我们会发现,如果前提错误,有效的逻辑论证可能会导致错误的结论。类似地,基于错误前提的连贯论证价值有限。我们统计学家必须永远记住,我们的目标是根据模型得出关于现实世界的结论。我们的模型不是现实。人们必须小心,不要让数学一致性的尾巴摇着科学问题的狗。

考克斯[15(第197页)说,频率分析是基于一个简单而强大的统一原则。使用测量技术(如校准的置信限和显著性检验)以及其他测量工具,通过重复使用的假设后果间接检查数据的含义。显然,这很有道理:人们应该对采用一种主要给出糟糕答案的分析工具感到不安。在这种背景下,监管机构和金融界等领域大量使用基于费希尔1922年论文中所述的思想的频率分析方法就不足为奇了。

另一方面,人们可能也会注意到,贝叶斯分析同样基于一个简单而强大的统一原则:概率不是外部世界的属性,而是代表内部的信念程度(例如,关于特定参数可以采用的可能值)。

的确,为什么要到此为止?有人可能会补充说,采用可能性作为关键推理概念的推理学派也是基于一个简单的统一概念——费舍尔的可能性概念,正如费舍尔所描述的那样[1].

二十世纪后半叶,人们对费希尔开发的推理方法(以及内曼开发的相关方法)的替代方法的兴趣急剧复苏。偶尔会进行更适合政治辩论而非科学讨论的交流。现在,二十一世纪已经过去几年了,辩论已经成熟。正如我上面所说,现代的观点是,模型只是一个模型,而不是现实(“所有模型都是错误的,但有些模型是有用的”)[16]). 许多替代模型可能同样有效地完成工作,但没有一个是“对的”或“错的”。同样的结论也适用于推理流派。一个好的统计学家,无论是哪所学校,都应该能够得出明智的结论。(由此推论,无论哪所学校的统计学家都很差劲……)更一般地说,正如巴亚里和伯杰所说,“统计学家应该随时使用贝叶斯和频率论的观点”[17第58页]。

费舍尔的思想在创造现代世界中发挥了巨大作用。统计思想和推论随处可见,包括医学、卫生和制药研究、制造和质量控制,从物理学(希格斯玻色子的发现在很大程度上是一个统计挑战)到心理学和社会学、经济学和政府、教育、,农业和粮食生产。现代生活的任何方面都不受统计工具应用的影响。此外,尽管人们对其他推理策略的兴趣与日俱增,但这种影响最大的部分还是源于Fisher最初提出的想法。

有时,人们倾向于审视我们现在的处境,回顾我们是如何走到这一步的,并将自己视为发展过程的顶峰。就统计思想和方法而言,这将是一个错误:进化仍在继续。

在很大程度上,统计的发展是由新的挑战推动的,因为它的思想扩展到了新的领域。这可以从农业实验设计的发展(这是一个真正意义上的Fisher起源的领域,后来扩展到制造业、医学和其他领域)、因素分析和心理学中的潜在变量模型(后来被用于地质学、金融学等领域)、,生存分析正在医学等领域得到发展(然后应用于许多其他领域)。最近,混合贝叶斯频率学家的概念被越来越广泛地应用,例如集成模型、经验贝叶斯方法和错误发现率思想。

在费舍尔之前,统计主要与“国家事务”有关。这意味着大量的数据集和大规模的“生命统计”摘要,涉及出生率和死亡率等问题。尽管费舍尔对渐近证明感兴趣,但他展示了如何在小样本问题中使用这些思想,这是导致统计思想和工具产生全面影响的关键影响。但世界在前进。我们已经进入了第二个“大数据”时代。随着电子数据捕获技术的发展,海量数据集正在自动积累,海量数据带来了巨大的机会,有助于发现和回答我们以前无法回答的问题。话虽如此,但值得注意的是:自动数据收集并不意味着自动回答问题。大数据带来了巨大的挑战,甚至可能大到足以让我们需要新的推理思路。

自动数据捕获还有另一个方面,它有望改变统计的性质。在整个二十世纪,统计实践包括收集和分析数据,以回答特定问题(或者,也许是探索数据以产生新问题)。现代世界为统计开辟了一条新的战线:自动化分析。越来越多的统计推断工具嵌入到我们周围的机器中:想想飞机、无人驾驶汽车、路线查找软件、手机应用程序中嵌入的智能等等。其中一些是贝叶斯的,但很多不是:其中很大一部分直接利用了费希尔的想法。

费舍尔1922年的论文展示了一位天才的创造力。但它显示了这些缺点。它显示了错误、回溯和不确定性。它还显示了想法是如何建立在他人之上的。这也许也表明了一种不顾攻击和批评坚持己见的决心。这是否好由历史裁判来判断。1950年,费舍尔写道:“我仍然经常遇到问题,即使是在我自己的研究中,我也无法自信地提出解决方案,我永远不会试图暗示最终结果已经达成(或者当别人提出这一主张时,我会非常认真地对待它!)”[18].

Bradley Efron这样总结了费舍尔的贡献:“最后让我说,费舍尔是一位一流的天才,他被公认为20世纪最重要的应用数学家。他的作品具有大胆的数学综合与最高实用性相结合的独特品质。他的作品在我们的领域留下了深刻的印记,丝毫没有褪色的迹象。这是一位伟大思想家的印记,统计和科学在总体上都是他的功劳”[13第113页]。

作者配置文件

大卫·汉德现任伦敦帝国理工学院高级研究研究员兼数学名誉教授,曾任该学院统计学教授。他在分类、数据挖掘、统计学基础和统计学应用方面有研究兴趣,既用于推理,也用于描述国家状况。他出版了28本书,最近一本不可能性原理:为什么每天都会发生巧合、奇迹和罕见事件在他作为统计学家的成长岁月中,他目睹了相互竞争的推理学派,特别是贝叶斯学派和频率学派的支持者之间有时会展开激烈的辩论。

保存图片、插图等的外部文件。对象名为rsta20140252-i1.jpg

工具书类

1费希尔RA。1922论理论统计学的数学基础.菲尔翻译。R.Soc.伦敦。包含数学或物理性质的论文 222, 309–368. (1998年10月10日/2009年12月19日)[交叉参考][谷歌学者]
2Edgeworth财年。1908.关于频率常数的可能误差.J.R.统计。Soc公司。 71, 499 ( 10.2307/2339461) [交叉参考][谷歌学者]
三。费希尔RA。1925.统计估计理论.程序。剑桥菲洛斯。Soc公司。 22, 700–725. (10.1017/S0305004100009580)[交叉参考][谷歌学者]
4费希尔RA。1934数学似然的两个新性质.程序。R.Soc.A公司 144, 285–307. (10.1098/rspa.1934.0050)[交叉参考][谷歌学者]
5框JF。1978R.A.Fisher:科学家的一生纽约州纽约市:Wiley[谷歌学者]
6.史密斯AFM。1995.与丹尼斯·林德利的对话.统计科学。 10, 305–319. (10.1214/ss/1177009940)[交叉参考][谷歌学者]
7.德菲内蒂B。1974概率论:一个重要的介绍性论述,第一卷英国奇切斯特:约翰·威利父子。[谷歌学者]
8斯蒂格勒SM。1976关于伦纳德·J·萨维奇《重读R.A.Fisher》的讨论.Ann.统计.4, 498–500.[谷歌学者]
9费希尔RA。1912关于拟合频率曲线的绝对准则.Messenger数学。 41, 155–160.[谷歌学者]
10费希尔RA。1921关于小样本相关系数的“可能误差”.Metron公司 1, 3–32.[谷歌学者]
11贝叶斯T。1763一篇关于解决机会理论中一个问题的文章。由FRS已故牧师贝叶斯先生在致AMFRS约翰·坎顿的信中传达.菲尔翻译。 53, 370–418. (10.1098/rstl.1763.0053)[交叉参考][谷歌学者]
12.费希尔RA。1920.通过平均误差和均方误差确定观测精度方法的数学检验.周一。不是。R.阿斯顿。Soc公司。 80, 758–770. (10.1093/mnras/80.8.758)[交叉参考][谷歌学者]
13埃夫隆B。199821世纪的R·A·费舍尔.统计科学。 13, 95–122. (10.1214/ss/1028905930)[交叉参考][谷歌学者]
14扎贝尔S。1989R.A.Fisher关于逆概率的历史(与讨论).统计科学。 4, 247–263. (10.1214/ss/1177012488)[交叉参考][谷歌学者]
15Cox博士。2006统计推断原理英国剑桥:剑桥大学出版社[谷歌学者]
16邮箱EP。1979科学建模策略中的稳健性.英寸统计的稳健性(编辑:Launer RL,Wilkinson GN.),第201–236页。纽约州纽约市:学术出版社。[谷歌学者]
17Bayarri MJ,Berger JO。2004.贝叶斯统计和频率统计的相互作用.统计科学。 19, 58–80. ( 10.1214/088342304000000116) [交叉参考][谷歌学者]
18费希尔RA。1950对数学统计的贡献纽约州纽约市:Wiley[谷歌学者]

文章来自哲学交易。数学、物理和工程科学系列A由以下人员提供英国皇家学会