×

统计建模中的信息和复杂性。 (英语) Zbl 1156.62005年

信息科学与统计纽约州纽约市:施普林格出版社(ISBN 978-0-387-36610-4/hbk)。viii,第142页。(2007).
最小描述长度(MDL)原则是由本文作者提出的,MDL原则的灵感来自Kolmogorov在复杂性算法理论中未发表的工作,称为结构函数。在统计模型选择中,只使用一个数据集来确定物理过程的模型,希望该模型适用于同一物理过程生成的未来数据集。MDL原理是一种统计模型选择方法,基本上说应该选择一个对数据进行最紧凑描述的模型,包括模型本身的描述。结果表明,MDL原理是一种惩罚极大似然,给定模型位的数据是负对数似然,模型描述项是惩罚。这是一个非常吸引人的想法,并且已经使用此MDL原则完成了大量工作。
本书描述了MDL原理的最新发展。作者认为,“这项工作不仅以抽象的方式纳入了MDL原则,而且明确了建模的基本思想”。这本书源于课堂讲稿,旨在为统计学和信息科学研究生的统计建模应用MDL原则的数学方面提供一个可读的介绍。
这本书由九章组成。第2章和第3章构成了本书的第一部分,而第4章到第9章构成了第二部分。第一章是对这本书的介绍。第2章涵盖了与香农-维纳信息相关的一些主题。本章对随机变量的编码、熵的基本性质、条件熵和互信息、信道容量、类型理论和均分性质进行了初步的讨论。第三章讨论随机过程的编码。在本章中,讨论了随机过程、平稳过程熵、马尔可夫过程、树机器、Tunstall算法、算术代码和通用编码等主题。
在考虑了必要的工具、信息和编码之后,在本书的第一部分,作者提出了本书的主题:使用MDL的统计建模。在第四章中,研究了Kolmogorov复杂性。在本章中,我们讨论了基本递归函数理论、二进制字符串复杂性的概念和Kolmogorov结构函数。第5章介绍了随机复杂性,而第6章讨论了结构函数及其在参数空间划分中的应用。在第7章中,作者介绍了最佳可区分模型的概念。在这短短的一章中,数据集的随机复杂性是针对一个模型类(如Bernoulli类)定义的,并且针对这样一个定义了参数值上等价类的模型类,导出了参数空间的最优划分。第8章介绍了本书的主要部分,MDL原理及其在模型选择中的应用。在第9章中,作者给出了他制定或参与的MDL原则的一些应用。
所提供的材料是根据坦佩雷理工大学研究生的讲座编写的。这本书非常简明扼要,有时内容也很密集。强调了这些思想,并在定理简短时给出了定理的证明,同时参考文献了解更长证明的详细信息。在许多情况下,作者在没有证据或只有草图的情况下做出重要的陈述。总的来说,这本有趣的书将通过MDL原理对统计建模领域做出重要贡献。

MSC公司:

62B10型 信息论主题的统计学方面
62-02 与统计有关的研究展览(专著、调查文章)
94甲17 信息的度量,熵
94-02 与信息与传播理论相关的研究展览(专著、调查文章)

软件:

科恩平滑
PDF格式BibTeX公司 XML格式引用