贝叶斯非参数教程

本页收集有关贝叶斯非参数的参考和教程:

课堂讲稿

这些课堂笔记的前几章提供了对Dirichlet过程、高斯过程和潜在特征模型的基本介绍。其余章节涵盖更高级的材料。重点是概念;这不是文献调查。此文件是草稿而且仍然有很多错误。

视频教程

NIPS教程

2012年机器学习暑期学校

  • 贝叶斯非参数。
    P奥尔班兹。
    机器学习暑期学校,2012年。

    [视频讲座]
    [幻灯片]讲座1:聚类、狄利克雷过程、IBP
    [幻灯片]第二讲:高斯过程,模型构造,可交换性,渐近性

机器学习夏令营2009

在2009年MLSS大会上,我做了两次关于贝叶斯非参数测量理论和随机过程概念基础的演讲。他们补充了Yee Whye Teh在同一所暑期学校的演讲,我强烈推荐。
  • 非参数贝叶斯模型。
    YW Teh公司。
    机器学习暑期学校,2009年。

    [视频讲座]
  • 非参数贝叶斯模型的理论基础。
    P奥尔班兹。
    机器学习暑期学校,2009年。

    [视频讲座]
有关高斯过程的更多信息,我建议您进行以下两次会谈:
  • 高斯过程
    CE拉斯穆森。
    机器学习暑期学校,2009年。

    [视频讲座]

进一步阅读

调查

Yee Whye Teh和我写了一篇简短的介绍性文章:
  • 贝叶斯非参数模型。
    P Orbanz和YW Teh。
    机器学习百科全书(Springer),2010年。

    [PDF格式]
非参数贝叶斯的机器学习介绍这确实考虑到了一些理论,写得很好,插图也很漂亮,是Erik Sudderth在论文中给出。
  • 视觉对象识别和跟踪的图形模型。
    EB Sudderth。
    博士论文,2006年。

    [PDF格式]
如果你是贝叶斯非参数的新手,你很可能正在寻找一个温和而简明的介绍使用Dirichlet过程进行聚类。如果是这样,请不要再往下看:
  • 贝叶斯非参数模型教程。
    SJ Gershman和DM Blei。
    《数学心理学杂志》(56):2012年1月12日。

    [PDF格式]
表示是构造和理解贝叶斯非参数模型的一个非常强大的工具定理(德菲内蒂、金曼、奥尔多斯·胡佛等)。在下面的调查中,我们试图解释这些定理的含义及其在贝叶斯中的应用无框架;主要关注于图值数据和关系数据。
  • 图、数组和其他可交换随机结构的贝叶斯模型。
    P Orbanz和罗伊DM.
    IEEE模式分析和机器智能汇刊(出版)。

    [阿西夫1312.7857]
关于基于随机测度的各种模型(Dirichlet过程,Pólya树、中性向右过程等)如下所示:
  • 随机分布和相关函数的贝叶斯非参数推断。
    SG Walker、P Damien、PW Laud和AFM Smith。
    英国皇家统计学会杂志B,61(3):485-527, 1999.

    [数学科学网]
关于参数化的贝叶斯模型(指数族等)是下面这本书。(尽管标题中有“理论”一词文本不涉及任何数学复杂性。)
  • 贝叶斯理论。
    JM Bernardo和AFM Smith。
    John Wiley&Sons,1994年。

    [数学科学网]

随机离散测度

随机离散测度包括狄利克雷过程和皮特曼-约尔过程等模型。在应用中,这些模型通常用作混合模型混合测度的先验信息(例如Dirichlet工艺混合物)。

Dirichlet和Pitman-Yor过程

Dirichlet过程的简要介绍如下:
  • Dirichlet过程。
    YW Teh公司。
    机器学习百科全书(Springer),2010年。

    [PDF格式]
也许掌握Dirichlet工艺混合物的最佳方法是了解推理算法。有一篇也是唯一一篇关于基本吉布斯采样器的文章可以阅读:
  • Dirichlet过程混合模型的马尔可夫链抽样方法。
    RM Neal(尼尔)。
    《计算与图形统计杂志》,9:249-2652000。

    [数学科学网]
以下章节是对Dirichlet工艺及其技术特性的更详细介绍:
  • 狄利克雷过程,相关先验和后验渐近性。
    S Ghosal公司。
    在N.L。Hjort等人。,编辑,贝叶斯非参数.
    剑桥大学出版社,2010年。

    [数学科学网]
关于Dirichlet过程和stick-breaking的关键参考文献是Ishwaran和James,他们首先提出了一些想法,比如坚持破坏结构机器学习研究人员可以访问的Pitman-Yor过程。姓名“Pitman-Yor过程”似乎也是第一次出现在这里。
  • 破胶前期吉布斯取样方法。
    H Ishwaran和LF James。
    《美国统计协会杂志》,96:161-1732001年。

    [数学科学网]
Pitman-Yor工艺由Perman、Pitman和Yor引进。他们的文章仍然是权威参考。
  • 泊松点过程和偏移的尺寸抽样。
    M Perman、J Pitman和M Yor。
    概率论及相关领域,25(92):21-391992。

    [数学科学网]
有关Pitman-Yor过程的非技术性介绍,请参阅Yee Whye Teh的文章关于Kneser-Ney平滑,它将Pitman-Yor过程应用于示例语言处理中的问题。
  • 一种基于Pitman-Yor过程的分层贝叶斯语言模型。
    YW Teh公司。
    Coling/ACL 2006年。

    [PDF格式]

概括

Dirichlet过程和Pitman-Yor过程是随机离散概率的两个例子。任何随机离散概率测度原则上都可以用来代替Dirichlet过程混合模型或其其他应用之一(无限HMM等)。过去几年,现在已经清楚了哪些模型存在,如何表示它们,以及在哪些情况下我们可以预期推论是容易处理的。如果你有兴趣了解这些模型是如何工作的以及非参数贝叶斯聚类模型的前景,我建议以下两条:
  • Dirichlet过程之外的模型。
    A Ligoi和I Prünster。
    在N.L.中。Hjort等人,编辑,贝叶斯非参数.
    剑桥大学出版社,2010年。

    [数学科学网] [PDF格式]
  • Gibbs型可交换随机划分的条件公式。
    S Favaro、A Ligoi和I Prünster。
    《应用概率年鉴》即将出版。

    [PDF格式]
伊戈尔·普伦斯特(Igor Prünster)的演讲给出了一个清晰简明的概述:
  • 关于贝叶斯非参数建模的两个故事。
    我是普伦斯特。
    [视频讲座]
随机离散测度通常是使用粘性断裂构造和相关的技术。不接受这种表示的模型的构造有点复杂要求高的。一般随机措施的构造见
  • 波兰空间上的射影极限随机概率。
    P奥尔班兹。
    《电子统计杂志》,5:1354-13732011。

    [PDF格式][数学科学网]

点进程

随机离散测度具有点过程的自然表示。基本知识点过程使理解随机测量模型变得更容易,而且更先进关于随机离散度量的工作使用点处理技术。这是关于要读的“书”是写的;金曼关于泊松过程的书当然是概率上最好的解释性文本之一。
  • 泊松过程。
    JFC金曼。
    牛津大学出版社,1993年。

    [数学科学网]
如果你对Dirichlet过程、坚持不懈等有任何兴趣,我建议你至少阅读第2、5.1、8和9章。对于更广泛的材料(金曼的书只有104页),我发现Daley和Vere-Jones的两本书非常有用。给定采样点的点过程的条件概率有几个一般条件概率不满足的特定属性。这些条件被称为手掌测量在点过程理论中自己的微积分。如果随机离散测度表示为点过程,则其后验由Palm度量表示。通过随机离散测度之间的对应和随机分区,Palm测度理论可以应用于分区:
  • 贝叶斯-泊松过程划分演算及其应用贝叶斯Lévy移动平均数。
    LF詹姆斯。
    《统计年鉴》,33(4):1771-17992005。

    [数学科学网]
詹姆斯的许多结果远远领先于当前的贝叶斯非参数。有关现有模型的应用程序,请参见
  • 具有独立增量的归一化随机测度的后验分析。
    LF James、A Ligoi和I Prünster。
    《斯堪的纳维亚统计杂志》,36:76-972009年。

    [数学科学网]

层次和协变量相关模型

基于Dirichlet过程最流行的模型之一是依赖Dirichlet过程。尽管它很受欢迎,史蒂文·麦基恩的原创关于该模型的文章尚未发表,在网上很难找到。史蒂文请允许我在此处使用:
  • 相关的Dirichlet过程。
    序列号:MacEachern。
    技术报告,俄亥俄州立大学,2000年。

    [PDF格式]
贝叶斯模型具有固有的层次结构:先验和似然表示层次结构中的两层。术语“分层建模”通常指的是先前的层本身可以被进一步划分为层次层。这提供了一个将现有贝叶斯模型组合成新的更复杂模型的几乎通用方法。
  • 分层贝叶斯非参数模型及其应用。
    YW Teh和MI Jordan。
    在N.L。Hjort等人,编辑,贝叶斯非参数.
    剑桥大学出版社,2010年。

    [数学科学网]
这种类型的一个广为人知的非参数模型是分层Dirichlet过程。
  • 分层Dirichlet过程。
    YW Teh、MI Jordan、MJ Beal和DM Blei。
    美国统计协会杂志,(476):1566-15812006。

    [数学科学网]

随机函数

随机函数上的分布可用作回归和相关问题中的先验分布。平滑随机函数的典型先验是高斯过程。极好的介绍拉斯穆森和威廉姆斯的专著中有高斯过程模型和许多参考文献。
  • 机器学习的高斯过程。
    CE拉斯穆森和CKI威廉姆斯。
    麻省理工学院出版社,2006年。

    [PDF格式]
有许多关于高斯过程数学理论的文本,例如:
  • 随机域和几何体。
    RJ Adler和JE Taylor。
    施普林格,2007年。

    [数学科学网]

理论

关于抽象贝叶斯方法、可交换性、充分性、,参数模型(包括无限维贝叶斯模型)是第一个Schervish的两章统计学理论.
  • 统计学理论。
    MJ Schervish。
    斯普林格,1995年。

    [数学科学网]

后收敛

清晰易读地介绍了本领域研究的问题,以及如何解决这些问题,是Ghosal的一个调查章节上述参考.以下专著是一个很好的参考,提供了更多的细节。请注意尽管这方面最有趣的工作可以说是过去完成的十年,因此本书未涵盖。
  • 贝叶斯非参数。
    JK Ghosh和RV Ramamoorthi。
    斯普林格,2002年。

    [数学科学网]
以下示例参考文献是有关此主题的大量且不断增长的文献的一小部分:
  • 无限维贝叶斯统计中的错误指定。
    BJK Kleijn和AW van der Vaart。
    《统计年鉴》,34(2):837-8772006。

    [数学科学网]
  • 光滑密度下Dirichlet混合物的后验收敛速度。
    S Ghosal和AW van der Vaart。
    《统计年鉴》,35(2):697-7232007年。

    [数学科学网]
  • 基于高斯过程先验的后验分布收缩率。
    AW van der Vaart和JH van Zanten。
    《统计年鉴》,36(3):1435-14632008。

    [数学科学网]
  • 高斯过程先验的半参数Bernstein-von Mises定理。
    我是卡斯蒂略。
    概率论及相关领域,152:53-992012。

    [PDF格式]

可交换性

有关交换性及其对贝叶斯模型的影响的良好介绍,请参见Schervish的统计学理论,这是上述参考.如果你对大局感兴趣,以及互换性如何推广到其他方面随机结构而非可交换序列,我强烈推荐一篇基于David Aldous的文章在国际数学家大会上的演讲:
  • 离散随机结构的互换性和连续极限。
    DJ奥尔德斯。
    2010年国际数学家大会会议记录。

    [PDF格式]
据我所知,关于可交换性的最全面、最严谨的论文是:
  • 概率对称和不变性原理。
    奥卡伦伯格。
    斯普林格,2005年。

    [数学科学网]
我将讨论数据不可表示的非参数贝叶斯模型的应用作为预印本中的可交换序列:
  • 完全可分度量空间上的非参数先验。
    P奥尔班兹。
    预打印。

    [PDF格式]

瓮和电力法

当Dirichlet工艺首次开发时,布莱克威尔和麦奎因意识到DP的样本可以通过所谓的Pólya urn生成无数种颜色。粗略地说,瓮模型假设颜色包含在一个瓮中,并随机均匀绘制;每种颜色的球比例确定要绘制的每种颜色的概率。特定的urn由一条规则定义绘制颜色时,球的数量会发生变化。在Pólya urns中,一种颜色的球的数量每次绘制该颜色时都会增加;这个过程称为钢筋,与Dirichlet过程的rich-get-richer属性相对应。有许多不同版本的Pólya urns,由不同的加固规则定义。

对于贝叶斯非参数,urns提供了一种概率工具来研究聚类模型,或更一般的随机离散测度的权重分布。他们还提供与种群遗传学的链接,其中urns对物种分布进行建模;你会有时会遇到引用物种抽样模型. The relationship between the 不同的术语是\[\开始{对齐}\text{urn}=\text{species}=\text{clusters}中的颜色\结束{对齐}\]\[\开始{对齐}\#\text{balls}=\#\text{individuals}=\text{cluster大小。}\结束{对齐}\]Pólya urns的一个关键特性是,它们可以生成幂律分布在语言模型或社交网络等应用程序中。

如果你对骨灰盒和电力法感兴趣,我建议你看看以下内容两篇调查文章(按顺序):
  • 关于无限多箱占用问题的注记:一般渐近性和幂律。
    AV格尼丁、B汉森和J皮特曼。
    《概率调查》,2007年4月146-171日。

    [PDF格式]
  • 钢筋随机过程的调查。
    R佩曼特尔。
    概率调查,4:1-792007。

    [PDF格式]

数学背景

我经常被要求提供关于贝叶斯非参数。有几个具体原因贝叶斯非参数模型需要更强大的数学模型工具而非参数化工具;对于理论问题。

其中一个原因是贝叶斯非参数模型没有通常具有密度表示,因此需要计量量理论。由于非参数模型是无限维、先验和后验的分布是无限维空间上的概率因此随机过程。如果你对以下理论感兴趣贝叶斯非参数,没有概率背景,您可能需要熟悉一些主题,例如随机过程和正则条件概率。这些在概率论的每一本教科书中都有。比林斯利的书是一个受欢迎的选择。
  • 概率与测度。
    P Billingsley。
    J.Wiley&Sons,1995年。

    [数学科学网]
我最喜欢的概率教科书是卡伦伯格的《基础》。然而,这如果你还没有一个合理的该领域的知识。如果你对这本书感兴趣,一定要阅读再版。
  • 现代概率基础。
    奥卡伦伯格。
    施普林格,第二版,2001年。

    [数学科学网]
处理无限维空间的数学工具是功能分析。Aliprantis and Border有一本很棒的教科书我相信每个对贝叶斯非参数理论感兴趣的研究人员模型应该放在架子上。
  • 无限维分析。
    CD Aliprantis和KC Border。
    施普林格,第三版,2006年。

    [数学科学网]
另一个问题是,贝叶斯定理通常不适用于贝叶斯非参数模型。从技术上讲,这是由于事实上,无限维模型可以无端接的。有关未定名模型和贝叶斯定理所要求的精确条件,我建议第一章Schervish的教科书.

这个问题激发了我对共轭模型(因为共轭是我们知道的唯一合理的通用方法从先验数据到后验数据);参见示例。我的论文中给出了更严格的处理方法上述参考.

历史参考文献

最初的DP论文当然是弗格森1973年的文章。在他的Ferguson将这个想法归功于David Blackwell。
  • 一些非参数问题的贝叶斯分析。
    TS弗格森。
    《统计年鉴》,1(2),1973年。

    [数学科学网]
大约在同一时间,弗格森的学生安东尼亚克介绍了一个模型称为Dirichlet过程的混合(MDP),即有时被误认为是Dirichlet过程混合物。MDP将在DP基本测量参数之前。MDP抽签几乎可以肯定是离散的,就像DP一样。
  • Dirichlet过程的混合及其在贝叶斯非参数估计中的应用。
    CE安东尼亚克。
    统计年鉴,2(6):1152-11741974。

    [数学科学网]
Steven MacEachern向我指出,Antoniak的论文还包含狄利克雷过程混合:Antoniak引入了使用参数似然的思想使用DP或MDP,他称之为“随机噪音”(cf his定理3)和抽样分布(参见示例4)。如果这与DP一起使用,得到的分布与Dirichlet过程相同混合模型。然而,Albert Lo是第一个研究这种形式模型的作者从混合物的角度来看:
  • 关于一类贝叶斯非参数估计。I.密度估算。
    AY低。
    《统计年鉴》,12(1):351-3571984年。

    [数学科学网]
戴维·布莱克威尔首先展示了DP的谨慎性。为了清楚地说明Blackwell使用的离散性论证,参见金曼的书.
  • 弗格森的谨慎选择。
    D布莱克威尔。
    统计年鉴,1(2):356-3581973。

    [数学科学网]
波里亚瓮的解释是由詹姆斯·麦奎因(James MacQueen)做出的。
  • 通过Pólya urn方案的Ferguson分布。
    D布莱克威尔和JB麦奎因。
    统计年鉴,1(2):353-3551973。

    [数学科学网]

一致性和后收敛

直到20世纪80年代,贝叶斯统计学使用的一致性定义较弱而不是现代的定义。粗略地说,这个定义表明模型必须对参数的所有值(零概率集除外)表现良好在前面的下面。在参数化模型中,这组异常通常不会导致但在非参数模型中,它可以使一致性的概念几乎无意义的。在迪亚科尼斯和弗里德曼之后,开始了关于更强形式一致性的工作通过构造一个病理反例来指出问题狄利克雷过程的行为。
  • 关于贝叶斯估计的一致性(与讨论)。
    P Diaconis和D Freedman。
    《统计年鉴》,14(1):1-671986年。

    [数学科学网]
这件事引起了相当大的混乱。回到Doob的结果显示(在非常温和的可识别条件下)任何贝叶斯模型是弱意义上的一致性:
  • 鞅理论的应用。
    JL斗杆。
    科尔。巴黎CNRS国际组织,1949年。

    [数学科学网]
这一结果的后果是一种民间信仰,即一致性从来都不是贝叶斯模型的问题(您仍可能不时遇到这种说法在文献中)。更准确的说法可能是一致性通常在参数模型中不是问题,但在非参数模型中可能会导致问题个(无论这些模型是贝叶斯模型还是非贝叶斯模式)。贝叶斯语在贝叶斯非参数成为严肃的研究课题。关于贝叶斯非参数一致性的现代结果模型,请参见上述参考文献.

可交换性

研究交换性和条件的等价性独立可以追溯到德菲内蒂的几份出版物关于二元随机变量序列在20世纪30年代初,例如:
  • Fuzione caratteristica di un fenomeno aleatorio餐厅。
    B de Finetti公司。
    Atti della R.Lincei国家科学院,4:251-2991931。
有关德菲内蒂对这一主题的看法,请参阅他的概率论[数学科学网]. 任意性的推广随机变量以及作为凸多面体的可交换测度是由于:
  • 笛卡尔乘积上的对称测度。
    E休伊特和LJ萨维奇。
    美国数学学会学报,80(2):470-501,1955

    [数学科学网]