1.简介
Shannon熵的公理化刻画和库尔贝克我-散度(相对熵)对于离散概率分布,将调查一些广义信息测度P(P)= (第页1,…,第页n个),问= (q个1,…,q个n个),n个= 2, 3, …. 没有尝试完整性,参考文献仅涵盖历史上重要贡献的一部分,但被认为是该领域主要思想发展的代表。它还说明了起源于信息论的研究方向是如何发展成为泛函方程理论的一个分支的;然而,后者并没有深入研究,因为它的主要成就似乎是解决了超出信息理论相关性的数学问题。
1.1. 历史评论
“香农熵”最早出现在统计物理学中,是在19世纪波尔兹曼和吉布斯的著作中。具有特征值的密度矩阵的量子熵第页1,…,第页n个,由相同的表达式Neumann定义[45].我-分歧被Kullback-Leibler定义为信息度量[40]可能早在物理学中就已经使用了。非负性我-散度有时被称为吉布斯不等式,但这位作者无法证明它确实出现在吉布斯的著作中。瓦尔德[58]已使用我-散度作为序列分析中的一种工具(没有名称)。 这是香农的信息理论[52]这确立了熵作为关键信息度量的重要性,并很快得到了我-并刺激了它们在其他领域的深入应用,如大偏差[50],遍历理论[38]、和统计数据[39]. 熵的公理化表征也可以追溯到香农[52]. 在他看来,这“对理论来说没有必要”,但“为熵和相关信息测度的定义提供了某种合理性”。“真正的理由在于”这些措施的业务相关性。 1.2. 公理化特征的方向
(A) 将熵表征为分布函数P(P)= (第页1,…,第页n个),n个=2,3,…:证明它是满足某些假设的唯一函数,最好是直觉上期望的假设。类似于我-分歧。这个方向有大量文献。主要参考文献:Aczél-Daróczy[1]、Ebanks-Sahoo-Sander[26]. (B) 将熵表征为集合函数:确定集合函数的类别φ(A类),A类⊂ {1,…,N个},可以表示为φ(A类) =H(H)({X(X)我}我∈A类),对于合适的随机变量X(X)1,…,X(X)N个,或者作为这样的“熵”集合函数序列的极限。这个方向由皮彭格发起[47],主要参考文献是Yeung[59]. (C) 公理化地描述MaxEnt推理原理。推断分布P(P)= (第页1,…,第页n个)从只指定线性约束的不完整信息这位校长(杰恩斯[33]、库尔贝克[39])要求最大化H(H)(P(P))或者,如果“事先猜测”问可用,最小化D类(P(P)||问)受给定约束。参考文献:Shore-Johnson[53]巴黎-威尼斯[46],Csiszár[18]. (D) 未输入:无概率信息[32], [35]以及“信息混合理论”[2]. 2.方向(A)
用作假设的熵的性质:- -
积极性:H(H)(P(P)) ≥ 0
- -
可扩展性:“扩展”P(P)通过等于0的新组件不会更改H(H)(P(P))
- -
对称性:H(H)(P(P))在的置换下是不变的第页1,…,第页n个
- -
连续性:H(H)(P(P))是的连续函数P(P)(用于固定n个)
- -
相加性:H(H)(P(P)×问) =H(H)(P(P)) +H(H)(问)
- -
次可加性:H(H)(X(X),Y(Y)) ≤H(H)(X(X)) +H(H)(Y(Y))
- -
强加性:H(H)(X(X),Y(Y)) =H(H)(X(X)) +H(H)(Y(Y)|X(X))
- -
重现性:H(H)(第页1,…,第页n个) =H(H)(第页1+第页2,第页三,…,第页n个) + (第页1+第页2)H(H)
- -
Sum属性:,对于某些功能克.
以上,H(H)(X(X)),H(H)(Y(Y)),H(H)(X(X),Y(Y))是随机变量分布的熵X(X),Y(Y)(值在{1,…,n个}和{1,…,米})以及他们的共同分配。H(H)(Y(Y)|X(X))表示的条件分布的熵的平均值Y(Y)关于条件X(X)=我, 1 ≤我≤n个,由事件的概率加权X(X)=我.
2.1、。香农熵与I-散度
香农[52]显示了连续性、强可加性和H(H)(1/n个,…,1/n个)增加n个,确定一个常数因子的熵。证明的关键是表明这些假设意味着H(H)(1/n个,…,1/n个) =c(c)日志n个. 法德耶夫[27]表明递归性加上3-对称性n个=3)加上连续性n个=2确定H(H)(P(P))达到常数因数。 这些方面的进一步贡献包括特弗伯格[56]和Lee[41]:Lebesgue可积性的松弛连续性。可测量性 迪德里奇[25]:递归性加上3-对称性加上有界性就足够了 达罗奇·马克萨[24]:积极性而不是有界性是不够的。
这些工作作为一个关键工具,用于(f)(x个) =H(H)(x个,1 −x个)哪里x个,年∈ [0, 1),x个+年≤ 1. Aczél-Daróczy公司[1]表明该方程的所有解(f)(0) =(f)(1) =0由下式给出哪里小时任何函数都满足吗 Chaundy-McLeod公司[13]通过求解另一个函数方程,证明了连续克,加上可加性,确定Shannon的熵达到常数因子。 达洛奇[23]在较弱的条件下证明了相同的结果克是可衡量的,克(0)=0,以及H(H)是(3,2)-添加剂(用于P(P)= (第页1,第页2,第页三),问= (q个1,q个2)). 然而,(2,2)-可加性还不够。 直观上最吸引人的公理结果来自Aczél-Forte-Ng[三],扩展了Forte以前的工作[29]:对称性、可扩展性、可加性和次可加性是线性组合的唯一特征,其非负系数为H(H)(P(P))和H(H)0(P(P))=对数|{我:第页我>0}|。相同的假设加上连续性n个=2决定Shannon熵,直至常数因子。 我-散度具有与熵相似的特征,既通过递归性,也通过和属性加上可加性。对于我-发散,递归意味着总和属性意味着,对于某些函数G公司两个变量, 在这个方向上的第一个结果采用了同样承认“不完全分布”的方法问(概率总和小于1)。不需要这个,Kannapan-Ng[36,37]证明:D类(P(P)||问),作为任意概率分布的函数P(P)和严格正概率分布问,由递归性、3-对称性、第页用于固定q个和中q个用于固定第页属于D类(第页, 1 −第页||q个, 1 −q个),加上D类(1/2, 1/2||1/2, 1/2) = 0. 为了证明这一点,必须用四个未知函数对熵表征中的函数方程进行以下模拟:哪里x个,年∈ [0, 1),x个+年≤ 1. 这两种特征已经扩展到依赖于两种以上分布的“信息测度”。在这里,书中只有以下更一般(深入)结果的推论[26]如图所示。如果函数米严格正概率分布,的形式可测量的G公司,且满足可加性,则此函数等于熵的线性组合H(H)(P(P)j个)和分歧D类(P(P)我||P(P)j个). 2.2. 雷诺熵和发散
香农熵和我-散度为平均值∑第页k个我k个个人信息的我k个=−log第页k个或.雷尼[48]引入了替代信息测度,即广义均值,其中ψ是一个连续的、严格单调的函数,并且满足可加性。熵与阶散度α≠1对应于ψ(x个)等于e(电子)(1−α)x个分别地e(电子)(α−1)x个:这里,总数是k个∈ {1,…,n个}带有第页k个> 0. 限制为α→ 1给出H(H)1=H(H),D类1=D类. Schützenberger之前考虑过这些数量[51]. 雷尼[48]证明了对于发散的情况,以及对于熵的猜想,只有这些广义平均值才会产生可加信息测度,前提是还考虑了“不完全分布”。Daróczy证明了后一个猜想[20]. 然后是Daróczy[21]在不依赖不完全分布的情况下,证明了序熵α>0表示所有附加熵等于广义平均值,这样(第页, 1 −第页)接近0为第页→ 0(最后一个条件不包括α≤ 0.) 雷尼熵是加性的,但不是亚加性的,除非α=1或0。如果P(P)= (1/n个,…,1/n个)然后H(H)α(P(P))=对数n个,否则H(H)α(P(P))是的严格递减函数α此外,H(H)∞(P(P)):=极限α→∞ H(H)α(P(P))=−log最大值k个 第页k个.
Rényi熵在随机搜索理论中具有操作相关性[49],用于可变长度源编码(指数意义上的平均码长[12]),信源和信道的块编码(广义截止速率[19])和在密码学中(隐私放大[9]).备注1对于噪声信道上的信息传输,一个关键的信息度量是相互信息,它可以通过熵和我-以几种等效的方式发散。这个α-这些表达式的类似物不再等价,所证明的操作意义之一是参见Csiszár[19]. 在这里W公司是具有行的通道矩阵W公司k个= (w个k个1,…,w个公里),P(P)= (第页1,…,第页n个)为输入分布,最小化为超分布问= (q个1,…,q个米). 订单相互信息的定义α以及不同的早期版本(Sibson[54],有本[7])在输入分布上给出相同的最大值P(P)(“订单能力α频道的“W公司). 2.3. 其他熵和发散
这个(f)-发散P(P)从问是哪里(f)是(0,∞)上的凸函数(f)(1) = 0. 这是Csiszár介绍的[14,15],由Ali-Silvey独立完成[5]. 简单的公理化特征(f)-Csiszár出现分歧[17]. 除了我-散度,此类包含反向我-散度,海林格距离,χ2-散度、变化距离等我-发散性,特别是单调性:对于任何分区共{1,…,n个},带符号,它认为备注2这个(f)-如果(f)(t吨)被替换为(f)(t吨) +一(t吨−1),任何一∈ℝ,因此(f)可以假定≥0,而不损失一般性。如果(f)≥0,定义对任意性的明显扩张保留了发散的直观含义。因此我-任意散度定义为(f)-与……的分歧(f)(t吨) =t吨日志t吨负极t吨+ 1, 互信息的泛化(f)-分歧,作为一种特殊情况(f)-熵,出现在Csiszár[16]. 不同的概念(f)-内翻由Arimoto定义[6],即。,(f)凹面,以及两者都用于限制错误概率。本-巴萨特[8]确定了可能的最佳界限H(H)(f)(P(P)). 这个(f)-的熵[16]与…重合在某种意义上[6],其中. 在统计决策理论的背景下考虑了非常一般的信息度量,参见Grünwald和Dawid[30]和参考资料。A函数我(问,k个)概率分布的问= {q个1,…,q个n个}和k个∈ {1,…,n个},测量损失问已推断和结果k个被观察到,称为适当的分数如果平均损失最小化为问等于真实分布P(P),不管是什么P(P)是。那么称为熵P(P)对应正确的分数我在这种情况下,香农熵被区分为与形式的唯一适当分数相对应的熵我(问,k个) =(f)(q个k个),对数分数。的确,如果对某些人来说n个> 2对于所有严格正分布P(P)和问在{1,…,n个},然后(f)(x个) =c(c)日志x个+b条,使用c(c)≤ 0. 这一结果由来已久[1]将其第一个完全通用且已发表的证明归功于Fischer[28]. 在决策理论框架中,Arimoto熵H(H)(f)(P(P))对应“可分离Bregman分数”[30]. 2.4. α度的熵和发散
这个子类(f)-定义了熵/发散α≠0,1,依据在这里c(c)α是常数,如果为0,则为正<α<1,否则为负值。其典型选择是(1−α)c(c)α→ 1作为α→ 1,然后限制为α→ 1给出H(H)1=H(H),D类1=D类. 度熵α由Haverda-Charvát介绍[31]. 特殊情况α=2(“二次熵”)可能出现得更早,Vajda[57]用它来限制错误概率,以测试多个假设。2度和1/2度的差异早就在统计学中使用了,前者始于20世纪初(χ2测试),后者至少可以追溯到巴塔查里亚[10]. 在统计物理学中,H(H)α(P(P))称为Tsallis熵,是指[55]. 之前,林德哈德·尼尔森[42]提出了统计物理的广义熵,有效地与度熵相同α和秩序α也不知道它们以前在信息论中的应用。 顺序的熵/发散α和学位α处于一对一的功能关系中。原则上,只使用其中一个就足够了,但在不同的情况下,其中一个更方便。例如,在用于识别的源代码中,自然进入的是2级熵[4]. 度熵α≥1是次可加的,但具有任意程度的熵α≠1既不是加性的,也不是递归的。相反,有了这些“α-可加性“和”α-递归性”,Shannon熵守恒表征定理的类似物,第一个由Haverda-Charvát提出[31]. 值得注意的是,通过α-递归性不需要正则性条件[22]. 程度分歧也有类似的结果α以及学位的“信息测量”α涉及两个以上的分布。看这本书[26]关于细节,有些非常复杂。对于散度,α-递归方法 3.方向(B)
这一非常重要的方向在此无法详细介绍。我们只提到以下关键结果:N个≥4,“熵”集函数类的闭包是多拟阵张扬的一个恰当子类[60]. 这是一个凸锥,杨[59],但不是多面体圆锥体,马图什[44]也就是说,没有一组有限的线性熵不等式可以提供所需的特征。 4.方向(C)
这里,Csiszár的一些公理化结果[18]被调查。注意不限于概率分布,要推断的对象可以是- (i)
概率分布P(P)= (第页1,…,第页n个),或
- (ii)
任何,或
- (iii)
任何P(P)∈ℝn个
出于技术原因,在(i)和(ii)中第页k个是必需的。这符合排除某些事件概率为0的推论的直观愿望。下面,n个是固定的,n个在情况(i)中≥5,n个在第(ii)、(iii)种情况下≥3。 关于的唯一信息P(P)它属于一个可行集F类可以是由约束确定的任何非空集也就是说,由所有P(P)如(i)、(ii)或(iii)中所述,满足约束条件。假设先前的猜测(默认模型)问可用,可以是任意的(如P(P)在(i)、(ii)或(iii)中。 安推理规则是分配给每个可行集的任何映射∏F类和之前的猜测问推理∏(F类,问) =P(P)∗∈F类公理将被视为“良好”推理规则的必要条件。结果证实,在(i)和(ii)情况下,“最佳”推理规则是让∏(F类,问)成为我-的投影问到F类(MaxEnt),在这种情况下(iii)正则欧几里德投影(最小二乘)是“最佳”的。还将确定合理的替代规则。
在第二个公理中,我们使用术语“我-局部约束”,其中我是{1,…,的子集,…,n个}. 这意味着形式的约束; 在案例(i)中,还假设其中一个是,大约0<t吨< 1.
公理如下:规律性:(a)问∈F类表示∏(F类,问) =问,(b)F类1⊂F类和∏(F类,问) ∈F类1暗示∏(F类1,问) = Π(F类,问),(c)每个P(P)≠问,在由单个约束确定的可行集合中,存在唯一的F类使∏(F类,问) =P(P),(d)∏(F类,问)持续依赖F类.
地点:如果F类1由一组我-局部约束,F类2通过一组我c(c)-本地的,然后是组件属于取决于F类1和{q个我:我∈我}.
传递性:如果F类1⊂F类, Π(F类,问) =P(P)∗,那么π(F类1,问) = Π(F类1,P(P)∗).
半对称性:如果F类= {P(P):第页我+第页j个=t吨}对一些人来说我≠j个和常量t吨、和问满足q个我=q个j个,然后P(P)∗= Π(F类,问)满足.
弱缩放(对于情况(i),(ii)):对于F类如上所述,P(P)∗= Π(F类,问)总是令人满意
定理 1 推理规则Π是常规和本地iffΠ(F类,问)最小值是否服从P∈“距离”的F由函数f定义k个(第页,q个) ≥ 0 =(f)k个(第页,q个),p中的连续可微,在情况(i),(ii)中 作为p→ 0,这样d(P(P),问)在P中是严格拟凸的. 在第(ii)、(iii)种情况下,这些功能(f)k个在中必然是凸的第页.定理 2 定理1中的推理规则满足- (a)
函数f的及物性k个具有形式哪里 严格凸;然后是d(P(P),问)是Bregman距离 - (b)
半对称iff1= ⋯ =(f)n个
- (c)
弱标度(在情况(i),(ii)中)iff函数1==(f)n个形式为af(第页/q个),f是严格凸的,(f)(1) =(f)′(1) = 0,和f′(x个) → −∞作为x→ 0;然后是d(P(P),问)是f散度D(f)(P(P)||问).
Bregman距离引入于[11]. Jones和Byrne中出现了公理化特征(在连续情况下)和各种应用的提示[34]. 相应的推理规则满足及物性,因为它满足“毕达哥拉斯恒等式”不难看出,在(i)和(ii)两种情况下,只有我-散度同时是(f)-散度和Bregman距离。推论 1 在情况(i)、(ii)中,规则性+地区+及物性+弱标度唯一地刻画了MaxEnt推理规则Π(F类,问)等于Q到F的I投影.
在第(ii)、(iii)种情况下,自然需要缩放不变性:对于每个可行集合F类,预先猜测问、和t吨> 0, Π(tF(飞行时间),tQ公司) =t吨Π(F类,问). 在案例(iii)中,另一个迫切需要的是类似定义的翻译不变性。
定理 三。 正则、局部、传递和半对称推理规则Π满足- (a)
平移和尺度不变性(在情况(iii)中)iffΠ(F类,问)等于Q到F的欧氏投影
- (b)
尺度不变性(情况(ii))iffΠ(F类,问)是的最小值以P为准∈F类,其中α≤ 1和
备注三。α=1给出我-发散,α=0 Itakura-Saito距离。早期报告成功(在频谱重建中)使用d日α具有α= 1/米出现在中[34]. MaxEnt和最小二乘推理规则的交替特征涉及在情况(i)、(ii)中的“乘积一致性”或在情况(iii)中的“和一致性”这一直观吸引人的公理。这个公理也适用于没有默认模型的情况。然后通过最大化Shannon熵进行推理。达到欧几里德范数最小化,参见[18]了解详细信息。 5.讨论
在考察了各种信息度量的公理化方法之后,这里简要介绍了它们的科学价值。
方向(A)有广泛的文献,其中包括许多好的和许多差的论文。对于数学家来说,好的数学本身就具有科学价值,有争议的问题是与信息论的相关性。注意,在香农之后[52]关于一个信息测度的数量的论证存在于数学定理中,如果有的话,可以证明它的操作意义。这位作者知道一个场合[31]当一种公理化的方法产生了一种新的实用信息度量时[48]当这种方法启动了一项研究,成功地找到了以前微不足道的信息度量的操作意义时。方向(A)公理化工作的一个好处是证明不存在具有某些理想属性的新信息度量。另一方面,这一研究方向已远远超出其起源,成为函数方程理论的一个分支。它在过去30年中的主要结果主要引起了该理论专家的兴趣。 方向(B),这里只简单提到,解决了一个具有重大信息理论意义的问题。它的完整解决方案似乎遥遥领先,但这方面的研究已经产生了宝贵的成果。特别是,已经发现了许多新的香农熵不等式,从[60]. 方向(C)描述了“好”推理规则的特征,这显然与推理理论有关。此类特征涉及信息度量,主要是Shannon熵和我-散度,其次是Bregman距离和(f)-分歧,间接地构成了后者的特征。作为一个较好的特征,信息度量的这些特征与操作重要性直接相关(用于推断)。