Axiomatic Characterizations of Information Measures

Csiszár, Imre

doi:10.3390/e10030261

开放式访问第条

信息测度的公理化特征

通过

伊姆雷·西萨尔

匈牙利布达佩斯H1364，127号邮箱，匈牙利科学院雷尼数学研究所

熵 2008,10(3), 261-273;https://doi.org/10.3390/e10030261

收到的划界案：2008年9月1日/接受日期：2008年9月12日/发布日期：2008年9月19日

（本文属于特刊熵的方面——在哥本哈根研讨会上提交的论文（2007年10月24日至26日）)

下载版本注释

摘要

:

Shannon熵的公理化刻画，Kullback我-对散度和一些广义信息测度进行了综述。讨论了三个方向：（A）适用于信息测度的概率分布函数的特征。（B） {1，…，子集上集合函数的特征，…，N个}可以用N个-维随机向量。（C） MaxEnt的公理化特征及其相关推理规则。本文最后简要讨论了信息论公理方法的相关性。

关键词：

香农熵；库尔贝克我-发散；Rényi信息度量；（f）-发散；（f）-熵；函数方程；适当的分数；最大熵；传递推理规则；布列格曼距离

1.简介

Shannon熵的公理化刻画

H（H） (P（P）) = 负极 \sum_{我 = 1}^{n个} {第页}_{我} 日志 {第页}_{我}

和库尔贝克我-散度（相对熵）

D类 (P（P） | | 问) = 负极 \sum_{我 = 1}^{n个} {第页}_{我} 日志 \frac{{第页}_{我}}{{q个}_{我}},

对于离散概率分布，将调查一些广义信息测度P（P）= (第页₁,…,第页_n个),问= (q个₁,…,q个_n个),n个= 2, 3, ….

没有尝试完整性，参考文献仅涵盖历史上重要贡献的一部分，但被认为是该领域主要思想发展的代表。它还说明了起源于信息论的研究方向是如何发展成为泛函方程理论的一个分支的；然而，后者并没有深入研究，因为它的主要成就似乎是解决了超出信息理论相关性的数学问题。

1.1. 历史评论

“香农熵”最早出现在统计物理学中，是在19世纪波尔兹曼和吉布斯的著作中。具有特征值的密度矩阵的量子熵第页₁,…,第页_n个，由相同的表达式Neumann定义[45].我-分歧被Kullback-Leibler定义为信息度量[40]可能早在物理学中就已经使用了。非负性我-散度有时被称为吉布斯不等式，但这位作者无法证明它确实出现在吉布斯的著作中。瓦尔德[58]已使用我-散度作为序列分析中的一种工具（没有名称）。

这是香农的信息理论[52]这确立了熵作为关键信息度量的重要性，并很快得到了我-并刺激了它们在其他领域的深入应用，如大偏差[50]，遍历理论[38]、和统计数据[39].

熵的公理化表征也可以追溯到香农[52]. 在他看来，这“对理论来说没有必要”，但“为熵和相关信息测度的定义提供了某种合理性”。“真正的理由在于”这些措施的业务相关性。

1.2. 公理化特征的方向

（A）将熵表征为分布函数P（P）= (第页₁,…,第页_n个),n个=2，3，…：证明它是满足某些假设的唯一函数，最好是直觉上期望的假设。类似于我-分歧。这个方向有大量文献。主要参考文献：Aczél-Daróczy[1]、Ebanks-Sahoo-Sander[26].

（B）将熵表征为集合函数：确定集合函数的类别φ(A类),A类⊂ {1,…,N个}，可以表示为φ(A类) =H（H）({X（X）_我}_我∈A类)，对于合适的随机变量X（X）₁,…,X（X）_N个，或者作为这样的“熵”集合函数序列的极限。这个方向由皮彭格发起[47]，主要参考文献是Yeung[59].

（C）公理化地描述MaxEnt推理原理。推断分布P（P）= (第页₁,…,第页_n个)从只指定线性约束的不完整信息

\sum_{我 = 1}^{n个} {第页}_{我} 一_{我 j个} = {b条}_{j个}, j个 = 1, \dots, k个

这位校长（杰恩斯[33]、库尔贝克[39])要求最大化H（H）(P（P）)或者，如果“事先猜测”问可用，最小化D类(P（P）||问)受给定约束。参考文献：Shore-Johnson[53]巴黎-威尼斯[46]，Csiszár[18].

（D）未输入：无概率信息[32], [35]以及“信息混合理论”[2].

2.方向（A）

用作假设的熵的性质：

-: 积极性：H（H）(P（P）) ≥ 0
-: 可扩展性：“扩展”P（P）通过等于0的新组件不会更改H（H）(P（P）)
-: 对称性：H（H）(P（P）)在的置换下是不变的第页₁,…,第页_n个
-: 连续性：H（H）(P（P）)是的连续函数P（P）（用于固定n个)
-: 相加性：H（H）(P（P）×问) =H（H）(P（P）) +H（H）(问)
-: 次可加性：H（H）(X（X）,Y（Y）) ≤H（H）(X（X）) +H（H）(Y（Y）)
-: 强加性：H（H）(X（X）,Y（Y）) =H（H）(X（X）) +H（H）(Y（Y）|X（X）)
-: 重现性：H（H）(第页₁,…,第页_n个) =H（H）(第页₁+第页₂,第页_三,…,第页_n个) + (第页₁+第页₂)H（H） $(\frac{{第页}_{1}}{{第页}_{1} + {第页}_{2}}, \frac{{第页}_{2}}{{第页}_{1} + {第页}_{2}})$
-: Sum属性： $H（H） (P（P）) = \sum_{我 = 1}^{n个} 克 ({第页}_{我})$ ，对于某些功能克.

以上，H（H）(X（X）),H（H）(Y（Y）),H（H）(X（X）,Y（Y）)是随机变量分布的熵X（X）,Y（Y）（值在{1，…，n个}和{1，…，米})以及他们的共同分配。H（H）(Y（Y）|X（X）)表示的条件分布的熵的平均值Y（Y）关于条件X（X）=我, 1 ≤我≤n个，由事件的概率加权X（X）=我.

2.1、。香农熵与I-散度

香农[52]显示了连续性、强可加性和H（H）(1/n个,…,1/n个)增加n个，确定一个常数因子的熵。证明的关键是表明这些假设意味着H（H）(1/n个,…,1/n个) =c（c）日志n个.

法德耶夫[27]表明递归性加上3-对称性n个=3）加上连续性n个=2确定H（H）(P（P）)达到常数因数。

这些方面的进一步贡献包括

特弗伯格[56]和Lee[41]：Lebesgue可积性的松弛连续性。可测量性
迪德里奇[25]：递归性加上3-对称性加上有界性就足够了
达罗奇·马克萨[24]：积极性而不是有界性是不够的。

这些工作作为一个关键工具，用于（f）(x个) =H（H）(x个,1 −x个)

（f） (x个) + (1 负极 x个) （f） (\frac{年}{1 负极 x个}) = （f） (年) + (1 负极 年) （f） (\frac{x个}{1 负极 年})

哪里x个,年∈ [0, 1),x个+年≤ 1. Aczél-Daróczy公司[1]表明该方程的所有解（f）(0) =（f）（1） =0由下式给出

\begin{matrix} （f） (x个) = x个 小时 (x个) + (1 负极 x个) 小时 (1 负极 x个) & 0 < x个 < 1, \end{matrix}

哪里小时任何函数都满足吗

\begin{matrix} 小时 (u个 v（v）) = 小时 (u个) + 小时 (v（v）) & u个, v（v） > 0 . \end{matrix}

Chaundy-McLeod公司[13]通过求解另一个函数方程，证明了连续克，加上可加性，确定Shannon的熵达到常数因子。

达洛奇[23]在较弱的条件下证明了相同的结果克是可衡量的，克（0）=0，以及H（H）是（3,2）-添加剂（用于P（P）= (第页₁,第页₂,第页_三),问= (q个₁,q个₂)). 然而，（2,2）-可加性还不够。

直观上最吸引人的公理结果来自Aczél-Forte-Ng[三]，扩展了Forte以前的工作[29]：对称性、可扩展性、可加性和次可加性是线性组合的唯一特征，其非负系数为H（H）(P（P）)和H（H）₀(P（P）)=对数|{我:第页_我>0｝|。相同的假设加上连续性n个=2决定Shannon熵，直至常数因子。

我-散度具有与熵相似的特征，既通过递归性，也通过和属性加上可加性。对于我-发散，递归意味着

D类 ({第页}_{1}, \dots, {第页}_{n个} | | {q个}_{1}, \dots, {q个}_{n个}) = D类 ({第页}_{1} + {第页}_{2}, \dots, {第页}_{n个} | | {q个}_{1} + {q个}_{2}, \dots, {q个}_{n个}) + ({第页}_{1} + {第页}_{2}) D类 (\frac{{第页}_{1}}{{第页}_{1} + {第页}_{2}}, \frac{{第页}_{2}}{{第页}_{1} + {第页}_{2}} | | \frac{{q个}_{1}}{{q个}_{1} + {q个}_{2}}, \frac{{q个}_{2}}{{q个}_{1} + {q个}_{2}}) .

总和属性意味着，对于某些函数G公司两个变量，

D类 ({第页}_{1}, \dots, {第页}_{n个} | | {q个}_{1}, \dots, {q个}_{n个}) = \sum_{我 = 1}^{n个} G公司 ({第页}_{我}, {q个}_{我}) .

在这个方向上的第一个结果采用了同样承认“不完全分布”的方法问（概率总和小于1）。不需要这个，Kannapan-Ng[36,37]证明：D类(P（P）||问)，作为任意概率分布的函数P（P）和严格正概率分布问，由递归性、3-对称性、第页用于固定q个和中q个用于固定第页属于D类(第页, 1 −第页||q个, 1 −q个)，加上D类(1/2, 1/2||1/2, 1/2) = 0.

为了证明这一点，必须用四个未知函数对熵表征中的函数方程进行以下模拟：

{（f）}_{1} (x个) + (1 负极 x个) {（f）}_{2} (\frac{年}{1 负极 x个}) = {（f）}_{三} (年) + (1 负极 年) {（f）}_{4} (\frac{x个}{1 负极 年}),

哪里x个,年∈ [0, 1),x个+年≤ 1.

这两种特征已经扩展到依赖于两种以上分布的“信息测度”。在这里，书中只有以下更一般（深入）结果的推论[26]如图所示。如果函数米严格正概率分布

{P（P）}_{j个} = ({第页}_{j个 1}, \dots, {第页}_{j个 n个}), j个 = 1, \dots, 米

，的形式

\sum_{我 = 1}^{n个} G公司 ({第页}_{1 我}, \dots, {第页}_{米 我})

可测量的G公司，且满足可加性，则此函数等于熵的线性组合H（H）(P（P）_j个)和分歧D类(P（P）_我||P（P）_j个).

2.2. 雷诺熵和发散

香农熵和我-散度为平均值∑第页_k个我_k个个人信息的我_k个=−log第页k个或

我_{k个} = 日志 \frac{{第页}_{k个}}{{q个}_{k个}}

.雷尼[48]引入了替代信息测度，即广义均值

ψ^{负极 1} (\sum {第页}_{k个} ψ (我_{k个}))

，其中ψ是一个连续的、严格单调的函数，并且满足可加性。熵与阶散度α≠1对应于ψ(x个)等于e（电子）^(1−α)x个分别地e（电子）^(α−1)x个:

\begin{matrix} {H（H）}_{α} (P（P）) = \frac{1}{1 负极 α} 日志 \sum {第页}_{k个}^{α}, & {D类}_{α} (P（P） | | 问) = \frac{1}{α 负极 1} 日志 \sum {第页}_{k个}^{α} {q个}_{k个}^{1 负极 α} ； \end{matrix}

这里，总数是k个∈ {1,…,n个}带有第页_k个> 0. 限制为α→ 1给出H（H）₁=H（H）,D类₁=D类.

Schützenberger之前考虑过这些数量[51]. 雷尼[48]证明了对于发散的情况，以及对于熵的猜想，只有这些广义平均值才会产生可加信息测度，前提是还考虑了“不完全分布”。Daróczy证明了后一个猜想[20]. 然后是Daróczy[21]在不依赖不完全分布的情况下，证明了序熵α>0表示所有附加熵等于广义平均值，这样(第页, 1 −第页)接近0为第页→ 0（最后一个条件不包括α≤ 0.)

雷尼熵是加性的，但不是亚加性的，除非α=1或0。如果P（P）= (1/n个,…,1/n个)然后H（H）_α(P（P）)=对数n个，否则H（H）_α(P（P）)是的严格递减函数α此外，H（H）_∞(P（P）)：=极限_α→∞ H（H）_α(P（P）)=−log最大值_k个第页_k个.

Rényi熵在随机搜索理论中具有操作相关性[49]，用于可变长度源编码（指数意义上的平均码长[12])，信源和信道的块编码（广义截止速率[19])和在密码学中（隐私放大[9]).

备注1

对于噪声信道上的信息传输，一个关键的信息度量是相互信息，它可以通过熵和我-以几种等效的方式发散。这个α-这些表达式的类似物不再等价，所证明的操作意义之一是

我_{α} (P（P）, W公司) = \underset{问}{最小值} \sum_{k个 = 1}^{n个} {第页}_{k个} {D类}_{α} ({W公司}_{k个} | | 问),

参见Csiszár[19]. 在这里W公司是具有行的通道矩阵W公司_k个= (w个_k个1,…,w个_公里),P（P）= (第页₁,…,第页_n个)为输入分布，最小化为超分布问= (q个₁,…,q个_米). 订单相互信息的定义α以及不同的早期版本（Sibson[54]，有本[7])在输入分布上给出相同的最大值P（P）（“订单能力α频道的“W公司).

2.3. 其他熵和发散

这个（f）-发散P（P）从问是

{D类}_{（f）} (P（P） | | 问) = \sum_{k个 = 1}^{n个} {q个}_{k个} （f） (\frac{{第页}_{k个}}{{q个}_{k个}}),

哪里（f）是（0，∞）上的凸函数（f）(1) = 0. 这是Csiszár介绍的[14,15]，由Ali-Silvey独立完成[5]. 简单的公理化特征（f）-Csiszár出现分歧[17].

除了我-散度，此类包含反向我-散度，海林格距离，χ²-散度、变化距离等我-发散性，特别是单调性：对于任何分区

A类 = ({A类}_{1}, \dots, {A类}_{米})

共{1，…，n个}，带符号

{P（P）}^{A类} = ({第页}_{1}^{A类}, \dots, {第页}_{米}^{A类}), {第页}_{我}^{A类} = \sum_{k个 \in {A类}_{我}} {第页}_{k个}

，它认为

{D类}_{（f）} ({P（P）}^{A类} | | 问^{A类}) \leq {D类}_{（f）} (P（P） | | 问) .

备注2

这个（f）-如果（f）(t吨)被替换为（f）(t吨) +一(t吨−1），任何一∈ℝ，因此（f）可以假定≥0，而不损失一般性。如果（f）≥0，定义对任意性的明显扩张

P（P）, 问 \in ℝ_{+}^{n个}

保留了发散的直观含义。因此我-任意散度

P（P）, 问 \in ℝ_{+}^{n个}

定义为（f）-与……的分歧（f）(t吨) =t吨日志t吨负极t吨+ 1,

D类 (P（P） | | 问) = \sum_{我 = 1}^{n个} ({第页}_{我} 日志 \frac{{第页}_{我}}{{q个}_{我}} 负极 {第页}_{我} + {q个}_{我}) .

互信息的泛化（f）-分歧，作为一种特殊情况（f）-熵，出现在Csiszár[16]. 不同的概念（f）-内翻由Arimoto定义[6]，即。

{H（H）}^{（f）} (P（P）) = \sum_{k个 = 1}^{n个} （f） ({第页}_{k个})

,（f）凹面，以及

{H（H）}_{（f）} (P（P）) = {inf公司}_{问} \sum_{k个 = 1}^{n个} {第页}_{k个} （f） ({q个}_{k个})

两者都用于限制错误概率。本-巴萨特[8]确定了可能的最佳界限H（H）^（f）(P（P）). 这个（f）-的熵[16]与…重合

{H（H）}_{\tilde{（f）}} (P（P）)

在某种意义上[6]，其中

\tilde{（f）} (x个) = x个 （f） (1 / x个)

.

在统计决策理论的背景下考虑了非常一般的信息度量，参见Grünwald和Dawid[30]和参考资料。A函数我(问,k个)概率分布的问= {q个₁,…,q个_n个}和k个∈ {1,…,n个}，测量损失问已推断和结果k个被观察到，称为适当的分数如果平均损失

\sum_{k个 = 1}^{n个} {第页}_{k个} 我 (问, k个)

最小化为问等于真实分布P（P），不管是什么P（P）是。那么

\sum_{k个 = 1}^{n个} {第页}_{k个} 我 (P（P）, k个)

称为熵P（P）对应正确的分数我在这种情况下，香农熵被区分为与形式的唯一适当分数相对应的熵我(问,k个) =（f）(q个_k个)，对数分数。的确，如果对某些人来说n个> 2

\sum_{k个 = 1}^{n个} {第页}_{k个} （f） ({第页}_{k个}) \leq \sum_{k个 = 1}^{n个} {第页}_{k个} （f） ({q个}_{k个})

对于所有严格正分布P（P）和问在{1，…，n个}，然后（f）(x个) =c（c）日志x个+b条，使用c（c）≤ 0. 这一结果由来已久[1]将其第一个完全通用且已发表的证明归功于Fischer[28].

在决策理论框架中，Arimoto熵H（H）^（f）(P（P）)对应“可分离Bregman分数”[30].

2.4. α度的熵和发散

这个子类（f）-定义了熵/发散α≠0，1，依据

\begin{matrix} {H（H）}^{α} (P（P）) = {c（c）}_{α} (\sum_{k个 = 1}^{n个} {第页}_{k个}^{α} 负极 1), & {D类}^{α} (P（P） | | 问) = 负极 {c（c）}_{α} (\sum_{k个 = 1}^{n个} {第页}_{k个}^{α} {q个}_{k个}^{1 负极 α} 负极 1) . \end{matrix}

在这里c（c）_α是常数，如果为0，则为正<α<1，否则为负值。其典型选择是（1−α)c（c）_α→ 1作为α→ 1，然后限制为α→ 1给出H（H）¹=H（H）,D类¹=D类.

度熵α由Haverda-Charvát介绍[31]. 特殊情况α=2（“二次熵”）可能出现得更早，Vajda[57]用它来限制错误概率，以测试多个假设。2度和1/2度的差异早就在统计学中使用了，前者始于20世纪初(χ²测试），后者至少可以追溯到巴塔查里亚[10].

在统计物理学中，H（H）^α(P（P）)称为Tsallis熵，是指[55]. 之前，林德哈德·尼尔森[42]提出了统计物理的广义熵，有效地与度熵相同α和秩序α也不知道它们以前在信息论中的应用。

顺序的熵/发散α和学位α处于一对一的功能关系中。原则上，只使用其中一个就足够了，但在不同的情况下，其中一个更方便。例如，在用于识别的源代码中，自然进入的是2级熵[4].

度熵α≥1是次可加的，但具有任意程度的熵α≠1既不是加性的，也不是递归的。相反，

\begin{matrix} {H（H）}^{α} (P（P） \times 问) = {H（H）}^{α} (P（P）) + {H（H）}^{α} (问) + {c（c）}_{α}^{负极 1} {H（H）}^{α} (P（P）) {H（H）}^{α} (问), \\ {H（H）}^{α} ({第页}_{1}, \dots, {第页}_{n个}) = {H（H）}^{α} ({第页}_{1} + {第页}_{2}, {第页}_{三}, \dots, {第页}_{n个}) + {({第页}_{1} + {第页}_{2})}^{α} {H（H）}^{α} (\frac{{第页}_{1}}{{第页}_{1} + {第页}_{2}}, \frac{{第页}_{2}}{{第页}_{1} + {第页}_{2}}) . \end{matrix}

有了这些“α-可加性“和”α-递归性”，Shannon熵守恒表征定理的类似物，第一个由Haverda-Charvát提出[31]. 值得注意的是，通过α-递归性不需要正则性条件[22]. 程度分歧也有类似的结果α以及学位的“信息测量”α涉及两个以上的分布。看这本书[26]关于细节，有些非常复杂。对于散度，α-递归方法

\begin{matrix} {D类}^{α} ({第页}_{1}, \dots, {第页}_{n个} | | {q个}_{1}, \dots, {q个}_{n个}) = {D类}^{α} ({第页}_{1} + {第页}_{2}, {第页}_{三}, \dots, {第页}_{n个} | | {q个}_{1} + {q个}_{2}, {q个}_{三}, \dots, {q个}_{n个}) + \\ {({第页}_{1} + {第页}_{2})}^{α} {({q个}_{1} + {q个}_{2})}^{1 负极 α} {D类}^{α} (\frac{{第页}_{1}}{{第页}_{1} + {第页}_{2}}, \frac{{第页}_{2}}{{第页}_{1} + {第页}_{2}} | | \frac{{q个}_{1}}{{q个}_{1} + {q个}_{2}}, \frac{{q个}_{2}}{{q个}_{1} + {q个}_{2}}) . \end{matrix}

3.方向（B）

这一非常重要的方向在此无法详细介绍。我们只提到以下关键结果：N个≥4，“熵”集函数类的闭包是多拟阵张扬的一个恰当子类[60]. 这是一个凸锥，杨[59]，但不是多面体圆锥体，马图什[44]也就是说，没有一组有限的线性熵不等式可以提供所需的特征。

4.方向（C）

这里，Csiszár的一些公理化结果[18]被调查。注意不限于概率分布，要推断的对象可以是

（i）: 概率分布P（P）= (第页₁,…,第页_n个)，或
（ii）: 任何 $P（P） = ({第页}_{1}, \dots, {第页}_{n个}) \in ℝ_{+}^{n个}$ ，或
（iii）: 任何P（P）∈ℝ^n个

出于技术原因，在（i）和（ii）中第页k个是必需的。这符合排除某些事件概率为0的推论的直观愿望。下面，n个是固定的，n个在情况（i）中≥5，n个在第（ii）、（iii）种情况下≥3。

关于的唯一信息P（P）它属于一个可行集F类可以是由约束确定的任何非空集

\begin{matrix} \sum_{我 = 1}^{n个} {第页}_{我} 一_{我 j个} = {b条}_{j个} & j个 = 1, \dots, 米, \end{matrix}

也就是说，由所有P（P）如（i）、（ii）或（iii）中所述，满足约束条件。假设先前的猜测（默认模型）问可用，可以是任意的（如P（P）在（i）、（ii）或（iii）中。

安推理规则是分配给每个可行集的任何映射∏F类和之前的猜测问推理∏(F类,问) =P（P）^∗∈F类公理将被视为“良好”推理规则的必要条件。结果证实，在（i）和（ii）情况下，“最佳”推理规则是让∏(F类,问)成为我-的投影问到F类（MaxEnt），在这种情况下（iii）正则欧几里德投影（最小二乘）是“最佳”的。还将确定合理的替代规则。

在第二个公理中，我们使用术语“我-局部约束”，其中我是{1，…，的子集，…，n个}. 这意味着形式的约束

\sum_{我 \in 我} {第页}_{我} 一_{我 j个} = {b条}_{j个}

; 在案例（i）中，还假设其中一个是

\sum_{我 \in 我} {第页}_{我} = t吨

，大约0<t吨< 1.

公理如下：

规律性：（a）问∈F类表示∏(F类,问) =问，（b）F类₁⊂F类和∏(F类,问) ∈F类₁暗示∏(F类₁,问) = Π(F类,问)，（c）每个P（P）≠问，在由单个约束确定的可行集合中，存在唯一的F类使∏(F类,问) =P（P），（d）∏(F类,问)持续依赖F类.
地点：如果F类₁由一组我-局部约束，F类₂通过一组我^c（c）-本地的，然后是组件 ${第页}_{我}^{*}, 我 \in 我$ 属于 ${P（P）}^{*} = Π ({F类}_{1} \cap {F类}_{2}, 问)$ 取决于F类₁和{q个_我:我∈我}.
传递性：如果F类₁⊂F类, Π(F类,问) =P（P）^∗，那么π(F类₁,问) = Π(F类₁,P（P）^∗).
半对称性：如果F类= {P（P）:第页_我+第页_j个=t吨}对一些人来说我≠j个和常量t吨、和问满足q个_我=q个_j个，然后P（P）^∗= Π(F类,问)满足 ${第页}_{我}^{*} = {第页}_{j个}^{*}$ .
弱缩放（对于情况（i），（ii））：对于F类如上所述，P（P）^∗= Π(F类,问)总是令人满意

${第页}_{我}^{*} = \frac{t吨}{{q个}_{我} + {q个}_{j个}} {q个}_{我}, {第页}_{j个}^{*} = \frac{t吨}{{q个}_{我} + {q个}_{j个}} {q个}_{j个} .$

定理 1

推理规则Π是常规和本地iffΠ(F类,问)最小值是否服从P∈“距离”的F

d日 (P（P）, 问) = \sum_{k个 = 1}^{n个} {（f）}_{k个} ({第页}_{k个}, {q个}_{k个}),

由函数f定义_k个(第页,q个) ≥ 0 =（f）_k个(第页,q个),p中的连续可微，在情况（i），（ii）中

\frac{\partial}{\partial 第页} {（f）}_{k个} (第页, q个) \to 负极 \infty

作为p→ 0,这样d(P（P）,问)在P中是严格拟凸的.

在第（ii）、（iii）种情况下，这些功能（f）_k个在中必然是凸的第页.

定理 2

定理1中的推理规则满足

（a）: 函数f的及物性_k个具有形式

${（f）}_{k个} (第页, q个) = φ_{k个} (第页) 负极 φ_{k个} (q个) 负极 φ_{k个}^{'} (q个) (第页负极 q个),$

哪里 $Φ (P（P）) = \sum_{k个 = 1}^{n个} φ_{k个} ({第页}_{k个})$ 严格凸；然后是d(P（P）,问)是Bregman距离

$d日 (P（P）, 问) = Φ (P（P）) 负极 Φ (问) 负极 {[克第页一 d日 Φ (问)]}^{T型} (P（P）负极问)$
（b）: 半对称iff₁= ⋯ =（f）_n个
（c）: 弱标度（在情况（i），（ii）中）iff函数₁==（f）_n个形式为af(第页/q个),f是严格凸的,（f）(1) =（f）′(1) = 0,和f′(x个) → −∞作为x→ 0;然后是d(P（P）,问)是f散度D_（f）(P（P）||问).

Bregman距离引入于[11]. Jones和Byrne中出现了公理化特征（在连续情况下）和各种应用的提示[34]. 相应的推理规则满足及物性，因为它满足“毕达哥拉斯恒等式”

d日 (P（P）, 问) = d日 (P（P）, Π (F类, 问)) + d日 (Π (F类, 问), 问), P（P） \in F类 .

不难看出，在（i）和（ii）两种情况下，只有我-散度同时是（f）-散度和Bregman距离。

推论 1

在情况（i）、（ii）中，规则性+地区+及物性+弱标度唯一地刻画了MaxEnt推理规则Π(F类,问)等于Q到F的I投影.

在第（ii）、（iii）种情况下，自然需要

缩放不变性：对于每个可行集合F类，预先猜测问、和t吨> 0, Π(tF（飞行时间）,tQ公司) =t吨Π(F类,问). 在案例（iii）中，另一个迫切需要的是类似定义的翻译不变性。

定理三。

正则、局部、传递和半对称推理规则Π满足

（a）: 平移和尺度不变性（在情况（iii）中）iffΠ(F类,问)等于Q到F的欧氏投影
（b）: 尺度不变性（情况（ii））iffΠ(F类,问)是的最小值

${d日}_{α} (P（P）, 问) = \sum_{我 = 1}^{n个} {小时}_{α} ({第页}_{我}, {q个}_{我})$

以P为准∈F类,其中α≤ 1和

${小时}_{α} (第页, q个) = {\begin{cases} 第页日志 (第页 / q个) 负极第页 + q个 & α = 1 \\ 日志 (q个 / 第页) + (第页 / q个) 负极 1 & α = 0 \\ ({q个}^{α} 负极 {第页}^{α}) / α + {q个}^{α 负极 1} (第页负极 q个) & e（电子）我秒 e（电子） \end{cases}$

备注三。α=1给出我-发散，α=0 Itakura-Saito距离。早期报告成功（在频谱重建中）使用d日_α具有α= 1/米出现在中[34].

MaxEnt和最小二乘推理规则的交替特征涉及在情况（i）、（ii）中的“乘积一致性”或在情况（iii）中的“和一致性”这一直观吸引人的公理。这个公理也适用于没有默认模型的情况。然后通过最大化Shannon熵进行推理。达到欧几里德范数最小化，参见[18]了解详细信息。

5.讨论

在考察了各种信息度量的公理化方法之后，这里简要介绍了它们的科学价值。

方向（A）有广泛的文献，其中包括许多好的和许多差的论文。对于数学家来说，好的数学本身就具有科学价值，有争议的问题是与信息论的相关性。注意，在香农之后[52]关于一个信息测度的数量的论证存在于数学定理中，如果有的话，可以证明它的操作意义。这位作者知道一个场合[31]当一种公理化的方法产生了一种新的实用信息度量时[48]当这种方法启动了一项研究，成功地找到了以前微不足道的信息度量的操作意义时。方向（A）公理化工作的一个好处是证明不存在具有某些理想属性的新信息度量。另一方面，这一研究方向已远远超出其起源，成为函数方程理论的一个分支。它在过去30年中的主要结果主要引起了该理论专家的兴趣。

方向（B），这里只简单提到，解决了一个具有重大信息理论意义的问题。它的完整解决方案似乎遥遥领先，但这方面的研究已经产生了宝贵的成果。特别是，已经发现了许多新的香农熵不等式，从[60].

方向（C）描述了“好”推理规则的特征，这显然与推理理论有关。此类特征涉及信息度量，主要是Shannon熵和我-散度，其次是Bregman距离和（f）-分歧，间接地构成了后者的特征。作为一个较好的特征，信息度量的这些特征与操作重要性直接相关（用于推断）。

鸣谢

这项工作得到了匈牙利研究基金OTKA T046376的部分支持。

参考文献

Aczél，J。；达罗奇，Z。论信息测度及其特征; 学术出版社：纽约，1975年。[谷歌学者]
Aczél，J。；Daróczy，Z。信息混合理论I。RAIRO通知。理论 1978,12, 149–155. [谷歌学者]
Aczél，J。；Forte，B。；Ng，C.T.为什么香农熵和哈特利熵是“自然的”。高级申请。普罗巴伯。 1974,6, 131–146. [谷歌学者] [交叉参考]
Ahlswede，R。；蔡，N.对识别熵的解释。IEEE传输。Inf.理论 2006,52, 4198–4207. [谷歌学者] [交叉参考]
阿里，S.M。；Silvey，S.D.一种分布与另一种分布的一般散度系数。J.罗伊。统计人员。Soc.B公司 1966,28, 131–142. [谷歌学者]
Arimoto，S.估计问题的信息论考虑。信息和控制 1971,19, 181–194. [谷歌学者] [交叉参考]
Arimoto，S.离散无记忆信道的信息度量和α阶容量。在信息理论专题; 集体数学。Soc.J.Bolyai，第16页；Csiszár，I.，Elias，P.，Eds。；北荷兰：阿姆斯特丹，1977年；第41-52页。[谷歌学者]
本·巴萨特，M。（f）-熵、错误概率和特征选择。信息和控制 1978,39, 227–242. [谷歌学者] [交叉参考]
Bennett，C。；Brassard，G。；克雷珀，C。；Maurer，U。广义隐私放大。IEEE传输。Inf.理论 1995,41, 1915–1923. [谷歌学者] [交叉参考]
Bhattacharyya，A.关于由概率分布定义的两个统计总体之间差异的度量。牛市。加尔各答数学。Soc公司。 1943,35, 99–109. [谷歌学者]
Bregman，L.M.寻找凸集公共点的松弛方法及其在凸规划问题求解中的应用。苏联公司。数学。和数学。物理学。 1967,7, 200–217. [谷歌学者] [交叉参考]
一个编码定理和Rényi熵。信息和控制 1965,8, 423–429. [谷歌学者] [交叉参考]
Chaundry，T.W。；McLeod，J.B.关于函数方程。爱丁堡材料说明 1960,43, 7–8. [谷歌学者] [交叉参考]
Csiszár，I.关于Ungleichung和Anwendung auf den Beweis der Ergodizität von Markoffschen Ketten的信息。出版物。数学。Inst.Hungar公司。阿卡德。科学。 1963,8, 85–107. [谷歌学者]
Csiszár，I.概率分布差异和间接观测的信息型度量。科学研究所。数学。匈牙利。 1967,2, 299–318. [谷歌学者]
Csiszár，I.一类观测通道的信息性度量。周期数学。匈牙利。 1972,2, 191–213. [谷歌学者] [交叉参考]
Csiszár，I.信息测量：一项批判性调查。在事务处理。第七届布拉格信息理论会议等。; 学术界：布拉格，1977年；第73-86页。[谷歌学者]
Csiszár，I.为什么是最小平方和最大熵？线性逆问题的一种公理化推理方法。安。统计师。 1991,19, 2032–2066. [谷歌学者]
Csiszár，I.广义截止率和rényi信息测度。IEEE传输。Inf.理论 1995,41, 26–34. [谷歌学者] [交叉参考]
Daróczy，Z.u ber die gemeinsame Charakterisierung der zu den nicht vollständigen Verteilungen gehörigen Entropien von Shannon und von Rényi。Z.Wahrscheinlichkeitsth。版本。盖比岩 1963,1, 381–388. [谷歌学者] [交叉参考]
Daróczy，Z.über Mittelwerte und Entropien vollständiger Wahrscheinlichkeitsverteilungen。数学学报。阿卡德。科学。匈牙利。 1964,15, 203–210. [谷歌学者] [交叉参考]
Daróczy，Z。广义信息函数。信息和控制 1970,16, 36–51. [谷歌学者] [交叉参考]
Daróczy，Z。关于函数方程的可测解。数学学报。阿卡德。科学。匈牙利。 1971,34，11-14。[谷歌学者] [交叉参考]
达罗奇，Z。；Maksa，Gy。非负信息函数。在概率统计中的解析函数方法; 集体数学。Soc.J.Bolyai 21；Gyires，B.，编辑。；北荷兰：阿姆斯特丹，1979年；第65-76页。[谷歌学者]
Diderrich，G.有界性在描述香农熵中的作用。信息与控制 1975,29, 149–161. [谷歌学者] [交叉参考]
Ebanks，B。；Sahoo，P。；W·桑德。信息度量的特征; 《世界科学：新加坡》，1998年。[谷歌学者]
Faddeev，D.K.关于有限概率方案的熵概念（俄语）。Uspehi Mat.Nauk公司 1956,11, 227–231. [谷歌学者]
Fischer，P.关于不等式∑第页_我（f）(第页_我) ≥ ∑第页_我（f）(q个_我).梅特里卡 1972,18, 199–208. [谷歌学者] [交叉参考]
为什么是香农熵。在Conv.通知。茶水。，罗马1973; 数学专题讨论会。15; 学术出版社：纽约，1975年；第137-152页。[谷歌学者]
Grünwald，P。；Dawid，P.博弈论，最大熵，最小差异和稳健贝叶斯决策理论。安。统计师。 2004,32, 1367–1433. [谷歌学者]
哈夫达，J。；Charvát，F.分类过程的量化方法。结构概念一-熵。凯贝内提卡 1967,三, 30–35. [谷歌学者]
Ingarden，R.S.公司。；Urbanik，K.无概率信息。集体数学。 1962,9, 131–150. [谷歌学者]
Jaynes，E.T.信息理论和统计力学。物理学。版次。 1957,106, 620–630. [谷歌学者] [交叉参考]
Jones，L.K。；Byrne，C.L.反问题的通用熵准则，应用于数据压缩、模式分类和聚类分析。IEEE传输。Inf.理论 1990,36, 23–30. [谷歌学者] [交叉参考]
J.Kampéde Fériet。；Forte，B.信息与概率。C.R.学院。科学。巴黎A 1967,265、110–114、142–146和350–353。[谷歌学者]
Kannapan，Pl。；Ng，C.T.与信息论相关的函数方程的可测解。程序。阿默尔。数学。Soc公司。 1973,38, 303–310. [谷歌学者] [交叉参考]
Kannapan，Pl。；一个函数方程及其在信息论中的应用。安。波隆。数学。 1974,30, 105–112. [谷歌学者]
Kolmogorov，A.N.传递动力系统的一个新不变量（俄语）。多克。阿卡德。诺克SSSR 1958,119, 861–864. [谷歌学者]
库尔巴克，S。信息论与统计学; 威利：纽约，1959年。[谷歌学者]
Kullback，S。；Leibler，R.A.关于信息和充分性。安。数学。统计师。 1951,22, 79–86. [谷歌学者] [交叉参考]
Lee，P.M.关于信息理论公理。安。数学。统计师。 1964,35, 415–418. [谷歌学者] [交叉参考]
Linhard，J。；Nielsen，V.统计动力学研究。香港。丹斯克视频。Selskab Mat-fys.医学。 1971,38, 1–42. [谷歌学者]
Maksa，Gy。关于函数方程的有界解。数学学报。阿卡德。科学。匈牙利。 1981,37, 445–450. [谷歌学者] [交叉参考]
马图什，F.无限多信息不等式。在IEEE ISIT07尼斯，研讨会论文集；第41-44页。
Neumann，J.热力学量子力学。哥特。纳克里斯。 1927,1, 273–291. [谷歌学者]
巴黎，J。；关于最大熵必然性的注记。国际J不精确推理 1990,4, 183–223. [谷歌学者] [交叉参考]
皮彭格，N.什么是信息论定律？1986年9月3日至5日，在加利福尼亚州帕洛阿尔托举行的通信和计算特别问题会议上。
Rényi，A.关于熵和信息的度量。在程序。伯克利第四交响乐团。数学。统计人员。概率，1960年; 加州大学出版社：伯克利，1961年；第1卷，第547-561页。[谷歌学者]
Rényi，A.在信息理论的基础上。国际学会修订版。斯达。 1965,33, 1–4. [谷歌学者] [交叉参考]
Sanov，I.N.关于随机变量大偏差的概率（俄语）。Mat.Sbornik公司 1957,42, 11–44. [谷歌学者]
Schützenberger，M.P.贡献辅助应用信息统计。出版物。统计研究所。巴黎大学 1954,三，3-117。[谷歌学者]
香农，C.E.传播数学理论。贝尔系统技术J。 1948,27379–423和623–656。[谷歌学者] [交叉参考]
肖尔，J.E。；Johnson，R.W.最大熵原理和最小交叉熵原理的公理推导。IEEE传输。Inf.理论 1980,26, 26–37. [谷歌学者] [交叉参考]
Sibson，R.信息半径。Z.Wahrscheinlichkeitsth。版本。盖比岩 1969,14, 149–161. [谷歌学者] [交叉参考]
Tsallis，C.波尔兹曼-吉布斯统计的可能推广。J.统计。物理学。 1988,52, 479–487. [谷歌学者] [交叉参考]
Tverberg，H。信息函数的新推导。数学。扫描。 1958,6, 297–298. [谷歌学者]
Vajda，I.对测试有限数量或可数数量的hy-pothese的最小错误概率进行了限制（俄语）。问题。通知。变速箱 1968,4，9-17。[谷歌学者]
瓦尔德，A。顺序分析; 威利：纽约，1947年。[谷歌学者]
杨，R.W。信息理论第一课程; Kluwer:纽约，2002年。[谷歌学者]
张，Z。；Yeung，R.W.通过信息不等式刻画熵函数。IEEE传输。Inf.理论 1998,44, 1440–1452. [谷歌学者] [交叉参考]

分享和引用

MDPI和ACS样式

我·Csiszár。信息测度的公理化特征。熵 2008,10, 261-273.https://doi.org/10.3390/e10030261

AMA风格

Csiszár I。信息测度的公理化特征。熵. 2008; 10(3):261-273.https://doi.org/10.3390/e10030261

芝加哥/图拉宾风格

伊姆雷·齐萨尔。2008.“信息度量的公理化特征”熵10，编号3:261-273。https://doi.org/10.3390/e10030261

文章菜单