1.简介
在经典统计物理和信息论中,与玻尔兹曼-香农熵的密切关系已被很好地建立起来,以提供基本而清晰的理解。Kullback-Leibler散度与极大似然直接相关,极大似然是统计学中最基本的概念之一。Tsallis为功率熵开辟了新的视角,以阐明统计物理中的非平衡态,这些都对非紧张和混沌现象的研究产生了强大的影响,囊性纤维变性。[1,2]. 提出了熵和散度的几种广义形式,囊性纤维变性。[3,4,5,6,7]. 我们考虑定义在有限质量密度函数空间上的广义熵和散度,在Amari提出的信息几何框架中,囊性纤维变性。[8,9]. A功能性称为散度,如果等式当且仅当。如所示[10,11]在建模的流形中,任何散度都与黎曼度量和一对共轭连接相关联在温和的条件下。 我们从幂交叉熵的原始形式开始[12]使用索引β属于由定义为所有人克和(f)在里面幂(对角线)熵请参见[13,14]用于独立成分分析和模式识别的信息几何和统计应用。注意,这是在概率密度函数的连续情况下定义的,但可以简化为离散情况,参见Tsallis[2]对于统计物理的广泛讨论。事实上,Tsallis熵对于概率密度函数与功率熵和常数成正比,其中。功率发散由下式给出通常,as由交叉熵和对角熵的差值定义。 在本文中,我们重点讨论了由所以投影幂熵是的日志表达式由定义请参见[15,16]用于推导,并详细讨论了和.投影幂交叉熵满足以下方面的线性克以及投影不变性,即对于任何常数。请注意与……一一对应由提供哪里.投影功率散度为这将在与H的密切关系上进行讨论奥尔德不等式。散度定义为满足为所有人γ属于如果存在积分.非负性导致我们注意到幂指数的存在范围γ对于和取决于样本空间(f)和克定义。如果样本空间紧凑和对所有人都有明确的定义.如果样本空间不紧凑,为定义和是用于。更准确地说,我们将探讨样本空间是在随后的讨论中以及力矩条件。通常我们观察到哪里表示Kullback-Leibler散度,请参见附录1用于推导(5). 让是概率密度函数分布的随机样本.统计模型带参数θ假设充分接近潜在密度函数,其中θ是参数空间。然后是与投影功率熵相关的损失函数根据以下示例我们在其中呼叫这个γ-估计器,其中我们注意到哪里表示关于以下方面的统计期望克可以观察到,由于损失,0-估计器只不过是最大似然估计器(MLE)收敛到负对数似然函数,在这个意义上如果潜在密度函数属于具有均值的高斯模型μ和方差,然后是MLEμ和是样本均值和样本方差。相反的语句如所示[17,18]. 我们将把这个理论推广到γ-估计值低于γ-模型。 在第2节我们讨论了投影幂熵的特征。在第3节具有Tsallis熵的最大熵分布具有在平均向量约束下μ并且考虑了方差矩阵∑。我们讨论了最大熵分布模型,称为γ-模型,其中0模型和2模型分别等于高斯模型和维格纳模型。然后我们显示γ-估计值μ和∑γ-模型是样本均值和样本方差。第4节给出结论和进一步的评论。 2.射影不变性
让我们看看用勒贝格的空间哪里和-规范由定义让问是的共轭指数第页令人满意的,其中第页和问可以表示为参数的函数这样的话和。我们注意到问等于索引问Tsallis熵在关系中.对于任何概率密度函数我们用概率密度函数定义护送分布, 囊性纤维变性。[2]供广泛讨论。我们讨论了投影交叉熵的一个有趣的关系(1)护送分发。根据护送分配的定义,我们注意到在的单位范围内在代表中。投影幂对角熵(2)与-也就是说,其中H奥尔德不等式声称,或同等为所有人(f)和克在里面也是由.中的平等(10)仅当且仅当几乎无处不在x个,其中λ是一个正常数。权力转换表明了空间之间的相互作用和根据关系,取的极限γH中为0奥尔德不等式(9)产生这样的结果自从和此限制涉及第页与另一个空间而不是比如说,空间就是所有具有有限Boltzmann-Shannon熵的密度函数的空间.功率指数γ重新参数化勒贝格空间和双重空间与关系然而,要进行权力转换与勒贝格空间的普通讨论完全不同,因此对偶性收敛于如中所观察到的(11). 在信息几何中,这对对应于混合连接和指数连接,囊性纤维变性。[9]. 另请参见另一个参数化空间[19]. 我们现在讨论一个关于如下定理所示。关于特性的一般讨论见[16]然而,推导过程相当复杂。这里我们假设一个关键条件,即交叉熵是线性的克给出一个基本的证明。Riesz表示定理表明哪里是一个常数,取决于(f)因此,当我们为以保证缩放不变性。 定理1。.定义函数通过哪里φ,ρ和ψ是可微的单调函数。假设 (i) 。为所有人,
还有那个
(ii)。为所有人以及所有
然后就有了γ这样的话高达常数因子,其中是投影幂交叉熵,定义为(1). 证明。要求(ii)意味着这意味着,如果(f)是绝对连续的克狄拉克的测量值是,然后哪里因为我们可以取任意值对于任何固定λ,其唯一解为哪里。接下来,我们考虑一个有限离散空间的情况,然后,因为,我们可以写哪里和要求(i)导致为所有人,这意味着哪里它源自(13)那个必须是中的常量,说吧C类,以便我们解决(13)作为因此,方程式(14)由编写这将导致我们的结论是,这就完成了证明。☐ 备注1。上述证明基本上适用于积分(11)仅由二进制分布的求和给出的情况。在这个意义上,定理1的陈述并不严密,但是,统计推断是以统一的方式进行讨论的,这样分布要么是连续的,要么是离散的。在随后的讨论中,我们将重点讨论在.
备注2。我们看到的乘法分解实现统计独立性。事实上,如果(f)和克分解为在同一分区中,则这个性质也是基本的,但我们不假设这个可分解性是定理1的要求。 3.最大熵分布模型
我们将阐明上的最大熵模型之间的二元结构,定义于(2)最小交叉熵估计,定义于(1). 在讨论之前,我们概述了经典的情况,其中最大似然估计在玻尔兹曼-香农熵的最大熵模型下表现良好,也就是说,如果我们考虑均值和方差约束,则为高斯模型。我们将使用传统的符号X(X)表示具有值的随机变量x个.让是具有密度函数的高斯分布的随机样本高斯密度函数由标准形式表示其中Ξ被称为由.分化(15)上的μ和Ξ产量哪里和表示关于概率密度函数的期望向量和方差矩阵分别是。 最大似然估计量由下式给出哪里和S公司是样本均值向量和样本方差矩阵,这是因为负log-likelihood函数是由以下人员编写除了常数,其中因此,估算系统为它结束了表达式(16)MLE自。或者,我们还有另一条路线要展示(16)如下所示。中定义的Kullback-Leibler散度(6)由提供因此,我们观察到当且仅当。这意味着(16). 在温和的规则性条件下,相反的语句成立,即位置和散布模型的MLE满足(16)当且仅当模型为高斯时,囊性纤维变性。[17,18]. 然而,即使我们对底层分布不做任何假设、统计数据和S公司是渐近一致的这是强大数定律的直接结果,中心极限定理导致这两个统计量的渐近正态性。从这个意义上说,也是一个非参数估计量. 我们探讨了统计模型和估计方法之间的密切关系。我们考虑具有γ-熵在…的空间上d日-具有共同均值和方差的维度分布,然后我们定义一个概率密度函数的分布哪里表示积极的部分是归一化因子,参见推导在里面附录2.如果尺寸d日等于1,则是一个问-高斯分布。我们注意到在哪儿减少为d日-变化高斯密度,当.支持变为椭球体,定义为如果另一方面,如果,密度函数(21)写为哪里这个d日-变量t分布定义为 囊性纤维变性。[20]进行广泛讨论。假设然后我们从(23)和(24)那个因此,密度函数具有是t分布。分布在欧氏空间上具有椭圆轮廓对于任何,如所示图1对于以下典型情况γ.
图1。t分布,高斯和维格纳分配。
图1。t分布,高斯和维格纳分配。
让我们称之为γ-模型,其中表示所有对称正定矩阵的空间d日.我们确认了γ-模型如下。 柠檬.在模型下定义于(25)使用索引, 证明。我们需要考虑一系列护送分发。在模型中我们可以将护送分配定义为哪里和是归一化因子。因此,这里我们定义了可选参数转换为原始参数∑因此,逆变换由下式给出注意到了因此,我们得到了(26)作为通过对指数族的讨论进行类比,我们得到了中支撑项的以下表达式(30)作为护送分布的一个特性建议了该分布的力矩公式(25)如下:我们有一个身份这意味着由此得出结论同样,哪个是由此得出结论因为和∑,如(29). 证据是完整的。 ☐ 备注3.规范形式(30)护送分发的(26)在引理的证明中起着重要作用。基本上我们可以写出(21)然而,像指数族的情况一样,它与分布性质没有任何联系。 备注4.在方程式中(31)函数被视为Fenchel凸对偶中的一个势函数,其中 囊性纤维变性。[21,22]协方差结构模型。 从引理我们观察到下一步,我们展示了密度分布最大化γ-熵在空间上方,其中定义于(2). 定理2.
(i) ●●●●。如果,然后哪里在中定义(20). (ii)。如果,然后哪里具有存在. 证明根据的定义,我们从引理中看到对于任何。这导致对于任何(f)在里面,这意味着因此如中所述为非负(4). 这就结束了(34). 同样,我们观察到(36)保留任何以及任何(f)在里面自从支持(f)包括。此结论(35). ☐ 我们想通过数据集的最小投影交叉熵来阐明统计推断的类似结构假设遵循模型.我们回忆起(8)从射影交叉熵与伴随分布的关系当我们有数据时安装在模型上,损失函数为哪里定义于(21). 这个γ-估计器定义为参见一般定义(7). 它遵循中定义的规范形式(30)使用规范参数定义于(28)那个哪里和ω定义于(17)和(33)、和是中定义的标准化因子(27). 这里我们注意到,如果,然后是参数必须假定处于,其中我们注意到和自从因此,我们观察到的论点类似于(19)对于MLE。投影发散定义于(3)等于γ-损失函数为当且仅当见方程式后的讨论(10). 这样,我们可以将上述讨论总结如下: 定理3.让是来自γ-中定义的模型(21). 然后γ-中定义的估计器(7)的是,其中定义于(17). 证明。让我们再提供一个证据。估算系统如下所示相当于因为转换为∑,如(29). 因此,我们也得出了结论这样,我们就得到了由(40)通过参数利用押运分布与损失函数的关系(37). ☐ 备注5考虑位置模型使用位置参数μ,其中∑在定理3中已知。然后我们很容易看到γ-估计量μ是相反的说法呢?我们发现,如果γ-估计量μ是根据样本大小,则模型为γ-模型,已知∑。该证明与[17]. 事实上,我们得出的结论是模型密度函数满足这一点哪里一和b条是常数。 备注6。如果我们共同研究定理2和3,那么自从.两侧(41)与不平等联系在一起(39)和(36)上的γ-单独讨论中的分歧。 备注7.的推导γ-定理3中的估计器是由正则参数提供的中给出的护送分配(28). 这里,我们直接计算损耗相对于∑的梯度,如下所示:因此,我们观察到,如果我们和,然后括号中的术语(42)由提供结论是如果,然后这是定理3的直接证明,但它将伴随着对替换进入之内. 4.结束语
我们探索了优雅的酒店(39),毕达哥拉斯经验关系γ-模型和γ-估计器,在这个意义上(39)直接给出定理3,无需任何微分。另一个优雅的表达是大自然和决策者之间的minimax游戏,参见[23]. 考虑一下空间定义于(20). The intersection of the
γ-模型(21)和是独生子女,这是的极大极小解 考虑不同的指数γ和其中指定了γ-模型和-估计值。基本上-估计量在γ-适用于任何选择的模型γ和。如果我们特别修复对于模型,即高斯模型,则-该估计器对于任何,请参阅[16]. 鲁棒性程度与以效率为代价。这个-估计量高斯模型的解是重量函数对于我-第th次观测当是一个离群值。或者,经典稳健方法采用,即指定错误的模型的MLE或t吨-分布模型,请参见[24,25]. 因此,不同的指数γ和以二元方式进行稳健的统计。 该属性是指数模型和MLE之间关联属性的扩展,然而,它在以下意义上是脆弱的(19)如果γ-模型和-估计值略有不同。在实践中,我们发现在求解最大似然估计的数值任务中存在一些困难γ-模型,带有因为密度的支撑取决于参数和指数γ我们讨论了模型的统计和概率特性以及与特定交叉熵相关的估计。讨论的一部分性质仍然适用于更广泛的类中的任何交叉熵,这是从[13,26].