Projective Power Entropy and Maximum Tsallis Entropy Distributions

Eguchi, Shinto; Komori, Osamu; Kato, Shogo

doi:10.3390/e13101746

开放式访问第条

投影幂熵和最大Tsallis熵分布

通过

平口真道（Shinto Eguchi）

^*,

小森Osamu Komori

和

加藤昭吾

日本东京塔川统计数学研究所，190-8562

^*

信件应寄给的作者。

熵 2011,13(10), 1746-1764;https://doi.org/10.3390/e13101746

收到的意见：2011年7月26日/修订日期：2011年9月20日/接受日期：2011年9月20日/发布日期：2011年9月26日

（本文属于特刊Tsallis熵)

下载

浏览地物

版本注释

摘要

:

我们讨论了具有幂指数的两个分布之间的广义交叉熵的单参数族，称为投影幂熵。如果两个分布相等，则交叉熵本质上被简化为Tsallis熵。与射影功率熵相关的统计和概率特性被广泛研究，包括一个表征问题，其中的条件唯一地确定射影功率熵值直至功率指数。熵和勒贝格空间的密切关系

{L（左）}_{第页}

和双重

{L（左）}_{问}

探索了护送分发与一个有趣的属性相关联的问题。当我们考虑均值向量和方差矩阵约束下的最大Tsallis熵分布时，模型变为多变量问-具有椭圆轮廓的高斯模型，包括高斯和t分布模型。我们通过最小化与投影功率熵相关的经验损失来讨论统计估计。结果表明，最大熵模型下均值向量和方差矩阵的最小损失估计量是样本均值向量和样本方差矩阵。最大熵分布的伴随分布对推导起着关键作用。

关键词：

椭圆轮廓分布;护送分发;L（左）_第页空间;最大熵分布;统计分布;Tsallis熵

1.简介

在经典统计物理和信息论中，与玻尔兹曼-香农熵的密切关系已被很好地建立起来，以提供基本而清晰的理解。Kullback-Leibler散度与极大似然直接相关，极大似然是统计学中最基本的概念之一。Tsallis为功率熵开辟了新的视角，以阐明统计物理中的非平衡态，这些都对非紧张和混沌现象的研究产生了强大的影响，囊性纤维变性。[1,2]. 提出了熵和散度的几种广义形式，囊性纤维变性。[3,4,5,6,7]. 我们考虑定义在有限质量密度函数空间上的广义熵和散度，

\begin{matrix} F类 = \{（f） : \int （f） (x个) d日 x个 < \infty, （f） (x个) \geq 0 几乎无处不在 x个\} \end{matrix}

在Amari提出的信息几何框架中，囊性纤维变性。[8,9].

A功能性

D类 : F类 \times F类 \mapsto [0, \infty)

称为散度，如果

D类 (克, （f）) \geq 0

等式当且仅当

克 = （f）

。如所示[10,11]在建模的流形中，任何散度都与黎曼度量和一对共轭连接相关联

F类

在温和的条件下。

我们从幂交叉熵的原始形式开始[12]使用索引β属于

R（右）

由定义

\begin{matrix} {C类}_{β}^{(o个)} (克, （f）) = - \frac{1}{β} \int 克 (x个) {（f） {(x个)}^{β} - 1} d日 x个 + \frac{1}{1 + β} \int （f） {(x个)}^{1 + β} d日 x个 \end{matrix}

为所有人克和（f）在里面

F类

幂（对角线）熵

\begin{matrix} {H（H）}_{β}^{(o个)} (（f）) = {C类}_{β}^{(o个)} (（f）, （f）) = - \frac{1}{β (β + 1)} \int （f） {(x个)}^{1 + β} d日 x个 + \frac{1}{β} \int （f） (x个) d日 x个 \end{matrix}

请参见[13,14]用于独立成分分析和模式识别的信息几何和统计应用。注意，这是在概率密度函数的连续情况下定义的，但可以简化为离散情况，参见Tsallis[2]对于统计物理的广泛讨论。事实上，Tsallis熵

\begin{matrix} {S公司}_{问} (（f）) = \frac{1}{问 - 1} \{1 - \int （f） {(x个)}^{问} d日 x个\} \end{matrix}

对于概率密度函数

（f） (x个)

与功率熵和常数成正比

问 {H（H）}_{β}^{(o个)} (克) - 1

，其中

问 = 1 + β

。功率发散由下式给出

\begin{matrix} {D类}_{β}^{(o个)} (克, （f）) = {C类}_{β}^{(o个)} (克, （f）) - {H（H）}_{β}^{(o个)} (克) \end{matrix}

通常，as由交叉熵和对角熵的差值定义。

在本文中，我们重点讨论了由

\begin{matrix} {C类}_{γ} (克, （f）) = - \frac{1}{γ (1 + γ)} \frac{\int 克 (x个) （f） {(x个)}^{γ} d日 x个}{{\{\int （f） {(x个)}^{1 + γ} d日 x个\}}^{\frac{γ}{1 + γ}}} \end{matrix}

(1)

所以投影幂熵是

\begin{matrix} {H（H）}_{γ} (（f）) = - \frac{1}{γ (1 + γ)} {\{\int （f） {(x个)}^{1 + γ} d日 x个\}}^{\frac{1}{1 + γ}} \end{matrix}

(2)

的日志表达式

{C类}_{γ} (克, （f）)

由定义

\begin{matrix} {C类}_{γ}^{日志} (克, （f）) = - \frac{1}{γ} 日志 {- γ (1 + γ) {C类}_{γ} (克, （f）)} \end{matrix}

请参见[15,16]用于推导

{C类}_{γ}^{日志}

，并详细讨论了

{C类}_{β}^{(o个)} (克, （f）)

和

{C类}_{γ} (克, （f）)

.投影幂交叉熵

{C类}_{γ} (克, （f）)

满足以下方面的线性克以及投影不变性，即

{C类}_{γ} (克, λ （f）) = {C类}_{γ} (克, （f）)

对于任何常数

λ > 0

。请注意

{H（H）}_{γ} (（f）)

与……一一对应

{S公司}_{问} (（f）)

由提供

\begin{matrix} {H（H）}_{γ} (（f）) = - \frac{1}{问 (问 - 1)} {1 - (问 - 1) {S公司}_{问} (（f）)}^{\frac{1}{问}} \end{matrix}

哪里

问 = 1 + γ

.投影功率散度为

\begin{matrix} {D类}_{γ} (克, （f）) = {C类}_{γ} (克, （f）) - {H（H）}_{γ} (克) \end{matrix}

（3）

这将在与H的密切关系上进行讨论

\ddot{o个}

奥尔德不等式。散度定义为

{C类}_{γ} (克, （f）)

满足

\begin{matrix} {D类}_{γ}^{日志} (克, （f）) = {C类}_{γ}^{日志} (克, （f）) - {C类}_{γ}^{日志} (克, 克) \geq 0 \end{matrix}

为所有人γ属于

R（右）

如果存在积分

{D类}_{γ}^{日志} (克, （f）)

.非负性导致

\begin{matrix} {D类}_{γ} (克, （f）) \geq 0 \end{matrix}

(4)

我们注意到幂指数的存在范围γ对于

{C类}_{γ} (克, （f）)

和

{H（H）}_{γ} (（f）)

取决于样本空间（f）和克定义。如果样本空间紧凑

{C类}_{γ} (克, （f）)

和

{H（H）}_{γ}

对所有人都有明确的定义

γ \in R（右）

.如果样本空间不紧凑，

{C类}_{γ} (克, （f）)

为定义

γ \geq 0

和

{H（H）}_{γ} (（f）)

是用于

γ > - 1

。更准确地说，我们将探讨样本空间是

{R（右）}^{d日}

在随后的讨论中以及力矩条件。通常我们观察到

\begin{matrix} \underset{γ \to 0}{极限} {D类}_{γ} (克, （f）) = {D类}_{0} (克, （f）) \end{matrix}

（5）

哪里

{D类}_{0} (克, （f）)

表示Kullback-Leibler散度，

\begin{matrix} {D类}_{0} (克, （f）) = \int 克 (x个) 日志 \frac{克 (x个)}{（f） (x个)} d日 x个 \end{matrix}

(6)

请参见附录1用于推导(5).

让

{{x个}_{1}, \dots, {x个}_{n个}}

是概率密度函数分布的随机样本

克 (x个)

.统计模型

{（f） (x个, θ) : θ \in Θ}

带参数θ假设充分接近潜在密度函数

克 (x个)

，其中θ是参数空间。然后是与投影功率熵相关的损失函数

{C类}_{γ} (克, （f） (\cdot, θ))

根据以下示例

\begin{matrix} {L（左）}_{γ} (θ) = - \frac{1}{γ (1 + γ)} \frac{1}{n个} \sum_{我 = 1}^{n个} {k个}_{γ} (θ) （f） {({x个}_{我}, θ)}^{γ} \end{matrix}

我们在其中呼叫

\begin{matrix} {\hat{θ}}_{γ} 选择 \underset{θ \in Θ}{argmin（最小值）} {L（左）}_{γ} (θ) \end{matrix}

(7)

这个γ-估计器，其中

\begin{matrix} {k个}_{γ} (θ) = {\{\int （f） {(x个, θ)}^{1 + γ} d日 x个\}}^{- \frac{γ}{1 + γ}} \end{matrix}

我们注意到

\begin{matrix} {E类}_{克} {{L（左）}_{γ} (θ)} = {C类}_{γ} (克, （f） (\cdot, θ)) \end{matrix}

哪里

{E类}_{克}

表示关于以下方面的统计期望克可以观察到，由于损失，0-估计器只不过是最大似然估计器（MLE）

{L（左）}_{γ} (θ)

收敛到负对数似然函数，

\begin{matrix} {L（左）}_{0} (θ) = - \frac{1}{n个} \sum_{我 = 1}^{n个} 日志 （f） ({x个}_{我}, θ) \end{matrix}

在这个意义上

\begin{matrix} \underset{γ \to 0}{极限} \{{L（左）}_{γ} (θ) + \frac{1}{γ (1 + γ)}\} = {L（左）}_{0} (θ) \end{matrix}

如果潜在密度函数

克 (x个)

属于具有均值的高斯模型μ和方差

σ^{2}

，然后是MLEμ和

σ^{2}

是样本均值和样本方差。相反的语句如所示[17,18]. 我们将把这个理论推广到γ-估计值低于γ-模型。

在第2节我们讨论了投影幂熵的特征。在第3节具有Tsallis熵的最大熵分布

{S公司}_{问}

具有

问 = 1 + γ

在平均向量约束下μ并且考虑了方差矩阵∑。我们讨论了最大熵分布模型，称为γ-模型，其中0模型和2模型分别等于高斯模型和维格纳模型。然后我们显示γ-估计值μ和∑γ-模型是样本均值和样本方差。第4节给出结论和进一步的评论。

2.射影不变性

让我们看看

F类

用勒贝格的空间

\begin{matrix} {L（左）}_{第页} = \{{（f） (x个) : \int | （f） (x个) |}^{第页} d日 x个 < \infty\} \end{matrix}

哪里

第页 \geq 1

和

{L（左）}_{第页}

-规范

{∥ ∥}_{第页}

由定义

\begin{matrix} {∥ （f） ∥}_{第页} = {\{{\int | （f） (x个) |}^{第页} d日 x个\}}^{\frac{1}{第页}} \end{matrix}

让问是的共轭指数第页令人满意的

1 / 第页 + 1 / 问 = 1

，其中第页和问可以表示为参数的函数

γ > 0

这样的话

第页 = 1 + γ^{- 1}

和

问 = 1 + γ

。我们注意到问等于索引问Tsallis熵

{S公司}_{问}

在关系中

问 = 1 + γ

.对于任何概率密度函数

（f） (x个)

我们用概率密度函数定义护送分布，

\begin{matrix} {e（电子）}_{问} (（f） (x个)) = \frac{（f） {(x个)}^{问}}{\int （f） {(年)}^{问} d日 年} \end{matrix}

囊性纤维变性。[2]供广泛讨论。我们讨论了投影交叉熵的一个有趣的关系(1)护送分发。根据护送分配的定义，

\begin{matrix} {C类}_{γ} (克, （f）) = - \frac{1}{γ (1 + γ)} \int {{e（电子）}_{问} (（f） (x个))}^{\frac{1}{第页}} 克 (x个) d日 x个 \end{matrix}

(8)

我们注意到

{e（电子）}_{问} {(（f）)}^{\frac{1}{第页}}

在的单位范围内

{L（左）}_{第页}

在代表中。投影幂对角熵(2)与

{L（左）}_{问}

-也就是说，

\begin{matrix} {H（H）}_{γ} (（f）) = - \frac{1}{γ (1 + γ)} {∥ （f） ∥}_{问} \end{matrix}

其中H

\ddot{o个}

奥尔德不等式

\begin{matrix} \int 克 (x个) （f） {(x个)}^{γ} d日 x个 \leq {∥ 克 ∥}_{问} {∥ {（f）}^{γ} ∥}_{第页} \end{matrix}

(9)

声称

{C类}_{γ} (克, （f）) \geq {H（H）}_{γ} (克)

，或同等

\begin{matrix} {D类}_{γ} (克, （f）) \geq 0 \end{matrix}

(10)

为所有人（f）和克在里面

F类

也是由

{C类}_{γ}^{(o个)} (克, （f）) \geq {H（H）}_{γ}^{(o个)} (克)

.中的平等(10)仅当且仅当

（f） (x个) = λ 克 (x个)

几乎无处不在x个，其中λ是一个正常数。权力转换表明了空间之间的相互作用

{L（左）}_{第页}

和

{L（左）}_{问}

根据关系，

\begin{matrix} ∥ {（f）}^{γ} ∥_{第页} = {∥ （f） ∥}_{问}^{γ} \end{matrix}

取的极限γH中为0

\ddot{o个}

奥尔德不等式(9)产生这样的结果

\begin{matrix} \int 克 (x个) 日志 （f） (x个) d日 x个 \leq \int 克 (x个) 日志 克 (x个) d日 x个 \end{matrix}

自从

\begin{matrix} \underset{γ \to 0}{极限} \int 克 (x个) \frac{（f） {(x个)}^{γ} - 1}{γ} d日 x个 = \int 克 (x个) 日志 （f） (x个) d日 x个 \end{matrix}

和

\begin{matrix} \underset{γ \to 0}{极限} \frac{∥ {（f）}^{γ} ∥_{第页} {∥ 克 ∥}_{问} - 1}{γ} = \int 克 (x个) 日志 克 (x个) d日 x个 \end{matrix}

(11)

此限制涉及第页与另一个空间而不是

{L（左）}_{\infty}

比如说，空间就是所有具有有限Boltzmann-Shannon熵的密度函数的空间

{L（左）}_{日志}

.功率指数γ重新参数化勒贝格空间

{L（左）}_{第页}

和双重空间

{L（左）}_{问}

与关系

第页 = 1 + γ^{- 1}

然而，要进行权力转换

（f） {(x个)}^{γ}

与勒贝格空间的普通讨论完全不同，因此对偶性收敛于

({L（左）}_{日志}, {L（左）}_{1})

如中所观察到的(11). 在信息几何中，这对

({L（左）}_{日志}, {L（左）}_{1})

对应于混合连接和指数连接，囊性纤维变性。[9]. 另请参见另一个参数化

{L（左）}_{第页}

空间[19].

我们现在讨论一个关于

{C类}_{γ} (克, （f）)

如下定理所示。关于特性的一般讨论见[16]然而，推导过程相当复杂。这里我们假设一个关键条件，即交叉熵

Γ (克, （f）)

是线性的克给出一个基本的证明。Riesz表示定理表明

\begin{matrix} Γ (克, （f）) = c（c） (（f）) \int 克 (x个) ψ (（f） (x个)) d日 x个 \end{matrix}

哪里

c（c） (（f）)

是一个常数，取决于（f）因此，当我们为

c（c） (（f）)

以保证缩放不变性。

定理1。.定义函数

Γ : F类 \times F类 \mapsto R（右）

通过

\begin{matrix} Γ (克, （f）) = φ (\int ρ (（f） (x个)) d日 x个) \int 克 (x个) ψ (（f） (x个)) d日 x个 \end{matrix}

(12)

哪里φ,ρ和ψ是可微的单调函数。假设

（i）。

Γ (克, 克) = {最小值}_{（f） \in F类} Γ (克, （f）)

为所有人

克 \in F类

,

还有那个

（ii）。

Γ (克, （f）) = Γ (克, λ （f）)

为所有人

λ > 0

以及所有

克, （f） \in F类 .

然后就有了γ这样的话

Γ (克, （f）) = {C类}_{γ} (克, （f）)

高达常数因子，其中

{C类}_{γ} (克, （f）)

是投影幂交叉熵，定义为(1).

证明。要求（ii）意味着

\begin{matrix} \frac{\partial}{\partial λ} \{φ (\int ρ (λ （f） (x个)) d日 x个) \int ψ (λ （f） (x个)) 克 (x个) d日 x个\} = 0 \end{matrix}

这意味着，如果（f）是绝对连续的克狄拉克的测量值是

{x个}_{0}

，然后

\begin{matrix} \frac{\dot{ψ} (λ （f） ({x个}_{0}))}{ψ (λ （f） ({x个}_{0}))} λ （f） ({x个}_{0}) = c（c） (λ) \end{matrix}

哪里

\begin{matrix} c（c） (λ) = - \frac{λ \dot{φ} (\int ρ (λ （f） (x个)) d日 x个) \int \dot{ρ} (λ （f） (x个)) （f） (x个) d日 x个}{φ (\int ρ (λ （f） (x个)) d日 x个)} \end{matrix}

因为我们可以取任意值

（f） ({x个}_{0})

对于任何固定λ,

\begin{matrix} \frac{\dot{ψ} (t吨)}{ψ (t吨)} = c（c） (λ) {t吨}^{- 1} \end{matrix}

其唯一解为

ψ (t吨) = {t吨}^{γ}

哪里

γ = c（c） (λ)

。接下来，我们考虑一个有限离散空间的情况，

{{x个}_{我} : 1 \leq 我 \leq 米}

然后，因为

ψ (（f）) = {（f）}^{γ}

，我们可以写

\begin{matrix} Γ (克, （f）) = φ (\sum_{我 = 1}^{米} ρ ({（f）}_{我})) \sum_{我 = 1}^{米} 克_{我} {（f）}_{我}^{γ} \end{matrix}

哪里

{（f）}_{我} = （f） ({x个}_{我})

和

克_{我} = 克 ({x个}_{我})

要求（i）导致

(\partial / \partial {（f）}_{j个}) Γ (克, （f）) |_{（f） = 克} = 0

为所有人

j个, 1 \leq j个 \leq 米

，这意味着

\begin{matrix} \dot{ρ} (克_{j个}) = - γ c（c） (克_{1}, \dots, 克_{米}) 克_{j个}^{γ} \end{matrix}

(13)

哪里

\begin{matrix} c（c） (克_{1}, \dots, 克_{米}) = \frac{φ (\sum_{我 = 1}^{米} ρ (克_{我}))}{\sum_{我 = 1}^{米} 克_{我}^{1 + γ} \dot{φ} (\sum_{我 = 1}^{米} ρ (克_{我}))} \end{matrix}

(14)

它源自(13)那个

c（c） (克_{1}, \dots, 克_{米})

必须是中的常量

克_{1}, \dots, 克_{米}

，说吧C类，以便我们解决(13)作为

ρ (克_{j个}) = - γ C类 克_{j个}^{1 + γ} / (1 + γ)

因此，方程式(14)由编写

\begin{matrix} \frac{\dot{φ} (t吨)}{φ (t吨)} = - \frac{γ}{1 + γ} {t吨}^{- 1} \end{matrix}

这将导致

φ (t吨) = {t吨}^{- \frac{γ}{1 + γ}}

我们的结论是

Γ (克, （f）) \propto {C类}_{γ} (克, （f）)

，这就完成了证明。☐

备注1。上述证明基本上适用于积分（11）仅由二进制分布的求和给出的情况。在这个意义上，定理1的陈述并不严密，但是，统计推断是以统一的方式进行讨论的，这样分布要么是连续的，要么是离散的。在随后的讨论中，我们将重点讨论在

{R（右）}^{d日}

.

备注2。我们看到的乘法分解

{C类}_{γ} (克, （f）)

实现统计独立性。事实上，如果（f）和克分解为

（f） = {（f）}_{1} \otimes {（f）}_{2}, 克 = 克_{1} \otimes 克_{2}

在同一分区中，则

\begin{matrix} {C类}_{γ} (克, （f）) = {C类}_{γ} (克_{1}, {（f）}_{1}) {C类}_{γ} (克_{2}, {（f）}_{2}) \end{matrix}

这个性质也是基本的，但我们不假设这个可分解性是定理1的要求。

3.最大熵分布模型

我们将阐明上的最大熵模型之间的二元结构

{H（H）}_{γ}

，定义于(2)最小交叉熵估计

{C类}_{γ}

，定义于(1). 在讨论之前，我们概述了经典的情况，其中最大似然估计在玻尔兹曼-香农熵的最大熵模型下表现良好，也就是说，如果我们考虑均值和方差约束，则为高斯模型。我们将使用传统的符号X（X）表示具有值的随机变量x个.让

{{x个}_{1}, \dots, {x个}_{n个}}

是具有密度函数的高斯分布的随机样本

\begin{matrix} {（f）}_{0} (x个, μ, \sum) = det（探测） {(2 π \sum)}^{- \frac{1}{2}} 经验 {- \frac{1}{2} {(x个 - μ)}^{T型} \sum^{- 1} (x个 - μ)} \end{matrix}

高斯密度函数由标准形式表示

\begin{matrix} {(2 π)}^{- \frac{d日}{2}} 经验 \{- \frac{1}{2} {(x个 - μ)}^{T型} Ξ (x个 - μ) + \frac{1}{2} 日志 det（探测） (Ξ)\} \end{matrix}

(15)

其中Ξ被称为由

\sum^{- 1}

.分化(15)上的μ和Ξ产量

\begin{matrix} {E类}_{{（f）}_{0} (\cdot, μ, \sum)} (X（X）) = μ 和 {V（V）}_{{（f）}_{0} (\cdot, μ, \sum)} (X（X）) = \sum \end{matrix}

哪里

{E类}_{（f）}

和

{V（V）}_{（f）}

表示关于概率密度函数的期望向量和方差矩阵

（f） (x个)

分别是。

最大似然估计量由下式给出

\begin{matrix} ({\hat{μ}}_{0}, {\sum^{^}}_{0}) = (\bar{x个}, S公司) \end{matrix}

(16)

哪里

\bar{x个}

和S公司是样本均值向量和样本方差矩阵，

\begin{matrix} \bar{x个} = \frac{1}{n个} \sum_{我 = 1}^{n个} {x个}_{我}, S公司 = \frac{1}{n个} \sum_{我 = 1}^{n个} ({x个}_{我} - \bar{x个}) {({x个}_{我} - \bar{x个})}^{T型} \end{matrix}

(17)

这是因为负log-likelihood函数是

\begin{matrix} {L（左）}_{0} (μ, \sum) = - \frac{1}{n个} \sum_{我 = 1}^{n个} 日志 {（f）}_{0} ({x个}_{我}, μ, \sum) \end{matrix}

由以下人员编写

\begin{matrix} \frac{1}{2} 追踪 (S公司 (μ) Ξ) - \frac{1}{2} 日志 det（探测） (Ξ) \end{matrix}

除了常数，其中

\begin{matrix} S公司 (μ) = \frac{1}{n个} \sum_{我 = 1}^{n个} ({x个}_{我} - μ) {({x个}_{我} - μ)}^{T型} \end{matrix}

(18)

因此，估算系统为

\begin{matrix} [\begin{matrix} \frac{\partial}{\partial μ} {L（左）}_{0} (μ, \sum) \\ \frac{\partial}{\partial Ξ} {L（左）}_{0} (μ, \sum) \end{matrix}] = [\begin{matrix} Ξ (\bar{x个} - μ) \\ \frac{1}{2} {S公司 (μ) - \sum} \end{matrix}] = [\begin{matrix} 0 \\ O（运行） \end{matrix}] \end{matrix}

它结束了表达式(16)MLE自

S公司 (μ) = S公司 + (\bar{x个} - μ) {(\bar{x个} - μ)}^{T型}

。或者，我们还有另一条路线要展示(16)如下所示。中定义的Kullback-Leibler散度(6)由提供

\begin{matrix} {D类}_{0} ({（f）}_{0} (\cdot, μ, \sum), {（f）}_{0} (\cdot, μ_{1}, \sum_{1})) \end{matrix}

\begin{matrix} = & \frac{1}{2} {(μ - μ_{1})}^{T型} \sum_{1}^{- 1} (μ - μ_{1}) + \frac{1}{2} 追踪 {(\sum - \sum_{1}) \sum_{1}^{- 1}} - \frac{1}{2} 日志 det（探测） (\sum \sum_{1}^{- 1}) \end{matrix}

因此，我们观察到

\begin{matrix} {L（左）}_{0} (μ, \sum) - {L（左）}_{0} (\bar{x个}, S公司) = {D类}_{0} ({（f）}_{0} (\cdot, \bar{x个}, S公司), {（f）}_{0} (\cdot, μ, \sum)) \end{matrix}

(19)

当且仅当

(μ, \sum) = (\bar{x个}, S公司)

。这意味着(16).

在温和的规则性条件下，相反的语句成立，即位置和散布模型的MLE满足(16)当且仅当模型为高斯时，囊性纤维变性。[17,18]. 然而，即使我们对底层分布不做任何假设

克 (x个)

、统计数据

\bar{x个}

和S公司是渐近一致的

\begin{matrix} μ_{克} = {E类}_{克} (X（X）) 和 \sum_{克} = {V（V）}_{克} (X（X）) \end{matrix}

这是强大数定律的直接结果，中心极限定理导致这两个统计量的渐近正态性。从这个意义上说，

(\bar{x个}, S公司)

也是一个非参数估计量

(μ_{克}, \sum_{克})

.

我们探讨了统计模型和估计方法之间的密切关系。我们考虑具有γ-熵

{H（H）}_{γ}

在…的空间上d日-具有共同均值和方差的维度分布，

\begin{matrix} {F类}_{(μ, \sum)} = {（f） \in F类 : \int （f） (x个) d日 x个 = 1, {E类}_{（f）} (x个) = μ, {V（V）}_{（f）} (x个) = \sum} \end{matrix}

(20)

然后我们定义一个概率密度函数的分布

\begin{matrix} {（f）}_{γ} (x个, μ, \sum) = \frac{{c（c）}_{γ}}{det（探测） {(2 π \sum)}^{\frac{1}{2}}} {\{1 - \frac{γ}{2 + d日 γ + 2 γ} {(x个 - μ)}^{T型} \sum^{- 1} (x个 - μ)\}}_{+}^{\frac{1}{γ}} \end{matrix}

（21）

哪里

{()}_{+}

表示积极的部分

{c（c）}_{γ}

是归一化因子，

\begin{matrix} {c（c）}_{γ} = \{\begin{matrix} {(\frac{2 γ}{2 + d日 γ + 2 γ})}^{\frac{d日}{2}} \frac{Γ (1 + \frac{d日}{2} + \frac{1}{γ})}{Γ (1 + \frac{1}{γ})} & 如果 γ > 0 \\ {(- \frac{2 γ}{2 + d日 γ + 2 γ})}^{\frac{d日}{2}} \frac{Γ (- \frac{1}{γ})}{Γ (- \frac{1}{γ} - \frac{d日}{2})} & 如果 - \frac{2}{d日 + 2} < γ < 0 \end{matrix} \end{matrix}

(22)

参见推导

{c（c）}_{γ}

在里面附录2.如果尺寸d日等于1，则

{（f）}_{γ} (x个, μ, \sum)

是一个问-高斯分布

问 = γ + 1

。我们注意到

\begin{matrix} \underset{γ ↑ 0}{极限} {c（c）}_{γ} = \underset{γ ↓ 0}{极限} {c（c）}_{γ} = 1 \end{matrix}

在哪儿

{（f）}_{γ} (x个, μ, \sum)

减少为d日-变化高斯密度，当

γ = 0

.支持

{（f）}_{γ} (\cdot, μ, \sum)

变为椭球体，定义为

\begin{matrix} \{x个 \in {R（右）}^{d日} : {(x个 - μ)}^{T型} \sum^{- 1} (x个 - μ) \leq \frac{2 + d日 γ + 2 γ}{γ}\} \end{matrix}

如果

γ > 0

另一方面，如果

- \frac{2}{d日 + 2} < γ < 0

，密度函数(21)写为

\begin{matrix} {（f）}_{γ} (x个, μ, \sum) = det（探测） {(π τ \sum)}^{- \frac{1}{2}} \frac{Γ (- \frac{1}{γ})}{Γ (- \frac{1}{γ} - \frac{d日}{2})} {\{1 + \frac{1}{τ} {(x个 - μ)}^{T型} \sum^{- 1} (x个 - μ)\}}^{\frac{1}{γ}} \end{matrix}

(23)

哪里

\begin{matrix} τ = - \frac{2 + (d日 + 2) γ}{γ} \end{matrix}

这个d日-变量t分布定义为

\begin{matrix} 克_{ν} (x个, μ, P（P）) = det（探测） {(π ν P（P）)}^{- \frac{1}{2}} \frac{Γ (\frac{ν + d日}{2})}{Γ (\frac{ν}{2})} {\{1 + \frac{1}{ν} {(x个 - μ)}^{T型} {P（P）}^{- 1} (x个 - μ)\}}^{- \frac{ν + d日}{2}} \end{matrix}

（24）

囊性纤维变性。[20]进行广泛讨论。假设

\begin{matrix} \frac{ν + d日}{2} = - \frac{1}{γ} 和 ν P（P） = τ \sum \end{matrix}

然后我们从(23)和(24)那个

\begin{matrix} {（f）}_{γ} (x个, μ, \sum) = 克_{ν} (x个, μ, P（P）) \end{matrix}

因此，密度函数

{（f）}_{γ} (x个, μ, \sum)

具有

- \frac{2}{d日 + 2} < γ < 0

是t分布。分布在欧氏空间上具有椭圆轮廓

{R（右）}^{d日}

对于任何

γ > - \frac{2}{d日 + 2}

，如所示图1对于以下典型情况γ.

图1。t分布

(γ = - 0.4)

，高斯

(γ = 0)

和维格纳

(γ = 2)

分配。

图1。t分布

(γ = - 0.4)

，高斯

(γ = 0)

和维格纳

(γ = 2)

分配。

让

\begin{matrix} {M（M）}_{γ} = \{{（f）}_{γ} (x个, μ, \sum) : μ \in {R（右）}^{d日}, \sum \in {S公司}_{d日}\} \end{matrix}

(25)

我们称之为γ-模型，其中

{S公司}_{d日}

表示所有对称正定矩阵的空间d日.我们确认了γ-模型如下。

柠檬.在模型下

{M（M）}_{γ}

定义于(25)使用索引

γ > - \frac{2}{d日 + 2}

,

\begin{matrix} {E类}_{{（f）}_{γ} (\cdot, μ, \sum)} (X（X）) = μ 和 {V（V）}_{{（f）}_{γ} (\cdot, μ, \sum)} (X（X）) = \sum \end{matrix}

证明。我们需要考虑一系列护送分发。在模型中

{M（M）}_{γ}

我们可以将护送分配定义为

\begin{matrix} {e（电子）}_{问} ({（f）}_{γ} (x个, μ, \sum)) = \frac{{c（c）}_{γ}^{*}}{det（探测） {(\sum)}^{\frac{1}{2}}} {\{1 - \frac{γ}{2 + d日 γ + 2 γ} {(x个 - μ)}^{T型} \sum^{- 1} (x个 - μ)\}}_{+}^{\frac{1 + γ}{γ}} \end{matrix}

(26)

哪里

问 = 1 + γ

和

{c（c）}_{γ}^{*}

是归一化因子。因此，

\begin{matrix} {e（电子）}_{问} ({（f）}_{γ} (x个, μ, \sum)) = {c（c）}_{γ}^{*} {\{det（探测） {(\sum)}^{- \frac{1}{2} \frac{γ}{1 + γ}} - \frac{γ}{2 + d日 γ + 2 γ} {(x个 - μ)}^{T型} {det（探测） {(\sum)}^{- \frac{1}{2} \frac{γ}{1 + γ}} \sum^{- 1}} (x个 - μ)\}}_{+}^{\frac{1 + γ}{γ}} \end{matrix}

(27)

这里我们定义了可选参数

Ξ_{γ}

转换为原始参数∑

\begin{matrix} Ξ_{γ} = det（探测） {(\sum)}^{- \frac{1}{2} \frac{γ}{1 + γ}} \sum^{- 1} \end{matrix}

(28)

因此，逆变换由下式给出

\begin{matrix} \sum = det（探测） {(Ξ_{γ})}^{\frac{γ}{d日 γ + 2 γ + 2}} Ξ_{γ}^{- 1} \end{matrix}

(29)

注意到了

det（探测） (Ξ_{γ}) = det（探测） {(\sum)}^{- \frac{1}{2} \frac{d日 γ + 2 γ + 2}{1 + γ}}

因此，我们得到了(26)作为

\begin{matrix} {e（电子）}_{问} ({（f）}_{γ} (x个, μ, \sum)) = {c（c）}_{γ}^{*} {\{det（探测） {(Ξ_{γ})}^{\frac{γ}{2 + d日 γ + 2 γ}} - \frac{γ}{2 + d日 γ + 2 γ} {(x个 - μ)}^{T型} Ξ_{γ} (x个 - μ)\}}_{+}^{\frac{1 + γ}{γ}} \end{matrix}

(30)

通过对指数族的讨论进行类比，我们得到了中支撑项的以下表达式(30)作为

\begin{matrix} - \frac{2 γ}{2 + d日 γ + 2 γ} \{\frac{1}{2} 追踪 (x个 {x个}^{T型} Ξ_{γ}) - μ^{T型} Ξ_{γ} x个 + \frac{1}{2} μ^{T型} Ξ_{γ} μ - \frac{2 + d日 γ + 2 γ}{2 γ} det（探测） {(Ξ_{γ})}^{\frac{γ}{d日 γ + 2 γ + 2}}\} \end{matrix}

(31)

护送分布的一个特性建议了该分布的力矩公式(25)如下：我们有一个身份

\begin{matrix} \frac{\partial}{\partial μ} \int {c（c）}_{γ}^{*} {\{det（探测） {(Ξ_{γ})}^{\frac{γ}{d日 γ + 2 γ + 2}} - \frac{γ}{2 + d日 γ + 2 γ} {(x个 - μ)}^{T型} Ξ_{γ} (x个 - μ)\}}_{+}^{\frac{1 + γ}{γ}} d日 x个 = 0 \end{matrix}

这意味着

\begin{matrix} \int {\{det（探测） {(Ξ_{γ})}^{\frac{γ}{d日 γ + 2 γ + 2}} - \frac{γ}{2 + d日 γ + 2 γ} {(x个 - μ)}^{T型} Ξ_{γ} (x个 - μ)\}}_{+}^{\frac{1}{γ}} Ξ_{γ} (x个 - μ) d日 x个 = 0 \end{matrix}

由此得出结论

\begin{matrix} {E类}_{{（f）}_{γ} (\cdot, μ, \sum)} (X（X）) = μ \end{matrix}

同样，

\begin{matrix} \frac{\partial}{\partial Ξ_{γ}} \int {c（c）}_{γ}^{*} {\{det（探测） {(Ξ_{γ})}^{\frac{γ}{d日 γ + 2 γ + 2}} - \frac{γ}{2 + d日 γ + 2 γ} {(x个 - μ)}^{T型} Ξ_{γ} (x个 - μ)\}}_{+}^{\frac{1 + γ}{γ}} d日 x个 = 0 \end{matrix}

哪个是

\begin{matrix} \int {c（c）}_{γ}^{*} {\{det（探测） {(Ξ_{γ})}^{\frac{γ}{d日 γ + 2 γ + 2}} - \frac{γ}{2 + d日 γ + 2 γ} {(x个 - μ)}^{T型} Ξ_{γ} (x个 - μ)\}}_{+}^{\frac{1}{γ}} \end{matrix}

\begin{matrix} \times & \{\frac{γ}{d日 γ + 2 γ + 2} det（探测） {(Ξ_{γ})}^{\frac{γ}{d日 γ + 2 γ + 2}} Ξ_{γ}^{- 1} - \frac{γ}{2 + d日 γ + 2 γ} (x个 - μ) {(x个 - μ)}^{T型}\} d日 x个 = 0 \end{matrix}

(32)

由此得出结论

\begin{matrix} {V（V）}_{{（f）}_{γ} (\cdot, μ, \sum)} (X（X）) = \sum \end{matrix}

因为

Ξ_{γ}

和∑，如(29). 证据是完整的。 ☐

备注3.规范形式(30)护送分发的(26)在引理的证明中起着重要作用。基本上我们可以写出(21)然而，像指数族的情况一样，它与分布性质没有任何联系。

备注4.在方程式中(31)函数

\begin{matrix} φ (Ξ) = \frac{1}{2 ω} det（探测） {(Ξ)}^{ω} \end{matrix}

(33)

被视为Fenchel凸对偶中的一个势函数，其中

\begin{matrix} ω = \frac{γ}{2 + d日 γ + 2 γ} \end{matrix}

囊性纤维变性。[21,22]协方差结构模型。

从引理我们观察到

{（f）}_{γ} (\cdot, μ, \sum) \in F类 (μ, \sum)

下一步，我们展示了密度分布

{（f）}_{γ} (\cdot, μ, \sum)

最大化γ-熵

{H（H）}_{γ}

在空间上方

F类 (μ, \sum)

，其中

{H（H）}_{γ}

定义于(2).

定理2.

（i） ●●●●。如果

- \frac{2}{d日 + 2} < γ \leq 0

，然后

\begin{matrix} {（f）}_{γ} (\cdot, μ, \sum) = \underset{（f） \in {F类}_{(μ, \sum)}}{argmax（最大值）} {H（H）}_{γ} (（f）) \end{matrix}

(34)

哪里

{F类}_{(μ, \sum)}

在中定义(20).

（ii）。如果

γ > 0

，然后

\begin{matrix} {（f）}_{γ} (\cdot, μ, \sum) = \underset{（f） \in {F类}_{(μ, \sum)}^{(γ)}}{argmax（最大值）} {H（H）}_{γ} (（f）) \end{matrix}

(35)

哪里

\begin{matrix} {F类}_{(μ, \sum)}^{(γ)} = {（f） \in {F类}_{(μ, \sum)} : （f） (x个) = 0 几乎无处不在 x个 \in B类 (μ, \sum)} \end{matrix}

具有

B类 (μ, \sum)

存在

{x个 \in {R（右）}^{d日} : {(x个 - μ)}^{T型} \sum^{- 1} (x个 - μ) > \frac{2 + d日 γ + 2 γ}{γ}}

.

证明根据的定义

{F类}_{(μ, \sum)}

，我们从引理中看到

{（f）}_{γ} (\cdot, μ, \sum) \in {F类}_{(μ, \sum)}

对于任何

γ \in (- \frac{2}{d日 + 2}, 0)

。这导致

\begin{matrix} {E类}_{{（f）}_{γ} (\cdot, μ, \sum)} {{（f）}_{γ} {(X（X）, μ, \sum)}^{γ}} = {E类}_{（f）} {{（f）}_{γ} {(X（X）, μ, \sum)}^{γ}} \end{matrix}

对于任何（f）在里面

{F类}_{(μ, \sum)}

，这意味着

\begin{matrix} {H（H）}_{γ} ({（f）}_{γ} (\cdot, μ, \sum)) = {C类}_{γ} (（f）, {（f）}_{γ} (\cdot, μ, \sum)) \end{matrix}

因此

\begin{matrix} {H（H）}_{γ} ({（f）}_{γ} (\cdot, μ, \sum)) - {H（H）}_{γ} (（f）) = {D类}_{γ} (（f）, {（f）}_{γ} (\cdot, μ, \sum)) \end{matrix}

(36)

如中所述为非负(4). 这就结束了(34). 同样，我们观察到(36)保留任何

γ > 0

以及任何（f）在里面

{F类}_{(μ, \sum)}^{(γ)}

自从支持（f）包括

（f） (\cdot, μ, \sum)

。此结论(35). ☐

我们想通过数据集的最小投影交叉熵来阐明统计推断的类似结构

{{x个}_{1}, \dots, {x个}_{n个}}

假设遵循模型

{M（M）}_{γ}

.我们回忆起(8)从射影交叉熵与伴随分布的关系

\begin{matrix} {C类}_{γ} (克, （f）) = - \frac{1}{γ (1 + γ)} \int {e（电子）}_{问} {(（f） (x个))}^{\frac{γ}{1 + γ}} 克 (x个) d日 x个 \end{matrix}

当我们有数据时

{{x个}_{1}, \dots, {x个}_{n个}}

安装在模型上

{M（M）}_{γ}

，损失函数为

\begin{matrix} {L（左）}_{γ} (μ, \sum) = - \frac{1}{γ (1 + γ)} \frac{1}{n个} \sum_{我 = 1}^{n个} {e（电子）}_{问} {({（f）}_{γ} ({x个}_{我}, μ, \sum))}^{\frac{γ}{1 + γ}} \end{matrix}

哪里

{（f）}_{γ} (x个, μ, \sum)

定义于(21). 这个γ-估计器定义为

\begin{matrix} ({\hat{μ}}_{γ}, {\sum^{^}}_{γ}) = \underset{(μ, \sum)}{argmin（最小值）} {L（左）}_{γ} (μ, \sum) \end{matrix}

参见一般定义(7). 它遵循中定义的规范形式(30)使用规范参数

Ξ_{γ}

定义于(28)那个

\begin{matrix} {L（左）}_{γ} (μ, \sum) = - \frac{1}{γ (1 + γ)} {({c（c）}_{γ}^{*})}^{\frac{γ}{γ + 1}} [det（探测） {(Ξ_{γ})}^{ω} - ω {追踪 (Ξ_{γ} S公司) + {(μ - \bar{x个})}^{T型} Ξ_{γ} (μ - \bar{x个})}] \end{matrix}

(37)

哪里

(\bar{x个}, S公司)

和ω定义于(17)和(33)、和

{c（c）}_{γ}^{*}

是中定义的标准化因子(27). 这里我们注意到，如果

γ > 0

，然后是参数

(μ, \sum)

必须假定处于

Θ_{n个}

，其中

\begin{matrix} Θ_{n个} = {(μ, \sum) \in {R（右）}^{d日} \times {S公司}_{d日} : {({x个}_{我} - μ)}^{T型} \sum^{- 1} ({x个}_{我} - μ) < ω^{- 1} (\forall 我 = 1, \dots, n个)} \end{matrix}

(38)

我们注意到

{L（左）}_{γ} (μ, \sum) = {C类}_{γ} (（f） (\cdot, \bar{x个}, S公司), （f） (\cdot, μ, \sum))

和

{L（左）}_{γ} (\bar{x个}, S公司) = {H（H）}_{γ} (（f） (\cdot, \bar{x个}, S公司))

自从

\begin{matrix} {E类}_{（f） (\cdot, \bar{x个}, S公司)} (X（X）) = \bar{x个}, 和 {V（V）}_{（f） (\cdot, \bar{x个}, S公司)} (X（X）) = S公司 \end{matrix}

因此，我们观察到的论点类似于(19)对于MLE。投影发散

{D类}_{γ}

定义于(3)等于γ-损失函数为

\begin{matrix} {L（左）}_{γ} (μ, \sum) - {L（左）}_{γ} (\bar{x个}, S公司) = {D类}_{γ} ({（f）}_{γ} (\cdot, \bar{x个}, S公司), {（f）}_{γ} (\cdot, μ, \sum)), \end{matrix}

(39)

当且仅当

(μ, \sum) = (\bar{x个}, S公司)

见方程式后的讨论(10). 这样，我们可以将上述讨论总结如下：

定理3.让

{{x个}_{1}, \dots, {x个}_{n个}}

是来自γ-中定义的模型(21). 然后γ-中定义的估计器(7)的

(μ, \sum)

是

(\bar{x个}, S公司)

，其中

(\bar{x个}, S公司)

定义于(17).

证明。让我们再提供一个证据。估算系统如下所示

\begin{matrix} [\begin{matrix} \frac{\partial}{\partial μ} {L（左）}_{γ} (μ, \sum) \\ \frac{\partial}{\partial Ξ_{γ}} {L（左）}_{γ} (μ, \sum) \end{matrix}] = [\begin{matrix} Ξ_{γ} (\bar{x个} - μ) \\ ω {det（探测） {(Ξ_{γ})}^{ω} Ξ_{γ}^{- 1} - S公司 (μ)} \end{matrix}] = [\begin{matrix} 0 \\ O（运行） \end{matrix}] \end{matrix}

(40)

相当于

\begin{matrix} [\begin{matrix} μ - \bar{x个} \\ \sum - S公司 (μ) \end{matrix}] = [\begin{matrix} 0 \\ O（运行） \end{matrix}] \end{matrix}

因为

Ξ_{γ}

转换为∑，如(29). 因此，我们也得出了结论

({\hat{μ}}_{γ}, {\sum^{^}}_{γ}) = (\bar{x个}, S公司) .

这样，我们就得到了由(40)通过参数

Ξ_{γ}

利用押运分布与损失函数的关系(37). ☐

备注5考虑位置模型

{{（f）}_{γ} (\cdot, μ, \sum)}

使用位置参数μ，其中∑在定理3中已知。然后我们很容易看到γ-估计量μ是

\bar{x个}

相反的说法呢？我们发现，如果γ-估计量μ是

\bar{x个}

根据样本大小

n个 \geq 3

，则模型为γ-模型，

{{（f）}_{γ} (\cdot, μ, \sum)

已知∑。该证明与[17]. 事实上，我们得出的结论是模型密度函数

（f） (x个)

满足这一点

\begin{matrix} {（f） (x个 - μ)}^{γ} = 一 + b条 {(x个 - μ)}^{T型} \sum^{- 1} (x个 - μ) \end{matrix}

哪里一和b条是常数。

备注6。如果我们共同研究定理2和3，那么

\begin{matrix} \underset{(μ, \sum) \in {R（右）}^{d日} \times {S公司}_{d日}}{最小值} {L（左）}_{γ} (μ, \sum) = \underset{（f） \in F类 (\bar{x个}, S公司)}{最大值} {H（H）}_{γ} (（f）) \end{matrix}

(41)

自从

{L（左）}_{γ} (\bar{x个}, S公司) = {H（H）}_{γ} ({（f）}_{γ} (\cdot, \bar{x个}, S公司))

.两侧(41)与不平等联系在一起(39)和(36)上的γ-单独讨论中的分歧。

备注7.的推导γ-定理3中的估计器是由正则参数提供的

Ξ_{γ}

中给出的护送分配(28). 这里，我们直接计算损耗相对于∑的梯度，如下所示：

\begin{matrix} \frac{\partial}{\partial \sum} {L（左）}_{γ} (μ, \sum) & = & - \frac{1}{2 {(1 + γ)}^{2}} det（探测） {(\sum)}^{- \frac{1}{2} \frac{γ}{1 + γ}} (1 - ω 追踪 {S公司 (μ) \sum^{- 1}}) \sum^{- 1} \\ + \frac{γ}{(1 + γ)} ω det（探测） {(\sum)}^{- \frac{1}{2} \frac{γ}{1 + γ}} \sum^{- 1} S公司 (μ) \sum^{- 1} \\ = & - \frac{1}{2 {(1 + γ)}^{2}} det（探测） {(\sum)}^{- \frac{1}{2} \frac{γ}{1 + γ}} \\ \times [(1 - ω 追踪 {S公司 (μ) \sum^{- 1}}) \sum^{- 1} - \frac{1 + γ}{1 + \frac{1}{2} d日 γ + γ} \sum^{- 1} S公司 (μ) \sum^{- 1}] \end{matrix}

因此，我们观察到，如果我们

μ = \bar{x个}

和

\sum = α S公司 (\bar{x个})

，然后

\begin{matrix} \frac{\partial}{\partial \sum} {L（左）}_{γ} (\bar{x个}, α S公司 (\bar{x个})) = - \frac{1}{2} \frac{γ}{1 + γ} det（探测） {(α S公司 (\bar{x个}))}^{- \frac{1}{2} \frac{γ}{1 + γ}} {(α S公司 (\bar{x个}))}^{- 1} \end{matrix}

\begin{matrix} \times [(1 - ω 追踪 {S公司 (\bar{x个}) {(α S公司 (\bar{x个}))}^{- 1}}) α S公司 (\bar{x个}) - \frac{1 + γ}{1 + \frac{1}{2} d日 γ + γ} S公司 (\bar{x个})] {(α S公司 (\bar{x个}))}^{- 1} \end{matrix}

(42)

括号中的术语(42)由提供

\begin{matrix} [α (1 - ω 追踪 {S公司 (\bar{x个}) {(α S公司 (\bar{x个}))}^{- 1}}) - \frac{1 + γ}{1 + \frac{1}{2} d日 γ + γ}] S公司 (\bar{x个}) \\ = & (α - \frac{d日 γ}{2 + d日 γ + 2 γ} - \frac{1 + γ}{1 + \frac{1}{2} d日 γ + γ}) S公司 (\bar{x个}) \end{matrix}

结论是如果

α = 1

，然后

(\partial / \partial \sum) {L（左）}_{γ} (\bar{x个}, α S公司 (\bar{x个})) = 0

这是定理3的直接证明，但它将伴随着对替换

(μ, \sum)

进入之内

(\bar{x个}, α S公司 (\bar{x个}))

.

4.结束语

我们探索了优雅的酒店(39)，毕达哥拉斯经验关系γ-模型和γ-估计器，在这个意义上(39)直接给出定理3，无需任何微分。另一个优雅的表达是大自然和决策者之间的minimax游戏，参见[23]. 考虑一下空间

F类 (μ, \sum)

定义于(20). The intersection of theγ-模型(21)和

F类 (μ, \sum)

是独生子女

{{（f）}_{γ} (\cdot, μ, \sum)}

，这是的极大极小解

\begin{matrix} \underset{克 \in F类 (μ, \sum)}{最大值} \underset{（f） \in F类}{最小值} {C类}_{γ} (克, （f）) = {C类}_{γ} ({（f）}_{γ} (\cdot, μ, \sum), {（f）}_{γ} (\cdot, μ, \sum)) \end{matrix}

考虑不同的指数γ和

γ^{*}

其中指定了γ-模型和

γ^{*}

-估计值。基本上

γ^{*}

-估计量在γ-适用于任何选择的模型γ和

γ^{*}

。如果我们特别修复

γ = 0

对于模型，即高斯模型，则

γ^{*}

-该估计器对于任何

γ^{*} > 0

，请参阅[16]. 鲁棒性程度与

γ^{*}

以效率为代价。这个

γ^{*}

-估计量

(μ, \sum)

高斯模型的解是

\begin{matrix} μ & = & \frac{\sum_{我 = 1}^{n个} {（f）}_{0} {({x个}_{我}, μ, \sum)}^{γ *} {x个}_{我}}{\sum_{我 = 1}^{n个} {（f）}_{0} {({x个}_{我}, μ, \sum)}^{γ *}} \end{matrix}

\begin{matrix} \sum & = & (1 + γ^{*}) \frac{\sum_{我 = 1}^{n个} {（f）}_{0} {({x个}_{我}, μ, \sum)}^{γ *} ({x个}_{我} - μ) {({x个}_{我} - μ)}^{T型}}{\sum_{我 = 1}^{n个} {（f）}_{0} {({x个}_{我}, μ, \sum)}^{γ *}} \end{matrix}

重量函数

{（f）}_{0} {({x个}_{我}, μ, \sum)}^{γ *}

对于我-第th次观测

{x个}_{我}

当

{x个}_{我}

是一个离群值。或者，经典稳健方法采用

γ^{*} = 0

，即指定错误的模型的MLE

γ < 0

或t吨-分布模型，请参见[24,25]. 因此，不同的指数γ和

γ^{*}

以二元方式进行稳健的统计。

该属性是指数模型和MLE之间关联属性的扩展，然而，它在以下意义上是脆弱的(19)如果γ-模型和

γ^{*}

-估计值略有不同。在实践中，我们发现在求解最大似然估计的数值任务中存在一些困难γ-模型，带有

γ > 0

因为密度的支撑取决于参数和指数γ我们讨论了模型的统计和概率特性以及与特定交叉熵相关的估计。讨论的一部分性质仍然适用于更广泛的类中的任何交叉熵，这是从[13,26].

致谢

我们感谢两位裁判的宝贵意见和建设性建议。

工具书类

Tsallis，C.Boltzmann-Gibbs统计的可能推广。J.统计。物理学。 1988,52, 479–487. [谷歌学者][交叉参考]
C·查利斯。非扩展统计力学导论：走向复杂世界; Springer-Verlag：美国纽约州纽约市，2009年。[谷歌学者]
Cichocki，A。；克鲁斯，S。；Amari，S.α-β-和γ-发散的家族：灵活而稳健的相似性度量。熵 2010,12, 1532–1568. [谷歌学者][交叉参考]
Cichocki，A。；克鲁斯，S。；Amari，S.广义α-β发散及其在稳健非负矩阵分解中的应用。熵 2011,13, 134–170. [谷歌学者][交叉参考]
Csiszár，I.概率分布差异和间接观测的信息型度量。匈牙利科学研究所 1967,2, 229–318. [谷歌学者]
关于熵和信息的度量。程序。伯克利第四交响乐团。数学。统计师。探针。 1961,1, 547–561. [谷歌学者]
Tøpsoe，F.信息差异的一些不平等现象和相关的歧视措施。IEEE传输。通知。西奥。 2000,46，1602年至1609年。[谷歌学者]
Amari，S.统计学中的微分几何方法。在统计学课堂讲稿; 施普林格出版社：美国纽约州纽约市，1985年；第28卷。[谷歌学者]
阿玛里，S。；长冈，H.信息几何方法。在数学专著的翻译; 美国数学学会：普罗维登斯，RI，美国，2000年；第191卷。[谷歌学者]
Eguchi，S.曲线指数族中最小对比度估计的二阶效率。安。统计师。 1983,11, 793–803. [谷歌学者][交叉参考]
Eguchi，S.最小对比度几何。广岛数学。J。 1992,22, 631–647. [谷歌学者]
巴苏，A。；I.R.哈里斯。；霍尔特，N.L。；Jones，M.C.通过最小化密度功率发散实现稳健高效的估计。生物特征 1988,85, 549–559. [谷歌学者][交叉参考]
信息散度几何及其在统计机器学习中的应用。在信息论与统计学习; Emmert-Streib，F.，Dehmer，M.，编辑。；施普林格：美国纽约州纽约市，2008年；第309-332页。[谷歌学者]
米纳米。；Eguchi，S.通过β-发散实现鲁棒盲源分离。神经计算。 2002,14, 1859–1886. [谷歌学者]
Eguchi，S。；与幂函数和统计应用相关的熵和散度。熵 2010,12, 262–274. [谷歌学者][交叉参考]
藤泽，H。；Eguchi，S.对严重污染有小偏差的稳健参数估计。《多元分析杂志》。 2008,99, 2053–2081. [谷歌学者][交叉参考]
阿扎里尼，A。；Genton，M.G.关于高斯正态分布的特征。伯努利 2007,13, 169–174. [谷歌学者][交叉参考]
Teicher，H.分布的最大似然特征。安。数学。统计人员。 1961,32，1214–1222。[谷歌学者][交叉参考]
阿玛里，S。；Ohara，A.概率分布q指数族的几何。熵 2011,13，1170-1185。[谷歌学者][交叉参考]
科茨，S。；南卡罗来纳达拉亚。多元T分布及其应用; 剑桥大学出版社：英国剑桥，2004年。[谷歌学者]
基于对比泛函的统计推断的微分几何方法。广岛数学。J。 1985,15, 341–391. [谷歌学者]
Wakaki，H。；Eguchi，S。；Fujikoshi，Y.一般协方差结构的一类检验。《多元分析杂志》。 1990,32, 313–325. [谷歌学者][交叉参考]
格伦瓦尔德，P.D。；Dawid，A.P.博弈论，最大熵，最小差异，稳健贝叶斯决策理论。安。统计师。 2004,32, 1367–1433. [谷歌学者]
Kent，J.T。；Tyler，D.E.重新定义多元位置和散布的M估计。安。统计师。 1991,19, 2102–2119. [谷歌学者][交叉参考]
Marrona，R.A.多元位置和散布的稳健M估计。安。统计师。 1976,4, 51–67. [谷歌学者][交叉参考]
Eguchi，S.信息几何与统计模式识别。Sugaku博览会 2006,19, 197–216. [谷歌学者]

附录1

我们展示了(5). 它来自l'H

\hat{o个}

皮塔尔的规则是

\begin{matrix} \underset{γ \to 0}{极限} {D类}_{γ} (克, （f）) = {(\frac{\partial}{\partial γ} [{\{\int 克 {(x个)}^{1 + γ} d日 x个\}}^{\frac{1}{1 + γ}} - \frac{\int 克 (x个) （f） {(x个)}^{γ} d日 x个}{{\{\int （f） {(x个)}^{1 + γ} d日 x个\}}^{\frac{γ}{1 + γ}}}])}_{γ = 0} \end{matrix}

写为

\begin{matrix} (\frac{1}{1 + γ} {\{\int 克 {(x个)}^{1 + γ} d日 x个\}}^{\frac{- γ}{1 + γ}} \int 克 {(x个)}^{1 + γ} 日志 克 (x个) d日 x个 - \frac{\int 克 (x个) （f） {(x个)}^{γ} 日志 （f） (x个) d日 x个}{{\{\int （f） {(x个)}^{1 + γ} d日 x个\}}^{\frac{γ}{1 + γ}}} \\ {+ \frac{γ}{1 + γ} \frac{\int 克 (x个) （f） {(x个)}^{γ} d日 x个}{{\{\int （f） {(x个)}^{1 + γ} d日 x个\}}^{\frac{1 + 2 γ}{1 + γ}}} \int （f） {(x个)}^{1 + γ} 日志 （f） (x个) d日 x个)}_{γ = 0} \end{matrix}

减少到

\begin{matrix} \int 克 (x个) 日志 克 (x个) d日 x个 - \int 克 (x个) 日志 （f） (x个) d日 x个 \end{matrix}

这就完成了(5). ☐

附录2

首先，我们给出以下公式

{c（c）}_{γ}

英寸(22)何时

γ > 0

.让

\begin{matrix} 我 = \frac{1}{det（探测） {(2 π \sum)}^{\frac{1}{2}}} \int {\{1 - ω {(x个 - μ)}^{T型} \sum^{- 1} (x个 - μ)\}}_{+}^{\frac{1}{γ}} d日 x个 \end{matrix}

哪里

ω = \frac{γ}{2 + d日 γ + 2 γ} .

积分被重写为

\begin{matrix} 我 = {(2 π ω)}^{- \frac{d日}{2}} \int {(1 - 年^{T型} 年)}_{+}^{\frac{1}{γ}} d日 年 \end{matrix}

哪里

年 = {(ω)}^{\frac{1}{2}} \sum^{- 1 / 2} (x个 - μ)

。用极坐标表示为

\begin{matrix} 我 = {(2 π ω)}^{- \frac{d日}{2}} {S公司}^{d日 - 1} \int_{0}^{1} {(1 - {第页}^{2})}^{\frac{1}{γ}} {第页}^{d日 - 1} d日 第页 \end{matrix}

（43）

哪里

{S公司}^{d日 - 1}

是单位球体的表面积

d日 - 1

维度，即，

\begin{matrix} {S公司}^{d日 - 1} = \frac{2 π^{\frac{d日}{2}}}{Γ (\frac{d日}{2})} \end{matrix}

由于中的积分(43)用贝塔函数表示，我们有

\begin{matrix} {c（c）}_{γ} = 我^{- 1} = {(2 ω)}^{\frac{d日}{2}} \frac{Γ (1 + \frac{d日}{2} + \frac{1}{γ})}{Γ (1 + \frac{1}{γ})} \end{matrix}

其次，当

- \frac{2}{d日 + 2} < γ < 0 .

与上面类似的论点

\begin{matrix} 我 = {(- 2 π ω)}^{- \frac{d日}{2}} \int {(1 + 年^{T型} 年)}^{\frac{1}{γ}} d日 年 \end{matrix}

哪里

年 = {(- 2 π ω)}^{1 / 2} \sum^{- 1 / 2} (x个 - μ)

。以极坐标表示为

\begin{matrix} 我 = {(- 2 π ω)}^{- \frac{d日}{2}} {S公司}^{d日 - 1} \int_{0}^{\infty} {(1 + {第页}^{2})}^{\frac{1}{γ}} {第页}^{d日 - 1} d日 第页 \end{matrix}

这导致了

\begin{matrix} {c（c）}_{γ} = {(- 2 ω)}^{\frac{d日}{2}} \frac{Γ (- \frac{1}{γ})}{Γ (- \frac{1}{γ} - \frac{d日}{2})} \end{matrix}

分享和引用

MDPI和ACS样式

Eguchi，S。；O.小森。；加藤，S。投影功率熵和最大Tsallis熵分布。熵 2011,13, 1746-1764.https://doi.org/10.3390/e13101746

AMA风格

Eguchi S、Komori O、Kato S。投影功率熵和最大Tsallis熵分布。熵. 2011; 13(10):1746-1764.https://doi.org/10.3390/e13101746

芝加哥/图拉宾风格

Eguchi、Shinto、Osamu Komori和Shogo Kato。2011.“投影功率熵和最大Tsallis熵分布”熵13，编号10:1746-1764。https://doi.org/10.3390/e13101746

文章菜单

投影幂熵和最大Tsallis熵分布

摘要

1.简介

2.射影不变性

3.最大熵分布模型

4.结束语

致谢

工具书类

附录1

附录2

分享和引用

文章指标

文章访问统计

更多信息

指导方针

MDPI计划

遵循MDPI