杂志的下一篇文章
复杂表面工程摩擦系统摩擦过程中的自组织
下一篇特刊文章
微分熵和相对熵的参数Bayes估计
期刊上的上一篇文章
通过(火用)分析改进能量转换/利用:非反应和无功系统的精选案例
特刊上一篇文章
基于非平衡统计力学的电磁计量中热量和电荷的传输
 
 
订购文章重印
字体类型:
宋体 佐治亚州 宋体,Verdana
字体大小:
澳大利亚 澳大利亚 澳大利亚
行距:
列宽:
5个 5个 5个
背景:
第条

幂函数的熵和散度及其统计应用

通过
平口真道(Shinto Eguchi)
*
Shogo加藤
日本东京塔川统计数学研究所,190-8562
*
信件应寄给的作者。
2010,12(2), 262-274;https://doi.org/10.3390/e12020262
收到的意见:2009年12月29日/修订日期:2010年2月20日/接受日期:2010年2月23日/发布日期:2010年2月25日

摘要

:
在统计物理学中,玻尔兹曼-香农熵为许多现象的平衡态提供了很好的理解。在统计学中,熵对应于最大似然法,其中Kullback-Leibler散度连接了Boltzmann-Shannon熵和预期的对数似然函数。最佳性能支持最大似然估计,已知在存在较小程度的模型不确定性时很容易分解。为了解决这个问题,提出了一种与Tsallis熵密切相关的新统计方法,并证明了该方法对离群值具有鲁棒性,同时我们讨论了与该方法相关的局部学习特性。

1.简介

考虑一个实际情况,其中数据集 { x个 1 , , x个 n个 } 从统计模型的概率密度函数中随机抽样 { (f) θ ( x个 ) : θ Θ } ,其中θ是参数向量,θ是参数空间。未知参数估计的基本工具θ是log-likelihood函数,定义为
( θ ) = 1 n个 = 1 n个 日志 (f) θ ( x个 )
这是经常光顾者和贝叶斯学者的统计研究人员经常使用的。最大似然估计量(MLE)定义为
θ ^ = argmin(最小值) θ Θ ( θ )
Fisher信息矩阵θ由定义
θ = (f) θ ( x个 ) θ 日志 (f) θ ( x个 ) θ T型 日志 (f) θ ( x个 ) x个
哪里 θ T型 表示的转置θ.作为样本大小n个趋于无穷大 n个 ( θ ^ - θ ) 收敛到 θ - 1 该逆矩阵精确地给出了矩阵不等式意义下渐近一致估计类的下界,即,
成人影片 θ ( θ ˜ ) θ - 1
对于任何渐近一致估计 θ ˜ 属于θ,其中 成人影片 θ 表示密度分布下的极限方差矩阵 (f) θ ( x个 ) .
另一方面,玻尔兹曼-香农熵
H(H) 0 ( 第页 ) = 第页 ( x个 ) 日志 第页 ( x个 ) x个
在统计物理、信息科学等各个领域发挥着基础性作用。这与MLE直接相关。让我们考虑一个具有密度函数的潜在分布 第页 ( x个 ) 交叉熵定义为
C类 0 ( 第页 , (f) θ ) = - 第页 ( x个 ) 日志 (f) θ ( x个 ) x个
我们注意到 C类 0 ( 第页 , (f) θ ) = E类 第页 { - ( θ ) } ,其中 E类 第页 表示对以下方面的期望 第页 ( x个 ) 因此,最大似然原理等于最小交叉熵原理。Kulback-Leibler(KL)散度定义为
D类 0 ( 第页 , q个 ) = 第页 ( x个 ) 日志 第页 ( x个 ) q个 ( x个 ) x个
它提供了一种信息距离第页q个。请注意 D类 0 ( 第页 , (f) θ ) = C类 0 ( 第页 , (f) θ ) - C类 0 ( 第页 , 第页 )
指数(类型)分布模型由密度形式定义
(f) θ ( x个 ) = 经验 { θ T型 t吨 ( x个 ) - ψ ( θ ) }
哪里 ψ ( θ ) 是由定义的累积量变换 日志 经验 { θ T型 t吨 ( x个 ) } x个 在这个族的假设下,MLE具有一些方便的性质,如最小充分性、无偏性、效率[1]. 特别是期望参数的MLE η = E类 θ { t吨 ( X(X) ) } 由明确给出
η ^ 0 = 1 n个 = 1 n个 t吨 ( x个 )
它与正则参数的二元关系有关θ和期望参数η[2,]. 因此,MLE满足这样一个优秀的特性,它与对数函数和指数函数有关,如(2)和(8).
MLE在统计学中得到了广泛的应用,其中的属性在理论讨论中得到了支持,例如[4]. 然而,当基础分布不属于模型时,MLE具有一些不适当的属性 { (f) θ ( x个 ) : θ Θ } 统计模型只是对Fisher指出的真实分布的模拟[1]. 该模型仅用作工作模型,在大多数实际情况下是错误的。在这种情况下,由于模型的不确定性,MLE没有显示出适当的性能。在本文中,我们探索了比MLE更具选择性的估计方法。

2.功率发散

观测值的对数变换在数据分析中被广泛应用。另一方面,根据
t吨 β ( x个 ) = x个 β - 1 β
通常提供更灵活的性能,以获得良好的正态分布近似值[5]. 与此转换类似,功率交叉熵定义为
C类 β ( 第页 , q个 ) = - 第页 ( x个 ) q个 ( x个 ) β - 1 β x个 + q个 ( x个 ) β + 1 β + 1 x个
哪里β是一个正参数。因此,它是由密度的幂变换来定义的。如果我们以β到0,然后 C类 β ( 第页 , q个 ) 收敛到 C类 0 ( 第页 , q个 ) ,中给出(6)。事实上,功率参数β不是固定的,所以不同β给出了功率熵的不同行为。对角功率熵定义为
H(H) β ( 第页 ) = ( β + 1 ) 第页 ( x个 ) - 第页 ( x个 ) β + 1 β ( β + 1 ) x个
这是通过获取 C类 β 对角线。实际上,这相当于Tsallisq个-熵与关系 β = q个 - 1 .
{ x个 1 , , x个 n个 } 是未知密度函数的随机样本 第页 ( x个 ) 然后,我们通过以下公式定义经验平均功率似然
β ( θ ) = 1 n个 = 1 n个 (f) θ ( x个 ) β - 1 β - κ β ( θ )
哪里 κ β ( θ ) = (f) θ ( x个 ) β + 1 x个 / ( β + 1 ) 。请参阅[6,7,8,9]用于统计应用。相应地 β ( θ ) 等于 C类 β ( 第页 , (f) θ ) 通常,交叉熵和对角熵的关系导致不等式 C类 β ( 第页 , q个 ) C类 β ( 第页 , 第页 ) ,从中我们定义功率发散
D类 β ( 第页 , q个 ) = C类 β ( 第页 , q个 ) - C类 β ( 第页 , 第页 )
我们扩展了定义在所有密度函数空间上的功率熵和散度,这些密度函数并不总是假设具有总质量。特别是,这种扩展对于提出增压方法很有用[10,11,12,13,14,15,16].
这种推导可以通过生成器函数进行扩展U型.假设 U型 ( t吨 ) 严格递增且凸。Fencel对偶讨论导致了一个共轭凸函数 U型 ( t吨 ) 由定义
U型 * ( ) = 最大值 t吨 R(右) { t吨 - U型 ( t吨 ) }
减少到 U型 * ( ) = ξ ( ) - U型 ( ξ ( ) ) ,其中 ξ ( ) 是推导的逆函数 U型 ˙ 属于U型.然后,U型-交叉熵定义为
C类 U型 ( μ , ν ) = - μ ( x个 ) ξ ( ν ( x个 ) ) x个 + U型 ( ξ ( ν ( x个 ) ) ) x个
类似地U型-散度定义为
D类 U型 ( μ , ν ) = { U型 * ( μ ( x个 ) ) + U型 ( ξ ( ν ( x个 ) ) ) - μ ( x个 ) ξ ( ν ( x个 ) ) } x个
我们注意到 D类 U型 ( μ , ν ) = C类 U型 ( μ , ν ) - C类 U型 ( μ , μ ) 根据的定义 U型 * 英寸(10)我们看到(11)总是非负的。功率发散是一个例子U型-固定散度
U型 β ( t吨 ) = 1 β + 1 ( 1 + β t吨 ) β + 1 β
功率发散可以定义为 M(M) 作为
D类 β ( μ , ν ) = μ ( x个 ) μ ( x个 ) β - ν ( x个 ) β β + ν ( x个 ) β + 1 - μ ( x个 ) β + 1 β + 1 x个
对于μν属于 M(M) [17]. 因此 U型 β ( t吨 ) 严格递增且凸,这意味着(12)为非负。
为了探索这一点,似乎只需限制 D类 β 然而,我们注意到,出于统计考虑,这一限制是无效的。我们讨论射影空间的限制如下。修复两个函数μν在里面 M(M) 我们这么说μν如果存在正标量,则投影等价λ这样的话
ν ( x个 ) = λ μ ( x个 ) ( . e(电子) . x个 )
因此,我们写道 ν μ 类似地,我们称之为分歧D类定义于 M(M) 投影不变量if for all λ > 0 , κ > 0
D类 ( λ μ , κ ν ) = D类 ( μ , ν )
我们可以导出功率发散的一个变量
Δ β ( μ , ν ) = 1 β ( β + 1 ) 日志 μ ( x个 ) β + 1 x个 - 1 β 日志 μ ( x个 ) ν ( x个 ) β x个 + 1 β + 1 日志 ν ( x个 ) β + 1 x个
请参见附录1用于推导。我们立即观察到 Δ β 满足(13)或投影不变性。此后,我们致电 Δ β 射影功率发散。这样,对于 第页 ( x个 ) = μ ( x个 ) / μ ( x个 ) x个 q个 ( x个 ) = ν ( x个 ) / ν ( x个 ) x个 ,可以得出
Δ β ( 第页 , q个 ) = Δ β ( μ , ν )
如果我们取特定值β,然后
Δ β = 1 ( μ , ν ) = 1 2 日志 μ ( x个 ) 2 x个 ν ( x个 ) 2 x个 μ ( x个 ) ν ( x个 ) x个 2
β 0 Δ β ( μ , ν ) = D类 0 μ μ ( x个 ) x个 , ν ν ( x个 ) x个
哪里 D类 0 只不过是KL散度(7)。我们观察到射影幂散度满足信息可加性。事实上,如果我们写第页q个作为 第页 ( x个 1 , x个 2 ) = 第页 1 ( x个 1 ) 第页 2 ( x个 2 ) q个 ( x个 1 , x个 2 ) = q个 1 ( x个 1 ) q个 2 ( x个 2 ) ,然后
Δ β ( 第页 , q个 ) = Δ β ( 第页 1 , q个 1 ) + Δ β ( 第页 2 , q个 2 )
这意味着信息的可加性。我们注意到,原始功率发散不满足这一特性 D类 β 此外,我们知道 Δ β 在下文中与毕达哥拉斯身份相关。
提议1
假设存在三个不同的点 第页 , q个 第页在里面 M(M) 令人满意的
Δ β ( 第页 , 第页 ) = Δ β ( 第页 , q个 ) + Δ β ( q个 , 第页 )
定义路径 { 第页 t吨 } 0 t吨 1 连接第页具有q个和一条路 { 第页 } 0 1 连接第页具有q个作为
第页 t吨 ( x个 ) = ( 1 - t吨 ) 第页 ( x个 ) + t吨 q个 ( x个 ) , { 第页 ( x个 ) } β = ( 1 - ) { 第页 ( x个 ) } β + { q个 ( x个 ) } β
然后
Δ β ( 第页 t吨 , 第页 ) = Δ β ( 第页 t吨 , q个 ) + Δ β ( q个 , 第页 )
为所有人保留 t吨 ( 0 < t吨 < 1 ) 以及所有 ( 0 < < 1 ) .
证明见附录2。此Pytahgorean类型标识也满足 D类 β [16].

3.最小功率发散法

在上一节中,我们介绍了一种通过最小化所讨论的投影功率发散来定义的统计方法。根据的定义 Δ β 引入交叉投影功率熵
Γ β ( μ , ν ) = - 1 β 日志 μ ( x个 ) ν ( x个 ) β x个 + c(c) β ( θ )
哪里 c(c) β ( θ ) = ( β + 1 ) - 1 日志 { (f) θ ( x个 ) β + 1 x个 } 我们看到了 Δ β ( μ , ν ) = Γ β ( μ , ν ) - Γ β ( μ , μ ) 因此,这种分解导致基于给定数据集的经验模拟 { x个 1 , , x个 n个 }
L(左) β ( θ ) = 1 β 日志 1 n个 = 1 n个 (f) θ ( x个 ) β - c(c) β ( θ )
我们称之为指数的平均幂似然β因此 L(左) β ( θ ) 关于未知密度函数 第页 ( x个 ) 等于 Γ β ( 第页 , (f) θ ) 。的限制β0导致 L(左) β ( θ ) 收敛到 0 ( θ ) .假设 { x个 1 , , x个 n个 } 是来自的随机样本吗 (f) θ ( x个 ) 然后,强大的大数定律得出
L(左) β ( θ ) - Γ ( (f) θ , (f) θ )
作为n个增加到无穷大。根据与射影幂散度相关的性质,可以得出如下结论 Γ ( (f) θ , (f) θ ) Γ ( (f) θ , (f) θ ) ,这意味着 θ = argmin(最小值) θ Θ Γ ( (f) θ , (f) θ ) 因此,我们得出如下结论: θ ^ β = argmin(最小值) θ Θ L(左) β ( θ ) 收敛到θ几乎可以肯定。该证明与Wald中的MLE类似[18]. 一般来说,任何最小散度估计都满足渐近意义下的强相合性。
估计员 θ ^ β 与估算函数相关,
β ( x个 , θ ) = (f) θ ( x个 ) β ( x个 , θ ) - θ c(c) β ( θ )
哪里 ( x个 , θ ) 是得分向量, ( / θ ) 日志 (f) θ ( x个 ) 我们观察到,估计函数在以下意义上是无偏的 E类 θ { β ( x个 , θ ) } = 0 。这是因为
E类 θ { β ( x个 , θ ) } = (f) θ ( x个 ) β + 1 ( x个 , θ ) x个 - (f) θ ( x个 ) β + 1 x个 θ c(c) β ( θ ) = 0
因此,估算公式如下所示
S公司 β ( θ ) = 1 n个 = 1 n个 β ( x个 , θ ) = 0
我们可以看到 L(左) β ( θ ) 与…成比例 S公司 β ( θ ) 作为
θ L(左) β ( θ ) = ( 1 n个 = 1 n个 (f) θ ( x个 ) β ) - 1 S公司 β ( θ )
因此,估计函数(17)精确地导出了估计量 θ ^ β .
因此,我们得到了以下渐近正态性
n个 ( θ ^ β - θ ) D类 N个 ( 0 , 成人影片 β ( θ ) )
哪里 D类 表示法律上的收敛,以及 N个 ( μ , V(V) ) 表示具有平均向量的正态分布μ和方差矩阵V(V)这里,极限方差矩阵是
成人影片 β ( θ ) = E类 β ( x个 , θ ) θ - T型 变量 ( β ( x个 , θ ) ) E类 β ( x个 , θ ) θ - 1
不平等(4)暗示 成人影片 β ( θ ) θ - 1 对于任何β,这意味着任何估计值 θ ^ β 不是渐近有效的,其中 θ 表示中定义的Fisher信息矩阵()。事实上,估计器 θ ^ β 只有在以下情况下才有效 β = 0 ,减少为MLE。因此,除了类中的最大似然估计外,没有最优估计 { θ ^ β } β 0 就渐近效率而言。

3.1. 超级稳健

我们想调查估计器的影响 θ ^ β 针对异常值。我们以概率的方式考虑异常值。观察 x个 o个 如果 (f) θ ( x个 o个 ) 非常小。让我们仔细看看估算公式(17)。然后我们观察到β是,越小 β ( x个 o个 , θ ) 对于所有异常值 x个 o个 .估计器 θ ^ β 解为
θ ^ β = argsolve(argsolve) θ Θ { = 1 n个 β ( x个 , θ ) = 0 }
这意味着,对于一个足够大的β,由于积分的值,估计方程对数据集中污染的离群值几乎没有影响 (f) θ β 几乎不受异常值的影响。从这个意义上说, θ ^ β 对于这种情况是稳健的β[19]. 从经验的观点来看,我们知道修复 β 0 . 1 在这种情况下 (f) θ ( x个 ) 在中绝对连续 R(右) 第页 我们看到了 | x个 | | β ( x个 , θ ) | = 0 这与最优稳健方法(cf[20]). 考虑一个ϵ-污染模型
(f) θ ϵ ( x个 ) = ( 1 - ϵ ) (f) θ ( x个 ) + ϵ δ ( x个 )
在这种情况下, δ ( x个 ) 是离群值的密度,偏离了假定的密度 (f) θ ( x个 ) 具有很大的程度。这样假设似乎是合理的 (f) θ ( x个 ) δ ( x个 ) x个 0 因此,如果真密度函数 第页 ( x个 ) 等于 (f) θ , ϵ ( x个 ) ,然后 θ ^ β 成为一致估计量θ为所有人 ϵ , 0 ϵ < 1 在这个意义上,我们说 θ ^ β 满足超鲁棒性。另一方面,平均幂似然函数 β ( θ ) 如中所示(9)与估计函数关联
(f) θ ( x个 ) β ( x个 , θ ) - θ κ β ( θ )
它是无偏的,但相应的估计量不满足这种超鲁棒性。
让我们考虑一个多元正态模型 N个 ( μ , V(V) ) 带平均向量μ和方差矩阵V(V)其中最小投影幂散度法(16)适用于估算μV(V)如下所示:
( μ ^ β , V(V) ^ β ) = argmax(最大值) ( μ , V(V) ) R(右) 第页 × S公司 L(左) β ( μ , V(V) )
哪里 S公司 表示所有对称正定矩阵的空间。
注意到投影不变性,我们得到
L(左) β ( μ , V(V) ) = 1 β 日志 [ 1 n个 = 1 n个 经验 { - β 2 ( x个 - μ ) T型 V(V) - 1 ( x个 - μ ) } ] - 1 β + 1 日志 det(探测) ( V(V) β + 1 )
其中估计方程给出了加权平均值和方差
μ = = 1 n个 w个 ( x个 , μ , V(V) ) β x个 = 1 n个 w个 ( x个 , μ , V(V) ) β ,
V(V) = ( β + 1 ) = 1 n个 w个 ( x个 , μ , V(V) ) β ( x个 - μ ) ( x个 - μ ) T型 = 1 n个 w个 ( x个 , μ , V(V) ) β
哪里 w个 ( x个 , μ , V(V) ) 是由定义的权重函数 经验 { - 1 2 ( x个 - μ ) T型 V(V) - 1 ( x个 - μ ) } 虽然我们不知道显式解,但可以提出一种自然迭代算法,即(19)和(20)的左手边,例如 ( μ t吨 + 1 , V(V) t吨 + 1 ) 都是通过插入更新的 ( μ t吨 , V(V) t吨 ) 在(19)和(20)的右侧。显然,对于估计员来说 ( μ ^ β , V(V) ^ β ) 具有 β = 0 或者MLE,我们不需要迭代步骤,只需要样本均值向量和样本方差矩阵作为精确解。

3.2. 本地学习

我们讨论了一个超越稳健性的统计概念。自从表达式(16)不便于研究平均期望幂似然函数的行为,我们重点关注
β ( θ ) = 1 β (f) θ ( x个 ) β 第页 ( x个 ) x个 - 1
作为核心术语,其中 第页 ( x个 ) 是真实密度函数,即生成数据集的基础分布。我们认为K(K)混合模型,而 第页 ( x个 ) 建模为ϵ-污染密度函数 (f) θ , ϵ ( x个 ) 在上一节中。因此, 第页 ( x个 ) 由编写K(K)不同密度函数 第页 k个 ( x个 ) 如下所示:
第页 ( x个 ) = π 1 第页 1 ( x个 ) + + π K(K) 第页 K(K) ( x个 )
哪里 π k个 表示混合比。我们注意到,除非 第页 k个 ( x个 ) 已指定。事实上,在这种情况下 π 1 = 1 第页 1 ( x个 ) 是任意的意味着对 第页 ( x个 ) 然而,我们讨论 β ( θ ) 并发现
β ( μ , V(V) ) = 1 β k个 = 1 K(K) π k个 { ( 2 π ) 第页 det(探测) ( V(V) ) } - β 2 经验 { - β 2 ( x个 - μ ) T型 V(V) - 1 ( x个 - μ ) } 第页 k个 ( x个 ) x个 - 1
我们确认
0 ( μ , V(V) ) = - 1 2 { k个 = 1 K(K) π k个 ( x个 - μ ) T型 V(V) - 1 ( x个 - μ ) 第页 k个 ( x个 ) x个 + 日志 det(探测) ( V(V) ) }
取极限β到0。值得注意的是 0 ( μ , V(V) ) 具有全局最大化 ( μ ^ , V(V) ^ ) 这是关于的一对均值向量和方差矩阵 第页 ( x个 ) 因为我们能写字
0 ( μ , V(V) ) = - 1 2 ( μ - μ ^ ) V(V) - 1 ( μ - μ ^ ) + 追踪 ( V(V) ^ V(V) - 1 ) + 日志 det(探测) ( V(V) )
这表明了最大似然法的局限性。MLE无法更改 N个 ( μ ^ , V(V) ^ ) 作为估计解,即使真密度函数在(21)中是任意的。另一方面,如果β变大,则图形 β ( μ , V(V) ) 根据 第页 ( x个 ) 在(21)中。例如,我们假设
第页 ( x个 ) = π 1 ( x个 , μ 1 , V(V) 1 ) + + π K(K) ( x个 , μ K(K) , V(V) K(K) )
哪里 ( x个 , μ k个 , V(V) k个 ) 是正态密度函数 N个 ( μ k个 , V(V) k个 ) .然后,
β ( μ , V(V) ) = 1 β k个 = 1 K(K) π k个 { β - 第页 ( 2 π ) 第页 det(探测) ( V(V) ) } 1 - β 2 x个 , μ , β - 1 V(V) ( x个 , μ k个 , V(V) k个 ) x个 - 1
在这里,我们看到一个公式
( x个 , μ , V(V) ) ( x个 , μ * , V(V) * ) x个 = ( μ , μ * , V(V) + V(V) * )
如中所示附录3,从中我们可以得到
β ( μ , V(V) ) = 1 β β - 第页 { ( 2 π ) 第页 det(探测) ( V(V) ) } 1 - β 2 k个 = 1 K(K) π k个 μ , μ k个 , β - 1 V(V) + V(V) k个 - 1
特别是,当 β = 1 ,
1 ( μ , V(V) ) = k个 = 1 K(K) π k个 μ , μ k个 , V(V) + V(V) k个 - 1
这意味着 1 ( μ , O(运行) ) = 第页 ( μ ) - 1 ,其中O(运行)是一个零矩阵,并且 第页 ( · ) 定义见(23)。如果正常混合物模型K(K)模式, 1 ( μ , V(V) ) 有相同的K(K)足够小的模式 det(探测) V(V) 因此,预期 β ( μ , V(V) ) 用一个大β根据真实密度函数自适应地进行行为。这表明,如果真密度函数具有很大程度的模型不确定性,则最小投影幂散度法可以改善MLE的弱点。例如,这样的自适应选择β在主成分分析(PCA)中进行了讨论,这使我们能够提供解释性分析,而不是传统的PCA。
考虑一个提取主成分的问题,其中数据分布具有多模态密度函数,如(21)所述。然后我们希望搜索主向量的所有集合 V(V) k个 具有 k个 = 1 , , K(K) .最小投影幂散度法可以适当地提供PCA来搜索主向量 V(V) k个 在中心 μ k个 分别用于 k个 = 1 , , K(K) 首先,我们确定第一个起点,比如 ( μ ( 1 ) , V(V) ( 1 ) ) 其中我们使用了迭代重加权算法(19)和(20),从 ( μ ( 1 ) , V(V) ( 1 ) ) ,因此我们得到了第一个估计量 ( μ ^ ( 1 ) , V(V) ^ ( 1 ) ) .然后是估计器 V(V) ^ ( 1 ) 使用中心进行第一次PCA μ ^ ( 1 ) 采用标准方法。接下来,我们更新第二个起点 ( μ ( 2 ) , V(V) ( 2 ) ) 远离第一个估计器 ( μ ^ ( 1 ) , V(V) ^ ( 1 ) ) 通过基于权重函数的启发式过程 w个 ( x个 , μ , V(V) ) (请参见[22]详细讨论)。从开始 ( μ ( 2 ) , V(V) ( 2 ) ) ,相同的算法(19)和(20)导致第二个估计量 ( μ ^ ( 2 ) , V(V) ^ ( 2 ) ) 与中心的第二个PCA V(V) ^ ( 2 ) 通过这种方式,我们可以通过适当确定的停止规则,使这个顺序过程来探索多模态结构。

4.结束语

我们关注的是,在模型不确定性下,似然方法的最优性是脆弱的。当我们获得的数据集通常来自观察性研究而非纯粹的随机实验研究时,这种弱点在实践中经常出现。然而,似然法的实用性被认为是统计学中最优秀的方法。我们注意到,最小投影幂发散方法通过取指数的极限而简化为MLEβ到0,因为它有一个自由度β作为方法的选择。数据自适应选择β可以通过交叉验证方法实现。然而,为了更快的计算,需要适当的模型选择标准。
最近提出了基于机器学习范式的模式识别新方法[23,24,25]. 这些方法直接关系到计算学习理论中概率近似正确(PAC)学习框架中的真实分布。我们需要将此理论用于最小投影功率发散法。在统计物理学中,从非平衡态、混沌现象、无标度网络和经济物理学的角度来看,Tsallis熵有了显著的发展。我们应该从统计角度探讨这些发展。

致谢

我们感谢匿名推荐人的有用意见和建议,尤其是关于提案1的意见和建议。

附录1

我们介绍了 Δ β 如下所示。将标量多重性的最小化考虑为
κ ( μ , ν ) = argmin(最小值) κ > 0 D类 β ( μ , κ ν )
梯度为
κ D类 β ( μ , κ ν ) = - κ β - 1 ν ( x个 ) β μ ( x个 ) x个 + κ β ν ( x个 ) β + 1 x个
这将导致 κ ( μ , ν ) = ν ( x个 ) β μ ( x个 ) x个 / ν ( x个 ) β + 1 x个 .因此
最小值 κ > 0 D类 β ( μ , κ ν ) = 1 β ( β + 1 ) { μ ( x个 ) β + 1 x个 - μ ( x个 ) ν ( x个 ) β x个 β + 1 ν ( x个 ) β + 1 x个 β }
取比率为
Δ β ( μ , ν ) = 1 β ( β + 1 ) 日志 μ ( x个 ) β + 1 x个 ν ( x个 ) β + 1 x个 β μ ( x个 ) ν ( x个 ) β x个 β + 1 = 1 β ( β + 1 ) 日志 μ ( x个 ) β + 1 x个 - 1 β 日志 μ ( x个 ) ν ( x个 ) β x个 + 1 β + 1 日志 ν ( x个 ) β + 1 x个
总结了 Δ β 英寸(13).

附录2

我们给出命题1的证明。
证明
根据定义,我们可以理解
Δ β ( 第页 , 第页 ) - { Δ β ( 第页 , q个 ) + Δ β ( q个 , 第页 ) } = 1 β 日志 第页 ( x个 ) q个 ( x个 ) β x个 q个 ( x个 ) 第页 ( x个 ) β x个 q个 ( x个 ) β + 1 x个 第页 ( x个 ) 第页 ( x个 ) β x个
这意味着
第页 ( x个 ) q个 ( x个 ) β x个 q个 ( x个 ) 第页 ( x个 ) β x个 q个 ( x个 ) β + 1 x个 第页 ( x个 ) 第页 ( x个 ) β x个 = 1
来自(14)。同样,
Δ β ( 第页 t吨 , 第页 ) - { Δ β ( 第页 t吨 , q个 ) + Δ β ( q个 , 第页 ) } = 1 β 日志 第页 t吨 ( x个 ) q个 ( x个 ) β x个 q个 ( x个 ) 第页 ( x个 ) β x个 q个 ( x个 ) β + 1 x个 第页 t吨 ( x个 ) 第页 ( x个 ) β x个
写为
1 β 日志 ( 1 - t吨 ) 第页 ( x个 ) q个 ( x个 ) β x个 q个 ( x个 ) β + 1 x个 + t吨 ( 1 - t吨 ) 第页 ( x个 ) 第页 ( x个 ) β x个 q个 ( x个 ) 第页 ( x个 ) β x个 + t吨
此外,(26)被重写为
1 β 日志 ( 1 - t吨 ) 第页 ( x个 ) q个 ( x个 ) β x个 q个 ( x个 ) β + 1 x个 + t吨 ( 1 - t吨 ) { ( 1 - ) 第页 ( x个 ) 第页 ( x个 ) β + 第页 ( x个 ) q个 ( x个 ) β } x个 { ( 1 - ) q个 ( x个 ) 第页 ( x个 ) β + q个 ( x个 ) β + 1 } x个 + t吨
哪个是
1 β 日志 ( 1 - t吨 ) 第页 ( x个 ) q个 ( x个 ) β x个 q个 ( x个 ) β + 1 x个 + t吨 ( 1 - t吨 ) 第页 ( x个 ) 第页 ( x个 ) β x个 q个 ( x个 ) 第页 ( x个 ) β x个 1 - + 第页 ( x个 ) q个 ( x个 ) β x个 第页 ( x个 ) 第页 ( x个 ) β x个 1 - + q个 ( x个 ) β + 1 x个 q个 ( x个 ) 第页 ( x个 ) β x个 + t吨
从(25)我们可以写
Ξ = 第页 ( x个 ) q个 ( x个 ) β x个 q个 ( x个 ) β + 1 x个 = 第页 ( x个 ) 第页 ( x个 ) β x个 q个 ( x个 ) 第页 ( x个 ) β x个
然后,我们得出结论
Δ β ( 第页 t吨 , 第页 ) - { Δ β ( 第页 t吨 , q个 ) + Δ β ( q个 , 第页 ) } = 1 β 日志 ( 1 - t吨 ) Ξ + t吨 ( 1 - t吨 ) Ξ ( 1 - ) + Ξ ( 1 - ) + Ξ + t吨
任何时候都会消失 , 0 < < 1 t吨 , 0 < t吨 < 1 这就完成了证明。  □

附录3

通过编写第页-将法向密度函数变为
( x个 , μ , V(V) ) = { ( 2 π ) 第页 det(探测) ( V(V) ) } - 1 2 经验 { - 1 2 ( x个 - μ ) T型 V(V) - 1 ( x个 - μ ) }
我们有公式
( x个 , μ , V(V) ) ( x个 , μ * , V(V) * ) x个 = ( μ , μ * , V(V) + V(V) * )
这个公式的证明是立竿见影的。事实上,(27)的左边是由
( 2 π ) 第页 { det(探测) ( V(V) ) det(探测) ( V(V) * ) } - 1 2 经验 { - 1 2 μ T型 V(V) - 1 μ - 1 2 μ * T型 V(V) * - 1 μ * } × 经验 { - 1 2 ( x个 - A类 - 1 b条 ) T型 A类 ( x个 - A类 - 1 b条 ) } x个
哪里
A类 = V(V) - 1 + V(V) * - 1 , b条 = V(V) - 1 μ + V(V) * - 1 μ *
因此,我们得到
{ ( 2 π ) 第页 det(探测) ( V(V) ) det(探测) ( V(V) * ) det(探测) ( V(V) - 1 + V(V) * - 1 ) } - 1 2 经验 { 1 2 b条 T型 A类 - 1 b条 - 1 2 μ T型 V(V) - 1 μ - 1 2 μ * T型 V(V) * - 1 μ * }
注意到
{ ( 2 π ) 第页 det(探测) ( V(V) ) det(探测) ( V(V) * ) det(探测) ( V(V) - 1 + V(V) * - 1 ) } - 1 2 = { ( 2 π ) 第页 det(探测) ( V(V) + V(V) * ) } - 1 2
经验 { 1 2 b条 T型 A类 - 1 b条 - 1 2 μ T型 V(V) - 1 μ - 1 2 μ * T型 V(V) * - 1 μ * } = 经验 { 1 2 μ T型 V(V) - 1 ( V(V) - 1 + V(V) * - 1 ) - 1 { - ( V(V) - 1 + V(V) * - 1 ) V(V) } V(V) - 1 μ + 1 2 μ * T型 V(V) * - 1 ( V(V) - 1 + V(V) * - 1 ) - 1 { - ( V(V) - 1 + V(V) * - 1 ) V(V) * } V(V) * - 1 μ * - 1 2 μ T型 V(V) - 1 ( V(V) - 1 + V(V) * - 1 ) - 1 V(V) * - 1 μ * }
可以得出:
经验 { - 1 2 ( μ - μ * ) T型 ( V(V) + V(V) * ) - 1 ( μ - μ * ) }
因为 V(V) - 1 ( V(V) - 1 + V(V) * - 1 ) - 1 V(V) * - 1 = ( V(V) + V(V) * ) - 1 因此,(28)和(29)表示(24)。  □

工具书类

  1. Fisher,R.A.论理论统计学的数学基础。菲洛斯。事务处理。罗伊。Soc.伦敦系列。A类 1922,222, 309–368. [谷歌学者] [交叉参考]
  2. Amari,S.统计学讲稿。统计学中的微分几何方法; 施普林格出版社:美国纽约州纽约市,1985年;第28卷。[谷歌学者]
  3. 阿玛里,S。;Nagaoka,H.《数学专著翻译》。信息几何方法; 牛津大学出版社:英国牛津,2000年;第191卷。[谷歌学者]
  4. 阿卡希拉,M;Takeuchi,K.《统计学讲义》。统计估计的渐近效率:概念和高阶渐近效率; 斯普林格·弗拉格:美国纽约州纽约市,1981年;第7卷。[谷歌学者]
  5. 盒子,G.E.P。;Cox,D.R.《转型分析》。J.R.统计。Soc.B公司 1964,26, 211–252. [谷歌学者]
  6. 藤泽,H。;Eguchi,S.正态混合模型中的稳健估计。J.统计计划推断 2006,136, 3989–4011. [谷歌学者] [交叉参考]
  7. 米纳米。;Eguchi,S.通过β-发散实现鲁棒盲源分离。神经计算。 2002,14, 1859–1886. [谷歌学者]
  8. 新罕布什尔州莫拉。;米纳米。;Eguchi,S.用最小β-散度方法探索混合ICA模型的潜在结构。神经计算。 2006,18, 166–190. [谷歌学者] [交叉参考]
  9. Scott,D.W.最小综合平方误差参数统计建模。技术计量学 2001,43, 274–285. [谷歌学者] [交叉参考]
  10. Eguchi,S。;Copas,J.B.一类逻辑型判别函数。生物特征 2002,89, 1–22. [谷歌学者] [交叉参考]
  11. Kanamori,T。;Takenouchi,T。;Eguchi,S。;Murata,N.强大的增压损失函数。神经计算。 2007,19, 2183–2244. [谷歌学者] [交叉参考] [公共医学]
  12. 黎巴嫩,G。;Lafferty,J.Boosting和指数模型的最大似然。神经信息处理系统研究进展; 2002; 第14卷,第447-454页。麻省理工学院出版社:美国纽约州纽约市[谷歌学者]
  13. Murata,N。;Takenouchi,T。;Kanamori,T。;Eguchi,S.U-Boost和Bregman分歧的信息几何。神经计算。 2004,16, 1437–1481. [谷歌学者] [交叉参考] [公共医学]
  14. Takenouchi,T。;Eguchi,S.通过添加原始错误率来增强AdaBoost。神经计算。 2004,16, 767–787. [谷歌学者] [交叉参考] [公共医学]
  15. Takenouchi,T。;Eguchi,S.等人。;Murata,N。;Kanamori,T.通过错误标记模型解决多类问题的鲁棒提升算法。神经计算。 2008,20,1596年至1630年。[谷歌学者] [交叉参考] [公共医学]
  16. Eguchi,S.信息几何与统计模式识别。Sugaku博览会。 2006,19, 197–216. [谷歌学者]
  17. 巴苏,A。;I.R.哈里斯。;霍尔特,N.L。;Jones,M.C.通过最小化密度功率发散,实现稳健高效的估计。生物特征 1998,85, 549–559. [谷歌学者] [交叉参考]
  18. Wald,A.关于最大似然估计一致性的注记。安。数学。统计师。 1949,20, 595–601. [谷歌学者] [交叉参考]
  19. 藤泽,H。;Eguchi,S.对严重污染有小偏差的稳健参数估计。《多元分析杂志》。 2008,99, 2053–2081. [谷歌学者] [交叉参考]
  20. F.R.汉佩尔。;Ronchetti,E.M。;罗塞乌,P.J。;西澳州斯塔尔。稳健统计:基于影响函数的方法; 威利:美国纽约州纽约市,2005年。[谷歌学者]
  21. Eguchi,S。;Copas,J.A.局部似然方法和近参数渐近类。J.R.统计。Soc.B公司 1998,60, 709–724. [谷歌学者] [交叉参考]
  22. 新罕布什尔州莫拉。;北苏丹。;米纳米。;Eguchi,S.使用最小β-散度方法稳健提取局部结构。神经网络。 2010,23, 226–238. [谷歌学者] [交叉参考] [公共医学]
  23. 弗里德曼,J.H。;哈斯蒂,T。;Tibshirani,R.加性逻辑回归:增长的统计观点。统计年刊 2000,28, 337–407. [谷歌学者] [交叉参考]
  24. 哈斯蒂,T。;Tibishirani,R。;J.弗里德曼。统计学习的要素; 施普林格:美国纽约州纽约市,2001年。[谷歌学者]
  25. 夏皮雷,R.E。;弗伦德,Y。;巴特利特,P。;Lee,W.S.提高投票率:投票方法有效性的新解释。Ann.Statist公司。 1998,26, 1651–1686. [谷歌学者] [交叉参考]

分享和引用

MDPI和ACS样式

Eguchi,S。;加藤,S。与幂函数相关的熵和散度及其统计应用。 2010,12, 262-274.https://doi.org/10.3390/e12020262

AMA风格

Eguchi S、Kato S。与幂函数相关的熵和散度及其统计应用。. 2010; 12(2):262-274.https://doi.org/10.3390/e12020262

芝加哥/图拉宾风格

Eguchi、Shinto和Shogo Kato。2010.“与幂函数相关的熵和散度及其统计应用”12,编号2:262-274。https://doi.org/10.3390/e12020262

文章指标

返回页首顶部