杂志的下一篇文章
光学计算层析成像中的融合熵算法
期刊上的上一篇文章
锂合成立方氮化硼高压高温V形区的热力学分析3N作为催化剂
 
 
订购文章重印
字体类型:
宋体 佐治亚州 宋体,Verdana
字体大小:
澳大利亚 澳大利亚 澳大利亚
行距:
列宽:
背景:
第条

具有密度差和密度比的距离估计的统计分析

通过
Takafumi Kanamori公司
1,*
杉山正树
2
1
名古屋大学,Furocho,Chikusaku,Nagoya 464-8603,Japan
2
东京理工大学,2-12-1 O-okayama,Meguro-ku,Tokyo 152-8552,Japan
*
信件应寄给的作者。
2014,16(2), 921-942;https://doi.org/10.3390/e16020921
收到的意见:2013年10月21日/修订日期:2014年1月27日/接受日期:2014年2月7日/发布日期:2014年2月17日

摘要

以下为:从样本中估计两个概率分布之间的差异是统计学和机器学习中的一项重要任务。主要有两类差异度量:基于密度差异的距离度量,例如L(左)第页-距离和基于密度比的散度度量,例如ϕ-分歧。这两个类的交集是L(左)1-距离测量,因此可以根据密度差或密度比进行估计。本文首先表明,在统计数据分析中广泛用于概率密度估计的Bregman分数允许我们直接估计密度差和密度比,而无需单独估计每个概率分布。然后,我们从理论上阐明了这些估计的稳健性,并给出了数值实验。

1.简介

在统计学和机器学习中,从样本中估计两个概率分布之间的差异已被广泛研究[1],因为差异估计在解决各种现实世界数据分析任务中很有用,包括协变量移位自适应[2,3],条件概率估计[4],异常值检测[5]和基于差异的双样本测试[6].

概率密度的差异测度主要有两类。一个是函数空间上的真实距离,例如L(左)-距离≥1,另一个是散度度量,如Kullback–Leibler散度和Pearson散度。通常,前一类中的距离度量可以用两个概率密度的差值表示,而后一类中则用两个几率密度的比值表示。因此,建立统计方法来估计密度差和密度比非常重要。

一种简单的估计密度差和密度比的方法包括两个步骤:第一步分别估计两个概率密度,然后在第二步计算它们的差值或比率。然而,这种两步方法在实践中并不可取,因为第一步中的密度估计是在不考虑第二步的差异或比率的情况下进行的。为了克服这个问题,作者[711]研究了在不单独建模每个概率分布的情况下,以半参数的方式估计密度差和密度比。

基于密度差的距离和基于密度比的发散的交集是L(左)1-因此,可以根据密度差或密度比来估计距离。在本文中,我们首先提出了一种基于Bregman分数估计密度差和密度比的新的直接方法[12]. 然后我们展示了密度差法L(左)1-距离估计比密度比方法更稳健。这一事实已经在[10]基于一个有点直观的论点:密度差总是有界的,而密度比可以是无界的。在本文中,我们通过对鲁棒性进行详细的理论分析,从理论上支持了这一主张。

我们的研究有一些相关的工作。机器学习社区对密度比估计进行了深入研究[4,7,8]. 如所示[6],密度比可用于估计ϕ-发散[13,14]. 然而,估计L(左)1-距离,它是ϕ-散度没有被研究,因为它不满足研究统计渐近性质所需的正则性条件。另一方面,在中提出了密度差的最小二乘估计[10],并对其鲁棒性进行了数值研究。本文不仅考虑了密度差的最小二乘估计,而且考虑了一般的得分估计,并从理论上研究了它们的鲁棒性。

本文的其余部分结构如下。在第2节中,我们描述了两种方法L(左)1-基于密度差和密度比的距离估计。在第3节中,我们介绍了在统计数据分析中广泛用于估计概率密度的Bregman分数。在第4节中,我们将Bregman评分应用于密度差和密度比的估计。在第5节中,我们介绍了一种稳健性度量,根据该度量,将在以下各节中分析所建议的估计量。在第6节中,我们考虑了不带尺度参数的统计模型(称为非尺度模型),并研究了密度差和密度比估计量的稳健性。在第7节中,我们考虑了具有尺度参数的统计模型(称为尺度模型),并表明使用尺度模型的估计被简化为使用非尺度模型的估算。然后,我们将非尺度模型的理论结果应用于尺度模型,并说明了尺度模型的鲁棒性。在第8节中,关于L(左)1-给出了距离估计。最后,我们在第9节中得出结论。

2.估算L(左)1-距离

第页(x个)和q个(x个)是两个概率密度。在本节中,我们介绍了两种估算差异测度的方法:基于密度差异的方法,第页q个以及基于密度比的方法,价格/数量.

2.1. L(左)1-距离作为密度差和密度比

密度差,第页q个,直接用于计算L(左)-两个概率密度之间的距离:

d日 ( 第页 , q个 ) = ( ¦Β | 第页 ( x个 ) q个 ( x个 ) | d日 x个 ) 1 / ,
哪里≥ 1. 另一方面,密度比,价格/数量,出现在ϕ-发散[13,14]定义为:
¦Β ϕ ( 第页 ( x个 ) q个 ( x个 ) ) q个 ( x个 ) d日 x个 ,
哪里ϕ是一个严格凸函数,因此ϕ(1) =0。这个ϕ-散度是非负的,只有当第页=q个持有。因此,可以将其视为第页q个.的类别ϕ-分歧包括许多重要的差异度量,如Kullback–Leibler分歧(ϕ(z(z)) =z(z)日志z(z)),皮尔逊距离(ϕ(z(z))=(1−z(z))2)和L(左)1-距离(ϕ(z(z)) =|1−z(z)|). The intersection of theϕ-散度和L(左)-距离是L(左)1-距离:
d日 1 ( 第页 , q个 ) = ¦Β | 第页 ( x个 ) q个 ( x个 ) | d日 x个 .

我们工作的目的是比较密度差法和密度比法的统计特性,以估计L(左)1-概率密度之间的距离第页q个定义于d日.用于估算L(左)1-距离,我们使用两组相同且独立分布(i.i.d.)的样本:

x个 1 , , x个 n个 ~ 第页 , 1 , , ~ q个 .
在密度差和密度比方法中,都使用了半参数统计模型,下文将对此进行解释。

2.2. 密度差法

两种概率密度的差异,(f)(x个) =第页(x个) –q个(x个),广泛应用于统计推断[10]. 密度差的参数统计模型(f)(x个)表示为:

差异 = { (f) ( x个 ; θ ) = (f) θ ( x个 ) | θ Θ k个 } ,
其中θk个k个-维参数空间。密度差模型,(f)(x;θ),可以取正值和负值,其积分应为零。注意,有无限多个自由度来指定概率密度,第页q个即使密度差(f)=第页q个已指定。因此,密度差模型被视为概率密度的半参数模型。

最近,一个来自Samples的密度差估计器(2)这不涉及两个概率密度的单独估计[10]. 一旦成为密度差估计器,差异得到,则L(左)1-距离可以立即估计为:

d日 1 ( 第页 , q个 ) = ¦Β | (f) ( x个 ) | d日 x个 ¦Β | (f) ^ ( x个 ) | d日 x个 .

这个L(左)1-距离在变量变化下具有不变性。更具体地说,让x个=ψ(z(z))成为上的一对一映射d日(f)ψ(z(z))是(f)(ψ(z(z)))|J型ψ(z(z))|,其中J型ψ是雅可比行列式ψ。对于(f)(x个) =第页(x个) –q个(x个),功能,(f)ψ(z(z)),是两者之间的密度差第页q个在中z(z)-坐标。然后,我们有:

¦Β | (f) ( x个 ) | d日 x个 = ¦Β | (f) ψ ( z(z) ) | d日 z(z) ,
由于概率密度的变量变化公式。当转换数据时,z(z),使用模型,(f)ψ(z(z))使用,而不是模型,(f)(x个),的L(左)1-中的距离z(z)-坐标的查找方法与L(左)1-中的距离x个-坐标。

请注意,此不变性不适用于一般距离度量。事实上,我们已经:

( d日 ( 第页 , q个 ) ) = ¦Β | (f) ( x个 ) | d日 x个 = ¦Β | (f) ψ ( z(z) ) | | J型 ψ ( z(z) ) | 1 d日 z(z)
用于一般距离测量。

2.3. 密度比法

两个概率密度的密度比,第页(x个)和q个(x个),定义为第页(x个) =第页(x个)/q个(x个)作为密度差在统计推断中被广泛应用[4]. 让:

比率 = { 第页 ( x个 ; θ ) = 第页 θ ( x个 ) | θ Θ k个 }
成为k个-密度比的维参数统计模型,第页(x个). 根据密度比的定义,函数,第页(x;θ),应为非负数。基于样本的密度比的各种估计(2)到目前为止,已经开发出不涉及两种概率密度的单独估计[7,8,11]. 一旦密度比估计器,比率得到,则L(左)1-之间的距离第页q个可以立即估计为:
d日 1 ( 第页 , q个 ) = ¦Β | 1 第页 ( x个 ) | q个 ( ) d日 ¦Β | 1 第页 ^ ( x个 ) | q个 ( ) d日 1 j个 = 1 | 1 第页 ^ ( j个 ) | .
L(左)1-距离估计器使用密度差,数值积分应替换为样本平均值,因为密度,q个(),未知。在密度比方法中,变量转换保持L(左)1-距离,以及密度差本身的估计。对于一对一映射=ψ(z(z)),让第页ψ(z(z))是第页(ψ(z(z)))以及概率密度,q个ψ(z(z)),是q个(ψ(z(z)))|J型ψ(z(z))|。然后,我们有:
d日 1 ( 第页 , q个 ) = ¦Β | 1 第页 ( ) | q个 ( ) d日 = ¦Β | 1 第页 ψ ( z(z) ) | q个 ψ ( z(z) ) d日 z(z) 1 j个 = 1 | 1 第页 ψ ( z(z) j个 ) | ,
哪里z(z)j个是转换后的样本,因此j个=ψ(z(z)j个). 在密度比方法中L(左)1-转换数据的距离不需要计算雅可比行列式,J型ψ.

3.Bregman得分

Bregman评分是对数似然函数的推广,在统计推断中得到了广泛应用[12,1518]. 在本节中,我们简要回顾了Bregman分数。请参见[12]了解详细信息。

对于函数(f)上的d日Bregman得分,S公司((f),),是一类满足不等式的实值函数:

S公司 ( (f) , ) S公司 ( (f) , (f) ) .
很明显,不平等变成了(f)=如果相等S公司((f),) =S公司((f),(f))导致(f)=,S公司((f),)被称为严格的Bregman分数。严格Bregman分数的最小化问题,S公司((f),),,分钟 S公司((f),),具有唯一的最优解决方案=(f).

让我们介绍一下Bregman分数的定义。对于函数,(f)定义在欧几里德空间上,d日,让G公司((f))是一个实值凸泛函。功能,G公司((f)),称为下面的势。的函数导数G公司((f))表示为G′(x;(f)),定义为满足等式的函数:

ε 0 G公司 ( (f) + ε 小时 ) G公司 ( (f) ) ε = ¦Β G公司 ( x个 ; (f) ) 小时 ( x个 ) λ ( d日 x个 )
对于任何功能,小时(x个),具有正则条件,其中λ(·)是基本度量。然后,布雷格曼得分,S公司((f),),用于函数(f),定义为:
S公司 ( (f) , ) = G公司 ( ) ¦Β G公司 ( x个 , ) ( (f) ( x个 ) ( x个 ) ) λ ( d日 x个 ) .
由于G公司((f)),我们有:
G公司 ( (f) ) G公司 ( ) ¦Β G公司 ( x个 , ) ( (f) ( x个 ) ( x个 ) ) λ ( d日 x个 ) 0 ,
这相当于不平等(6).让是在上定义的一组函数d日.如果是凸集和势G公司((f))是严格凸的,相关的Bregman分数很严格。

什么时候?G公司((f))表示为:

G公司 ( (f) ) = ¦Β U型 ( (f) ( x个 ) ) λ ( d日 x个 ) ,
具有凸可微函数U型: ℝ → ℝ, 相应的Bregman分数称为可分离的Bregman分数,如下所示:
S公司 ( (f) , ) = ¦Β { U型 ( ( x个 ) ) + U型 ( ( x个 ) ) (f) ( x个 ) ( x个 ) } λ ( d日 x个 ) .
由于可计算性,可分离的Bregman分数经常用于实际数据分析。

如果(f)是概率密度,Bregman分数表示为:

S公司 ( (f) , ) = ¦Β (f) ( x个 ) ( x个 , ) λ ( d日 x个 ) ,
哪里(x个,)由提供
( x个 , ) = G公司 ( x个 , ) G公司 ( ) + ¦Β G公司 ( , ) ( ) λ ( d日 ) .
功能,(x个,),被视为使用预测的损失为了一个结果,x个d日.形式的功能方程式(9)被称为适当的评分规则,其与Bregman评分的关系已被广泛调查[12,17,19]. 当静脉注射样品时,x个1x个n个从概率密度观察到,(f)概率模型上经验平均值的最小化问题,,,
最小值 1 n个 = 1 n个 ( x个 , ) ,
预计可以很好地估计概率密度,(f).

下面,让我们介绍一下Bregman的典型分数:

示例1(Kullback–莱布勒(KL)得分)。概率密度p的Kullback–Leibler(KL)分数(x个)和q(x个),定义为:

S公司 ( 第页 , q个 ) = ¦Β 第页 ( x个 ) 日志 q个 ( x个 ) d日 x个 ,
这是具有潜在函数的可分离Bregman分数:
G公司 ( 第页 ) = ¦Β 第页 ( x个 ) 日志 第页 ( x个 ) d日 x个 ,
即。,负熵。差异S(第页,q个)−S公司(第页,第页)称为KL散度[20]. KL分数通常是为概率密度定义的,但也可以扩展到非负函数。因此,KL分数适用于密度比的估算[8,11]. 然而,不可能直接使用KL分数来估计密度差异,因为它可以取负值。

示例2(密度-功率分数)。设α是正数,f和g是可以取正值和负值的函数。然后,使用基本度量λ计算密度幂分数(·)定义为:

S公司 ( (f) , ) = α ¦Β | ( x个 ) | 1 + α λ ( d日 x个 ) ( 1 + α ) ¦Β (f) ( x个 ) | ( x个 ) | α 1 ( x个 ) λ ( d日 x个 ) .
请参见[21,22]有关概率密度的密度幂分数的详细信息。密度功率分数的潜力如下所示:
G公司 ( (f) ) = ¦Β | (f) ( x个 ) | 1 + α dx公司 .
因此,密度幂分数是可分离的Bregman分数。让α为零,则密度幂分数之差(S公司(第页,q个) −S公司(第页,第页))/概率密度p和q的α趋向于KL散度。

示例3(伪球得分;γ-分数)。对于α> 0且g≠0,伪球得分[16]定义为:

S公司 ( (f) , ) = ¦Β (f) ( x个 ) | ( x个 ) | α 1 ( x个 ) λ ( d日 x个 ) ( ¦Β | ( x个 ) | 1 + α λ ( d日 x个 ) ) α / ( 1 + α ) .
这是由势函数得出的Bregman分数:
G公司 ( (f) ) = ( ¦Β | (f) ( x个 ) | 1 + α λ ( dx公司 ) ) 1 / ( 1 + α ) ,
这意味着伪球得分是不可分离的Bregman得分。对于概率密度p和q,伪球得分的单调变换,−对数(−S公司(第页,q个))称为γ分数[23],用于概率密度的鲁棒参数估计。在α的极限情况下0γ得分的差异,−对数(−S公司(p、 q个))+对数(−S公司(p、 第页)),恢复KL发散。注意,相应的势在函数集上不是严格凸的,但在概率密度集上是严格凸的。因此,等式S(p、 q个) =S公司(p、 第页)对于概率密度,p,q导致p=q、 而等式S(f、 克) =S公司(f、 (f))对于函数f和g,得出f和g是线性相关的。最后一个断言来自霍尔德不等式的平等条件。

当模型f(x;θ),包括刻度参数c,即f(x;θ) =cg公司(x;θ̄)参数θ====================================================================================================================================================================(c、 θ̄) ∈ Θk个 对于c和θ̄∈ Θk个−1,伪球得分不起作用。这是因为在具有尺度参数的统计模型上,势不是严格凸的,因此,当使用伪球得分时,尺度参数c是不可估计的。

上述示例中的密度幂分数和伪球分数包括非负参数,α.何时α是一个奇整数,分数中的绝对值操作符可以删除,这在计算上是有利的。为此,我们设置了参数,α,当Bregman分数用于估计密度差时,为正奇整数。

4.使用Bregman评分直接估计密度差异和密度比率

Bregman分数不仅适用于概率密度的估计,也适用于密度差和密度比的估计。在本节中,我们提出了密度差和密度比的估计量,并展示了它们的理论性质。

4.1. 密度差和密度比的估算

首先,让我们介绍一种基于Bregman分数直接估计密度差的方法。差异是统计模型(3)估计真实的密度差(f)(x个) =第页(x个) –q个(x个)定义在欧几里德空间上,d日让基础测量,λ(·),成为勒贝格指标。然后对于密度差模型,(f)θ差异Bregman得分方程式(8)表示为:

S公司 差异 ( (f) , (f) θ ) = ¦Β 第页 ( x个 ) ( x个 , (f) θ ) d日 x个 ¦Β q个 ( x个 ) ( x个 , (f) θ ) d日 x个 ,
哪里(x个,(f)θ)定义于方程式(10)这可以通过基于样本的经验平均值来近似(2)如下所示。δ是Diracδ函数是两个经验密度之间的差值,
(f) ˜ ( z(z) ) = 第页 ˜ ( z(z) ) q个 ˜ ( z(z) ) = 1 n个 = 1 n个 δ ( z(z) x个 ) 1 j个 = 1 δ ( z(z) j个 ) .
然后,我们有:
S公司 差异 ( (f) , (f) θ ) S公司 差异 ( (f) ˜ , (f) θ ) = 1 n个 = 1 n个 ( x个 , (f) θ ) 1 j个 = 1 ( j个 , (f) θ ) .
如果目标密度不同,(f),包含在模型中差异严格的Bregman分数的最小值,S公司差异(,(f)θ),关于(f)θ差异预计将产生良好的估计值(f).

接下来,我们使用Bregman分数来估计密度比第页(x个) =第页(x个)/q个(x个). 让我们定义q个(x个)作为Bregman分数的基本衡量标准。给定密度比模型,比率,第页,共页方程式(5)模型的Bregman分数,第页θ比率,表示为:

S公司 比率 ( 第页 , 第页 θ ) = G公司 ( 第页 θ ) ¦Β G公司 ( x个 , 第页 θ ) ( 第页 ( x个 ) 第页 θ ( x个 ) ) q个 ( x个 ) d日 x个 = G公司 ( 第页 θ ) ¦Β G公司 ( x个 , 第页 θ ) 第页 ( x个 ) d日 x个 + ¦Β G公司 ( x个 , 第页 θ ) 第页 θ ( x个 ) q个 ( x个 ) d日 x个 .
使用示例(2),我们可以估计分数,S公司比率(第页,第页θ),使用基本度量,q个,作为:
S公司 比率 ( 第页 , 第页 θ ) G公司 ( 第页 θ ) 1 n个 = 1 n个 G公司 ( x个 , 第页 θ ) + 1 j个 = 1 G公司 ( j个 , 第页 θ ) 第页 θ ( j个 ) .
例如,密度比的密度幂分数如下所示:
S公司 比率 ( 第页 , 第页 θ ) = ( 1 + α ) ¦Β 第页 θ ( x个 ) α 第页 ( x个 ) q个 ( x个 ) d日 x个 + α ¦Β 第页 θ ( x个 ) 1 + α q个 ( x个 ) d日 x个 = ( 1 + α ) ¦Β 第页 θ ( x个 ) α 第页 ( x个 ) d日 x个 + α ¦Β 第页 θ ( x个 ) 1 + α q个 ( x个 ) d日 x个 ,
其中平等第页(x个)q个(x个)=第页(x个)使用。我们还可以获得伪球得分的类似近似值。

4.2. 估计量的不变性

我们证明了由密度幂分数和伪球分数得到的估计量具有仿射不变性。假设样本(2)分布在d日-维度欧几里得空间,并且让我们考虑样本的仿射变换,使得x个=Ax′轴+b条j个=j个+b条,其中一个是可逆矩阵,并且b条是一个向量。(f)A、 b条(x个)是转换后的密度差|det(探测)A|f(音频)(Ax′轴+b条)和A、 b条是从样本中定义的经验分布的差异,x′,y′j个.让S公司差异((f),)是密度幂分数或具有正奇整数的伪球分数,α,用于估计密度差。然后,我们有:

S公司 差异 ( (f) ˜ 一个 , b条 , (f) 一个 , b条 ) = | det(探测) 一个 | α S公司 差异 ( (f) ˜ , (f) ) .
(f) ^ ( (f) 一个 , b条 ^ )是基于样本的估计量{x个}和{j个} ({x′}和{y′j个}). 然后,上述等式导致 ( (f) ^ ) 一个 , b条 = (f) 一个 , b条 ^这意味着估计量在数据的仿射变换下是不变的。此外,平等(4)导致:
¦Β | (f) ^ ( x个 ) | d日 x个 = ¦Β | ( (f) ^ ) 一个 , b条 ( x个 ) | d日 x个 = ¦Β | (f) 一个 , b条 ^ ( x个 ) | d日 x个 .
这意味着数据的仿射变换不会影响估计值L(左)1-距离。基于密度幂分数和伪球分数的密度比估计器具有相同的不变性。

5.稳健性度量

估计器的稳健性是实践中的一个重要特征,因为通常真实世界的数据包含可能会破坏估计器可靠性的异常值。在本节中,我们介绍了估计量对异常值的鲁棒性度量。

为了定义鲁棒性度量,让我们简要介绍密度差估计设置中的影响函数。第页(x个)和q个(x个)是样本中每个数据集的真实概率密度(2)假设这些概率被转换为:

第页 ε ( x个 ) = ( 1 ε ) 第页 ( x个 ) + ε δ ( x个 z(z) 第页 ) , q个 ε ( x个 ) = ( 1 ε ) q个 ( x个 ) + ε δ ( x个 z(z) 第页 ) ,
通过异常值,z(z)第页z(z)q个分别为。一个小正数,ε,表示异常值的比率。θ*是密度差的真实模型参数(f)(x个) =第页(x个) –q个(x个),,(f)(x个) =(f)(x;θ*) ∈差异。让我们定义参数,θε作为问题的最小解决方案,
最小值 θ Θ S公司 差异 ( 第页 ε q个 ε , (f) θ ) .
显然,θ0=θ*持有。对于使用Bregman分数的密度差估计器,S公司差异((f),(f)θ),使用模型,差异,影响函数定义为:
国际单项体育联合会 差异 ( θ * ; z(z) 第页 , z(z) q个 ) = ε 0 θ ε θ * ε .
直观地,估计参数分布在θ*+ε ·国际单项体育联合会差异(θ*;z(z)第页,z(z)q个)在存在异常值的情况下,z(z)第页z(z)q个,污染率小,ε密度比的影响函数以相同的方式定义,并表示为IF比率(θ*;z(z)第页,z(z)q个).

影响函数提供了估计量的几个稳健性度量。例如,定义为sup的粗差敏感性z(z)第页,zq个国际单项体育联合会差异(θ*;z(z)第页,z(z)q个)‖,其中‖·‖是欧几里德规范。一致最小化参数的粗差敏感性的估计器,θ,被称为最B(偏差)鲁棒估计器。最稳健的B估计量最大限度地减少了异常值的最坏情况影响。对于一维正态分布,中值估计对于平均参数的估计是最具B鲁棒性的[24].

在本文中,我们考虑另一种稳健性度量,称为再沉积特性.满足以下再衰减特性的估计器,

z(z) 第页 , z(z) q个 国际单项体育联合会 差异 ( θ ; z(z) 第页 , z(z) q个 ) = 0 对于 全部的 θ Θ ,
称为再下降估计器[2326]. 由于可以忽略极端异常值的影响,因此重场景特性比稳定推理更可取。此外,在机器学习文献中,以鲁棒支持向量机的名义,提出了具有重降阶特性的分类问题学习算法[2729]. 注意,最稳健的B-估计量不一定是重降估计量,并且反之亦然众所周知,对于概率密度的估计,伪球分数具有重降特性,而密度幂分数不一定提供重降估计器[23,30].

在接下来的部分中,我们将应用密度幂分数和伪球分数来估计密度差或密度比,并研究其稳健性。

6.非尺度模型下的稳健性

在本节中,我们考虑了没有标度参数的统计模型,并研究了基于密度幂分数和伪球面分数的密度差和密度比估计量的稳健性。

6.1条。非比例模型

满足以下假设的模型称为非比例模型以下为:

假设1.是密度差或密度比的模型。对于c和f,使得c≠0且f≠0,cf仅在c时保持= 1.

密度幂分数和伪球分数是非尺度模型上严格的Bregman分数。事实上,正如示例2中所指出的那样,密度功率分数是严格的Bregman分数。对于伪球得分,假设等式S公司((f),) =S公司((f),(f))保持非零函数,(f).然后,与…成比例(f).何时(f)都包含在非比例模型中,我们有(f)=因此,非标度模型上的伪球分数也是严格的Bregman分数。

6.2. 密度差法

在这里,我们考虑使用非尺度模型进行密度差估计的稳健性。假设1意味着,(f)θ(x个),不包括比例参数。一个例子是由两个概率模型组成的模型,

(f) θ ( x个 ) = 第页 θ 1 ( x个 ) 第页 θ 2 ( x个 ) , θ = ( θ 1 , θ 2 ) ,
这样的话θ1 ≠ θ2,其中第页θ1第页θ2是正态分布的参数模型。上述模型,(f)θ,仍然是半参数模型,因为即使在(f)θ(x个)指定概率密度对,第页q个,因此(f)θ=第页q个具有无限多个自由度。

下面的定理显示了密度差估计器的鲁棒性。证据见附录A.

定理1。 假设假设1适用于密度差模型,差异我们假设真实密度差f包含在差异 还有那个 (f) = (f) θ * 差异 持有。对于Bregman分数,S差异((f),),密度差的,设J为矩阵,其每个元素如下所示:

J型 ij公司 = θ θ j个 S公司 差异 ( (f) , (f) θ ) | θ = θ * .
假设J是可逆的。然后,在模型下,差异,具有正奇数参数α的密度幂分数的影响函数如下所示:
国际单项体育联合会 差异 ( θ * ; z(z) 第页 , z(z) q个 ) = α ( 1 + α ) J型 1 ( (f) ( z(z) 第页 ) α 1 (f) θ ( z(z) 第页 ; θ * ) (f) ( z(z) q个 ) α 1 (f) θ ( z(z) q个 ; θ * ) ¦Β (f) ( x个 ) α (f) θ ( x个 ; θ * ) d日 x个 ) ,
哪里 (f) θ 是函数f相对于参数θ的k维梯度向量。此外,我们假设f不是零函数。然后,在模型下,差异,具有正奇数参数α的伪球得分的影响函数为:
国际单项体育联合会 差异 ( θ * ; z(z) 第页 , z(z) q个 ) = α ( 1 + α ) J型 1 × ( ( (f) ( z(z) 第页 ) α (f) ( z(z) 第页 ) α ) ¦Β (f) ( x个 ) α (f) θ ( x个 ; θ * ) d日 x个 ¦Β (f) ( x个 ) 1 + α d日 x个 (f) ( z(z) 第页 ) α 1 (f) θ ( z(z) 第页 ; θ * ) + (f) ( z(z) q个 ) α 1 (f) θ ( z(z) q个 ; θ * ) ) .

定理1表明,在非尺度模型下,伪球分数密度差估计具有重降性质。对于密度差(f)=第页q个,限制条件,

x个 (f) ( x个 ) = 0 ,
将在许多实际情况下保持不变。因此,对于α>1、假设:
x个 (f) θ ( x个 ) α 1 (f) θ ( x个 ; θ ) = 0
为所有人θ∈ Θk个不会成为密度差模型的强大条件。在上述限制条件下,影响函数(13)趋于零,如z(z)第页z(z)q个转到无穷点。因此,伪球得分产生了一个重降估计器。另一方面,密度功率分数不具有再衰减特性,因为上一个学期方程式(12)不会消失,当z(z)第页z(z)q个倾向于无限点。

让我们考虑一下L(左)1-使用密度差估计器进行距离估计。这个L(左)1-污染下的距离估计(11)分布在:

¦Β | (f) ( x个 ; θ ε ) | d日 x个 ¦Β | (f) ( x个 ; θ * ) + ε 国际单项体育联合会 差异 ( θ * ; z(z) 第页 , z(z) q个 ) (f) θ ( x个 ; θ * ) | d日 x个 ,
这意味着偏差项表示为影响函数和密度差模型梯度的内积。b条差异,ε是:
b条 差异 , ε = ε ¦Β | 国际单项体育联合会 差异 ( θ * ; z(z) 第页 , z(z) q个 ) (f) θ ( x个 ; θ * ) | d日 x个 .
然后L(左)1-由离群值引起的距离估计器近似上有界于b条差异,ε由于非标度模型的伪球得分提供了密度差的再下降估计量L(左)1-基于伪球得分的距离估计器对异常值也具有重降特性。

6.3. 密度比法

以下定理提供了密度比估计器的影响函数。由于证明与定理1的证明几乎相同,因此我们省略了详细的计算。

定理2。 假设假设1适用于密度比模型,比率我们假设真实密度比r(x)=p(x)/q(x)包含在:

比率 = { 第页 ( x个 ; θ ) = 第页 θ ( x个 ) | θ Θ k个 } ,
还有那个r=第页θ*比率 持有。对于Bregman分数,S比率(第页,第页θ),使用基本度量值q(x个),设J为矩阵,其中每个元素如下所示:
J型 ij公司 = θ θ j个 S公司 比率 ( 第页 , 第页 θ ) | θ = θ * .
假设J是可逆的。然后,具有正实参数α的密度幂分数的影响函数如下所示:
国际单项体育联合会 比率 ( θ * ; z(z) 第页 , z(z) q个 ) = α ( 1 + α ) J型 1 ( 第页 ( z(z) 第页 ) α 1 第页 θ ( z(z) 第页 ; θ * ) 第页 ( z(z) 第页 ) α 第页 θ ( z(z) q个 ; θ * ) ) .
具有正实参数α的伪球得分的影响函数如下所示:
国际单项体育联合会 比率 ( θ * ; z(z) 第页 , z(z) q个 ) = α ( 1 + α ) J型 1 × ( ( 第页 ( z(z) 第页 ) α 第页 ( z(z) q个 ) α + 1 ) ¦Β 第页 ( x个 ) α 第页 θ ( x个 ; θ * ) q个 ( x个 ) d日 x个 ¦Β 第页 ( x个 ) α + 1 q个 ( x个 ) d日 x个 + 第页 ( z(z) 第页 ) α 1 第页 θ ( z(z) 第页 ; θ * ) 第页 ( z(z) q个 ) α 第页 θ ( z(z) q个 ; θ * ) ) .

密度比是一个非负函数。因此,我们不需要关心密度幂分数和伪球分数的绝对值。因此,参数,α,在这些分数中,允许取上述定理中的任何正实数。

对于密度比第页(x个) =第页(x个)/q个(x个),典型的限制条件是:

x个 第页 ( x个 ) = .
例如,具有相同方差和不同平均值的两个高斯分布的密度比导致密度比无界。因此,影响函数可能趋于无穷大。因此,密度比估计器对概率分布的变化很敏感。

让我们考虑一下L(左)1-使用密度比的距离估计。这个L(左)1-污染下的距离估计(11)分布在:

¦Β | 1 第页 ( ; θ ε ) | q个 ( ) d日 ¦Β | 1 第页 ( ; θ * ) ε 国际单项体育联合会 比率 ( θ * ; z(z) 第页 , z(z) q个 ) 第页 θ ( ; θ * ) | q个 ( ) d日 .
因此L(左)1-由离群值引起的距离估计器大致上有界于:
b条 比率 , ε = ε ¦Β | 国际单项体育联合会 差异 ( θ * ; z(z) 第页 , z(z) q个 ) 第页 θ ( ; θ * ) | q个 ( ) d日 .
密度比估计器的影响函数可以取任意大的值。此外,积分的经验近似值也受到异常值的影响。因此,密度比估计器不一定为L(左)1-距离测量。

7.规模模型下的稳健性

在本节中,我们考虑使用具有尺度参数的模型估计密度差异。对于这种模型,伪球面分数不起作用,如示例3所示。此外,在上一节中,我们介绍了密度比估计对粗异常值的不稳定性。因此,在本节中,我们将重点关注使用密度功率分数和尺度模型的密度差异估计。

7.1. 密度差估计过程的分解

我们表明,使用密度幂分数估计密度差的过程被分解为两个步骤:使用非尺度模型的伪球分数估计和尺度参数估计。注意,第一步中的估计已经在最后一节中进行了研究。

让我们考虑满足以下假设的统计模型:

假设2。 差异 是密度差的模型。对于所有f差异 和所有c,cf差异 持有。

满足上述假设的模型称为比例模型比例模型的一个典型示例是线性模型:

差异 = { = 1 k个 θ ψ ( x个 ) | θ , = 1 , , k个 } ,
哪里ψ是基本函数,因此ψ(x个)dx公司=0代表所有= 1, . . . ,k个.

假设k个-尺寸比例模型,差异,参数化为:

差异 = { (f) ( x个 ; θ ) = c(c) θ ¯ ( x个 ) | c(c) , θ ¯ Θ k个 1 , θ = ( c(c) , θ ¯ ) } .
参数,c(c),是比例参数,并且θ̄在里面方程式(14)称为形状参数。我们假设θ̄不等于零函数。模型的参数化,差异,不能在参数之间提供一对一的对应关系θ====================================================================================================================================================================(c(c),θ̄)和功能,cg公司θ̄例如。,c(c)= 0. 我们假设在真实密度差附近,θ和函数,cg公司θ̄,具有一对一的通信。定义模型,差异,c(c),成为(k个−1)维非比例模型:
差异 , c(c) = { c(c) θ ( x个 ) | θ ¯ Θ k个 1 } .

对于伪球得分,等式S公司((f),) =S公司((f),cg公司)等待c(c)> 0. 因此,比例参数是不可估计的。让我们用尺度模型研究基于密度幂分数的估计器的统计特性:

定理3。 让我们考虑密度差估计。定义 S公司 差异 , α 功率 ( (f) , ) S公司 差异 , α ( (f) , ) 作为密度幂分数和具有正奇数α的伪球分数,这些分数的基本度量分别由勒贝格度量给出。让f0 是一个函数和c̄gθ̄差异 是问题的最佳解决方案,

最小值 (f) S公司 差异 , α 功率 ( (f) 0 , (f) ) , . . (f) 差异 .
我们假设c̄gθ̄≠ 0然后,gθ̄ 作为以下问题的最优解:
最小值 S公司 差异 , α ( (f) 0 , ) , . . 差异 , c(c) 差异 , c(c) ,
其中c是任何固定的非零常数。此外,最佳比例参数表示为:
c(c) ¯ = ¦Β (f) 0 ( x个 ) θ ¯ ( x个 ) α d日 x个 / ¦Β θ ¯ ( x个 ) 1 + α d日 x个 .

经验密度差,,允许作为函数,(f)0,在上述定理中。证据在附录B。非负函数的相同定理如所示[25].

定理3表明,尺度模型上密度幂分值的最小化被分解为两个阶段。假设真实密度差为(f)0=第页q个=c*g(克)θ̄*差异在估计的第一阶段,最小化问题(15)在非标度模型上求解差异,±c*然后,在第二阶段,估计尺度参数。虽然c(c)*是未知的,估计过程可以用非标度模型虚拟地解释为两阶段过程,差异,±c*.

7.2. 密度差估计的统计性质

基于密度幂分数最小化的两阶段过程,我们研究了密度差估计量的统计特性。

如第6.2节所示,在非标度模型上使用伪球得分的估计器,差异,c*具有再沉积属性。因此,极端异常值对形状参数的估计几乎没有影响,θ̄.受到污染(11),让我们定义θ̄ε作为问题的最佳解决方案,

最小值 S公司 , α ( 第页 ε q个 ε , q个 ) , 差异 , c(c) * .
作为异常值,z(z)第页z(z)q个,趋向于无穷点,我们有:
θ ¯ ε = θ ¯ * + o(o) ( ε ) ,
因为如最后一节所示,使用非标度模型的伪球分数估计形状参数具有重降特性。

比例参数如下所示:

c(c) ε = ¦Β ( 第页 ε ( x个 ) q个 ε ( x个 ) ) θ ¯ ε ( x个 ) α d日 x个 ¦Β θ ¯ ε ( x个 ) 1 + α d日 x个 = ( 1 ε ) ¦Β (f) ( x个 ) θ ¯ ε ( x个 ) α d日 x个 ¦Β θ ¯ ε ( x个 ) 1 + α d日 x个 + ε θ ¯ ε ( z(z) 第页 ) α θ ¯ ε ( z(z) q个 ) α ¦Β θ ¯ ε ( x个 ) 1 + α d日 x个 .
作为异常值,z(z)第页z(z)q个,趋向于无穷点,则上述表达式中的第二项收敛到零。因此,比例参数如下:
c(c) ε = ( 1 ε ) c(c) * + o(o) ( ε ) ,
其中我们有:
c(c) ε θ ¯ ε = ( 1 ε ) ( 第页 q个 ) + o(o) ( ε ) .

上述分析表明,污染率较小的极端异常值,ε,将使估计密度差的强度减小因子1−ε,估计密度差分布在(1−ε)(第页q个). 因此,当使用密度幂分数时,极端异常值的污染对密度差估计器中的形状参数几乎没有影响。

让我们考虑一下L(左)1-使用密度差估计器进行距离估计。假设真实的密度差,第页q个,由密度幂分数和尺度模型估计。然后L(左)1-污染下的距离估计(11)分布在:

¦Β | c(c) ε θ ¯ ε ( x个 ) | d日 x个 = ( 1 ε ) ¦Β | 第页 ( x个 ) q个 ( x个 ) | d日 x个 + o(o) ( ε ) .
当污染率,ε,很小,即使极端异常值也不会显著影响L(左)1-距离估计器。极端异常值引起的偏差仅取决于污染率。如果事先知道污染率,ε,则可以近似纠正L(左)1-通过将先验知识获得的常数乘以L(左)1-距离估计器。

8.数值实验

我们进行了数值实验来评估L(左)1-距离估计器。我们使用了合成数据集。N个(μ,σ2)是具有平均值的一维正态分布μ和方差σ2。在标准设置中,假设样本来自正态分布,

x个 1 , , x个 n个 ~ N个 ( 0 , 1 ) , 1 , , ~ N个 ( 1 , 1 ) .
此外,从以下方面观察到一些异常值:
x个 ˜ 1 , , x个 ˜ n个 ~ N个 ( 0 , τ 2 ) , ˜ 1 , , ˜ ~ N个 ( 0 , τ 2 ) ,
其中方差,τ,比一大得多。根据这两个数据集{x个1, . . . ,x个n个,1, . . . ,n′}和{1,1, . . . ,m′(米)},的L(左)1-之间的距离N个(0,1)和N个(1,1)是估计的。

下面,我们展示了在L(左)1-距离估计。密度差的非标度模型定义为:

(f) θ ( x个 ) = ϕ ( x个 ; μ 1 , σ 1 ) ϕ ( x个 ; μ 2 , σ 2 ) , θ = ( μ 1 , μ 2 , σ 1 , σ 2 ) ,
哪里ϕ(x;μ,σ)是的概率密度N个(μ,σ2). 为了估计参数,使用了密度幂分数和伪球分数。作为比例模型,我们采用囊性纤维变性θ(x个)使用参数,θ,以及c(c)> 0. 如所示方程式(16)当样本被离群值污染时,估计量存在偏差。理想情况下,(1−ε)−1L(左)1-使用比例模型的距离估计器将提高估计精度,其中ε是污染率n′/n(=米/米). 在数值实验中,也检查了偏差修正估计器,尽管偏差修正需要关于污染率的先验知识。对于密度比估算的统计模型,我们使用了比例模型,
第页 ( x个 ; θ ) = 经验 { θ 0 + θ 1 x个 + θ 2 x个 2 } , θ 3 ,
密度幂分数作为损失函数。此外,我们评估了两步方法,其中L(左)1-距离是根据单独估计的概率密度估计的。我们在统计模型中使用了密度幂分数,ϕ(x;μ,σ),以估计每个数据集的概率密度。

在数值实验中L(左)1-距离估计器,1(第页,q个),通过相对误差测量,|1 −1(第页,q个)/d日1(第页,q个)|训练样本的数量从1000到10000不等,异常值的数量从零(无异常值)到100不等。参数,α,在score函数中设置为α=基于密度差(DF)的估算值为1或3,以及α=0.1,对于基于密度比(DR)的估计器。对于密度比估计α由于指数模型的功率往往变得非常大,因此很容易产生数值误差。对于每个设置,每个估计器的平均相对误差都是在100次迭代中计算出来的。

数值结果如所示图1,详细信息如所示表1图中省略了相对误差极大的估值器。如所示表1污染样本严重降低了基于DR-的估计量的估计精度。另一方面,基于DF的估计量对异常值具有鲁棒性。基于密度泛函的伪球分数估计量的精度低于密度幂分数估计量。在统计推断中,需要在效率和稳健性之间进行权衡。虽然伪球积分提供了一个重降估计量,但在实际应用中,该估计量的效率并不高。在概率密度估计中,伪球得分具有参数,α,范围从0.1到1提供了一个稳健而有效的估计量,而α变得效率低下[23]. 这是因为估计量较大α往往忽略大多数样本。在密度差估计中,参数,α,应为正奇数。因此,在我们的设置中,使用伪球得分的估计器变得效率低下。就密度幂分数而言,相应的基于DF的估计器具有有界影响函数。因此,该估计器是有效的,并且对异常值具有较强的鲁棒性。此外,我们发现通过乘以常数因子(1−)−1,提高了估计精度。

当没有异常值时,使用单独估计的概率密度的两步方法比使用密度幂分数的基于DF的估计量具有更大的相对误差。对于污染样品,两步法优于其他方法,尤其是当样品量小于2000时。在这种情况下,使用密度幂分数进行单独的密度估计可以有效地减少异常值的影响。然而,对于较大的样本量,使用密度幂分数的基于DF的估计器与两步法具有可比性。当异常值的比率适中时,即使统计模型基于半参数建模,基于DF的方法也能很好地工作,半参数建模比两步方法中使用的参数建模具有更少的信息。

9.结论

在本文中,我们首先提出使用Bregman分数来估计密度差和密度比,然后研究了L(左)1-距离估计器。我们表明,伪球得分提供了非尺度模型下密度差的重降估计量。然而,基于密度幂分数的估计器对于极端异常值不具有再下降特性。在尺度模型中,伪球分数不起作用,因为相应的势在函数空间上不是严格凸的。我们证明了密度幂分数为尺度模型中的形状参数提供了一个重降估计量。在极端异常值下L(左)1-使用比例模型计算距离估计器。密度幂分数为比例模型中的形状参数提供了一个重降估计器。此外,我们证明了L(左)1-距离估计器不受极端异常值的显著影响。此外,我们还表明了对污染率的事先了解,ε,可用于校正L(左)1-距离估计器。在数值实验中,与伪球分数相比,密度幂分数提供了一个有效且稳健的估计量。这是因为伪球得分大α往往忽略大多数样本,因此效率低下。在实际设置中,密度功率分数将提供令人满意的结果。此外,我们还说明了利用污染率的先验知识进行偏差校正可以提高L(左)1-使用比例模型的距离估计器。

除了Bregman分数外,还有其他有用的估计类,如局部评分规则[12,18,30]. 因此,探索将另一类评分规则应用于密度差和密度比估计的可能性是一个有趣的方向。

A.定理证明1

对于密度差(f)(x个) =(f)θ*(x个) =第页(x个) –q个(x个),我们定义(f)ε(x个)作为污染密度差,

(f) ε ( x个 ) = ( 1 ) 第页 ( x个 ) + ε δ ( x个 z(z) 第页 ) ( 1 ) q个 ( x个 ) ε δ ( x个 z(z) 第页 ) = (f) ( x个 ) + ε { δ ( x个 z(z) 第页 ) δ ( x个 z(z) q个 ) (f) ( x个 ) } .
是功能(x个) =δ(x个z(z)第页) −δ(x个z(z)q个) −(f)θ*(x个). 通过使用隐函数定理k个-值函数:
( θ , ε ) θ S公司 ( (f) ε , (f) θ ) = θ ¦Β ( x个 , (f) θ ) (f) ε ( x个 ) d日 x个
周围(θ,ε) = (θ*,0),我们有:
国际单项体育联合会 差异 ( θ * ; z(z) 第页 , z(z) q个 ) = J型 1 θ S公司 ( , (f) θ ) | θ = θ * .

计算每个分数的上述导数即可得出结果。

B.定理证明3

让我们考虑最小化 S公司 差异 , α 功率 ( (f) 0 , (f) )从属于(f)差异。对于cg公司差异,我们有:

S公司 差异 , α 功率 ( (f) 0 , c(c) ) = α c(c) 1 + α ¦Β ( x个 ) 1 + α d日 x个 ( 1 + α ) c(c) α ¦Β (f) 0 ( x个 ) ( x个 ) α d日 x个
对于固定差异,1,最小值 S公司 差异 , α 功率 ( (f) * , c(c) )关于c(c)表示为:
c(c) = ¦Β (f) 0 ( x个 ) ( x个 ) α d日 x个 / ¦Β ( x个 ) 1 + α d日 x个 ,
自从不是零函数。替换最优值c(c)进入之内 S公司 差异 , α 功率 ( (f) 0 , c(c) ),我们有:
S公司 差异 , α 功率 ( (f) 0 , c(c) ) = ( ¦Β (f) 0 ( x个 ) ( x个 ) α d日 x个 ) 1 + α ( ¦Β ( x个 ) 1 + α d日 x个 ) α = ( S公司 差异 , α ( (f) 0 , ) ) 1 + α
对于正奇数,α因此 S公司 差异 , α 功率 ( (f) 0 , c(c) )从属于c(c)差异通过求解得到:
最小值 S公司 差异 , α ( (f) 0 , ) , 差异 , c(c) 差异 , c(c)
哪里c(c)是任何固定的非零数。α+1是偶数,我们需要考虑两个子模型,差异,c(c)差异,−c(c),以减少优化 S公司 差异 , α 功率 S公司 差异 , α .

致谢

TK部分获得日本科学促进会(JSPS)KAKENHI拨款24500340的支持,MS部分获得JSPS KAKENHI拨款25700022和亚洲航空航天研究与发展办公室(AOARD)的支持。

利益冲突

作者声明没有利益冲突。

工具书类

  1. 杉山,M。;刘,S。;杜普莱西斯,M.C。;Yamanaka,M。;山田,M。;铃木,T。;Kanamori,T.概率分布之间的直接发散近似及其在机器学习中的应用。J.计算。科学。工程 2013,7, 99–111. [谷歌学者]
  2. Shimodaira,H.通过加权对数似然函数改进协变量移位下的预测推断。J.统计计划。推断 2000,90, 227–244. [谷歌学者]
  3. 杉山,M。;川边,M。非静态环境中的机器学习:协变变换自适应简介(自适应计算和机器学习); 麻省理工学院出版社:美国马萨诸塞州剑桥,2012年。[谷歌学者]
  4. 杉山,M。;铃木,T。;T·卡纳莫里。机器学习中的密度比估计; 剑桥大学出版社:英国剑桥,2012年。[谷歌学者]
  5. Hido,S。;Tsuboi,Y。;鹿岛,H。;杉山,M。;Kanamori,T.通过直接密度比估计进行基于内嵌的孤立点检测。2008年12月15日至19日,意大利比萨,IEEE数据挖掘国际会议(ICDM2008)会议记录。
  6. Kanamori,T。;铃木,T。;Sugiyama,M.f—半参数密度比模型下的散度估计和双样本均匀性检验。IEEE传输。通知。西奥 2012,58, 708–720. [谷歌学者]
  7. Kanamori,T。;希多,S。;Sugiyama,M.非平稳性自适应和离群点检测的高效直接密度比估计。神经信息处理系统的进展21; 麻省理工学院出版社:美国马萨诸塞州剑桥;2009. [谷歌学者]
  8. Nguyen,X。;温赖特,M.J。;Jordan,M.I.通过凸风险最小化估计散度泛函和似然比。IEEE传输。通知。西奥 2010,56, 5847–5861. [谷歌学者]
  9. 秦,J.病例对照和半参数双样本密度比模型的推断。生物特征 1998,85, 619–639. [谷歌学者]
  10. 杉山,M。;Kanamori,T。;铃木,T。;杜普莱西斯,M.C。;刘,S。;Takeuchi,I.密度差估计。神经系统。计算 2013,25, 2734–2775. [谷歌学者]
  11. 杉山,M。;铃木,T。;南岛中岛。;鹿岛,H。;冯·布诺,P。;Kawanabe,M.协变量移位适应的直接重要性估计。Ann.Inst.统计数学 2008,60, 699–746. [谷歌学者]
  12. Gneiting,T。;Raftery,A.E.严格正确的评分规则、预测和评估。美国统计协会 2007,102,第359页至第378页。[谷歌学者]
  13. 阿里,S.M。;Silvey,S.D.一种分布与另一种分布的一般散度系数。J.罗伊。统计Soc.系列B 1966,28, 131–142. [谷歌学者]
  14. Csiszár,I.概率分布差异和间接观测的信息型度量。科学研究。数学。 1967,2, 229–318. [谷歌学者]
  15. Brier,G.W.验证以概率表示的预测。周一。天气Rev 1950,78, 1–3. [谷歌学者]
  16. Good,I.J.评论R.J.Buehler的“测量信息不确定性”。统计推断基础; Godambe,副总裁,Sprott,D.A.,编辑。;鸽子:米诺拉,纽约,美国,1971年;第337339页。[谷歌学者]
  17. Murata,N。;Takenouchi,T。;Kanamori,T。;Eguchi,S.信息几何U型-Boost和Bregman分歧。神经计算 2004,16, 1437–1481. [谷歌学者]
  18. M.帕里。;Dawid,A.P。;Lauritzen,S.适当的当地评分规则。Ann.统计 2012,40, 561–592. [谷歌学者]
  19. 亨德里克森(Hendrickson,A.D.)。;Buehler,R.J.概率预测师的适当分数。安。数学。斯达 42.
  20. 封面,T.M。;J.A.托马斯。信息论要素; 威利国际科学:英国兰登,2006年。[谷歌学者]
  21. 巴苏,A。;I.R.哈里斯。;霍尔特,N.L。;Jones,M.C.通过最小化密度功率发散,实现稳健高效的估计。生物特征 1998,85, 549–559. [谷歌学者]
  22. 巴苏,A。;Shioya,H。;Park,C.关于统计学和应用概率的专著。统计推断:最小距离法; 泰勒和弗朗西斯:英国兰登,2010年。[谷歌学者]
  23. 藤泽,H。;Eguchi,S.对严重污染有小偏差的稳健参数估计。J.多变量。Anal公司 2008,99,2053年至2081年。[谷歌学者]
  24. F.R.汉佩尔。;罗塞乌,P.J。;Ronchetti,E.M。;西澳州斯塔尔。稳健统计。基于影响函数的方法; 约翰·威利父子公司:英国兰登,1986年。[谷歌学者]
  25. Eguchi,S。;与幂函数和统计应用相关的熵和散度。 2010,12, 262–274. [谷歌学者]
  26. Maronna,R。;马丁·R。;尤海,V。稳健统计学:理论与方法; 威利:英国兰登,2006年。[谷歌学者]
  27. Wu,Y。;Liu,Y.鲁棒截断铰链损失支持向量机。美国统计协会 2007,102, 974–983. [谷歌学者]
  28. Xu,H。;Caramanis,C。;曼诺,S。;Yun,S.风险敏感稳健支持向量机。第48届IEEE决策控制会议记录,中国上海,2009年12月15日至18日;第4655–4661页。
  29. 徐,L。;克拉默,K。;Schuurmans,D.通过凸集-孤立点消融进行鲁棒支持向量机训练;AAAI:波士顿,马萨诸塞州,美国,2006年;第536-542页。
  30. Kanamori,T。;Fujisawa,H.与合成分数相关的仿射不变发散及其应用。伯努利,2014年。提交。[谷歌学者]
图1。的平均相对误差L(左)1-绘制了100次迭代的距离估计。省略了相对误差极大的估计量。DF表示基于密度差的估算值,图例中最右边的数字表示α在密度-功率评分中。标准设置中的样本数为n个==1000、2000、5000或10000,异常值的数量设置为n′=m′(米)=0(,无异常值),10或100。
图1。的平均相对误差L(左)1-绘制了100次迭代的距离估计。省略了相对误差极大的估计量。DF表示基于密度差的估算值,图例中最右边的数字表示α在密度-功率评分中。标准设置中的样本数量为n个==1000、2000、5000或10000,异常值的数量设置为n′=m′(米)= 0 (,无异常值),10或100。
熵16 00921f1 1024
表1。平均相对误差和标准偏差L(左)1-100次迭代的距离估计器:DF(DR)表示基于密度差(密度比)的估计器,“separate”表示L(左)1-使用单独估计的概率密度进行距离估计。带参数的密度幂分数或伪球分数α用于缩放或非缩放模型。标准设置中的样本数为n个==1000、2000、5000或10000,异常值的数量设置为n′=m′(米)= 0 (,无异常值),10或100。当样本被离群值污染时,基于密度比的估计器变得极不稳定,并出现数值误差。
表1。平均相对误差和标准偏差L(左)1-100次迭代的距离估计器:DF(DR)表示基于密度差(密度比)的估计器,“separate”表示L(左)1-使用单独估计的概率密度进行距离估计。带参数的密度幂分数或伪球分数α用于缩放或非缩放模型。标准设置中的样本数为n个==1000、2000、5000或10000,异常值的数量设置为n′=m′(米)= 0 (,无异常值),10或100。当样本被离群值污染时,基于密度比的估计器变得极不稳定,并出现数值误差。
异常值:n′=m′(米)=0(无异常值)
DF/DR估计器:模型αn个== 1, 000n个== 2, 000n个== 5, 000n个== 10, 000
测向密度功率:无刻度10.033 (0.028)0.026(0.024)0.016 (0.014)0.013 (0.010)
测向密度功率:无刻度30.048 (0.032)0.035 (0.029)0.017(0.014)0.016 (0.010)
测向密度-功率:刻度10.037 (0.030)0.027 (0.025)0.016 (0.013)0.013 (0.010)
测向密度-功率:刻度30.075 (0.069)0.053 (0.058)0.028 (0.027)0.019 (0.017)
测向伪球:无标度10.610 (0.450)0.604 (0.396)0.451 (0.320)0.452 (0.294)
测向伪球:无标度30.782 (0.532)0.739 (0.491)0.604 (0.440)0.500 (0.379)
DR密度-功率:刻度0.10.035 (0.026)0.025 (0.022)0.015(0.013)0.013 (0.009)
分离:密度-功率10.047 (0.038)0.032 (0.024)0.022 (0.017)0.014 (0.010)
异常值:n′=m′(米)= 10,τ= 100
DF/DR估计器:模型αn个== 1, 000n个==2000n个== 5, 000n个== 10, 000
测向密度功率:无刻度10.033 (0.026)0.028 (0.022)0.017 (0.013)0.013 (0.010)
测向密度功率:无刻度30.042 (0.033)0.036 (0.029)0.021 (0.016)0.015 (0.012)
测向密度-功率:刻度10.040 (0.030)0.031 (0.025)0.019 (0.014)0.014 (0.011)
测向密度-功率:刻度(偏差校正)10.036 (0.030)0.030 (0.025)0.018 (0.014)0.014 (0.011)
测向密度-功率:刻度30.089 (0.077)0.052(0.047)0.031 (0.024)0.019 (0.016)
测向密度-功率:刻度(偏差校正)30.083 (0.075)0.049 (0.046)0.030 (0.023)0.019(0.016)
测向伪球:无标度10.658 (0.474)0.632 (0.424)0.515 (0.370)0.417 (0.297)
DF伪球面:非标度30.969 (0.494)0.743 (0.487)0.677 (0.483)0.506 (0.421)
DR密度-功率:刻度0.1
分离:密度-功率10.032 (0.023)0.026 (0.019)0.015 (0.011)0.011 (0.008)
异常值:n′=m′(米)= 100,τ= 100
DF/DR估计器:模型αn个== 1, 000n个== 2, 000n个== 5, 000n个== 10, 000
测向密度功率:无刻度10.090 (0.042)0.047 (0.028)0.023 (0.014)0.013 (0.010)
测向密度功率:无标度30.093 (0.053)0.049 (0.032)0.025 (0.020)0.015 (0.012)
测向密度-功率:刻度10.099 (0.043)0.053(0.029)0.028 (0.017)0.016 (0.011)
测向密度-功率:刻度(偏差校正)10.040 (0.031)0.028 (0.022)0.017(0.013)0.011 (0.009)
测向密度-功率:刻度30.144 (0.100)0.083 (0.047)0.041 (0.030)0.025 (0.016)
测向密度-功率:刻度(偏差校正)30.076 (0.094)0.046 (0.041)0.031 (0.025)0.018 (0.014)
测向伪球:无标度10.557 (0.461)0.511 (0.399)0.501 (0.372)0.465 (0.305)
测向伪球:无标度30.807 (0.507)0.739 (0.508)0.581 (0.458)0.534 (0.396)
DR密度-功率:刻度0.1
分离:密度-功率10.052 (0.036)0.036(0.031)0.024 (0.017)0.014 (0.009)

分享和引用

MDPI和ACS样式

Kanamori,T。;杉山,M。密度差和密度比距离估计器的统计分析。 2014,16,921-942页。https://doi.org/10.3390/e16020921

AMA风格

Kanamori T、Sugiyama M。密度差和密度比距离估计器的统计分析。. 2014; 16(2):921-942.https://doi.org/10.3390/e16020921

芝加哥/图拉宾风格

Kanamori、Takafumi和Masashi Sugiyama。2014.“密度差和密度比距离估计器的统计分析”第16页,第2页:921-942。https://doi.org/10.3390/e16020921

文章指标

返回页首顶部