跳到主要内容

球面Dirichlet分布

摘要

如今,数据挖掘和基因表达处于现代数据分析的前沿。这里我们介绍一种适用于这些领域的新型概率分布。本文发展了所提出的球面-狄里克莱分布,该分布旨在拟合位于超球面正正方向的向量,因为这些领域的数据通常都是这样,避免了不必要的概率质量。发展了所建议分布的基本性质,包括归一化常数和矩。还探讨了与其他分布的关系。得到了基于经典推断统计量的估计量,如矩量法和极大似然估计量。开发了两个应用程序:第一个使用模拟数据,第二个使用真实的文本挖掘示例。这两个例子都是用所提出的球面狄里克莱分布拟合的,并对其结果进行了讨论。

介绍

在文本挖掘和基因表达分析中,文本集合用向量空间模型表示,这意味着文本一旦标准化,就会被编码为高维球体(也称为超球体)中的向量(2016年Suvrit). 目前,许多研究人员利用现有的概率密度混合物对这些分布进行建模,然而,这些近似值浪费了整个超球体中的概率质量,而实际上只需要在超球体的正方向上使用。这主要是因为该子空间不存在合适的分布。新提出的分布填补了这一空白,允许对这些向量进行有效建模。

基本属性

在这一节中,我们介绍了所提出的球面Dirichlet分布、其矩和基本性质。

概率密度函数与归一化常数

通过将单纯形上的Dirichlet分布变换到超球面上相应的空间,得到球面上的Dilichlet分布。在本节中,我们推导了密度,并计算了归一化常数。在单纯形上具有Ingram所描述的Dirichlet分布(奥尔金和鲁宾1964).

$$\开始{array}{*{20} 我}f_text{Dir}}(\mathbf{y};\alpha)&=\frac{\Gamma(\alpha_{0})}_{i} -1个}\\&=\frac{\Gamma(\alpha_{0})}{{\prod_{i=1}^{m}\Gamma_{i} -1个}\左(1-\sum{i=1}^{m-1}年_{i} \右)^{(\alpha_{m} -1个)}\结束{数组}$$
(1)

哪里

$$\开始{array}{*{20} 我}在\Re^{+}中的\alpha_{i},\;\;\alpha{0}=:{\sum{i=1}^{m}{\alpha{i}},\;\;0\leqq y_{i}\leqq1,\;\;\sum{i=1}^{m}{y{i}}=1,\end{array}$$

将Dirichlet分布从单纯形变换为超球面的正正值(图1)

图1
图1

从单纯形变换为超球面的正正值。超球面的正正值

求平方根变换

$$\开始{array}{*{20} 我}x{i}=\sqrt{y{i}},\;\;y{i}={x{i}}^{2},\;\;\frac{\部分y{i}}{\部分x{i}{=2x{i{,\text{for}\;\;i=1,。。。。(m-1),\;\;x{m}=\sqrt{y{m}}。\结束{数组}$$
(2)

计算所有自变量的雅可比矩阵,如下所示

$$J=\left | \begin{array}{ccccc}\frac{\partial y_{1}}{\partial x_{1}}=2x_{1}&\frac{\partial y_{1}}{\partial x_{2}}=0&0&\dots&\\frac{\partial y_{2}}{\partial x_{2}}=2x_{2}&0&\dots&\\hdots for{5}\\0&0&dots&\frac{\partial y_{m-1}}{\partial x_{m-1}}=2x_{m-1}\end{array}\右|=\prod_{i=1}^{m-1}{2x{i}}=2^{m-1'$$

提议的转换(1)中的个结果

$$\开始{array}{*{20} 我}f_{\text{SDir}}(\mathbf{x};\alpha)&=\frac{2^{m-1}\Gamma(\alpha_{0})}{\prod_{i=1}^{m}\Gamma({\alpha_a{i})_{i} -1个}\cdot x{m}^{2\alpha_{m} -2个}\\&=\frac{2^{m-1}\Gamma(\alpha{0})}{{\prod_{i=1}^{m}\Garma({\alpha_{i}){}}\prod\i=1}^{m{{x{i}}^{2\alpha_{i} -1个}\cdot x{m}^{-1}\\&=\frac{2^{m-1}\Gamma(\alpha{0})}{{\prod_{i=1}^{m}\Gama({\alpha_{i}){}\prod\i=1}^{m-1}{x{i}}^{2\alpha_{i} -1个}\左(1-\sum{i=1}^{m-1}x_{i} ^{2}\right)^{(\alpha_{m} -1个)}\结束{数组}$$
(3)

哪里

$$\开始{array}{*{20} 我}\alpha_{0}=:{\sum_{i=1}^{m}{\alpha{i}},\;\;\字母{i}\在\Re^{+}中,\;\;0\leqq x_{i}\leqq1,\;\;\和{i=1}^{m}{x{i}^{2}}=1。\结束{数组}$$

我们指的是()作为球形Dirichlet分布(SDD)并写入x个S公司D类D类(α). 我们介绍参数α作为浓度参数,其方式与Dirichlet分布的相应参数类似。

力矩

在本节中,我们计算一阶和二阶矩、模态、标准差、方差和协方差及其相应的协方差矩阵。首先,我们计算其中一个变量的期望值,例如,让我们考虑x个1

$$\开始{array}{*{20} 我}E(x{1})&=\int\dots\int\frac{2^{m-1}\Gamma(\alpha{0})}{{\prod_{i=1}^{m}\Gamma({\alpha_{i}){}x{1{左(\prod\i=1}^{m{{x{i}}^{2\alpha_{i} -1个}\右)\cdot x{m}^{-1}{\mathrm{d} x个_{1} }\点{\mathrm{d} x个_{m} }\结束{数组}$$
(4)
$$\开始{array}{*{20} 我}&=\int\dots\int\frac{2^{m-1}\Gamma(\alpha{0})}{{\prod_{i=1}^{m}\Gamma({\alpha_{i}){}}{x{1}}^{2(\alfa_{1}+\ frac{1}{2})-1}\left(\prod\i=2}^m}{x}{i}}}}^2\alpha_{i} -1个}\右)\cdot x{m}^{-1}{\mathrm{d} x个_{1} }\dots{\mathrm{d} x个_{m} },\结束{数组}$$
(5)

其中,我们将积分内的表达式识别为带有新第一个参数的拟议SDD的核心\(\α{1}+\压裂{1}{2}\),然后我们可以立即将此表达式重写为

$$\开始{array}{*{20} 我}E(x{1})&=\frac{2^{m-1}\Gamma(\alpha_{0})}{\prod_{i=1}^{m}\Garma(\alpha_{i}){\frac}\Gamma\ left(\alfa_{1}+\ frac{1}{2}\right)\prod\i=2}^{m}\Gamm(\alba_{i{)}}{2^}m}\Gamma\ left \压裂{1}{2}}\右)}}\\&=\压裂{\Gamma,\结束{数组}$$
(6)

我们定义μ作为,

$$\开始{array}{*{20} 我}\mu{i}=:\frac{\Gamma\left(\alpha_{i}+\frac}1}{2}\right)}{\Garma(\alfa_{i{)},\end{array}$$
(7)

来自的期望值(6)可以重写为,

$$\开始{array}{*{20} 我}E(x{i})=\frac{\mu{i}}{\mu_{0}}。\结束{数组}$$
(8)

向量一阶矩的通解x个={x个1,....x个}T型带参数向量α={α1,.....α}T型可以写为

$$\开始{array}{*{20} 我}E(\mathbf{x})=\frac{\Gamma(\alpha_{0})}{\Garma(\alpha_{0}+\frac}1}{2}){\left(\frac[\Gamma\left)({\alpha_1}+\frac{1}{2\right)}{\ Gamma \右)}{\Gamma(\alpha_{m-1})}\右)=\frac{1}{\mu_{0}}\frac}\Gamma\左({\boldsymbol\alpha+\frac{1}{2}}\right)}{\伽玛(\boldsymbol\alpha)},\结束{数组}$$
(9)

$$\开始{array}{*{20} 我}\boldsymbol{\mu}=:\frac{\Gamma\left({\boldsymbol\alpha+\frac}{2}}\right)}{\Garma(\boldsimbol\alpha)},\quad C=:\frac{|{\bolsymbol{\mu{}|}{\mu_0}},\ quad\bar{\bodsymboldsyMBol{\mo}=:\frac{\boltsymbol{\mu}{|{条{\boldsymbol{\mu}}\在\Omega_{m-1}中,\end{array}$$
(10)

那么,向量的期望值x个也可以写成

$$\开始{array}{*{20} 我}E(\mathbf{x})=\frac{\boldsymbol{\mu}}{\mu_{0}}=\frac{|{\bodsymbol{\mu{}}|}{\mu_{0{}\cdot\frac}\boldsymbol{\ mu}}{|{\ boldsympol{\mo}}||}=C\cdot\tar{\bolsymboldsyMBol{\mu}}}。\结束{数组}$$
(11)

类似地,我们计算\(x{1}^{2}\)作为

$$\开始{array}{*{20} 我}E(x_{1}^{2})&=\int\dots\int\frac{2^{m-1}\Gamma(\alpha_{0})}{\prod_{i=1}^{m}\Gamma({\alpha_{i})}}x_{1}^{2}\left(\prod_{i=1}^{m}{x__{i} -1个}\右)\cdot x{m}^{-1}{\mathrm{d} x个_{1} }\点{\mathrm{d} x个_{m} }\结束{数组}$$
(12)
$$\开始{array}{*{20} 我}&=\frac{2^{m-1}\Gamma(\alpha{0})}{{\prod_{i=1}^{m}\Garma({\alpha_{i}){}}\int\dots\intx{1}^{2(\alfa_{1}+1)-1}}\left(\prod\i=2}^{ms}{x{i}^{2\alpha_{i} -1个}\右)\cdot x{m}^{-1}{\mathrm{d} x个_{1} }\点{\mathrm{d} x个_{m} },\结束{array}$$
(13)

同样,我们可以使用新的第一个参数将积分中的表达式识别为所建议SDD的核心α1+1,即产生

$$\开始{array}{*{20} 我}E(x{1}^{2})&=\frac{2^{m-1}\Gamma(\alpha{0})}{{\prod_{i=1}^{m}\Gamma({\alpha_{i}){}\frac}\Garma(\alpha_{1}+1)\prod\i=2}^{m-1}\Gamm(\alba_{i{)}}\\&=\frac{\Gamma(\alpha_{0})}{\Garma(\alpha_{0}+1$$
(14)

这个结果可以推广到

$$\开始{array}{*{20} 我}E(x{i}^{2})=\frac{\alpha_{i}}{\alba_{0}}。\结束{数组}$$
(15)

此外,任何变量的方差x个

$$\开始{array}{*{20} 我}V(x{i})=\frac{\alpha{i}}{\alba{0}}-\frac}\mu{i}^{2}{\mu{0}^}},\end{array}$$
(16)

和协方差x个1,x个2可以写为

$$\开始{array}{*{20} 我}E(x{1}{\cdot}x{2})=\int\dots\int\frac{2^{m-1}\Gamma(\alpha{0}_{i} -1个}\右)\cdot x{m}^{-1}{\mathrm{d} x个_{1} }\点{\mathrm{d} x_{m} },\结束{数组}$$
(17)

经过一些安排后,我们可以使用前两个参数来确定所建议SDD的内核\(\α{1}+\压裂{1}{2}\)、和\(\alpha_{2}+\frac{1}{2}\),其中我们可以求解相应的积分,我们的结果采用以下形式

$$\开始{array}{*{20} 我}E(x{1}{\cdot}x{2})=\frac{\Gamma\left(\alpha{1}+\frac}{2}\right)\Gamma\ left(\ alpha{2}+\ frac{1}}{2{\right}。\结束{数组}$$
(18)

通常,对于任何一对变量(x个,x个j个)我们可以写

$$\开始{array}{*{20} 我}E(x{i}{\cdot}x{j})=\delta{ij}\cdot\frac{\alpha{i}}{\alba{0}}+(1-\delta}i})\cdot\frac{\mu{i}\cdot \mu{j}}{\ alpha{0},\end{array}$$
(19)

哪里δij公司是delta Kronecker,我们也可以写出任何一对变量的协方差(x个,x个j个)作为

$$\开始{array}{*{20} 我}COV(x{i},x{j})=\left(\frac{1}{\alpha{0}}-\frac}1}{\mu{0}^{2}}\right)\mu{i}\cdot\mu{j}\text{for}{i}\neq{j}。\结束{数组}$$
(20)

我们也可以写出任何一对变量的协方差(x个,x个j个)作为

$$\开始{array}{*{20} 我}COV(x{i},x{j})=\delta_{ij}\cdot\left(\frac{\alpha_{i=j}}{\alba_{0}}-\frac}\mu_{i}^2}}{\mu_}0}^2{}\right)+(1-\delta{ij{)\cdot\ left{2}}\右)\mu{i}\cdot\mu{j},\end{array}$$
(21)

用矩阵表示法也可以写成

$$\boldsymbol{\Sigma}=\left[{\begin{array}{cccc}\frac{\alpha_{1}}{\alba_{0}}-\frac}\mu_{1{^{2}}{\mu_}0}^{2{}&\left(\ frac{1}{\alpha_{0{}-\frac{1{\mu_0}^2}\right \dots&\dots\\left(\frac{1}{\alpha{0}}-\frac}1}{\tu{0}^{2}}\right)\mu{2}\cdot\mu{1}&\frac\\alpha{2}{\阿尔法{0}{-\frac{\mu{2]^{2{{{0}}{4}\\dots\\hdots代表的是&\点\\dots&\点&\点$$

等效表达式为

$$\boldsymbol{\Sigma}=\frac{1}{\alpha_{0}}\left[{\begin{array}{cccc}\alpha_{1}-\mu_{1}^{2}&0&\点&\点\\0&\阿尔法_{2}-\mu{2}^{2}&\点\\dots\\hdots用于{4}\\dots&\点&\点_{米}-\mu_{m}^{2}\\end{array}}\\right]-\左(\frac{1}{\mu_{0}^{2]}-\ frac{1}{\alpha_{0{}\\right)\boldsymbol{\mu}\boldsymbol{\ mu}^{T}$$

类似地,我们让

$$\开始{array}{*{20} 我}\boldsymbol{\Sigma}=\frac{1}{\alpha_{0}}诊断(\boldsymbol{\salpha})-\frac}C^{2}\mu_{0{}}{\阿尔法{0}诊断\right)\bar{\boldsymbol{\mu}}\bar{\ boldsympol{\mo}}^{T},\end{array}$$
(22)

哪里

$$\开始{array}{*{20} 我}C=\frac{|{\boldsymbol{\mu}}||}{\mu_{0},\quad\bar{\bolsymbol{\mu{}}=\frac{\bodsymbol}{|{\ boldsympol{\mo}}|},\ quad\bar{\boltsymbol}\mu}}在\Omega_{m-1}中,\end{array}$$
(23)

它以简洁的形式总结了我们的结果。

模式和与平均值的关系

SDD的模式可以通过查找的值来确定α这样可以最大化此函数,或者,我们也可以最大化该函数的日志,因为这是一个习惯性的过程,通常更容易实现。首先,获取SDD的自然日志并添加约束\(总和{i=1}^{m} x_{i} ^{2}=1\)为了使用拉格朗日乘数,我们得到

$$\开始{array}{*{20} 我}{ln}f_{text{SDir}}(\mathbf{x},\alpha)=\ln\left(\frac{2^{m-1}\Gamma(\alpha_{0})}{\prod_{i=1}^{m}\Garma(\alpha_{i}){\right)+\sum_{i=1{m}(2\alpha_{i} -1个)\在{x_{i}}_{米}-\λ\左(\sum_{i=1}^{m} x个_{我}^{2}-1\右),\结束{数组}$$
(24)

对……求导x个并将其设置为零

$$\开始{数组}{*{20} 我}\frac{\partial{\ln}f_{\text{SDir}}}{\paratilx{i}}=(2\alpha_{i} -1个)\frac{1}{x{i}}-2{x{i}}\lambda=0\text{for}i<m,\end{array}$$
(25)

解决\(x{i}^{2}\),它产生

$$\开始{array}{*{20} 我}x{i}^{2}=\frac{2\alpha_{i} -1个}{2\lambda}\text{for}i<m,\end{array}$$
(26)

类似地,对x个

$$\开始{array}{*{20} 我}frac{\partial{\ln}f_{\text{SDir}}}{\paratilx{m}}=(2\alpha_{m} -1个)\分形{1}{x{m}}-\分形{1{x{m}}-2{x{m2}\lambda=0\text{for}i=m,\end{array}$$
(27)

并解决x个,我们有

$$\开始{array}{*{20} 我}x{m}^{2}=\frac{\alpha_{m} -1个}{\lambda}\text{for}\i=m,\end{array}$$
(28)

将这些结果代入约束条件,我们可以求解λ作为

$$\开始{array}{*{20} 我}\lambda=压裂{1}{2}(2\alpha_{0}-m-1),\结束{数组}$$
(29)

在那里我们可以获得模式x个作为

$$\开始{array}{*{20} 我}\text{(模式)}x{i}=\sqrt{\frac{2\alpha_{i} -1个}{2\字母_{0}-m-1}}\text{for}\i<m,\end{array}$$
(30)

和用于x个

$$\开始{array}{*{20} 我}\text{(模式)}x_{m}=\sqrt{\frac{2(\alpha_{m} -1个)}{2\字母_{0}-m-1}}\text{for}\i=m.\end{array}$$
(31)

考虑到对称SDD的特殊情况,我们设置α=α对于<、和\(\alpha_{m}=\alpha+\frac{1}{2}\),两者都是(30)和(31)产量

$$\开始{array}{*{20} 我}\text{(模式)}x{i}=\sqrt{\frac{2\alpha-1}{m\cdot(2\alfa-1)}}=\frac{1}{\sqrt}}\text{for}\\alpha\neq\frac}1}{2}\text}for}\i\leq-m,\end{array}$$
(32)

对称SDD的平均值α=α对于<、和\(\alpha_{m}=\alpha+\frac{1}{2}\),收益率

$$\开始{array}{*{20} 我}E(x{i})=\frac{\mu{i}}{\mu_{0}}=\frac{\Gamma\left(\alpha+\frac{1}{2}\right)}{\Garma(\alpha)}\cdot\frac}\Gamma(\alfa{0})}{\ Gamma\leaft{\right)}{\Gamma(\alpha)}\cdot\frac{\Gamma\left(m\alpha+\frac}{2}\right$$
(33)

我们可以看到,模式与对称SDD的预期值不匹配,但是,我们仍然可以使用Frame开发的表达式找到渐近关系(1949年框架),

$$\开始{array}{*{20} 我}{\lim}_{x\to\infty}f(x)=\frac{\Gamma(x+a)}{\Garma(x)}=x^{a},\end{array}$$
(34)

使用这个近似值,它会产生

$$\开始{数组}{*{20} 我}{\lim}_{\alpha\to\infty}E(x{i})=\左(\alpha^{\frac{1}{2}}\右)\cdot\frac}{(m\alpha)^{\frac{1{2}{}=\ frac{1\sqrt{m}},\end{array}$$
(35)

哪里

$$\alpha_{i}=\alpha\text{表示}i<m,\;\;\alpha_{m}=\alpha+\frac{1}{2}、\text{and}\alpha\neq\frac{1}{2}、$$

极限与模式匹配(32).

SDD与其他发行版的关系

在本节中,我们将探讨SDD与其他流行分布(如均匀分布、冯·米塞斯分布及其Fisher-Bingham分布的特殊情况)之间的关系或缺乏关系。我们考虑不同浓度参数值的极限情况α.

大型对称分布的极限情况α

假设对称SDDα=α,用于α我们可以写

$$\开始{array}{*{20} 我}f_{\text{SDir}}(\mathbf{x};\alpha)&=2^{m-1}\frac{\Gamma(m\alpha)}{\Garma(\alpha)^{m}}\prod_{i=1}^{m{{x{i}}^{2\alpha-1}\cdot x{m}^{-1},\end{array}$$
(36)

受限制

$$\开始{array}{*{20} 我}0\leqq x_{i}\leqq1,\;\;\和{i=1}^{m}{x{i}^{2}}=1,\;\;\alpha\in\Re^{+},\end{array}$$

在这种情况下,协方差矩阵可以简化为

$$\开始{array}{*{20} 我}\boldsymbol{\Sigma}=\frac{1}{m}\左{我}-\左(\frac{\mu_{\alpha}}{\mu_{0}}\right)^{2}\left(1-\frac}\mu_0}^{2{}{m\alpha{}\rift)\boldsymbol{1}\boldsymbol{1'^{T},\end{array}$$
(37)

哪里

$$\开始{array}{*{20} 我}\mu_{\alpha}=\frac{\Gamma\left(\alpha+\frac{1}{2}\right)}{\Garma(\alpha)},\quad\mu_{0}=\frac{\Gamma\left$$

试图将SDD编写为Mardia所示类型的旋转分布(Mardia和Jupp 2000),后一个表达式可以重写为

$$\开始{array}{*{20} 我}\boldsymbol{\ Sigma}=\left(1-\frac{mu_{\alpha}^{2}}{\alpha}\right)\left(\frac{1}{m}\boldsymbol{我}-\bar{\boldsymbol{\mu}}\bar{\baldsymbol{\muneneneep}^{T}\right)+\ left(1-m\frac{\mu{\alpha}^{2}}{\mu_{0}^{2\right)\bar{\ boldsympol{\mu}}\bar{\bolsymboldsyMBol{\mo}}^{T},\end{数组}$$
(38)

或同等

$$\开始{数组}{*{20} 我}\boldsymbol{\Sigma}=var(x)m\bar{\boldsymbol{\ mu}}\bar{\ boldsympol{\mu}}^{T}+\left(\frac{1-\frac}\mu_{\alpha}^{2}}{\alfa}}{m}\right)\left{一} -米\bar{\boldsymbol{\mu}}\bar{\baldsymbol{\muneneneep}^{T}\right),\end{array}$$
(39)

然而,我们无法使用Frame开发的表达式确定与von Mises或类似的旋转对称分布的等价性(1949年框架),我们可以看到在极限情况下α因此α0我们有

$$\开始{array}{*{20} 我}{\lim}_{\alpha\to\infty}\mu_{\alpha}={\lim}_{\ alpha\to \infty}\frac{\Gamma\left(\alpha+\frac{1}{2}\right)}{\Garma(\alha)}=\alpha^{\frac}{2{},\end{array}$$

$$\开始{数组}{*{20} 我}{\lim}{\alpha\to\infty}\mu{0}={\lim}{\alpha\to\frity}\frac{\Gamma\left(m\alpha+\frac{1}{2}\right)}{\Garma(m\阿尔法)}=(m\alpha)^{\frac}{1}},\end{array}$$

在极限范围内

$$\开始{array}{*{20} 我}{\lim}_{\alpha\to\infty}\boldsymbol{\Sigma}={\lim}_{\ alpha\to \infty}\left(1-\frac{\mu_{\alpha}^{2}}{\alfa}\right)\left{我}-\bar{\boldsymbol{\mu}}\bar{\baldsymbol{\muneneneep}^{T}\right)+\ left(1-m\frac{\mu{\alpha}^{2}}{\mu_{0}^{2\right)\bar{\ boldsympol{\mu}}\bar{\bolsymboldsyMBol{\mo}^{T}=0,\end{array}$$

我们得出结论,对于较大的值α协方差矩阵趋于零,因此,SDD趋向于集中为无变化的向量。

极限情况均匀分布

我们现在考虑以下情况\(\alpha_{i}=\frac{1}{2}\),用于<α=1,SDD采用以下形式

$$\开始{array}{*{20} 我}f_{\text{SDir}}(\mathbf{x};\alpha)=\frac{2^{m-1}\Gamma\left(\frac}m-1}{2}+1\right)}{\prod_{i=1}^{m-1\Gamma\leaft(\frac{1}{2\right)\Gamma(1)}\prod\i=1}{m-1{x{i}}}^2\frac{1{{2}-1}\cdot x{m}^{2(1)-2}=\frac{2^{m-1}\Gamma\左$$
(40)

它是一个与以下值无关的恒定厚度x个然后,SDD成为超球体正方向上的均匀分布。

SDD与von Mises和Fisher Bingham分布的异同

von Mises分布通常被认为是Mardia在(Mardia 1975年). 对于三维球体的von Mises分布及其特殊情况,即Fisher-Bingham分布,对于较大的κ如Kent所示(肯特1982).

对于大值的α,但它往往集中为一个向量,因为它是在SDD限制情况的相应章节末尾建立的。

此外,对于非常小的κ与SDD成为上一小节末尾所述参数值的均匀分布类似。

球面Dirichlet分布的推论

我们现在考虑SDD参数的估计。我们的主要兴趣是开发适当的程序来估计参数集α,给出位于超球面正方向的随机向量样本。我们首先推导了α使用矩量法(MOM),然后我们使用最大似然估计(MLE)方法为同一组参数开发估计量。

力矩法(MOM)

使用Narayanan开发的类似程序(Narayanan 1992年)为了估计Dirichlet分布的参数,假设我们有一个随机样本n个随机向量X(X)1,X(X)2,....X(X)n个这样的话\(X_{i}\in\Re^{m}=\left[X_{j}|j=1…,m;X_{j}>0,sum_{j=1}^{m} x个_{j} ^{2}=1\右]\)那就是身份证了

$$\开始{array}{*{20} 我}E(x_{i})=\frac{\Gamma\left(\alpha_{i}+\frac{1}{2}\right)}{\Gamma(\alpha_{i})}\cdot\frac{\Gamma(\alpha_{0})}{\Gamma\left(\alpha_{0}+\frac{1}{2}\right)}=\frac{\mu_{i}}$$
(41)

$$\开始{array}{*{20} 我}左(x_{i}^{2}\右)=\frac{\alpha_{i{}{\alba_{0}}\text{for}\\forall i.\end{array}$$
(42)

我们将样本力矩定义为

$$\开始{array}{*{20} 我}X_{1j}^{'}=\frac{1}{n}\sum_{i=1}^{n} x_{ij}\四j=1,。。,m、 \结束{数组}$$
(43)

$$\开始{array}{*{20} 我}X_{2j}^{'}=\frac{1}{n}\sum_{i=1}^{n} x个_{ij}^{2}\四j=1,。。,m.\结束{数组}$$
(44)

我们有m-1个一阶矩方程和m-1个要求解的二阶矩方程未知数α。为了避免线性相关性,并且为了简单起见,我们选择一个一阶矩,以及m-1个二阶矩方程

$$\开始{array}{*{20} 我}\压裂{\Gamma\左(\alpha_{1}+\压裂{1}{2}\right)}{\Gama(\alba_{1{)}\cdot\frac{\Garma(\alfa_{0})}{\伽马\左(\ alpha_0}+\裂缝{1}{2}\右)}=\压裂{1}{n}\sum_{i=1}^{n} x个_{i1}=X_{11}^{'},\结束{数组}$$
(45)

然后,剩下的m-1个二阶矩方程为

$$\开始{array}{*{20} 我}\frac{\alpha_{i}}{\alpha_{0}}=\frac{1}{n}\sum_{i=1}^{n} x个_{ij}^{2}=X_{2j}^}'}\text{\quad}j=2,。。。,(m-1)。\结束{数组}$$
(46)

没有的闭式解决方案α同时求解(45)和(46),因此我们必须进行数值求解,以获得相应的矩估计方法α。MOM的结果可以用作MLE的初始值,通常具有更好的统计特性。

最大似然估计(MLE)

假设我们有一个关于超球面正方向向量的随机样本,X(X)1,X(X)2,....X(X)n个,其中X(X)使用(3)中定义的pdf从SDD获取。那么,对数似然是

$$\开始{array}{*{20} 我}\ln{L}(黑体符号\alpha)&=\ln\prod_{i=1}^{n}\frac{2^{m-1}\Gamma\left(sum_{j=1}^}\alpha_{j}\right)}{\prod\j=1}^{m}\Gama_{j} -1个}\cdot x{im}^{-1}。\结束{数组}$$
(47)

SDD的参数可以通过最大化数据的对数似然函数来估计,其过程与Minka在(明卡2000). 我们可以将所有常数项分组为K,我们可以将所有乘积和总和改写为

$$\开始{array}{*{20} 我}ln{L}(黑体符号\alpha)&=K+n\ln\Gamma\left(sum_{j=1}^{m}\alpha_{j}\right)-n\sum_{j=1}^{m}\ln\Garma(\alpha_a{j})+\sum__{i=1}^}_{j} -1个)\ln{x{ij}}-\sum{i=1}^{n}\lnx{im},\\&=K+n\left(ln\Gamma\left(\sum_{j=1}^}\alpha_{j}\right)\,-\,\sum_ju=1}^m}\ln\Garma(\alpha{j})\,+,\sum_{j=1{m}(2\alpha_ju}\,-,1)\frac{1}{n}\sum_{i=1}^{n}\ln{x{ij}}-\frac{1}{n}\sum{i=1{^{n}\ln x{im}\right),\end{数组}$$

其中,删除不必要的常量后需要优化的函数是

$$\开始{array}{*{20} 我}F(粗体符号{\alpha})=\ln\Gamma\left(\sum_{j=1}^{m}\alpha_{j}\right)-\sum_{j=1}^{m}\ln\Gamma_{j} -1个)\左(frac{1}{n}\sum{i=1}^{n}\ln{x{ij}}\右)-。\结束{数组}$$

目标函数的梯度可以通过微分log-likelihood ln得到如果(α)关于αk个作为

$$\开始{array}{*{20} 我}\nabla(F){k}=\frac{\partialF}{\parial\alpha{k}}=\Psi\left(\sum_{j=1}^{m}\alpha_{j}\right)-\Psi(\alpha_a{k})+2\left$$
(48)

哪里\(\Psi=:\frac{d\ln\Gamma(x)}{dx}\)是digamma函数。优化受约束\(\alpha_{i}\geqq0\)SDD是指数族的成员,因此它是一个凸函数,观察到的充分统计值等于预期的充分统计,其中后者是

$$\开始{数组}{*{20} 我}左(x{k}\right)=\frac{1}{2}\Psi(\alpha{k})-\frac}{1}}\Psi\left(\sum{j=1}^{m}\alpha_{j}\rift),\end{array}$$
(49)

观察到的充分统计是

$$\开始{array}{*{20} 我}\frac{1}{n}\sum{i=1}^{n}\ln{x{ij}},\end{array}$$
(50)

这将导致以下迭代过程

$$\开始{array}{*{20} 我}\Psi(\alpha_{k}^{new})=\Psi\left(\sum_{j=1}^{m}\alpha{j}^{old}\right)+2\left。\结束{数组}$$
(51)

虽然所建议的程序一般不能保证达到全局最大值,但可以连续更新(51)提供了合理的结果,并且收敛速度通常很快。

数据应用程序

现在让我们考虑SDD参数的估计。我们首先使用从建议的SDD生成的模拟数据开发了一个示例,其中的参数我们假设对此估计未知。接下来,使用文本挖掘示例开发了第二个示例,其中的数据来自公共可用的数据集。使用矩量法和最大似然估计法的相应章节中所述的拟议技术,使用矩量模型和最大似是图求解了这两个示例,并对两种方法获得的结果进行了比较。

仿真示例

进行了四种不同的模拟,每个模拟都有1000个随机生成的数值,这些数值来自三维超球体中的SDD,参数值已知α1,α2α这些参数对应值的曲线如图所示2使用相应章节中开发的MOM和MLE程序进行推断,以估计这些未知参数的值。下图显示了与提议的四组不同参数相对应的SDD图:

图2
图2

模拟示例中具有已知α值的SDD 1和2

图3
图3

模拟示例中具有已知α值的SDD 3和4

首先,使用MOM进行估计,并在(45)和(46). 在每个循环中更新这些值,直到在预设的公差限制内实现收敛。使用矩量法估计的参数值被用作使用MLE的迭代过程的初始值。对于后一种方法表达式(51)连续更新,直到参数值稳定在预设公差水平内。两种方法的估计结果和参数的真实值如表所示1.

表1模拟结果

请注意MLE和MOM之间在表中所示的结果中达成的密切一致1.

文本挖掘示例

使用Lang汇编的公开可用数据集开发了一个文本挖掘示例(冗长的). 有一个关于几个兴趣组的电子邮件示例,选择了“自动”主题,并使用标准数据挖掘技术进行了总结。从160份随机选择的文件(电子邮件)样本中提取出一个集合,并将其总结为超球体正方向的向量。排除了“来自”或“受试者”等常用术语,因为它们没有提供任何辨别力,可能会对分析产生偏见。对同义词和词干进行词汇缩减,并通过获取其原始频率来提取十个最常见的术语。这些项的频率表示为十维空间中向量的分量。表中可以看到数据集的一小部分2.

表2术语频率

对这些向量进行适当的变换,以减少极值并消除零。这里使用的转换是x个转换=ln(1.10+x个). 这些向量在超球面正象限处标准化为单位长度,并使用提出的多维SDD对其进行十维拟合。对应的估计α建议的分布是使用MOM和MLE完成的,其相应的估计值如表所示

表3文本挖掘结果

在预设公差水平内,将SDD用于MOM程序所需的迭代次数为271次。MOM估计器的最终结果用作MLE程序的初始值,并使用19次额外迭代拟合新模型。虽然MLE程序通常不能保证找到全局最大值,但该方法提供了合理的结果,并且收敛速度足够快。

结论

所提出的SDD是在超球面正方向拟合单位向量的其他竞争方法的一种更好的替代方法。SDD避免浪费概率质量或使用不适合超球体正方向的分布混合物。MOM和MLE的推理结果与模拟数据非常接近,与真实文本挖掘示例相当接近。模拟数据是从提出的SDD中随机生成的,而文本挖掘数据是从实际的文本挖掘问题中获得的。SDD具有灵活性,并且显示了丰富的各种形状,适合于适应广泛的数据,与贝塔分布用于一维空间的方式类似。在适当的变换下,它还可以为超矢量的某些坐标调整零。未来的研究可能旨在增强处理零值分量的能力,避免进一步需要转换数据。

数据和材料的可用性

文本挖掘示例的数据是从Lang收集的公共可用数据集中获得的(冗长的). 本研究期间分析的特定样本可根据合理要求从相应作者处获得。

工具书类

下载参考资料

致谢

作者感谢西班牙马德里卡洛斯三世大学统计系爱德华多·加西亚·葡萄牙人的宝贵帮助。

基金

完成该项目的旅费由德克萨斯农工大学科珀斯克里斯蒂研究与创新部的研究促进拨款提供。

作者信息

作者和附属机构

作者

贡献

JHG是本文的唯一作者。作者阅读并批准了最终手稿。

通讯作者

与的通信何塞·H·瓜迪奥拉.

道德声明

相互竞争的利益

提交人声明,他没有相互竞争的利益。

其他信息

出版商备注

Springer Nature在公布的地图和机构关联中的管辖权主张方面保持中立。

权利和权限

开放式访问本文是根据Creative Commons Attribution 4.0国际许可证授权的,该许可证允许以任何媒体或格式使用、共享、改编、分发和复制,只要您对原始作者和来源给予适当的信任,提供指向Creative Commons许可证的链接,并指出是否进行了更改。本文中的图像或其他第三方材料包含在文章的Creative Commons许可证中,除非材料的信用额度中另有说明。如果材料未包含在文章的知识共享许可证中,并且您的预期用途不受法定法规允许或超过了允许的用途,则您需要直接获得版权持有人的许可。要查看此许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.

转载和许可

关于本文

检查更新。通过CrossMark验证货币和真实性

引用这篇文章

瓜迪奥拉(Guardiola),J.H.《球面-狄里克莱分布》(The spherical-Dirichlet distribution)。J Stat Distribute应用程序 7, 6 (2020). https://doi.org/10.1186/s40488-020-00106-9

下载引文

  • 收到:

  • 认可的:

  • 已发布:

  • 内政部:https://doi.org/10.1186/s40488-020-00106-9

关键词