摘要

数据科学家使用各种机器学习算法来发现大数据中的模式,从而得出可操作的见解。通常,通过获得一组主成分来减少高维数据,以突出相似性和差异性。在这项工作中,我们使用二元混合模型处理简化数据,并使用二元高斯混合模型进行学习。我们讨论了通过使用两种不同的技术选择位置参数的初始值来检测重要组件的启发式方法:聚类平均值,k个-均值和层次聚类,以及“mixtools”R包中的默认值。模型的参数是通过期望最大化算法获得的。对这两种技术的贝叶斯准则进行了评估,证明了这两种方法在计算能力方面都是有效的。通过仿真研究和使用不同领域的实际数据集,证明了所讨论技术的有效性。

1.简介

在工程数据等实际数据中,需要有效的降维以揭示信息的潜在模式。降维可以用于将包含数百万个函数的数据集转换为可管理的空间,以便进行有效的处理和分析。无监督学习是降低维度的主要方法。传统的降维方法可以与统计分析相结合,以提高大数据系统的性能[1]。统计和人工智能研究人员开发了许多降维技术。主成分分析(PCA),由Pearson于1901年引入[2],是这些方法中最流行的方法之一。主成分分析的主要目的是降低由大量相关变量组成的数据集的维数,同时尽可能保留数据集中的变量。在众多PCA方法中,奇异值分解用于数值分析,Karhunen–Loève展开用于电气工程。特征向量分析和特征向量分析常用于物理科学。在图像分析中,Hotelling变换通常用于主成分投影。

近年来,人们对PCA混合模型越来越感兴趣。混合模型为具有加权分量分布的复杂数据建模提供了一个有用的框架。由于其高度的灵活性和高效性,它们被广泛应用于许多领域,包括机器学习、图像处理和数据挖掘。然而,由于混合模型中的成分分布通常被形式化为概率密度函数,因此在高维空间中的实现受到实际考虑的限制。

PCA混合模型基于专家混合技术,该技术通过组合局部线性子模型来建模非线性分布,每个子模型具有相当简单的分布[3]。为了选择模型,Kim、Kim和Bang提出了PCA混合模型[4]它具有更直接的期望最大化(EM)计算,不需要对每个混合成分使用高斯误差项,并使用有效的技术选择模型顺序。研究人员将该模型应用于合成数据的分类和眼睛检测[4].

对于多模过程,开发了高斯混合模型(GMM)来估计正常操作条件下过程数据的概率密度函数。然而,在高共线过程变量的情况下,使用GMM从过程数据中学习可能是困难的或不可能的。Xu、Xie和Wang提出了一种基于PCA混合模型的新型多模监测方法[5]来解决这个问题。在该方法中,首先将主成分分析技术直接应用于每个高斯分量的协方差矩阵,以降低过程变量的维数并获得非奇异协方差矩阵。然后,使用EM算法自动优化混合组分的数量。利用得到的PCA混合模型,开发了一种用于检测多模过程的新型过程监控方案。通过案例研究评估了拟议方法的监测性能[5].

近年来,高光谱成像已成为遥感领域的一个重要研究课题。高光谱成像的一个重要应用是识别土地覆盖面积。高光谱数据的丰富内容使森林、城市地区、作物种类和供水得以识别和分类。2016年,Kutluk、Kayabol和Akan[6]提出了一种基于混合概率PCA(PPCA)模型的高光谱图像监督分类和降维方法。所提出的混合模型同时允许高光谱图像的降维和光谱分类。使用真实高光谱数据获得的实验结果表明,与最先进的方法相比,该方法的分类效果更好[6].

在人脸识别领域,Ahmadkhani和Adibi[7]提出了一种监督版本的PPCA混合模型。该模型提供了许多局部线性基础数据样本。基本流形用于人脸识别应用,以在不丢失信息的情况下实现降维。

在这项工作中,我们通过应用主成分分析技术来降低数据的维数,然后使用一个GMM来处理减少的数据或主成分得分。然后,我们使用EM算法获得参数估计。最后,我们使用三种不同的技术比较了混合模型中位置参数的初始值选择:k个-表示、层次聚类和“mixtools”包中的默认值。

本文的其余部分组织如下。章节2简要定义了主成分分析的概念。在节中3讨论了混合料密度。章节4提供了高斯混合分布的概率密度函数和用于估计混合参数的EM算法。章节5显示了基于提议场景的PCA混合模型。在第节6,实验结果分为三个部分,主要结论如下7.

2.主成分分析

假设我们有-维向量,需要将其减少为-维子空间。通过将原始矢量投影到维度,即跨越子空间的主成分。假设X(X)是的向量随机变量。为了找到主成分,我们计算了方差最大;中的大多数变化将由主要成分,其中.PCA方法确定PCA分量与数据变量之间的相关性;相关性高表示变量重要。是随机变量的已知协方差矩阵.对于,这个PC由提供,哪里是对应于最大特征值.如果选择单位长度,.然后,可以使用拉格朗日乘子技术,通过最大化并选择尽可能大。在这里,是对应于最大特征值的特征向量,也就是说.一般来说主成分,.第二个主成分,,最大化,与…无关.不相关约束可以使用以下任一等式表示:

如果我们选择方程式(3),我们可以写一个拉格朗日函数来最大化如下:

该数量相对于给了我们

接下来,左乘在这个表达式中,我们有其中,如上所述,前两项等于零,并且,导致0.因此,,,是另一个特征值方程,我们使用相同的选择策略是与第二大特征值相关联的特征向量,该特征值产生,即,[8,9].

3.混合料密度

混合物密度定义为组件密度[9,10]。表示组件密度,哪里表示组件参数。我们使用表示组合中的组件,以及,表示数据样本属于混合物成分。A类成分混合物密度定义为

混合模型有一个参数向量,.

我们考虑混合物密度,通过根据多项式分布选择“来源”来对过程进行建模然后从相应的成分密度中提取样本因此,选择震源的概率和基准.方程式(7)给出选择基准的边际概率.我们可以考虑生成数据向量的源作为“缺失信息”;也就是说,给定一个数据点,我们想推断它可能属于哪个源。第节4提出了EM算法,该算法用于迭代估计这种缺失的信息[11,12].

在混合模型中,我们将隐藏变量作为潜在变量处理,表示为.它需要价值作为满足.我们定义联合分布按边际分布和条件分布.一般来说,在混合模型中,我们首先选择一个样本从多项式分布中得出样本的观测值从一个依赖于,即。,

边际分布用混合系数表示,这样,

4.高斯混合

概率密度函数定义为哪里是均值向量,是一个协方差矩阵。

高斯混合分布可以写成高斯的线性叠加形式

现在给定特定值为高斯:

The marginal distribution of求和所有可能状态的联合分布给予

一个重要的导出量是给定数据向量混合分量的“后验概率”[11]:

在图中所示的示例中1,得到的分布是双峰的,表明数据来自两个不同的来源。在图中,红线和绿线表示高斯混合分布的两个分量。

4.1、。高斯混合的EM

EM算法是一种估计方法,用于在数据集具有缺失值或潜在变量时找到最大似然的估计量。在这项工作中,我们假设一个具有固定数量的GMM这些都是众所周知的先验的.

EM的计算方法如下:(1)初始化方法,协方差,和混合系数并评估对数似然的初始值。(2)E步骤:使用当前参数值评估职责:(3)M步骤:使用当前职责重新估计参数:哪里

评估对数似然:并且检查参数或对数似然性的收敛性。如果不满足收敛标准,则返回步骤2[13].

5.高斯混合模型的主成分分析

在本节中,我们将介绍所提方法的步骤。这些步骤也如图所示2.(1)使用PCA技术降低-维度数据集。为了找到主成分,我们首先获得协方差矩阵的特征值和特征向量。特征值是主成分。主成分的总数对应于数据集中变量的总数。(2)选择对应于最大特征值,其中是新特征子空间的维数.(3)将原始数据集转换为低维版本。(4)使用k个-指将数据集划分为簇的聚类方法。使用时k个-也就是说,为数据确定正确的簇数很重要。(5)新数据由高斯混合模型建模,参数设置为假定的初始值。(6)使用EM算法估计未知参数,这些参数表示高斯函数与平均值和协方差之间的混合比例。(7)使用贝叶斯信息准则(BIC)测试评估模型的拟合度;BIC是一组有限模型中的模型选择,其中首选BIC最低的模型[14].

6.实验结果

为了研究该方法的有效性,我们考虑了两种场景。在第一种情况下,混合模型拟合到PCA方法生成的简化数据。在第二种情况下,将聚类方法应用于简化数据,然后将聚类平均值作为混合模型中平均值的初始值,将混合模型拟合到新数据。我们使用不同类型的数据集。该方法是在一个缩放数据集上实现的,其结果在以下部分中进行了说明。我们使用“stats”、“mclust”和“mixtools”R包来实现此方法[1517].

6.1. 模拟案例

我们在不同样本大小(50、100和500)的模拟数据上实现了该方法。考虑一个由四个变量组成的数据集,定义如下:哪里,是的缩放变量, 分别是。模拟数据由四个变量组成,.模拟数据中每个变量的平均值为, , ,.

该实现包括数据集的图形图,如图所示3,其中显示了模拟数据及其三维曲面的成对图。作为第一步,我们应用了主成分分析方法;结果汇总在表中1,表示组件的总方差。实际上,主成分分析在没有信息损失的情况下,用几个变量来描述数据。如图所示4(a)和表1,两个分量解释了总方差的93%。我们认为这两个分量构成了一个新的数据集,即RD数据,其中包含原始数据93%的信息。RD数据的经验分布如图所示4(b).

因此,我们对RD数据拟合了一个二元二元混合模型。5(a)显示两个分量GMM对新数据的拟合(具有500个数据点);该图指定了每个组件的平均值和sigma值。为了估计每个分量的密度参数,我们对双变量数据的混合物使用了EM算法。2给出了每个组件的模型参数估计值;它还显示了不同样本大小的估计值。我们计算了表中所示三种情况下模型的BIC2并观察到BIC值随着样本量的增加而变大。5(b)显示了对数似然与迭代次数的关系图;很明显,随着迭代次数的增加,对数似然仍然很低,EM方法达到了收敛。

第二种情况涉及混合模型中平均值的初始值的选择;这是通过应用k个-表示减少数据的方法。然后,将聚类的中心(或平均值)作为初始值。因此,使用k个-表示方法,表示为PC1和PC2,如图所示6(a)PC1的聚类平均数为1.343257和−1.210463,而PC2的聚类平均值为−0.02877005和0.02592586。在下一步中,使用聚类平均值作为初始值,将二元GMM拟合到RD数据。拟合的双变量GMM的可视化如图所示6(b)表中给出了结果摘要3得出的BIC值为3389.031,与GMM的BIC相同,如表所示2.

对混合法和聚类法的参数估计进行了比较。这个k个-均值方法计算给定数据的传统欧几里得距离,而GMM通过在其测量计算中考虑方差来计算加权距离。人们可以认为混合模型是泛化的k个-指将数据的协方差结构以及潜在高斯中心的信息合并在一起的聚类。

6.2. 法医玻璃碎片数据

在本节中,使用法医玻璃碎片(FG)数据(在R包中可用)实现了所建议的方法。FG数据包括214个观察值和10个变量。考虑四个选定变量,锰(Mg)、铝(Al)、硅(Si)和钾(K),以及碎片类型(WinF、WinNF、Veh、Con、Tabl和Head)。请注意,变量类型仅用于对数据进行分类。7(a)显示了缩放数据集的四个测量值的成对图。

作为第一步,我们将主成分分析方法应用于数据,以获得维数的线性估计。结果总结见表4如图中的碎石图所示7(b),三个分量解释了总方差的89%,两个分量解释70%。因此,我们在下文中考虑前两个分量。

因此,将双组分双变量混合模型拟合到FG数据,如图所示8(a)每个组件的平均值和σ值也如图所示8(a)为了估计每个分量的密度参数,我们对二元数据的混合物使用EM算法。注意,初始值是使用“mixtools”包选择的。5给出了每个组件以及BIC的模型参数估计值。8(b)显示了对数似然与迭代次数的关系图;很明显,随着迭代次数的增加,对数似然仍然很低,EM方法达到了收敛。

接下来,我们研究了基于不同聚类方法获得的聚类中心的混合模型中位置参数初始值的选择:k个-方法和层次聚类。首先k个-将均值方法应用于简化的FG数据,然后将聚类中心(或均值)作为初始值。PC1和PC2的结果数据可视化如图所示9(a)PC1的聚类中心(平均值)为-0.36697和1.45934,PC2的聚类中心为0.35596和-1.41558。然后,使用聚类平均值作为初始值,将二元GMM拟合到简化的FG数据。结果总结见表6,拟合的混合料模型图如图所示9(b)得出的BIC为1174.485。

其次,使用带有“mclust”包的分层聚类来选择位置参数的初始值。作为第一步,将分层聚类应用于缩减的FG数据。PC1和PC2的结果数据可视化如图所示10(a)PC1的结果中心分别为1.49372和-0.51297,而PC2的结果中心为-0.58542和0.20104。在下一步中,使用聚类平均值作为初始值,将二元GMM拟合到简化的FG数据,如图所示10(b).表7显示了混合模型的结果,得出的BIC为1111.483。

我们观察到,使用聚类方法选择位置参数的初始值提供了良好的结果,与使用“mixtools”包选择初始值获得的结果类似。

6.3. 应用于实际数据

在本节中,建议的方法是在从“Knoema”网站获得的实际数据集上实现的[18]。Knoema是全球决策数据最全面的来源之一。特定年份(2016年)100个国家的癌症发病率数据集包括3168个观察结果和32个变量,涵盖不同的癌症类型。在第一步中,我们使用主成分分析方法以线性方式近似数据的维数。表中总结了前五个主要组成部分的结果8如图中的碎石图所示11,93%的总方差由前两个分量描述。因此,我们在下文中考虑前两个组件。

因此,数据通过双组分双变量混合模型进行拟合,如图所示12(a),它给出了每个组件的平均值和σ值。我们对二元数据混合物使用EM算法来确定每个成分的密度参数。初始值由“mixtools”包建议。模型参数估计值见表9对于每个组件,以及BIC。12(b)显示了对数似然与迭代次数的关系图;对数似然性随着迭代次数的增加而保持较低并且EM方法达到收敛。

然后,我们使用具有不同聚类技术的聚类中心(k个-均值和层次聚类)分析混合模型位置参数的初始参数选择。首先k个-将均值方法应用于简化数据,然后将聚类中心(或均值)作为初始值。PC1和PC2的结果数据可视化如图所示13(a)PC1的聚类中心(平均值)为14.19303和−1.0799,而PC2的聚类中心为−3.22915和0.24569。然后,使用聚类平均值作为初始值,将二元GMM拟合到简化数据。结果总结见表10,拟合的混合物模型图如图所示13(b)得到的BIC为556.9627。

其次,使用层次聚类方法指定位置参数的初始值;这是使用“mclust”包实现的。作为第一步,实现了简化数据的分层聚类。14(a)提供了PC1和PC2的可视化数据:PC1的结果中心为9.39997和-0.58877,而PC2的结果中心则为2.25038和-0.14095。在下一步中,使用聚类平均值作为初始值,在简化数据上拟合二元GMM;拟合数据如图所示14(b).表11显示了混合模型的结果和556.9629的BIC。

我们观察到,使用聚类方法选择位置参数的初始值提供了良好的结果,与使用“mixtools”包选择初始值时获得的结果类似。

7.结论

本文旨在研究主成分分析在混合模型中的应用。首先,我们讨论了著名的PCA技术用于降维,并将其应用于高维数据集。然后,在简化数据(仅包含两个变量)中,我们一起处理这两个变量,并将两个分量的双变量GMM拟合到数据中。我们使用EM算法估计模型参数。该方法适用于高维的大数据集,可以解决过拟合问题。我们比较了在混合模型中选择位置参数初始值的三种不同方法:两种聚类方法,k个-表示和层次聚类,以及“mixtools”包中的默认值。通过这三种技术,EM收敛,获得了相似的BIC值。

数据可用性

数据来自Knoema网站,该网站是世界上最全面的全球决策数据来源之一(世界和区域统计数据、国家数据、地图、排名)(检索自https://knoema.com/Atlas网站).

披露

本文是第一作者在第二作者的指导下撰写的硕士论文的组成部分。

利益冲突

提交人声明他们没有利益冲突。

致谢

作者想特别感谢达勒姆大学的Jochen Einbeck博士提出的建设性意见,这些意见极大地改进了论文。这项工作由吉达阿卜杜勒阿齐兹国王大学科学研究院(DSR)资助,拨款号为DG 010-247-1440。作者感谢DSR的技术和财务支持。