Robust K-Median and K-Means Clustering Algorithms for Incomplete Data

Li, Jinhua; Song, Shiji; Zhang, Yuli; Zhou, Zhen

doi:https://doi.org/10.1155/2016/4321928

工程中的数学问题

在本页上

研究文章|开放式访问

体积2016|文章ID4321928|https://doi.org/10.1155/2016/4321928

不完全数据的稳健K-Median和K-Means聚类算法

李金华,¹宋世济,¹张玉莉（Yuli Zhang）,^1,2和Zhen Zhou（周震）^三

学术编辑：洪元中

收到2016年5月25日

认可的2016年10月31日

出版2016年12月4日

摘要

在聚类问题中，缺少特征值的不完整数据很常见。传统的聚类方法首先通过插补估计缺失值，然后对完整数据应用经典的聚类算法，如K-median和K-means。然而，在实际应用中，往往很难获得缺失值的准确估计，这会降低聚类的性能。为了增强聚类算法的鲁棒性，本文用区间数据表示缺失值，并引入鲁棒聚类目标函数的概念。为了提供对估计误差不敏感的聚类结果，提出了一种极大极小鲁棒优化（RO）公式。为了解决RO问题，我们提出了鲁棒的K-median和K-means聚类算法，具有较低的时间和空间复杂度。对人工生成和真实世界不完整数据集的实验结果进行比较和分析，验证了所提出算法的稳健性和有效性。

1.简介

在数据挖掘和机器学习领域，经常会出现所考虑的数据集包含多个缺少特征值的观测值。由于各种原因，这种不完整的数据出现在广泛的应用领域，包括数据集收集过程不当、获取某些特征值的成本高昂以及问卷中缺少响应。例如，在线购物用户可能只对可用书籍、电影或歌曲中的一小部分进行评级，这导致大量功能价值缺失，Marlin[1]. Sebesyen首次对不完整数据进行模式识别的理论研究[2]在某些概率假设下。Dempster等人还提出了期望最大化算法来计算缺失数据的最大似然估计[三]. Dixon报道了对不完整数据的早期实证研究[4]还有Jain和Dubes[5].

聚类分析被认为是提取有用特征和探索潜在数据模式的有效方法。由于缺失特征值的存在，迫切需要对许多领域中的不完整数据进行聚类，例如图像分析[6]，信息检索[7]和临床医学[8]. 对于不完全数据的聚类，基本方法是两步法，首先使用插补估计缺失的特征值，然后应用经典的聚类方法。Troyanskaya等人[9]研究基因微阵列数据的三种基于插补的聚类方法，包括奇异值分解、加权K近邻（KNN）和行平均法。Troyanskaya等人[9]得出结论，KNN方法似乎比其他方法提供了更稳健、更敏感的缺失值估计结果。宫本茂等人[10]还使用类似的基于插补的模糊c均值（FCM）方法处理不完整数据。阿库纳和罗德里格斯[11]和Farhangfar等人[12]比较不同缺失值插补方法的性能，包括单一插补方法，如均值、中位数、hot-deck和Naive-Bayes方法，以及用于分类问题的基于多元回归的多重插补方法。萨拉瓦南和塞拉克什米[13]提出了模糊概率c均值算法，利用遗传算法对缺失值进行插补。

除了基于插补的方法外，海瑟薇和贝兹德克[14]提出了四种策略，使经典的FCM聚类算法适用于不完全数据。最简单的完整数据策略（WDS）删除所有不完整的样本，并将FCM算法应用于剩余的完整数据。只有当只有少数不完整的样本包含缺失的值时，此策略才有用。为了计算FCM实施过程中缺失数据的距离，可以使用部分距离策略（PDS）。PDS也用于Dixon的模式识别[4]以及Miyamoto et al[10]蒂姆和克鲁斯[15]. 第三和第四种策略可视为基于迭代插补的方法。最优完成策略（OCS）通过迭代优化过程中的最大似然估计来插补缺失值，而最近原型策略（NPS）是对OCS的简单修改，其中只考虑最近原型来插补遗漏元素。还提出了不排除或插补不完整数据的聚类方法。Shibayama公司[16]使用主成分分析（PCA）方法捕获不完整数据的结构以及本田和一桥[17]提出了基于局部主成分分析的线性模糊聚类方法。张和陈[18]针对不完备数据，提出了一种基于核的FCM聚类算法，该算法基于模糊隶属度和聚类原型来估计缺失的特征值。Sadaaki等人[19]进一步将线性模糊聚类与Hathaway和Bezdek提出的PDS、OCS和NPS相结合[14].

直接插补和迭代插补（如OCS、NPS）方法都假设缺失特征值可以通过单个值很好地估计。然而，通常很难获得对缺失值的准确估计，因此基于插补的聚类方法对估计精度很敏感。为了解决这个问题，Li等人[20]使用最近邻区间来表示缺失值，并通过为区间数据定义新的区间距离函数来扩展FCM。区间数据已被证明是处理缺失值的有效方法，并进一步用于提出有效的聚类方法。Li等人[21]也用区间数据表示缺失值，但使用遗传算法搜索区间中缺失值的适当插补。Wang等人[22]使用改进的反向传播（BP）神经网络估计区间数据中的缺失值。Zhang等人[23]提出了一种基于预分类结果的改进区间构造方法，并使用粒子群优化算法搜索最优聚类。Zhang等人[8]用概率信息粒表示缺失值，并设计一种高效的三级交替优化方法，以同时找到最优聚类结果和最优缺失值。

近年来，稳健优化作为处理不确定或缺失数据的有效方法被广泛接受，并被应用于数据挖掘和机器学习领域，如极小极大概率机器[24–27]，稳健的支持向量机[28,29]和稳健二次回归[30]. 本文旨在为不完备数据设计鲁棒聚类算法。基于预分类的改进区间构造方法用于获取缺失值的区间数据。基于区间数据表示，我们提出了稳健的K-median和K-means聚类算法。与现有算法不同，现有算法使用区间距离函数或最优插补[20,21,23]，我们将聚类问题重新定义为基于区间数据的minimax鲁棒优化问题。

具体来说，对于给定的聚类原型和隶属度矩阵，我们引入了鲁棒聚类目标函数的概念，即当缺失值在构造的区间内变化时，聚类目标函数最大值。然后，提出的算法旨在寻找最优的聚类原型和隶属度矩阵，从而最小化鲁棒聚类目标函数。对于稳健K-中值和K-均值聚类问题，我们给出了稳健目标函数的等价形式，并给出了有效的求解方法。与现有方法相比，该算法对构造区间的估计误差不敏感，特别是在丢失率较高的情况下。对UCI数据集的数值实验结果的比较和分析也验证了所提鲁棒算法的有效性。

与现有算法相比，所提出的鲁棒聚类算法具有双重优势。首先，我们的算法可以在不插补缺失特征值的情况下对不完整数据进行聚类，并提供对估计误差不敏感的稳健聚类结果。实验还通过与现有算法的比较，验证了该算法在鲁棒性和准确性方面的有效性。其次，所提出的算法易于理解和实现。具体来说，稳健的K-median和K-means聚类算法的时间复杂度为和，其中是对象数，是特征的尺寸，是簇数，并且是迭代次数。我们的算法与经典的K-median和K-means聚类算法具有相似的计算复杂度，并且比Zhang等人提出的不完全数据聚类算法效率更高[8]随着时间的复杂性（当用于稳健的K-means聚类算法）。

论文组织如下。章节2回顾了经典的K-median和K-means算法，并提出了稳健的K-medin和K-means聚类问题。章节三给出了所提出的鲁棒优化问题的有效算法。章节4报告实验结果。最后，我们总结了本文，并在第节中指出了进一步的研究方向5.

2.鲁棒聚类算法

2.1. 完备数据的K-中值和K-均值聚类

考虑对一组物体进入之内集群。对于每个对象，我们有一套特征，其中描述了物体的特征在数量上。让是对象的特征向量和是特征矩阵或数据集。

聚类任务可以重新表述为一个优化问题，使以下聚类目标函数最小化：在以下约束条件下：哪里。对于,是第个集群原型，对于任何,指示对象是否属于第个集群。K-median和K-means是解决聚类问题的有效算法和分别是。在下面，让集群原型矩阵和成员矩阵，其中和.

这两种算法都以如下迭代方式解决了聚类问题。

步骤1。设置迭代索引并随机选择不同对象作为初始集群原型.

第2步。让，并更新成员关系矩阵通过固定集群原型矩阵。对于任何，随机选择，并设置并且，对于任何，套.

步骤3。更新集群原型矩阵通过固定成员矩阵.何时，对于任何和，套作为簇中这些对象的特征值.何时，对于任何，套作为簇中这些对象的质心; 也就是说，

步骤4。如果，对于任何和，我们有，然后停止并返回和; 否则，转至步骤.

2.2. 不完全数据的稳健K-中值和K-均值聚类

由于各种原因，特征矩阵可能包含缺少的组件。例如，当，对于某个对象，我们可能有，表示对象的第三个特征值缺少。我们指的是一个数据集作为不完整的数据集，如果它包含某些对象的至少一个缺失特征值；也就是说，至少存在一个和，因此。描述缺失的数据集，我们进一步划分了分成两个子集：

实际上，很难获得缺失特征值的准确估计。因此，在本文中，我们用区间表示缺失值。具体来说，对于任何，我们使用间隔表示未知缺失特征值，其中和使用表示已知特征值，其中。为了简化符号，在下面，让和对于任何和对于任何有关如何为缺失值构造这些间隔的详细信息，请参见Li等人[20]和Zhang等人[23].

本文旨在设计鲁棒聚类方法，以保证聚类输出的最坏情况性能。该方法的逻辑可以解释为一个两层博弈：聚类决策者首先进行聚类决策，然后对手从特定的区间中选择缺失特征的值。因此，稳健的聚类决策者将选择聚类，从而使最坏情况下的聚类目标函数最小化。

为了引入鲁棒聚类问题，我们首先定义了以下鲁棒聚类目标函数：哪里,、和表示物体的特征因此，鲁棒聚类问题可以公式化如下：

（RCP）是一个离散的极大极小问题。如果没有缺失数据，也就是说，对于任何，（RCP）简化为经典聚类问题(1). 自出现问题以来(1)是NP-hard问题[31,32]求解RCP的全局最优解是一项具有挑战性的任务。在下一节中，我们为（RCP）提出了有效的鲁棒K-中值和K-均值算法。

3.算法

3.1. 稳健的K-Median聚类算法

在本小节中，我们为（RCP）提供了一个鲁棒的K-median聚类算法。我们首先展示了如何简化鲁棒聚类目标函数。其中(7)利用凸集上凸函数的最大值是在极点处获得的这一事实(8)使用约束(2). 自和，对于任何和，我们还有方程式(9)表明缺失值的存在增加了聚类目标函数。基于(9)，稳健的K-median聚类算法可以在algorithm中给出1.

算法1（稳健的K-median聚类算法）。
输入.特征矩阵，间隔大小()和.
输出.集群原型矩阵和成员矩阵.
步骤 1（初始化）。设置迭代索引并随机选择不同的行作为初始集群原型.
步骤 2让和更新通过固定.
对于任何，随机选择、和设置并且，对于任何, 设置.
步骤 3更新通过固定:
对于任何，让。对于任何，套作为.
步骤 4（停止标准）。如果对于任何和，然后停止并返回和; 否则，转至步骤.

3.2. 稳健的K-Means聚类算法

在本小节中，当（RCP）建议。与分析类似什么时候，我们首先将鲁棒聚类目标函数简化如下：自，我们有

最小化，我们需要更新和以另一种方式。具体来说，当是固定的，每个对象可以分配给以下索引集中的任何集群：当是固定的，对于每个群集，让.然后是可通过求解以下分段凸优化问题获得：注意优化问题(13)可分解于因此，为了获得，这足以解决以下子问题：

程序1（解决子问题的程序(14))。
输入.给定和,,和().
输出..
步骤 1（排名）。排名以递增的顺序。为了简化符号，在以下内容中，我们省略了索引和, 然后假设，其中.
步骤 2确定潜在的最小值点。
对于，计算.
步骤三.返回.

子问题(14)是一个分段凸二次优化问题，可以通过过程求解1.

程序1解决子问题(14)通过枚举所有潜在的最小值点。很容易看出该程序1可以在中实现如果排名步骤使用有效的排序方法（如堆排序），则为time。

基于上述讨论，稳健的K-means聚类算法可以在algorithm中描述2.

算法2（稳健的K-means聚类算法）。
输入.特征矩阵，间隔大小()和.
输出.集群原型矩阵和成员矩阵.
步骤 1（初始化）。设置迭代索引并随机选择不同的行作为最初的集群原型.
步骤 2.让和更新通过固定:
对于任何，随机选择属于索引集的(12).
对于任何，套.
步骤三.更新通过固定.
对于任何和，获取使用过程1.
步骤 4（停止标准）。如果对于任何和，然后停止并返回和; 否则，转至步骤.

3.3. 计算复杂性

众所周知，经典K-median和K-means算法的时间复杂度为，其中是对象数，是特征的尺寸，是集群的数量，以及是迭代次数。我们将证明，所提出的鲁棒K-median聚类算法具有时间复杂度和鲁棒K-means聚类算法具有时间复杂性。

具体来说，算法的初始化步骤1拿初始化集群原型矩阵的时间。对于给定的集群原型矩阵，算法1拿更新成员关系矩阵的时间。请注意标量可以在中计算时间[33]. 让我们有因此，步骤算法的1可以在中实现时间。算法的最后一步1拿时间。因此，鲁棒K-median聚类算法的时间复杂度为.

对于稳健的K-means聚类算法，很容易看出算法的前两个步骤2拿和时间。让.对于给定和，程序1拿计算时间因此，步骤算法的2拿时间从时间。注意，算法的最后一步2也需要因此，鲁棒K均值聚类算法的时间复杂度为.

此外，很容易看出，鲁棒K-median和鲁棒K-means聚类算法的空间复杂度均为因此，与经典的K-median算法和稳健的K-means算法相比，所提出的稳健聚类算法消耗的计算资源相同。

4.数值实验

在本节中，我们在UCI机器学习存储库的两个数据集上比较了所提出的鲁棒聚类算法和其他算法。章节4.1描述了数据集和实验设置，以及第节4.2报告并讨论了实验结果。

4.1. 数据集和实验设置

两个广泛使用的数据集，虹膜和种子，用于测试所提算法的性能。鸢尾花数据由150个对象组成，每个对象具有鸢尾花的四个特征，包括萼片长度、萼片宽度、花瓣长度和花瓣宽度。Iris数据包括三个簇，Setosa、Versicolour和Virginica，每个簇包含50个对象。海瑟薇和贝兹德克报告了Iris数据的最佳集群原型[34]. 种子数据集由三个不同小麦品种的210粒组成，每个粒具有七个实值特征，包括面积、周长、紧密度、粒长、粒宽、不对称系数和粒沟长度。

我们在缺失完全随机（MCAR）机制下生成缺失值，如Hathaway和Bezdek[14]和Li等人[20]. 具体来说，我们随机选择指定百分比的组件，并将其指定为缺失组件。为了使不完整的数据易于处理，我们还确保满足以下约束：(1)每个对象保留至少一个特征；(2)每个特征在不完整的数据集中至少有一个值。

除了人工生成缺失值的虹膜和种子数据集外，我们还对实际不完整数据集和石片数据集测试了所提出的算法[35]它由79个史前时期的八维属性石片组成。这些文物属于三个不同的历史时期。石片数据集不完整，有6个不完整的对象，其中10个缺少特征值。

Li等人[20]使用最近邻来构造缺失特征值的区间，并根据其数值实验，是一个不错的选择。为了进一步测试区间大小对所提鲁棒聚类算法的聚类性能的影响，将缺失值的区间构造为，其中由最近的邻居和.

4.2. 结果和讨论

我们首先测试并比较了所提出的稳健K中值（标记为“RKM1”）在Iris和Seeds数据集上的性能到基于WDS、PDS和NPS，也对经典的K-中值算法进行了修改，以处理不完整的数据集。由于K-median算法的性能取决于初始集群原型，因此我们重复每个算法 100次并报告平均性能。

桌子1和2分别报告不同K-median算法在不完整虹膜和种子数据上的平均性能。每个表中的第一列给出了缺失率。第二列至第七列通过与真实聚类结果的比较给出了平均误分类率，其中第五列至第7列对应于RKM1算法，具有不同的值范围为0.05至0.15。在表中1，第八到第十三列给出了不同算法的平均聚类原型误差，这些误差由哪里表示由某个K-median算法给出的集群原型是Iris数据集的实际集群原型，没有缺少值。由于种子数据集的实际集群原型未知，表中未报告此类结果2.

从表格1和2，我们有以下观察结果。(1)当不存在缺失值，即缺失率等于零时，所有K-median算法都会给出相同的结果。随着丢失率的增加，在大多数情况下，所有算法的误分类率和原型误差都会变大。(2)当缺失率较小时，缺失数据对RKM1的性能几乎没有不利影响。例如，当缺失率在附近时，RKM1的误分类率当缺失率为零时，甚至小于RKM1。(3)当丢失率较大时，与基于WDS、PDS和NPS的K-median算法相比，RKM1提供的聚类结果具有较少的误分类和原型错误。(4)实验结果还表明，区间大小影响RKM1的性能。具体来说，作为从0.05增加到0.15，在大多数情况下，RKM1的错误分类率先下降后上升。然而，当缺失率较高（20%）时，RKM1的值较小提供了最佳的群集性能。

提出的稳健K均值算法（标记为“RKM2”）也在Iris和Seeds数据集上进行了测试，并与基于WDS、PDS和NPS的K均值算法进行了比较。桌子三和4通过将每个算法重复100次来报告这些算法的平均性能。

桌子三和4还验证了拟议RKM2对缺失值的鲁棒性。当存在缺失值时，与基于WDS、PDS和NPS的K-means算法相比，RKM2提供了稳健的聚类结果，错误分类率和原型错误更小。例如，当缺失率为，RKM2给出的误分类率种子数据集上只有，而其他K-means算法给出的最佳误分类率为.区间大小对RKM2性能的影响与RKM1相似；也就是说，在大多数情况下，RKM2具有在错误分类率和原型误差方面提供了最佳的聚类性能。

最后，我们在真实世界的不完全数据集（Stone Flakes数据集）上测试了所提出的鲁棒聚类算法的性能。根据上述讨论，我们设置用于RKM1和RKM2。图1展示了不同算法的错误分类数量。来自图1，我们发现RKM1提供了最低的误分类率，RKM2提供了次佳的性能。

5.结论

本文考虑了不完全数据的聚类问题。为了减少缺失值对聚类结果性能的影响，本文用区间数据表示缺失值，并引入鲁棒聚类目标函数的概念，即当缺失值在构造的区间内变化时，最坏情况下的聚类目标函数。然后，我们提出了一个鲁棒聚类模型，其目的是最小化鲁棒聚类目标函数。设计了鲁棒K-median和K-means算法来解决所提出的鲁棒聚类问题。鲁棒K-median和K-means聚类算法的时间复杂度为和分别是。在人工生成的和真实世界的不完全数据集上进行的数值实验表明，与现有的基于WDS、PDS和NPS的K-median和K-means算法相比，该算法对缺失数据具有鲁棒性，并提供了更好的聚类性能。

K-median和K-means算法都解决了具有硬约束的不完备数据聚类问题；也就是说，每个对象只属于一个集群。为了解决具有软约束的不完备数据聚类问题，我们将在未来进一步研究鲁棒模糊K-median和K-robust聚类算法。

竞争性利益

作者声明，本论文的出版不存在利益冲突。

致谢

这项工作得到了41427806和61503211号国家自然科学基金重大项目、9152002号北京市自然科学基金和DYXM-125-25-02号中国海洋协会项目的支持。

工具书类

B.M.Marlin，机器学习中的缺失数据问题[博士论文]加拿大多伦多多伦多大学，2008年。
G.S.Sebestyen，模式识别中的决策过程，ACM专题丛书，1962年。
A.P.Dempster、N.M.Laird和D.B.Rubin，“通过EM算法获得不完整数据的最大可能性，”英国皇家统计学会杂志：B辑（统计方法）第39卷，第1期，第1-38页，1977年。
查看位置：谷歌学者|数学科学网
J.K.Dixon，“部分缺失数据的模式识别”IEEE系统、人与控制论汇刊第9卷，第10期，第617–621页，1979年。
查看位置：发布者网站|谷歌学者
A.K.Jain和R.C.Dubes，数据聚类算法，普伦蒂斯·霍尔，恩格尔伍德悬崖，新泽西州，美国，1988年。
查看位置：数学科学网
X.Zhou、R.Zhao、F.Yu和H.Tian，“用于红外图像分割的直觉模糊熵聚类算法”智能与模糊系统杂志2016年，第30卷，第3期，第1831–1840页。
查看位置：谷歌学者
H.P.Lai、M.Visani、A.Boucher和J.-M.Ogier，“大型图像数据库索引和检索的无监督和交互式半监督聚类”计算机基础理论，第130卷，第2期，第201–218页，2014年。
查看位置：发布者网站|谷歌学者
L.Zhang、W.Lu、X.Liu、W.Pedrycz和C.Zhong，“基于缺失值的概率信息颗粒的不完全数据的模糊C-均值聚类，”基于知识的系统第99卷，第51-70页，2016年。
查看位置：发布者网站|谷歌学者
O.Troyanskaya、M.Cantor、G.Sherlock等人，“DNA微阵列缺失值估计方法”生物信息学，第17卷，第6期，第520-525页，2001年。
查看位置：发布者网站|谷歌学者
S.Miyamoto、O.Takata和K.Umayahara，“处理模糊c-means中的缺失值”，in第三届亚洲模糊系统研讨会论文集第139-142页，韩国马山，1998年6月。
查看位置：谷歌学者
E.Acuna和C.Rodriguez，“缺失值的处理及其对分类器准确性的影响”分类、聚类和数据挖掘应用程序第639–647页，美国纽约州纽约市斯普林格，2004年。
查看位置：谷歌学者
A.Farhangfar、L.Kurgan和J.Dy，“缺失值插补对离散数据分类误差的影响”模式识别2008年，第41卷，第12期，第3692–3705页。
查看位置：发布者网站|谷歌学者
P.Saravanan和P.Sailakshmi，“使用支持向量回归和遗传算法优化的模糊可能性c均值进行缺失值插补”理论与应用信息技术杂志2015年，第72卷，第1期，第34-39页。
查看位置：谷歌学者
R.J.Hathaway和J.C.Bezdek，“模糊C-意味着不完整数据的聚类”IEEE系统、人与控制论汇刊，B部分：控制论2001年，第31卷，第5期，第735-744页。
查看位置：发布者网站|谷歌学者
H.Timm和R.Kruse，《缺失值的模糊聚类分析》，in北美模糊信息处理协会IEEE会议记录（NAFIPS’98）第242-246页，美国佛罗里达州彭萨科拉海滩，1998年。
查看位置：谷歌学者
T.Shibayama，“缺失值多元数据的类pca方法”日本教育心理学杂志，第40卷，第2期，第257-265页，1992年。
查看位置：谷歌学者
K.Honda和H.Ichihashi，“具有缺失值的线性模糊聚类技术及其在局部主成分分析中的应用，”IEEE模糊系统汇刊，第12卷，第2期，第183–193页，2004年。
查看位置：发布者网站|谷歌学者
D.-Q.Zhang和S.-C.Chen，“使用基于核的模糊C均值算法聚类不完整数据”神经处理信件2003年，第18卷，第3期，第155-162页。
查看位置：发布者网站|谷歌学者
M.Sadaaki、I.Hidetomo和H.Katsuhiro，模糊聚类算法：C均值聚类方法及其应用2008年，德国柏林施普林格。
D.Li、H.Gu和L.Zhang，“基于不完整数据的最近邻区间的模糊c-均值聚类算法，”带应用程序的专家系统2010年，第37卷，第10期，第6942–6947页。
查看位置：发布者网站|谷歌学者
D.Li、H.Gu和L.Zhang，“基于最近邻区间的不完全数据聚类的混合遗传算法-模糊c-均值方法，”软计算，第17卷，第10期，第1787-1796页，2013年。
查看位置：发布者网站|谷歌学者
B.L.Wang、L.Y.Zhang、L.Zhang，Z.H.Bing和X.H.Xu，“用最近邻训练的BP进行模糊聚类的缺失数据插补”信息与计算科学杂志，第11卷，第15期，第5367–5375页，2014年。
查看位置：发布者网站|谷歌学者
L.Zhang、Z.Bing和L.Zhang，“一种基于不完全数据缺失属性区间估计的混合聚类算法，”模式分析与应用2015年，第18卷，第2期，第377–384页。
查看位置：发布者网站|谷歌学者
G.Lanckriet、L.E.Ghaoui、C.Bhattacharyya和M.I.Jordan，《最小极大概率机器》神经信息处理系统研究进展第801-807页，2001年。
查看位置：谷歌学者
K.Huang、H.Yang、I.King、M.R.Lyu和L.Chan，“最小误差极大概率机”机器学习研究杂志，第5卷，第4期，第1253–1286页，2004年。
查看位置：谷歌学者|数学科学网
Y.Wang，Y.Zhang，J.Yi，H.Qu和J.Miu，“一种基于改进的概率分类器 ${X（X）}^{2}$ -距离，“工程中的数学问题，第2014卷，文章ID 621314，11页，2014。
查看位置：发布者网站|谷歌学者
S.Song、Y.Gong、Y.Zhang、G.Huang和G.-B.Huang，“最小误差最小最大概率机降维”IEEE系统、人与控制论汇刊：系统, 2016.
查看位置：发布者网站|谷歌学者
T.B.Trafalis和R.C.Gilbert，“分类和计算问题的稳健支持向量机”优化方法和软件2007年，第22卷，第1期，第187-198页。
查看位置：发布者网站|谷歌学者|数学科学网
H.Xu、C.Caramanis和S.Mannor，“支持向量机的鲁棒性和正则化”机器学习研究杂志第10卷，第1485-1510页，2009年。
查看位置：谷歌学者|数学科学网
Y.Wang、Y.Zhang、F.Zhang和J.Yi，“稳健二次回归及其在能源增长消费问题中的应用”工程中的数学问题，第2013卷，文章ID 210510，10页，2013。
查看位置：发布者网站|谷歌学者
P.Drineas、A.Frieze、R.Kannan、S.Vempala和V.Vinay，“通过奇异值分解对大型图进行聚类，”机器学习2004年，第56卷，第1-3期，第9-33页。
查看位置：发布者网站|谷歌学者
D.Aloise、A.Deshpande、P.Hansen和P.Popat，“欧几里德平方和聚类的NP-hardeness”机器学习，第75卷，第2期，第245-248页，2009年。
查看位置：发布者网站|谷歌学者
M.Blum、R.W.Floyd、V.Pratt、R.L.Rivest和R.E.Tarjan，“选择的时限”计算机与系统科学杂志第7卷，第4期，第448–461页，1973年。
查看位置：发布者网站|谷歌学者|数学科学网
R.J.Hathaway和J.C.Bezdek，“通过重新制定优化聚类标准”IEEE模糊系统汇刊1995年，第3卷，第2期，第241-245页。
查看位置：谷歌学者
M.利奇曼，Uci机器学习库2015年，美国加利福尼亚州欧文市加利福尼亚大学信息与计算机科学学院。

版权所有

PDF格式下载引文

下载其他格式

订购打印副本

意见

7598

下载

1408

引文