主页

论文

提交文件

新闻

编辑委员会

开源软件

程序(PMLR)

交易(TMLR)

搜索

统计

登录

常见问题

联系我们



RSS源

混合多视图数据的集成广义凸聚类优化与特征选择

王敏杰(Minjie Wang)、杰纳维拉·艾伦(Genevera I.Allen); 22(55):1−73, 2021.

摘要

在混合多视图数据中,在同一组样本上测量多组不同特征。通过整合所有可用的数据源,我们试图发现样本中可能隐藏在单个数据视图的个性化聚类分析中的常见组结构。虽然已经探索了几种用于这种集成聚类的技术,但我们提出并开发了一种凸形式化,它具有很强的经验性能,并继承了日益流行的凸聚类方法的数学特性。具体来说,我们的集成广义凸聚类优化(iGecco)方法对每个不同的数据视图使用不同的凸距离、损失或发散,并使用联合凸融合惩罚,从而形成公共组。此外,当每个数据源都是高维数据时,集成混合多视图数据通常具有挑战性。为了在这种情况下执行特征选择,我们开发了一种自适应移位群-最小二乘惩罚,该惩罚通过将特征收缩到其特定损失中心来选择特征。我们所谓的iGecco+方法从每个数据视图中选择最适合确定组的特征,通常会导致改进的综合聚类。为了解决我们的问题,我们开发了一种新型的广义多块ADMM算法,该算法使用子问题近似,更有效地适合我们的大数据集模型。通过文本挖掘和基因组学方面的一系列数值实验和实际数据示例,我们表明iGecco+在高维混合多视图数据方面取得了优异的经验性能。

[腹肌][pdf格式][围兜]      
©JMLR公司2021(编辑,贝塔)