CDPA: Common and distinctive pattern analysis between high-dimensional datasets

Hai Shu; Zhe Qu

doi:10.1214/22-EJS2008

2022 CDPA：高维数据集之间的常见和独特模式分析

海曙,哲曲

作者关联+

电子。J.统计。 16(1): 2475-2517 (2022). 内政部：10.1214/22-EJS2008

摘要

在两个高维相关数据集的综合分析中，一个典型的模型是将每个数据矩阵分解为一个低阶公共矩阵，该公共矩阵由数据集之间共享的潜在因素生成，一个对应于每个数据集的低阶区别矩阵和一个加性噪声矩阵。现有的分解方法声称，它们的公共矩阵捕获了两个数据集的公共模式。然而，它们所谓的共同模式只表示共同的潜在因素，而忽略了这些共同潜在因素的两个系数矩阵之间的共同模式。我们提出了一种新的无监督学习方法，称为共同和独特模式分析（CDPA），该方法通过进一步合并系数矩阵的共同和不同模式来适当定义两种类型的数据模式。针对高维设置开发了一致性估计方法，并在仿真中显示出相当好的有限样本性能。我们的模拟研究和实际数据分析证实，提出的CDPA可以更好地描述常见和独特的模式，从而有利于数据挖掘。