Exploratory data structure comparisons: three new visual tools based on principal component analysis

Anne Helby Petersen; Bo Markussen; Karl Bang Christensen

doi:10.1080/02664763.2020.1773772

J应用统计。2021; 48(9): 1675–1695.

2020年5月27日在线发布。数字对象标识：10.1080/02664763.2020.1773772

预防性维修识别码：PMC9042046型

PMID：35706572

探索性数据结构比较：基于主成分分析的三种新可视化工具

安妮·海尔比·彼得森,^一博·马库森,^b条和卡尔·邦·克里斯滕森^一

作者信息版权和许可信息 PMC免责声明

关联数据

补充资料: 补充数据.pdf
CJAS_A_1773772_SM1503.pdf（120万）
GUID:2F5CEE33-BD93-4F35-8DB6-B0A2FB35E5C8

摘要

数据集有时被划分为不同的子集，例如，由于多中心抽样，或由于仪器、问卷项目排序或管理模式的变化，数据分析师需要评估联合分析是否有意义。基于主成分分析的数据结构比较（PCADSC）工具是三种新的非参数可视化诊断工具，用于通过使用主成分分析进行协方差矩阵比较来调查数据集两个子集的结构差异。PCADCS工具在一个数据示例中得到了证明，该数据示例使用了丹麦、瑞典和保加利亚三个国家的欧洲社会调查数据。丹麦和保加利亚的数据结构不同，因此比较平均心理健康分数是没有意义的。然而，在比较丹麦和瑞典时，发现了非常相似的数据结构，从而发现了可比较的幸福感概念。因此，有必要对这些国家进行国家间比较。

关键词：主成分分析、探索性数据分析、协方差矩阵、数据结构

2010年数学学科分类：62P15、62H25

1.简介

数据可比性是各种统计应用程序中反复出现的主题。通常，数据的收集方式是将其基本上划分为几个子集，需要对其可比性进行实证评估。例如，当跨多个中心（或国家）收集数据时，或者当应用不同版本的工具、调查的管理模式或调查问卷项目的顺序时，就会发生这种情况。虽然混合使用邮件和电话等管理方式可以提高调查中的回复率，但由于在回复行为中引入差异，可能会导致有偏见的结果，这也可能是一个很大的问题[三,14]. Powers、Mishra和Young报告了给药方式对精神健康评分变化的影响，这些变化的幅度被认为具有临床意义[16]因此，可比性问题不仅仅是一个统计难题。类似地，将不同抽样方案获得的数据结合起来也可能会有问题，如刘所示，他警告不要将在线面板数据与截获样本（通过横幅、广告或促销获得的一组受访者）结合起来[12]. 但是，混合几种数据收集方法对于取得调查和数据收集方法的进一步进步至关重要，因为它使我们能够在现有方法的基础上同时回答新的实证问题。然而，如果我们不解决来自不同国家的数据子集之间的可比性问题，我们就有可能进行最基本假设不满足的分析。

这些例子中的可比性问题可以总结如下：假设我们有两个数据集，具有相同的变量，但不同的观测值，通常表示为一个具有子诱导变量的单一数据集，并且我们希望在不指定模型甚至感兴趣的变量的情况下进行比较。然后，核心问题是，这两个数据集是否可以很容易地组合起来用于以后的数据分析，或者子诱导变量是否意味着必须在以后的统计建模中处理的异质性。

当我们愿意假设一个统计模型时，可以使用复杂的方法来解决这个问题。但这使得评估数据可比性的工作在数据分析过程中进行得很晚，这使得可比性评估变得非常特殊，因为它本质上取决于建模选择的适当性，而建模选择又取决于数据的结构。因此，使用（参数）模型并不是一种通用的数据结构比较方法，而是一种适合的模型比较方法。它解决了模型和数据之间的相互作用，而不仅仅是数据。然而，对于数据可比性的初步探索性调查，大多缺乏有用的工具。需要的是比较数据集两个子集中数据结构差异的程序，而不是假设变量之间既没有方向关系也没有层次关系。分布差异的逐变量测试等简单方法的缺点是，它们只处理边际差异，忽略了变量之间的相互作用，但随着变量数量的增加，两个经验相关矩阵的逐条目比较很快变得难以管理。

我们提出了三种用于数据结构比较的可视化工具，统称为基于主成分分析的数据结构比较（PCADSC）。这些方法使用两个子集中经验协方差矩阵的主成分分解来创建数据结构差异的直观可视化。PCA的使用意味着我们只能将数据集与数值变量进行比较，并且我们关注数据结构的线性方面。建议的工具在R（右）包裹PCADSC公司[15].

1.1. 比较心理健康

必须考虑数据结构可比性问题的一个例子是，根据教育质量（例如PISA项目）和公民幸福感（例如联合国）对国家进行国际排名世界幸福报告项目）。从方法论的角度来看，这种国际排名是有问题的，因为它们依赖于一个基本假设，即被衡量的概念在各国之间本质上是相同的。

我们使用2012年版欧洲社会调查（ESS）项目的数据，调查各国在心理健康和幸福感方面的差异。在幸福感排名中，虽然维恩霍温对缺乏可比性的可能原因进行了理论上彻底但经验上过于简单的总结，但对国际可比性假设的评估工作还不多[18]而Lolle&Andersen在这一术语中表现出了强有力的翻译问题幸福[13]. 例如，如果两个国家在社交网络的典型构建和结构方面存在差异，其中一个国家强调家庭关系，而另一个国家则主要关注其他社会关系，那么家庭关系薄弱对第一个国家的影响与第二个国家不同。更具体地说，在第一个国家，缺乏家庭网络可能与孤独、缺乏一般社会资本和孤立有关，而在第二个国家，家庭网络的质量可能根本无法提供有关一个人社会或心理健康其他方面的信息。因此，这两个国家在心理健康的不同方面或衡量标准之间的相互关系上存在差异，这在本质上是数据结构的差异。因此，在这些措施上比较两国并不是一项有意义的努力。

我们的出发点是丹麦，这是一个北欧小国，曾多次被世界幸福报告，最近一次是在2016年[6]，我们希望调查这个标题是否真的有意义。为了做到这一点，我们将丹麦ESS的心理健康数据与保加利亚的数据进行了比较。虽然这两个国家都是欧洲国家，因此在地理位置和文化上都没有太大的差异，但这两个国家在定义幸福方面的定义之前已经被强调了很大的不同[7]. 此外，欧洲内部和地区在社会资本和幸福之间的关系上也表现出了差异[17]. 当将北欧国家与其他欧洲国家进行比较时，发现这两个概念之间的关系要小得多。尤其是，与保加利亚相比，人际关系在丹麦发挥的作用较小。因此，一种成功的数据比较方法应该能够通过查看这两个国家的心理健康数据来发现这些差异。我们还将丹麦数据与瑞典数据进行了比较，以调查PCADSC工具是否真的具有歧视性。丹麦和瑞典都是北欧国家，通常被认为在文化和历史方面非常相似。因此，我们预计这两个国家的基本概念，如心理健康，会相似。

2.方法

PCADSC比较数据集的两个子集的协方差矩阵。如果子集中的所有变量与已知平均值联合正态，则协方差矩阵是描述所有变量联合分布的充分统计信息，但即使没有正态假设，两两相关性和边际变量方差仍然是描述变量之间线性相互关系的有趣量。这使得经验协方差矩阵成为开始寻找数据结构差异的合理位置。随着变量数量的增加，计算两个子集的经验协方差矩阵并比较它们的条目-条目变得越来越困难，因此，我们使用主成分分析（PCA）以了解两个子集之间的差异。

我们假设在进行主成分分析之前，变量已经在每个数据子集中进行了标准化，因此所有变量都具有平均零偏差和单位标准偏差。这相当于使用经验相关矩阵而不是经验协方差矩阵。我们还假设所有考虑的变量都有一个数字解释，例如通过连续或普通分类。此外，我们使用以下符号： $X（X） \in {R（右）}^{{n个}_{x} \times d日}$ 和 $Y（Y） \in {R（右）}^{{n个}_{年} \times d日}$ 是包含相同数量变量的数据集，d日，但可能观察次数不同， ${n个}_{x}$ 和 ${n个}_{年}$ 。我们使用 ${X（X）}_{j个}$ 参考j个第个变量 $X（X）$ 和 $x_{我 j个}$ 参考我该变量中的第个观察值，而 $x_{我 \cdot}$ 是满的吗我第个观察行。请注意 ${X（X）}_{j个} \in {R（右）}^{{n个}_{x}}$ , $x_{我 j个} \in R（右）$ 、和 $x_{我 \cdot} \in {R（右）}^{d日}$ .我们让 $\bar{X（X）} = ({\bar{X（X）}}_{1}, \dots, {\bar{X（X）}}_{d日})^{T型} = (1 / {n个}_{x}) \sum_{我 = 1} x_{我 \cdot}$ 表示可变平均值并使用 ${S公司}_{x} = 1 / ({n个}_{x} - 1) \sum_{我 = 我}^{n个} (x_{我 \cdot} - \bar{X（X）}) (x_{我 \cdot} - \bar{X（X）})^{T型} \in {R（右）}^{d日 \times d日}$ 表示的经验协方差矩阵 $X（X）$ .

2.1. 使用PCA进行数据结构比较

这里提供的工具都是基于对包含相同变量的两个不同数据集的主成分分析结果进行比较， $X（X）$ 和 $Y（Y）$ .让

Z = (\begin{matrix} X（X） \\ Y（Y） \end{matrix}) \in {R（右）}^{({n个}_{x} + {n个}_{年}) \times d日}

是组合数据集。对于这三个数据集中的每一个，我们都完成了以下步骤（这里为 $X（X）$ 仅限）：

标准化每个变量，使其具有平均零偏差和单位标准偏差。让 ${\tilde{X（X）}}_{j个} \in {R（右）}^{{n个}_{x} \times d日}$ 成为标准化数据集。
形成主成分分析
${S公司}_{x} = \frac{1}{{n个}_{x} - 1} \sum_{我 = 1}^{{n个}_{x}} {\tilde{x}}_{我 \cdot} {\tilde{x}}_{我 \cdot}^{⊤} = \sum_{j个 = 1}^{d日} λ_{j个}^{x} η_{j个}^{x} (η_{j个}^{x})^{⊤}$
从而获得载荷 $η_{j个}^{x}$ 和特征值 $λ_{j个}^{x}$ 对于 $j个 = 1, \dots, d日$ .

然后可以比较由此获得的相关矩阵的PCA分解。标准化意味着 ${S公司}_{x}$ , ${S公司}_{年}$ 、和 ${S公司}_{z（z）}$ 都等于1，因此也就是

\sum_{j个 = 1}^{d日} λ_{j个}^{x} = \sum_{j个 = 1}^{d日} λ_{j个}^{年} = \sum_{j个 = 1}^{d日} λ_{j个}^{z（z）} = d日 .

此标识将简化以下一些表达式。我们注意到加载顺序 $η_{j个}$ 及其相关特征值 $λ_{j个}$ 生成所有近似维度的数据集结构的同时描述q个这意味着可以使用载荷和特征值来研究数据集的结构，而无需确定近似维数，q个，先验。

我们提供了三个诊断图，旨在揭示不同类型和级别的数据结构差异，即累积特征值（CE）图，的角度图、和色度图这些图依次描述如下。为了更深入地了解两个数据集的数据结构差异，我们建议按照显示的顺序使用所有三个图。虽然我们在下文中从纯理论角度描述了这三种情节类型，但我们也提供了示例插图，作为对一些技术性定义的补充。这些图如图所示2–4分别用于CE、角度和色度图，它们基于两个模拟数据集：

数据集A类：此数据集包含来自同一基础模型的1000个独立模拟，即模型1从图中1将观察结果随机分为两组。
在单独的窗口中打开
图1。
用于模拟示例数据的模型的图形表示。方形节点表示观测变量，而圆形节点表示潜在变量。箭头用于说明因果关系。
数据集B类：此数据集包含500个来自模型1从图中1和500个独立模拟模型2在同一个图中。观察结果自然地被分为与它们被模拟的模型相对应的组。

保存图片、插图等的外部文件。对象名称为CJAS_A_1773772_F0002_OB.jpg

在单独的窗口中打开

图2。

模拟数据集的CE图。顶部面板中的数据集A（数据结构无差异）和底部面板中的数据库B（观察结果来源于不同的模型）。用第页-Kolmogorov-Smirnov（KS）和Cramér-von Mises（CvM）对数据结构无差异的零假设的检验值。粗体的黑线表示观察到的累积特征值差异，而阴影区域是在数据结构无差异的零假设下的95%置信带。

保存图片、插图等的外部文件。对象名称为CJAS_A_1773772_F0003_OC.jpg

在单独的窗口中打开

图3。

模拟数据集的角度图。数据集A位于顶部面板，数据集B位于底部面板。蓝色箭头表示在第2组主成分的坐标系中分解的第1组观测值的主成分，而红色箭头表示相反（在线彩色）。

保存图片、插图等的外部文件。对象名称为CJAS_A_1773772_F0004_OC.jpg

在单独的窗口中打开

图4。

模拟数据集的色度图。数据集 $A类$ 在顶部面板和数据集中 $B类$ 位于底部面板中。每个条形图代表一个主成分，并用解释方差的累积百分比对条形图进行注释。

在模型1观测变量 ${V（V）}_{三}$ 和 ${V（V）}_{4}$ 是由一个常见的未观察到的变量引起的 ${L（左）}_{1}$ 有关模型和模拟数据的更多详细信息，请参阅附录A中的补充材料，包括两个模型的协方差矩阵。在数据集中 $A类$ ，所有观察结果都来自相同的基础数据结构，因此，PCADSC图应指向数据结构中没有显著差异的地方。在数据集中 $B类$ 另一方面，有两种根本不同的基本数据结构，因此，PCADSC图应该说明数据结构缺乏同质性。

2.2. 累积特征值图

累积特征值（CE）图比较相关矩阵的特征值。这些特征值表示在解释方差方面每个分量中保留了多少信息。因此，通过比较特征值的累积和，可以详细了解两个数据集在哪些成分信息最丰富方面的差异。为了研究是否可以用两个数据集中相同数量的主成分来描述总变化的相同比例，我们绘制了一条连接各点的分段线性曲线

\begin{aligned} (0, 0), (λ_{1}^{z（z）}, λ_{1}^{x} - λ_{1}^{年}), (λ_{1}^{z（z）} + λ_{2}^{z（z）}, λ_{1}^{x} + λ_{2}^{x} - λ_{1}^{年} - λ_{2}^{年}), \dots, \\ (\sum_{j个 = 1}^{d日} λ_{j个}^{z（z）}, \sum_{j个 = 1}^{d日} λ_{j个}^{x} - \sum_{j个 = 1}^{d日} λ_{j个}^{年}) \end{aligned}

由于标准化，最后一点始终等于 $(d日, 0)$ 因此，此曲线将从x轴开始并结束。它偏离第一轴的偏移越大，两个数据集的累积特征值和越不相似。此外，正的累积差异意味着数据集 $X（X）$ 在第一个组件中包含的信息多于数据集 $Y（Y）$ 做。通过使用 $Z$ 作为第一个坐标，我们得到了一个可视化结果，其中一个分量占据了相当于该分量所解释的方差（即其特征值）的水平空间，从而让更具影响力的分量驱动视觉印象。

为了测试这些累积差异是否是统计制品，或者它们是否代表了真实的东西，我们实现了科尔莫戈罗夫·斯米尔诺夫以及克拉梅尔·冯·米塞斯测试统计数据，由

堪萨斯州 = \underset{k个 = 1, \dots, d日}{最大值} | \sum_{j个 = 1}^{k个} λ_{j个}^{x} - \sum_{j个 = 1}^{k个} λ_{j个}^{年} |, CvM公司 = \sum_{k个 = 1}^{d日 - 1} \frac{λ_{k个}^{z（z）} + λ_{k个 + 1}^{z（z）}}{2} {(\sum_{j个 = 1}^{k个} λ_{j个}^{x} - \sum_{j个 = 1}^{k个} λ_{j个}^{年})}^{2} .

我们进行测试的目的是置换检验也就是说，通过将组合的和单独的标准化数据集随机重新分配到两个新的数据集 ${n个}_{x}$ 和 ${n个}_{年}$ 然后重新执行CE图步骤并重新计算测试统计数据。这应该进行多次（例如10000次）。然后，a第页-值是通过计算重新分配的数据集的比例获得的，这些数据集导致测试统计数据至少与我们为原始数据集找到的数据集一样大。

置换测试结果也用于可视化曲线图中CE曲线的不确定性。在下一节所示的CE图中，我们绘制了观察到的曲线和20条重采样曲线，以及可视化逐点95%覆盖间隔的阴影区域。如果观察到的曲线与重新采样的曲线非常不同，或者如果它实质上位于着色区域之外，那么这也表明了两个数据集之间的差异。

图中提供了累积特征值图的两个示例2在顶部面板中，我们看到了一条完全落在置信区间内的累积特征值曲线，从而表明特征值没有差异（正如预期的那样）。这也与大第页-值以及仅使用单个基础模型生成此数据的事实。在底部面板中，结论相反，这也符合模拟数据的性质，其中包含两组不同的数据。

2.3. 角度图

角度图同时比较载荷和特征值，如果一个数据集的数据结构叠加在另一个数据集中，它可以用来了解信息损失，从而揭示两个数据集中哪些主成分（即载荷和特征对）最相似、最不同。让 $λ_{最大值} = 最大值 {λ_{1}^{x}, λ_{1}^{年}}$ 是两个数据集的最大特征值。然后为 $X（X）$ 数据集， ${S公司}_{x}$ ，在 $Y（Y）$ 数据集

{S公司}_{x} = \sum_{j个 = 1}^{d日} λ_{j个}^{x} η_{j个}^{x} (η_{j个}^{x})^{⊤} = λ_{最大值} \sum_{k个 = 1}^{d日} (\sum_{j个 = 1}^{d日} \sqrt{\frac{λ_{k个}^{x}}{λ_{最大值}}} η_{j个}^{年} ({η_{j个}^{年}}^{⊤} η_{k个}^{x})) {(\sum_{j个 = 1}^{d日} \sqrt{\frac{λ_{k个}^{x}}{λ_{最大值}}} η_{j个}^{年} ({η_{j个}^{年}}^{⊤} η_{k个}^{x}))}^{⊤},

我们有一个类似的分解 ${S公司}_{年}$ 在 $X（X）$ 数据集。我们建议在 $d日 \times d日$ 网格显示。在j个第行和k个此显示的第四列中，我们基于网格单元的左下角绘制了两个箭头。第一个箭头有长度 $μ_{j个 k个}$ 和角度 $θ_{j个 k个} / 2$ 从对角线逆时针方向，第二个箭头有长度 $ν_{j个 k个}$ 和角度 $θ_{j个 k个} / 2$ 从对角线顺时针方向。为了便于进行以下描述，我们将逆时针绘制的箭头称为蓝色箭头，将顺时针绘制的图标称为红色箭头。长度 $μ_{j个 k个}$ 和 $ν_{j个 k个}$ 、和角度 $θ_{j个 k个}$ ，由给出

μ_{j个 k个} = \sqrt{\frac{λ_{k个}^{x}}{λ_{最大值}}} | {η_{k个}^{x}}^{⊤} η_{j个}^{年} |, ν_{j个 k个} = \sqrt{\frac{λ_{j个}^{年}}{λ_{最大值}}} | {η_{j个}^{年}}^{⊤} η_{k个}^{x} |, θ_{j个 k个} = 电弧炉 (| {η_{k个}^{x}}^{⊤} η_{j个}^{年} |) .

对于两个人d日-维数，单位长度向量一和b条，它认为 $一^{⊤} b条 = ⟨ 一, b条 ⟩ = \tilde{c（c）} (一, b条)$ ，其中 $\tilde{c（c）}$ 表示经验相关函数。因此，在角度图中，我们主要查看根据方差贡献进行缩放的载荷之间相关性的绝对值。投影的绝对值 ${η_{k个}^{x}}^{⊤} η_{j个}^{年}$ 由于加载矢量方向的不确定性而插入。这种不确定性意味着两个数据集的荷载之间的角度始终可以选择在区间内 $[0, π / 2]$ ，因此分解 ${S公司}_{x}$ 和 ${S公司}_{年}$ 可以通过将角度除以2并使用对角线的逆时针和顺时针偏移，在接头图中可视化。此外，长度的缩放 $λ_{最大值}$ 使最长的箭头具有最大单位长度。

在角度图，中的蓝色箭头k个网格显示的第n列显示了k个第th个主成分 $A类$ 坐标系中的数据集 $B类$ 数据集。类似地j个第行可视化j个第个主成分 $B类$ 坐标系中的数据集 $A类$ 数据集。如果网格显示中沿对角线的蓝色和红色箭头重合，而非对角线单元格中长度为零的箭头重合，那么这两个数据集的结构是相同的。相反，特征值的差异可视为蓝色箭头和红色箭头长度的差异，也可视为对角线长度的差异。除其他数据集的相应加载外，其他方向的加载可视为对角单元格中蓝色和红色箭头的角度分隔，以及非对角单元格中长度不为零的箭头。

然而，有一种普遍的情况，即当两个或多个相邻特征值相同或相近时，箭头之间的角度缺乏辨别力。我们将这种情况称为特征值不确定性例如，如果所有其他变量中有多个变量不相关或接近不相关，则会出现多个接近1的特征值。在这种情况下，只有相应的特征空间得到了很好的估计，但相关特征向量的旋转将受到采样可变性的影响。

为了研究我们是否处于相同数据结构且相邻特征值相近的情况下，其中相对较长的箭头可能出现在相应的非对角单元块中，我们实施了与CE-plot类似的置换测试。对于每个随机重新分配，我们重新计算角度 $θ_{j个 k个}$ 重采样角度可用于定量测试，其中大角度对对角单元格至关重要，小角度对非对角单元格至关重要以及采样角度区域的可视化。在可视化中，我们建议显示每个单元格的整个角度采样区域，但根据百分位数进行灰度着色，以便更关键的角度为浅灰色。在我们建议的可视化中，我们没有显示第页-每个定量测试的值，但第页-值在PCADSC R包中提供[15].

注意，我们可以计算 ${d日}^{2}$ 独立但相互依赖，第页-值。因此，参照所有这些参数得出的推断将面临多个测试问题，因此，我们设计了一个负载差异的全局测试。我们使用Kolmogorov-Smirnov型检验统计量，即

{堪萨斯州}_{角} = \underset{k个 = 1, \dots, {d日}^{2}}{最大值} 日志 \frac{{中值的}_{(k个)}}{{第页}_{(k个)}^{光突发事件}},

哪里 ${第页}_{(k个)}^{光突发事件}$ 是k个观察到的最小第页-值和 ${中值的}_{(k个)}$ 表示k个'最小的第页-值，均适用于 $k个 = 1, \dots, {d日}^{2}$ 。与载荷无差异的零假设的差异将表现为 ${第页}_{(k个)}^{光突发事件} ≪ {中值的}_{(k个)}$ 对一些人来说k个因此，可以将测试统计量评估为具有较大值的单侧测试。一个全球性的第页-然后将荷载差异值作为排列测试进行计算，类似于CE图的程序。

图三给出了两个基于模拟数据的角度图示例。对于数据集 $A类$ ，除了对应于第三和第四特征值的非对角单元外，我们发现非常短的非对角箭头。但由于单元格（3，4）和（4，3）中的箭头位于阴影角度区域内（由局部支持第页-值0.9119和0.9103）这与相同的数据结构一致，其中第三和第四特征值具有不确定性（在这种情况下，由于型号1). 这也得到了全球第页-Kolmogorov-Smirnov角测试值第页 = 0.9988. 对于数据集 $B类$ 另一方面，我们发现在所有组成部分和全球范围内几乎没有达成一致第页-值0.0000，这应该是预期值，因为数据集中的两个组对应不同的数据结构。

2.4. 色度图

色度图主要是为了说明加载模式的差异，并针对原始变量在两个数据集之间的作用如何不同的问题，从而将数据结构比较问题带回其原始的经验背景。色度图由两个面板组成，每个面板对应一个数据集，由彩色条组成。这些条分别代表一个主要成分，它们的颜色说明了d日原始变量，即它们的绝对规范化加载贡献。更具体地说，在演示我在这两个数据子集的主成分中，我们绘制了长度为1的垂直条，这些条被划分为d日不同颜色的片段。的宽度j个第th个彩色段由下式给出

ω_{我 j个}^{x} = \frac{| η_{我 j个}^{x} |}{\sum_{k个 = 1}^{d日} | η_{我 k个}^{x} |}, ω_{我 j个}^{年} = \frac{| η_{我 j个}^{年} |}{\sum_{k个 = 1}^{d日} | η_{我 k个}^{年} |},

哪里 $η_{我 j个}^{x}$ 和 $η_{我 j个}^{年}$ 表示j个第个条目 $η_{我}^{x}$ 和 $η_{我}^{年}$ 分别是。由于荷载符号的不确定性，所有符号都从荷载系数中删除。条形图根据特征值排序，并用该分量的累计百分比解释方差进行注释，即按比例和总和的方差贡献，

{\tilde{Σ}}_{我}^{x} = \frac{\sum_{j个 = 1}^{我} λ_{j个}^{x}}{\sum_{k个 = 1}^{d日} λ_{k个}^{x}} = \frac{\sum_{j个 = 1}^{我} λ_{j个}^{x}}{d日}, {\tilde{Σ}}_{我}^{年} = \frac{\sum_{j个 = 1}^{我} λ_{j个}^{年}}{\sum_{k个 = 1}^{d日} λ_{k个}^{年}} = \frac{\sum_{j个 = 1}^{我} λ_{j个}^{年}}{d日} .

尤其是当d日如果很大，我们建议只绘制一组选定的感兴趣的主成分（例如，使用角度图确定）。在这种情况下，注释应该是非累积方差贡献， ${\tilde{σ}}_{我}^{x} = λ_{我}^{x} / d日$ 和 ${\tilde{σ}}_{我}^{年} = λ_{我}^{年} / d日$ 。如上文所述，如果相邻部件存在特征值不确定性，则这些部件的加载模式将无法得到有意义的解释。因此，不应比较通过角度图确定存在特征值不确定性的组件的色度条。

在图中4，色度图的两个示例可用。对于数据集 $A类$ ，我们在组件1、2、5和6的两个面板上看到非常相似的视觉模式，这与这两个组都是从相同的基础模型中提取的这一事实非常吻合。组件3和4在两个数据子集中没有类似的加载模式，但这是意料之中的，因为我们确定这些组件在角度图中存在特征值不确定性。对于数据集 $B类$ ，我们看到左面板和右面板中的条形图有不同的颜色组成，说明这两个组的数据结构不同。应重点检查此程序产生的曲线图的两个属性：加载模式中的相似性，这对应于相似的视觉印象，以及方差贡献中的相似。对于每个组件，加载描述了不同变量对该组件的影响程度。因此，色度图允许我们对原始数据集进行定性说明，例如“变量1在子集A中的影响通常大于在子集B中的影响”，从而帮助我们了解在何处以及为什么会发现潜在的数据结构差异。

2.5. 数据结构比较工作流

最后，我们来谈谈到目前为止呈现的三个情节是如何一起使用的。我们建议按照图的显示顺序应用这些图，从而从总体相似性评估转向对潜在数据结构差异性质的解释。此工作流摘要如图所示5并应遵循三个步骤：

绘制CE图。如果该图表明特征值相似，则宜继续绘制角度图，以评估荷载的相似性。否则，可以得出结论，这两个数据集的结构不相似。
绘制角度图。如果该图表明特征值和载荷具有相似性，则数据结构比较探索结束。如果角度图表明数据结构存在差异，请确定哪些组件导致了差异。
对通过角度图选择的不同分量进行色度图，但其差异不是由于相邻分量之间的特征值不确定性造成的。使用此信息进行讨论怎样和为什么？数据结构可能不同。

保存图片、插图等的外部文件。对象名称为CJAS_A_1773772_F0005_OB.jpg

在单独的窗口中打开

图5。

PCADSC工作流程，从两个数据集开始，然后依次应用三种可视化工具，以便对数据结构中的相似性和差异性进行越来越深入的理解。

我们现在将转向一个数据示例，展示如何在实践中使用PCADSC工具。

3.应用

我们现在使用2012年版欧洲社会调查（ESS）项目的数据来说明三种PCADSC工具，以调查心理健康和幸福感的国家间差异。本节中显示的所有计算和图形都是使用R（右）包裹PCADSC公司[15].

3.1. 数据

ESS 2012年数据共包含626个变量，这些变量来自29个国家的54673名公民。在这里，我们将只研究与心理健康相关的35个问卷项目的子集。这35个项目可以分为6个不同的等级，即评估幸福感,情绪幸福感,运转,活力,社区福祉、和支持关系。有关这些天平的更多详细信息，请参阅[7]附录B总结了问卷项目与量表之间的关系。我们用一个变量表示每个量表，该变量作为与该变量相关的项目中的平均分数进行计算，并进行缩放，使其取值介于0和10之间。

为了简单起见，我们仅使用完整的案例进行此构建，因此排除了所有未回答以下35个问卷项目的参与者。另一种方法是使用成对的完整案例。我们在附录C中使用两两完整案例展示了PCADSC分析的结果，但发现与使用完整案例的结果相比，结论没有差异（如下所示）。注意，只有当数据完全随机丢失时，这两种处理丢失信息的方法才是一致的[11].

丹麦样本中约9%的观察结果有一个或多个缺失项目，保加利亚样本中的相应数字为20%，瑞典样本中只有6%。总之，我们有 ${n个}_{D类 K（K）} = 1498$ 丹麦样本中的完整案例观察， ${n个}_{B类 G公司} = 1798$ 保加利亚样品和 ${n个}_{S公司 E类} = 1736$ 瑞典的观察。图1总结了心理幸福感六个维度的边际分布，按国家分层。

表1。

心理健康六个维度的中值，按国家分层。

	丹麦	保加利亚	瑞典
评估幸福感	8.75 (8.00, 9.50)	5.00 (3.50, 7.00)	8.00 (7.00, 9.00)
情绪幸福感	8.33 (7.22, 8.89)	6.67 (5.00, 7.78)	7.78 (6.67, 8.89)
运转	7.57 (6.93, 8.21)	6.68 (5.50, 7.68)	7.04 (6.39, 7.68)
活力	7.50 (6.67, 8.33)	7.50 (5.83, 8.33)	7.50 (6.67, 9.17)
社区福利	6.77 (5.83,7.57)	4.67 (3.70, 5.70)	6.57 (5.66, 7.37)
支持关系	8.25 (7.42, 8.92)	7.25 (6.17, 8.08)	8.25 (7.42, 8.75)

在单独的窗口中打开

注：括号中列出了25%和75%。标尺的结构都是从0到10。

3.2. 丹麦和保加利亚的比较

图6给出了CE图和通过比较丹麦和保加利亚心理健康量表获得的角度图。CE图显示出明显的缺乏可比性：特征值的累积差异远远超过了如果数据结构真的没有差异的话可能出现的随机差异。Kolmogorov-Smirnov和Cramér-von Mises试验也证实了这一点，这两项试验均导致第页-实际上为零的值。CE曲线通常位于零以上，这表明保加利亚数据集除最后一个分量外的所有分量都具有较大的特征值，从而解释了低维下的更多方差。

保存图片、插图等的外部文件。对象名称为CJAS_A_1773772_F0006_OC.jpg

在单独的窗口中打开

图6。

比较丹麦和保加利亚心理健康数据的CE图（顶部面板）和角度图（底部面板）。CE图用第页-Kolmogorov-Smirnov和Cramér-von Mises的值检验了数据结构无差异的假设。在角度图中，蓝色箭头表示在丹麦数据集主成分坐标系中分解的保加利亚数据集的主成分，而红色箭头表示相反（在线彩色）。

转到角度图，我们发现差异主要出现在第二、第三和第四主成分（PC）中。蓝色箭头显示了保加利亚数据集在丹麦数据集坐标系中主成分的分解。我们看到PC2也加载到PC3上，PC3也加载到了PC4上，PC4也加载到PC2和PC3上。红色箭头显示了丹麦数据集在保加利亚数据集坐标系中的主成分分解。在这里，我们可以看到PC2也加载到PC4上，PC3也加载到了PC2和PC4，PC4也加载在了PC3上。因此，如果我们想了解为什么数据结构中会出现差异，那么对组件2、3和4的负载进行检查可能会提供信息。荷载差异的全局测试结果如下第页 = 0.0000，支持荷载结构差异的结论。

图中的色度图7让我们更深入地了解这些组件。在这里，我们发现社区福利和支持关系保加利亚样本中的鳞片比丹麦样本中的大得多。另一方面，在丹麦的数据中，我们发现活力和情绪幸福感似乎发挥了更大的作用，因为与保加利亚人相比，他们在本样本中更高级别的组件中的负载更大。

保存图片、插图等的外部文件。对象名称为CJAS_A_1773772_F0007_OC.jpg

在单独的窗口中打开

图7。

用于比较丹麦和保加利亚心理健康数据的色度图。对比保加利亚和丹麦心理健康数据的第二、第三和第四个主要成分的色度图。成分基准用其相对方差贡献进行注释。

总之，我们发现心理健康确实不保加利亚和丹麦似乎是同一个概念。这两个国家在捕获概念最重要部分所需的维度数量（如特征值的差异所示）以及如何在6个尺度中对这些维度进行加权（如角度和色度图所示）方面存在分歧。在保加利亚，人际特征似乎更能反映心理健康状况，而在丹麦，个人特征发挥了相对较大的作用，这与前面提到的研究结果非常吻合。因此，这些数据集从根本上来说是不同的，因此我们应该谨慎地将它们结合在一个联合分析中，这也是ESS作者的结论，尽管这是基于国家级的汇总统计数据[7]. 此外，这也意味着，不能根据哪个国家“最幸福”来对两个国家进行排名，至少不能根据这里遇到的心理健康维度来进行排名。

3.3. 丹麦和瑞典的比较

现在我们来比较一下丹麦和瑞典的心理健康状况。图8显示了这两个国家的CE和角度图。在CE图中，我们现在发现累积特征值曲线正好在零假设的接受范围内。这也反映在两个测试中，现在生成第页-的值 ${第页}_{堪萨斯州} = 0.17$ 和 ${第页}_{CvM公司} = 0.11$ 分别是。因此，假设两个数据集中的特征值相等并非不合理。

保存图片、插图等的外部文件。对象名称为CJAS_A_1773772_F0008_OC.jpg

在单独的窗口中打开

图8。

比较丹麦和瑞典心理健康数据的CE图（顶部面板）和角度图（底部面板）。蓝色箭头表示丹麦数据集的主成分，该数据集在瑞典数据集主成分的坐标系中分解，红色箭头表示相反（在线彩色）。

图中的角度图8显示，这两个数据集在六个PC中的六个尺度的相对重要性上非常一致，因为几乎所有的非对角线箭头实际上都不存在。这还得到了全局测试的支持，结果是第页 = 0.1980，也表明荷载没有差异。这意味着，如果已经从丹麦数据中获得了第一个PC中的信息，那么该信息本身就足以描述瑞典数据的第一个PC。

查看图中的色度图9再次讲述同样的故事：在这里，我们发现前三个分量的载荷模式非常相似（这两个分量几乎占两个数据集中方差的80%），而其余三个分量略有不同，但差异在增加。因此，我们得出结论，丹麦和瑞典样本数据结构的任何差异都与数据集最不重要的维度有关，而这些维度只对两个数据集中不到25%的方差负责。特别是，这意味着我们可以以有意义的方式组合和比较丹麦和瑞典的数据集，例如使用图1总的来说，丹麦人似乎比瑞典人更快乐，尤其是丹麦最不快乐的人（以四分之一为代表）通常比瑞典最不幸福的人更快乐。现在可以对答案进行更彻底的统计调查为什么？情况似乎就是这样。

保存图片、插图等的外部文件。对象名称为CJAS_A_1773772_F0009_OC.jpg

在单独的窗口中打开

图9。

比较丹麦和瑞典子样本的加载模式的色度图。对于每个组件，条形图都用其累积方差贡献进行注释，即，通过获得此组件和前面组件的信息可以解释多少方差。

4.结论与讨论

提出并讨论了三种新的工具，统称为基于主成分分析的数据结构比较（PCADSC），用于确定是否可以将两个数据集合并进行分析。它们都使用对数据集的两个子集执行的经验协方差矩阵的主成分分解，以创建数据结构差异的三种直观可视化。第一个可视化是累积特征值图，它比较了两个数据集的特征值。第二种可视化是角度图，它使用特征值的解释作为解释方差来集中比较载荷（特征向量）。最后，第三种可视化，即色度图，可以定性解释选定主成分中加载模式的差异。

在对2012年版欧洲社会调查（ESS）项目数据的分析中，我们说明了PCADSC工具有助于分析国家间心理健康和幸福的差异。应该指出的是，尽管人们对汇集不同国家的数据的担忧在幸福感排名方面还不是很普遍，但这一主题在国际教育排名领域已经得到了很好的审查。例如，PISA考试被反复批评为没有意义的国际比较对象，特别是由于不同项目功能的问题[8,9,19]和翻译问题[2]. 这突出了数据可比性的缺乏，这是一个经验上相关且令人担忧的问题，无法回避：在进行排名时，应始终解决数据结构异质性的问题。

通常，当使用PCA时，主要的兴趣在于分数，即坐标 $η_{j个}^{⊤} (x_{我} - \bar{x})$ 但特征值和伴随的载荷实际上更适合评估数据结构相似性。如果两个数据集子集具有相似的载荷，则可以认为它们测量的基本量相同。在两组分数不同的情况下，可能会发生类似的负荷，例如，如果两个数据集来自两个不同的受试者群体。另一方面，如果两个子集中的加载模式不同，则这表明它们各自的变量交互作用不同，因此使用这些变量进行两个子集之间的比较是值得批评的。PCADSC工具在强调加载中保存的信息而非分数方面很新颖。

尽管到目前为止，PCADSC工具箱包含三个诊断图，但PCA分解当然可以进一步用于生成新的PCADSC图，以说明数据结构差异的更多方面。例如，碎石地（由卡特尔介绍[4])通过为同一坐标系中的两个数据子集创建scree图，可以很容易地重新创建为PCADSC工具的有序特征值图，从而生成简单的图形比较。然后可以采用CE图中使用的重采样方法，从而用重采样曲线注释碎石图。这种模型完整性评估的通用方法在与置换测试相结合时非常有用，这是林和同事的启发[10].

提出的方法也有局限性。首先，由于PCA是在变量标准化后进行的，PCADSC方法既不能检测平均值也不能检测边际方差的差异——这些信息在第一步就被丢弃了。然而，这种差异与我们迄今为止讨论过的差异具有根本不同的性质。平均值的差异通常是分析的主要目的，当然不应被视为数据可比性问题。另一方面，边际方差的差异可能会带来一些建模挑战，但没有一个问题通常无法通过使用随机效应模型来解决。因此，我们不认为PCADSC的这一特性是一个主要缺点。

一个更突出的限制是，PCASDC方法仅对具有数值解释的变量有效。特别是，这意味着这些方法不能用于具有标称类别变量的数据。这一限制是从主成分分析方法继承而来的，因此，要超越它，就需要用更通用的主成分分析框架来取代主成分分析。多重对应分析（MCA）通常被认为是PCA的一种分类扩展[1]因此，在PCADSC工具中包含MCA是很自然的下一步。

此外，尽管我们已经在一个模拟的和真实的数据示例中说明了PCASDC的辨别能力，但当然还需要对其性能进行进一步评估。虽然PCADSC的最佳功能可能是工具的直观性和可视性，但这也是最大的弱点。对于产生一个数字（或一组数字）的统计方法，评估性能的标准方法是报告模拟研究，但对于报告图形的统计方法来说，这是不可行的。因此，对PCADSC方法的性能进行系统评估并不是很直接的设计：它实际上取决于用户是否可以使用诊断图检测数据结构中的实际差异。我们建议可以使用沃利地块[5]，这些是为教学生如何解释残差图而开发的学习工具。对于更彻底的性能调查，首先要考虑的是对两个数据集样本大小的敏感性， ${n个}_{1}$ 和 ${n个}_{2}$ .

数据大小的另一个方面，即变量的数量d日也可能限制PCADSC工具的可用性。而CE图可以很好地缩放d日如果存在大量变量，从而存在大量主成分，则角度图和色度图可能变得难以读取。然而，由于角度图允许箭头长度取决于相应特征值的大小，因此其视觉印象应有助于引导用户产生影响力和尽管组件不同d日并且当这些组件被识别后，色度图可以只关注它们，从而避免绘制过多组件的加载模式。

总的来说，PCADSC方法代表着解决已知问题的第一步，否则该问题会遇到不令人满意的特殊方法，这些方法的假设正是基于他们正在测试的假设。PCADSC工具在这里提供的数据示例中表现很好，得出的结论符合公认的理论，并且使用PCADSC进行进一步的使用和测试很简单R（右）包裹。

补充材料

补充数据.pdf：

单击此处查看其他数据文件。^{（120万，pdf）}

笔记

^*注：会议记录中包含了本条的早期草案2018年安万特统计研讨会。哥本哈根：丹麦国家工作环境研究中心和哥本哈根大学（2018）.

披露声明

提交人没有报告任何潜在的利益冲突。

工具书类

1Abdi H.和Williams L.J。，主成分分析,威利公司（Wiley Interdiscip）。版次计算。斯达。 2（2010），第433-459页。于10.1002/wics.101提供。[交叉参考][谷歌学者]

2Asil M.和Brown G.T.L。，OECD PISA英语阅读与其他语言阅读的比较：确定非差异性的潜在来源,国际期刊测试。 16（2016），第71–93页。网址：10.1080/15305058.2015.1064431[交叉参考][谷歌学者]

三。Brambilla D.J.和McKinlay S.M。，混合模式健康调查中邮寄问卷和电话访谈的回应比较,美国流行病学杂志。 126（1987），第962-971页。可在http://www.ncbi.nlm.nih.gov/pubmed/3661543.doi:10.1093/oxfordjournals.aje.a114734[公共医学] [交叉参考][谷歌学者]

4卡特尔·R.B。，因子数的筛选试验,多元行为。物件。 1（1966年），第245–276页。doi:10.1207/s15327906mbr0102_10[公共医学] [交叉参考][谷歌学者]

5.埃克斯特罗姆·C.T。，使用图形模型验证技术教授“即时体验”,教。斯达。 36（2014），第23-26页。可在http://doi.wiley.com/10.1111/test.12027.[谷歌学者]

6Helliwell J.、Layard R.和Sachs J。，2016年世界幸福报告更新《可持续发展解决方案网络》，纽约，2016年。[谷歌学者]

7Jeffrey K.、Abdallah S.和Quick A。，欧洲人的个人和社会福祉：欧洲社会调查第六轮的主要结果ESS Topline Results（系列5），比较社会调查中心，伦敦，2015年。

8KankarašM.和Moors G。，2009年PISA成绩的跨文化可比性分析,J.克罗斯。邪教。精神病。 45（2014），第381-399页。数字对象标识代码：10.1177/0022022113511297[交叉参考][谷歌学者]

9.Kreiner S.和Christensen K.B。，模型拟合和稳健性分析。根据阅读能力对国家进行排名的PISA缩放模型的新观点,心理测量学 79（2014），第210–231页。doi:10.1007/s11336-013-9347-z[公共医学] [交叉参考][谷歌学者]

10林大勇、魏立杰、应征。，基于累积残差的模型检验技术,生物计量学 58（2002），第1-12页。doi:10.1111/j.0006-341X.2002.0001.x[公共医学] [交叉参考][谷歌学者]

11Little R.J.A.和Rubin D.B。，缺失数据的统计分析第二版，J.Wiley，纽约，2002年，第3章。

12刘明。，比较在线面板和截距样本的数据质量,方法创新 9（2016），第2059799116672877页。电话：10.1177/2059799116672877。[交叉参考][谷歌学者]

13Lolle H.L.和Andersen J.G。，衡量幸福感和总体生活满意度：一项关于语言和翻译问题影响的丹麦调查实验,J.幸福钉。 17（2016），第1337-1350页。可于2007年10月10日/10902-015-9646-4购买。[交叉参考][谷歌学者]

14McHorney C.A.、Kosinski M.和Ware J.E。，通过邮件和电话采访收集的SF-36健康调查的成本和标准质量比较：来自全国调查的结果,医疗护理。 32（1994年），第551-67页。可在http://www.ncbi.nlm.nih.gov/pubmed/8189774.doi:10.1097/00005650-199406000-00002[公共医学] [交叉参考][谷歌学者]

15Petersen A.H.和Markussen B。，PCADSC：基于主成分分析的数据结构比较工具，R包版本0.8.0，2017。可在https://CRAN.R-project.org/package=PCADSC.[PMC免费文章][公共医学]

16Powers J.R.、Mishra G.和Young A.F。，自测健康的邮件和电话回复差异：多重插补在纠正回复偏差中的应用,澳大利亚。N.Z.J.公众。健康。 29（2005），第149–154页。可在http://www.ncbi.nlm.nih.gov/pubmed/15915619.doi:10.1111/j.1467-842X.2005.tb00065.x[公共医学] [交叉参考][谷歌学者]

17.罗德里格斯·波塞·A和冯·贝列普什·V。，欧洲的社会资本与个人幸福,J.幸福钉。 15（2014），第357-386页。doi:10.1007/s10902-013-9426-y[交叉参考][谷歌学者]

18Veenhoven R.、。，幸福的跨国家差异：文化测量偏差还是文化影响？,国际J.福利 2（2012），第333-353页。doi:10.5502/ijw.v2.i4.4[交叉参考][谷歌学者]

19Zwitser R.J.、Glaser S.S.F.和Maris G。，监测变化世界中的国家：国际调查中DIF的新视角,心理测量学 82（2017年），第210-232页。doi:10.1007/s11336-016-9543-8[公共医学] [交叉参考][谷歌学者]

文章来自应用统计学杂志由以下人员提供泰勒和弗朗西斯