理论背景

2022-11-03

创建字符间距离矩阵

形态数据类型

分类形态数据(离散字符)应为导入以计算字符距离时被视为系数,如用于表示不同状态的符号是任意的(例如。,可以用字母表示,例如DNA数据)。如果连续变量用作系统发育特征,应该从一个单独的文件中读取,并作为数字数据处理,因为输入每个状态的值(例如,0.234、2.456、3.567等)表示真数据点之间的距离。

不适用和缺失数据的处理

分类数据,包括不适用和缺失数据的符号(通常情况下"-""?")将是读取与数字相关的单独数据类别不同字符状态的符号("0","1","2"等)。因此,有几个用户处理形态系统发育的选项在导入数据之前说明不适用/缺失数据的数据集进入之内EvoPhylo公司。用户可以转换不适用/缺失不适用或者他们可以选择保留原始符号。

在下面提供的示例中,转换不适用/缺失条件到不适用将忽略相应的分类群计算字符间距离的数据不适用/缺失。这个由此产生的距离矩阵将引入NaN公司到每个包含两个字符的成对比较不适用(全部包括字符5的比较,以及任何成对比较包括字符4、5和7)(表2为蓝色)。统计测试而聚类方法不能利用这样的矩阵NaN公司作为数据输入和观测值删除导致过度NaN公司必须执行。然而,删除包含过多不适用/缺失数据的观察结果不可能进行字符分区,因为数据集必须分配给至少一个分区(无论缺失或不适用数据的数量)。

表1。示例数据集
出租车A 紫杉醇B
字符1 0 0
第2章 1 1
字符3 0 0
字符4 0 ?
字符5 ? ?
字符6 1 1
字符7 ? 1
字符8 0 0
字符9 1 1
字符10 1 1

此外,在比较包含状态的字符时不适用,后者对距离的贡献为0矩阵。例如,字符6(1,1)和7之间的距离(不适用,1)为0(表2为红色)。隐式假设选项1是未知字符贡献0距离。因此,该方法通过最小化总体字符之间的距离尽可能小。它假设无论未知状态所代表的真实情况如何始终假定等于已知字符状态(例如。,分类群A和分类群B的特征状态得分为“1”)。

或者,保留原始不适用/缺失的数据符号将使不适用/缺失的数据被视为不同的相对于数字符号的类别变量。因此,成对与具有未知数据的字符进行比较将避免介绍NaN公司,允许所有字符考虑(蓝色表3)。这种方法假设未知状态总是不同于任何已知状态,这会使距离产生偏差矩阵增加字符之间的总距离。然而,幸运的是,Gower距离(如这里所用)通过数据集中变量的数量(本例中为分类单元数量),这就减少了这种偏见。例如,在简单比较从两个分类群(A和B)中取样的两个字符,例如字符6(1,1)以及在线小插曲中示例中的字符7(NA,1),原始这些字符之间的距离是1.0,但Gower距离它们是1/2=0.5(红色的表3)。

表2。转换不适用/缺失条件时的距离矩阵至“NA”
字符1 字符2 字符3 字符4 字符5 字符6 字符7 字符8 字符9 字符10
字符1 0 1 0 0 不适用 1 1 0 1 1
字符2 1 0 1 1 不适用 0 0 1 0 0
字符3 0 1 0 0 不适用 1 1 0 1 1
字符4 0 1 0 0 不适用 1 不适用 0 1 1
字符5 不适用 不适用 不适用 不适用 不适用 不适用 不适用 不适用 不适用 不适用
字符6 1 0 1 1 不适用 0 0 1 0 0
字符7 1 0 1 不适用 不适用 0 0 1 0 0
第8章 0 1 0 0 不适用 1 1 0 1 1
字符9 1 0 1 1 不适用 0 0 1 0 0
字符10 1 0 1 1 不适用 0 0 1 0 0
表3。保留原始不适用/缺失时的距离矩阵数据符号
字符1 字符2 字符3 字符4 字符5 字符6 字符7 字符8 字符9 字符10
字符1 0 1 0 0.5 1 1 1 0 1 1
字符2 1 0 1 1 1 0 0.5 1 0 0
第3章 0 1 0 0.5 1 1 1 0 1 1
字符4 0.5 1 0.5 0 0.5 1 1 0.5 1 1
字符5 1 1 1 0.5 0 1 0.5 1 1 1
字符6 1 0 1 1 1 0 0.5 1 0 0
字符7 1 0.5 1 1 0.5 0.5 0 1 0.5 0.5
字符8 0 1 0 0.5 1 1 1 0 1 1
字符9 1 0 1 1 1 0 0.5 1 0 0
字符10 1 0 1 1 1 0 0.5 1 0 0