RobCoP:用于稳健CoPlot分析的Matlab包

打开统计杂志
第07卷第01期(2017),文章编号:74080,共13页
10.4236/ojs.2017.71003

RobCoP:用于稳健CoPlot分析的Matlab包

亚塞米·卡汉·阿蒂尔根1,Erdinc Levent Atilgan公司2

1土耳其安卡拉Hacettepe大学统计系

2土耳其安卡拉Meteksan Defense Ind.公司

版权所有©2017,作者和科学研究出版公司。

本作品根据知识共享署名国际许可证(CC BY 4.0)授权。

http://creativecommons.org/licenses/by/4.0/

收到日期:2016年12月22日;接受日期:2017年2月10日;发布日期:2017年2月13日

摘要

图形表示方法Robust CoPlot是经典CoPlots方法的稳健变体。CoPlot是多维标度(MDS)的一种改进,是一种用于多变量数据的可视化检查和丰富解释的实用工具。CoPlot使多维数据集能够在两个维度中呈现,其方式是同时分析变量和观测值之间的关系。在文献中,它还被用作聚类分析、数据包络分析(DEA)和异常值检测方法的补充工具。然而,这种方法对异常值非常敏感。当多维数据集包含异常值时,这可能会导致不良后果,例如变量的不准确表示。其动机是生成不受异常值过度影响的稳健CoPlot。在本研究中,我们提出了一个新的MATLAB包RobCoP,用于生成多维数据集的稳健图形表示。本研究通过提供RobCoP软件包的描述,为研究鲁棒CoPlot方法的实现提供了有用的目的;它还提供了一些关于鲁棒CoPlot分析本身的有限信息。这里提供的包具有足够的灵活性,允许用户选择MDS类型和向量相关方法来生成经典或稳健CoPlot结果。

关键词:

稳健、协绘图、多维缩放、多元分析、MATLAB

1.简介

[1]引入的CoPlot方法被用作多标准分组的工具。它由两个图组成:第一个图表示 第页 二维空间上的维观测,而第二个显示变量与观测之间的关系。这种方法的主要优点是可以同时调查一组数据的观测值之间以及变量之间的关系。与许多其他生成变量组合的多元方法(如主成分分析、聚类和因子分析)不同,CoPlot使用从原始数据集派生的变量。

在处理多维数据集的各种图形技术中,CoPlot方法近年来在各种用途的广泛领域引起了广泛关注。CoPlot用于多标准决策问题的地理表示[2][3][4],已用于经济计量研究[5]、能源和环境建模[6]、探索性数据分析[7],作为离群值检测工具[8][9],并用于以图形方式呈现DEA[10][11][12]。

尽管CoPlot方法在涉及多维数据集的应用中越来越流行,但它对异常值很敏感。为了获得可靠的结果,需要一个图形表示来解释异常值的存在。如果数据集包含离群值,变量的表示可能会与CoPlot方法中从干净数据中获得的表示有很大偏差。稳健CoPlot方法的目的是减少离群值的影响,并尝试拟合大部分数据[13]。

在本文中,我们为MATLAB[14]提供了RobCoP包,这是一个实现RobustCoPlot的软件包。开发此软件包的第一个目标是为研究人员提供一个软件包,该软件包提供经典和稳健CoPlot分析,用于MATLAB;据我们所知,这是目前唯一提供这些功能的软件包。在现有文献中,只有一个可比较的软件,它不是开源的[15],只能对经典CoPlot进行分析。该软件包可在Mathworks文件交换网站上免费获得。现场https://www.mathworks.com/matlabcentral/fileexchange/61338-robcop-a-matlab-package-for-robust-coplot-analysis网站包含运行分析和获得相应鲁棒CoPlot结果所需的基本函数。

本文的组织结构如下:第2节简要介绍了鲁棒CoPlot算法,第3节详细介绍了RobCoP作为一组MATLAB函数编写的。在第4节中,提供了两个应用程序包的示例。

2.鲁棒Coplot的方法论

2.1. 数据标准化

鲁棒CoPlot方法主要包括三个步骤。为了获得鲁棒CoPlot图,应该生成数据集的MDS嵌入。算法的第一步是获取标准化数据;否则,在不同尺度上测量的变量对分析的贡献并不相等[16]。典型的数据标准化程序通过使用样本平均值和标准偏差将数据转换为可比较的尺度。然而,这两个估计量对离群值非常敏感,即使只有一个强离群值可能会吸引样本均值并使样本方差膨胀。通过使用中位数和中位数绝对偏差(MAD),即这两个估计量的稳健等价物,可以限制离群值对数据标准化的可能影响。在稳健CoPlot中 第页 -维度的 n个 点数据矩阵 X(X) n个 × 第页 转换为标准化矩阵 Z轴 n个 × 第页 以如下稳健方式:

z(z) j个 = x j个 医学 ( x j个 ) 摩洛哥迪拉姆 ( x j个 ) (1)

哪里 z(z) j个 -第行和 j个 -标准化矩阵的第h列元素 Z轴 n个 × 第页 , x j个 j个 -数据矩阵的第n列 X(X) n个 × 第页 , 医学 ( . ) 是中值函数,并且 摩洛哥迪拉姆 ( x j个 ) = 1.4826 医学 ( | x j个 医学 ( x j个 ) | ) 代表绝对偏差中值。

2.2. 获取MDS嵌入

在第二步中 第页 -通过考虑从标准化数据矩阵中获得的差异度量,将多维数据集映射到二维空间。为了找到数据集的适当嵌入,文献中使用了度量(经典)或非度量(普通)MDS。虽然可以考虑非度量MDS(NMDS)以克服异常值的存在,但Spence和Lewandowsky[17]证明NMDS可能会受到异常值的不利影响。鲁棒CoPlot方法使用了[18]提出的鲁棒MDS(RMDS)。RMDS的主要优点是使用了异常值感知成本函数,定义为

(f) ( O(运行) , Y(Y) ) = < j个 [ δ j个 d日 j个 ( Y(Y) ) o个 j个 ] 2 + λ < j个 | o个 j个 | (2)

哪里 δ j个 是不同度量之间的差异 -th和 j个 -标准化矩阵的第几行 Z轴 n个 × 第页 , Y(Y) n个 × 2 是二维空间的坐标矩阵, d日 j个 ( Y(Y) ) 显示了之间的欧几里得距离 -th和 j个 -第行坐标矩阵 Y(Y) n个 × 2 , λ > 0 是控制假定离群值数量的参数 -第th行 j个 -离群矩阵的第h列元素 O(运行) o个 j个 = sgn公司 ( δ j个 d日 j个 ( Y(Y) ) ) 最大值 ( 0 , | δ j个 d日 j个 ( Y(Y) ) | λ / 2 ) ,表示异常值变量。

2.3. 添加变量向量

在鲁棒CoPlot方法的最后一步中,代表变量的向量位于获得的鲁棒MDS图上。稳健CoPlot使用中值绝对偏差相关系数(MADCC)确定矢量的方向和大小, ρ j个 , MADCC公司 ,由[19]给出。

ρ j个 , 马德克 = 摩洛哥迪拉姆 2 ( 单位 j个 ) 摩洛哥迪拉姆 2 ( k个 j个 ) 摩洛哥迪拉姆 2 ( 单位 j个 ) + 摩洛哥迪拉姆 2 ( k个 j个 ) . (3)

在这里, 单位 j个 k个 j个 稳健的主变量如下所示:

单位 j个 = z(z) j个 医学 ( z(z) j个 ) 摩洛哥迪拉姆 ( z(z) j个 ) + ν j个 医学 ( ν j个 ) 摩洛哥迪拉姆 ( ν j个 ) k个 j个 = z(z) j个 医学 ( z(z) j个 ) 摩洛哥迪拉姆 ( z(z) j个 ) ν j个 医学 ( ν j个 ) 摩洛哥迪拉姆 ( ν j个 ) . (4)

在(4)中, z(z) j个 代表 j个 -标准化数据矩阵第n列 Z轴 n个 × 第页 、和 ν j个 表示所有 n个 MDS映射中的点 j个 -特定方向的第个变量向量。对于每个度 360 ,的 ρ j个 , MADCC公司 变量实际值之间的相关性 j个 以及它们在向量上的投影, ν j个 ,已计算。确定矢量的方向,以便计算 ρ j个 , MADCC公司 值达到最大值。

3.RobCoP包的特点

RobCoP包只包含一个主函数RobustCoPlot()和许多辅助函数。RobustCoPlot()有一个输入参数InStrct和一个输出参数OutStrct。每个参数都是具有不同字段的MATLAB结构。RobustCoPlot()函数可以使用不同距离函数、数据标准化类型和MDS初始化方法的许多选项执行NMDS、RMDS分析。除了MDS分析之外,还可以进行经典和稳健CoPlot分析。所需的分析由输入结构InStrct的字段值确定。

要根据所需的分析类型生成输入结构,图1可用于指导。InStrct公司。输入结构的X字段应采用数据文件名。RobCoP处理的数据文件应采用逗号分隔值(CSV)格式。使用InStrct选择要分析的数据列。DataColNums字段。此字段应该是一维矩阵,其数字元素指示从输入CSV文件中选择的列。可选字段InStrct。ColorColumn用于对获得的MDS图上的数据点进行着色。此字段应该是一个标量,用于从CSV文件中选择要用于数据点着色的列。InStrct公司。ColorValues字段是一个一维数值矩阵,其元素是从InStrct指向的列中选择的值。ColorColumn(颜色列)。RobustCoPlot()最多可以为从InStrct中选择的六个不同值着色。色谱柱。换句话说,获得的MDS图可以通过使用不同的形状和颜色将数据点分割为六组。RobustCoPlot()可以使用三种不同的距离函数来获得MDS中使用的不同矩阵。InStrct公司。DisSimDist字段用于选择“欧几里德”、“城市块”或“优势”距离函数进行分析。也可以使用InStrct选择数据集的标准化技术。StdType字段。该字段的可能值为“平均值”和“中值”。“平均值”选择样本平均值和样本方差进行标准化,而“中值”使用中值代替平均值,并使用中值绝对偏差(MAD)表示方差。MDS分析的起点由InStrct确定。InitMethod字段。这个

图1形成RobustCoPlot()的输入结构InStrct。(实线表示必填字段,虚线表示可选字段。)。

可能的选择是主成分分析的“PCA”和随机选择的起点的“随机”。MDS分析的“NMDS”或“RMDS”选择是使用InStrct完成的。MDSMethod字段。如果选择“RMDS”,则InStrct。还应定义OutlierRatio字段。InStrct公司。OutlierRatio字段可以从 ( 0 , 1 ) 区间,表示RMDS分析的假设异常值比率。InStrct公司。DrawGraph是一个可选字段,可以接受值“Shepard”、“MDS”和“CoPlot”。如果未定义此字段,RobustCoPlot()将在静默模式下执行MDS分析,并返回获得的嵌入的坐标。“Shepard”选项仅绘制Shepard图,“MDS”绘制MDS图,“CoPlot”选项执行CoPlots分析。要查看所有图形,应使用“all”值。如果为InStrct选择了“CoPlot”选项。DrawGraph,还应使用InStrct选择CoPlot的向量相关方法。VecCorrMethod字段。如果选择“PCC”,向量的表示由皮尔逊相关系数实现;如果选择“MADCC”,则通过中值绝对偏差相关系数来实现表示。

输出结构OutStrct的字段因所选的MDS分析类型而异。以下两个字段OutStrct。应力值和OutStrct。嵌入是返回的字段,与所选的MDS方法无关。OutStrct。StressValue字段返回获得的MDS嵌入结果的Kruskall应力值。Kruskall应力值显示了获得的多元数据二维映射的质量,较小的值意味着良好的表示。外部结构。嵌入字段返回所选MDS方法找到的数据点的坐标。如果选择“RMDS”作为InStrct。MDSMethod,则OutStrct包含一个附加字段OutStrct。离群值,包含非零元素,显示RMDS分析期间被视为离群值的距离。

4.示例

稳健CoPlot方法同时考虑所有变量和观测值,以获得二维地图。变量之间的相关性、观测值之间的关系以及观测值与其测量变量之间的相互关系都可以通过单个图形表示出来。此外,远离大部分数据的可能离群值也很容易被检测到。

在本节中,我们介绍并说明了在数据包络分析中常用的数据集上使用RobCoP包来显示中国城市的经济绩效[20]。将给出如何获得经典和稳健CoPlot图的分步说明。在数据集中,中国35个城市(决策单位/DMU)有六个变量:劳动力(ILF)、流动资金(WF)、投资(INV)、工业总产值(GIOV)、利润和税收(P&T)以及零售额(RS)。本节中给出的所有示例都使用相同的数据集对经典CoPlots和Robust CoPlot进行比较。前两个例子与将观测结果嵌入二维有关,下面两个例子是为CoPlot结果准备的。

RobustCoPlot()函数将CSV文件作为输入数据集。输入数据文件的第一行应包含变量的名称,文件中的列数应等于变量名称的数量。换句话说,输入文件不应包含任何未命名的列。示例中使用的CSV文件的前几行如所示表1对于

表1。首先是输入CSV文件的几行。

参考。将包添加到MATLAB路径后,使用以下代码导入输入数据文件。

然后,ChineseCities.csv就可以进行分析了,它有36行表示变量和观察值的名称,8列表示变量和颜色值。

4.1. NMDS和RMDS分析

RobCoP包支持非度量MDS分析(用于经典CoPlot分析)和RMDS(用于Robust CoPlots分析)。ChineseCities.csv文件的第一列不包括在分析中,因为它包含观察编号。最后一列为COLOR,用于对生成的MDS嵌入进行着色,其中数字是以对数据集第六列的利润和税金(P&T)值进行排序的方式给出的。根据中定义的范围执行颜色值赋值表2。分析中也省略了颜色列。

为了允许在不同尺度上的变量之间进行比较,RobCoP包对数据进行了标准化。在本例中,为了生成非度量MDS嵌入,选择“Mean”作为标准化类型。

数据集的MDS嵌入需要一组观测值之间的距离。尽管给定的示例使用城市街区距离,但可以选择各种距离度量来在RobCoP包中创建距离矩阵。

对于MDS嵌入的起点,使用InStrct选择“PCA”(Torgerson)。InitMethod字段。

要生成非度量MDS结果,可以使用以下代码片段。要获得NMDS地图,InStrct。DrawGraph字段被选为“MDS”。类似地,到

获取Shepard图,则将其输入为“Shepard”。

准备好输入结构后,需要一个命令来执行分析。

对于给定的示例,获得的数据集的非度量MDS嵌入如所示图2非度量MDS分析的Shepard图如所示图3Shepard图是MDS图中各点之间的距离与观察到的近似值的散点图,理想情况下,实际近似值与预测近似值呈直线。如果Shepard图类似于阶梯函数或阶梯函数,则可以获得退化解。上的点图4干净利落地坚持直线。

以下代码片段可用于对同一数据集进行稳健的MDS分析。只有InStrct。输入结构的MDSMethod字段更改为

表2根据P&T(6)变量的颜色值赋值表。

图2.获得了对ChineseCities.csv文件进行非度量MDS分析的嵌入。

图3获得了用于ChineseCities.csv文件的非度量MDS分析的shepard图。

图4获得了用于对ChineseCities.csv文件进行稳健MDS分析的shepard图。

“RMDS”值,并且由于选择了健壮的MDS,InStrct。应给出OutlierRatio值。假设示例的异常值比率为10%[13]。此外,输出结构还包含OutStrct。OutlierMatrix字段,显示在RMDS分析期间哪些距离被视为异常值。获得的结果如所示图5图4.尽管图2图5对于给定的示例来说,类似于数据中异常值的百分比

图5.获得了用于对ChineseCities.csv文件进行稳健MDS分析的嵌入。

增加NMDS溶液中预测邻近区域的污染。

4.2. 稳健CoPlot分析

到目前为止生成的映射是不带变量的NMDS和RMDS映射。在本节中,将生成叠加在第一个映射上的第二个映射,该映射由每个变量的向量组成。以下代码片段提供了经典的CoPlot分析。用户需要了解矢量相关系数InStrct的数据矩阵标准化类型和计算方法。VecCorr-方法,应分别选择为“平均值”和“PCC”,以获得经典分析结果(参见图6).

下面的代码片段可以绘制鲁棒CoPlot。数据矩阵标准化类型和向量相关系数的计算方法必须指定为“中值”和“MADCC”,以获得稳健的分析结果(参见图7).

5.结论

本文介绍了在MATLAB中执行多元数据图形显示方法的RobCoP包。我们开发这个包的主要目的是提供一个有用的工具,帮助研究人员在存在离群值的情况下描述多元数据。这篇论文很重要

图6.ChineseCities.csv文件的经典CoPlot分析。

图7.ChineseCities.csv文件的稳健CoPlot分析。

贡献在于提供了一个新的软件包,该软件包为读者提供了鲁棒CoPlot分析以及带有开源代码的鲁棒MDS和经典CoPlots分析。直到最近,还没有用于CoPlot分析和稳健MDS的稳健版本的软件包。本文中提供的包解决了这些问题。我们相信,这套软件将用于各个领域,特别是应用统计。

引用本文

Atilgan,Y.K.和Atilgan.E.L.(2017)《RobCoP:稳健CoPlot分析的Matlab包》。《开放统计杂志》,第7期,第23-35页。https://doi.org/10.4236/ojs.2017.71003

参考文献

  1. 1Lipshitz,G.和Raveh,A.(1994)Co-Plot方法在城市间社会经济差异研究中的应用:差异发展政策的基础。城市研究,31123-135。https://doi.org/10.1080/00420989420080071

  2. 2Raveh,A.(2000)Co-Plot:{MCDM}几何表示的图形显示方法。欧洲运筹学杂志,125,670-678。https://doi.org/10.1016/S0377-2217(99)00276-3

  3. 三。Cangur,S.、Ercan,I.和Ozkaya,G.(2015)共同绘图法:欧洲地区烟草控制研究。流行病学、生物统计学和公共卫生,12,e11480-1–e11480-9。

  4. 4Shoval,N.和Raveh,A.(2004)《旅游景点分类和旅游城市建模:基于多元分析的协点方法》。旅游管理,25741-750。https://doi.org/10.1016/j.tourman.2003.09.005

  5. 5Raveh,A.(2000)《希腊银行体系:绩效再分析》。欧洲运筹学杂志,120,525-534。https://doi.org/10.1016/S0377-2217(98)00384-1

  6. 6Demirhan,H.和Atilgan,Y.K.(2015)基于稳健Coplot支持的遗传编程技术的土耳其新水平全球太阳辐射估算模型。能源转换与管理,1061013-1023。https://doi.org/10.1016/j.enconman.2015.10.038

  7. 7Lipshitz,G.和Raveh,A.(1998)《地区间社会经济差异:多元分析的新方法》。区域研究,32747-757。https://doi.org/10.1080/00343409850119436网址

  8. 8Mahlberg,B.和Raveh,A.(2012)Co-Plot:检测Dea异常值的有用工具。社会科学研究网络。

  9. 9Bravata,D.M.、Shojania,K.G.、Olkin,I.和Raveh,A.(2008)Coplot:医学中可视化多变量数据的工具。医学统计学,272234-2247。https://doi.org/10.1080/00343409850119436网址

  10. 10Huang,H.和Liao,W.(2012)《商业银行基于协点的效率衡量》。软件杂志,7,2247-2251。

  11. 11Adler,N.和Raveh,A.(2008)以图形方式呈现DEA。欧米茄,36715-729。https://doi.org/10.1016/j.omega.2006.02.006

  12. 12Nath,P.、Mukherjee,A.和Pal,M.N.(2001)《印度商业银行战略集团与绩效之间联系的识别:使用DEA和协图的组合方法》。国际数字会计研究杂志,112-152。https://doi.org/10.4192/1577-8517-v1_7

  13. 13Atilgan,Y.K.(2016)稳健共图分析。统计通信——模拟与计算,451763-1775。https://doi.org/10.1080/03610918.2013.875571

  14. 14MathWorks Inc.(2016)MATLAB-技术计算语言,2016a版。Natick MathWorks公司。

  15. 15Talby,D.(2015)《视觉Co-Plot》,5.5版。

  16. 16Borg,I.和Groenen,P.J.(2005)《现代多维尺度:理论与应用》。柏林施普林格科技与商业媒体。

  17. 17Spence,I.和Lewandowsky,S.(1989)稳健多维缩放。《心理测量学》,54,501-513。https://doi.org/10.1007/BF02294632

  18. 18Forero,P.和Giannakis,G.(2012)《稀疏性——利用稳健多维尺度》。IEEE信号处理汇刊,60,4118-4134。https://doi.org/10.109/TSP.2012.2197617

  19. 19Shevlyakov,G.和Smirnov,P.(2011)相关系数的稳健估计:调查尝试。奥地利统计杂志,40,147-156。

  20. 20Charnes,A.、Cooper,W.W.和Li,S.(1989)使用数据包络分析评估中国城市经济绩效的效率。社会经济规划科学,23,325-344。https://doi.org/10.1016/0038-0121(89)90001-3