1.1.0版
有许多有趣的包可供执行然而,据我所知,他们缺乏一些工具来帮助用户关注一些关键的CA方面(例如。,行/列类别对主轴的贡献行/列类别与维度的显示、关联等)。除了提供这些功能外,此包还允许计算通过“平均规则”,CA维度的重要性Malinvoud测试和置换测试。此外,它还允许计算CA总惯量的置换显著性。
该软件包附带了一些来自文献的数据集:
品牌咖啡
:继Kennedy R等人之后,实用对应分析在市场分类数据中的应用研究,《目标测量与分析杂志》市场营销,1996年
早餐
:在Bendixen M之后,实用指南对应分析在营销研究中的应用,英寸在线研究1,1996,16-38(表5)
疾病
:在Velleman P F、Hoaglin D C之后,勘探数据的应用、基础和计算分析Wadsworth Pub Co 1984(附件8-1)
火灾损失
:在Li等人之后,时间的影响,中国火灾损失概率的位置和成因因素:A对应关系分析,《消防技术》50(5),2014,1181-1200(表5)
绿色_数据
:在Greenacre M之后,通信实践中的分析博卡拉顿-伦敦-纽约,查普曼和霍尔/CRC 2007(附件12.1)
已实施清单函数
平均规则
:平均规则图。
caCluster公司
:对上的行/列类别进行聚类对应分析的基础来自空间的坐标用户定义的维度。
caCorr()
:行和列之间的相关性图表类别。
caPercept()
:感知图样对应分析散点图。
caPlot()
:以解释为导向的信函分析散点图,信息丰富且灵活(非重叠)标签。
caPlus()
:面向解释的CA设施散点图。
ca散射()
:基本散点图可视化设施。
cols.cntr()
:列贡献图表。
cols.cntr.scatter()
:列类别的散点图对维度的贡献。
cols.qlt()
:列质量图表显示。
分组Bycoord()
:在上定义类别组利用Jenks的自然值将选定的划分为k个群的基选定维度坐标上的break方法。
装病()
:Malinvoud对CA维度。
重新缩放()
:重新缩放行/列类别坐标在最小值和最大值之间。
rows.cntr()
:行贡献图表。
rows.cntr.scatter()
:行类别的散点图对维度的贡献。
行.qlt()
:显示的行质量图表。
sig.dim.perm()
:CA的置换意义尺寸。
sig.dim.perm.scree()
:用于测试随机程序中CA维度的显著性。
sig.tot.internation.perm()
:CA的置换重要性总惯性。
table.collapse()
:折叠表的行和列在层次聚类的基础上。
实施的描述函数
平均规则()
:允许您查找根据所谓的平均规则。返回的直方图表示根据平均规则求解。
caCluster()
:绘制聚类分析结果根据对应分析的结果执行,并绘制树状图,描述聚类“质量”的silouette图解决方案,以及一个散点图,其中点根据簇进行编码会员。该功能提供了执行分层的功能基于对应分析结果。聚类基于行和/或列类别的坐标来自:
- 对应于全维的高维空间输入列联表;
- 维数小于全维的高维空间输入数据集的维数;
- 由一对用户定义的二维空间尺寸。
要获得(1)昏暗的
参数必须保留在其默认值(无效的
); 要获得(2)昏暗的
参数必须给定一个整数(不用说,小于输入数据的全维性);要获得(3)昏暗的
参数必须给定一个向量(例如,c(1,3))指定用户感兴趣的维度。
计算距离的方法使用dist.meth距离
参数,而凝聚法是使用指定的aggl.meth公司
参数。默认情况下,他们设置为欧几里得的
和病房。D2类
分别是。
用户可能希望事先指定所需的集群(即集群解决方案)。这是通过给“part”参数中的整数。树状图(带矩形表示集群解决方案),轮廓图(表示集群解决方案的“质量”)和CA散点图(带点返回基于其簇成员身份的给定颜色)。请注意,当选择高维空间时散点图将使用前2个CA维度;用户必须保持在请注意,基于高维空间的聚类可能不是很好地反映在由前两个维度定义的子空间上只有。
另请注意:
如果行和列类别都要进行聚类,列类别将由星号(*)标记在树状图(以及轮廓图中的树状图)只是为了更容易识别行和列;
轮廓图将平均轮廓宽度显示为虚线垂直线;所用CA空间的维数为在情节标题中报告;如果使用了一对维度图的标题中报告了各个尺寸;
轮廓图的标签以数字结尾,表示每个类别更接近的集群。
设置opt.零件
参数到真的
.最佳分区是通过位于哪个集群解决方案实现了最高的平均轮廓宽度。如果opt.零件
参数设置为真的
,一个附加图与轮廓图一起返回。它显示星团解(x轴)的散点图平均轮廓宽度(y轴)。垂直参考线指出最大化轮廓宽度的集群解决方案,对应于建议的最佳分区。
该函数返回一个存储集群信息的列表成员身份(即,哪些类别属于哪个集群)。
有关的更多信息和免责声明caCluster()
功能:
轮廓图从轮廓()
功能从集群
包裹。有关详细信息轮廓图的描述、原理及其解释,参见:
- Rousseeuw P J.1987年。轮廓:图形辅助聚类分析的解释与验证,第页,共页计算与应用数学20,53-65
对于在CA基础上对类别进行聚类的想法全高维空间(或子集)的坐标见:
- Ciampi等人,2005年。对应分析和双向群集,分类29(1),27-4
- Beh等人,2011年。欧洲人用两种方法感知食物对应分析,食品质量和偏好22(2),226-231
请注意,当两行使用AND列类别时必须小心,因为类间点的距离解释问题。对于一个完整问题描述(还附有进一步参考),请参见:
- Greenacre M.2007年。实践中的对应分析,博卡拉顿-伦敦-纽约,查普曼和霍尔/CRC,267-268。
caCorr()
:允许您计算列联表的行和列之间的相关性。一个参考线表示相关性可以超过的阈值被认为是重要的。
caPercept()
:绘制传统的变体对应分析散点图,便于结果的解释。其目的是生产营销中的产品研究被称为感知地图,的视觉表示旨在避免口译问题的CA结果空间距离。它只代表一种类型的点(例如,列点),并且“为轴命名”对应于主两个选定维度的行类别贡献器。
caPlot()
:绘制不同类型的CA散点图,添加与CA解释相关的信息。多亏了这个gg排斥
包装时,标签往往不会重叠,因此制作一个可读性很好的图表。该功能提供以下功能生产:
- 一有规律的(对称)散点图,其中点的标签仅报告类别名称;
- 散点图高级标签.如果用户感兴趣例如,在于解释由列类别,通过将参数“cntr”设置为“columns”列的标签将与圆内的两个星号耦合括号;每个星号(如果存在)将指示该类别是否为第一个选定维度定义的主要贡献者(如果左边的第一个星号)和/或如果是同一类别也是第二个选择的定义的主要贡献者维度(如果右侧有星号)。行的标签将报告与选定的尺寸;相关值在方括号内报告;左侧值是指与第一个值的相关性选定的尺寸,而右侧的值是指与第二个选定维度的相关性。如果参数“cntr”设置为“行”时,行类别的标签将指示贡献,列类别的标签将报告相关值。
- 一感知地图,其中轴的极点被命名为根据类别(行或列,由用户)对所选内容的定义有重大贡献尺寸;行(或列)标签将报告与所选维度。
该函数返回包含行和列数据的数据帧分数:
- 第一个选定标注上的坐标
- 第二个选定标注上的坐标
- 对第一个选定维度的贡献
- 对第二个选定维度的贡献
- 第一个选定维度上的质量
- 第二个选定维度上的质量
- 与第一个选定维度的相关性
- 与第二个选定维度的相关性
- 星号表示相应类别是否为主要类别对第一个和/或第二个选定维度的贡献。
caPlus()
:绘图对应分析散点图修改以帮助解释分析结果。特别是功能旨在在相同的视觉环境中更容易理解:*(a)哪些(例如,列)类别实际上有助于给定尺寸对的定义;*(b) 哪一行类别与哪个维度的相关性更大。
ca散射()
:允许获取不同类型的CA散点图。它只是来自加利福尼亚州
和事实矿工
包装。
cols.cntr()
:列等效rows.cntr()
(见下文)。
cols.cntr.scatter()
:列等效rows.cntr.stratter()行
(见下文)。
色谱校正()
:列等效rows.corr()行
(见下文)。
cols.corr.散射()
:列等效行更正散点()
(见下文)。
cols.qlt()
:列等效行.qlt()
(见下文)。
按坐标分组()
:允许对行/列进行分组将划分为k个用户定义的分区。创建了K个组在选定的维度的坐标。返回一个点图,表示类别分组到所选分区中。在底部的图表中还报告了拟合优度统计。该函数还返回一个数据帧,该数据帧存储所选类别的坐标维度和每个类别所属的组。
malinvaud()
:执行Malinvoud试验,其中评估CA维度的重要性。函数返回表格和绘图。前者列出了相关信息,其中每个CA维度的重要性。以图形方式显示点图表示每个维度的p值;尺寸分组依据显著性水平;红色参考线表示0.05门槛。
重新缩放()
:允许重新缩放要约束在最小值和最大值之间的选定尺寸用户定义的值。该功能的基本原理是用户可能希望使用给定维度上的坐标,沿取得的成就:Greenacre M 2002,使用健康调查数据挖掘中的对应分析,Documentos de Trabajo 5,BBVA基金会,第7-39页。函数返回表示行/列类别与重新缩放的所选尺寸的坐标。还会返回一个数据帧包含原始值(即坐标)和相应的重缩放值。
rows.cntr()
:计算行的贡献类别添加到选定维度。它显示了类别作为点图。参考线表示高于阈值哪一项贡献对决定很重要所选维度的。参数排序=真
种类类别对惯性的贡献按降序排列所选维度。在图的左侧,类别标签根据每个类别的性质都有一个符号(+或-)实际上有助于定义积极或消极尺寸的侧面。这些类别分为两类组:“主要”和“次要”对所选惯性的贡献尺寸。右侧有一个图例(启用/禁用使用腿
参数)报告相关性(sqrt(COS2))。一个符号(+或-)表示所选尺寸的哪一侧列类别是相关的。
rows.cntr.scatter()
:绘制的散点图行类别对两个选定维度的贡献。两个参考线(红色)表示阈值,高于该阈值贡献对于确定尺寸。对角线(黑色)是眼球的视觉辅助一个类别是否(相对而言)对两个维度中的任何一个。行类别的标签是耦合的圆括号内带+或-符号,表示选定的两个维度是可以读取的贡献值图表中的第一个符号(即左侧),+或-表示所选的第一个尺寸(即x轴上报告的尺寸)。第二个符号(即右边的一个)是指所选的第二个尺寸(即y轴上报告的尺寸)。
rows.corr()
:计算并以图形方式显示行类别与选定的尺寸。参数排序=真
安排类别按相关性的递减顺序。在返回的图表中左侧,类别标签根据它们与所选维度的哪一侧相关积极或消极。这些类别分为两组:与阳性(‘极+’)或阴性(‘极-')选定尺寸的极。右侧是一个图例指示列类别对选定的标注(值括在圆括号内)和符号(+或-)表示他们是否真正有助于尺寸正负侧的定义,分别是。此外,星号(*)标记可以被认为是维度定义的主要贡献者:
行更正散点()
:绘制的散点图行类别与两个选定维度的相关性(sqrt(COS2))。对角线(黑色)是对眼球的视觉辅助,无论是类别实际上(相对而言)与这两者中的任何一个都更相关尺寸。行类别的标签与两个+或-圆括号内的符号,指示两者的哪一侧所选维度可以从图表实际上是指。第一个符号(即指向left),+或-表示第一个选定维度(即在x轴上报告的)。第二个符号(即右侧)是指第二个选定尺寸(即其中一个报告在y轴上)。
行.qlt()
:打印行类别显示的质量由一对选定维度确定的子空间。
sig.dim.perm()
:计算一对的重要性通过排列测试选择维度,并将结果显示为散点图;一个大的红点表示观察到的惯性。已排列p值在轴标签中报告。
sig.dim.perm.scree()
:测试CA的重要性通过输入列联表的排列来确定维度。一个屏幕显示每个维度的观察特征值和对应的置换分布的第95个百分位特征值。观察到的特征值大于相应的第95个百分位的显著性至少在α0.05。P值为显示在图表中。
sig.tot.internation.perm()
:计算的重要性通过置换测试的CA总惯量;排列的直方图总惯量与观察到的总惯量和置换总惯量的95%。后者可以是视为观测到的总惯性的0.05α阈值重要性。
table.collapse()
:允许折叠行和输入列联表中基于层次聚类。该函数返回包含输入表、行折叠表、列折叠表和同时折叠了行和列的表。它可以选择返回两个树状图(一个用于行轮廓,一个用于列轮廓)表示集群。使用以下方法获得层次聚类这个事实矿工
秒HCPC()
功能。
理论基础:对表的行和/或列进行聚类可以感兴趣的用户想知道重要关联是集中的通过收集相似行(或列)在离散组中(格林纳克M,通信实践中的分析博卡拉顿-伦敦-纽约,查普曼和霍尔/CRC 2007,第116、120页)。行和/或列是以每次连续合并的方式逐步聚合使桌子的惯性变化最小。基础逻辑在于,合并的行(或列)会生成一个工作台惯性的微小变化具有相似的轮廓。本程序可以认为是最大化组间惯性和最小化组内惯性。基本上类似的方法是由事实矿工
包装(Husson F,Le S,第J页,用R进行探索性多元分析,博卡Raton London-New York,CRC出版社,第177-185页)。群集解决方案是基于以下基本原理:划分为Q(即给定当between-group增加时,建议使用从Q-1传递到Q分区时获得的惯性较大而不是从Q到Q+1簇分区。换句话说,在行(或列)合并的过程,如果以下聚合高度提高了组内惯性,这意味着步骤正在聚合非常不同的配置文件。
##历史1.1.0版
:*对优化函数返回的置换p值的计算sig.dim.perm()
,sig.dim.perm.scree()
、和sig.tot.internation.perm()
.
版本1.0.0
:首次发布给CRAN。
同伴网站
对应关系分析考古学