×

监督变量的聚类。 (英语) Zbl 1414.62234号

摘要:在预测建模中,高度相关的预测因素会导致模型不稳定,往往难以解释。选择特征或使用潜在成分来降低相关观测变量的复杂性是常见的策略。我们在这里提倡的新程序的目标是实现这两个目的:突出变量之间的组结构,并确定最相关的变量组进行预测。提出的程序是一种针对围绕潜在变量(CLV)的变量聚类而开发的方法的迭代改编。标准CLV算法的修改导致了一个有监督的过程,即待预测变量在聚类中起着积极的作用。与变量组相关的潜在变量,是根据它们与待预测变量的“接近度”及其“内部同质性”而选择的,逐步添加到预测模型中。基于仿真研究和实际应用,说明了该方法的特点。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62J05型 线性回归;混合模型

软件:

mixOmics公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Barnes RJ、Dhanoa MS、Lister SJ(1989)近红外漫反射光谱的标准正态变量转换和去趋势。应用光谱学45:772-777·doi:10.1366/0003702894202201
[2] Chun H,Keles S(2010)同时降维和变量选择的稀疏偏最小二乘回归。J R Stat Soc B 72(1):第3-25页·Zbl 1411.62184号 ·文件编号:10.1111/j.1467-9868.2009.00723.x
[3] Filzmoser P、Liebmann B、Varmuza K(2009)重复双交叉验证。化学杂志23:160-171·doi:10.1002/cem.1225
[4] Hastie T、Tibshirani R、Botstein D、Brown P(2001)《表情树的监管收获》。基因组生物学2(1):1-12
[5] Jolliffe IT,Trendafilov NT,Uddin M(2003)基于套索的改进主成分技术。计算机图形统计杂志12:531-547·doi:10.1198/1061860032148
[6] Le Cao KA,Rossouw D,Robert-Grani C,Besse P(2008)《稀疏PLS:整合经济学数据时的变量选择》。Stat Appl基因分子生物学7(1):第35条·Zbl 1276.62061号
[7] Le Thi HA,Le HM,Nguyen VV,Dinh TP(2008)支持向量机学习中用于特征选择的DC编程方法。高级数据分析类2:259-278·Zbl 1284.90057号 ·doi:10.1007/s11634-008-0030-7
[8] Leardi R,Boggia R,Terrile M(1992),遗传算法作为特征选择的策略。化学杂志6(5):267-281·doi:10.1002/cem.1180060506
[9] Naes T,Kowalski B(1989)从外部仪器测量预测感官轮廓。食物质量偏好1:135-147·doi:10.1016/0950-3293(89)90001-3
[10] Park MY,Hastie T,Tibshirani R(2007)回归的平均基因表达。生物统计学8(2):212-227·兹比尔1144.62357
[11] Subedi S、Punzo A、Ingrassia S、McNicholas PD(2013),通过聚类加权因子分析进行聚类和分类。高级数据分析分类7(1):5-40·Zbl 1271.62137号 ·doi:10.1007/s11634-013-0124-8
[12] Tibshirani R(1996)通过套索回归收缩和选择。罗伊统计学会J Roy Stat Soc B 58(1):267-288·Zbl 0850.62538号
[13] Vichi M,Saporta G(2009),聚类和不相交主成分分析。计算统计数据分析53:3194-3208·Zbl 1453.62230号 ·doi:10.1016/j.csda.2008.05.028
[14] Vigneau E,Qannari E(2003),潜在成分周围变量的聚类。公共统计模拟计算32(4):1131-1150·Zbl 1100.62582号 ·doi:10.1081/SAC-120023882
[15] Vigneau E,Thomas F(2012),通过1H核磁共振波谱验证橙汁的模型校准和特征选择。化学智能实验室117:22-30·doi:10.1016/j.chemolab.2011.05.006
[16] Vigneau E、Sahmer K、Qannari EM、Bertrand D(2005)《分析光谱数据的变量聚类》。化学杂志19(3):122-128
[17] Vigneau E、Endrizzi I、Qannari E(2011)使用CLV方法发现和解释消费者集群。食品资格预审22(4):705-713·doi:10.1016/j.foodqual.2011.01.004
[18] 邹H,Hastie T(2005)通过弹性网的正则化和变量选择。罗伊统计学会J Roy Stat Soc B 67(3):301-320·Zbl 1069.62054号
[19] Zou H,Hastie T,Tibshirani R(2006)稀疏主成分分析。计算机图形统计杂志15:265-286·doi:10.1198/106186006X113430
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。