文件Zbl 06871032-zbMATH Open

未知簇结构数据的降维。（英语） Zbl 06871032号

信息科学。 330, 74-87 (2016).

摘要：出于多种原因，需要保留数据某些特征的降维。在这项工作中，我们将重点放在来自混合高斯分布的数据上，并且我们提出了一种保持聚类结构的显著性的方法，尽管假定这种结构还未知。该方法背后的基本原理如下：（i）如果已知数据中的簇（类），可以通过将数据投影到Fisher线性子空间来促进进一步分析并降低空间维数，根据定义，该子空间最能保留给定类的结构；（ii）在一些合理的假设下，这可以做到，尽管是近似的，而无需事先了解集群（类）。在本文中，我们展示了这种方法的工作原理。我们提出了一种初步数据转换方法，该方法使总体变化最大的方向接近类间最佳分离的方向。因此，对于转换后的数据，简单PCA提供了Fisher子空间的近似值。我们表明，转换在很大程度上保留了数据中未知结构的显著性。

引用于三文件

MSC公司：

62H25个	因子分析和主成分；对应分析
62H30型	分类和区分；聚类分析（统计方面）

关键词：

降维;高斯混合模型;费希尔子空间;主成分分析

软件：

ElemStatLearn（电子状态学习）

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	Achlioptas，D。；McSherry，F.，关于混合分布的谱学习，学习理论。学习理论，计算机科学讲稿，第3559卷，458-469（2005），施普林格出版社：柏林施普林格·Zbl 1137.68512号
[2]	安德森，T.W。；Bahadur，R.R.，《用不同协方差矩阵将多元正态分布分类》，《数学年鉴》。Stat.，33，2，420-431（1962）·兹伯利0113.13702
[3]	Arora，S。；Kannan，R.，《分离的非球面高斯混合的学习》，《Ann.Appl。概率。，15，1A，69-92（2005年）·Zbl 1059.62062号
[4]	波隆-卡内多，V。；Sánchez-Maroño，N。；Alonso-Betanzos，A.，《大数据背景下特征选择的最新进展和新挑战》，Knowl。基于系统。，86, 33-45 (2015)
[5]	Bouhamed，S.A。；Kallel，I.K。；Masmoudi，D.S。；Solaiman，B.，可能性建模中的特征选择，模式识别。，48, 11, 3627-3640 (2015)
[6]	布兰德，M。；Huang，K.，谱嵌入和聚类的统一定理，（Bishop，C.M.；Frey，B.J.，《第九届人工智能与统计国际研讨会论文集》（2003），人工智能与统计学学会）
[7]	布鲁贝克，S。；Vempala，S.，《各向同性PCA和仿射不变聚类》，（Grötschel，M.；Katona，G.；Sági，G.，《建筑桥梁》，博莱雅数学研究学会，第19卷（2008），施普林格：施普林格柏林，海德堡），241-281·Zbl 1159.68542号
[8]	布莱恩特，J。；Jr.，G.L.，保距离线性特征选择，模式识别。，11, 5-6, 347-352 (1979) ·Zbl 0424.62040号
[9]	Dasgupta，S.，《高斯混合学习》，第40届计算机科学基础年度研讨会论文集，634-644（1999）
[10]	Decell，H.P。；Odell，P.L。；Coberly，W.A.，线性降维和贝叶斯分类，模式识别。，13, 3, 241-243 (1981) ·Zbl 0462.62044号
[11]	费维舍夫斯基。；Goldberger，J.，一种保留簇结构的无监督数据投影，Pattern Recognit。莱特。，33, 3, 256-262 (2012)
[12]	Fisher，R.，《分类问题中多重测量的使用》，Ann.Eugen。，7, 2, 179-188 (1936)
[13]	Fukunaga，K.，《统计模式识别导论》。统计模式识别导论，计算机科学和科学计算（1990），学术出版社：学术出版社，马萨诸塞州波士顿·Zbl 0711.62052号
[14]	加西亚·托雷斯，M。；Gómez-Vela，F。；梅利安·巴蒂斯塔，B。；Moreno-Vega，J.M.，《通过特征分组进行高维特征选择：可变邻域搜索方法》，《信息科学》。，326，102-118（2016）
[15]	Ghosh，S。；Henderson，S.G.，随着维数的增加，相关随机向量生成的NORTA方法的行为，ACM Trans。模型。计算。模拟。，13276-294（2003年）·Zbl 1390.65009号
[16]	Ghosh，S。；Henderson，S.G.，勘误：相关随机向量生成的NORTA方法随维数增加的行为，ACM Trans。模型。计算。模拟。，19, 4, 20:1-20:3 (2009) ·Zbl 1408.65005号
[17]	哈斯蒂，T。；Tibshirani，R。；Friedman，J.，《统计学习的要素：数据挖掘、推断和预测》。《统计学习的要素：数据挖掘、推断和预测》，《统计学中的斯普林格系列》（2009），斯普林格出版社：纽约斯普林格·Zbl 1273.62005年
[18]	霍恩，R.A。；Johnson，C.R.，矩阵分析（1985），剑桥大学出版社：剑桥大学出版社·Zbl 0576.15001号
[19]	Hotelling，H.，两组变量之间的关系，生物统计学，28，3-4，321-377（1936）·Zbl 0015.40705号
[20]	Jing，L。；田，K。；黄建忠，高维数据集成聚类的分层特征抽样方法，模式识别。，48, 11, 3688-3702 (2015)
[21]	Joe，H.，基于部分相关性生成随机相关矩阵，J.Multivar。分析。，97, 10, 2177-2189 (2006) ·Zbl 1112.62055号
[22]	卡莱，A.T。；莫伊特拉，A。；Valiant，G.，《两个高斯人的有效学习混合》（Schulman，L.J.，第42届美国计算机学会计算理论研讨会论文集（2010）），553-562·Zbl 1293.68229号
[23]	Kannan，R。；Salmasian，H。；Vempala，S.，《一般混合模型的谱方法》（Auer，P.；Meir，R.，《学习理论》，计算机科学讲义，3559（2005），Springer:Springer Berlin，Heidelberg），444-457·Zbl 1137.68543号
[24]	Kurowicka，D。；Cooke，R.，《高维相关性模型的不确定性分析》。《高维相关性模型的不确定性分析》，《概率统计中的威利级数》（2006），约翰·威利父子有限公司：约翰·威利家子有限公司奇切斯特·Zbl 1096.62073号
[25]	Lipovetsky，S.，非负载荷下的PCA和SVD，模式识别。，42, 1, 68-76 (2009) ·Zbl 1173.68676号
[26]	Lipovetsky，S.，通过多项式logit模型聚类的总几率和其他目标，Adv.Adapt。数据分析。，04, 03, 1250019 (2012)
[27]	Lipovetsky，S.，《加法和乘法混合正态分布与寻找簇中心》，国际期刊Mach。学习。赛博。，4, 1, 1-11 (2013)
[28]	Mardia，K.V。；肯特，J.T。；Bibby，J.M.，《多元分析：概率和数学统计：一系列专著和教科书》（1979年），学术出版社[Harcourt Brace Jovanovich，出版商]：学术出版社[Hacourt Blace Jovanocich，出版社]伦敦，纽约，多伦多，安大略省·Zbl 0432.62029号
[29]	莫伊特拉，A。；Valiant，G.，解决高斯混合多项式的可学习性，2010年IEEE第51届计算机科学基础年度研讨会论文集，93-102（2010）
[30]	Nowakowska，E。；Koronacki，J。；Lipovetsky，S.，高斯混合模型组分重叠的可追踪测量，ArXiv电子版（2014）
[31]	Nowakowska，E。；科罗纳基，J。；Lipovetsky，S.，高斯混合模型的聚类性评估，应用。数学。计算。，256591-601（2015）·Zbl 1341.62187号
[32]	Odell，P.L.，使用连续数据进行模式识别的降维模型，模式识别。，11, 1, 51-54 (1979) ·Zbl 0412.62041号
[33]	邱伟。；Joe，H.，具有指定分离度的随机簇的生成，J.Classif。，23, 2, 315-334 (2006) ·Zbl 1336.62189号
[34]	Ray，S。；Lindsay，B.G.，《多元正态混合物的地形》，《Ann.Stat.》，33，5，2042-2065（2005）·Zbl 1086.62066号
[35]	孙海杰。；孙，M。；Wang，S.-R.，高斯分量之间重叠率的测量，机器学习和控制论国际会议，第4卷，2373-2378（2007）
[36]	Trefethen，L.N。；Bau，D.，《数值线性代数》（1997年），工业和应用数学学会（SIAM）：美国宾夕法尼亚州费城·Zbl 0874.65013号
[37]	Tubbs，J。；Coberly，W。；Young，D.，线性降维和未知总体参数的贝叶斯分类，模式识别。，15, 3, 167-172 (1982) ·Zbl 0491.62047号
[38]	Vempala，S。；Wang，G.，用于学习混合分布的谱算法，第43届IEEE计算机科学基础年会论文集，2002，113-122（2002）
[39]	韦加拉，J。；Estévez，P.，基于互信息的特征选择方法综述，神经计算。申请。，24, 1, 175-186 (2014)
[40]	王，X。；Paliwal，K.K.，特征提取和降维算法及其在元音识别中的应用，模式识别。，36, 10, 2429-2439 (2003) ·Zbl 1039.68114号
[41]	沃夫，L。；Shashua，A.，分类机的核心主角及其在图像序列解释中的应用，2003年IEEE计算机学会计算机视觉和模式识别会议论文集，第1卷，I-635-I-640（2003）
[42]	沃尔夫，L。；Shashua，A.，使用核主角学习集合，J.Mach。学习。第4913-931号决议（2003年）·Zbl 1098.68679号
[43]	O.山口。；福井，K。；Maeda，K.，使用时间图像序列进行人脸识别，第三届IEEE自动人脸和手势识别国际会议论文集，1998，318-323（1998）
[44]	Young，医学博士。；Odell，P.L。；Marco，V.R.，一般统计模式识别模型的最佳线性特征选择，模式识别。莱特。，3, 3, 161-165 (1985) ·Zbl 0566.62052号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：书本；一：书籍文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

未知簇结构数据的降维。（英语） Zbl 06871032号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

未知簇结构数据的降维。 （英语） Zbl 06871032号

MSC公司：

关键词：

软件：

参考文献：

未知簇结构数据的降维。（英语） Zbl 06871032号