×

用于减少数据探索过程中样本的维数和大小的算法。 (英语) Zbl 1292.93044号

摘要:本文讨论了探索性数据分析过程中降低数据集(随机样本)维数和大小的问题。这里研究的算法的概念是基于对较小维空间的线性变换,同时尽可能保持特定元素之间的相同距离。使用并行快速模拟退火的元启发式算法计算变换矩阵的元素。此外,对那些在位置上相对于其他数据集元素发生了显著变化的数据集元素执行重要性的消除或降低。所提出的方法可以在广泛的数据探索问题中具有通用性,提供了灵活的定制、在动态数据环境中使用的可能性,以及在主成分分析方面具有可比或更好的性能。针对该领域的基本任务,即聚类、分类和检测非典型元素(离群值),详细验证了其积极特征。

MSC公司:

93B11号机组 系统结构简化
93元57 采样数据控制/观测系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aarts,E.、Korst,J.和van Laarhoven,P.(1997)。模拟退火,E.Aarts和J.Lenstra(编辑),组合优化中的局部搜索,Wiley,Chichester,第91-120页·兹比尔0905.90140
[2] Alba,E.(2005)。并行元启发式:一类新的算法,Wiley,纽约州纽约市·邮编1094.90052
[3] Aswani Kumar,C.和Srinivas,S.(2006年)。使用特征值分析进行有效信息检索的潜在语义索引,国际应用数学与计算机科学杂志16(4): 551-558.; ·Zbl 1122.68047号
[4] Aswani Kumar,C.(2009年)。无监督维度技术、计算机科学和信息系统分析6(2): 217-227.;
[5] Azencot,R.(1992)。模拟退火:平行化技术,威利,纽约州纽约市。;
[6] Bartenhagen,C.、Klein,H.-U.、Ruckert,C.、Jiang,X.和Dugas,M.(2010年)。用于微阵列基因表达数据可视化的无监督降维技术的比较研究,BMC生物信息学11第567号论文。;
[7] Bartkuté,V.和Sakalauskas,L.(2009)。马尔可夫型随机搜索算法终止的统计推断,优化理论与应用杂志141(3): 475-493.; ·Zbl 1183.62081号
[8] Ben-Ameur,W.(2004)。模拟退火初始温度的计算、计算优化及应用29(3): 367-383.; ·Zbl 1062.90073号
[9] Borg,I.和Groenen,P.(2005年)。现代多维缩放。《理论与应用》,施普林格出版社,柏林·兹比尔1085.62079
[10] Camastra,F.(2003)。数据维度估计方法:调查、模式识别36(12): 2945-2954.; ·Zbl 1059.68100号
[11] Charytanowicz,M.,Niewczas,J.,Kulczycki,P.,Kowalski,P..,Łukasik,S.和˙扎克,S.(2010)。用于x射线图像特征分析的完整梯度聚类算法,收录于E.Pia˛tka和J.Kawa(编辑),《生物医学信息技术》,第2卷,柏林斯普林格出版社,第15-24页。;
[12] Cortez,P.、Cerdeira,A.、Almeida,F.、Matos,T.和Reis,J.(2009)。通过从物理化学特性、决策支持系统中进行数据挖掘来建模葡萄酒偏好47(4): 547-553.;
[13] Cox,T.和Cox,M.(2000)。多维缩放,查普曼和霍尔,博卡拉顿,佛罗里达州·兹比尔0853.62047
[14] 坎宁安,P.(2007)。都柏林UCD计算机科学与信息学院,降维技术报告。;
[15] Czarnowski,I.和J˛edrzejowicz,P.(2011)。基于代理的模拟退火和禁忌搜索程序在解决数据缩减问题中的应用,国际应用数学和计算机科学杂志21(1) :57-68,DOI:10.2478/v10006-011-0004-3·Zbl 1221.68191号
[16] David,H和Nagaraja,H(2003)。订单统计,威利,纽约州纽约市·Zbl 1053.62060号
[17] Deng,Z.、Chung,F.-L.和Wang,S.(2008)。FRSDE:使用最小包围球近似的快速约简集密度估计,模式识别41(4): 1363-1372.; ·Zbl 1131.68086号
[18] François,D.、Wertz,V.和Verleysen,M.(2007年)。分数距离的集中,IEEE事务知识和数据工程19(7): 873-886.;
[19] Geman,S.和Geman,D.(1984)。图像中的随机松弛、吉布斯分布和贝叶斯恢复,模式分析和机器智能IEEETransactions6: 721-741.; ·Zbl 0573.62030号
[20] Gendreau,M.和Potvin,J.-Y.(2010年)。《元启发式手册》,斯普林格,纽约州纽约市·Zbl 1198.90002号
[21] Han,J.和Kamber,M.(2006年)。数据挖掘:概念与技术,摩根·考夫曼,加利福尼亚州旧金山·Zbl 1445.68004号
[22] Ingber,L.(1996)。自适应模拟退火(ASA):经验教训、控制和控制论25(1) :33-54·Zbl 0860.93035号
[23] Inza,I.、Larranaga,P.、Etxeberria,R.和Sierra,B.(2000年)。基于贝叶斯网络优化的特征子集选择,人工智能123(1-2): 157-184.; ·Zbl 0952.68118号
[24] Ishibuchi,H.、Nakashima,T.和Murata,T.(2001)。用于语言规则提取的基于三目标遗传的机器学习,信息科学136(1-4): 109-133.; ·Zbl 0996.68175号
[25] Kerdprasop,K.、Kerdprasot,N.和Sattayatham,P.(2005年)。密度偏差聚类的加权k均值,载于A.Tjoa和J.Trujillo(编辑),数据仓库和知识发现,计算机科学讲义,第3589卷,Springer-Verlag,柏林,第488-497页。;
[26] Kulczycki,P.(2005)。《系统分析中的核估计》,WNT,华沙,(波兰语)。Kulczycki,P.(2008年)。工业应用中的核估计量,见B.Prasad(Ed.),《工业中的软计算应用》,柏林斯普林格-Verlag出版社,第69-91页·Zbl 0668.49023号
[27] Kulczycki,P.和Charytanowicz,M.(2010年)。由核估计构成的完整梯度聚类算法,国际应用数学与计算机科学杂志20(1) :123-134,DOI:10.2478/v10006-010-0009-3·Zbl 1300.62043号
[28] Kulczycki P.和Kowalski P.(2011年)。区间型、控制论和控制论不精确信息的Bayes分类40(1): 101-123.; ·Zbl 1318.62212号
[29] Kulczycki,P.和Łukasik,S.(2014)。通过并行快速模拟退火降低数据集的维数和大小,见L.T.Koczy、C.R.Pozna、R.Claudiu和J.Kacprzyk(编辑),《智能系统和计算智能的问题和挑战》,Springer-Verlag,柏林,第273-292页。;
[30] Kuo,Y.(2010)。使用模拟退火最小化时间相关车辆路径问题的油耗,计算机与工业工程59(1): 157-165.;
[31] Łukasik,S.和Kulczycki,P.(2011)。使用快速模拟退火的样本和数据降维算法,J.Tang,I.King,L.Chen和J.Wang(编辑),《高级数据挖掘和应用》,计算机科学讲义,第7120卷,柏林斯普林格出版社,第152-161页。;
[32] Łukasik,S.和Kulczycki,P.(2013)。使用拓扑保存措施在简化特征空间中进行多维智能数据分析,见L.Rutkowski、M.Korytkowski-R.Scherer、R.Tadeusiewicz、L.Zadeh和J.Zurada(编辑),《人工智能和软计算》,计算机科学讲义,第7895卷,柏林斯普林格-Verlag,第184-193页。;
[33] Maaten,van der,L.(2009)。从视觉数据中提取特征,蒂尔堡大学博士论文。;
[34] Mangasarian,O.和Wolberg,W.(1990年)。通过线性规划进行癌症诊断,SIAM新闻23(5): 1-18.;
[35] Mitra,P.、Murthy,C.和Pal,S.(2002年)。基于密度的多尺度数据压缩,IEEE模式分析和机器智能汇刊24(6): 734-747.;
[36] Nam,D.、Lee,J.-S.和Park,C.(2004)。用于快速模拟退火的n维Cauchy邻域生成,IEICE信息与系统事务E87型-D类(11): 2499-2502.;
[37] Oliveira,J.和Pedrycz,W.(编辑)(2007年)。模糊聚类及其应用进展,Wiley,Chichester。;
[38] Pal,S.和Mitra,P.(2004)。数据挖掘的模式识别算法,查普曼和霍尔,博卡拉顿,佛罗里达州·Zbl 1099.68091号
[39] Parvin,H.、Alizadeh,H.和Minati,B.(1971)。聚类方法评价的客观标准,《美国统计协会杂志》66(336): 846-850.;
[40] Parvin,H.、Alizadeh,H.和Minati,B.(2010年)。对k近邻分类器的改进,全球计算机科学与技术杂志10(14): 37-41.;
[41] Sait,S.和Youssef,H.(2000)。迭代计算机算法及其在工程中的应用:解决组合优化问题,IEEE计算机社会出版社,加利福尼亚州洛斯阿拉米托斯·Zbl 0933.68151号
[42] Sammon,J.(1969年)。数据结构分析的非线性映射,IEEE计算机事务18(5): 401-409.;
[43] Saxena,A.、Pal,N.和Vora,M.(2010年)。基于Sammon应力函数、模糊信息和工程的无监督特征选择进化方法2(3): 229-247.;
[44] Strickert,M.、Teichmann,S.、Sreenivasulu,N.和Seiffert,U.(2005年)。DIPPP在线自我完善线性地图,用于远程保存数据分析,第五届自组织地图研讨会,WSOM’05,法国巴黎,第661-668页。;
[45] Sumi,S.M.、Zaman,M.F.和Hirose,H.(2012年)。使用机器学习模型的降雨量预测方法及其在福冈市案例中的应用,国际应用数学与计算机科学杂志22(4) :841-854,DOI:10.2478/v10006-012-0062-1·Zbl 1283.68305号
[46] Szu,H.和Hartley,R.(1987)。快速模拟退火,PhysicsLetters A122(3-4): 157-162.;
[47] Tian,T.、Wilcox,R.和James,G.(2010年)。分类中的数据简化:基于模拟退火的投影方法、统计分析和数据挖掘(5) :319-331·兹比尔07260253
[48] 加州大学欧文分校机器学习库(2013)。http://archive.ics.uci.edu/ml/。;
[49] Vanstrum,M.和Starks,S.(1981年)。最优线性地图的算法,东南方会议,美国亚利桑那州亨茨维尔,第106-110页。;
[50] Wand,M.和Jones,M.(1995年)。《内核平滑》,查普曼和霍尔出版社,伦敦·Zbl 0854.62043号
[51] Wilson,D.和Martinez,T.(2000年)。基于实例学习算法的约简技术,机器学习38(3): 257-286.; ·Zbl 0954.68126号
[52] Xu,R.和Wunsch,D.(2009)。聚类,新泽西州霍博肯市威利市。;
[53] Zhigljavsky,A.和Zhilinskas,A.(2008)。随机全局优化,Springer-Verlag,柏林·Zbl 1136.90003号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。