×

分类中的数据缩减:一种基于模拟退火的投影方法。 (英语) Zbl 07260253号

摘要:本文将高维数据分为两类。在各种情况下,例如在处理fMRI和微阵列数据时,变量的数量非常大,这使得众所周知的分类技术不切实际。可以通过主成分分析或一些稳健的模拟来减少变量的数量,但这些方法通常不能满足分类的目的,因为它们是无监督的学习方法,并不是为了最小化分类错误而设计的。在本文中,我们提出了一种结合随机搜索算法的分类引导降维方法,以便在分类上下文中寻找“好的”子空间。实现了模拟退火算法的两个不同版本,分别生成稀疏和密集模型。通过使用仿真和实际研究的数据,发现该方法可以降低误分类率。

理学硕士:

62至XX 统计
68倍 计算机科学

软件:

ROBPCA公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] K.Pearson,《关于最接近空间点系的直线和平面》,Philos Mag 2(1901),559-572。
[2] H.Hotelling,《将复杂的统计变量分析为主要成分》,《教育心理学杂志》24(1933),417-441。
[3] P.J.Rousseeuw,《高崩溃点的多元估计》,《数理统计与概率》,W.Grossman、G.Pflug、I.Vincez和W.Wertz编辑,Dordrecht、B.Reidel,1985年,283-297年·Zbl 0609.62054号
[4] P.J.Rousseeuw,最小二乘回归中值,《美国统计协会杂志》79(1984),871-880·Zbl 0547.62046号
[5] M.Hubert、P.J.Rousseeuw和K.Vanden Branden,Robpca:稳健主成分分析的新方法,《技术计量学》47(2005),64-79。
[6] E.I.George和R.E.McCulloch,《随机搜索变量选择》,《实用马尔可夫链蒙特卡罗实践》,W.R.Gilks、S.Richardson和D.J.Spiegelhalter主编,伦敦,查普曼和霍尔出版社,1995年,203-214年·Zbl 0844.62051号
[7] I.Ntzoufras、J.J.Forster和P.Dellaportas,对数线性模型的随机搜索变量选择,技术报告,数学系,英国南安普敦,南安普顿大学,1997年·Zbl 0968.62051号
[8] N.Yi、V.George和D.B.Allison,《用于识别多个数量性状位点的随机搜索变量选择》,《遗传学》164(2003),1129-1138。
[9] R.Tibshirani和T.Hastie,高维分类的Margintrees,J Mach Learn Res 8(2007),637-652·Zbl 1222.68319号
[10] V.Vapnik,《统计学习理论》,纽约,WileyInterscience,1998年·Zbl 0935.62007号
[11] E.Fix和J.Hodges,判别分析,非参数判别:一致性属性,技术报告4,德克萨斯州伦道夫菲尔德,美国空军航空医学院,1951年·Zbl 0715.62080号
[12] H.Wold,用迭代最小二乘法估计主成分和相关模型,《多元分析》,P.R.Krishnaiaah主编,纽约,学术出版社,1966391-420·Zbl 0214.46103号
[13] Y.Freund,《多数增强算法的自适应版本》,《马赫数学习》第43期(2001年),第293-318页·兹伯利0988.68150
[14] S.Kirkpatrick、C.D.Gelatt和M.P.Vecchi,《模拟退火优化》,《科学》220(1983),671-680·Zbl 1225.90162号
[15] S.Geman和D.Geman,随机松弛,gibbs分布和图像的贝叶斯恢复,IEEE Trans-Pattern Ana Mach Intell 6(1984),721-741·Zbl 0573.62030号
[16] 谢义义,王建军,梁义良,宋小松,余荣荣,投影寻踪稳健主成分分析,化学计量学杂志7(1993),527-541。
[17] I.O.Bohachevsky、M.E.Johnson和M.L.Stein,《函数优化的广义模拟退火》,《技术计量学》28(1986),209-217·Zbl 0609.65045号
[18] M.G.Tadesse、N.Sha和M.Vannucci,《包含高维数据的贝叶斯变量选择》,美国统计协会100(2005),602-617·Zbl 1117.62433号
[19] C.Field和M.G.Genton,《多变量和h分布》,《技术计量学》48(2006),104-111。
[20] R.R.Wilcox,稳健估计和假设检验导论(第2版)。圣地亚哥,学术出版社,2005年·Zbl 1113.62036号
[21] U.Alon、N.Barkai、D.A.Notterman、K.Gish、S.Ybara、D.Mack和A.J.Levine,通过寡核苷酸阵列探测的肿瘤和正常结肠组织的聚类分析揭示的广泛基因表达模式,美国国家科学院院刊96(1999),6745-6750。
[22] M.Dettling和P.B¨uhlmann,利用基因表达数据促进肿瘤分类,生物信息学19(2003),1061-1069。
[23] I.Hedenfalk、D.Duggan、Y.Chen、M.Radmacher、M.Bittner、R.Simon、P.Meltzer、B.Gusterson、M.Esteller、O.Kallioniemi、B.Wilfond、A.Borg和J.Trent,《基因表达谱鉴别遗传性乳腺癌》,《英国医学杂志》244(2001),539-548。
[24] M.West、C.Blanchette、H.Dressman、E.Huang、S.Ishida、R.Spang、H.Zuzan、J.A.Olson、J.R.Marks和J.R.Nevins,《利用基因表达谱预测人类乳腺癌的临床状态》,美国国家科学院学报98(2001),11462-11467。
[25] J。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。