×

使用回归可以方便地提取多个数据集中的共享变量。 (英语) Zbl 1416.62316号

摘要:在许多数据分析任务中,了解不同数据集之间的关系很重要。有几种方法可用于此任务,但其中许多方法仅限于两个数据集和线性关系。在本文中,我们提出了一种新的高效算法,称为椰果,用于提取所有数据集在任意大小的给定集合中。椰果将冗余分析扩展到两个以上的数据集,利用回归函数链提取原始数据空间中的共享变量。该算法可以与任何线性或非线性回归函数一起使用,从而使其鲁棒、直观、快速、易于实现和使用。我们使用椰果五个人工数据集和三个真实数据集上的算法。

MSC公司:

62H20个 关联度量(相关性、典型相关性等)
62J15型 成对和多次比较;多次测试
62H25个 因子分析和主成分;对应分析
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Andrew G、Arora R、Bilmes J、Livescu K(2013)深度典型相关分析。摘自:第30届机器学习国际会议论文集,第28卷,第1247-1255页
[2] Dähne S,Nikulin VV,Ramírez D,Schreier PJ,Müller KR,Haufe S(2014)在神经成像数据中发现具有功率依赖性的脑振荡。神经影像96:334-348·doi:10.1016/j.欧洲图像.2014.03.075
[3] Damianou A,Ek C,Titsias MK,Lawrence ND(2012)歧管相关性测定。摘自:第29届机器学习国际会议记录,第145-152页
[4] Fisher J,Darrell T(2003),扬声器与信号级视听融合的关系。IEEE Trans Multimed 6(3):406-413·doi:10.1109/TMM.2004.827503
[5] Hardoon D,Szedmak S,Shawe-Taylor J(2004)典型相关分析:学习方法应用概述。神经计算16(12):2639-2664。doi:10.1162/0899766042321814·兹比尔1062.68134 ·doi:10.1162/0899766042321814
[6] Hasson U、Nir Y、Levy I、Fuhrmann G、Malach R(2004),自然视觉期间皮层活动的受试者间同步。科学303(5664):1634-1640·数字对象标识代码:10.1126/science.1089506
[7] Hastie T、Tibshirani R、Friedman J(2003)《统计学习的要素:数据挖掘、推理和预测》。纽约州施普林格·Zbl 1273.62005年
[8] Hotelling H(1936)两组变量之间的关系。生物特征28:321-377·Zbl 0015.40705号 ·doi:10.1093/biomet/28.3-4.321
[9] 谢伟伟(2000)神经网络非线性典型相关分析。神经网络13:1095-1105·doi:10.1016/S0893-6080(00)00067-8
[10] Hwang H,Jung K,Takane Y,Woodward TS(2013)多元典型相关分析和主成分分析的统一方法。英国数学与统计心理学杂志66(2):308-321。doi:10.1111/j.2044-8317.201202052.x·Zbl 1410.62094号 ·doi:10.1111/j.2044-8317.201202052.x
[11] Kettering J(1971)多组变量的规范分析。生物计量学58:433-451·Zbl 0225.62072号 ·doi:10.1093/biomet/58.3433
[12] Klami A、Virtanen S、Kaski S(2013)贝叶斯典型相关分析。J Mach学习研究14:965-1003·Zbl 1320.62134号
[13] Klami A、Virtanen S、Leppäho E(2015)《群体因素分析》。IEEE Trans Neural Netw学习系统26(9):2136-2147。doi:10.1109/TNNLS.2014.2376974号文件·doi:10.1109/TNNLS.2014.2376974号文件
[14] Korpela J,Henelius A(2016)Cocoreg:使用回归模型提取数据集集合中的共享变量。http://cran.r-project.org/package=cocoreg
[15] 勒让德P,勒让德L(1998)《数值生态学》,第2版。爱思唯尔,阿姆斯特丹·Zbl 1033.92036号
[16] Liaw A,Wiener M(2002)《随机森林分类和回归》。R新闻2(3):18-22。https://cran.r-project.org/package=randomForest
[17] Meyer D、Dimitriadou E、Hornik K、Weingessel A、Leisch F(2014)e1071:维也纳理工大学统计系的其他职能(e1071)。http://cran.r-project.org/package=e1071
[18] Müller KE(1982)通过一般线性模型和主成分理解典型相关性。美国统计36(4):342-354。doi:10.1080/00031305.1982.10483045·Zbl 0533.62053号 ·doi:10.1080/00031305.1982.10483045
[19] Nguyen HV,Müller E,Vreeken J,Efros P,Böhm K(2014)多元最大相关分析。摘自:第31届机器学习国际会议记录,第775-783页
[20] R核心团队(2014)R:统计计算的语言和环境。R统计计算基金会,维也纳,网址:http://www.R-project.org/
[21] Tenenhaus A(2011)正则化广义典型相关分析和PLS路径建模。《心理测量学》76(2):257-284·Zbl 1284.62753号 ·doi:10.1007/s11336-011-9206-8
[22] Tibshirani R(1996)通过套索回归收缩和选择。J R Stat Soc系列B 58(1):267-288·Zbl 0850.62538号
[23] Timmerman ME,Kiers H(2003)四个同时成分模型,用于分析来自多个受试者的多变量时间序列,以模拟个体内和个体间差异。《心理学》68(1):105-121。doi:10.1007/BF02296656·Zbl 1306.62507号 ·doi:10.1007/BF02296656
[24] Virtanen S、Klami A、Khan SA、Kaski S(2012)CCAGFA:贝叶斯典型相关分析和群体因素分析。http://cran.r-project.org/package=CCAGFA
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。