×

多元数据分析中的简单方差距离和最小方差距离。 (英语) Zbl 1484.62062号

摘要:在本文中,我们研究了点与样本之间所谓的单形距离和最小方差距离的行为。单形距离族包括欧几里德距离、马氏距离、Oja单形距离等。我们给出了有关用于计算距离的参数选择的建议,包括用于改进计算时间(如果需要)的单纯形子样本的大小。我们引入了一个新的距离族,称之为(k)-最小方差距离。这些距离中的每一个都是使用样本协方差矩阵中的多项式来构造的,目的是提供一种替代协方差矩阵的方法,这种方法适用于数据退化的情况。我们探讨了所考虑距离的一些应用,包括离群值检测和聚类,并比较了不同参数选择对距离行为的影响。

MSC公司:

62小时12分 多元分析中的估计
62J07型 岭回归;收缩估计器(拉索)
2012年12月62日 参数估计量的渐近性质
62-08 统计问题的计算方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿加瓦尔,CC;Hinneburg,A。;Keim,DA,《关于高维空间中距离度量的惊人行为》,数据库理论国际会议,420-434(2001),柏林:施普林格出版社,柏林·Zbl 1047.68038号
[2] Agrawal R等人(1998)数据挖掘应用中高维数据的自动子空间聚类。摘自:1998年ACM SIGMOD国际数据管理会议记录,第94-105页
[3] Bickel,PJ,大协方差矩阵的正则化估计,Ann Stat,36,1,199-227(2008)·Zbl 1132.62040号 ·doi:10.1214/009053607000000758
[4] Blom,G.,《不完全U统计量的一些性质》,《生物统计学》,63,3,573-580(1976)·Zbl 0352.62034号 ·doi:10.1093/biomet/63.3.573
[5] Blum,A。;霍普克罗夫特,J。;Kannan,R.,《数据科学基础》,Vorabversion eines Lehrbuchs,5,5(2016)·Zbl 1477.68002号
[6] 博德纳,T。;Dette,H。;Parolya,N.,大维样本协方差矩阵的Moore-Penrose逆的谱分析,J Multivar Ana,148,160-172(2016)·Zbl 1338.60011号 ·doi:10.1016/j.jmva.2016.03.001
[7] 蔡,T。;刘伟。;Luo,X.,稀疏精度矩阵估计的约束L1最小化方法,J Am Stat Assoc,106,494,594-607(2011)·Zbl 1232.62087号 ·doi:10.198/jasa.2011.tm10155
[8] Chocniwal A,Singh M(2016)高斯分布的更快马氏k均值聚类。2016年高级计算与通信信息国际会议(ICACCI),第947-952页
[9] Clarke,R.,高维数据空间的性质:对探索基因和蛋白质表达数据的意义,Nat Rev Cancer,8,1,37-49(2008)·doi:10.1038/nrc2294
[10] d'Aspremont,A。;O.班纳吉。;El Ghaoui,L.,稀疏协方差选择的一阶方法,SIAM J Matrix Anal Appl,30,1,56-66(2008)·Zbl 1156.90423号 ·数字对象标识代码:10.1137/060670985
[11] Dua D,Graff C(2017)UCI机器学习库。http://archive.ics.uci.edu/ml
[12] 范,J。;Liao,Y。;Liu,H.,《大协方差和精度矩阵估计概述》,《经济杂志》,19,1,C1-C32(2016)·Zbl 1398.62091号 ·doi:10.1016/j.jeconom.2018.04.002
[13] 费希尔,TJ;Sun,X.,高维多元正态协方差矩阵的改进Stein型收缩估计量,计算统计数据分析,55,5,1909-1918(2011)·Zbl 1328.62336号 ·doi:10.1016/j.csda.2010.12.006
[14] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,用图形套索进行稀疏逆协方差估计,生物统计学,9,3,432-441(2008)·Zbl 1143.62076号 ·doi:10.1093/biostatistics/kxm045
[15] 富勒,R。;Bengtsson,T.,《卡尔曼滤波器变量中高维先验和后验协方差矩阵的估计》,《多变量分析杂志》,98,2,227-255(2007)·Zbl 1105.62091号 ·doi:10.1016/j.jmva.2006.08.003
[16] Gnanadesikan,R。;JW哈维;Kettering,JR,《聚类分析的马氏指标》,Sankhy Indian J Stat A,55,3,494-505(1993)·Zbl 0825.62544号
[17] Golub,生长激素;Van Loan,CF,矩阵计算(2013),巴尔的摩:约翰霍普金斯大学出版社,巴尔的摩尔·Zbl 1268.65037号
[18] JA Hanley;麦克尼尔,BJ,接收器工作特性(ROC)曲线下面积的含义和使用,放射学,143,1,29-36(1982)·doi:10.1148/放射学.143.1.7063747
[19] Hoyle,DC,伪逆协方差学习的准确性——随机矩阵理论分析,IEEE Trans-Pattern Ana Mach Intell,33,7,1470-1481(2010)·doi:10.1109/TPAMI.2010.186
[20] 休伯特,L。;Arabie,P.,比较分区,J Classif,2,1,193-218(1985)·doi:10.1007/BF01908075
[21] 康,X。;Deng,X.,一种用于精确矩阵估计的改进的改进的Cholesky分解方法,J Stat Comput Simul,90,3,443-464(2020)·Zbl 07194294号 ·doi:10.1080/00949655.2019.1687701
[22] 拉哈夫,A。;塔尔蒙,R。;Kluger,Y.,《聚类带来的马氏距离》,Inf Inference J IMA,8,2,377-406(2018)·兹比尔1472.68145 ·doi:10.1093/imaiai/iay011
[23] Lam,C.,高维协方差矩阵估计,Wiley Interdiscip Rev:Compute Stat,12,2,1485(2020)·doi:10.1002/wics.1485
[24] Lancewicki,T。;Aladjem,M.,协方差矩阵的多目标收缩估计,IEEE Trans-Signal Process,62,24,6380-6390(2014)·Zbl 1394.62068号 ·doi:10.1109/TSP.2014.2364784
[25] O.莱多特。;Wolf,M.,《大维协方差矩阵的良好估计》,《多元分析杂志》,88,2,365-411(2004)·Zbl 1032.62050 ·doi:10.1016/S0047-259X(03)00096-4
[26] Lloyd,S.,PCM中的最小二乘量化,IEEE Trans-Inf理论,28,2,129-137(1982)·Zbl 0504.94015号 ·doi:10.1109/TIT.1982.1056489
[27] 马哈拉诺比斯PC(1936)《统计学中的广义距离》。收录:《印度国家科学院学报》。第49-55页·Zbl 0015.03302号
[28] 曼宁,CD;舒茨,H。;Raghavan,P.,《信息检索导论》(2008),剑桥:剑桥大学出版社,剑桥·兹比尔1160.68008 ·doi:10.1017/CBO9780511809071
[29] Meinshausen,N.,用套索选择高维图和变量,Ann Stat,34,3,1436-1462(2006)·Zbl 1113.62082号 ·doi:10.1214/0090536000000281
[30] 梅尔尼科夫,I。;Melnykov,V.,《关于使用马氏距离的K-means算法》,Stat Probab-Lett,84,88-95(2014)·Zbl 1284.62383号 ·doi:10.1016/j.spl.2013.09.026
[31] Pedregosa,F.,Scikit-learn:Python中的机器学习,J Mach learn Res,12825-2830(2011)·Zbl 1280.68189号
[32] Perlibakas,V.,基于PCA的人脸识别距离测量,模式识别快报,25,6,711-724(2004)·doi:10.1016/j.patrec.2004.01.11
[33] 佩沙姆,E。;弗里格,C。;Causeur,D.,高维相关数据分类问题中特征选择的稳定性,统计计算,26,4,783-796(2016)·Zbl 1505.62317号 ·doi:10.1007/s11222-015-9569-2
[34] Pronzato L、Wynn H、Zhigljavsky A(2018)《单纯形方差、势和马氏距离》。《多元分析杂志》,第276-289页·Zbl 1433.62023号
[35] Prykhodko S,et al.(2018)应用平方马氏距离检测多元非高斯数据中的离群值。参加:2018年第14届无线电电子学、电信和计算机工程先进趋势国际会议(TCSET),第962-965页
[36] 伦彻,AC;Schaalje,GB,《统计学中的线性模型》(2008),新泽西:Wiley-Interscience,新泽西·Zbl 1136.62045号
[37] Schäfer J,Strimmer K(2005)大规模协方差矩阵估计的收缩方法及其对功能基因组学的影响。统计应用基因分子生物学4(1)
[38] Smith MR、Martinez TR(2011)通过识别和删除应被错误分类的实例来提高分类准确性。2011年神经网络国际联合会议,IEEE,第2690-2697页
[39] 北斯利瓦斯塔瓦。;Rao,S.,使用相关数据集的马氏距离进行基于学习的文本分类器,国际大数据智能杂志,3,18-27(2016)·doi:10.1504/IJBDI.2016.073901
[40] Stöckl,S。;Hanke,M.,《马氏距离的金融应用》,《应用经济金融》,第1、2、78-84页(2014年)·doi:10.11114/aef.v1i2.511
[41] Wei X,Huang G,Li Y(2007)一类马氏椭球学习机。2007年机器学习和控制论国际会议,第6卷,第3528-3533页
[42] Wilks SS(1960)多维统计散布。Contrib Probab Stat(哈罗德·霍特林、奥尔金、英格拉姆等人的论文)第486-503页·Zbl 0094.33204号
[43] Won,JH,条件数正则化协方差估计,J R Stat Soc B(Stat Methodol),75,3,427-450(2013)·Zbl 1411.62146号 ·文件编号:10.1111/j.1467-9868.2012.01049.x
[44] 项,S。;聂,F。;Zhang,C.,Learning a Mahalanobis distance metric for data clustering and classification,模式识别,41,12,3600-3612(2008)·Zbl 1162.68642号 ·doi:10.1016/j.patcog.2008.05.018
[45] Zhang,Y.,基于低秩稀疏矩阵分解的马氏距离法用于高光谱异常检测,IEEE Trans-Geosci遥感,54,3,1376-1389(2015)·doi:10.1109/TGRS.2015.2479299
[46] Zimek,A。;舒伯特,E。;Kriegel,HP,《高维数值数据中非监督离群值检测的调查》,《统计分析数据最小ASA数据科学杂志》,5,5,363-387(2012)·Zbl 07260336号 ·doi:10.1002/sam.1161
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。