×

加权透镜深度:监督分类的一些应用。 (英语。法语摘要) Zbl 07759548号

摘要:从20世纪70年代Tukey的开创性工作开始,统计深度的概念得到了广泛的推广,特别是在过去十年。这些扩展包括高维数据、函数数据和流形值数据。特别是,在学习范式中,深度方法已经成为一种有用的技术。在本文中,我们将透镜深度推广到度量空间中数据的情况,并研究其主要性质。对于黎曼流形,我们还引入了加权透镜深度。加权透镜深度只不过是黎曼距离的加权版本的透镜深度。为了建立它,我们将流形上的测地距离替换为费马距离,费马距离具有将数据密度与测地距离结合考虑的重要特性。接下来,我们用一些模拟和一些有趣的实际数据集来说明我们的结果,包括使用深度-深度方法在系统发育树中进行模式识别。
{©2022加拿大统计学会/加拿大统计学会}

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Ali,S.M.、Gupta,N.、Nayak,G.K.和Lenka,R.K.(2016)。大数据可视化:工具和挑战。《2016年第二届当代计算与信息学国际会议(IC3I)论文集》,IEEE,656-660。
[2] Altman,L.K.(2006)。本季的流感病毒对2种标准药物具有耐药性。《纽约时报》。
[3] Barnett,V.(1976年)。多元数据的排序。英国皇家统计学会期刊。A系列(通用),139(3),318-355。
[4] Billera,L.J.、Holmes,S.P.和Vogtmann,K.(2001)。系统发育树空间的几何学。应用数学进展,27(4),733-767·Zbl 0995.92035号
[5] Borghini,E.、Fernández,X.、Groisman,P.和Mindlin,G.(2020年)。通过基于密度的度量学习实现内在持久同源性。arXiv预印本,arXiv:2012.07621。
[6] Chakerian,J.和Holmes,S.(2013年)。distory:系统发育史之间的距离。R包版本1.2。
[7] Claeskens,G.、Hubert,M.、Slaets,L.和Vakili,K.(2014)。多元函数半空间深度。《美国统计协会杂志》,109(505),411-423·Zbl 1367.62162号
[8] Cormen,T.H.、Leiserson,C.E.、Rivest,R.L.和Stein,C.(2009)。《算法导论》,麻省理工学院出版社,剑桥·Zbl 1187.68679号
[9] Cuesta‐Albertos,J.A.、Febrero‐Bande,M.和de laFuente,M.O.(2017)。函数设置中的\(\ operatorname{D}\ operatorname{D}^G\)分类器。试验,26(1),119-142·Zbl 1422.62216号
[10] Cuevas,A.和Fraiman,R.(2009年)。深度测量和双重统计。处理一般数据的方法。多元分析杂志,100(4),753-766·兹比尔1163.62039
[11] Davis,E.和Sethuraman,S.(2019)。通过随机点逼近测地线。应用概率年鉴,29(3),1446-1486·Zbl 1466.60018号
[12] Dhanalakshmi,P.、Palanivel,S.和Ramalingam,V.(2009年)。使用SVM和RBFNN对音频信号进行分类。应用专家系统,36(3),6069-6075。
[13] Dutta,S.、Ghosh,A.K.和Chaudhuri,P.(2011年)。Tukey半空间深度的一些有趣特性。伯努利,17(4),1420-1434·Zbl 1229.62063号
[14] Elmore,R.T.、Hettmansperger,T.P.和Xuan,F.(2006)。球形数据深度和多元中值。离散数学和理论计算机科学DIMACS系列,72,87。
[15] 费德勒·H(1959)。曲率测量。美国数学学会学报,93(3),418-491·Zbl 0089.38402号
[16] Fokoue,E.(2020年)。加州大学欧文分校信息与计算机科学学院UCI机器学习知识库。
[17] Fraiman,R.、Gamboa,F.和Moreno,L.(2019年)。按深度连接两两测地线球体:DCOPS。多元分析杂志,169,81-94·Zbl 1404.60070号
[18] Fraiman,R.和Muniz,G.(2001年)。功能数据的修剪方式。测试,10(2),419-440·Zbl 1016.62026号
[19] Groisman,P.、Jonckheere,M.和Sapienza,F.(2018a)。非齐次欧几里德第一通道渗流和远程学习。arXiv预印本,arXiv:11810.09398。
[20] Groisman,P.、Jonckheere,M.和Sapienza,F.(2018b)。遵循费马原理的加权测地距离。《学习代表国际会议论文集》。
[21] Hlubinka,D.&Vencalek,O.(2013)。具有非凸支持的分布的基于深度的分类。《概率统计杂志》,2013年,629184·兹比尔1307.62164
[22] Hoffman,P.、Grinstein,G.和Pinkney,D.(1999年)。维锚:多维多元信息可视化的图形原语。《1999年结合第八届ACM信息和知识管理国际会议召开的信息可视化和操作新范式研讨会论文集》,9-16·Zbl 0927.68035号
[23] Hwang,S.J.、Damelin,S.B.和Hero,A.O.,III.(2016年)。通过随机点的最短路径。应用概率年鉴,26(5),2791-2823·Zbl 1353.60028号
[24] Kleinjohann,N.(1981)。Nächste punkte in der riemannschen geometrie,《数学与创新》,176,327-344·Zbl 0449.53037号
[25] Kong,L.&Zuo,Y.(2010年)。平滑的深度轮廓描述了底层分布。多元分析杂志,101(9),2222-2226·Zbl 1201.62064号
[26] Kotík,L.&Hlubinka,D.(2017年)。半空间深度的加权局部化及其性质。多元分析杂志,157,53-69·Zbl 1362.62029号
[27] Lee,J.M.(2013)。平滑流形简介,第二版,纽约斯普林格·Zbl 1258.53002号
[28] Li,J.、Cuesta‐Albertos,J.A.和Liu,R.Y.(2012)。DD分类器:基于DD图的非参数分类程序。《美国统计协会杂志》,107(498),737-753·Zbl 1261.62058号
[29] 刘瑞云(1990)。基于随机单纯形的数据深度概念。《统计年鉴》,18(1),405-414·Zbl 0701.62063号
[30] 刘瑞云(1992)。数据深度和多元秩检验。Dodge,Y.(编辑)(编辑),《第二届基于L‐1范数和相关方法的统计数据分析国际会议论文集》,北荷兰,279-294。
[31] Liu,R.Y.、Parelius,J.M.和Singh,K.(1999)。数据深度多元分析:描述性统计、图形和推理。《统计年鉴》,27(3),783-858·Zbl 0984.62037号
[32] Liu,R.Y.和Singh,K.(1992)。定向数据排序:圆和球体上的数据深度概念。《统计年鉴》,20(3),1468-1484·Zbl 0766.62027号
[33] Liu,Z.和Modarres,R.(2011年)。镜头数据深度和中值。非参数统计杂志,23(4),1063-1074·Zbl 1230.62075号
[34] López‐Pintado,S.&Romo,J.(2009)。关于函数数据的深度概念。《美国统计协会杂志》,104(486),718-734·Zbl 1388.62139号
[35] Ma,Z.和Fokoué,E.(2014)。使用MFCCS进行说话人口音识别时分类器的比较。《开放统计杂志》,4258-266。
[36] Mckenzie,D.和Damelin,S.(2019年)。欧氏数据聚类的加权最短路径。数据科学基础,1(3),307-327。
[37] Moakher,M.(2005年)。对称正定矩阵几何平均值的微分几何方法。SIAM矩阵分析与应用杂志,26(3),735-747·Zbl 1079.47021号
[38] Monod,A.、Lin,B.、Yoshida,R.和Kang,Q.(2018年)。系统发育树空间的热带几何学:统计视角。arXiv预印本,arXiv:1805.12400。
[39] Nye,T.M.、Tang,X.、Weyenberg,G.和Yoshida,R.(2017)。主成分分析和Fréchet均值在系统发育树空间中的位置。《生物特征》,104(4),901-922·Zbl 07072335号
[40] Oja,H.(1983)。多元分布的描述性统计。统计与概率快报,1(6),327-332·Zbl 0517.62051号
[41] Owen,M.和Provan,J.S.(2010年)。一种计算树空间中测地线距离的快速算法。IEEE/ACM计算生物学和生物信息学汇刊,8(1),2-13。
[42] Pedersen,C.和Diederich,J.(2008)。语音样本中的重音:用于分类和规则提取的支持向量机。在Kacprzyk,J.(ed.)(ed.),《从支持向量机中提取规则》,Springer,New York,205-226·Zbl 1148.68444号
[43] Petersen,P.(2006)。《黎曼几何》,第171卷,施普林格出版社,纽约·Zbl 1220.53002号
[44] R核心团队(2021)。R: 统计计算语言和环境,R统计计算基金会,奥地利维也纳。
[45] Rataj,J.和Zajicek,L.(2009年)。黎曼空间、亚历山大空间和闵可夫斯基空间中距离函数的临界值和水平集。arXiv预打印,arXiv:0911.4020。
[46] Serfling,R.(2002)。基于空间分位数的深度函数和比例曲线。Dodge,Y.(编辑),《基于L1规范和相关方法的统计数据分析》,25-38。纽约州施普林格·Zbl 1460.62076号
[47] Serfling,R.和Zuo,Y.(2000年)。统计深度函数的一般概念。《统计年鉴》,28(2),461-482·Zbl 1106.62334号
[48] Smith,D.J.、Lapedes,A.S.、deJong,J.C.、Bestebroer,T.M.、Rimmelzwaan,G.F.、Osterhaus,A.D.和Fouchier,R.A.(2004)。绘制流感病毒的抗原和基因进化图。《科学》,305(5682),371-376。
[49] Solovyov,A.、Palacios,G.、Briese,T.、Lipkin,W.I.和Rabadan,R.(2009年)。新甲型H1N1流感病毒起源的聚类分析。欧洲监测,14(21),19224。
[50] Thäle,C.(2008)。调查显示,50年的情况是积极的。数学及其应用调查,3123-165·Zbl 1173.49039号
[51] 唐,Z.-J。,Wang,C.‐B。,张培杰(Zhang,P.‐J.)Liu,J.(2017)。本征阿尔芬波环束电子驱动回旋脉泽不稳定性的参数研究。等离子体物理学,24(5),052902。
[52] Tukey,J.W.(1975)。数学和数据的图像化。《国际数学家大会论文集》,第2卷,523-531页·Zbl 0347.6202号
[53] Wiens,J.J.、Kuczynski,C.A.和Stephens,P.R.(2010年)。鸸鹋龟线粒体和核基因系统发育不一致:对物种形成和保护的影响。林奈学会生物学杂志,99(2),445-461。
[54] Willis,A.&Bell,R.(2018)。系统发育树估计的不确定性。计算与图形统计杂志,27(3),542-552·兹伯利07498931
[55] Yao,Z.和Zhang,Z.(2020)。黎曼流形上的主边界。《美国统计协会杂志》,115(531),1435-1448·Zbl 1441.62935号
[56] Zairis,S.、Khiabanian,H.、Blumberg,A.J.和Rabadan,R.(2016)。树空间中的基因组数据分析。arXiv预印本,arXiv:1607.07503。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。