稀疏高维学习的模型选择-Archive ouverte HAL Accéder directment au contenu公司
塞斯 Anneée:2017年

稀疏高维学习的模型选择

模型选择parcimonieux pour l’apprentissage统计en-grand维

Résumé

以现代科学时代为特征的数字激增导致了新类型数据的兴起,这些数据统一在一个共同的过度中:同时获取大量可测量的量。无论是来自DNA微阵列、质谱仪还是核磁共振,这些通常被称为高维的数据现在在科学和技术领域无处不在。处理这些数据需要对传统统计工具集进行重要更新,这不适合涉及大量变量的此类框架。事实上,当变量的数量超过观察值的数量时,大多数传统的统计技术变得效率低下。首先,我们简要概述了高维数据中出现的统计问题。提出了几种常见的解决方案,并且我们提出了一些支持本文中使用和提倡的方法的论点:贝叶斯模型不确定性。这个选定的框架是一个详细审查的主题,坚持几个最近的发展。在这些调查之后,我们得出了对高维模型选择的三个原创性贡献。提出了一种新的高维稀疏回归算法SpinyReg。在真实数据集和合成数据集上,它都优于最先进的方法。本文还描述了一个新的高维回归数据集:它包括使用自行车共享数据预测巴黎奥赛博物馆的游客数量。接下来,我们关注高维主成分分析(PCA)的模型选择。利用一个新的理论结果,我们导出了PCA模型的边际似然的第一个闭式表达式。这使得我们可以提出两种PCA中的模型选择算法。第一种称为全局稀疏概率PCA(GSPPCA),用于执行可缩放变量选择;第二种称为正常伽马概率PCA,用于估计高维数据集的固有维数。这两种方法都与其他流行的方法相竞争。特别是,使用未标记的DNA微阵列数据,GSPPCA能够选择比几种流行方法更具生物学相关性的基因。
Le déferlement numérique qui caractérise l’ère scientifique moderne a carpél'apparition de nouveaux types de données partagenant une de mesure commone:l'acquisition simultanee et rapide d'un trues宏伟的数量观察结果。这提供了ADN、集体光谱和成像技术,包括核辐射、核辐射的基础、大尺度的核辐射质量、全方位的核辐射,以及世界科学和技术。《伟大的时代》(Le traitement de ces donées de grand dimension nécessite un renouvelement profond de l'arsenal statistique traditionel),《新一代干部的失败》(Que se troube inaptéa ce nombre de newau cadge),《关于伟大的变革的理由》(the reason du the grand nombre de variables impliquees)。事实上,面对隐含的un加上观测变量的大标称,un grand partie des technologies statistiques classiques est unable de donner des résultats satisfaisants。丹麦总理温家宝(Dans un premier temps)、国家统计局(nous introduisons les problèmes statistiques in the modèles de donées de grande dimension)。Plusieurs解决方案是一种经典的解决方案,也是一种选择方法的动力:选择模式的可能性。Ce dernier fait surreite l'objet d'une revue de littérature détailleée e,en insistant sur plusieurs dédevelopments recents。维也纳新贡献协会(trois chapiteres de contributions nouvellesála sélection de mo-dèles en grand dimension)。在首屈一指的情况下,nous发布了新算法pour la régression linéaire bayésienne parcimonieuse En grand dimension,don les performance sont très bonnes,tant sur donées réelles que simules。无与伦比的新基础:《奥尔塞·奥尔塞·阿德多内斯·维利布斯》中的“公共事业的激增”(agit de prédire la frée e d’Orsayál’aide de données vélibs)。根据《复合材料原理分析模型》(ACP)的实际问题,提出了合理的建议。新圣母院的圣母院,首府的圣母效果计算严格按照议会的边缘模式进行。Cela nus permet de proposser deux nouveaux algorithmes pour l'ACP parcimonieuse,un premier,appeléGSPPCA,permettant d'effectuer de la séselection de variables,et un second,appelèNGPPCA,Permettent d'estimer la dimension intrinsèque de donn es de grand dimension。这些表演采用了双人技术和极端竞争。Dans le cadem de donées d’expression ADN notament,l’approche de se election de variables propossée permet de déceler sans supervision des ensemblies de gènes particulient pertinents.丹麦人表达ADN注释,变量选择方法建议无监督的特殊群体。
菲奇尔校长
无花果树
论文.pdf(5.34个月) 特勒充电器
原籍 菲奇尔斯(Fichiers)出品的par l’(les)auteur(s)
加载。。。

日期和版本

电话:01655924, 版本1 (05-12-2017)

身份证明人

  • HAL Id: 电话-01655924,版本1

Citer公司

皮尔雷·阿莱克安德烈·马泰(Pierre-Alexandre Mattei)。稀疏高维学习的模型选择。统计学[math.ST]。巴黎大学2017年5月。英语。⟨NNT:⟩.⟨电话-01655924⟩
665 磋商
1080 交易费用

合作伙伴

Gmail(Gmail) 乳臭虫 脸谱网 X(X) LinkedIn链接 更多