稀疏高维学习的模型选择-Archive ouverte HAL
塞斯 Anneée:2017年

稀疏高维学习的模型选择

模型选择parcimonieux pour l’apprentissage统计en-grand维

Résumé

以现代科学时代为特征的数字激增导致了新类型数据的兴起,这些数据统一在一个共同的过度中:同时获取大量可测量的量。无论是来自DNA微阵列、质谱仪还是核磁共振,这些通常被称为高维的数据现在在科学和技术领域无处不在。处理这些数据需要对传统统计工具集进行重要更新,因为传统统计工具集不适合涉及大量变量的框架。事实上,当变量的数量超过观察值的数量时,大多数传统的统计技术变得效率低下。首先,我们简要概述了高维数据中出现的统计问题。提出了几种常见的解决方案,并且我们提出了一些支持本文中使用和提倡的方法的论点:贝叶斯模型不确定性。这个选定的框架是一个详细审查的主题,坚持几个最近的发展。在这些调查之后,我们得出了对高维模型选择的三个原创性贡献。提出了一种新的高维稀疏回归算法SpinyReg。它在实际数据集和合成数据集上都优于最先进的方法。本文还描述了一个新的高维回归数据集:它包括使用自行车共享数据预测巴黎奥赛博物馆的游客数量。接下来,我们将重点关注高维主成分分析(PCA)的模型选择。利用一个新的理论结果,我们导出了PCA模型的边际似然的第一个闭式表达式。这使得我们可以提出两种PCA中的模型选择算法。第一种称为全局稀疏概率PCA(GSPPCA),用于执行可缩放变量选择;第二种称为正常伽马概率PCA,用于估计高维数据集的固有维数。这两种方法都与其他流行的方法相竞争。特别是,使用未标记的DNA微阵列数据,GSPPCA能够选择比几种流行方法更具生物学相关性的基因。
现代科学的发展带来了新类型服装的出现,这些服装是社区的一部分:同时和快速地获得可观数量的巨大名义。库列斯公共设施ADN、公共设施和影像中心、公共设施基础、公共设施质量、公共设施、科学技术。《伟大的时代》(Le traitement de ces donées de grand dimension nécessite un renouvelement profond de l'arsenal statistique traditionel),《新一代干部的失败》(Que se troube inaptéa ce nombre de newaveau cadger),《特雷的伟大使命》(the reason du try s grand nombre de variables impliquees)。事实上,面对隐含的un加上观测变量的大标称,un grand partie des technologies statistiques classiques est unable de donner des résultats satisfaisants。丹麦总理温家宝(Dans un premier temps)、国家统计局(nous introduisons les problèmes statistiques in the modèles de donées de grande dimension)。Plusieurs解决方案经典sontétaille es et nous motions le choix de l’approach empruntée e au cours de cette these:le paradigme bayésien de sélection de mod les。Ce dernier fait surreite l'objet d'une revue de littérature détailleée e,en insistant sur plusieurs dédevelopments recents。维也纳新贡献协会(trois chapiteres de contributions nouvellesála sélection de mo-dèles en grand dimension)。在首屈一指的情况下,nous发布了新算法pour la régression linéaire bayésienne parcimonieuse En grand dimension,don les performance sont très bonnes,tant sur donées réelles que simules。无与伦比的新基础:《奥尔塞·奥尔塞·阿德多内斯·维利布斯》中的“公共事业的激增”(agit de prédire la frée e d’Orsayál’aide de données vélibs)。根据《复合材料原理分析模型》(ACP)的实际问题,提出了合理的建议。新圣母院的圣母院,首府的圣母效果计算严格按照议会的边缘模式进行。Cela nus permet de proposser deux nouveaux algorithmes pour l'ACP parcimonieuse,un premier,appeléGSPPCA,permettant d'effectuer de la séselection de variables,et un second,appelèNGPPCA,Permettent d'estimer la dimension intrinsèque de donn es de grand dimension。这些表演采用了双人技术和极端竞争。Dans le cadem de donées d’expression ADN notament,l’approche de se election de variables propossée permet de déceler sans supervision des ensemblies de gènes particulient pertinents.丹麦人表达ADN注释,变量选择方法建议无监督的特殊群体。
菲奇尔校长
无花果树
论文.pdf(5.34个月) 特勒充电器
原籍 菲奇尔斯(Fichiers)出品的par l’(les)auteur(s)
加载。。。

日期和版本

电话:01655924, 版本1 (05-12-2017)

身份证明人

  • HAL Id: 电话-01655924,版本1

Citer公司

皮尔雷·阿莱克安德烈·马泰(Pierre-Alexandre Mattei)。稀疏高维学习的模型选择。统计学[math.ST]。巴黎第五大学,2017年。英语。⟨NNT:⟩.⟨电话-01655924⟩
694 磋商
1098 交易费用

合作伙伴

更多