马丁·斯拉夫斯基;伊曼纽尔·本·达维德;李平 稀疏不匹配数据多元线性回归的两阶段方法。 (英语) Zbl 07306893号 J.马赫。学习。物件。 21,第204号论文,42页(2020年). 概要:线性回归中的一个默认假设是(响应、预测)-对对应于相同的观测单位。最近的一系列工作研究了在诸如“无标签感知”和“未知排列回归”等术语下违反此假设的场景。在本文中,我们研究了多响应变量的设置和一个不匹配的概念,该概念推广了排列,以允许丢失匹配以及一对多匹配。在假设大多数配对正确匹配的前提下,提出了一种两阶段方法。在第一阶段,通过将不匹配作为污染处理来估计回归参数,然后通过匹配的基本变量来估计广义置换。该方法计算方便,并具有良好的统计保证。具体地说,随着每个观测值的响应数(m)的增加,置换恢复的条件变得不那么严格。特别是,对于\(m=\Omega(\log n)\),所需的信噪比不再取决于样本大小\(n)。给出了合成数据和实际数据的数值结果,以支持我们分析的主要结果。 引用于4文件 MSC公司: 62年5月 线性回归;混合模型 62甲12 多元分析中的估计 关键词:无标记传感;未知排列回归;不匹配;污染物 软件:MULAN公司 PDF格式BibTeX公司 XML格式引用 \textit{M.Slawski}等人,J.Mach。学习。第21号决议,第204号论文,42页(2020年;Zbl 07306893) 全文: arXiv公司 链接 参考文献: [1] A.Abid和J.Zou。乱序线性回归的随机EM。InAllerton通信、控制和计算会议,第470-477页,2018年。 [2] A.Abid、A.Poon和J.Zou。标签混乱的线性回归。arXiv:1705.013422017年。 [3] Z.Bai和T.Hsing。样本破损问题。概率论及相关领域,131(4):528-5522005·Zbl 1062.62041号 [4] D.贝尔塞卡斯。非线性规划。雅典娜科学,第二版,1999年·Zbl 1015.90077号 [5] D.Bertsekas和D.Castanon。非对称分配问题的正向/反向拍卖算法。计算优化与应用,1:277-2971992·兹比尔0776.90054 [6] K.Bhatia、P.Jain、P.Kamalaruban和P.Kar。一致稳健回归。《神经信息处理系统进展》(NIPS),第2110-21192017页。 [7] T.Blumensath和M.Davies。压缩感知的迭代硬阈值。应用和计算谐波分析,27:265-2742009·Zbl 1174.94008号 [8] R.Burkard、M.Dell’Amico和S.Martello。《作业问题:修订重印》,SIAM,2009年。 [9] A.Carpentier和T.Schl¨uter。学习独立获取的数据之间的关系。《人工智能与统计国际会议记录》(AISTATS),第658-666页,2016年。 [10] 稀疏错配数据多元线性回归的两阶段方法·Zbl 07306893号 [11] R.Chambers和A.da Silva。改进了链接数据的二次分析:框架和插图。《皇家统计学会期刊A辑》,2019年。 [12] H.-P.Chan和W.-L.Loh。DeGroot和Goel的文件链接问题再次出现。中国统计局,11:1031-10452001·Zbl 0984.62039号 [13] S.X.陈。北京多站点空气质量数据集。https://archive.ics.uci。edu/ml/datasets/北京+多站点+空气质量+数据,2017年。 [14] P.克里斯滕。数据匹配:记录链接、实体解析和重复检测的概念和技术。施普林格,2012年。 [15] S.DasGupta和A.Gupta。约翰逊和林登斯特劳斯定理的初等证明。随机结构与算法,22:60-652003·Zbl 1018.51010号 [16] M.DeGroot和P.Goel。多元正态数据的匹配问题。桑赫亚,B辑,38:14-291976·Zbl 0414.62044号 [17] M.DeGroot和P.Goel。从破碎的随机样本中估计相关系数。《统计年鉴》,8:264-2781980年·兹比尔0446.62049 [18] M.DeGroot、P.Feder和P.Goel。配对。《数理统计年鉴》,42:578-5931971·Zbl 0217.51802号 [19] I.多克马尼。采样后未标记的排列未知。IEEE信号处理快报,26:823-8272019年。 [20] J.Domingo-Ferrer和K.Muralidhar。匿名化的新方向:置换范式、主体和入侵者的可验证性、对用户的透明性。信息科学,337:11-242016。 [21] Y.Eldar和M.Mishali。从子空间的结构化并集稳健恢复信号。IEEE信息理论汇刊,55(11):5302-53162009·Zbl 1367.94087号 [22] V.Emiya、A.Bonnefoy、L.Daudet和R.Gribonval。具有未知传感器排列的压缩传感。《声学、语音和信号处理》(ICASSP),第1040-1044页,2014年。 [23] N.Flamarion、C.Mao和P.Rigollet。统计序列的最佳比率。伯努利,2019年,25:623-653·Zbl 1442.62084号 [24] P.戈尔。关于破碎样品中的重新配对观察。统计年鉴,3:1364-13691975·Zbl 0319.62003号 [25] P.Goel和T.Ramalingam。匹配方法:一些统计特性。施普林格统计讲义,2012年。 [26] Y.戈登。关于Milman不等式和通过n中的网格逃逸的随机子空间,第84-106页。施普林格-柏林-海德堡,柏林,海德堡·兹比尔0651.46021 [27] S.Haghighatshoar和G.Caire。从未标记样品中恢复信号。2017年国际信息理论研讨会(ISIT)·Zbl 1414.94864号 [28] D.Hsu、S.Kakade和T.Zhang。二次型次高斯随机向量的尾不等式。《概率电子通信》,52:1-62012年·Zbl 1309.60017号 [29] D.Hsu、K.Shi和X.Sun。无对应的线性回归。《神经信息处理系统进展》(NIPS),第1531-1540页,2017年。 [30] M.贾吉。重温Frank-Wolfe:无投影稀疏凸优化。《机器学习国际会议论文集》,第427-435页,2013年。 [31] H.库恩。分配问题的匈牙利方法。《海军研究后勤季刊》,2:83-971955年·Zbl 0143.41905号 [32] P.Lahiri和Michael D.Larsen。使用关联数据进行回归分析。《美国统计协会杂志》,100(469):222-2302005年·Zbl 1117.62376号 [33] J.Laska、M.Davenport和R.Baraniuk。通过追求正义,从稀疏损坏的测量数据中准确恢复信号。2009年InAsilomar信号、系统和计算机会议,第1556-1560页。 [34] R.Latala、P.Mankiewicz、K.Oleskiewics和N.Tomczak-Jaegermann。巴拿赫-马祖尔距离和随机亚高斯多边形上的投影。《离散与计算几何》,38:29-502007年·Zbl 1134.52016年 [35] M.Ledoux和M.Talagrand。Banach空间中的概率。施普林格,1991年·Zbl 0748.60004号 [36] K.Lounici、M.Pontil、A.Tsybakov和S.van de Geer。Oracle不等式与群稀疏下的最优推理。《统计年鉴》,39:2164-22042011年·Zbl 1306.62156号 [37] R.Ma、T.Cai和H.Li。置换单调矩阵模型中的最优置换恢复。发表于《美国统计协会杂志》,2020年。 [38] A.Narayanan和V.Shmatikov。大型稀疏数据集的鲁棒去匿名化。IEEE安全与隐私研讨会,第111-125页,2008年。 [39] Y.内斯特罗夫。非光滑函数的平滑最小化。数学程序设计,103(1):127-1522005·Zbl 1079.90102号 [40] J.Neter、S.Maynes和R.Ramanathan。失配对响应误差测量的影响。美国统计协会杂志,60(312):1005-10271965。 [41] N.Nguyen和T.Tran。具有缺失和严重破坏观测的鲁棒套索。IEEE信息理论汇刊,59:2036-2582013·Zbl 1364.94146号 [42] A.Pananjady、M.Wainwright和T.Cortade。用置换数据去噪线性模型。arXiv:1704.074612017年。 [43] 稀疏错配数据多元线性回归的两阶段方法·Zbl 07306893号 [44] A.Pananjady、M.Wainwright和T.Cortade。洗牌数据线性回归:置换恢复的统计和计算极限。IEEE信息理论汇刊,3826-33002018年·Zbl 1395.62204号 [45] Y.Plan和R.Vershynin。稳健的1位压缩感知和稀疏逻辑回归:凸规划方法。IEEE信息理论汇刊,59:482-4942013a·Zbl 1364.94153号 [46] Y.Plan和R.Vershynin。线性规划的一位压缩传感。《纯粹数学与应用数学交流》,66:1275-12972013b·Zbl 1335.94018号 [47] C.拉斯穆森和C.威廉姆斯。机器学习的高斯过程:数据。http://www.gaussianprocess.org/gpml/data/2019年1月。 [48] P.Rigollet和J.Weed。通过最小Wasserstein反褶积实现非耦合等渗回归。信息与推断,2019年8月691-717日·Zbl 1471.62335号 [49] F.Scheuren和W.Winkler。计算机匹配的数据文件的回归分析I.调查方法,19:39-581993。 [50] F.Scheuren和W.Winkler。计算机匹配数据文件的回归分析2。调查方法,23:157-1651997年12月。 [51] Y.她和A.Owen。基于非凸惩罚回归的异常值检测。《美国统计协会期刊》,106:626-639,2012年·Zbl 1232.62068号 [52] X.Shi、X.Lu和T.Cai。不匹配破坏下的球形重生成与自动知识翻译的应用。发表在《美国统计协会杂志》(Journal of the American Statistical Association)上,2020年。 [53] M.Slawski和E.Ben-David。稀疏排列数据的线性回归。《电子统计杂志》,2019年1月1日至36日·Zbl 1416.62398号 [54] M.Slawski、M.Rahmani和P.Li.标签部分乱序线性回归的稳健子空间恢复方法。《人工智能中的不确定性》(UAI),2019年。 [55] L.斯威尼。计算披露控制:数据隐私保护入门。麻省理工学院博士论文,2001年。 [56] M.Tsakiris。同态传感的特征空间条件。arXiv:1812.079662018年12月。 [57] M.Tsakiris和L.Peng。同态传感。2019年国际机器学习会议(ICML),第6335-6344页。 [58] M.Tsakiris、L.Peng、A.Conca、L.Kneip、Y.Shi和H.Choi。混合线性回归的代数几何近似。出现在《2020年IEEE信息理论汇刊》上·Zbl 1446.62202号 [59] 曾荫权(P.Tseng)。结构化凸优化的近似精度、梯度方法和误差界。数学编程系列B,12:263-2952010·Zbl 1207.65084号 [60] G.Tsoumakas、E.Spyromitros-Xioufis、J.Vilcek和I.Vlahavas。Mulan:用于多标签学习的java库。机器学习研究杂志,12:2411-2411911·Zbl 1280.68207号 [61] J.Unnikrishnan、S.Haghighatshoar和M.Vetterli。采用随机线性测量的无标签传感。IEEE信息理论汇刊,64:3237-32532018·Zbl 1395.94168号 [62] R.Vershynin。在:压缩传感:理论与应用,“随机矩阵的非渐近分析简介”一章中。剑桥大学出版社,2012年。 [63] R.Vershynin。高维概率。数据科学应用导论。剑桥大学出版社,2018年·Zbl 1430.60005号 [64] R.Vershynin和M.Rudelson。随机矩阵和确定性矩阵乘积的谱范数。概率论及相关领域,150:471-5092011·Zbl 1235.60009号 [65] G.Wang、J.Zhu、R.Blum、P.Willett、S.Marano、V.Matta和P.Braca。未标记二进制量化样本的信号幅度估计和检测。IEEE信号处理汇刊,66:4291-43032018·Zbl 1415.94355号 [66] 维基百科。按平均温度列出的城市。https://en.wikipedia.org/wiki/List_of_cities_by_average_temperature网站2019年1月。 [67] 吴永宁。关于断裂样品问题的注释。技术报告,密歇根大学统计系,1998年。 [68] 袁敏洪、林毅。分组变量回归中的模型选择与估计。英国皇家统计学会期刊B辑,68:49-672006·Zbl 1141.62030号 [69] 张华,李鹏。无标记线性回归的最优估计。第37届机器学习国际会议(ICML)论文集,2020年。 [70] H.Zhang、M.Slawski和P.Li。无标记传感中多个测量矢量的置换恢复。IEEE信息理论国际研讨会(ISIT),2019a。 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。