×

稀疏不匹配数据多元线性回归的两阶段方法。 (英语) Zbl 07306893号

概要:线性回归中的一个默认假设是(响应、预测)-对对应于相同的观测单位。最近的一系列工作研究了在诸如“无标签感知”和“未知排列回归”等术语下违反此假设的场景。在本文中,我们研究了多响应变量的设置和一个不匹配的概念,该概念推广了排列,以允许丢失匹配以及一对多匹配。在假设大多数配对正确匹配的前提下,提出了一种两阶段方法。在第一阶段,通过将不匹配作为污染处理来估计回归参数,然后通过匹配的基本变量来估计广义置换。该方法计算方便,并具有良好的统计保证。具体地说,随着每个观测值的响应数(m)的增加,置换恢复的条件变得不那么严格。特别是,对于\(m=\Omega(\log n)\),所需的信噪比不再取决于样本大小\(n)。给出了合成数据和实际数据的数值结果,以支持我们分析的主要结果。

MSC公司:

62年5月 线性回归;混合模型
62甲12 多元分析中的估计

软件:

MULAN公司
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] A.Abid和J.Zou。乱序线性回归的随机EM。InAllerton通信、控制和计算会议,第470-477页,2018年。
[2] A.Abid、A.Poon和J.Zou。标签混乱的线性回归。arXiv:1705.013422017年。
[3] Z.Bai和T.Hsing。样本破损问题。概率论及相关领域,131(4):528-5522005·Zbl 1062.62041号
[4] D.贝尔塞卡斯。非线性规划。雅典娜科学,第二版,1999年·Zbl 1015.90077号
[5] D.Bertsekas和D.Castanon。非对称分配问题的正向/反向拍卖算法。计算优化与应用,1:277-2971992·兹比尔0776.90054
[6] K.Bhatia、P.Jain、P.Kamalaruban和P.Kar。一致稳健回归。《神经信息处理系统进展》(NIPS),第2110-21192017页。
[7] T.Blumensath和M.Davies。压缩感知的迭代硬阈值。应用和计算谐波分析,27:265-2742009·Zbl 1174.94008号
[8] R.Burkard、M.Dell’Amico和S.Martello。《作业问题:修订重印》,SIAM,2009年。
[9] A.Carpentier和T.Schl¨uter。学习独立获取的数据之间的关系。《人工智能与统计国际会议记录》(AISTATS),第658-666页,2016年。
[10] 稀疏错配数据多元线性回归的两阶段方法·Zbl 07306893号
[11] R.Chambers和A.da Silva。改进了链接数据的二次分析:框架和插图。《皇家统计学会期刊A辑》,2019年。
[12] H.-P.Chan和W.-L.Loh。DeGroot和Goel的文件链接问题再次出现。中国统计局,11:1031-10452001·Zbl 0984.62039号
[13] S.X.陈。北京多站点空气质量数据集。https://archive.ics.uci。edu/ml/datasets/北京+多站点+空气质量+数据,2017年。
[14] P.克里斯滕。数据匹配:记录链接、实体解析和重复检测的概念和技术。施普林格,2012年。
[15] S.DasGupta和A.Gupta。约翰逊和林登斯特劳斯定理的初等证明。随机结构与算法,22:60-652003·Zbl 1018.51010号
[16] M.DeGroot和P.Goel。多元正态数据的匹配问题。桑赫亚,B辑,38:14-291976·Zbl 0414.62044号
[17] M.DeGroot和P.Goel。从破碎的随机样本中估计相关系数。《统计年鉴》,8:264-2781980年·兹比尔0446.62049
[18] M.DeGroot、P.Feder和P.Goel。配对。《数理统计年鉴》,42:578-5931971·Zbl 0217.51802号
[19] I.多克马尼。采样后未标记的排列未知。IEEE信号处理快报,26:823-8272019年。
[20] J.Domingo-Ferrer和K.Muralidhar。匿名化的新方向:置换范式、主体和入侵者的可验证性、对用户的透明性。信息科学,337:11-242016。
[21] Y.Eldar和M.Mishali。从子空间的结构化并集稳健恢复信号。IEEE信息理论汇刊,55(11):5302-53162009·Zbl 1367.94087号
[22] V.Emiya、A.Bonnefoy、L.Daudet和R.Gribonval。具有未知传感器排列的压缩传感。《声学、语音和信号处理》(ICASSP),第1040-1044页,2014年。
[23] N.Flamarion、C.Mao和P.Rigollet。统计序列的最佳比率。伯努利,2019年,25:623-653·Zbl 1442.62084号
[24] P.戈尔。关于破碎样品中的重新配对观察。统计年鉴,3:1364-13691975·Zbl 0319.62003号
[25] P.Goel和T.Ramalingam。匹配方法:一些统计特性。施普林格统计讲义,2012年。
[26] Y.戈登。关于Milman不等式和通过n中的网格逃逸的随机子空间,第84-106页。施普林格-柏林-海德堡,柏林,海德堡·兹比尔0651.46021
[27] S.Haghighatshoar和G.Caire。从未标记样品中恢复信号。2017年国际信息理论研讨会(ISIT)·Zbl 1414.94864号
[28] D.Hsu、S.Kakade和T.Zhang。二次型次高斯随机向量的尾不等式。《概率电子通信》,52:1-62012年·Zbl 1309.60017号
[29] D.Hsu、K.Shi和X.Sun。无对应的线性回归。《神经信息处理系统进展》(NIPS),第1531-1540页,2017年。
[30] M.贾吉。重温Frank-Wolfe:无投影稀疏凸优化。《机器学习国际会议论文集》,第427-435页,2013年。
[31] H.库恩。分配问题的匈牙利方法。《海军研究后勤季刊》,2:83-971955年·Zbl 0143.41905号
[32] P.Lahiri和Michael D.Larsen。使用关联数据进行回归分析。《美国统计协会杂志》,100(469):222-2302005年·Zbl 1117.62376号
[33] J.Laska、M.Davenport和R.Baraniuk。通过追求正义,从稀疏损坏的测量数据中准确恢复信号。2009年InAsilomar信号、系统和计算机会议,第1556-1560页。
[34] R.Latala、P.Mankiewicz、K.Oleskiewics和N.Tomczak-Jaegermann。巴拿赫-马祖尔距离和随机亚高斯多边形上的投影。《离散与计算几何》,38:29-502007年·Zbl 1134.52016年
[35] M.Ledoux和M.Talagrand。Banach空间中的概率。施普林格,1991年·Zbl 0748.60004号
[36] K.Lounici、M.Pontil、A.Tsybakov和S.van de Geer。Oracle不等式与群稀疏下的最优推理。《统计年鉴》,39:2164-22042011年·Zbl 1306.62156号
[37] R.Ma、T.Cai和H.Li。置换单调矩阵模型中的最优置换恢复。发表于《美国统计协会杂志》,2020年。
[38] A.Narayanan和V.Shmatikov。大型稀疏数据集的鲁棒去匿名化。IEEE安全与隐私研讨会,第111-125页,2008年。
[39] Y.内斯特罗夫。非光滑函数的平滑最小化。数学程序设计,103(1):127-1522005·Zbl 1079.90102号
[40] J.Neter、S.Maynes和R.Ramanathan。失配对响应误差测量的影响。美国统计协会杂志,60(312):1005-10271965。
[41] N.Nguyen和T.Tran。具有缺失和严重破坏观测的鲁棒套索。IEEE信息理论汇刊,59:2036-2582013·Zbl 1364.94146号
[42] A.Pananjady、M.Wainwright和T.Cortade。用置换数据去噪线性模型。arXiv:1704.074612017年。
[43] 稀疏错配数据多元线性回归的两阶段方法·Zbl 07306893号
[44] A.Pananjady、M.Wainwright和T.Cortade。洗牌数据线性回归:置换恢复的统计和计算极限。IEEE信息理论汇刊,3826-33002018年·Zbl 1395.62204号
[45] Y.Plan和R.Vershynin。稳健的1位压缩感知和稀疏逻辑回归:凸规划方法。IEEE信息理论汇刊,59:482-4942013a·Zbl 1364.94153号
[46] Y.Plan和R.Vershynin。线性规划的一位压缩传感。《纯粹数学与应用数学交流》,66:1275-12972013b·Zbl 1335.94018号
[47] C.拉斯穆森和C.威廉姆斯。机器学习的高斯过程:数据。http://www.gaussianprocess.org/gpml/data/2019年1月。
[48] P.Rigollet和J.Weed。通过最小Wasserstein反褶积实现非耦合等渗回归。信息与推断,2019年8月691-717日·Zbl 1471.62335号
[49] F.Scheuren和W.Winkler。计算机匹配的数据文件的回归分析I.调查方法,19:39-581993。
[50] F.Scheuren和W.Winkler。计算机匹配数据文件的回归分析2。调查方法,23:157-1651997年12月。
[51] Y.她和A.Owen。基于非凸惩罚回归的异常值检测。《美国统计协会期刊》,106:626-639,2012年·Zbl 1232.62068号
[52] X.Shi、X.Lu和T.Cai。不匹配破坏下的球形重生成与自动知识翻译的应用。发表在《美国统计协会杂志》(Journal of the American Statistical Association)上,2020年。
[53] M.Slawski和E.Ben-David。稀疏排列数据的线性回归。《电子统计杂志》,2019年1月1日至36日·Zbl 1416.62398号
[54] M.Slawski、M.Rahmani和P.Li.标签部分乱序线性回归的稳健子空间恢复方法。《人工智能中的不确定性》(UAI),2019年。
[55] L.斯威尼。计算披露控制:数据隐私保护入门。麻省理工学院博士论文,2001年。
[56] M.Tsakiris。同态传感的特征空间条件。arXiv:1812.079662018年12月。
[57] M.Tsakiris和L.Peng。同态传感。2019年国际机器学习会议(ICML),第6335-6344页。
[58] M.Tsakiris、L.Peng、A.Conca、L.Kneip、Y.Shi和H.Choi。混合线性回归的代数几何近似。出现在《2020年IEEE信息理论汇刊》上·Zbl 1446.62202号
[59] 曾荫权(P.Tseng)。结构化凸优化的近似精度、梯度方法和误差界。数学编程系列B,12:263-2952010·Zbl 1207.65084号
[60] G.Tsoumakas、E.Spyromitros-Xioufis、J.Vilcek和I.Vlahavas。Mulan:用于多标签学习的java库。机器学习研究杂志,12:2411-2411911·Zbl 1280.68207号
[61] J.Unnikrishnan、S.Haghighatshoar和M.Vetterli。采用随机线性测量的无标签传感。IEEE信息理论汇刊,64:3237-32532018·Zbl 1395.94168号
[62] R.Vershynin。在:压缩传感:理论与应用,“随机矩阵的非渐近分析简介”一章中。剑桥大学出版社,2012年。
[63] R.Vershynin。高维概率。数据科学应用导论。剑桥大学出版社,2018年·Zbl 1430.60005号
[64] R.Vershynin和M.Rudelson。随机矩阵和确定性矩阵乘积的谱范数。概率论及相关领域,150:471-5092011·Zbl 1235.60009号
[65] G.Wang、J.Zhu、R.Blum、P.Willett、S.Marano、V.Matta和P.Braca。未标记二进制量化样本的信号幅度估计和检测。IEEE信号处理汇刊,66:4291-43032018·Zbl 1415.94355号
[66] 维基百科。按平均温度列出的城市。https://en.wikipedia.org/wiki/List_of_cities_by_average_temperature网站2019年1月。
[67] 吴永宁。关于断裂样品问题的注释。技术报告,密歇根大学统计系,1998年。
[68] 袁敏洪、林毅。分组变量回归中的模型选择与估计。英国皇家统计学会期刊B辑,68:49-672006·Zbl 1141.62030号
[69] 张华,李鹏。无标记线性回归的最优估计。第37届机器学习国际会议(ICML)论文集,2020年。
[70] H.Zhang、M.Slawski和P.Li。无标记传感中多个测量矢量的置换恢复。IEEE信息理论国际研讨会(ISIT),2019a。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。