高超;张安德森·Y。 离散结构恢复的迭代算法。 (英语) Zbl 1486.62058号 Ann.统计。 50,编号2,1066-1094(2022). 摘要:我们提出了一个通用的离散结构恢复建模和算法框架,可应用于广泛的问题。在这个框架下,我们能够从统一的角度研究聚类标签、参与者等级、回归系数符号、循环移位甚至组元素的恢复。提出了一种简单的离散结构恢复迭代算法,它推广了Lloyd算法和幂函数法。本文在随机误差和初始化的适当抽象条件下,建立了该算法的线性收敛结果。我们通过将其应用于几个典型问题来说明我们的一般理论:(1)高斯混合模型中的聚类,(2)近似排序,(3)压缩感知中的符号恢复,(4)多参考对准和(5)组同步,并表明在每种情况下都达到了最小最大速率。 引用于三文件 MSC公司: 62F07型 统计排名和选择程序 62J05型 线性回归;混合模型 62H30型 分类和区分;聚类分析(统计方面) 94甲12 信号理论(表征、重建、滤波等) 关键词:近似排序;组同步;高维统计;k-means聚类;多参考对准 PDF格式BibTeX公司 XML格式引用 \textit{C.Gao}和\textit{A.Y.Zhang},Ann.Stat.50,No.2,1066--1094(2022;Zbl 1486.62058) 全文: DOI程序 arXiv公司 参考文献: [1] Abbe,E.、Bandeira,A.S.和Hall,G.(2016)。随机块模型中的精确恢复。IEEE传输。Inf.理论62 471-487. ·Zbl 1359.94047号 ·doi:10.1109/TIT.2015.2490670 [2] ABBE,E.,BENDORY,T.,LEEB,W.,PEREIRA,J.M.,SHARON,N.和SINGER,A.(2019年)。非周期平移分布更容易实现多参考对准。IEEE传输。Inf.理论65 3565-3584. ·Zbl 1432.94018号 ·doi:10.1109/TIT.2018.2889674 [3] Abbe,E.、Fan,J.、Wang,K.和Zhong,Y.(2020年)。低期望秩随机矩阵的条目特征向量分析。安。统计师。48 1452-1474. ·Zbl 1450.62066号 ·doi:10.1214/19-AOS1854 [4] ABBE,E.,MASSOULI,L.,MONTANARI,A.,SLY,A.和SRIVASTAVA,N.(2018年)。网格上的组同步。数学。统计学习。1 227-256. ·Zbl 1426.62165号 ·doi:10.4171/msl/6个 [5] AERON,S.、SALIGRAMA,V.和ZHAO,M.(2010)。压缩感知的信息理论界限。IEEE传输。Inf.理论56 5111-5130. ·兹比尔1366.94179 ·doi:10.10109/TIT.2010.2059891 [6] AGUERREBERE,C.、DELBRACIO,M.、BARTESAGHI,A.和SAPIRO,G.(2016)。多图像对齐的基本限制。IEEE传输。信号处理。64 5707-5722. ·Zbl 1414.94008号 ·doi:10.1109/TSP.2016.2600517 [7] ALOISE,D.、DESHPANDE,A.、HANSEN,P.和POPAT,P.(2009年)。欧几里德平方和聚类的NP-hardness。机器。学习。75 245-248. ·Zbl 1378.68047号 [8] ARTHUR,D.和VASSILVITSKII,S.(2007)\(k)-表示++:仔细播种的优点。在第十八届ACM-SIAM离散算法年会论文集1027-1035. 纽约ACM·Zbl 1302.68273号 [9] AWASTHI,P.和SHEFFET,O.(2012年)。改进了聚类的光谱形式界限近似、随机化和组合优化.计算机科学课堂讲稿7408 37-49. 海德堡施普林格·Zbl 1358.68220号 ·doi:10.1007/978-3642-32512-04 [10] BAGARIA,V.、DING,J.、TSE,D.、WU,Y.和XU,J.(2020年)。基于线性规划的隐哈密顿循环恢复。操作。物件。68 53-70. ·Zbl 1445.90007号 ·doi:10.1287/opre.2019.1886 [11] Balakrishnan,S.、Wainwright,M.J.和Yu,B.(2017年)。EM算法的统计保证:从人口到基于样本的分析。安。统计师。45 77-120. ·Zbl 1367.62052号 ·doi:10.1214/16-AOS1435 [12] BANDEIRA,A.S.、BOUMAL,N.和SINGER,A.(2017)。角同步最大似然半定松弛的紧性。数学。程序。163 145-167. ·Zbl 1365.90188号 ·doi:10.1007/s10107-016-1059-6 [13] BANDEIRA,A.S.、CHARIKAR,M.、SINGER,A.和ZHU,A.(2014)。使用半定规划的多参考对准。在ITCS公司14-会议记录2014计算机理论科学创新会议459-470之间。纽约ACM·Zbl 1364.94108号 [14] BANDEIRA,A.S.、NILES-WEED,J.和RIGOLLET,P.(2019年)。多参考对准的最佳估计速率。数学。统计学习。2 25-75. ·Zbl 1437.62227号 ·doi:10.4171/msl/11 [15] Bellec,P.C.、Lecué,G.和Tsybakov,A.B.(2018年)。斜率符合拉索:改进了预言界和优化。安。统计师。46 3603-3642. ·Zbl 1405.62056号 ·doi:10.1214/17-AOS1670 [16] BENDORY,T.、BOUMAL,N.、MA,C.、ZHAO,Z.和SINGER,A.(2018年)。双谱反演及其在多参考对准中的应用。IEEE传输。信号处理。66 1037-1050. ·Zbl 1414.94066号 ·doi:10.1109/TSP.2017.2775591 [17] Blumensath,T.和Davies,M.E.(2009年)。压缩感知的迭代硬阈值。申请。计算。哈蒙。分析。27 265-274. ·Zbl 1174.94008号 ·doi:10.1016/j.acha.2009.04.002 [18] Bogdan,M.、van den Berg,E.、Sabatti,C.、Su,W.和Candès,E.J.(2015)。SLOPE——通过凸优化进行自适应变量选择。附录申请。斯达。9 1103-1140. ·Zbl 1454.62212号 ·doi:10.1214/15-AOAS842 [19] Bradley,R.A.和Terry,M.E.(1952年)。不完全块设计的秩分析。一、配对比较法。生物特征39 324-345. ·Zbl 0047.12903号 ·doi:10.2307/2334029 [20] BRAVERMAN,M.和MOSSEL,E.(2008年)。无需重新采样的噪音排序。在第十九届ACM-SIAM离散算法年会论文集268-276. 纽约ACM·Zbl 1192.94077号 [21] BRODER,A.Z.、FRIEZE,A.M.和SHAMIR,E.(1994年)。寻找隐藏的哈密顿圈。随机结构算法5 395-410. ·Zbl 0809.05064号 ·doi:10.1002/rsa.3240050303 [22] BUTUCEA,C.、NDAOUD,M.、STEPANOVA,N.A.和TSYBAKOV,A.B.(2018年)。具有Hamming损失的变量选择。安。统计师。46 1837-1875年·Zbl 1414.62126号 ·doi:10.1214/17-AOS1572 [23] Chen,Y.和Candès,E.J.(2018)。投影功率法:一种有效的两两差异联合对准算法。普通纯应用程序。数学。71 1648-1714. ·Zbl 1480.90199号 ·doi:10.1002/cpa.21760 [24] CHEN,Y.、GUIBAS,L.J.和HUANG,Q.-X.(2014)。基于凸松弛的近最优关节对象匹配。预印本。可在arXiv:1402.1473获得。 [25] COLLIER,O.和DALALYAN,A.S.(2016)。特征匹配置换估计中的最小最大速率。J.马赫。学习。物件。17第6号论文,31页·Zbl 1360.62262号 [26] CONTE,D.、FOGGIA,P.、SANSONE,C.和VENTO,M.(2004)。模式识别中的图形匹配三十年。国际J模式识别。Artif公司。智力。18 265-298. [27] DASGUPTA,S.(2008)。k-均值聚类的硬度加利福尼亚大学计算机科学与工程系。 [28] DASKALAKIS,C.、TZAMOS,C.和ZAMPETAKIS,M.(2016)。EM的十个步骤足以处理两个高斯函数的混合物。预印。可从arXiv:1609.00368获取。 [29] DAWID,A.P.和SKENE,A.M.(1979年)。使用em算法对观测器错误率进行最大似然估计。J.R.统计社会服务。C.申请。斯达。28 20-28. [30] Dempster,A.P.、Laird,N.M.和Rubin,D.B.(1977年)。通过EM算法从不完整数据中获得最大似然。J.罗伊。统计师。Soc.序列号。B类39 1-38. ·兹比尔0364.62022 [31] DERUMIGNY,A.(2018)。改进了方形套索和方形斜率的界限。电子。J.统计。12 741-766. ·Zbl 1473.62132号 ·doi:10.1214/18-EJS1410 [32] 丁J.、马Z.、吴Y.和徐J.(2021)。通过度剖面进行有效的随机图匹配。普罗巴伯。理论相关领域179 29-115页·兹比尔1460.05171 ·doi:10.1007/s00440-020-00997-4 [33] DWIVEDI,R.、HO,N.、KHAMARU,K.、WAINWRIGHT,M.J.、JORDAN,M.I.和YU,B.(2020年)。奇异性、指定错误和EM的收敛速度。安。统计师。48 3161-3182. ·Zbl 1462.62382号 ·doi:10.1214/19-AOS1924 [34] FEI,Y.和CHEN,Y.(2019年)。块模型SDP的指数误差率:超越Grothendieck不等式。IEEE传输。Inf.理论65 551-571. ·Zbl 1432.90102号 ·doi:10.1109/TIT.2018.2839677 [35] FEI,Y.和CHEN,Y.(2020年)。利用SDP稳健地实现同步和块模型中的Bayes错误率。IEEE传输。Inf.理论66 3929-3953. ·Zbl 1448.90071号 ·doi:10.1109/TIT.2020.2966438 [36] FLETCHER,A.K.、RANGAN,S.和GOYAL,V.K.(2009年)。稀疏模式恢复的充要条件。IEEE传输。Inf.理论55 5758-5772. ·Zbl 1367.94090号 ·doi:10.1109/TIT.2009.2032726 [37] FOUCART,S.(2011年)。硬阈值追踪:一种压缩感知算法。SIAM J.数字。分析。49 2543-2563. ·Zbl 1242.65060号 ·数字对象标识代码:10.1137/100806278 [38] FRANK,J.(2006)。大分子组装体的三维电子显微镜:自然状态下生物分子的可视化。牛津大学出版社,伦敦。 [39] FRIEDRICH,F.、KEMPE,A.、LIEBSCHER,V.和WINKLER,G.(2008)。复杂性惩罚\(M\)-估计:快速计算。J.计算。图表。统计师。17 201-224. ·doi:10.1198/106186008X285591 [40] GAO,C.(2017)。近似排序中的相变。预印本。可在arXiv:17111189上获取。 [41] GAO,C.、LU,Y.和ZHOU,D.(2016)。众包最佳费率的精确指数。在机器学习国际会议603-611. [42] GAO,C.和MA,Z.(2021年)。网络分析中的最小最大速率:Graphon估计、社区检测和假设检验。统计师。科学。36 16-33. ·Zbl 07368217号 ·doi:10.1214/19-STS736 [43] GAO,C.,MA,Z.,ZHANG,A.Y.和ZHOU,H.H.(2017)。在随机块模型中实现最佳误分类比例。J.马赫。学习。物件。18第60号论文,45页·Zbl 1440.62244号 [44] Gao,C.,Ma,Z.,Zhang,A.Y.和Zhou,H.H.(2018)。度校正块模型中的社区检测。安。统计师。46 2153-2185. ·Zbl 1408.62116号 ·doi:10.1214/17-AOS1615 [45] Gao,C.、van der Vaart,A.W.和Zhou,H.H.(2020年)。贝叶斯结构线性模型的一般框架。安。统计师。48 2848-2878. ·Zbl 1471.62241号 ·doi:10.1214/19-AOS1909 [46] GAO,C.和ZHANG,A.Y.(2022)。补充“离散结构恢复的迭代算法”https://doi.org/10.1214/21-AOS2140SUPP网站 [47] Giraud,C.和Verzelen,N.(2018年)。使用放松的\(K\)-均值聚类的部分恢复边界。数学。统计学习。1 317-374. ·Zbl 1426.62186号 [48] Girvan,M.和Newman,M.E.J.(2002)。社会和生物网络中的社区结构。程序。国家。阿卡德。科学。美国99 7821-7826. ·Zbl 1032.91716号 ·doi:10.1073/美国国家统计局.122653799 [49] Hajek,B.、Wu,Y.和Xu,J.(2016)。通过半定规划实现精确的集群恢复阈值。IEEE传输。Inf.理论62 2788-2797. ·Zbl 1359.94222号 ·doi:10.1109/TIT.2016.2546280 [50] Hajek,B.、Wu,Y.和Xu,J.(2016)。通过半定编程实现精确的集群恢复阈值:扩展。IEEE传输。Inf.理论62 5918-5937. ·兹比尔1359.94951 ·doi:10.1009/TIT.2016.2594812 [51] Hartigan,J.A.(1975年)。聚类算法.概率与数理统计中的威利级数纽约威利·Zbl 0372.62040号 [52] JI,P.和JIN,J.(2012)。UPS在高维变量选择中提供最佳相图。安。统计师。40 73-103. ·Zbl 1246.62160号 ·doi:10.1214/11-AOS947 [53] KANUNGO,T.、MOUNT,D.M.、NETANYAHU,N.S.、PIATKO,C.D.、SILVERMAN,R.和WU,A.Y.(2004)。用于(k)-均值聚类的局部搜索近似算法。计算。地理。28 89-112. ·Zbl 1077.68109号 ·doi:10.1016/j.comgeo.2004.03.003 [54] Kumar,A.和Kannan,R.(2010年)。谱范数聚类和(k)-均值算法。2010年电气与电子工程师协会51第届计算机科学基础年会2010 299-308. IEEE计算机协会,加利福尼亚州洛斯阿拉米托斯。 [55] KUMAR,A.、SABHARWAL,Y.和SEN,S.(2004)。(k)的简单线性时间近似算法意味着在任何维度上进行聚类。在计算机科学基础年会45 454-462. IEEE计算机学会出版社。 [56] LERMAN,G.和SHI,Y.(2019年)。通过循环边消息传递实现强大的组同步。预印本。可在arXiv:1912.11347获得。 [57] LESKOVEC,J.、LANG,K.J.和MAHONEY,M.(2010)。网络社区检测算法的实证比较。在会议记录19第十届万维网国际会议631-640. 纽约ACM。 [58] LING,S.(2020)。通过凸优化和低阶优化解决正交组同步:紧密性和横向分析。预印本。arXiv:2006.00902提供。 [59] LING,S.(2020年)。通过谱方法实现正交和置换群同步的近最优性能界。预印本。可从arXiv:2008.05341获取。 [60] Lloyd,S.P.(1982)。PCM中的最小二乘量化。IEEE传输。Inf.理论28 129-137·Zbl 0504.94015号 ·doi:10.1109/TIT.1982.1056489 [61] LOUNICI,K.(2008年)。Lasso和Dantzig估计的超形式收敛速度和符号集中性质。电子。J.统计。2 90-102. ·Zbl 1306.62155号 ·doi:10.1214/08-EJS177 [62] LU,Y.和ZHOU,H.H.(2016)。劳埃德算法及其变体的统计和计算保证。预印。arXiv:1612.02099提供。 [63] LUCE,R.D.(2012)。个人选择行为:理论分析纽约威利。 [64] MAHAJAN,M.、NIMBHORKAR,P.和VARADARAJAN,K.(2012年)。平面(k)-均值问题是NP-hard。理论。计算。科学。442 13-21. ·Zbl 1260.68158号 ·doi:10.1016/j.tcs.2010.05.034 [65] MAO,C.、WEED,J.和RIGOLLET,P.(2018年)。噪声排序的最小最大速率和高效算法。在算法学习理论/会议录2018程序。机器。学习。雷斯. (PMLR公司) 83 27. 机器学习研究论文集PMLR·Zbl 1407.62066号 [66] Meinshausen,N.和Bühlmann,P.(2006)。高维图和用套索选择变量。安。统计师。34 1436-1462. ·Zbl 1113.62082号 ·doi:10.1214/0090536000000281 [67] Montanari,A.和Sen,S.(2016)。稀疏随机图上的半定规划及其在社区检测中的应用。在STOC公司16-会议记录48第届ACM SIGACT计算机理论年会814-827. 纽约ACM·Zbl 1376.90043号 ·doi:10.1145/2897518.2897548 [68] MONTEILLER,P.、CLAICI,S.、CHIEN,E.、MIRZAZADEH,F.、SOLOMON,J.M.和YUROCHKIN,M.(2019年)。通过优化运输缓解标签切换。在神经信息处理系统研究进展13634-13644. [69] Mossel,E.、Neeman,J.和Sly,A.(2014)。二进制对称块模型的一致性阈值。预打印。可从arXiv:1407.1591获取·Zbl 1321.05242号 [70] MOSSEL,E.、NEEMAN,J.和SLY,A.(2018年)。块模型阈值猜想的证明。组合型38 665-708. ·Zbl 1424.05272号 ·doi:10.1007/s00493-016-3238-8 [71] 恩达乌德,M.(2018)。两高斯混合模型中的尖锐最优恢复。预印本。可从arXiv:1812.08078获得。 [72] NDAOUD,M.和TSYBAKOV,A.B.(2020年)。最佳变量选择和自适应噪声压缩传感。IEEE传输。Inf.理论66 2517-2532. ·Zbl 1448.94081号 ·doi:10.1109/TIT.2020.2965738 [73] PACHAURI,D.、KONDOR,R.和SINGH,V.(2013年)。通过置换同步解决多路匹配问题。在神经信息处理系统研究进展1860-1868. [74] PANANJADY,A.、WAINWRIGHT,M.J.和COURTADE,T.A.(2018年)。洗牌数据线性回归:置换恢复的统计和计算极限。IEEE传输。Inf.理论64 3286-3300. ·Zbl 1395.62204号 ·doi:10.1109/TIT.2017.2776217 [75] PERRY,A.、WEED,J.、BANDEIRA,A.S.、RIGOLLET,P.和SINGER,A.(2019年)。多参考比对的样本复杂性。SIAM J.数学。数据科学。1 497-517. ·兹比尔1499.92047 ·doi:10.1137/18M1214317 [76] PERRY,A.、WEIN,A.S.、BANDEIRA,A.S.和MOITRA,A.(2016)。脉冲随机矩阵和同步的主成分分析的最优性和次最优性。预印。可从arXiv:1609.05573获取·Zbl 1404.62065号 [77] RAD,K.R.(2011)。精确稀疏模式恢复的几乎尖锐充分条件。IEEE传输。Inf.理论57 4672-4679. ·Zbl 1365.62203号 ·doi:10.1109/TIT.2011.2145670 [78] SALIGRAMA,V.和ZHAO,M.(2011)。阈值基追踪:用于从噪声随机测量中恢复稀疏和近似稀疏信号的有序最优支持的LP算法。IEEE传输。Inf.理论57 1567-1586页·Zbl 1366.94124号 ·doi:10.1109/TIT.2011.2104512 [79] SIGWORTH,F.J.(1998)。单粒子图像细化的最大似然方法。J.结构。生物。122 328-339. [80] Singer,A.(2011年)。通过特征向量和半定规划实现角度同步。申请。计算。哈蒙。分析。30 20-36之间·Zbl 1206.90116号 ·doi:10.1016/j.acha.2010.02.001 [81] SU,W.和CANDÈS,E.(2016)。SLOPE对未知稀疏性和渐近极小值具有自适应性。安。统计师。44 1038-1068. ·Zbl 1338.62032号 ·doi:10.1214/15-OS1397 [82] Wainwright,M.J.(2009)。高维和噪声环境中稀疏恢复的信息理论限制。IEEE传输。Inf.理论55 5728-5741. ·Zbl 1367.94106号 ·doi:10.1109/TIT.2009.2032816 [83] WANG,W.、WAINWRIGHT,M.J.和RAMCHANDRAN,K.(2010年)。稀疏信号恢复的信息理论限制:密集与稀疏测量矩阵。IEEE传输。Inf.理论56 2967-2979. ·Zbl 1366.94130号 ·doi:10.1109/TIT.2010.2046199 [84] Wasserman,L.和Roeder,K.(2009年)。高维变量选择。安。统计师。37 2178-2201. ·Zbl 1173.62054号 ·doi:10.1214/08-AOS646 [85] Wu,C.F.J.(1983年)。关于EM算法的收敛性。安。统计师。11 95-103. ·Zbl 0517.62035号 ·doi:10.1214/aos/1176346060 [86] WU,Y.和ZHOU,H.H.(2019)。两分量高斯混合随机初始化EM算法在\[\sqrt{n}\]迭代中达到了近似最优。预印本。可在arXiv:1908.10935购买·Zbl 1493.62350号 [87] Xu,J.、Hsu,D.J.和Maleki,A.(2016)。两高斯混合期望最大化的全局分析。在神经信息处理系统研究进展2676-2684. [88] XU,J.、HSU,D.J.和MALEKI,A.(2018年)。EM.In参数化的优点神经信息处理系统研究进展10662-10672. [89] YAN,J.、CHO,M.、ZHA,H.、YANG,X.和CHU,S.M.(2015)。通过具有分级一致性正则化的亲和优化进行多粒度匹配。IEEE传输。模式分析。机器。智力。38 1228-1242. [90] Yun,S.-Y.和Proutiere,A.(2014)。通过谱算法在随机块模型中精确检测社区。预印。可从arXiv:1412.7335获得。 [91] Zhang,A.Y.和Zhou,H.H.(2016)。随机块模型中社区检测的最小最大速率。安。统计师。44 2252-2280. ·Zbl 1355.60125号 ·doi:10.1214/15-OS1428 [92] Zhang,A.Y.和Zhou,H.H.(2020)。群落检测中平均场变分推断的理论和计算保证。安。统计师。48 2575-2598. ·Zbl 1462.62221号 ·doi:10.1214/19-AOS1898 [93] Zhao,P.和Yu,B.(2006)。关于拉索模型选择的一致性。J.马赫。学习。物件。7 2541-2563. ·Zbl 1222.62008年 [94] Zhong,Y.和Boumal,N.(2018)。相位同步的近最优界。SIAM J.Optim公司。28 989-1016. ·Zbl 1396.90068号 ·doi:10.1137/17M1122025 [95] ZHOU,X.、ZHU,M.和DANILIDIS,K.(2015)。通过快速交替最小化进行多图像匹配。在IEEE计算机视觉国际会议记录4032-4040 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。