×

离散结构恢复的迭代算法。 (英语) Zbl 1486.62058号

摘要:我们提出了一个通用的离散结构恢复建模和算法框架,可应用于广泛的问题。在这个框架下,我们能够从统一的角度研究聚类标签、参与者等级、回归系数符号、循环移位甚至组元素的恢复。提出了一种简单的离散结构恢复迭代算法,它推广了Lloyd算法和幂函数法。本文在随机误差和初始化的适当抽象条件下,建立了该算法的线性收敛结果。我们通过将其应用于几个典型问题来说明我们的一般理论:(1)高斯混合模型中的聚类,(2)近似排序,(3)压缩感知中的符号恢复,(4)多参考对准和(5)组同步,并表明在每种情况下都达到了最小最大速率。

MSC公司:

62F07型 统计排名和选择程序
62J05型 线性回归;混合模型
62H30型 分类和区分;聚类分析(统计方面)
94甲12 信号理论(表征、重建、滤波等)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abbe,E.、Bandeira,A.S.和Hall,G.(2016)。随机块模型中的精确恢复。IEEE传输。Inf.理论62 471-487. ·Zbl 1359.94047号 ·doi:10.1109/TIT.2015.2490670
[2] ABBE,E.,BENDORY,T.,LEEB,W.,PEREIRA,J.M.,SHARON,N.和SINGER,A.(2019年)。非周期平移分布更容易实现多参考对准。IEEE传输。Inf.理论65 3565-3584. ·Zbl 1432.94018号 ·doi:10.1109/TIT.2018.2889674
[3] Abbe,E.、Fan,J.、Wang,K.和Zhong,Y.(2020年)。低期望秩随机矩阵的条目特征向量分析。安。统计师。48 1452-1474. ·Zbl 1450.62066号 ·doi:10.1214/19-AOS1854
[4] ABBE,E.,MASSOULI,L.,MONTANARI,A.,SLY,A.和SRIVASTAVA,N.(2018年)。网格上的组同步。数学。统计学习。1 227-256. ·Zbl 1426.62165号 ·doi:10.4171/msl/6个
[5] AERON,S.、SALIGRAMA,V.和ZHAO,M.(2010)。压缩感知的信息理论界限。IEEE传输。Inf.理论56 5111-5130. ·兹比尔1366.94179 ·doi:10.10109/TIT.2010.2059891
[6] AGUERREBERE,C.、DELBRACIO,M.、BARTESAGHI,A.和SAPIRO,G.(2016)。多图像对齐的基本限制。IEEE传输。信号处理。64 5707-5722. ·Zbl 1414.94008号 ·doi:10.1109/TSP.2016.2600517
[7] ALOISE,D.、DESHPANDE,A.、HANSEN,P.和POPAT,P.(2009年)。欧几里德平方和聚类的NP-hardness。机器。学习。75 245-248. ·Zbl 1378.68047号
[8] ARTHUR,D.和VASSILVITSKII,S.(2007)\(k)-表示++:仔细播种的优点。第十八届ACM-SIAM离散算法年会论文集1027-1035. 纽约ACM·Zbl 1302.68273号
[9] AWASTHI,P.和SHEFFET,O.(2012年)。改进了聚类的光谱形式界限近似、随机化和组合优化.计算机科学课堂讲稿7408 37-49. 海德堡施普林格·Zbl 1358.68220号 ·doi:10.1007/978-3642-32512-04
[10] BAGARIA,V.、DING,J.、TSE,D.、WU,Y.和XU,J.(2020年)。基于线性规划的隐哈密顿循环恢复。操作。物件。68 53-70. ·Zbl 1445.90007号 ·doi:10.1287/opre.2019.1886
[11] Balakrishnan,S.、Wainwright,M.J.和Yu,B.(2017年)。EM算法的统计保证:从人口到基于样本的分析。安。统计师。45 77-120. ·Zbl 1367.62052号 ·doi:10.1214/16-AOS1435
[12] BANDEIRA,A.S.、BOUMAL,N.和SINGER,A.(2017)。角同步最大似然半定松弛的紧性。数学。程序。163 145-167. ·Zbl 1365.90188号 ·doi:10.1007/s10107-016-1059-6
[13] BANDEIRA,A.S.、CHARIKAR,M.、SINGER,A.和ZHU,A.(2014)。使用半定规划的多参考对准。ITCS公司14-会议记录2014计算机理论科学创新会议459-470之间。纽约ACM·Zbl 1364.94108号
[14] BANDEIRA,A.S.、NILES-WEED,J.和RIGOLLET,P.(2019年)。多参考对准的最佳估计速率。数学。统计学习。2 25-75. ·Zbl 1437.62227号 ·doi:10.4171/msl/11
[15] Bellec,P.C.、Lecué,G.和Tsybakov,A.B.(2018年)。斜率符合拉索:改进了预言界和优化。安。统计师。46 3603-3642. ·Zbl 1405.62056号 ·doi:10.1214/17-AOS1670
[16] BENDORY,T.、BOUMAL,N.、MA,C.、ZHAO,Z.和SINGER,A.(2018年)。双谱反演及其在多参考对准中的应用。IEEE传输。信号处理。66 1037-1050. ·Zbl 1414.94066号 ·doi:10.1109/TSP.2017.2775591
[17] Blumensath,T.和Davies,M.E.(2009年)。压缩感知的迭代硬阈值。申请。计算。哈蒙。分析。27 265-274. ·Zbl 1174.94008号 ·doi:10.1016/j.acha.2009.04.002
[18] Bogdan,M.、van den Berg,E.、Sabatti,C.、Su,W.和Candès,E.J.(2015)。SLOPE——通过凸优化进行自适应变量选择。附录申请。斯达。9 1103-1140. ·Zbl 1454.62212号 ·doi:10.1214/15-AOAS842
[19] Bradley,R.A.和Terry,M.E.(1952年)。不完全块设计的秩分析。一、配对比较法。生物特征39 324-345. ·Zbl 0047.12903号 ·doi:10.2307/2334029
[20] BRAVERMAN,M.和MOSSEL,E.(2008年)。无需重新采样的噪音排序。第十九届ACM-SIAM离散算法年会论文集268-276. 纽约ACM·Zbl 1192.94077号
[21] BRODER,A.Z.、FRIEZE,A.M.和SHAMIR,E.(1994年)。寻找隐藏的哈密顿圈。随机结构算法5 395-410. ·Zbl 0809.05064号 ·doi:10.1002/rsa.3240050303
[22] BUTUCEA,C.、NDAOUD,M.、STEPANOVA,N.A.和TSYBAKOV,A.B.(2018年)。具有Hamming损失的变量选择。安。统计师。46 1837-1875年·Zbl 1414.62126号 ·doi:10.1214/17-AOS1572
[23] Chen,Y.和Candès,E.J.(2018)。投影功率法:一种有效的两两差异联合对准算法。普通纯应用程序。数学。71 1648-1714. ·Zbl 1480.90199号 ·doi:10.1002/cpa.21760
[24] CHEN,Y.、GUIBAS,L.J.和HUANG,Q.-X.(2014)。基于凸松弛的近最优关节对象匹配。预印本。可在arXiv:1402.1473获得。
[25] COLLIER,O.和DALALYAN,A.S.(2016)。特征匹配置换估计中的最小最大速率。J.马赫。学习。物件。17第6号论文,31页·Zbl 1360.62262号
[26] CONTE,D.、FOGGIA,P.、SANSONE,C.和VENTO,M.(2004)。模式识别中的图形匹配三十年。国际J模式识别。Artif公司。智力。18 265-298.
[27] DASGUPTA,S.(2008)。k-均值聚类的硬度加利福尼亚大学计算机科学与工程系。
[28] DASKALAKIS,C.、TZAMOS,C.和ZAMPETAKIS,M.(2016)。EM的十个步骤足以处理两个高斯函数的混合物。预印。可从arXiv:1609.00368获取。
[29] DAWID,A.P.和SKENE,A.M.(1979年)。使用em算法对观测器错误率进行最大似然估计。J.R.统计社会服务。C.申请。斯达。28 20-28.
[30] Dempster,A.P.、Laird,N.M.和Rubin,D.B.(1977年)。通过EM算法从不完整数据中获得最大似然。J.罗伊。统计师。Soc.序列号。B类39 1-38. ·兹比尔0364.62022
[31] DERUMIGNY,A.(2018)。改进了方形套索和方形斜率的界限。电子。J.统计。12 741-766. ·Zbl 1473.62132号 ·doi:10.1214/18-EJS1410
[32] 丁J.、马Z.、吴Y.和徐J.(2021)。通过度剖面进行有效的随机图匹配。普罗巴伯。理论相关领域179 29-115页·兹比尔1460.05171 ·doi:10.1007/s00440-020-00997-4
[33] DWIVEDI,R.、HO,N.、KHAMARU,K.、WAINWRIGHT,M.J.、JORDAN,M.I.和YU,B.(2020年)。奇异性、指定错误和EM的收敛速度。安。统计师。48 3161-3182. ·Zbl 1462.62382号 ·doi:10.1214/19-AOS1924
[34] FEI,Y.和CHEN,Y.(2019年)。块模型SDP的指数误差率:超越Grothendieck不等式。IEEE传输。Inf.理论65 551-571. ·Zbl 1432.90102号 ·doi:10.1109/TIT.2018.2839677
[35] FEI,Y.和CHEN,Y.(2020年)。利用SDP稳健地实现同步和块模型中的Bayes错误率。IEEE传输。Inf.理论66 3929-3953. ·Zbl 1448.90071号 ·doi:10.1109/TIT.2020.2966438
[36] FLETCHER,A.K.、RANGAN,S.和GOYAL,V.K.(2009年)。稀疏模式恢复的充要条件。IEEE传输。Inf.理论55 5758-5772. ·Zbl 1367.94090号 ·doi:10.1109/TIT.2009.2032726
[37] FOUCART,S.(2011年)。硬阈值追踪:一种压缩感知算法。SIAM J.数字。分析。49 2543-2563. ·Zbl 1242.65060号 ·数字对象标识代码:10.1137/100806278
[38] FRANK,J.(2006)。大分子组装体的三维电子显微镜:自然状态下生物分子的可视化。牛津大学出版社,伦敦。
[39] FRIEDRICH,F.、KEMPE,A.、LIEBSCHER,V.和WINKLER,G.(2008)。复杂性惩罚\(M\)-估计:快速计算。J.计算。图表。统计师。17 201-224. ·doi:10.1198/106186008X285591
[40] GAO,C.(2017)。近似排序中的相变。预印本。可在arXiv:17111189上获取。
[41] GAO,C.、LU,Y.和ZHOU,D.(2016)。众包最佳费率的精确指数。机器学习国际会议603-611.
[42] GAO,C.和MA,Z.(2021年)。网络分析中的最小最大速率:Graphon估计、社区检测和假设检验。统计师。科学。36 16-33. ·Zbl 07368217号 ·doi:10.1214/19-STS736
[43] GAO,C.,MA,Z.,ZHANG,A.Y.和ZHOU,H.H.(2017)。在随机块模型中实现最佳误分类比例。J.马赫。学习。物件。18第60号论文,45页·Zbl 1440.62244号
[44] Gao,C.,Ma,Z.,Zhang,A.Y.和Zhou,H.H.(2018)。度校正块模型中的社区检测。安。统计师。46 2153-2185. ·Zbl 1408.62116号 ·doi:10.1214/17-AOS1615
[45] Gao,C.、van der Vaart,A.W.和Zhou,H.H.(2020年)。贝叶斯结构线性模型的一般框架。安。统计师。48 2848-2878. ·Zbl 1471.62241号 ·doi:10.1214/19-AOS1909
[46] GAO,C.和ZHANG,A.Y.(2022)。补充“离散结构恢复的迭代算法”https://doi.org/10.1214/21-AOS2140SUPP网站
[47] Giraud,C.和Verzelen,N.(2018年)。使用放松的\(K\)-均值聚类的部分恢复边界。数学。统计学习。1 317-374. ·Zbl 1426.62186号
[48] Girvan,M.和Newman,M.E.J.(2002)。社会和生物网络中的社区结构。程序。国家。阿卡德。科学。美国99 7821-7826. ·Zbl 1032.91716号 ·doi:10.1073/美国国家统计局.122653799
[49] Hajek,B.、Wu,Y.和Xu,J.(2016)。通过半定规划实现精确的集群恢复阈值。IEEE传输。Inf.理论62 2788-2797. ·Zbl 1359.94222号 ·doi:10.1109/TIT.2016.2546280
[50] Hajek,B.、Wu,Y.和Xu,J.(2016)。通过半定编程实现精确的集群恢复阈值:扩展。IEEE传输。Inf.理论62 5918-5937. ·兹比尔1359.94951 ·doi:10.1009/TIT.2016.2594812
[51] Hartigan,J.A.(1975年)。聚类算法.概率与数理统计中的威利级数纽约威利·Zbl 0372.62040号
[52] JI,P.和JIN,J.(2012)。UPS在高维变量选择中提供最佳相图。安。统计师。40 73-103. ·Zbl 1246.62160号 ·doi:10.1214/11-AOS947
[53] KANUNGO,T.、MOUNT,D.M.、NETANYAHU,N.S.、PIATKO,C.D.、SILVERMAN,R.和WU,A.Y.(2004)。用于(k)-均值聚类的局部搜索近似算法。计算。地理。28 89-112. ·Zbl 1077.68109号 ·doi:10.1016/j.comgeo.2004.03.003
[54] Kumar,A.和Kannan,R.(2010年)。谱范数聚类和(k)-均值算法。2010年电气与电子工程师协会51第届计算机科学基础年会2010 299-308. IEEE计算机协会,加利福尼亚州洛斯阿拉米托斯。
[55] KUMAR,A.、SABHARWAL,Y.和SEN,S.(2004)。(k)的简单线性时间近似算法意味着在任何维度上进行聚类。计算机科学基础年会45 454-462. IEEE计算机学会出版社。
[56] LERMAN,G.和SHI,Y.(2019年)。通过循环边消息传递实现强大的组同步。预印本。可在arXiv:1912.11347获得。
[57] LESKOVEC,J.、LANG,K.J.和MAHONEY,M.(2010)。网络社区检测算法的实证比较。会议记录19第十届万维网国际会议631-640. 纽约ACM。
[58] LING,S.(2020)。通过凸优化和低阶优化解决正交组同步:紧密性和横向分析。预印本。arXiv:2006.00902提供。
[59] LING,S.(2020年)。通过谱方法实现正交和置换群同步的近最优性能界。预印本。可从arXiv:2008.05341获取。
[60] Lloyd,S.P.(1982)。PCM中的最小二乘量化。IEEE传输。Inf.理论28 129-137·Zbl 0504.94015号 ·doi:10.1109/TIT.1982.1056489
[61] LOUNICI,K.(2008年)。Lasso和Dantzig估计的超形式收敛速度和符号集中性质。电子。J.统计。2 90-102. ·Zbl 1306.62155号 ·doi:10.1214/08-EJS177
[62] LU,Y.和ZHOU,H.H.(2016)。劳埃德算法及其变体的统计和计算保证。预印。arXiv:1612.02099提供。
[63] LUCE,R.D.(2012)。个人选择行为:理论分析纽约威利。
[64] MAHAJAN,M.、NIMBHORKAR,P.和VARADARAJAN,K.(2012年)。平面(k)-均值问题是NP-hard。理论。计算。科学。442 13-21. ·Zbl 1260.68158号 ·doi:10.1016/j.tcs.2010.05.034
[65] MAO,C.、WEED,J.和RIGOLLET,P.(2018年)。噪声排序的最小最大速率和高效算法。算法学习理论/会议录2018程序。机器。学习。雷斯. (PMLR公司) 83 27. 机器学习研究论文集PMLR·Zbl 1407.62066号
[66] Meinshausen,N.和Bühlmann,P.(2006)。高维图和用套索选择变量。安。统计师。34 1436-1462. ·Zbl 1113.62082号 ·doi:10.1214/0090536000000281
[67] Montanari,A.和Sen,S.(2016)。稀疏随机图上的半定规划及其在社区检测中的应用。STOC公司16-会议记录48第届ACM SIGACT计算机理论年会814-827. 纽约ACM·Zbl 1376.90043号 ·doi:10.1145/2897518.2897548
[68] MONTEILLER,P.、CLAICI,S.、CHIEN,E.、MIRZAZADEH,F.、SOLOMON,J.M.和YUROCHKIN,M.(2019年)。通过优化运输缓解标签切换。神经信息处理系统研究进展13634-13644.
[69] Mossel,E.、Neeman,J.和Sly,A.(2014)。二进制对称块模型的一致性阈值。预打印。可从arXiv:1407.1591获取·Zbl 1321.05242号
[70] MOSSEL,E.、NEEMAN,J.和SLY,A.(2018年)。块模型阈值猜想的证明。组合型38 665-708. ·Zbl 1424.05272号 ·doi:10.1007/s00493-016-3238-8
[71] 恩达乌德,M.(2018)。两高斯混合模型中的尖锐最优恢复。预印本。可从arXiv:1812.08078获得。
[72] NDAOUD,M.和TSYBAKOV,A.B.(2020年)。最佳变量选择和自适应噪声压缩传感。IEEE传输。Inf.理论66 2517-2532. ·Zbl 1448.94081号 ·doi:10.1109/TIT.2020.2965738
[73] PACHAURI,D.、KONDOR,R.和SINGH,V.(2013年)。通过置换同步解决多路匹配问题。神经信息处理系统研究进展1860-1868.
[74] PANANJADY,A.、WAINWRIGHT,M.J.和COURTADE,T.A.(2018年)。洗牌数据线性回归:置换恢复的统计和计算极限。IEEE传输。Inf.理论64 3286-3300. ·Zbl 1395.62204号 ·doi:10.1109/TIT.2017.2776217
[75] PERRY,A.、WEED,J.、BANDEIRA,A.S.、RIGOLLET,P.和SINGER,A.(2019年)。多参考比对的样本复杂性。SIAM J.数学。数据科学。1 497-517. ·兹比尔1499.92047 ·doi:10.1137/18M1214317
[76] PERRY,A.、WEIN,A.S.、BANDEIRA,A.S.和MOITRA,A.(2016)。脉冲随机矩阵和同步的主成分分析的最优性和次最优性。预印。可从arXiv:1609.05573获取·Zbl 1404.62065号
[77] RAD,K.R.(2011)。精确稀疏模式恢复的几乎尖锐充分条件。IEEE传输。Inf.理论57 4672-4679. ·Zbl 1365.62203号 ·doi:10.1109/TIT.2011.2145670
[78] SALIGRAMA,V.和ZHAO,M.(2011)。阈值基追踪:用于从噪声随机测量中恢复稀疏和近似稀疏信号的有序最优支持的LP算法。IEEE传输。Inf.理论57 1567-1586页·Zbl 1366.94124号 ·doi:10.1109/TIT.2011.2104512
[79] SIGWORTH,F.J.(1998)。单粒子图像细化的最大似然方法。J.结构。生物。122 328-339.
[80] Singer,A.(2011年)。通过特征向量和半定规划实现角度同步。申请。计算。哈蒙。分析。30 20-36之间·Zbl 1206.90116号 ·doi:10.1016/j.acha.2010.02.001
[81] SU,W.和CANDÈS,E.(2016)。SLOPE对未知稀疏性和渐近极小值具有自适应性。安。统计师。44 1038-1068. ·Zbl 1338.62032号 ·doi:10.1214/15-OS1397
[82] Wainwright,M.J.(2009)。高维和噪声环境中稀疏恢复的信息理论限制。IEEE传输。Inf.理论55 5728-5741. ·Zbl 1367.94106号 ·doi:10.1109/TIT.2009.2032816
[83] WANG,W.、WAINWRIGHT,M.J.和RAMCHANDRAN,K.(2010年)。稀疏信号恢复的信息理论限制:密集与稀疏测量矩阵。IEEE传输。Inf.理论56 2967-2979. ·Zbl 1366.94130号 ·doi:10.1109/TIT.2010.2046199
[84] Wasserman,L.和Roeder,K.(2009年)。高维变量选择。安。统计师。37 2178-2201. ·Zbl 1173.62054号 ·doi:10.1214/08-AOS646
[85] Wu,C.F.J.(1983年)。关于EM算法的收敛性。安。统计师。11 95-103. ·Zbl 0517.62035号 ·doi:10.1214/aos/1176346060
[86] WU,Y.和ZHOU,H.H.(2019)。两分量高斯混合随机初始化EM算法在\[\sqrt{n}\]迭代中达到了近似最优。预印本。可在arXiv:1908.10935购买·Zbl 1493.62350号
[87] Xu,J.、Hsu,D.J.和Maleki,A.(2016)。两高斯混合期望最大化的全局分析。神经信息处理系统研究进展2676-2684.
[88] XU,J.、HSU,D.J.和MALEKI,A.(2018年)。EM.In参数化的优点神经信息处理系统研究进展10662-10672.
[89] YAN,J.、CHO,M.、ZHA,H.、YANG,X.和CHU,S.M.(2015)。通过具有分级一致性正则化的亲和优化进行多粒度匹配。IEEE传输。模式分析。机器。智力。38 1228-1242.
[90] Yun,S.-Y.和Proutiere,A.(2014)。通过谱算法在随机块模型中精确检测社区。预印。可从arXiv:1412.7335获得。
[91] Zhang,A.Y.和Zhou,H.H.(2016)。随机块模型中社区检测的最小最大速率。安。统计师。44 2252-2280. ·Zbl 1355.60125号 ·doi:10.1214/15-OS1428
[92] Zhang,A.Y.和Zhou,H.H.(2020)。群落检测中平均场变分推断的理论和计算保证。安。统计师。48 2575-2598. ·Zbl 1462.62221号 ·doi:10.1214/19-AOS1898
[93] Zhao,P.和Yu,B.(2006)。关于拉索模型选择的一致性。J.马赫。学习。物件。7 2541-2563. ·Zbl 1222.62008年
[94] Zhong,Y.和Boumal,N.(2018)。相位同步的近最优界。SIAM J.Optim公司。28 989-1016. ·Zbl 1396.90068号 ·doi:10.1137/17M1122025
[95] ZHOU,X.、ZHU,M.和DANILIDIS,K.(2015)。通过快速交替最小化进行多图像匹配。IEEE计算机视觉国际会议记录4032-4040
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。