文件Zbl 1486.62058-zbMATH Open

离散结构恢复的迭代算法。（英语） Zbl 1486.62058号

Ann.统计。 50，编号2，1066-1094（2022）.

摘要：我们提出了一个通用的离散结构恢复建模和算法框架，可应用于广泛的问题。在这个框架下，我们能够从统一的角度研究聚类标签、参与者等级、回归系数符号、循环移位甚至组元素的恢复。提出了一种简单的离散结构恢复迭代算法，它推广了Lloyd算法和幂函数法。本文在随机误差和初始化的适当抽象条件下，建立了该算法的线性收敛结果。我们通过将其应用于几个典型问题来说明我们的一般理论：（1）高斯混合模型中的聚类，（2）近似排序，（3）压缩感知中的符号恢复，（4）多参考对准和（5）组同步，并表明在每种情况下都达到了最小最大速率。

引用于三文件

MSC公司：

62F07型	统计排名和选择程序
62J05型	线性回归；混合模型
62H30型	分类和区分；聚类分析（统计方面）
94甲12	信号理论（表征、重建、滤波等）

关键词：

近似排序;组同步;高维统计;k-means聚类;多参考对准

PDF格式 BibTeX公司 XML格式引用

全文： DOI程序 arXiv公司

参考文献：

[1]	Abbe，E.、Bandeira，A.S.和Hall，G.（2016）。随机块模型中的精确恢复。IEEE传输。Inf.理论62 471-487. ·Zbl 1359.94047号 ·doi:10.1109/TIT.2015.2490670
[2]	ABBE，E.，BENDORY，T.，LEEB，W.，PEREIRA，J.M.，SHARON，N.和SINGER，A.（2019年）。非周期平移分布更容易实现多参考对准。IEEE传输。Inf.理论65 3565-3584. ·Zbl 1432.94018号 ·doi:10.1109/TIT.2018.2889674
[3]	Abbe，E.、Fan，J.、Wang，K.和Zhong，Y.（2020年）。低期望秩随机矩阵的条目特征向量分析。安。统计师。48 1452-1474. ·Zbl 1450.62066号 ·doi:10.1214/19-AOS1854
[4]	ABBE，E.，MASSOULI，L.，MONTANARI，A.，SLY，A.和SRIVASTAVA，N.（2018年）。网格上的组同步。数学。统计学习。1 227-256. ·Zbl 1426.62165号 ·doi:10.4171/msl/6个
[5]	AERON，S.、SALIGRAMA，V.和ZHAO，M.（2010）。压缩感知的信息理论界限。IEEE传输。Inf.理论56 5111-5130. ·兹比尔1366.94179 ·doi:10.10109/TIT.2010.2059891
[6]	AGUERREBERE，C.、DELBRACIO，M.、BARTESAGHI，A.和SAPIRO，G.（2016）。多图像对齐的基本限制。IEEE传输。信号处理。64 5707-5722. ·Zbl 1414.94008号 ·doi:10.1109/TSP.2016.2600517
[7]	ALOISE，D.、DESHPANDE，A.、HANSEN，P.和POPAT，P.（2009年）。欧几里德平方和聚类的NP-hardness。机器。学习。75 245-248. ·Zbl 1378.68047号
[8]	ARTHUR，D.和VASSILVITSKII，S.（2007）\（k）-表示++：仔细播种的优点。在第十八届ACM-SIAM离散算法年会论文集1027-1035. 纽约ACM·Zbl 1302.68273号
[9]	AWASTHI，P.和SHEFFET，O.（2012年）。改进了聚类的光谱形式界限近似、随机化和组合优化.计算机科学课堂讲稿7408 37-49. 海德堡施普林格·Zbl 1358.68220号 ·doi:10.1007/978-3642-32512-04
[10]	BAGARIA，V.、DING，J.、TSE，D.、WU，Y.和XU，J.（2020年）。基于线性规划的隐哈密顿循环恢复。操作。物件。68 53-70. ·Zbl 1445.90007号 ·doi:10.1287/opre.2019.1886
[11]	Balakrishnan，S.、Wainwright，M.J.和Yu，B.（2017年）。EM算法的统计保证：从人口到基于样本的分析。安。统计师。45 77-120. ·Zbl 1367.62052号 ·doi:10.1214/16-AOS1435
[12]	BANDEIRA，A.S.、BOUMAL，N.和SINGER，A.（2017）。角同步最大似然半定松弛的紧性。数学。程序。163 145-167. ·Zbl 1365.90188号 ·doi:10.1007/s10107-016-1059-6
[13]	BANDEIRA，A.S.、CHARIKAR，M.、SINGER，A.和ZHU，A.（2014）。使用半定规划的多参考对准。在ITCS公司14-会议记录2014计算机理论科学创新会议459-470之间。纽约ACM·Zbl 1364.94108号
[14]	BANDEIRA，A.S.、NILES-WEED，J.和RIGOLLET，P.（2019年）。多参考对准的最佳估计速率。数学。统计学习。2 25-75. ·Zbl 1437.62227号 ·doi:10.4171/msl/11
[15]	Bellec，P.C.、Lecué，G.和Tsybakov，A.B.（2018年）。斜率符合拉索：改进了预言界和优化。安。统计师。46 3603-3642. ·Zbl 1405.62056号 ·doi:10.1214/17-AOS1670
[16]	BENDORY，T.、BOUMAL，N.、MA，C.、ZHAO，Z.和SINGER，A.（2018年）。双谱反演及其在多参考对准中的应用。IEEE传输。信号处理。66 1037-1050. ·Zbl 1414.94066号 ·doi:10.1109/TSP.2017.2775591
[17]	Blumensath，T.和Davies，M.E.（2009年）。压缩感知的迭代硬阈值。申请。计算。哈蒙。分析。27 265-274. ·Zbl 1174.94008号 ·doi:10.1016/j.acha.2009.04.002
[18]	Bogdan，M.、van den Berg，E.、Sabatti，C.、Su，W.和Candès，E.J.（2015）。SLOPE——通过凸优化进行自适应变量选择。附录申请。斯达。9 1103-1140. ·Zbl 1454.62212号 ·doi:10.1214/15-AOAS842
[19]	Bradley，R.A.和Terry，M.E.（1952年）。不完全块设计的秩分析。一、配对比较法。生物特征39 324-345. ·Zbl 0047.12903号 ·doi:10.2307/2334029
[20]	BRAVERMAN，M.和MOSSEL，E.（2008年）。无需重新采样的噪音排序。在第十九届ACM-SIAM离散算法年会论文集268-276. 纽约ACM·Zbl 1192.94077号
[21]	BRODER，A.Z.、FRIEZE，A.M.和SHAMIR，E.（1994年）。寻找隐藏的哈密顿圈。随机结构算法5 395-410. ·Zbl 0809.05064号 ·doi:10.1002/rsa.3240050303
[22]	BUTUCEA，C.、NDAOUD，M.、STEPANOVA，N.A.和TSYBAKOV，A.B.（2018年）。具有Hamming损失的变量选择。安。统计师。46 1837-1875年·Zbl 1414.62126号 ·doi:10.1214/17-AOS1572
[23]	Chen，Y.和Candès，E.J.（2018）。投影功率法：一种有效的两两差异联合对准算法。普通纯应用程序。数学。71 1648-1714. ·Zbl 1480.90199号 ·doi:10.1002/cpa.21760
[24]	CHEN，Y.、GUIBAS，L.J.和HUANG，Q.-X.（2014）。基于凸松弛的近最优关节对象匹配。预印本。可在arXiv:1402.1473获得。
[25]	COLLIER，O.和DALALYAN，A.S.（2016）。特征匹配置换估计中的最小最大速率。J.马赫。学习。物件。17第6号论文，31页·Zbl 1360.62262号
[26]	CONTE，D.、FOGGIA，P.、SANSONE，C.和VENTO，M.（2004）。模式识别中的图形匹配三十年。国际J模式识别。Artif公司。智力。18 265-298.
[27]	DASGUPTA，S.（2008）。k-均值聚类的硬度加利福尼亚大学计算机科学与工程系。
[28]	DASKALAKIS，C.、TZAMOS，C.和ZAMPETAKIS，M.（2016）。EM的十个步骤足以处理两个高斯函数的混合物。预印。可从arXiv:1609.00368获取。
[29]	DAWID，A.P.和SKENE，A.M.（1979年）。使用em算法对观测器错误率进行最大似然估计。J.R.统计社会服务。C.申请。斯达。28 20-28.
[30]	Dempster，A.P.、Laird，N.M.和Rubin，D.B.（1977年）。通过EM算法从不完整数据中获得最大似然。J.罗伊。统计师。Soc.序列号。B类39 1-38. ·兹比尔0364.62022
[31]	DERUMIGNY，A.（2018）。改进了方形套索和方形斜率的界限。电子。J.统计。12 741-766. ·Zbl 1473.62132号 ·doi:10.1214/18-EJS1410
[32]	丁J.、马Z.、吴Y.和徐J.（2021）。通过度剖面进行有效的随机图匹配。普罗巴伯。理论相关领域179 29-115页·兹比尔1460.05171 ·doi:10.1007/s00440-020-00997-4
[33]	DWIVEDI，R.、HO，N.、KHAMARU，K.、WAINWRIGHT，M.J.、JORDAN，M.I.和YU，B.（2020年）。奇异性、指定错误和EM的收敛速度。安。统计师。48 3161-3182. ·Zbl 1462.62382号 ·doi:10.1214/19-AOS1924
[34]	FEI，Y.和CHEN，Y.（2019年）。块模型SDP的指数误差率：超越Grothendieck不等式。IEEE传输。Inf.理论65 551-571. ·Zbl 1432.90102号 ·doi:10.1109/TIT.2018.2839677
[35]	FEI，Y.和CHEN，Y.（2020年）。利用SDP稳健地实现同步和块模型中的Bayes错误率。IEEE传输。Inf.理论66 3929-3953. ·Zbl 1448.90071号 ·doi:10.1109/TIT.2020.2966438
[36]	FLETCHER，A.K.、RANGAN，S.和GOYAL，V.K.（2009年）。稀疏模式恢复的充要条件。IEEE传输。Inf.理论55 5758-5772. ·Zbl 1367.94090号 ·doi:10.1109/TIT.2009.2032726
[37]	FOUCART，S.（2011年）。硬阈值追踪：一种压缩感知算法。SIAM J.数字。分析。49 2543-2563. ·Zbl 1242.65060号 ·数字对象标识代码：10.1137/100806278
[38]	FRANK，J.（2006）。大分子组装体的三维电子显微镜:自然状态下生物分子的可视化。牛津大学出版社，伦敦。
[39]	FRIEDRICH，F.、KEMPE，A.、LIEBSCHER，V.和WINKLER，G.（2008）。复杂性惩罚\（M\）-估计：快速计算。J.计算。图表。统计师。17 201-224. ·doi:10.1198/106186008X285591
[40]	GAO，C.（2017）。近似排序中的相变。预印本。可在arXiv:17111189上获取。
[41]	GAO，C.、LU，Y.和ZHOU，D.（2016）。众包最佳费率的精确指数。在机器学习国际会议603-611.
[42]	GAO，C.和MA，Z.（2021年）。网络分析中的最小最大速率：Graphon估计、社区检测和假设检验。统计师。科学。36 16-33. ·Zbl 07368217号 ·doi:10.1214/19-STS736
[43]	GAO，C.，MA，Z.，ZHANG，A.Y.和ZHOU，H.H.（2017）。在随机块模型中实现最佳误分类比例。J.马赫。学习。物件。18第60号论文，45页·Zbl 1440.62244号
[44]	Gao，C.，Ma，Z.，Zhang，A.Y.和Zhou，H.H.（2018）。度校正块模型中的社区检测。安。统计师。46 2153-2185. ·Zbl 1408.62116号 ·doi:10.1214/17-AOS1615
[45]	Gao，C.、van der Vaart，A.W.和Zhou，H.H.（2020年）。贝叶斯结构线性模型的一般框架。安。统计师。48 2848-2878. ·Zbl 1471.62241号 ·doi:10.1214/19-AOS1909
[46]	GAO，C.和ZHANG，A.Y.（2022）。补充“离散结构恢复的迭代算法”https://doi.org/10.1214/21-AOS2140SUPP网站
[47]	Giraud，C.和Verzelen，N.（2018年）。使用放松的\（K\）-均值聚类的部分恢复边界。数学。统计学习。1 317-374. ·Zbl 1426.62186号
[48]	Girvan，M.和Newman，M.E.J.（2002）。社会和生物网络中的社区结构。程序。国家。阿卡德。科学。美国99 7821-7826. ·Zbl 1032.91716号 ·doi:10.1073/美国国家统计局.122653799
[49]	Hajek，B.、Wu，Y.和Xu，J.（2016）。通过半定规划实现精确的集群恢复阈值。IEEE传输。Inf.理论62 2788-2797. ·Zbl 1359.94222号 ·doi:10.1109/TIT.2016.2546280
[50]	Hajek，B.、Wu，Y.和Xu，J.（2016）。通过半定编程实现精确的集群恢复阈值：扩展。IEEE传输。Inf.理论62 5918-5937. ·兹比尔1359.94951 ·doi:10.1009/TIT.2016.2594812
[51]	Hartigan，J.A.（1975年）。聚类算法.概率与数理统计中的威利级数纽约威利·Zbl 0372.62040号
[52]	JI，P.和JIN，J.（2012）。UPS在高维变量选择中提供最佳相图。安。统计师。40 73-103. ·Zbl 1246.62160号 ·doi:10.1214/11-AOS947
[53]	KANUNGO，T.、MOUNT，D.M.、NETANYAHU，N.S.、PIATKO，C.D.、SILVERMAN，R.和WU，A.Y.（2004）。用于（k）-均值聚类的局部搜索近似算法。计算。地理。28 89-112. ·Zbl 1077.68109号 ·doi:10.1016/j.comgeo.2004.03.003
[54]	Kumar，A.和Kannan，R.（2010年）。谱范数聚类和（k）-均值算法。2010年电气与电子工程师协会51第届计算机科学基础年会2010 299-308. IEEE计算机协会，加利福尼亚州洛斯阿拉米托斯。
[55]	KUMAR，A.、SABHARWAL，Y.和SEN，S.（2004）。（k）的简单线性时间近似算法意味着在任何维度上进行聚类。在计算机科学基础年会45 454-462. IEEE计算机学会出版社。
[56]	LERMAN，G.和SHI，Y.（2019年）。通过循环边消息传递实现强大的组同步。预印本。可在arXiv:1912.11347获得。
[57]	LESKOVEC，J.、LANG，K.J.和MAHONEY，M.（2010）。网络社区检测算法的实证比较。在会议记录19第十届万维网国际会议631-640. 纽约ACM。
[58]	LING，S.（2020）。通过凸优化和低阶优化解决正交组同步：紧密性和横向分析。预印本。arXiv:2006.00902提供。
[59]	LING，S.（2020年）。通过谱方法实现正交和置换群同步的近最优性能界。预印本。可从arXiv:2008.05341获取。
[60]	Lloyd，S.P.（1982）。PCM中的最小二乘量化。IEEE传输。Inf.理论28 129-137·Zbl 0504.94015号 ·doi:10.1109/TIT.1982.1056489
[61]	LOUNICI，K.（2008年）。Lasso和Dantzig估计的超形式收敛速度和符号集中性质。电子。J.统计。2 90-102. ·Zbl 1306.62155号 ·doi:10.1214/08-EJS177
[62]	LU，Y.和ZHOU，H.H.（2016）。劳埃德算法及其变体的统计和计算保证。预印。arXiv:1612.02099提供。
[63]	LUCE，R.D.（2012）。个人选择行为:理论分析纽约威利。
[64]	MAHAJAN，M.、NIMBHORKAR，P.和VARADARAJAN，K.（2012年）。平面（k）-均值问题是NP-hard。理论。计算。科学。442 13-21. ·Zbl 1260.68158号 ·doi:10.1016/j.tcs.2010.05.034
[65]	MAO，C.、WEED，J.和RIGOLLET，P.（2018年）。噪声排序的最小最大速率和高效算法。在算法学习理论/会议录2018程序。机器。学习。雷斯. (PMLR公司) 83 27. 机器学习研究论文集PMLR·Zbl 1407.62066号
[66]	Meinshausen，N.和Bühlmann，P.（2006）。高维图和用套索选择变量。安。统计师。34 1436-1462. ·Zbl 1113.62082号 ·doi:10.1214/0090536000000281
[67]	Montanari，A.和Sen，S.（2016）。稀疏随机图上的半定规划及其在社区检测中的应用。在STOC公司16-会议记录48第届ACM SIGACT计算机理论年会814-827. 纽约ACM·Zbl 1376.90043号 ·doi:10.1145/2897518.2897548
[68]	MONTEILLER，P.、CLAICI，S.、CHIEN，E.、MIRZAZADEH，F.、SOLOMON，J.M.和YUROCHKIN，M.（2019年）。通过优化运输缓解标签切换。在神经信息处理系统研究进展13634-13644.
[69]	Mossel，E.、Neeman，J.和Sly，A.（2014）。二进制对称块模型的一致性阈值。预打印。可从arXiv:1407.1591获取·Zbl 1321.05242号
[70]	MOSSEL，E.、NEEMAN，J.和SLY，A.（2018年）。块模型阈值猜想的证明。组合型38 665-708. ·Zbl 1424.05272号 ·doi:10.1007/s00493-016-3238-8
[71]	恩达乌德，M.（2018）。两高斯混合模型中的尖锐最优恢复。预印本。可从arXiv:1812.08078获得。
[72]	NDAOUD，M.和TSYBAKOV，A.B.（2020年）。最佳变量选择和自适应噪声压缩传感。IEEE传输。Inf.理论66 2517-2532. ·Zbl 1448.94081号 ·doi:10.1109/TIT.2020.2965738
[73]	PACHAURI，D.、KONDOR，R.和SINGH，V.（2013年）。通过置换同步解决多路匹配问题。在神经信息处理系统研究进展1860-1868.
[74]	PANANJADY，A.、WAINWRIGHT，M.J.和COURTADE，T.A.（2018年）。洗牌数据线性回归：置换恢复的统计和计算极限。IEEE传输。Inf.理论64 3286-3300. ·Zbl 1395.62204号 ·doi:10.1109/TIT.2017.2776217
[75]	PERRY，A.、WEED，J.、BANDEIRA，A.S.、RIGOLLET，P.和SINGER，A.（2019年）。多参考比对的样本复杂性。SIAM J.数学。数据科学。1 497-517. ·兹比尔1499.92047 ·doi:10.1137/18M1214317
[76]	PERRY，A.、WEIN，A.S.、BANDEIRA，A.S.和MOITRA，A.（2016）。脉冲随机矩阵和同步的主成分分析的最优性和次最优性。预印。可从arXiv:1609.05573获取·Zbl 1404.62065号
[77]	RAD，K.R.（2011）。精确稀疏模式恢复的几乎尖锐充分条件。IEEE传输。Inf.理论57 4672-4679. ·Zbl 1365.62203号 ·doi:10.1109/TIT.2011.2145670
[78]	SALIGRAMA，V.和ZHAO，M.（2011）。阈值基追踪：用于从噪声随机测量中恢复稀疏和近似稀疏信号的有序最优支持的LP算法。IEEE传输。Inf.理论57 1567-1586页·Zbl 1366.94124号 ·doi:10.1109/TIT.2011.2104512
[79]	SIGWORTH，F.J.（1998）。单粒子图像细化的最大似然方法。J.结构。生物。122 328-339.
[80]	Singer，A.（2011年）。通过特征向量和半定规划实现角度同步。申请。计算。哈蒙。分析。30 20-36之间·Zbl 1206.90116号 ·doi:10.1016/j.acha.2010.02.001
[81]	SU，W.和CANDÈS，E.（2016）。SLOPE对未知稀疏性和渐近极小值具有自适应性。安。统计师。44 1038-1068. ·Zbl 1338.62032号 ·doi:10.1214/15-OS1397
[82]	Wainwright，M.J.（2009）。高维和噪声环境中稀疏恢复的信息理论限制。IEEE传输。Inf.理论55 5728-5741. ·Zbl 1367.94106号 ·doi:10.1109/TIT.2009.2032816
[83]	WANG，W.、WAINWRIGHT，M.J.和RAMCHANDRAN，K.（2010年）。稀疏信号恢复的信息理论限制：密集与稀疏测量矩阵。IEEE传输。Inf.理论56 2967-2979. ·Zbl 1366.94130号 ·doi:10.1109/TIT.2010.2046199
[84]	Wasserman，L.和Roeder，K.（2009年）。高维变量选择。安。统计师。37 2178-2201. ·Zbl 1173.62054号 ·doi:10.1214/08-AOS646
[85]	Wu，C.F.J.（1983年）。关于EM算法的收敛性。安。统计师。11 95-103. ·Zbl 0517.62035号 ·doi:10.1214/aos/1176346060
[86]	WU，Y.和ZHOU，H.H.（2019）。两分量高斯混合随机初始化EM算法在\[\sqrt{n}\]迭代中达到了近似最优。预印本。可在arXiv:1908.10935购买·Zbl 1493.62350号
[87]	Xu，J.、Hsu，D.J.和Maleki，A.（2016）。两高斯混合期望最大化的全局分析。在神经信息处理系统研究进展2676-2684.
[88]	XU，J.、HSU，D.J.和MALEKI，A.（2018年）。EM.In参数化的优点神经信息处理系统研究进展10662-10672.
[89]	YAN，J.、CHO，M.、ZHA，H.、YANG，X.和CHU，S.M.（2015）。通过具有分级一致性正则化的亲和优化进行多粒度匹配。IEEE传输。模式分析。机器。智力。38 1228-1242.
[90]	Yun，S.-Y.和Proutiere，A.（2014）。通过谱算法在随机块模型中精确检测社区。预印。可从arXiv:1412.7335获得。
[91]	Zhang，A.Y.和Zhou，H.H.（2016）。随机块模型中社区检测的最小最大速率。安。统计师。44 2252-2280. ·Zbl 1355.60125号 ·doi:10.1214/15-OS1428
[92]	Zhang，A.Y.和Zhou，H.H.（2020）。群落检测中平均场变分推断的理论和计算保证。安。统计师。48 2575-2598. ·Zbl 1462.62221号 ·doi:10.1214/19-AOS1898
[93]	Zhao，P.和Yu，B.（2006）。关于拉索模型选择的一致性。J.马赫。学习。物件。7 2541-2563. ·Zbl 1222.62008年
[94]	Zhong，Y.和Boumal，N.（2018）。相位同步的近最优界。SIAM J.Optim公司。28 989-1016. ·Zbl 1396.90068号 ·doi:10.1137/17M1122025
[95]	ZHOU，X.、ZHU，M.和DANILIDIS，K.（2015）。通过快速交替最小化进行多图像匹配。在IEEE计算机视觉国际会议记录4032-4040

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：书本；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	括号

示例

领域

操作员

离散结构恢复的迭代算法。（英语） Zbl 1486.62058号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

离散结构恢复的迭代算法。 （英语） Zbl 1486.62058号

MSC公司：

关键词：

参考文献：

离散结构恢复的迭代算法。（英语） Zbl 1486.62058号