×

谱方法和正则化MLE都是排名最高的最佳方法。 (英语) Zbl 1425.62038号

作者摘要:本文研究了由成对比较得出的最高排名问题。给定一组(n)项和它们之间的一些成对比较,人们希望确定排名最高的(K)项集。为了解决这个问题,我们采用了逻辑参数模型——Bradley-Terry-Luce模型,其中每个项目都被分配了一个潜在的偏好得分,并且每个成对比较的结果仅取决于所涉及的两个项目的相对得分。最近的工作在表征几种经典方法(包括谱方法和最大似然估计(MLE))的性能(例如,估计分数的均方误差)方面取得了重大进展。然而,他们在最高(K)排名方面的立场仍然悬而未决。
我们证明,在自然随机抽样模型下,就样本复杂度而言,谱方法单独或正则化MLE单独是最小最大最优的,即在固定动态范围内,确保精确顶部(K)识别所需的成对比较数。这是通过对分数估计的入门级错误进行优化控制来实现的。我们通过数值实验来补充我们的理论研究,证实这两种方法在估计潜在分数时产生的入门级错误很低。我们的理论是通过一种新的leave-on-out技巧建立的,它证明了对分析迭代和非迭代过程都是有效的。在此基础上,我们推导了概率转移矩阵的基本特征向量扰动界,它与对称矩阵的Davis-Kahan-sin(Theta)定理类似。这也使我们能够缩小谱方法的误差上限和极小极大下限之间的差距。

MSC公司:

62F07型 统计排名和选择程序
62B10型 信息理论主题的统计方面
62M15型 随机过程和谱分析的推断
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abbe,E.、Fan,J.、Wang,K.和Zhong,Y.(2017)。低期望秩随机矩阵的条目特征向量分析。ArXiv预印本。可从ArXiv:1709.09565获得·Zbl 1450.62066号
[2] Agarwal,A.、Agarwall,S.、Assadi,S.和Khanna,S.(2017年)。通过有限轮适应性学习:掷硬币、多武器强盗和两两比较排名。学习理论会议39-75。
[3] Ammar,A.和Shah,D.(2011年)。排名:比较,不得分。2011年第49届阿勒顿通信、控制和计算年会(阿勒顿)776-783。DOI:10.1109/Allerton.2011.6120246。
[4] Ammar,A.和Shah,D.(2012年)。使用部分数据进行有效的排名聚合。在SIGMETRICS40 355-366中。纽约ACM。
[5] Baltrunas,L.、Makcinskas,T.和Ricci,F.(2010年)。使用等级聚合和协作过滤对推荐进行分组。第四届ACM推荐系统会议论文集。RecSys’10 119-126。纽约ACM。
[6] Bradley,R.A.和Terry,M.E.(1952年)。不完全块设计的秩分析。一、配对比较法。生物特征39 324-345·Zbl 0047.12903号
[7] Bubeck,S.(2015)。凸优化:算法和复杂性。已找到。趋势马赫数。学习。8 231-357·Zbl 1365.90196号 ·doi:10.1561/2200000050
[8] Busa-Fekete,R.、SzöRényi,B.、Weng,P.、Cheng,W.和Hüllermier,E.(2013)。基于噪声偏好的自适应采样的顶部选择。在机器学习国际会议上。
[9] Chen,Y.和Candes,E.(2016)。投影功率法:一种有效的两两差异联合对准算法。普通纯应用程序。数学。出现·Zbl 1480.90199号 ·doi:10.1002/cpa.21760
[10] Chen,Y.和Candès,E.J.(2017)。求解随机二次方程组几乎与求解线性系统一样容易。普通纯应用程序。数学70 822-883·兹比尔1379.90024 ·doi:10.1002/cpa.21638
[11] Chen,Y.和Suh,C.(2015)。谱MLE:来自两两比较的顶级(K)秩聚合。在机器学习国际会议371-380。
[12] Chen,X.、Bennett,P.N.、Collins-Thompson,K.和Horvitz,E.(2013)。众包环境中的成对排名聚合。在193-202年ACM网络搜索和数据挖掘国际会议上。纽约ACM。
[13] Chen,X.、Gopi,S.、Mao,J.和Schneider,J.(2017)。顶级排名问题的竞争分析。第二十八届ACM-SIAM离散算法研讨会论文集1245-1264。宾夕法尼亚州费城SIAM·兹比尔1410.68339
[14] Chen,Y.,Chi,Y.、Fan,J.和Ma,C.(2018)。随机初始化梯度下降:非凸相位恢复的快速全局收敛。ArXiv:1803.07726提供·Zbl 1415.90086号
[15] Chen,Y.、Fan,J.、Ma,C.和Wang,K.(2019)。补充“谱方法和正则化MLE都是顶级排名的最佳方法。”DOI:10.1214/18-AOS1745SUPP·Zbl 1425.62038号
[16] Chung,F.R.K.(1997年)。谱图论。CBMS数学区域会议系列92。为华盛顿特区数学科学会议委员会出版;由Amer提供。数学。佛罗里达州普罗维登斯Soc·Zbl 0867.05046号
[17] Davis,C.和Kahan,W.M.(1970年)。扰动引起的特征向量的旋转。三、 SIAM J.数字。分析7 1-46·Zbl 0198.47201号 ·doi:10.1137/0707001
[18] Dwork,C.、Kumar,R.、Naor,M.和Sivakumar,D.(2001年)。对Web的聚合方法进行排名。在万维网613-622国际会议上。
[19] El Karoui,N.(2018年)。关于预测器几何对高维脊线规整广义稳健回归估计器性能的影响。普罗巴伯。理论相关领域170 95-175·Zbl 1407.62060号 ·doi:10.1007/s00440-016-0754-9
[20] Eldridge,J.、Belkin,M.和Wang,Y.(2017年)。未受干扰:Davis-Kahan以外的光谱分析。ArXiv预印本。ArXiv:1706.06516提供·Zbl 1406.60014号
[21] Fan,J.、Wang,W.和Zhong,Y.(2018)。特征向量扰动界及其应用。J.马赫。学习。第18 1-42号决议·Zbl 1473.15015号
[22] 福特·L.R.Jr.(1957)。通过二进制比较解决排名问题。阿默尔。数学。每月64 28-33·Zbl 0089.15304号
[23] Hajek,B.、Oh,S.和Xu,J.(2014)。部分排名的最小最大最优推断。在神经信息处理系统1475-1483。
[24] Heckel,R.、Shah,N.B.、Ramchandran,K.和Wainwright,M.J.(2016)。当参数假设没有帮助时,通过成对比较进行主动排名。ArXiv预印本。ArXiv:1606.08842提供·Zbl 1435.62293号
[25] Hunter,D.R.(2004)。广义布莱德雷-特里模型的MM算法。美国国家统计局32 384-406·Zbl 1105.62359号 ·doi:10.1214/aos/1079120141
[26] Jamieson,K.G.和Nowak,R.D.(2011年)。使用两两比较进行主动排名。在神经信息处理系统2240-2248中。
[27] Jang,M.、Kim,S.、Suh,C.和Oh,S.(2016)。两两比较中的排名靠前(K\):当光谱排名为最佳时。ArXiv预印本。可从ArXiv:1603.04153获得。
[28] Javanmard,A.和Montanari,A.(2018年)。摆脱套索:高斯设计的最佳样本量。统计年鉴46 2593-2622·Zbl 1407.62270号 ·doi:10.1214/17-AOS1630
[29] Jiang,X.,Lim,L.-H.,Yao,Y.和Ye,Y.(2011)。统计排序和组合霍奇理论。数学。计划127 203-244·Zbl 1210.90142号 ·doi:10.1007/s10107-010-0419-x
[30] Keshavan,R.H.、Montanari,A.和Oh,S.(2010年)。从噪声条目中完成矩阵。J.马赫。学习。第11号决议2057-2078·Zbl 1242.62069号
[31] Koltchinskii,V.和Lounici,K.(2016)。样本协方差的双线性形式的谱投影的渐近和浓度界。亨利·彭加雷·普罗巴布(Henri PoincaréProbab)安·Inst。统计52 1976-2013·Zbl 1353.62053号 ·doi:10.1214/15-AIHP705
[32] Koltchinskii,V.和Xia,D.(2016)。高斯噪声下奇异向量线性形式的扰动。在高维概率VII中。概率进展71 397-423。查姆施普林格·Zbl 1353.15034号
[33] Lu,Y.和Negahban,S.N.(2014)。使用核范数正则化的个性化等级聚合。ArXiv预印本。可在ArXiv:1410.0860上获取。
[34] 卢斯·R·D(1959)。个人选择行为:理论分析。威利,纽约;查普曼和霍尔,伦敦·Zbl 0093.31708号
[35] Ma,C.,Wang,K.,Chi,Y.和Chen,Y.(2017)。非凸统计估计中的隐式正则化:梯度下降线性收敛用于相位检索、矩阵完成和盲反卷积。ArXiv预印本。可从ArXiv:1711.10467获得·Zbl 1445.90089
[36] Negahban,S.、Oh,S.和Shah,D.(2017年)。排名中心性:根据两两比较进行排名。操作。第65号决议266-287·Zbl 1414.91133号 ·doi:10.1287/opre.2016.1534
[37] Negahban,S.,Oh,S.、Thekumparampil,K.K.和Xu,J.(2017)。从比较和选择中学习。ArXiv预印本。可从ArXiv:1704.07228获得·Zbl 1461.68192号
[38] Pananjady,A.、Mao,C.、Muthukumar,V.、Wainwright,M.J.和Courtade,T.A.(2017年)。固定成对比较估计的最坏情况与平均情况设计。ArXiv预印本。可从ArXiv:1707.06217获得·Zbl 1452.62561号
[39] Rajkumar,A.和Agarwal,S.(2014)。成对数据秩聚合算法的统计收敛观点。在机器学习国际会议I-118-I-126上。
[40] Rajkumar,A.和Agarwal,S.(2016年)。我们什么时候可以通过比较(O(n\log n))非活动选择对来排名?学习理论会议1376-1401。
[41] Rohe,K.、Chatterjee,S.和Yu,B.(2011年)。谱聚类和高维随机块模型。《统计年鉴》39 1878-1915年·Zbl 1227.62042号 ·doi:10.1214/11-AOS887
[42] Shah,N.B.和Wainwright,M.J.(2015)。通过两两比较得出简单、稳健和最优的排名。ArXiv预印本。可从ArXiv:1512.08949获得·Zbl 1473.62078号
[43] Shah,N.B.、Balakrishnan,S.、Guntuboyina,A.和Wainwright,M.J.(2017年)。两两比较的随机传递模型:统计和计算问题。IEEE传输。通知。神学63 934-959·Zbl 1364.94253号 ·doi:10.1109/TIT.2016.2634418
[44] Soufiani,H.A.、Chen,W.Z.、Parkes,D.C.和Xia,L.(2013)。秩聚合的广义矩方法。在第26届神经信息处理系统国际会议论文集上。NIPS’13 2706-2714。
[45] Suh,C.、Tan,V.Y.F.和Zhao,R.(2017)。对手排名最高。IEEE传输。通知。Theory神学63 2201-225·Zbl 1366.94173号 ·doi:10.1109/TIT.2017.2659660
[46] Sur,P.、Chen,Y.和Candès,E.J.(2017)。高维logistic回归中的似然比检验是一个渐近重标的Chi-square检验。ArXiv预印本。可从ArXiv:1706.01191获得·Zbl 1431.62319号
[47] Tropp,J.A.(2015)。矩阵集中不等式简介。已找到。趋势马赫数。学习。8 1-230·Zbl 1391.15071号 ·doi:10.1561/22000048
[48] Zhong,Y.和Boumal,N.(2017)。相位同步的近最优界。可从arXiv:1703.06605获取·Zbl 1396.90068号 ·doi:10.1137/17M1122025
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。