×

不同的私人和预算限制的土匪学习拟阵。 (英语) Zbl 1474.68253号

摘要:我们提出了第一个预算限制的多臂盗贼(BMAB)算法,该算法在拉臂时受拟阵约束的联合,同时实现了差异隐私。我们的模型推广了以往BMAB方案中研究的拉臂模型,可用于解决许多实际问题,如网络主干网建设和众包中的动态定价。通过利用拟阵的组合结构,我们在BMAB问题中处理了利用与探索的权衡,并基于分治方法降低了手臂选择的搜索复杂性。我们的算法实现了关于(B)和(epsilon)-差异隐私的统一对数遗憾界,其中,(B)是用随机成本拉动武器的预算。在没有差分隐私的情况下,我们的算法实现了关于\(B)的一致对数遗憾界,从而改进了以前的BMAB算法所实现的渐近遗憾界。我们在实验中与先前的方案进行了并行比较。实验结果表明,我们的纯组合算法不仅获得了明显更好的后悔性能,而且比以前使用耗时的LP求解技术的BMAB方案快20多倍。

MSC公司:

68T05型 人工智能中的学习和自适应系统
05B35号 拟阵与几何格的组合方面
62升10 序列统计分析
62升15 统计中的最优停止
68第27页 数据隐私
90C27型 组合优化

软件:

CPLEX公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Agrawal S、Devanur NR(2014)《凹形奖励和凸形背包的匪徒》。程序。第15届ACM会议经济。计算。(纽约ACM出版社),989-1006.谷歌学者
[2] Auer P、Cesa Bianchi N、Fischer P(2002)《多武装匪徒问题的有限时间分析》。机器学习。47(2-3):235-256.Crossref,谷歌学者·Zbl 1012.68093号 ·doi:10.1023/A:1013689704352
[3] Badanidiyuru A、Kleinberg R、Slivkins A(2013)《背包匪徒》。程序。IEEE第54届年度交响乐会。基础计算。科学。(IEEE,新泽西州皮斯卡塔韦),207-216年。谷歌学者
[4] Barry D,Parlange JY,Li L,Prommer H,Cunningham C,Stagniti F(2000)Lambert W函数实值的分析近似。数学。计算。模拟53(1):95-103.Crossref,谷歌学者·doi:10.1016/S0378-4754(00)00172-5
[5] Bubeck S,Cesa-Bianchi N(2012)随机和非随机多武器强盗问题的后悔分析。基础趋势机器学习。5(1):1-122.Crossref,谷歌学者·Zbl 1281.91051号 ·doi:10.1561/220000024
[6] Buccapatnam S、Eryilmaz A、Shroff NB(2014)《随机盗贼与网络侧面观察》。程序。2014 ACM国际。一致性度量模型。计算。系统(纽约ACM出版社),289-300.谷歌学者
[7] Calinescu G,Chekuri C,Pál M,Vondrák J(2011)受拟阵约束的单调子模函数的最大化。SIAM J.计算。40(6):1740-1766.Crossref,谷歌学者·Zbl 1234.68459号 ·doi:10.1137/080733991
[8] Chan THH,Shi E,Song D(2011)私人和持续发布统计数据。ACM事务处理。通知。系统安全14(3):第26条谷歌学者Crossref·doi:10.1145/2043621.2043626
[9] Chen L,Gupta A,Li J(2016a)拟阵约束下多臂土匪的纯粹探索。程序。第29届年度大会学习。理论(马萨诸塞州布鲁克林市PMLR),647-669年。谷歌学者
[10] Chen W,Wang Y,Yuan Y(2013)《组合多武器盗贼:一般框架和应用》。程序。第30届国际。Conf.机器学习。(马萨诸塞州布鲁克林市PMLR),151-159年。谷歌学者
[11] Chen W,Hu W,Li F,Li J,Liu Y,Lu P(2016b)具有一般奖励功能的组合式多武器盗贼。程序。第30次确认神经信息。处理系统(Curran Associates,Red Hook,NY),1659-1667年。谷歌学者
[12] Combes R,Jiang C,Srikant R(2015a)《预算强盗:后悔下限和优化算法》。性能评估版本。43(1):245-257.Crossref,谷歌学者·doi:10.1145/2796314.2745847
[13] Combes R、Shahi MSTM、Proutiere A、Lelarge M(2015b)《重访组合匪徒》。程序。第29届会议神经信息处理系统(纽约州红钩市Curran Associates),2116-2124.谷歌学者
[14] Cormen TH、Leiserson CE、Rivest RL、Stein C(2009)《算法导论》(麻省理工学院出版社,马萨诸塞州剑桥)。谷歌学者·Zbl 1187.68679号
[15] 丁伟、秦涛、张西东、刘天勇(2013)《预算约束和可变成本的多武器匪徒》。程序。第27届AAAI大会人工智能(加利福尼亚州帕洛阿尔托市AAAI出版社),232-238。谷歌学者
[16] Dwork C,Roth A(2014)差异隐私的算法基础。基金会趋势理论。计算。科学。9(3-4):211-407.谷歌学者·Zbl 1302.68109号
[17] Flajolet A,Jaillet P(2015),《带背包的强盗的低级后悔界限》。10月7日提交的预印本,https://arxiv.org/abs/1110.01800.谷歌学者
[18] 加利福尼亚州佛罗伦萨,帕尔达洛斯PM(2009)最优化百科全书(纽约州施普林格)。Crossref,谷歌学者·Zbl 1156.90001号 ·数字对象标识代码:10.1007/978-0-387-74759-0
[19] Gai Y、Krishnamachari B、Jain R(2012)《未知变量组合网络优化:具有线性奖励和个人观察的多武器强盗》。IEEE/ACM传输。网络20(5):1466-1478.Crossref,谷歌学者·doi:10.1109/TNET.2011.2181864
[20] 甘刚、马C、谢H(2014)度量、概率和数学金融:一种面向问题的方法(约翰·威利父子公司,新泽西州霍博肯)。谷歌学者·Zbl 1302.60004号
[21] Garivier A,CappéO(2011)KL-UCB算法,适用于有界随机盗贼及其他情况。程序。第24届年度大会学习。理论(马萨诸塞州布鲁克林市PMLR),359-376。谷歌学者
[22] Grimmet G、Stirzaker D(2001)概率与随机过程(英国牛津大学出版社)。谷歌学者·Zbl 1015.60002号
[23] Hoeffing W(1963)有界随机变量和的概率不等式。J.Amer。统计师。协会。58(301):13-30.Crossref,谷歌学者·Zbl 0127.10602号 ·doi:10.1080/01621459.1963.10500830
[24] IBM CPLEX(2009)IBM ILOG CPLEX Optimization Studio。https://www.ibm.com/developerworks/downloads/ws/ilogcplex/.Google学者
[25] Jain P、Kothari P、Thakurta A(2012)《不同的私人在线学习》。程序。第25届年会学习。理论(马萨诸塞州布鲁克林市PMLR),24.1-24.34.谷歌学者
[26] Jin H,Su L,Ding B,Nahrstedt K,Borisov N(2016)为移动人群感知系统启用隐私保护激励。程序。IEEE第36届国际标准。Conf.分布式计算。系统(新泽西州皮斯卡塔韦IEEE),344-353,谷歌学者
[27] Komiyama J,Honda J,Nakagawa H(2015)具有多个剧本的随机多臂盗贼问题中汤普森抽样的最优后悔分析。程序。第32届国际。Conf.机器学习。(马萨诸塞州布鲁克林市PMLR),1152-1161.谷歌学者
[28] Kveton B,Wen Z,Ashkan A,Szepesvari C(2015)随机组合半强盗的紧密后悔界限。程序。第18国际。Conf.人工智能统计师。(马萨诸塞州布鲁克林市PMLR),535-543.谷歌学者
[29] Kveton B、Wen Z、Ashkan A、Eydgahi H、Eriksson B(2014)《Matroid匪徒:快速组合优化与学习》。程序。第30届Conf.Incertainty Artificial Intelligence(俄勒冈州科瓦利斯市AUAI出版社),420-429.谷歌学者
[30] McSherry FD(2009)《隐私集成查询:隐私保护数据分析的可扩展平台》。程序。2009 ACM SIGMOD国际。Conf.管理数据(纽约ACM出版社),19-30,谷歌学者
[31] Megiddo N(1979)有理目标函数组合优化。数学。操作。物件。4(4):414-424.链接,谷歌学者·Zbl 0425.90076号
[32] Mishra N,Thakurta A(2015)(几乎)最优差异私有随机多兵种土匪。程序。第31届Conf.不确定性人工智能(俄勒冈州科瓦利斯AUAI出版社),592-601.谷歌学者
[33] Mitzenmacher M,Upfal E(2005)概率与计算:算法与数据分析中的随机化与概率技术(英国剑桥大学出版社)。Crossref,谷歌学者·兹比尔1092.60001 ·doi:10.1017/CBO9780511813603
[34] 奥克斯利J(2011)拟阵理论(英国牛津大学出版社)。Crossref,谷歌学者·Zbl 1254.05002号 ·doi:10.1093/acprof:oso/9780198566946.0001
[35] Talebi MS,Proutiere A(2016)随机拟阵土匪优化的优化算法。程序。2016年国际。Conf.自治代理多代理系统(纽约ACM出版社),548-556。谷歌学者
[36] Talebi MS、Zou Z、Combes R、Proutière A、Johansson M(2018)《随机在线最短路径路由:反馈的价值》。IEEE传输。自动控制63(4):915-930.谷歌学者(Google Scholar)交叉引用·Zbl 1390.90142号 ·doi:10.1109/TAC.2017.2747409
[37] Tekin C,Liu M(2015)网络在线学习方法。基金会趋势网络8(4):281-409。Crossref,谷歌学者·Zbl 1333.60163号 ·doi:10.5561/1300000050
[38] Thakurta AG,Smith A(2013)(几乎),全信息和盗贼环境下私人在线学习的最佳算法。程序。第27届Conf.神经信息。处理系统(纽约州红钩市Curran Associates),2733-2741。谷歌学者
[39] Tossou ACY,Dimitrakakis C(2016)《不同私人多武装匪徒的算法》。程序。第30届AAAI人工智能大会(AAAI出版社,加利福尼亚州帕洛阿尔托),2087-2093年。谷歌学者
[40] Tran-Thanh L、Chapman A、Rogers A、Jennings NR(2012),基于背包的预算限制型多武装匪徒最优策略。程序。第26届AAAI人工智能大会(加利福尼亚州帕洛阿尔托市AAAI出版社),1134-1140.谷歌学者
[41] Tran-Thanh L、Chapman A、de Cote EM、Rogers A、Jennings NR(2010)《预算有限的多武装匪徒的Epsilon优先政策》。程序。第24届AAAI人工智能大会(加利福尼亚州帕洛阿尔托市AAAI出版社),1211-1216。谷歌学者
[42] Vaswani S、Kveton B、Wen Z、Ghavamzadeh M、Lakshmanan LVS、Schmidt M(2017)《影响最大化的模型依赖在线学习》。程序。第34届国际米兰。Conf.机器学习。(马萨诸塞州布鲁克林市PMLR),3530-3539,谷歌学者
[43] 王强,陈伟(2017)改进概率触发武器组合半强盗的后悔界限及其应用。程序。第31次确认神经信息。处理系统(纽约州红钩市Curran Associates),1161-1171.谷歌学者
[44] Wen Z,Kveton B,Valko M,Vaswani S(2017)带半强盗反馈的独立级联模型下的在线影响力最大化。程序。第31次确认神经信息。处理系统(纽约州红钩市Curran Associates),3026-3036。谷歌学者
[45] Wu H,Srikant R,Liu X,Jiang C(2015)约束上下文盗贼的对数或次线性遗憾算法。程序。第29届会议神经信息。处理系统(纽约州Red Hook市Curran Associates),433-441.谷歌学者
[46] Xia Y,Li H,Qin T,Yu N,Liu TY(2015)Thompson对预算中的多武装匪徒进行抽样调查。程序。第24届国际。Conf.人工智能(AAAI Press,Palo Alto,CA),3960-3966.谷歌学者
[47] Xia Y,Qin T,Ma W,Yu N,Liu T(2016)《多场游戏中的多武装匪徒预算》。程序。第25届国际。Conf.人工智能(AAAI Press,Palo Alto,CA),2210-2216.谷歌学者
[48] Yi S、Nelson PW、Ulsoy AG(2010年)时滞系统:使用Lambert W函数的分析和控制(世界科学,新加坡)。Crossref,谷歌学者·Zbl 1209.93002号 ·doi:10.1142/7759
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。