文件Zbl 1474.68253-zbMATH打开

不同的私人和预算限制的土匪学习拟阵。（英语） Zbl 1474.68253号

信息J.计算。 32，编号3，790-804（2020）。

摘要：我们提出了第一个预算限制的多臂盗贼（BMAB）算法，该算法在拉臂时受拟阵约束的联合，同时实现了差异隐私。我们的模型推广了以往BMAB方案中研究的拉臂模型，可用于解决许多实际问题，如网络主干网建设和众包中的动态定价。通过利用拟阵的组合结构，我们在BMAB问题中处理了利用与探索的权衡，并基于分治方法降低了手臂选择的搜索复杂性。我们的算法实现了关于（B）和（epsilon）-差异隐私的统一对数遗憾界，其中，（B）是用随机成本拉动武器的预算。在没有差分隐私的情况下，我们的算法实现了关于\（B）的一致对数遗憾界，从而改进了以前的BMAB算法所实现的渐近遗憾界。我们在实验中与先前的方案进行了并行比较。实验结果表明，我们的纯组合算法不仅获得了明显更好的后悔性能，而且比以前使用耗时的LP求解技术的BMAB方案快20多倍。

MSC公司：

68T05型	人工智能中的学习和自适应系统
05B35号	拟阵与几何格的组合方面
62升10	序列统计分析
62升15	统计中的最优停止
68第27页	数据隐私
90C27型	组合优化

关键词：

多武器强盗;拟阵;预算

软件：

CPLEX公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Agrawal S、Devanur NR（2014）《凹形奖励和凸形背包的匪徒》。程序。第15届ACM会议经济。计算。（纽约ACM出版社），989-1006.谷歌学者
[2]	Auer P、Cesa Bianchi N、Fischer P（2002）《多武装匪徒问题的有限时间分析》。机器学习。47（2-3）：235-256.Crossref，谷歌学者·Zbl 1012.68093号 ·doi:10.1023/A:1013689704352
[3]	Badanidiyuru A、Kleinberg R、Slivkins A（2013）《背包匪徒》。程序。IEEE第54届年度交响乐会。基础计算。科学。（IEEE，新泽西州皮斯卡塔韦），207-216年。谷歌学者
[4]	Barry D，Parlange JY，Li L，Prommer H，Cunningham C，Stagniti F（2000）Lambert W函数实值的分析近似。数学。计算。模拟53（1）：95-103.Crossref，谷歌学者·doi:10.1016/S0378-4754（00）00172-5
[5]	Bubeck S，Cesa-Bianchi N（2012）随机和非随机多武器强盗问题的后悔分析。基础趋势机器学习。5（1）：1-122.Crossref，谷歌学者·Zbl 1281.91051号 ·doi:10.1561/220000024
[6]	Buccapatnam S、Eryilmaz A、Shroff NB（2014）《随机盗贼与网络侧面观察》。程序。2014 ACM国际。一致性度量模型。计算。系统（纽约ACM出版社），289-300.谷歌学者
[7]	Calinescu G，Chekuri C，Pál M，Vondrák J（2011）受拟阵约束的单调子模函数的最大化。SIAM J.计算。40（6）：1740-1766.Crossref，谷歌学者·Zbl 1234.68459号 ·doi:10.1137/080733991
[8]	Chan THH，Shi E，Song D（2011）私人和持续发布统计数据。ACM事务处理。通知。系统安全14（3）：第26条谷歌学者Crossref·doi:10.1145/2043621.2043626
[9]	Chen L，Gupta A，Li J（2016a）拟阵约束下多臂土匪的纯粹探索。程序。第29届年度大会学习。理论（马萨诸塞州布鲁克林市PMLR），647-669年。谷歌学者
[10]	Chen W，Wang Y，Yuan Y（2013）《组合多武器盗贼：一般框架和应用》。程序。第30届国际。Conf.机器学习。（马萨诸塞州布鲁克林市PMLR），151-159年。谷歌学者
[11]	Chen W，Hu W，Li F，Li J，Liu Y，Lu P（2016b）具有一般奖励功能的组合式多武器盗贼。程序。第30次确认神经信息。处理系统（Curran Associates，Red Hook，NY），1659-1667年。谷歌学者
[12]	Combes R，Jiang C，Srikant R（2015a）《预算强盗：后悔下限和优化算法》。性能评估版本。43（1）：245-257.Crossref，谷歌学者·doi:10.1145/2796314.2745847
[13]	Combes R、Shahi MSTM、Proutiere A、Lelarge M（2015b）《重访组合匪徒》。程序。第29届会议神经信息处理系统（纽约州红钩市Curran Associates），2116-2124.谷歌学者
[14]	Cormen TH、Leiserson CE、Rivest RL、Stein C（2009）《算法导论》（麻省理工学院出版社，马萨诸塞州剑桥）。谷歌学者·Zbl 1187.68679号
[15]	丁伟、秦涛、张西东、刘天勇（2013）《预算约束和可变成本的多武器匪徒》。程序。第27届AAAI大会人工智能（加利福尼亚州帕洛阿尔托市AAAI出版社），232-238。谷歌学者
[16]	Dwork C，Roth A（2014）差异隐私的算法基础。基金会趋势理论。计算。科学。9（3-4）：211-407.谷歌学者·Zbl 1302.68109号
[17]	Flajolet A，Jaillet P（2015），《带背包的强盗的低级后悔界限》。10月7日提交的预印本，https://arxiv.org/abs/1110.01800.谷歌学者
[18]	加利福尼亚州佛罗伦萨，帕尔达洛斯PM（2009）最优化百科全书（纽约州施普林格）。Crossref，谷歌学者·Zbl 1156.90001号 ·数字对象标识代码：10.1007/978-0-387-74759-0
[19]	Gai Y、Krishnamachari B、Jain R（2012）《未知变量组合网络优化：具有线性奖励和个人观察的多武器强盗》。IEEE/ACM传输。网络20（5）：1466-1478.Crossref，谷歌学者·doi:10.1109/TNET.2011.2181864
[20]	甘刚、马C、谢H（2014）度量、概率和数学金融：一种面向问题的方法（约翰·威利父子公司，新泽西州霍博肯）。谷歌学者·Zbl 1302.60004号
[21]	Garivier A，CappéO（2011）KL-UCB算法，适用于有界随机盗贼及其他情况。程序。第24届年度大会学习。理论（马萨诸塞州布鲁克林市PMLR），359-376。谷歌学者
[22]	Grimmet G、Stirzaker D（2001）概率与随机过程（英国牛津大学出版社）。谷歌学者·Zbl 1015.60002号
[23]	Hoeffing W（1963）有界随机变量和的概率不等式。J.Amer。统计师。协会。58（301）:13-30.Crossref，谷歌学者·Zbl 0127.10602号 ·doi:10.1080/01621459.1963.10500830
[24]	IBM CPLEX（2009）IBM ILOG CPLEX Optimization Studio。https://www.ibm.com/developerworks/downloads/ws/ilogcplex/.Google学者
[25]	Jain P、Kothari P、Thakurta A（2012）《不同的私人在线学习》。程序。第25届年会学习。理论（马萨诸塞州布鲁克林市PMLR），24.1-24.34.谷歌学者
[26]	Jin H，Su L，Ding B，Nahrstedt K，Borisov N（2016）为移动人群感知系统启用隐私保护激励。程序。IEEE第36届国际标准。Conf.分布式计算。系统（新泽西州皮斯卡塔韦IEEE），344-353，谷歌学者
[27]	Komiyama J，Honda J，Nakagawa H（2015）具有多个剧本的随机多臂盗贼问题中汤普森抽样的最优后悔分析。程序。第32届国际。Conf.机器学习。（马萨诸塞州布鲁克林市PMLR），1152-1161.谷歌学者
[28]	Kveton B，Wen Z，Ashkan A，Szepesvari C（2015）随机组合半强盗的紧密后悔界限。程序。第18国际。Conf.人工智能统计师。（马萨诸塞州布鲁克林市PMLR），535-543.谷歌学者
[29]	Kveton B、Wen Z、Ashkan A、Eydgahi H、Eriksson B（2014）《Matroid匪徒：快速组合优化与学习》。程序。第30届Conf.Incertainty Artificial Intelligence（俄勒冈州科瓦利斯市AUAI出版社），420-429.谷歌学者
[30]	McSherry FD（2009）《隐私集成查询：隐私保护数据分析的可扩展平台》。程序。2009 ACM SIGMOD国际。Conf.管理数据（纽约ACM出版社），19-30，谷歌学者
[31]	Megiddo N（1979）有理目标函数组合优化。数学。操作。物件。4（4）:414-424.链接，谷歌学者·Zbl 0425.90076号
[32]	Mishra N，Thakurta A（2015）（几乎）最优差异私有随机多兵种土匪。程序。第31届Conf.不确定性人工智能（俄勒冈州科瓦利斯AUAI出版社），592-601.谷歌学者
[33]	Mitzenmacher M，Upfal E（2005）概率与计算：算法与数据分析中的随机化与概率技术（英国剑桥大学出版社）。Crossref，谷歌学者·兹比尔1092.60001 ·doi:10.1017/CBO9780511813603
[34]	奥克斯利J（2011）拟阵理论（英国牛津大学出版社）。Crossref，谷歌学者·Zbl 1254.05002号 ·doi:10.1093/acprof:oso/9780198566946.0001
[35]	Talebi MS，Proutiere A（2016）随机拟阵土匪优化的优化算法。程序。2016年国际。Conf.自治代理多代理系统（纽约ACM出版社），548-556。谷歌学者
[36]	Talebi MS、Zou Z、Combes R、Proutière A、Johansson M（2018）《随机在线最短路径路由：反馈的价值》。IEEE传输。自动控制63（4）：915-930.谷歌学者（Google Scholar）交叉引用·Zbl 1390.90142号 ·doi:10.1109/TAC.2017.2747409
[37]	Tekin C，Liu M（2015）网络在线学习方法。基金会趋势网络8（4）：281-409。Crossref，谷歌学者·Zbl 1333.60163号 ·doi:10.5561/1300000050
[38]	Thakurta AG，Smith A（2013）（几乎），全信息和盗贼环境下私人在线学习的最佳算法。程序。第27届Conf.神经信息。处理系统（纽约州红钩市Curran Associates），2733-2741。谷歌学者
[39]	Tossou ACY，Dimitrakakis C（2016）《不同私人多武装匪徒的算法》。程序。第30届AAAI人工智能大会（AAAI出版社，加利福尼亚州帕洛阿尔托），2087-2093年。谷歌学者
[40]	Tran-Thanh L、Chapman A、Rogers A、Jennings NR（2012），基于背包的预算限制型多武装匪徒最优策略。程序。第26届AAAI人工智能大会（加利福尼亚州帕洛阿尔托市AAAI出版社），1134-1140.谷歌学者
[41]	Tran-Thanh L、Chapman A、de Cote EM、Rogers A、Jennings NR（2010）《预算有限的多武装匪徒的Epsilon优先政策》。程序。第24届AAAI人工智能大会（加利福尼亚州帕洛阿尔托市AAAI出版社），1211-1216。谷歌学者
[42]	Vaswani S、Kveton B、Wen Z、Ghavamzadeh M、Lakshmanan LVS、Schmidt M（2017）《影响最大化的模型依赖在线学习》。程序。第34届国际米兰。Conf.机器学习。（马萨诸塞州布鲁克林市PMLR），3530-3539，谷歌学者
[43]	王强，陈伟（2017）改进概率触发武器组合半强盗的后悔界限及其应用。程序。第31次确认神经信息。处理系统（纽约州红钩市Curran Associates），1161-1171.谷歌学者
[44]	Wen Z，Kveton B，Valko M，Vaswani S（2017）带半强盗反馈的独立级联模型下的在线影响力最大化。程序。第31次确认神经信息。处理系统（纽约州红钩市Curran Associates），3026-3036。谷歌学者
[45]	Wu H，Srikant R，Liu X，Jiang C（2015）约束上下文盗贼的对数或次线性遗憾算法。程序。第29届会议神经信息。处理系统（纽约州Red Hook市Curran Associates），433-441.谷歌学者
[46]	Xia Y，Li H，Qin T，Yu N，Liu TY（2015）Thompson对预算中的多武装匪徒进行抽样调查。程序。第24届国际。Conf.人工智能（AAAI Press，Palo Alto，CA），3960-3966.谷歌学者
[47]	Xia Y，Qin T，Ma W，Yu N，Liu T（2016）《多场游戏中的多武装匪徒预算》。程序。第25届国际。Conf.人工智能（AAAI Press，Palo Alto，CA），2210-2216.谷歌学者
[48]	Yi S、Nelson PW、Ulsoy AG（2010年）时滞系统：使用Lambert W函数的分析和控制（世界科学，新加坡）。Crossref，谷歌学者·Zbl 1209.93002号 ·doi:10.1142/7759

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
”ab c公司”	短语
(ab c公司)	圆括号

示例

领域

操作员

不同的私人和预算限制的土匪学习拟阵。（英语） Zbl 1474.68253号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

不同的私人和预算限制的土匪学习拟阵。 （英语） Zbl 1474.68253号

MSC公司：

关键词：

软件：

参考文献：

不同的私人和预算限制的土匪学习拟阵。（英语） Zbl 1474.68253号