布拉尼斯拉夫·克韦顿

我回到Adobe Research担任首席科学家。我当时在亚马逊2021年至2024年谷歌研究2018年至2021年Adobe研究2014年至2018年Technicolor研究中心2011年至2014年，以及英特尔研究2006年至2011年。2006年之前，我是智能系统计划在匹兹堡大学。我的导师是米洛斯·奥斯克雷希特。我的电子邮件是kveton@adobe.com.

我提出、分析和应用算法，这些算法可以增量学习、实时运行，并随着观察数的增加收敛到接近最优的解决方案。我最近的大部分工作都集中在将这些思想应用于现代生成模型和人类反馈。

从一开始，人类与智能代理之间的无缝交互就一直是人工智能的圣杯。这个问题传统上被表述为学习与环境交互，强化学习和强盗是两个突出的框架。强盗是一种自适应监督学习的框架，在该框架中，代理通过与环境的重复交互学习根据上下文进行最佳操作。我对这一领域做出了一些基本贡献。我早期的工作集中在图、子模、半土匪反馈和低秩矩阵的结构化土匪问题上。这在我的在线学习排名工作中达到了顶峰，我们设计了能够处理指数级大动作空间和部分反馈的强盗算法。这些算法简单、理论上合理、健壮，并且保持了最先进的水平。我最近的工作重点是使盗贼算法更实用。这包括通过随机化进行探索，这与神经网络很好地配合，并通过元学习、多任务学习和联合学习降低土匪算法的统计复杂性。

机器学习的最新进展得益于预训练模型，这些预训练模型在许多人类层面的任务中表现出色，并且能够以非传统的方式适应新任务，例如上下文学习。尽管发生了这种转变，但传统的探索和统计效率适应性问题仍然存在。例如，大型语言模型的微调计算成本很高。这种成本可以通过对较少精心选择的信息示例进行微调来降低。选择这些示例的问题可以作为优化设计来制定和解决。另一个例子是人类对模型的评估。由于人工反馈的收集成本很高，我们自然会问，我们是否可以重用以前收集的反馈来评估新模型。这个问题可以通过记录的人类反馈作为非政策评估来制定和解决。

我最近的论文如下。

2024

马特杰·西夫（Matej Cief）、布拉尼斯拉夫·克韦顿（Branislav Kveton）和米查尔·孔潘（Michal Kompan）。学习排名的悲观非政策优化《第27届欧洲人工智能会议记录》，2024年。

Kaan Ozkara、Can Karakus、Parameswaran Raman、Mingyi Hong、Shoham Sabach、Branislav Kveton和Volkan Cevher。MADA：基于超梯度下降的元自适应优化器《第41届机器学习国际会议论文集》，2024年。

Aadirupa Saha和Branislav Kveton。只为不确定因素付费：方差自适应汤普森抽样. 在第十二届国际学习代表大会, 2024.

Shima Alizadeh、Aniruddha Bhargava、Karthick Gopalswamy、Lalit Jain、Branislav Kveton和Ge Liu。悲观的非政策多目标优化《第27届国际人工智能与统计会议论文集》，2024年。

林子谦、郝丁、黄志亚、克韦顿、阿诺普·德奥拉斯和王浩。预先训练的推荐系统：因果消除偏见的视角《第17届ACM网络搜索和数据挖掘国际会议论文集》，2024年。

贝纳姆·拉赫达里（Behnam Rahdari）、郝丁（Hao Ding）、范紫薇（Ziwei Fan）、马一飞（Yifei Ma）、陈卓通（Zhootong Chen）、阿诺普·迪奥拉斯（Anoop Deoras）和布拉尼斯拉夫·克维顿（Branislav Kveton）。逻辑支架：使用LLM生成个性化方面构造的建议解释《第17届ACM网络搜索和数据挖掘国际会议论文集》，2024年。

贝纳姆·拉赫达里（Behnam Rahdari）、彼得·布鲁西洛夫斯基（Peter Brusilovsky）和布拉尼斯拉夫·克维顿（Branislav Kveton）。具有轮转接口的推荐系统的仿真评估ACM推荐系统交易22024年。

2023

阿列克西亚·阿西达库（Alexia Attsidakou）、布拉尼斯拉夫·克维顿（Branislav Kveton）、苏美特·卡塔里亚（Sumeet Katariya）、君士坦丁·卡拉马尼斯（Constantine Caramanis）和苏杰·桑哈维（Sujay Sanghavi）。有限时间对数贝叶斯回归上界《神经信息处理系统进展》36，2023。

Branislav Kveton、Yi Liu、Johan Matteo Kruijssen和Yisu Nie。非合规匪徒《第32届信息和知识管理国际会议记录》，2023年。

郝丁、布拉尼斯拉夫·克维顿、马一飞、杨素园、文卡塔拉马纳·基尼、顾玉鹏、拉维·迪维拉、王菲、阿诺普·德奥拉斯和王浩。当前趋势：建模趋势建议《第17届ACM推荐系统会议记录》，2023年。

Anusha Lalitha、Kousha Kalantari、Yifei Ma、Anoop Deoras和Branislav Kveton。具有异质报酬差异的固定预算最佳武器识别《第39届人工智能不确定性会议论文集》，2023年。

Joey Hong、Branislav Kveton、Manzil Zaheer、Sumeet Katariya和Mohammad Ghavamzadeh。从Bandit反馈中学习多任务非政策《第40届机器学习国际会议论文集》，2023年。

谢玉冠、希瓦·卡西维瓦纳坦、布拉尼斯拉夫·克韦顿和帕特里克·布洛鲍姆。具有扩散生成先验的汤普森抽样《第40届机器学习国际会议论文集》，2023年。

温润哲、魏浩宇、克韦顿和宋瑞。基于乘数引导的探索《第40届机器学习国际会议论文集》，2023年。

伊马德·奥瓦利，Branislav Kveton和 Sumeet Katariya公司。混合效应汤普森采样《第26届国际人工智能与统计会议论文集》，2023年。

贾瓦德·阿齐兹（Javad Azizi）、布拉尼斯拉夫·克韦顿（Branislav Kveton）、穆罕默德·加瓦姆扎德（Mohammad Ghavamzadeh）和苏美特·卡塔里亚（Sumeet Katariya）。简单后悔最小化的元学习《第37届AAAI人工智能会议论文集》，2023年。

2022

谢玉冠、希瓦·卡西维瓦纳坦和布拉尼斯拉夫·克韦顿。提升土匪《神经信息处理系统进展》35，2022。

布拉尼斯拉夫·克韦顿（Branislav Kveton）、穆罕默德·杰汉吉尔·阿姆贾德（Muhammad Jehangir Amjad）、克里斯托夫·迪奥特（Christophe Diot）、迪米特里斯·科诺米斯（Dimitris Konomis）、奥古斯丁·索勒（Augustin Soule）和杨小龙（。大规模网络监测的统计保证优化探索《计算机通信》192:119-1312022。

穆罕默德·贾瓦德·阿齐兹、布拉尼斯拉夫·克韦顿和穆罕默德·加瓦姆扎德。结构化盗贼中的固定预算最佳臂识别《第31届国际人工智能联合会议记录》，2022年。

王楠、王洪宁、玛丽亚姆·卡里姆扎德甘、布拉尼斯拉夫·克维顿和克雷格·布蒂利尔。依我所见^三：交互式多目标非策略优化《第31届国际人工智能联合会议记录》，2022年。

温润哲、布拉尼斯拉夫·克韦顿和芮松。有效政策评估与比较的安全探索《第39届机器学习国际会议论文集》，2022年。

Joey Hong、Branislav Kveton、Sumeet Katariya、Manzil Zaheer和Mohammad Ghavamzadeh。强盗的深层次等级《第39届机器学习国际会议论文集》，2022年。

贝纳姆·拉赫达里（Behnam Rahdari）、布拉尼斯拉夫·克维顿（Branislav Kveton）和彼得·布鲁西洛夫斯基（Peter Brusilovsky）。旋转木马：单列表与多列表推荐系统在2022年第33届美国计算机学会超文本和社交媒体会议记录中。

朱瑞浩（Ruihao Zhu）和布拉尼斯拉夫·克维顿（Branislav Kveton）。安全优化设计及其在非政策学习中的应用《第25届国际人工智能与统计会议记录》，2022年。

朱荣和克韦顿。随机效果匪徒《第25届国际人工智能与统计会议记录》，2022年。

Branislav Kveton、Ofer Meshi、Masrour Zoghi和Zhen Qin。论网络学习中先验对排名的价值《第25届国际人工智能与统计会议记录》，2022年。

Joey Hong、Branislav Kveton、Manzil Zaheer、Mohammad Ghavamzadeh和Craig Boutiler。混合先验汤普森抽样《第25届国际人工智能与统计会议记录》，2022年。

Joey Hong、Branislav Kveton、Manzil Zaheer和Mohammad Ghavamzadeh。层次贝叶斯Bandits《第25届国际人工智能与统计会议记录》，2022年。

2021

Soumya Basu、Branislav Kveton、Manzil Zaheer和Csaba Szepesvari。学习强盗之先无悔《神经信息处理系统进展》34，2021。

Nan Wang、Branislav Kveton和Maryam Karimzadehgan。CORe：利用土匪探险中的奖励《第37届人工智能不确定性会议论文集》，2021年。

Branislav Kveton、Mikhail Konobeev、Manzil Zaheer、Chih-Wei Hsu、Martin Mladenov、Craig Boutiler和Csaba Szepesvari。Meta-Thompson采样《第38届机器学习国际会议论文集》，2021年。

Joey Hong、Branislav Kveton、Manzil Zaheer、Yinlam Chow和Amr Ahmed。非静态非策略优化《第24届国际人工智能与统计会议记录》，2021年。

2020

Craig Boutiler、Chih-wei Hsu、Branislav Kveton、Martin Mladenov、Csaba Szepesvari和Manzil Zaheer。Bandit策略的差异元学习《神经信息处理系统进展》33，2020年。

Joey Hong、Branislav Kveton、Manzil Zaheer、Yinlam Chow、Amr Ahmed和Craig Boutilier。重访潜伏的匪徒《神经信息处理系统进展》33，2020年。

童余、布拉尼斯拉夫·克维顿、郑文、张瑞仪和奥列·蒙索尔。图形模型遇到强盗：一种变分汤普森抽样方法.英寸第27届机器学习国际会议论文集, 2020.

Branislav Kveton、Manzil Zaheer、Csaba Szepesvari、Lihong Li、Mohammad Ghavamzadeh和Craig Boutiler。广义线性带的随机探索.英寸第23届国际人工智能与统计会议记录, 2020.

沙兰·瓦斯瓦尼（Sharan Vaswani）、阿巴斯·梅赫拉比安（Abbas Mehrabian）、奥黛丽·杜兰德（Audrey Durand）和布拉尼斯拉夫·克韦顿（Branislav Kveton）。老狗学新把戏：针对强盗问题的随机UCB.英寸第23届国际人工智能与统计会议记录, 2020.

2019

Branislav Kveton、Csaba Szepesvari、Mohammad Ghavamzadeh和Craig Boutiler。随机多臂强盗的扰动历史探索2019年第28届国际人工智能联合会议记录。

Chang Li、Branislav Kveton、Tor Lattimore、Ilya Markov、Maarten de Rijke、Csaba Szepesvari和Masrour Zoghi。BubbleRank：通过隐性点击反馈安全在线学习再贷款2019年第35届人工智能不确定性会议论文集。

Branislav Kveton、Csaba Szepesvari、Mohammad Ghavamzadeh和Craig Boutiler。随机线性强盗的扰动历史探索2019年第35届人工智能不确定性会议论文集。

Gaurush Hiranandani、Harvineet Singh、Prakhar Gupta、Iftikhar Burhanuddin、Zheng Wen和Branislav Kveton。级联线性子模块乐队：在线学习排名中位置偏差和差异的解释2019年第35届人工智能不确定性会议论文集。

Branislav Kveton、Csaba Szepesvari、Sharan Vaswani、Zheng Wen、Tor Lattimore和Mohammad Ghavamzadeh。垃圾进，奖励出：多武装匪徒的自助探索2019年第36届机器学习国际会议论文集。

Yang Cao、Zheng Wen、Branislav Kveton和Yao Xie。带变化检测的分段静态Bandit近似最优自适应算法2019年第22届国际人工智能与统计会议记录。

Sumeet Katariya、Branislav Kveton、Zheng Wen和Vamsi Potluru。利用交错进行保守探索2019年第22届国际人工智能与统计会议记录。

Thanh Tan Nguyen、Ali Shameli、Yasin Abbasi-Yadkori、Anup Rao和Branislav Kveton。带噪声观测的样本高效图基优化2019年第22届国际人工智能与统计会议记录。

2018

托·拉蒂莫尔（Tor Lattimore）、布拉尼斯拉夫·克韦顿（Branislav Kveton）、李帅（Shuai Li）和塞佩斯瓦里（Csaba Szepesvari）TopRank：一种实用的在线随机排名算法. 在神经信息处理系统的进展31中2018

Charles Chen、Sungchul Kim、Hung Bui、Ryan Rossi、Eunyee Koh、Branislav Kveton和Razvan Bunescu。利用时间用户行为和用户嵌入进行预测分析. 在第27届ACM信息和知识管理国际会议记录中2018

卢秀媛、郑雯和布拉尼斯拉夫·克维顿。基于低秩集合抽样的高效在线推荐. 在第12届ACM推荐系统会议记录中2018

Tong Yu、Branislav Kveton、Zheng Wen、Hung Bui和Ole Mengshoel。 SpectralLeader：单主题模型的在线光谱学习. 在欧洲数据库机器学习和知识发现会议记录中2018

Shuai Li、Yasin Abbasi-Yadkori、Branislav Kveton、S.Muthukrishnan、Vishwa Vinay和Zheng Wen。基于点击模型的排名策略离线评估. 在第24届ACM SIGKDD知识发现和数据挖掘国际会议的会议记录中2018

Branislav Kveton、S.Muthukrishnan、Hoa Vu和Yikun Xian。在分析数据流中查找子多维数据集的重目标. 在2018年网络会议记录中2018

2017

郑文、布拉尼斯拉夫·克韦顿、米查尔·瓦尔科和莎兰·瓦斯瓦尼。半带反馈独立级联模型下的在线影响最大化《神经信息处理系统进展》，2017年第30期。

童瑜、布拉尼斯拉夫·克韦顿和奥列·蒙索尔。优化随机局部搜索的汤普森抽样《欧洲数据库机器学习和知识发现会议记录》，2017年。

Sumeet Katariya、Branislav Kveton、Csaba Szepesvari、Claire Vernade和Zheng Wen。伯努利排名第一的点击反馈乐队《第26届国际人工智能联合会议论文集》，2017年。

沙兰·瓦斯瓦尼（Sharan Vaswani）、布拉尼斯拉夫·克维顿（Branislav Kveton）、郑文（Zheng Wen）、穆罕默德·加瓦姆扎德（Mohammad Ghavamzadeh）、拉克斯·拉克什曼南（Lakshmanan）和马克·施密特（Mark。影响最大化的模型独立在线学习。载于2017年第34届国际机器学习大会论文集。

穆罕默德·加瓦姆扎德（Mohammad Ghavamzadeh）、布拉尼斯拉夫·克韦顿（Branislav Kveton）、塞佩斯瓦里（Csaba Szepesvari）、托马斯·托尼斯（Tomas Tunys）、郑文（Zheng Wen）和马斯鲁尔·佐吉。在线学习在随机点击模型中排名《第34届机器学习国际会议论文集》，2017年。

石宗、布拉尼斯拉夫·克韦顿、谢洛莫·贝尔科夫斯基、阿津·阿什坎和郑文。深入到底：用户建模的因果分析《第25届用户建模、适应和个性化会议记录》，2017年。

Sumeet Katariya、Branislav Kveton、Csaba Szepesvari、Claire Vernade和Zheng Wen。随机秩-1 Bandits《第20届国际人工智能与统计会议论文集》，2017年。

石宗、布拉尼斯拉夫·克韦顿、谢洛莫·贝尔科夫斯基、阿津·阿什坎、尼科斯·弗拉西斯和郑文。天气重要吗？电视日志的因果分析《第26届国际万维网会议论文集》，2017年。

2016

Branislav Kveton、Hung Bui、Mohammad Ghavamzadeh、Georgios Theocharous、S.Muthukrishnan和Siqi Sun。图形模型草图.
2016年欧洲数据库机器学习和知识发现会议记录。

Branislav Kveton和Shlomo Berkovsky。推荐系统中的最小交互内容发现《ACM交互式智能系统交易》6，第15:1-15:25页，2016年。

Suvash Sedhain、Hung Bui、Jaya Kawale、Nikos Vlassis、Branislav Kveton、Aditya Menon、Trung Bui和Scott Sanner。大规模单类协同过滤的实用线性模型2016年第25届国际人工智能联合会议记录。

施总、郝妮、宋肯尼、柯南罗斯玛丽、郑雯和布莱尼斯拉夫·克维顿。大规模推荐问题的级联带宽《第32届人工智能不确定性会议论文集》，2016年。

Sumeet Katariya、Branislav Kveton、Csaba Szepesvari和Zheng Wen。DCM强盗：学会多次点击排名《第33届机器学习国际会议论文集》，2016年。

2015

Branislav Kveton、Zheng Wen、Azin Ashkan和Csaba Szepesvari。组合级联带宽《神经信息处理系统进展》，2015年第28期。

贾亚·卡瓦莱（Jaya Kawale）、洪布（Hung Bui）、布拉尼斯拉夫·克韦顿（Branislav Kveton）、龙川（Long Tran-Thanh）和桑杰·查拉（Sanjay Chawla）。在线矩阵分解推荐的高效Thompson抽样《神经信息处理系统进展》，2015年第28期。

Branislav Kveton、Csaba Szepesvari、Zheng Wen和Azin Ashkan。级联盗贼：学习在级联模型中排名《第32届机器学习国际会议论文集》，2015年。

郑文、Branislav Kveton和Azin Ashkan。大规模组合半群中的有效学习《第32届机器学习国际会议论文集》，2015年。

阿津·阿什坎（Azin Ashkan）、布拉尼斯拉夫·克韦顿（Branislav Kveton）、谢洛莫·贝尔科夫斯基（Shlomo Berkovsky）和郑文（Zheng Wen）。推荐的最优贪婪多样性《第24届国际人工智能联合会议记录》，2015年。

Branislav Kveton、Zheng Wen、Azin Ashkan和Csaba Szepesvari。随机组合半群的紧后悔界《第18届国际人工智能与统计会议论文集》，2015年。

Branislav Kveton和Shlomo Berkovsky。推荐系统中的最小交互搜索在2015年第20届美国计算机学会智能用户界面会议论文集上。

2014

维克托·加比隆（Victor Gabillon）、布拉尼斯拉夫·克维顿（Branislav Kveton）、郑文（Zheng Wen）、布莱恩·埃里克森（Brian Eriksson）和S.穆图克里希南（S.Muthukrishnan）。大尺度乐观自适应子模块2014年第28届AAAI人工智能会议记录。

Branislav Kveton、Zheng Wen、Azin Ashkan和Hoda Eydgahi。拟阵盗贼：实用的大规模组合盗贼。2014年AAAI大数据顺序决策研讨会会议记录。

Tomas Kocak、Michal Valko、Remi Munos、Branislav Kveton和Shipra Agrawal。光滑图函数的谱带及其在推荐系统中的应用。2014年AAAI大数据顺序决策研讨会会议记录。

Branislav Kveton、Zheng Wen、Azin Ashkan、Hoda Eydgahi和Brian Eriksson。拟阵匪徒：带学习的快速组合优化《第30届人工智能不确定性会议论文集》，2014年。

Salman Salamatian、Nadia Fawaz、Branislav Kveton和Nina Taft。SPPM：稀疏隐私保护映射《第30届人工智能不确定性会议论文集》，2014年。

Michal Valko、Remi Munos、Branislav Kveton和Tomas Kocak。光滑图函数的谱带《第31届机器学习国际会议论文集》，2014年。

2014年之前

请参阅我的出版物列表，网址为学者.