跳到主要内容
10.1145/3534678.3539127acm会议文章/章节视图摘要出版物页面千迪拉姆会议记录会议集合
研究论文

NENYA:Microsoft 365针对成本软件故障缓解的级联强化学习

作者信息和声明
出版:2022年8月14日出版历史

摘要

大型分布式系统,如Microsoft 365的数据库系统,需要及时的缓解解决方案来解决故障并提高服务可用性和可靠性。尽管如此,缓解措施的成本可能很高,因为它们可能会导致暂时的性能下降,甚至产生金钱支出。缓解措施可以以被动的方式进行管理,以控制检测到的故障,也可以以主动的方式减少潜在的故障。主动缓解方法通常依赖于两阶段策略:预测模型将首先识别具有高故障风险的实例(如数据库或磁盘),然后可以应用工程师选择的适当缓解措施或自动盗贼学习模型。由于这两个阶段的信息没有完全共享,因此缓解成本和实例状态等重要因素在其中一个阶段往往被忽略。为了解决这些问题,我们提出了NENYA,这是一种基于新型级联强化学习模型的大规模数据库系统的端到端缓解解决方案。通过将数据库状态作为输入,NENYA直接输出缓解措施,并基于缓解成本和故障率的联合累积反馈进行优化。由于绝大多数数据库不需要缓解措施,NENYA利用一种新颖的级联决策结构,首先可靠地过滤出此类数据库,然后重点为其余数据库选择合适的缓解措施。大量的离线和在线实验表明,我们的方法在降低数据库故障率和缓解成本方面优于现有实践。NENYA已集成到Microsoft 365,这是一个生产性平台,听起来很成功。

参考文献

  1. Mirela Madalina Botezatu、Ioana Giurgiu、Jasmina Bogojeska和Dorothea Wiesmann。2016.预测磁盘更换将转向可靠的数据中心。2016年SIGKDD会议记录。39--48.谷歌学者谷歌学者数字图书馆数字图书馆
  2. Tushar Deepak Chandra和Sam Toueg。1996.可靠分布式系统的不可靠故障检测器。美国医学会杂志(JACM)43,2(1996),225--267。谷歌学者谷歌学者数字图书馆数字图书馆
  3. 魏晨、山姆·图格和马科斯·卡瓦佐·阿奎莱拉。2002.关于故障探测器的服务质量。IEEE计算机学报51,5(2002),561--580。谷歌学者谷歌学者数字图书馆数字图书馆
  4. Saurabh Gupta、Tirthak Patel、Christian Engelmann和Devesh Tiwari,2017年。大规模系统中的故障:长期测量、分析和影响。高性能计算、网络、存储和分析国际会议论文集。1--12.谷歌学者谷歌学者数字图书馆数字图书馆
  5. Tuomas Haarnoja、Aurick Zhou、Pieter Abbeel和Sergey Levine。2018.软行动者评论家:使用随机行动者的政策外最大熵深度强化学习。2018年ICML会议记录。PMLR,1861-1870年。谷歌学者谷歌学者
  6. 格雷格·哈默利(Greg Hamerly)、查尔斯·埃尔坎(Charles Elkan)等人,2001年。磁盘驱动器故障预测的贝叶斯方法。《2001年ICML会议录》,第1卷。Citeser,202-209年。谷歌学者谷歌学者
  7. 胡一齐、杨瑜和廖俊达。2019.级联算法选择和极值区域置信上限Bandit超参数优化。2019年IJCAI会议记录。谷歌学者谷歌学者交叉引用交叉引用
  8. 黄晓红。2017.大型存储系统的硬盘故障预测。博士论文。加州大学洛杉矶分校。谷歌学者谷歌学者
  9. Joshua B Leners、Hao Wu、Wei-Lon Hung、Marcos K Aguilera和Michael Walfish。2011年,《使用猎鹰间谍网络检测分布式系统中的故障》,载于第二十届ACM操作系统原理研讨会论文集。279--294.谷歌学者谷歌学者数字图书馆数字图书馆
  10. Sebastien Levy、Randolph Yao、YoujiangWu、Yingnong Dang、Peng Huang、Zheng Mu、Pu Zhao、Tarun Ramani、Naga Govindaraju、Xukun Li等,2020年。Narya:预测性和自适应故障缓解,以避免生产云虚拟机中断。OSDI 2020会议记录。谷歌学者谷歌学者
  11. 蒂莫西·利利克拉普(Timothy P Lillicrap)、乔纳森·亨特(Jonathan J Hunt)、亚历山大·普里泽尔(Alexander Pritzel)、尼古拉·赫斯(Nicolas Heess)、汤姆·埃雷斯(Tom Erez)、尤瓦尔·塔萨(Yuval Tassa)、。2015年,通过深度强化学习进行持续控制。(2015).谷歌学者谷歌学者
  12. 刘旭英、吴建新和周志华。2008年,班级平衡学习的探索性抽样不足。IEEE系统、人类和控制论汇刊,B部分(控制论)39,2(2008),539-550。谷歌学者谷歌学者
  13. 陆思迪(Sidi Lu)、罗冰冰(Bing Luo)、蒂尔塔克·帕特尔(Tirthak Patel)、姚永涛(Yongtao Yao)、提瓦里(Devesh Tiwari)和史伟松(Weissong Shi)。2020年。使磁盘故障预测更加智能!。在第18届{USENIX}文件和存储技术会议({FAST}20)上。151到167之间。谷歌学者谷歌学者
  14. 罗川、赵璞、乔波、吴友江、张宏宇、吴伟、威海路、党英农、拉杰莫汉、林庆伟等,2021年。NTAM:云平台中用于磁盘故障预测的邻域临时注意模型。WWW 2021会议记录。1181--1191.谷歌学者谷歌学者
  15. Sanmit Narvekar、Bei Peng、Matteo Leonetti、Jivko Sinapov、Matthew E Taylor和Peter Stone。2020年。强化学习领域的课程学习:框架和调查。J.马赫。学习。第21号决议(2020年),181:1--181:50。谷歌学者谷歌学者
  16. Jonathan Sillito和Esdras Kutomi。2020年。故障和修复:软件系统事件响应研究。《2020年ICSME会议记录》。IEEE标准,185-195。谷歌学者谷歌学者交叉引用交叉引用
  17. 劳伦斯·范·德·马滕和杰弗里·欣顿。2008.使用t-SNE可视化数据。《机器学习研究杂志》9,11(2008)。谷歌学者谷歌学者
  18. 亚历山大·萨沙·维日涅维茨(Alexander Sasha Vezhnevets)、西蒙·奥斯宾多(Simon Osindero)、汤姆·绍尔(Tom Schaul)、尼古拉·海斯(Nicolas Heess)、马克斯·贾德伯格(Max Jaderberg)、大卫·西尔弗(David Silver)和科。2017.分层强化学习的封建网络。2017年ICML会议记录。PMLR,3540-3549。谷歌学者谷歌学者
  19. 保罗·维奥拉和迈克尔·琼斯。2001.使用增强的简单功能级联进行快速目标检测。《2001年CVPR会议录》,第1卷。IEEE,我——我。谷歌学者谷歌学者交叉引用交叉引用
  20. 徐勇、隋开新、姚洪宇、张红玉、林庆伟、党英农、李鹏、蒋克曾、张文奇、楼建光等,2018年。通过预测磁盘错误提高云系统的服务可用性。USENIX ATC 2018会议记录。481--494.谷歌学者谷歌学者

索引术语

  1. NENYA:Microsoft 365针对成本软件故障缓解的级联强化学习

      建议

      评论

      登录选项

      检查您是否可以通过登录凭据或您的机构访问本文。

      登录

      完全访问权限

      • 发布于

        封面图片ACM会议
        KDD’22:第28届ACM SIGKDD知识发现和数据挖掘会议论文集
        2022年8月
        5033页
        国际标准图书编号:9781450393850
        内政部:10.1145/3534678

        版权所有©2022 ACM

        如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布、在服务器上发布或重新分发到列表,需要事先获得特定许可和/或收取费用。从请求权限[电子邮件保护]

        出版商

        计算机协会

        美国纽约州纽约市

        出版历史

        • 出版:2022年8月14日

        权限

        请求有关此文章的权限。

        请求权限

        检查更新

        限定符

        • 研究论文

        接受率

        总体验收率1,133属于8,635提交文件,13%

        即将召开的会议

        KDD'24款
        第30届ACM SIGKDD知识发现和数据挖掘会议
        2024年8月25日至29日
        巴塞罗那,西班牙

      PDF格式

      以PDF文件查看或下载。

      PDF格式

      电子阅读器

      使用eReader联机查看。

      电子阅读器