研究论文

NENYA:Microsoft 365针对成本软件故障缓解的级联强化学习

作者：
卢旺（Lu Wang）

微软研究院，北京，UNK，中国

微软研究院，北京，UNK，中国
查看个人资料

,
Pu Zhao先生

微软研究院，北京，UNK，中国

微软研究院，北京，UNK，中国
查看个人资料

,
赵都

微软研究院，北京，UNK，中国

微软研究院，北京，UNK，中国
查看个人资料

,
川洛

微软研究院，北京，UNK，中国

微软研究院，北京，UNK，中国
查看个人资料

,
苏梦娜

Microsoft 365，中国UNK苏州

Microsoft 365，中国UNK苏州
查看个人资料

,
杨芳凯

微软研究院，北京，UNK，中国

微软研究院，北京，UNK，中国
查看个人资料

,
刘玉东

微软研究院，北京，UNK，中国

微软研究院，北京，UNK，中国
查看个人资料

,
林庆伟

微软研究院，北京，UNK，中国

微软研究院，北京，UNK，中国
查看个人资料

,
王敏（Min Wang）

Microsoft 365，中国苏州

Microsoft 365，中国苏州
查看个人资料

,
英农党

Microsoft Azure，西雅图，华盛顿州，美国

Microsoft Azure，西雅图，华盛顿州，美国
查看个人资料

,
张宏宇

纽卡斯尔大学，纽卡斯尔，UNK，澳大利亚

纽卡斯尔大学，纽卡斯尔，UNK，澳大利亚
查看个人资料

,
萨拉文·拉杰莫汉

微软365，美国华盛顿州西雅图

微软365，西雅图，华盛顿州，美国
查看个人资料

,
张冬梅

微软研究院，北京，UNK，中国

微软研究院，北京，UNK，中国
查看个人资料

作者信息和声明

KDD’22：第28届ACM SIGKDD知识发现和数据挖掘会议记录2022年8月第4032–4040页https://doi.org/10.1145/3534678.3539127

出版：2022年8月14日出版历史

KDD’22：第28届ACM SIGKDD知识发现和数据挖掘会议记录

第4032–4040页

摘要

大型分布式系统，如Microsoft 365的数据库系统，需要及时的缓解解决方案来解决故障并提高服务可用性和可靠性。尽管如此，缓解措施的成本可能很高，因为它们可能会导致暂时的性能下降，甚至产生金钱支出。缓解措施可以以被动的方式进行管理，以控制检测到的故障，也可以以主动的方式减少潜在的故障。主动缓解方法通常依赖于两阶段策略：预测模型将首先识别具有高故障风险的实例（如数据库或磁盘），然后可以应用工程师选择的适当缓解措施或自动盗贼学习模型。由于这两个阶段的信息没有完全共享，因此缓解成本和实例状态等重要因素在其中一个阶段往往被忽略。为了解决这些问题，我们提出了NENYA，这是一种基于新型级联强化学习模型的大规模数据库系统的端到端缓解解决方案。通过将数据库状态作为输入，NENYA直接输出缓解措施，并基于缓解成本和故障率的联合累积反馈进行优化。由于绝大多数数据库不需要缓解措施，NENYA利用一种新颖的级联决策结构，首先可靠地过滤出此类数据库，然后重点为其余数据库选择合适的缓解措施。大量的离线和在线实验表明，我们的方法在降低数据库故障率和缓解成本方面优于现有实践。NENYA已集成到Microsoft 365，这是一个生产性平台，听起来很成功。

参考文献

Mirela Madalina Botezatu、Ioana Giurgiu、Jasmina Bogojeska和Dorothea Wiesmann。2016.预测磁盘更换将转向可靠的数据中心。2016年SIGKDD会议记录。39--48.谷歌学者数字图书馆
Tushar Deepak Chandra和Sam Toueg。1996.可靠分布式系统的不可靠故障检测器。美国医学会杂志（JACM）43，2（1996），225--267。谷歌学者数字图书馆
魏晨、山姆·图格和马科斯·卡瓦佐·阿奎莱拉。2002.关于故障探测器的服务质量。IEEE计算机学报51，5（2002），561--580。谷歌学者数字图书馆
Saurabh Gupta、Tirthak Patel、Christian Engelmann和Devesh Tiwari，2017年。大规模系统中的故障：长期测量、分析和影响。高性能计算、网络、存储和分析国际会议论文集。1--12.谷歌学者数字图书馆
Tuomas Haarnoja、Aurick Zhou、Pieter Abbeel和Sergey Levine。2018.软行动者评论家：使用随机行动者的政策外最大熵深度强化学习。2018年ICML会议记录。PMLR，1861-1870年。谷歌学者
格雷格·哈默利（Greg Hamerly）、查尔斯·埃尔坎（Charles Elkan）等人，2001年。磁盘驱动器故障预测的贝叶斯方法。《2001年ICML会议录》，第1卷。Citeser，202-209年。谷歌学者
胡一齐、杨瑜和廖俊达。2019.级联算法选择和极值区域置信上限Bandit超参数优化。2019年IJCAI会议记录。谷歌学者交叉引用
黄晓红。2017.大型存储系统的硬盘故障预测。博士论文。加州大学洛杉矶分校。谷歌学者
Joshua B Leners、Hao Wu、Wei-Lon Hung、Marcos K Aguilera和Michael Walfish。2011年，《使用猎鹰间谍网络检测分布式系统中的故障》，载于第二十届ACM操作系统原理研讨会论文集。279--294.谷歌学者数字图书馆
Sebastien Levy、Randolph Yao、YoujiangWu、Yingnong Dang、Peng Huang、Zheng Mu、Pu Zhao、Tarun Ramani、Naga Govindaraju、Xukun Li等，2020年。Narya：预测性和自适应故障缓解，以避免生产云虚拟机中断。OSDI 2020会议记录。谷歌学者
蒂莫西·利利克拉普（Timothy P Lillicrap）、乔纳森·亨特（Jonathan J Hunt）、亚历山大·普里泽尔（Alexander Pritzel）、尼古拉·赫斯（Nicolas Heess）、汤姆·埃雷斯（Tom Erez）、尤瓦尔·塔萨（Yuval Tassa）、。2015年，通过深度强化学习进行持续控制。(2015).谷歌学者
刘旭英、吴建新和周志华。2008年，班级平衡学习的探索性抽样不足。IEEE系统、人类和控制论汇刊，B部分（控制论）39，2（2008），539-550。谷歌学者
陆思迪（Sidi Lu）、罗冰冰（Bing Luo）、蒂尔塔克·帕特尔（Tirthak Patel）、姚永涛（Yongtao Yao）、提瓦里（Devesh Tiwari）和史伟松（Weissong Shi）。2020年。使磁盘故障预测更加智能！。在第18届{USENIX}文件和存储技术会议（{FAST}20）上。151到167之间。谷歌学者
罗川、赵璞、乔波、吴友江、张宏宇、吴伟、威海路、党英农、拉杰莫汉、林庆伟等，2021年。NTAM：云平台中用于磁盘故障预测的邻域临时注意模型。WWW 2021会议记录。1181--1191.谷歌学者
Sanmit Narvekar、Bei Peng、Matteo Leonetti、Jivko Sinapov、Matthew E Taylor和Peter Stone。2020年。强化学习领域的课程学习：框架和调查。J.马赫。学习。第21号决议（2020年），181:1--181:50。谷歌学者
Jonathan Sillito和Esdras Kutomi。2020年。故障和修复：软件系统事件响应研究。《2020年ICSME会议记录》。IEEE标准，185-195。谷歌学者交叉引用
劳伦斯·范·德·马滕和杰弗里·欣顿。2008.使用t-SNE可视化数据。《机器学习研究杂志》9，11（2008）。谷歌学者
亚历山大·萨沙·维日涅维茨（Alexander Sasha Vezhnevets）、西蒙·奥斯宾多（Simon Osindero）、汤姆·绍尔（Tom Schaul）、尼古拉·海斯（Nicolas Heess）、马克斯·贾德伯格（Max Jaderberg）、大卫·西尔弗（David Silver）和科。2017.分层强化学习的封建网络。2017年ICML会议记录。PMLR，3540-3549。谷歌学者
保罗·维奥拉和迈克尔·琼斯。2001.使用增强的简单功能级联进行快速目标检测。《2001年CVPR会议录》，第1卷。IEEE，我——我。谷歌学者交叉引用
徐勇、隋开新、姚洪宇、张红玉、林庆伟、党英农、李鹏、蒋克曾、张文奇、楼建光等，2018年。通过预测磁盘错误提高云系统的服务可用性。USENIX ATC 2018会议记录。481--494.谷歌学者

索引术语

NENYA:Microsoft 365针对成本软件故障缓解的级联强化学习
1. 计算机系统组织
  1. 体系结构
    1. 分布式体系结构
      1. 云计算
2. 计算方法
  1. 机器学习
    1. 机器学习方法
      1. 神经网络

建议

风险规避分布强化学习：一种CVaR优化方法
IJCCI 2019：第十一届国际计算智能联合会议记录

条件值风险（CVaR）是一种众所周知的风险度量，它直接等同于稳健性，是人工智能（AI）安全的重要组成部分。在本文中，我们着重于在钢筋混凝土框架下优化CVaR。。。
阅读更多信息
具有部件失效相关性的失效类型软件可靠性评估
SSIRI’10：2010年第四届安全软件集成和可靠性改进国际会议记录

大多数现有的可靠性评估技术都假设组件独立失效，并平等地考虑不同类型的失效。通过忽略组件故障相关性，这些技术不恰当地假设组件。。。
阅读更多信息
基于相似性风险映射的安全强化学习

强化学习（RL）已成功地用于解决序列决策问题。然而，在学习过程中同时考虑风险是一个开放的研究问题。在这项工作中，我们对可能导致。。。
阅读更多信息

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

发布于
KDD’22：第28届ACM SIGKDD知识发现和数据挖掘会议论文集
2022年8月
5033页
国际标准图书编号：9781450393850
内政部：10.1145/3534678
总主席：
张爱东
弗吉尼亚大学
,
Huzefa Rangwala公司
亚马逊/乔治·梅森大学
版权所有©2022 ACM
如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布、在服务器上发布或重新分发到列表，需要事先获得特定许可和/或收取费用。从请求权限[电子邮件保护]
赞助商
合作中
出版商
计算机协会
美国纽约州纽约市
出版历史
- 出版：2022年8月14日
权限
请求有关此文章的权限。
请求权限

检查更新
作者标记
级联学习
故障缓解
强化学习
限定符
- 研究论文
会议

接受率
总体验收率1,133属于8,635提交文件，13%
即将召开的会议
KDD'24款

赞助商：

sigkdd公司

sigkdd公司

第30届ACM SIGKDD知识发现和数据挖掘会议

2024年8月25日至29日

巴塞罗那，西班牙
资金来源
其他指标
查看文章指标

文章指标
- 1
  引文总数
  查看引文
- 224
  总下载次数
- 下载次数（过去12个月）62
- 下载量（最近6周）1
其他指标
查看作者指标
引用人
查看全部

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用eReader联机查看。

电子阅读器

NENYA:Microsoft 365针对成本软件故障缓解的级联强化学习

KDD’22：第28届ACM SIGKDD知识发现和数据挖掘会议记录

摘要

参考文献

引用人

索引术语

建议

风险规避分布强化学习：一种CVaR优化方法

具有部件失效相关性的失效类型软件可靠性评估

基于相似性风险映射的安全强化学习

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

权限

检查更新

作者标记

限定符

会议

接受率

即将召开的会议

资金来源

其他指标

文章指标

其他指标

引用人

PDF格式

电子阅读器

数字版

解说词

NENYA:Microsoft 365针对成本软件故障缓解的级联强化学习

KDD’22：第28届ACM SIGKDD知识发现和数据挖掘会议记录

摘要

参考文献

引用人

索引术语

建议

风险规避分布强化学习：一种CVaR优化方法

具有部件失效相关性的失效类型软件可靠性评估

基于相似性风险映射的安全强化学习

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

权限

检查更新

作者标记

限定符

会议

接受率

即将召开的会议

资金来源

文章指标

其他指标

PDF格式

电子阅读器

数字版

共享此出版物链接

在社交媒体上分享