Assess and Summarize: Improve Outage Understanding with Large Language Models

Jin, Pengxiang; Zhang, Shenglin; Ma, Minghua; Li, Haozhe; Kang, Yu; Li, Liqun; Liu, Yudong; Qiao, Bo; Zhang, Chaoyun; Zhao, Pu; He, Shilin; Sarro, Federica; Dang, Yingnong; Rajmohan, Saravan; Lin, Qingwei; Zhang, Dongmei

摘要：近年来，云系统由于其灵活性和可扩展性而越来越受欢迎。每当云端承载的云计算应用程序和服务受到云中断的影响时，用户可能会遇到响应速度慢、连接问题或总服务中断等问题，从而对业务产生重大负面影响。停机通常由多个同时发生的事件/源原因组成，因此，了解停机的背景是缓解和解决停机的非常具有挑战性但至关重要的第一步。在当前实践中，具有深入领域知识的待命工程师必须在发生停机时手动评估和总结停机，这既耗时又费力。在本文中，我们首先进行了一项大规模的实证研究，调查了微软呼叫工程师目前处理云中断的方式，然后提出并实证验证了一种新的方法（称为Oasis），以帮助工程师完成这项任务。Oasis能够自动评估中断的影响范围，并生成可读的摘要。具体来说，Oasis首先通过多种技术聚合相关事件来评估大修的影响范围。然后，它通过利用GPT-3.x等经过微调的大型语言模型生成一个人类可读的摘要。Oasis的影响评估组件三年多前在微软推出，现在已被广泛采用，而停机摘要组件最近才推出，在本文中，我们展示了我们对18个真实世界的云系统进行的实证评估的结果，以及对停机所有者进行的基于人为的评估。结果表明，Oasis能够有效地总结停机情况，并引导微软部署其第一个原型，该原型目前正被一些事故小组试用。

学科：	软件工程（cs.SE）
引用为：	arXiv公司：2305.18084[cs.SE]
	（或 arXiv:2305.18084v1[cs.SE]对于此版本）
	https://doi.org/10.48550/arXiv.2305.18084

计算机科学>软件工程

标题：评估和总结：使用大型语言模型提高对大修的理解

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目