PACE-LM: Prompting and Augmentation for Calibrated Confidence Estimation with GPT-4 in Cloud Incident Root Cause Analysis

Zhang, Dylan; Zhang, Xuchao; Bansal, Chetan; Las-Casas, Pedro; Fonseca, Rodrigo; Rajmohan, Saravan

计算机科学>计算与语言

arXiv:2309.05833（cs）

【提交日期：2023年9月11日(第1版)，最新修订日期：2023年9月29日（本版本，第3版）]

标题：PACE-LM:在云事件根本原因分析中使用GPT-4提示和增强校准的置信度估计

作者：Dylan Zhang（张迪伦）,张旭超,切坦·班萨尔,佩德罗·拉斯·卡萨斯,罗德里戈·丰塞卡,萨拉文·拉杰莫汉

查看PDF

摘要：主要云提供商采用了基于AI的高级解决方案，如大型语言模型，以帮助人们识别云事件的根本原因。尽管AI驱动的助理在根本原因分析过程中越来越普遍，但由于任务的固有困难、基于LLM的幻觉方法的倾向以及区分这些伪装良好的幻觉的困难，他们在协助待命工程师方面的有效性受到了低准确度的限制。为了应对这一挑战，我们建议对预测进行置信度估计，以帮助待命工程师决定是否采用模型预测。考虑到许多基于LLM的根本原因预测器的黑盒特性，基于微调或温度标定的方法不适用。因此，我们设计了一个基于提示检索增强的大型语言模型（LLM）的创新置信度评估框架，该模型要求从根本原因预测器获得最少的信息。该方法由两个评分阶段组成：基于LLM的置信度估计器首先评估其在当前事件中做出判断的置信度，该事件反映了其“基础性”“参考数据的水平，然后根据历史参考对根本原因预测进行评级。优化步骤将这两个分数结合起来进行最终的置信度分配。我们表明，我们的方法能够为预测的根本原因产生校准的置信度估计，验证检索到的历史数据的有用性和提示g策略以及不同根本原因预测模型的通用性。我们的研究为可靠有效地将LLM嵌入云事件管理系统迈出了重要一步。

学科：	计算与语言（cs.CL）; 人工智能（人工智能）；机器学习（cs.LG）；软件工程（cs.SE）
引用为：	arXiv:2309.05833【cs.CL】
	（或 arXiv:2309.05833v3【cs.CL】对于此版本）
	https://doi.org/10.48550/arXiv.2309.05833

提交历史记录

发件人：Dylan Zhang[查看电子邮件]
[第1版]2023年9月11日星期一21:24:00 UTC（1139 KB）
[版本2]2023年9月16日星期六00:12:47 UTC（1139 KB）
[第3版]2023年9月29日星期五16:25:16 UTC（3043 KB）

计算机科学>计算与语言

标题：PACE-LM:在云事件根本原因分析中使用GPT-4提示和增强校准的置信度估计

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算与语言

标题：PACE-LM:在云事件根本原因分析中使用GPT-4提示和增强校准的置信度估计

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目