计算机科学>软件工程
标题: Xpert:通过大型语言模型通过查询建议增强事件管理能力
摘要: 大规模云系统在现代IT基础设施中发挥着关键作用。 然而,这些系统中发生的事件可能会导致服务中断,并对用户体验产生不利影响。 为了快速解决此类事件,待命工程师需要创建特定于域的语言(DSL)查询来分析遥测数据。 然而,编写这些查询可能既有挑战性又耗时。 本文对KQL的查询利用率进行了深入的实证研究,KQL是微软大型云管理系统中用于事件管理的DSL。 所获得的调查结果强调了KQL查询建议对加强事件管理的重要性和可行性。 基于这些有价值的见解,我们引入了Xpert,这是一个端到端的机器学习框架,它自动化了KQL推荐过程。 通过利用历史事件数据和大型语言模型,Xpert生成针对新事件定制的KQL查询。 此外,Xpert还集成了一个名为Xcore的新性能指标,可以从三个全面的角度对查询质量进行彻底评估。 我们对Xpert进行了广泛的评估,以证明其在离线设置中的有效性。 值得注意的是,我们在Microsoft大型事件管理系统的实际生产环境中部署了Xpert,验证了它在支持事件管理方面的效率。 据我们所知,本文是第一篇此类实证研究,Xpert是一个开创性的DSL查询推荐框架,旨在进行事件管理。