Beyond CAGE: Investigating Generalization of Learned Autonomous Network Defense Policies

Wolk, Melody; Applebaum, Andy; Dennler, Camron; Dwyer, Patrick; Moskowitz, Marina; Nguyen, Harold; Nichols, Nicole; Park, Nicole; Rachwalski, Paul; Rau, Frank; Webster, Adrian

计算机科学>机器学习

arXiv:2211.15557（cs）

【2022年11月28日提交(第1版)，上次修订日期：2022年11月30日（此版本，v2）]

标题：超越CAGE：研究学习型自主网络防御政策的泛化

作者：Melody Wolk公司,安迪·阿普勒鲍姆,Camron Dennler公司,帕特里克·德耶尔,玛丽娜·莫斯科维茨,哈罗德·阮,尼科尔·尼科尔斯,尼科尔·帕克,保罗·拉赫瓦尔斯基,弗兰克·劳,韦伯斯特

查看PDF

摘要：强化学习（RL）的进步启发了网络防御智能自动化的新方向。然而，其中许多进步要么超过了其应用程序对网络安全的支持，要么没有考虑到与在现实世界中实现它们相关的挑战。为了理解这些问题，本文评估了CAGE挑战赛第二版中实施的几种RL方法，这是一项在高保真网络模拟器中构建自主网络防御代理的公开竞赛。我们的方法都建立在近端策略优化（PPO）算法家族的基础上，包括分层RL、动作掩蔽、自定义训练和集成RL。我们发现集成RL技术表现最强，优于我们的其他模型，在竞争中排名第二。为了了解对实际环境的适用性，我们评估了每种方法对未知网络和未知攻击策略的泛化能力。在看不见的环境中，我们所有的方法都表现得更差，退化程度因环境变化的类型而异。针对未知的攻击者策略，我们发现我们的模型降低了整体性能，尽管新策略的效率低于我们的模型训练的策略。总之，这些结果突出了现实世界中自主网络防御的有希望的研究方向。

评论：	NeurIPS 2022研讨会：现实生活中的强化学习
学科：	机器学习（cs.LG）; 密码与安全（cs.CR）
引用为：	arXiv:2211.15557【cs.LG】
	（或 arXiv:2211.15557v2【cs.LG】对于此版本）
	https://doi.org/10.48550/arXiv.2211.15557

提交历史记录

发件人：Andy Applebaum[查看电子邮件]
[第1版]2022年11月28日星期一17:01:24 UTC（242 KB）
[版本2]2022年11月30日星期三14:35:42 UTC（242 KB）

计算机科学>机器学习

标题：超越CAGE：研究学习型自主网络防御政策的泛化

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>机器学习

标题：超越CAGE：研究学习型自主网络防御政策的泛化

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目