使用半强盗反馈反复玩网络阻断游戏
使用半土匪反馈玩重复的网络拦截游戏
我们研究了在没有对手和环境先验知识的情况下的重复网络阻断游戏,该游戏可以模拟许多真实的网络安全域。现有的作品往往需要为防守球员提供大量可用信息,而忽视了双方球员之间的频繁互动,这是不现实和不切实际的,因此不适合我们的设置。因此,我们通过应用对抗性在线学习方法,提供了第一种防御策略,该策略在理论和实践上都有很好的性能保证。特别地,我们将无先验知识的重复网络阻断博弈建模为一个在线线性优化问题,为此提出了一种新颖高效的在线学习算法SBGA,该算法利用了网络安全域中独特的半强盗反馈。与事后最佳固定策略和近似最优自适应策略相比,我们证明了SBGA对自适应对手实现了次线性后悔。大量实验也表明,SBGA在收敛速度上明显优于现有方法。
郭庆余
9922ab2c-9e8f-484f-ae29-0455d5edc6b3
安、波
4b0743f9-91c9-4452-868c-1d12b4e9f456
朗特朗
e0666669-d34b-460e-950d-e8b139fab16c
郭庆余
9922ab2c-9e8f-484f-ae29-0455d5edc6b3
安、波
4b0743f9-91c9-4452-868c-1d12b4e9f456
朗特朗
e0666669-d34b-460e-950d-e8b139fab16c
郭庆余,安、波和朗特朗
(2017)
使用半强盗反馈反复玩网络阻断游戏。在第二十六届国际人工智能联合会议(IJCAI-17)。
9页.(新闻稿)
摘要
我们研究了在没有对手和环境先验知识的情况下的重复网络阻断游戏,该游戏可以模拟许多真实的网络安全域。现有的作品往往需要为防守球员提供大量可用信息,而忽视了双方球员之间的频繁互动,这是不现实和不切实际的,因此不适合我们的设置。因此,我们通过应用对抗性在线学习方法,提供了第一种防御策略,具有良好的理论和实际性能保证。特别地,我们将无先验知识的重复网络阻断博弈建模为一个在线线性优化问题,为此提出了一种新颖高效的在线学习算法SBGA,该算法利用了网络安全域中独特的半强盗反馈。我们证明,与事后最优固定策略和近似最优自适应策略相比,SBGA对自适应对手的攻击具有次线性遗憾。大量实验也表明,SBGA在收敛速度上明显优于现有方法。
更多信息
接受/出版日期:2017年4月23日
组织机构:代理、交互和复杂性
标识符
本地EPrints ID:411950
URI(URI):http://eprints.soton.ac.uk/id/eprint/411950
纯UUID:b81f5918-ba9a-43ac-972e-a5310e53aa00
目录记录
存放日期:2017年7月3日16:31
上次修改时间:2024年3月15日15:05
导出记录
贡献者
作者:
郭庆余
作者:
保安
作者:
Long Tran-Thanh公司
下载统计信息
去年从ePrints下载。也可以从出版商网站下载其他数字版本。
查看更多统计信息