计算机科学>机器学习
标题: COIN:不确定感知自适应资源超额订购策略的机会约束模拟学习
摘要: 我们解决了在存在不确定性的情况下学习安全稳健决策政策的挑战,这是一个现实的科学问题,即适应性资源超额订购,以提高资源效率,同时确保安全应对资源拥塞风险。 传统的监督预测或预测模型在学习自适应策略方面效率低下,而标准的在线优化或强化学习很难部署在实际系统上。 由于我们可以直接利用历史资源使用遥测,所以像模拟学习(IL)这样的离线方法是理想的。 但是,这种遥测中潜在的任意不确定性是一个关键的瓶颈。 我们使用我们提出的新的机会约束模拟学习框架来解决这一问题,该框架通过对资源拥塞风险的随机(机会)约束和集合值函数的组合,以原则方式确保针对不确定性的隐式安全。 这导致在许多超额订阅场景中,包括云服务中的资源管理,资源效率和安全性大幅提高(大约3-4倍于$)。