使用动态策略编程进行反向强化学习| IEEE会议出版物| IEEE Xplore