Optimal Cost Design for Model Predictive Control

Avik Jain; Lawrence Chan; Daniel S. Brown; Anca D. Dragan

模型预测控制的最优成本设计

Avik Jain、Lawrence Chan、Daniel S.Brown、Anca D.Dragan

第三届动力学和控制学习会议记录，PMLR 144:1205-12172021年。

摘要

许多机器人领域使用某种形式的非凸模型预测控制（MPC）进行规划，该控制设置缩短的时间范围，执行轨迹优化，并在每一步重新规划。实际任务通常需要比可计算的时间范围长得多的时间范围，并通过在整个时间范围内累积的成本函数来指定。例如，自动驾驶汽车可能具有成本函数，该函数在效率、安全风险和遵守交通法规之间做出期望的权衡。在这项工作中，我们挑战了通常的假设，即我们应该为MPC指定的成本应该与任务的基本真实成本相同。我们建议，由于MPC解算器的视野较短，存在局部最优，而且重要的是，未能考虑到未来的重新规划能力，因此在许多任务中，有目的地选择不同的成本函数进行MPC优化可能是有益的：这将导致MPC的推出具有较低的实际成本，而不是MPC计划的轨迹。我们将其形式化为一个最优成本设计问题，并提出一种基于零阶优化的方法，使我们能够为MPC规划机器人设计连续状态和动作MDP的最优成本。我们在一个自主驾驶领域中测试了我们的方法，在该领域中，我们发现成本与地面真相不同，这隐含地补偿了重新规划、短期和局部最小值问题。例如，在已知成本下与vanilla MPC进行规划会激励汽车推迟决策，这隐含了一个事实，即汽车在未来将获得更多信息，并能够做出更好的决策。

引用本文

BibTeX公司

@会议记录{pmlr-v144-jain21a，title＝{模型预测控制的最优成本设计}，author={Jain、Avik和Chan、Lawrence和Brown、Daniel S.和Dragan、Anca D.}，booktitle={第三届动力学和控制学习会议记录}，页数={1205--1217}，年份={2021}，editor={贾巴比、阿里和莱杰罗斯、约翰和帕帕斯、乔治J.和A.帕里罗、巴勃罗和雷希特、本杰明和汤姆林、克莱尔J.和泽林格、梅兰妮N.}，体积={144}，series={机器学习研究论文集}，月={07--08年6月}，publisher={PMLR}，pdf={http://proceedings.mlr.press/v144/jain21a/jain21a.pdf},url={https://proceedings.mlr.press/v144/jain21a.html},abstract={许多机器人领域使用某种形式的非凸模型预测控制（MPC）对于规划，它设置了一个缩短的时间范围，执行轨迹优化，并在每一步重新规划。实际任务通常需要比可计算的时间范围长得多的时间范围，并通过在整个时间范围内累积的成本函数来指定。例如，自动驾驶汽车可能具有一个成本函数，可以在效率、安全风险和遵守交通法规之间进行理想的权衡。在这项工作中，我们挑战了通常的假设，即我们应该为MPC指定的成本应该与任务的基本真实成本相同。我们建议，由于MPC解算器的视野较短，存在局部最优，而且重要的是，未能考虑到未来的重新规划能力，因此在许多任务中，有目的地选择不同的成本函数进行MPC优化可能是有益的：这将导致MPC的推出具有较低的实际成本，而不是MPC计划的轨迹。我们将其形式化为一个最优成本设计问题，并提出一种基于零阶优化的方法，使我们能够为MPC规划机器人设计连续状态和动作MDP的最优成本。我们在一个自主驾驶领域中测试了我们的方法，在该领域中，我们发现成本与地面真相不同，这隐含地补偿了重新规划、短期和局部最小值问题。例如，在学习到的成本下与vanilla MPC进行规划会激励汽车推迟决策，这隐含了一个事实，即汽车在未来将获得更多信息，并能够做出更好的决策。}}

尾注

%0会议论文%模型预测控制的T最优成本设计%A Avik耆那教%劳伦斯·陈%丹尼尔·S·布朗%安卡·D·德拉甘%B第三届动力学和控制学习会议记录%C机器学习研究进展%D 2021年%E阿里·贾德巴比%E John Lygeros公司%E乔治·J·帕帕斯%E巴勃罗·帕里罗%E本杰明·雷希特%E克莱尔·J·汤姆林%E梅兰妮·泽林格%F pmlr-v144-jain21a型%我PMLR%电话：1205--1217%单位https://proceedings.mlr.press/v144/jain21a.html%V 144型%X许多机器人领域使用某种形式的非凸模型预测控制（MPC）进行规划，它设置了一个缩短的时间范围，执行轨迹优化，并在每一步重新规划。实际任务通常需要比可计算的时间范围长得多的时间范围，并通过在整个时间范围内累积的成本函数来指定。例如，自动驾驶汽车可能具有一个成本函数，可以在效率、安全风险和遵守交通法规之间进行理想的权衡。在这项工作中，我们挑战了一个普遍的假设，即我们应该为MPC指定的成本应该与任务的基本事实成本相同。我们建议，由于MPC解算器的视野较短，存在局部最优，而且重要的是，未能考虑到未来的重新规划能力，因此在许多任务中，有目的地选择不同的成本函数进行MPC优化可能是有益的：这将导致MPC的推出具有较低的实际成本，而不是MPC计划的轨迹。我们将其形式化为一个最优成本设计问题，并提出一种基于零阶优化的方法，使我们能够为MPC规划机器人设计连续状态和动作MDP的最优成本。我们在自动驾驶领域测试了我们的方法，在那里我们发现了与实际情况不同的成本，这些成本隐含地补偿了重新规划、短期和局部极小问题。例如，在已知成本下与vanilla MPC进行规划会激励汽车推迟决策，这隐含了一个事实，即汽车在未来将获得更多信息，并能够做出更好的决策。

阿帕

Jain，A.、Chan，L.、Brown，D.S.和Dragan，A.D..（2021年）。模型预测控制的最优成本设计。第三届动力学和控制学习会议记录，英寸机器学习研究进展144:1205-1217网址：https://proceedings.mlr.press/v144/jain21a.html。

模型预测控制的最优成本设计

摘要

引用本文

相关材料