第三届L4DC 2021:瑞士虚拟赛事
阿里·贾德巴比 , 约翰·利杰罗斯 , 乔治·J·帕帕斯 , 巴勃罗·帕里罗 , 本杰明·雷奇特 , 克莱尔·汤姆林 , 梅兰妮·泽林格 :
第三届动力学和控制学习年会会议记录,L4DC 2021年6月7日至8日,瑞士虚拟活动。 机器学习研究进展 144, PMLR公司 2021 阿里·贾德巴伊 , 约翰·利杰罗斯 , 乔治·J·帕帕斯 , 巴勃罗·帕里罗 , 本杰明·雷奇特 , 克莱尔·汤姆林 , 梅兰妮·泽林格 :
前言。 1-5 布兰登·阿莫斯 , 塞缪尔·斯坦顿 , 丹尼斯·亚拉特斯 , 安德鲁·戈登·威尔逊 :
基于模型的随机值梯度用于连续强化学习。 6-20 阿诺普库玛声纳 , 文森特·帕切利 , 阿尼鲁达·马朱姆达尔 :
不变策略优化:在强化学习中实现更强的泛化。 21-33 马蒂厄·巴雷奥 , 约翰·刘 , 卡尔·亨利克·约翰逊 :
噪声拉格朗日传感下标量双曲偏微分方程基于学习的状态重构。 34至46 Thinh T.Doan公司 :
非线性双时间尺度随机逼近:收敛性和有限时间性能。 47 彭昭 , 张丽君 :
强凸光滑函数动态回归的改进分析。 48-59 萨拉尔·法塔希 :
从对数样本数学习部分可观测线性动力系统。 60-72 Kei Akuzawa先生 , 岩川优介 , 松尾裕中 :
元强化学习中关于隐藏状态和隐藏任务的分离信念估计。 73-86 劳拉·费拉罗蒂 , 瓦伦蒂娜·布莱斯基 , 阿尔贝托·本普拉德 :
共享的好处:一个云辅助的性能驱动框架,用于学习最佳反馈策略。 87-98 安德烈亚·萨塞拉 , 瓦伦蒂娜·布莱斯基 , 西蒙·福门汀 :
用于线控制动应用的开关参考调速器的数据驱动设计。 99-110 费尔南多·加马 , 索马耶·索朱迪 :
分布式线性二次控制的图形神经网络。 111-124 梅根·布克 , 阿尼鲁达·马朱姆达尔 :
学会主动减少机器人控制任务的内存需求。 125-137 梁旭 , 穆斯塔法·萨欣·图兰 , 郭百伟 , 吉安卡洛·费拉里·特雷卡特 :
基于输入输出数据的鲁棒跟踪控制器的非保守设计。 138-149 亚历山大·罗比 , 阿曼·阿迪比 , 布伦特·施洛特费尔特 , 哈迈德·哈萨尼 , 乔治·J·帕帕斯 :
分布式约束子模块最大化的优化算法。 150-162 阿姆尔·阿兰瓦尔 , 安妮·科赫 , 弗兰克·奥尔格(Frank Allgöwer) , 卡尔·亨利克·约翰逊 :
使用矩阵分区图的数据驱动可达性分析。 163-175 保罗·M·J·范登霍夫 , 卡希克·拉加万·拉马斯瓦米(Karthik Raghavan Ramaswamy) :
学习动态网络中的本地模块。 176-188 薛安东(Anton Xue) , 尼古拉·马特尼 :
数据驱动系统级综合。 189-200 亚当·索普 , 肯德里克·奥尔蒂斯 , Meeko M.K.Oishi先生 :
使用分离核学习近似前向可达集。 201-212 英格瓦·齐埃曼 , 亨利克·桑德伯格 :
关于具有未知B矩阵的自适应LQR中的不一致最优策略。 213-226 卢卡斯·弗罗里奇(Lukas P.Fröhlich) , 梅兰妮·泽林格 , 埃德加·D·克伦斯克 :
高效可扩展策略搜索的谨慎贝叶斯优化。 227-240 格本·贝因特马 , 罗兰·托斯 , 马尔滕·肖肯斯 :
使用深度编码器网络进行非线性状态空间识别。 241-250 费利克斯·布宁 , 阿德里安·沙尔贝特 , 艾哈迈德·阿布多尼亚 , 马蒂亚斯·胡多巴德恩(Mathias Hudoba de Badyn) , 菲利普·希尔 , 约翰·利杰罗斯 :
用于构建MPC的输入凸神经网络。 251-262 贝诺·特莱加特 , 拉斐尔·荣格斯 , 让·布查特 :
混合最优控制中基于抽象的分支定界Q学习方法。 263-274 克拉拉·卢西亚·加林贝蒂 , 梁旭 , 吉安卡洛·费拉里·特雷卡特 :
哈密顿深度神经网络的统一框架。 275-286 尼尔斯·维勒 , 朱利安·柏柏里奇 , 安妮·科赫 , 弗兰克·奥尔格(Frank Allgöwer) :
基于有限水平耗散的数据驱动控制器设计。 287-298 洛伦斯·德舍尔 , 大卫·斯坦格 , 德克·阿贝尔 :
利用参数空间方法进行控制器设计的安全贝叶斯优化。 299-311 利西奥·罗马奥 , 科斯塔斯·马盖洛斯 , 安东尼斯·帕帕克里斯托杜鲁 :
对于具有任意数量删除样本的场景程序,严格采样和丢弃边界。 312至323 亚历山大·冯·罗尔 , 马蒂亚斯·纽曼-布罗希 , 塞巴斯蒂安·特里普 :
高斯过程的概率鲁棒线性二次调节器。 324-335 郑丽媛 , 袁元石 , 莉莲·拉特利夫 , 张宝森 :
顶点网络控制仿射系统的安全强化学习。 336-347 里卡·安东诺娃 , 阿纳斯塔西亚·瓦拉瓦 , 培阳市 , J.弗雷德里科·卡瓦略 , 丹尼卡·克拉吉奇 :
可变形对象预测模型的序列拓扑表示。 348-360 李嘉琪 , 罗斯·德拉蒙德 , 史蒂芬·R·邓肯 :
量化和剪枝神经网络的鲁棒误差界。 361-372 悉达多·萨特帕蒂 , Rayadurgam Srikant公司 :
超参数化神经网络的梯度下降动力学。 373-384 王瑞(Rui Wang) , 丹妮尔·马迪克斯 , 克里斯托斯·法洛索斯 , 王玉阳 , 罗丝·余 :
桥接基于物理和数据驱动的学习动力系统建模。 385-398 莎拉·迪恩 , 本杰明·雷奇特 :
确定性等效感知控制。 399-411 马修·格兰佐托 , 罗曼·波斯托扬 , 德拉甘·内西奇 , 卢西安·布索尼乌 , 贾马尔·达福兹 :
何时停止值迭代:稳定性和近优性与计算。 412-424 约书亚·汉森 , 马克西姆·拉金斯基 , 爱德华多·桑塔格 :
学习非线性系统的递归神经网络模型。 425至435 马里奥·斯兹奈尔 :
用于学习Koopman算子的数据驱动凸优化方法。 436-446 库沙尔·查克拉巴蒂 , 尼鲁帕姆·古普塔 , 尼赫·乔普拉 :
使用迭代预处理加速线性回归的分布式SGD。 447-458 阿拉什·梅赫茹 , 穆罕默德·加瓦姆扎德 , 伯恩哈德·舍尔科夫 :
神经Lyapunov重新设计。 459-470 尼古拉斯·M·波菲 , 斯蒂芬·图 , 珍妮·雅克·斯隆 :
自适应非线性控制的遗憾界。 471-483 梁俊驰(Junchi Liang) , Abdeslam Boularias公司 :
基于有限状态任务机的长水平操作任务的自我监督学习。 484-497 阿米尔·阿里·艾哈迈迪 , 阿布拉尔·乔杜里 , 维卡斯·辛德瓦尼 , 斯蒂芬·图 :
从短轨迹安全学习动力系统。 498-509 王子怡 , 奥斯文So , Keuntaek Lee公司 , 埃文格洛斯·西奥多罗 :
随机搜索的自适应风险敏感模型预测控制。 510-522 英兆联 , 科林·琼斯 :
非线性数据支持预测和控制。 523-534年 Ioannis Proimadis公司 , 尤里克·布鲁恩斯 , 罗兰·托斯 , 汉斯·巴特勒 :
基于学习的前馈增强,用于纳米精度平面致动器系统上残余动力学的稳态抑制。 535-546 詹姆斯·普莱斯 , Gaurav S.Sukhatme公司 :
控制任务连续空间的次优覆盖。 547-558 杨正 , 卢卡·福里埃里 , 玛丽亚姆·坎加普尔 , 李娜(Na Li) :
输出反馈系统线性二次高斯(LQG)控制的样本复杂性。 559-570 纪尧姆·O·伯杰 , 拉斐尔·荣格斯 , 王哲明(Zheming Wang) :
机会约束拟凸优化及其在数据驱动切换系统控制中的应用。 第571页至第583页 克里斯蒂安·埃本·鲍尔 , 费边·菲茨 , 俞树友 :
具有下降视野学习的未知(线性)系统的控制。 584-596 张静伟(Jingwei Zhang) , 杨卓然 , 周正源 , 王兆然 :
竞争线性二次系统中的显著样本高效强化学习。 597-598 汤玉洁 , 杨正 , 李娜(Na Li) :
线性二次高斯(LQG)控制的优化前景分析。 599-610 加布里埃拉·皮祖托 , 迈克尔·米斯特里 :
物理惩罚规则化学习动力学模型与接触。 611-622 阿明·莱德勒 , 亚历山大·卡彭 , 托马斯·贝克斯 , 乔纳斯·乌姆劳夫特 , 桑德拉·赫切 :
数据对基于学习的控制稳定性的影响。 623-635 约瑟夫·高迪奥 , Anuradha M.Annaswamy女士 , 何塞·莫鲁 , 迈克尔·博兰德 , 特拉维斯·吉布森 :
加速学习,具有对抗回归的稳健性。 636-650 萨欣·莱尔 , Oguzhan Teke公司 , 巴巴克·哈西比 , 阿尼玛·阿南德库玛 :
随机异步线性时变系统的稳定性与辨识。 651-663 勒纳特·特雷文 , 塞巴斯蒂安·居里 , 莫杰米尔·穆滕 , 安德烈亚斯·克劳斯 :
从单个轨迹学习不稳定线性二次调节器的镇定控制器。 664-676 马蒂奥·马奇 , 巴赫曼·加勒斯法尔德 , 保罗·塔布阿达 :
训练深度剩余网络以获得一致逼近保证。 677-688 张乃福(Naifu Zhang) , 尼古拉斯·卡佩尔 :
LEOC:整合强化学习和经典控制理论的原则方法。 689-701 赵飞然 , 科优优 :
无模型风险约束线性二次调节器的原对偶学习。 702-714 玩火者 , 安东尼斯·帕帕克里斯托杜鲁 :
利用稀疏性进行神经网络验证。 715-727 孙大伟 , 穆罕默德·贾瓦德·科贾斯特 , Shubhanshu Shekhar公司 , 楚楚凡 :
使用高斯过程和神经控制收缩度量的不确定感知安全勘探规划。 728-741 灌南区 , 袁元石 , 萨欣·莱尔 , 阿尼玛·阿南德库玛 , 亚当·维曼 :
线性时变系统的稳定在线控制。 742-753 史密斯 , 迈克尔·米斯特里 :
ARDL-自适应机器人动力学学习库。 754-766 Konstantinos Gatsis公司 :
通信保证网络上的线性回归。 767-778 安俊熙 , 路易斯·森蒂斯 :
专家嵌套混合:混合动力系统的合作与竞争学习。 779-790 刘晨雨 , 张燕(音译) , 易神 , 迈克尔·M·扎夫拉诺斯 :
不知情学习:持续迁移强化学习中未观察到的情境。 791-802 安娜斯·马克德斯 , 安托万·吉拉德 , 劳伦特·弗里堡 :
单调系统的数据驱动抽象。 803-814 Akshay Mete公司 , 拉赫尔·辛哈 , 西刘 , P.R.库马尔 :
强化学习的奖励偏向最大似然估计。 815-827年 穆拉德·阿布·哈拉夫 , Sertac Karaman公司 , 丹妮拉·鲁斯 :
像素反馈:通过基于学习的场景视图合成进行输出调节。 828-841 纳维德·哈希米 , 贾斯汀·鲁思 , 马亚尔·法兹利亚布 :
通过凸优化证明神经网络的增量二次约束。 842-853 临洮叶 , 阿里特拉·密特拉 , 史莱亚斯·桑达拉姆 :
贝叶斯学习的近最优数据源选择。 854-865 丹尼尔·埃斯特班·奥乔亚 , 豪尔赫·波维达 , 阿南塔兰·苏巴拉曼 , Gerd S.施密特 , Farshad R.Pour Safaei公司 :
通过数据驱动混合动力学和非光滑ODE的加速并行学习算法。 866-878 安舒卡·兰吉 , 穆罕默德·贾瓦德·科贾斯特 , 马西莫·弗朗切切蒂 :
网络物理系统中基于学习的攻击:探索、检测和控制成本权衡。 879-892 安德斯·兰泽 :
有限线性系统集的极小极大自适应控制。 893-904 皮埃尔·弗兰索瓦·马西亚尼 , 史蒂夫·海姆 , 塞巴斯蒂安·特里普 :
关于学习安全约束的探索要求。 905-916 王史提芬 , 姜乐军(Lejun Jiang) , 罗宾·沃尔特斯 , 塔马斯·莫尔纳 , 加博尔·奥罗斯 , 罗丝·余 :
使用车对车通信进行交通预测。 917-929 迅碧·A·吉 , 塔玛斯·G·莫尔纳 , 谢尔盖·阿韦迪索夫 , 加博尔·奥尔奥斯(Gábor Orosz) :
学习具有可训练时滞的时滞系统的动力学。 930-942 Moe先生 , 卡米拉·斯特鲁德 :
解耦动力学和采样:用于不均匀采样数据和灵活在线预测的RNN。 943年至1953年 徐静熙 , 布鲁斯·D·李 , 尼古拉·马特尼 , 迪内什·贾亚拉曼 :
基于感知的学习型控制器如何受到鲁棒控制极限的影响? 954-966年 萨欣·莱尔 , 卡米亚尔·阿齐扎德涅谢利 , 巴巴克·哈西比 , 阿尼玛·阿南德库马尔 :
自回归外部系统的有限时间系统辨识与自适应控制。 967-979 埃利奥特·斯科姆斯基 , 贾恩·德戈纳 , 亚伦·图尔 :
通过学习和进化自动发现物理信息神经状态空间模型。 980-991 帕特里夏·保利 , 约翰内斯·科勒 , 朱利安·贝贝里奇 , 安妮·科赫 , 弗兰克·奥尔格(Frank Allgöwer) :
使用神经网络控制器进行无偏置设定点跟踪。 992-1003 明州音 , 安德里亚·伊安内利 , 罗伊·史密斯 :
数据驱动预测控制的最大似然信号矩阵模型。 1004-1014 埃米利奥·塔诺维·马达莱纳 , 保罗·沙恩霍斯特 , 姜云宁(Yuning Jiang) , 科林·琼斯 :
KPC:具有确定性保证的基于学习的模型预测控制。 1015-1026 阿迪蒂亚·加拉瓦特 , 阿伦·拉克希曼(Arun Lakshmanan) , 林松 , 安德鲁·帕特森 , 吴卓焕 , 奈拉·霍瓦基米扬 , 埃文格洛斯·西奥多罗 :
收缩ℒ 1 -使用高斯过程的自适应控制。 1027-1040 诺埃尔·科索马·桑克林 , 瑞安·K·科斯纳 , 民代 , 安德鲁·J·泰勒 , 亚伦·D·艾姆斯 :
具有控制屏障功能和投影到状态安全性的安全双足运动情景学习。 1041-1053 塞缪尔·安斯沃思 , 肯达尔·洛瑞 , 约翰·蒂克斯敦 , 扎伊德·哈查伊 , 悉达多·S·斯里尼瓦萨 :
通过持续时间梯度加快政策学习。 1054-1067 Hotae Lee公司 , 莫尼莫·布贾巴鲁 , 弗朗西斯科·博雷利 :
学习如何解“泡泡球”。 1068-1079年 本杰明·格雷维尔 , 伊曼·羞耻 , 泰勒·H·萨默斯 :
线性二次控制的近似中点策略迭代。 1080-1092 李宇通 , 南丽 , H.Eric Tseng先生 , 阿诺克·吉拉德 , Dimitar P.文件 , 伊利亚·科尔马诺夫斯基 :
使用鲁棒动作控制器进行安全强化学习。 1093-1104 Benoit Landry公司 , 戴洪凯 , 马可·帕沃内 :
SEAGuL:价值函数的有效对抗引导学习示例。 1105-1117 西蒙·托塔罗 , 安德斯·琼森 :
用于强化学习的快速随机卡尔曼梯度下降法。 1118-1129 肖恩·J·王 , 亚伦·M·约翰逊 :
使用系统不变量动力学模型的域自适应。 1130-1141 亚伦·J·哈文斯 , Girish Chowdhary女孩 :
机械系统预测和控制的强制变分积分器网络。 1142-1153年 拉斐尔·拉斐洛夫 , 天河余 , 阿拉文德·拉杰斯瓦兰 , 切尔西-芬兰人 :
利用潜在空间模型从图像中进行离线强化学习。 1154-1168 德鲁瓦·卡提克 , 内拉杰·苏德 , 乌尔巴什·米特拉 , 塔拉·贾维迪 :
估计分布的自适应抽样:贝叶斯置信上限方法。 1169-1179 尼古拉斯·加利奥托 , 亚历克斯·阿卡迪·戈洛德斯基 :
从输入输出数据识别部分可观测线性时变动力系统的新目标。 1180-1191年 乌达亚·盖 , 大卫史奈德 , 阿尼鲁达·马朱姆达尔 , 埃拉·哈赞 :
为控制器验证生成对抗干扰。 1192-1204 阿维克监狱 , 陈源翰 , 丹尼尔·布朗 , 安卡·D·德拉甘 :
模型预测控制的最优成本设计。 1205-1217 钟耀峰(音) , 比斯瓦迪普·戴伊 , 阿米特·查克拉博蒂 :
从数据中学习动态的节能神经网络基准。 1218-1229 Siddharth Karamcheti公司 , 阿尔伯特·J·翟 , 迪伦·洛西 , 多尔萨·萨迪格 :
学习辅助远程操作的视觉引导潜在动作。 1230-1241 靖宇 , 克莱门·盖林 , 弗洛里安·施费尔 , 阿南德库玛(Animashere Anandkumar) :
稳健强化学习:一种约束博弈论方法。 1242-1254 亚辛·尼穆尔 , 伯恩哈德·舍尔科夫 , 朱家杰 :
近似分布鲁棒非线性优化及其在模型预测控制中的应用:一种函数方法。 1255-1269 高塔姆·戈尔 , 巴巴克·哈西比 :
回归最优测量反馈控制。 1270-1280 穆罕默德·科斯拉维 :
学习Koopman算子的有限维表示。 1281
![](https://dblp.uni-trier.de/img/cog.dark.24x24.png)