欢迎来到ALR-Lab

人类与机器人研究所的自主学习机器人（ALR）实验室外部链接信息学系，专注于开发机器人的新型机器学习方法。未来的机器人技术将必须处理非常具有挑战性的现实世界场景，这些场景与机器人研究中通常考虑的实验室环境截然不同。现实世界中的环境是未知的和非结构化的，由形状不可预测的对象甚至其他未知的代理（如人类）组成。机器人在与此类环境交互时会遇到许多不同的情况，因此对此类任务进行预先编程似乎是不可行的。

我们的研究重点是机器学习、机器人学、人机交互和计算机视觉的交叉。我们的目标是创建数据效率高、数学原理合理的机器学习算法，适用于复杂的机器人领域，例如抓取和操作、强制交互或动态运动任务。在我们的研究中，我们始终致力于为我们开发的基于一阶原理的算法奠定坚实的理论基础。在方法方面，我们的工作重点是：

运动表现
强化学习和政策搜索
模仿学习与互动学习
模型学习
感知

虽然我们致力于为机器学习的每个领域扩展最新技术，但我们的愿景是创建这些方法的组合，以开发一个完全自主的学习机器人系统。

新闻：

新ICML论文：利用混合专家的课程强化学习获取多种技能

我们提出了多样技能学习（Di-Skill），这是一种新的强化学习方法，用于学习针对相同/或类似问题的多种技能。这些技能被形式化为运动原语，使用基于能量的专家混合（MoE）策略进行调整，允许该策略学习最先进的技术，为多模式机器人任务（如乒乓球）执行各种技能。

新RLC论文：RL中多模态表示的重构与对比方法相结合

我们提出了一个RL多模态表示学习的一般框架，该框架允许为每个模态定制自我监督损失。我们系统地展示了这种方法在不同任务集上的优势，包括具有自然背景、遮挡的图像，以及在移动和移动操作任务中具有挑战性的传感器融合。

新RA-L论文：运动原语扩散：学习机器人对可变形物体的温和操作

运动基本扩散（MPD）是一种基于扩散的模拟学习方法，用于生成高质量的机器人运动，重点是对可变形对象的温和操作。

新CMAME论文：Physics-informated MeshGraphNets（PI-MGNs）：用于任意网格上非平稳和非线性模拟的神经有限元解算器

我们将图形神经网络与物理信息训练相结合，以学习任意问题域上的复杂物理行为，而无需显式训练数据。我们在二维和三维的线性和非线性模拟中对我们的方法进行了评估，其性能优于现有的数据驱动方法，同时在推理过程中对看不见的网格显示出很强的泛化性能。

ICML的新论文：超越ELBOs：抽样变分方法的大尺度评估

我们介绍了一种新的变分采样方法基准。具体来说，我们评估了最新的采样方法，重点是变分蒙特卡罗方法，例如基于扩散的采样方法。我们分析了不同性能标准的优缺点，特别侧重于量化模式崩溃。此外，我们引入了一种新的启发式方法来量化模式冲突。

新HRI论文：用于机器人学习的基于增强现实的数据采集接口的综合用户研究

在本文中，我们进行了一项全面的用户研究，比较了五种不同的机器人控制界面用于机器人学习。这项研究揭示了对其可用性和有效性的宝贵见解。结果表明，基于成功率、任务完成率、完成时间和用户体验问卷（UEQ+），提出的动觉教学界面在客观和主观指标上均显著优于其他界面。

我们搬家了！

现在你可以在50.19号楼InformationKOM I 4楼卡尔斯鲁厄76131。

ICLR的新论文：走向多元化行为：模拟学习与人类演示的基准

我们引入了模拟基准环境和相应的数据集，其中包含用于模拟学习的各种人类演示（D3IL），这些数据集专门用于评估模型学习多模态行为的能力

ICLR的新论文：打开黑匣子：基于步骤的时间相关情景强化学习策略更新

我们提出了一种新的RL框架，该框架将基于步骤的信息集成到Episodic RL的策略更新中，同时保留了广泛的探索范围、运动相关建模和轨迹平滑性。

CoRL23的新论文：新物体和遮挡物体的自适应少快照6D姿态估计

对不带网格模型和杂波场景中gt-mask的新型物体的6D姿态估计感兴趣吗？查看我们的#CORL2023论文“SA6D：新物体和遮挡物体的自适应少快照6D姿态估计器”

新Neurips论文（聚焦）：多时间尺度世界模型

需要一种原则性的基本形式主义来设计层次世界模型吗？看看我们的新论文，我们在其中提出了一种概率形式主义和神经网络体系结构，用于学习多时间抽象/层次结构的世界模型。这些轻量级潜在线性模型可以在预测方面与最先进的变压器竞争，并进一步量化不确定性。

新NeurIPS论文：信息最大化课程：一种基于课程的模仿多样化技能的方法

从不同的人体演示中模仿学习可以导致多模态数据分布。我们提出了一种新的算法，将课程学习和混合专家策略相结合，以避免模式平均，并学习不同的行为。

新NeurIPS论文：自适应群网格优化

用我们的新算法感受优化模拟的“刺激”，~~自主感觉子午线反应~~自适应群网格优化（ASMR）。通过在网格中使用智能代理网络，我们的方法大大提高了计算速度和准确性。ASMR提供了可扩展且高效的优化，超越了常见基线，性能与昂贵的基于错误的策略不相上下，同时运行效率更高。

新NeurIPS论文：超越深度集成：分布转移下贝叶斯深度学习的大规模评估

贝叶斯深度学习（BDL）对分布移位数据提供了更好的校准预测。我们提出了一项大规模调查，以使用WILDS收集的真实世界数据集评估现代BDL技术，强调它们在不同神经网络架构的分布变化下进行概括和校准的能力。我们的研究包括第一个用于微调大型预处理模型的系统BDL评估，一个新的校准度量，可以区分过度自信和欠自信预测，以及一系列基于卷积和变换的神经网络。有趣的是，集成单模近似通常会增强模型的泛化和校准。然而，在微调大型变压器模型时会遇到挑战。在这种情况下，“Bayes By Backprop”在准确性方面表现出色，而SWAG实现了最佳校准。

新TMLR论文：高斯混合模型自然梯度变分推断的统一观点

利用高斯混合模型（GMM）的变分推理可以学习高达数百维的难处理目标分布的高度易处理的多模态近似。目前最有效的两种基于GMM的变分推理方法VIPS和iBayes-GMM都对各个分量及其权重使用独立的自然梯度更新。我们确定了几种设计选择，以区分这两种方法并测试所有可能的组合。我们确定了一种新的算法选择组合，与以前的方法相比，这种组合可以产生更准确的解决方案，更新更少。

新的预打印：MP3：基于运动原语的（重新）规划策略

我们介绍了一种新的深度强化学习（RL）方法，称为基于运动原语的规划策略（MP3）。通过将动作原语（MP）集成到深度RL框架中，MP3可以在整个学习过程中生成平滑的轨迹，同时有效地学习稀疏和非马尔科夫奖励。此外，MP3利用ProDMP的重新规划功能保持了在执行过程中适应环境变化的能力，并在竞争性基准测试任务上优于其他RL算法。

RAL新论文：用于多视图6D对象姿态估计的对称感知多向融合

我们提出了一种新的6D姿势估计算法，该算法利用点云和rgb信息从多个视图推断场景中多个物体的姿势。我们的方法是基于关键点检测器和从多个视图获得的rgb和点云数据的多向融合。扩展了关键点检测器，也适用于对称对象。我们的方法在几个公共基准数据集上取得了前所未有的性能。

新ICLR23论文：通过准确的任务后验推理实现准确的贝叶斯元学习

神经过程（NP）是一种基于深度神经网络的BML体系结构，近年来取得了显著的成果。之前的工作研究了一系列体系结构修改以提高性能，例如关注的计算路径或改进的上下文聚合方案，而VI方案的影响仍有待探索。GMM-NP不需要复杂的架构修改，从而产生一个功能强大但概念简单的BML模型，在一系列具有挑战性的实验中表现优于现有技术，突出了其在数据稀缺的环境中的适用性。

使用物理传感器观测的ICLR23接地图网络模拟器的新论文

精确建模现实的物理模拟对于机械工程和机器人运动规划等许多工程学科至关重要。近年来，学习过的图形网络模拟器产生了准确的基于网格的模拟，而所需的计算成本仅为传统模拟器的一小部分。

新论文@ICLR 23：有偏好的对抗性模仿学习

在本文中，我们提出了一种新的算法，该算法扩展了对抗性模仿学习，将偏好作为除演示之外的反馈。结果表明，我们的方法可以从专家论证和不完善的论证中学习。实验表明，该方法在机器人ma基准测试中的有效性。

IEEE RA-L论文：ProDMP:动态和概率运动原语的统一观点

运动基本体（MP）是一个众所周知的概念，用于表示和生成模块化轨迹。MP可大致分为两类：（a）基于动态的方法，可从任何初始状态生成平滑轨迹，例如动态运动基元（DMP）；（b）概率方法，可捕获运动的高阶统计信息，例如概率运动基元。

CoRL 22：通过匹配几何描述符从演示中推断出多功能行为

我们将运动原语与分布匹配目标相结合，学习与专家行为和多功能性相匹配的多功能行为。

新TMLR论文：基于模型的强化学习的深状态空间模型中的不确定性

我们研究了基于模型的RL的最新状态空间建模方法如何表示不确定性。我们发现了一些缺陷，并提出了一个理论上更有根据的替代方案。我们表明，在适当捕捉不确定性很重要的任务中，它可以提高性能。如果你想知道这与猫和仓鼠有什么关系，你必须阅读报纸。

CoRL 22：使用动作原语进行深度黑盒强化学习

基于情节的强化学习（ERL）算法将强化学习（RL）视为一个黑盒优化问题，在该问题中，我们学习为称为上下文的给定任务描述符选择控制器的参数向量，通常表示为运动原语。

ECCV 2022关于RGB图像融合的深度分层变分自动编码的新论文

我们提出了一种新的深度分层变分自动编码器，它可以作为许多融合任务的基础。它可以生成不同的图像样本，这些样本以多个噪声、遮挡或仅部分可见的输入图像为条件。我们创建了三个新的图像融合数据集，表明我们的方法明显优于传统方法。

IROS 2022上关于RGB-D帧上多视图6D姿态估计的新论文

我们提出了一种新的深度学习方法，该方法基于多幅RGB-D图像估计杂乱场景中所有物体的6D姿态。我们的方法比以前的方法准确得多，特别是对于非常遮挡的对象，并且它对动态相机设置和不准确的相机校准非常稳健。

RSS 2022新论文：混合逆动力学模型的端到端学习

我们提出了一种残差混合逆动力学模型的新公式，该模型将完全物理一致的刚体动力学模型与递归LSTM和库仑摩擦函数相结合。该模型使用一种名为“可微分重心”的重心参数的新公式进行端到端训练，该公式隐含地保证了物理一致性的所有条件。在我们的实际机器人运动跟踪实验中，我们表明，新模型能够对看不见的运动实现柔顺和精确的运动跟踪。

新ICRA论文：Push-2-See

本文提出了一种新的基于深度强化学习的交互式场景分割方法。我们的机器人可以学习推送堆中的对象，这样语义分割算法就可以检测到严重混乱堆中的每个对象。

ICRA新论文：机械搜索的层次化政策学习

机械搜索（MS）是一个对象检索框架，它使用启发式算法进行推送，使用基于规则的算法进行高级规划。虽然基于规则的政策在工作方式上得益于人类的直觉，但在许多情况下，它们通常表现为次优。我们提出了一种深度分层强化学习（RL）算法来执行这项任务，从所需的操作次数、成功率以及计算时间来看，该算法提高了搜索性能！