我们对构建与环境智能交互的工程系统感兴趣。无论是交通(自动车辆)、医学(医学图像分析和干预)、娱乐(AR/VR)还是其他应用,这都需要“了解”周围空间,包括内部的其他代理和对象。愿景在这一过程中发挥着关键作用。灵长类的大脑几乎有一半用于处理视觉“信息”。因此,如果我们要了解信息是如何获取、操作和用于解决决策和控制任务的,愿景是一个自然的起点。

但什么是视觉“信息”?我们如何获得周围物理空间的“信息”表示?这种表现形式的设计应该遵循哪些基本原则?表征学习还处于初级阶段,我们正在开发基本的构建块来分析和设计它们,以及将它们用于决策和控制。我们利用洞察力开发感知和行动的新方法,包括建立场景的几何、拓扑和语义模型。

加州大学洛杉矶分校罗伊斯大厅照片

我们的实验室是第一个在1999年演示实时运动结构(SFM)(又名视觉SLAM,同步定位和映射)(在CVPR 2000上演示)和使用单个摄像机的增强现实(AR)(在ICCV 2001上演示,我们称之为“实时视频中的虚拟对象插入”;这个名称不太流行)的实验室。我们还参加了2005年DARPA大挑战赛(此处介绍)。随后,我们对视觉-惯性传感器融合中的模糊性进行了完整描述(ICRA 2015年最佳论文奖),以SFM中模糊性的描述为基础(1999年马尔奖)。

这要归功于ARO、ONR、AFOSR、NSF、NIH、DARPA、Intel、Microsoft、Sony、Toshiba、Panasonic、Mitsubishi的普遍支持,以及通过多大学研究项目与全国多个研究实验室的合作。

视觉实验室的校友已在耶鲁大学、UPenn大学、康奈尔大学、KAUST大学、INRIA大学、牛津大学、慕尼黑大学、UWV大学、UT大学、伯尔尼大学等大学担任学术职务,在谷歌、脸书、微软、Adobe、亚马逊、Zoox、Waymo、Deep Mind、优步等工业研究实验室担任领导职务,或已成立科技公司(ArtFinder、Vathos、RealityCap、Papaya)。