单击数据集类别以展开/折叠它。单击此处展开所有类别。单击此处可折叠所有类别。

大词汇量手语视频的自动密集标注

我们提出了一个简单的、可扩展的框架来大大提高了自动化的密度手语电视解说广播。

手语视频中的字幕对齐

我们提出了一种转换器架构来暂时对齐手语视频中的异步字幕。

阅读和参与:手语视频中的时间定位

我们证明了在变压器序列预测模型的注意模式中,符号的定位能力得到了体现。

基于时间卷积网络的手语分割

我们在连续的手语视频中确定符号之间时间边界的位置。

学会从多个主管处发现标志

对于一个给定的符号和它对应的字典视频,我们的任务是确定它是否出现在一个连续的手语视频中以及在哪里出现。

BSL-1K:利用口型线索扩大共关节手语识别

我们介绍了一种新的可扩展的方法来收集连续视频中的符号识别数据。

看电视学手语

从电视广播中学习手语,运用强监督和弱监督相结合的方法。

上半身姿态估计与跟踪

在长视频序列中使用随机森林框架快速准确地估计上身姿势。

在野外取消渲染三维对象

从一个单一的被监督的物体,仅仅依靠一个粗糙的物体的形状,从一个粗糙的形状中被训练出来,并且仅仅依赖于一个物体的粗糙的形状。

基于对比重构的无监督零件发现

我们提出了一种无监督的方法,通过建立一个自监督任务,鼓励模型学习语义分解,将对象图像分解为语义有意义的部分。

去渲染世界革命文物

学习如何将花瓶的单个图像反渲染成形状、材质和环境光照,只需训练一个图像集,而不需要显式的3D、多视图或多光监控。

视频表征学习的自监督协同训练

自监督视频表示学习通过RGB模型和光流模型的联合训练超越了实例识别。

视频视听对象的自监督学习

利用自监督学习将视频转化为一组离散的视听对象。

利用多模式自我监督从零开始标记未标记视频

一种新的多模式聚类方法,允许无监督的视频数据集伪标记,无需任何人工注释。

基于同步聚类和表征学习的自标记

通过优化特征和标签的公共交叉熵损失,同时学习特征表示和有用的数据集标签,同时最大化信息。

基于密集预测编码的视频表示学习

预测未来时空特征的自监督视频表示学习。RGB流动作分类精度高于ImageNet预训练权重。

视频通信流的自监督学习

本研究的目的是以一种自监督的方式学习视频中的对应关系,学习后的嵌入在稠密像素级跟踪方面表现出优越的性能。

基于描述向量交换的地标无监督学习

DVE是一种学习高维无监督地标的技术。

利用图像转换从未对齐数据中学习人体姿态

从未标记的视频和未对齐的姿势注释中学习地标探测器。无需配对数据/标签图像。

一类特定人脸表示的自监督学习

自我监督学习的表征,可用于后续任务,如情绪预测或里程碑回归。

基于概率内省的几何稳定特征自监督学习

本研究旨在将自我监督应用于面向几何的任务,如语义匹配和零件检测。

基于条件图像生成的目标地标无监督学习

一种不需要任何手动注释就能学会发现对象地标的方法。

视觉注意下的亚词级唇读

我们建议使用可视化变压器池(VTP)注意唇部的唇部区域阅读。

视觉关键词识别与注意

我们提出了转发器,一种交叉模式基于注意力的视觉架构关键词识别。

将视觉声音本地化是很困难的

使用硬采样来定位视频中可见的声源。

现在你说的是我的语言:视频语言识别

在这项工作中,我们通过解释说话人的嘴唇动作来识别一种口语。

视觉到声音:钢琴视觉转录的端到端方法

仅从视觉数据转录钢琴音乐。

基于跨模态自我监督的非纠缠语音嵌入

将语言嵌入到内容和身份中的分离,只需伴随facetrack作为监督。

言语行为:行为识别的跨模式监督

学习一个仅从转录的言语中预测行为的模型。

对话:深度视听语音增强

通过调节嘴唇运动来隔离多扬声器视频中的单个声音。

我的嘴唇是隐藏的:通过障碍物的视听语音增强

一种对视觉遮挡鲁棒的声源分离视听模型。

深度唇读:模型比较与在线应用

这项工作的目标是开发最先进的唇读模型——视觉语音识别。

用于野外说话人识别的话语级聚合

这项研究的目标是“野外”的说话人识别,在这种情况下,话语可能是可变长度的,也包含不相关的信号。

基于野外跨模态迁移的语音情感识别

把情感的知识从面孔转移到声音中。

可学习引脚:个人身份的跨模式嵌入

在没有身份监督的情况下,可以学习语音和人脸的联合表示。

看声音和听面孔:跨模式生物特征匹配

一个网络被训练成只从声音中识别人脸,反之亦然。

量化变换自动编码器:实现深网络中任意变换的等变

我们教网络去预测什么样的图像看起来像是在转型,比如旋转和缩放,但也有很多更一般的变化,如3D旋转,对象变形和照明更改。

小步大跨越:深度学习的最小牛顿解算器

Curveball是一种快速的二阶方法,可以作为当前深度学习解算器的替代品。

深部图像优先

在这项工作中,我们证明了生成器网络的结构足以在任何学习之前捕获大量的低级图像统计信息。

通过反转来理解深层图像表示

通过将图像转化为自然图像,将其可视化。

用于纹理识别、描述和分割的深层滤波器组

本研究探讨了纹理表征与深度学习的关系。

深层特征评估

用于图像分类的深卷积特征评估。

平滑AP:实现大规模图像检索的平滑路径

我们定义了一个显式平滑的平均精度损失,并证明它可以改善图像检索的结果。

基于协作专家表示的视频检索

协作专家是一种结合深层神经网络进行文本视频检索的框架。

位置中的面:复合查询检索

从一个大的图像数据集中检索包含目标人物和目标场景类型(例如,在海滩上的巴拉克奥巴马)的图像。

BBC新闻的视觉搜索

使用文本关键字动态检索对象类别、实例和面。

牛津大厦搜索演示

使用高效的方法在超大图像数据集中搜索特定对象。

谷歌视频演示

检索电影中的对象或场景,就像Google检索包含特定单词的网页一样容易、快速和准确。

视频谷歌脸

检索视频中包含特定人物/演员的镜头,使用图像化的面部作为查询。

基于姿态的视频检索

从好莱坞电影数据库中实时检索人类摆姿势。

电视和电影中的二维人体姿态估计与搜索

在图像和视频中估计人的二维身体姿势。在视频数据集中搜索特定姿势的人。

基于深度学习的野外黑猩猩人脸识别

使用深CNN从长期视频记录中对野生黑猩猩进行面部检测、跟踪和识别。

拉奥网:重温人们在视频中的对视

给定两个输入的头部轨迹和它们的相对位置,LAEO网络可以确定视频中是否有两个人在互相注视。

在视频中检测人们互相看

我们的目标是在视频序列中同时定位在空间上和时间上注视对方的人对。

无剧本电视剧人物识别

这项工作的目标是从电视节目和故事片材料中自动识别在无限制条件下的人。

上半身形态检测

在编辑过的电视素材中检测一个或多个人物的配置。

电视视频字符的自动命名

在电视或电影胶片上自动标记视频每帧中出现的人的姓名。

实时身份识别

识别视频中的人,使用现代多核计算架构,只需输入从标准网络摄像头获得的视频流。

识别电视节目中的互动

利用全球和本地背景信息对电视节目中人类互动的时空定位。

看到时间之箭

这项工作探讨是否有可能观察时间序列中的时间箭头。

电影中的视觉连续性错误

通过检查一对相似的镜头来检测电影中无法解释的视觉差异。对于任何DVD,自动生成一个可能的错误列表。

你想看到的变化

检测图像对中的“对象级”变化,尽管光度和几何差异。

关于时间:野外模拟时钟读数

我们证明了神经网络可以在不受限制的环境中读取模拟时钟,而无需人工监控。

用于人机交互检测的关键线索放大

本文介绍了两种增强关键线索的方法,以及一种在考虑人与物体交互作用时组合线索的方法。

基于视觉匹配的自适应文本识别

这项工作解决了文档中文本识别的通用性和灵活性问题。

未经显式检测的视频中动物个体的精细识别

该工作介绍了一种“计数、裁剪和识别”(CCR)多级识别过程,用于动物个体的帧级标记。

自校正:噪声几何标注的深度归纳对齐

这项工作的目标是训练一个含有噪音资料的模型,并修正注解中的登记杂讯。

检测跟踪和跟踪检测

真实感视频中的目标检测与跟踪。

类不可知计数

一个网络被训练来计算任何类别的对象,使用被标记为跟踪的视频数据。

学习计算图像中的物体

学习计算图像中的物体,例如显微图像中的细胞或监控视频帧中的人类。

在野外阅读文本

在自然图像中定位和识别文本,允许对图像中的文本进行大规模注释和搜索。

使用多个建议的手检测

静止图像中人手的检测与定位。

利用排名统计发现和学习新的视觉类别

通过给出其他类的标记示例,解决在图像集合中发现新类的问题。

通过深度转移聚类学习发现新的视觉类别

这项工作的目的是在一个图像集合中发现新的视觉类别。

基于图像的花卉分类

利用形状、颜色和纹理从图像中对不同的花卉进行分类。这些页面描述了我们的数据库和一些实验结果。

学习视觉属性

对于有斑点或条纹的物体,学习其视觉特性。

绘画的视觉搜索

在一个大型的绘画数据集中搜索给定的对象类别。

面对绘画

在一个大型语料库中,将人物照片与相似的绘画相匹配。

大英图书馆探秘

动态检索对象类别和重复插图超过100万图像。

雕塑检索与鉴定

一种基于检索的图像雕塑标题和雕刻师自动确定方法。

希腊花瓶的自动注释

一种在希腊花瓶的大型数据集中自动检测神和动物的方法。

基于形状的花瓶检索演示

其目标是提供一个基于web的花瓶检索系统,允许上传新的花瓶图像并对花瓶的形状进行分类。此外,还将返回与花瓶形状相关的匹配项列表。

好奇的外行:没有专家标签的细粒度图像识别

提出了一种新的无需专家注释的细粒度图像分类问题,该方法利用类无关的非专家描述和现成的专家语料库。

脊椎检测和标记

一种在临床MR图像中检测和标记椎体的新方法,对病理学和不同视野都具有鲁棒性。

基于1NN关系的约束视频人脸聚类

提出的C1C方法对HAC方法施加了自监督约束,并且不需要任何训练,实现了视频人脸聚类的新技术。

少注释的半监督学习

我们介绍了一种半监督学习方法,它可以处理很少的注释。

细胞周期阶段的自动标记

通过视频自动检测和跟踪细胞,在每个时间点标记细胞周期。

学会检测细胞

使用从简单注释中学习的模型自动检测单元格。

脊柱

这项研究的目的是自动化分析脊柱磁共振成像,并研究磁共振扫描和临床评分的相关性与背痛。

研究厄运

具有自动标记地面真实性的末日游戏框架,用于各种任务-目标和类别识别、检测、分割、单目深度估计等。

编码方法评估

浅层特征编码方法在图像分类中的应用。

基于凸优化的描述子学习

学习特征描述符使用凸公式进行关键点匹配和对象实例检索。

测地线星凸性

具有测地线星凸性约束的交互式图像分割。

医学图像搜索引擎

即时搜索病人间医学图像数据集中的任意感兴趣区域。

OBJ切割

给定一个包含已知对象类别实例的图像,OBJ-CUT旨在自动获得精确的、类似对象的分割。

学习分层运动分割

学习场景的生成分层表示,以实现无监督的运动分割。

物体类别识别

学习什么是物体类别(脸,汽车)看起来,为了识别查询图像中的新实例,需要考虑诸如对象变化、背景杂波、遮挡、比例和照明变化等因素。

仿射协变特征

用于不同成像条件下图像匹配与识别的仿射协变区域的提取与描述。

纹理分类

根据在未知视角和光照条件下获得的单纹理图像中的外观对材料进行分类。

从Web上获取图像数据库

在不使用任何用户交互的情况下,以高精度自动从web检索指定对象类的大量图像。

图像分类

根据图像包含的对象类别对图像进行分类。结合图像的不同特征描述来学习类模型。

图像超分辨率

提高图像集的空间分辨率,同时考虑图像注册和照明等因素的不确定性。