单击数据集类别以展开/折叠它。单击此处展开所有类别。单击此处折叠所有类别。

英国手语视频中的弱监督指纹识别

我们建议Transpeller模型识别BSL中的拼写单词视频。

大型手语视频的自动密集标注

我们提出一个简单、可扩展的框架来大大提高了自动化的密度手语翻译电视中的注释广播。

对齐手语视频中的字幕

我们提出了一种Transformer架构,用于在手语视频中临时对齐异步字幕。

阅读和参与:手语视频中的时间本地化

我们表明,定位符号的能力来自变压器序列预测模型的注意模式。

基于时间卷积网络的手语分割

我们确定连续手语视频中符号之间的时间边界位置。

学习从多个主管那里发现迹象

对于给定的符号及其相应的字典视频,我们的任务是确定它是否在连续的手语视频中出现以及出现在哪里。

BSL-1K:使用发音线索扩大联合发音手语识别

我们引入了一种新的可扩展的方法来收集连续视频中的符号识别数据。

通过看电视学习手语

利用强弱监督相结合的方式从电视广播中学习手语。

上半身姿势估计与跟踪

使用具有姿势结构化输出的随机森林框架对长视频序列进行快速准确的上半身姿势估计。

野外三维对象的去渲染

一种将3D对象从单个图像去重渲染为形状、材质和照明的方法,该方法仅依赖于粗略的形状估计,以一种缺乏监督的方式进行训练。

基于对比重建的无监督零件发现

我们提出了一种无监督方法,通过构建一个鼓励模型学习语义分解的自监督任务,将对象图像分解为语义有意义的部分。

视频表示学习中的自主协同训练

通过联合训练RGB和光流模型,自我监督视频表示学习超越了实例识别。

视频中视听对象的自监督学习

使用自主学习将视频转换为一组离散的视听对象。

使用多模式自我监控从头开始标记未标记视频

一种新的多模式聚类方法,允许对视频数据集进行无监督的伪标记,而无需任何人工注释。

基于同时聚类和表征学习的自我标记

通过优化特征和标签的共同交叉熵损失,同时学习特征表示和有用的数据集标签,同时最大化信息。

基于密集预测编码的视频表示学习

通过预测未来时空特征的自我监督视频表示学习。RGB流动作分类精度高于ImageNet预处理权重。

视频通信流的自主学习

本研究的目的是以一种自我监督的方式从视频中学习对应关系,所学习的嵌入在密集像素级跟踪方面表现出了优异的性能。

基于描述子向量交换的路标无监督学习

DVE是一种学习高维无监督地标的技术。

通过图像翻译从未对齐数据中学习人体姿势

从未标记的视频和未对齐的姿势注释中学习地标探测器。无需配对数据/标签图像。

人脸类特定表示的自监督学习

自我监督的表征学习,可用于情绪预测或里程碑回归等下游任务。

基于概率自省的几何稳定特征自监督学习

本研究旨在将自我视觉应用于面向几何的任务,如语义匹配和零件检测。

基于条件图像生成的目标地标无监督学习

一种学习在没有任何手动注释的情况下发现对象地标的方法。

手势同步:确定谁在没有会说话的脑袋的情况下说话

新的同步任务-确定对方的手势和语音是否同步。

视觉注意下的亚单词级唇读

我们建议使用可视变压器池(VTP)注意唇部区域正在读取。

注意视觉关键词识别

我们提出Transpotter,一种交叉模态基于注意力的视觉架构关键词识别。

本地化视觉效果听起来很难

使用硬采样定位视频中可见的声源。

现在你说的是我的语言:视频语言识别

在这项工作中,我们仅仅通过解释说话人的嘴唇动作来识别口语。

视觉到声音:一种端到端的可视钢琴转录方法

仅从视觉数据转录钢琴音乐。

基于交叉模态自我监督的去纠缠语音嵌入

将嵌入到内容和身份中的言语分离出来,并只使用附带的脸迹作为监督。

演讲2行动:行动识别的跨模式监督

学习一个模型,仅从转录的言语中预测动作。

对话:深度视听语音增强

通过调节嘴唇运动来隔离多扬声器视频中的个人声音。

我的嘴唇被遮住了:通过障碍物的视听语音增强

一种对视觉遮挡鲁棒的声源分离视听模型。

深度唇读:模型和在线应用程序的比较

这项工作的目标是开发最先进的唇读模型——视觉语音识别。

用于野外说话人识别的语音级聚合

这项研究的目的是“在野外”进行说话人识别,其中的话语可能是可变长度的,也可能包含不相关的信号。

基于跨模态转换的语音情感识别

将情感知识从面孔转移到声音。

可学习PINS:用于个人身份的跨模式嵌入

在没有身份监督的情况下,可以学习语音和面部的联合表示。

视觉声音和听觉面孔:跨模式生物特征匹配

一个网络被训练成只从声音中识别人脸,反之亦然。

量化变换自动编码器:在深度网络中实现对任意变换的等价

我们教网络预测图像看起来像是在转型,比如旋转和缩放,但也有很多更一般的更改,如3D旋转,对象变形和照明更改。

小步与大跃进:深度学习的最小牛顿解算器

曲线球是一种快速的二阶方法,可用作当前深度学习解算器的替代方法。

深度图像优先

在这项工作中,我们展示了生成器网络的结构足以在任何学习之前捕获大量低层图像统计信息。

通过反转来理解深层图像表示

借助于之前的自然图像,通过将其转换回图像来可视化表示。

用于纹理识别、描述和分割的深度滤波器组

本研究探讨了纹理表征与深度学习的关系。

深度功能评估

用于图像分类的深度卷积特征评估。

Smooth-AP:平滑大尺度图像检索的路径

我们定义了平均精度损失的显式平滑版本,并显示它以改进图像检索的结果。

使用协作专家表示的视频检索

协作专家(Collaborative Experts)是一个用于组合深层神经网络进行文本视频检索的框架。

位置中的面:复合查询检索

从大型图像数据集中检索包含目标人物和目标场景类型的图像(例如,海滩上的巴拉克·奥巴马)。

BBC新闻的可视化搜索

使用文本关键字即时检索对象类别、实例和面。

牛津建筑搜索演示

使用有效的方法搜索超大图像数据集中的特定对象。

视频谷歌演示

像谷歌检索包含特定单词的网页那样,轻松、快速、准确地检索电影中的对象或场景。

视频谷歌脸

使用图像脸作为查询检索视频中包含特定人物/演员的镜头。

基于位置的视频检索

从好莱坞电影数据库中实时检索人类摆出的姿势。

电视节目和电影中的二维人体姿态估计与搜索

估计图像和视频中人的2D身体姿势。搜索具有特定姿势的人的视频数据集。

使用深度学习从野外视频中识别黑猩猩的面部

使用深度CNN从长期视频记录中检测、跟踪和识别野生黑猩猩的面部。

LAEO-Net:重访视频中的人们

给定两个输入磁头轨迹及其相对位置,LAEO-Net可以确定视频中是否有两个人在看对方。

检测视频中相互注视的人

目标是在视频序列中定位在空间和时间上相互注视的人群。

无剧本电视剧中的角色识别

这项工作的目标是从电视节目和故事片材料中自动识别无约束条件下的人。

上半身配置检测

检测编辑的电视素材中一个或多个人物的配置。

电视视频字符的自动命名

在电视或电影胶片上自动标记视频每帧中出现的人的姓名。

实时人员识别

使用现代多核计算架构,只需输入从标准网卡获得的视频流,即可识别视频中的人物。

识别电视节目中的互动

使用全球和本地上下文信息对电视节目中的人类交互进行时空定位。

看到时间之箭

这项工作探讨了是否有可能在时间序列中观察到时间之箭。

电影中的视觉连续性错误

通过检查成对的相似镜头来检测电影中无法解释的视觉差异。对于任何DVD,自动生成可能错误的排名列表。

VGGHeads:用于3D人头的大规模合成数据集

我们发布了完全合成的数据集用于人头检测和3D网格估计超过100万扩散生成的图像模型。cA模型经过训练能够同时头部检测和头部网格从单个图像重建只需一步。

实例级增强的数据集增强

我们通过重画来增加图像场景中的单个对象保持其原始形状。这允许使用未改变的类别标签,例如类别,分割、检测等。

CounTX:开放世界文本特定对象计数

训练网络进行计数指定的任何类的对象自然语言描述。

一种改进阻塞检测的三层插件

制定“闭塞检测”建立两个基准,并尝试通过闭塞器-目标-闭塞插件。

你想看到的变化

检测图像对中的“对象级别”变化,尽管存在光度和几何差异。

标记、验证、更正:一种简单的少快照目标检测方法

我们提出了一种方法来验证和正确的伪注释少量快照对象检测。

这是关于时间的:野外的模拟时钟读数

我们表明,神经网络可以在不受限制的环境中读取模拟时钟,而无需人工监督。

放大人-物交互检测的关键线索

这项工作介绍了两种放大关键线索的方法,以及一种在考虑人与对象之间的交互时组合线索的方法。

基于视觉匹配的自适应文本识别

这项工作解决了文档中文本识别的通用性和灵活性问题。

视频中动物个体的细粒度识别

该作品介绍了一种“计数、裁剪和识别”(CCR)多级识别过程,用于动物个体的帧级标记。

自动更正:噪声几何注释的深度感应对齐

这项工作的目标是用含噪数据训练模型,并纠正注释中的配准噪声。

检测到跟踪和跟踪到检测

真实感视频中的目标检测和跟踪。

类认知计数

训练网络使用标记为要跟踪的视频数据统计任何类别的对象。

学习计算图像中的对象

学习计算图像中的物体,例如显微图像中的细胞或监控视频帧中的人。

在野外阅读文本

定位和识别自然图像中的文本,允许大规模注释和搜索图像中的文字。

使用多种方案的手部检测

静止图像中人手的检测和定位。

使用排名统计发现和学习新的视觉类别

解决在给定其他类的标签示例的图像集合中发现新类的问题。

学习通过深度转移聚类发现新的视觉类别

这项工作旨在发现图像集合中的新视觉类别。

基于图像的花卉分类

利用形状、颜色和纹理从图像中对不同花卉进行分类。这些页面描述了我们的数据库和一些实验结果。

学习视觉属性

学习物体的视觉质量模型,如红色、条纹或斑点,并确定它们在图像中的空间范围。

绘画的视觉搜索

在一个大型的实时绘画数据集中搜索给定的对象类别。

绘画的面孔

将人物照片与大型语料库中相似的绘画进行匹配。

探索大英图书馆

即时检索100万张图像中的对象类别和重复插图。

雕塑检索与识别

一种基于检索的方法,用于自动确定图像雕塑的标题和雕塑家。

希腊花瓶的自动标注

一种允许在希腊花瓶的大型数据集中自动检测神和动物的方法。

基于形状的花瓶检索演示

目标是提供一个基于web的花瓶检索系统,该系统允许上传新的花瓶图像并对花瓶的形状进行分类。此外,还将返回与花瓶形状密切匹配的列表。

好奇的外行:没有专家标签的精细图像识别

我们提出了一个新的不需要专家注释的细粒度图像分类问题,该问题利用了类别无关的非属性描述和离线专家语料库。

脊椎检测和标记

一种在临床MR图像中检测和标记脊椎的新方法,对病理学和不同视野具有鲁棒性。

基于1NN关系的受限视频人脸聚类

提出的C1C方法对HAC方法施加了自监督约束,并且在不进行任何训练的情况下实现了视频人脸聚类的新技术。

缺乏注释的半监督学习

我们引入了一种半监督学习方法,该方法使用很少的注释。

细胞周期相的自动标记

通过视频自动检测和跟踪细胞,在每个时间点标记细胞周期阶段。

学习检测细胞

使用从简单注释中学习的模型自动检测单元格。

脊椎

本研究旨在自动分析脊椎核磁共振成像,并研究核磁共振扫描与背痛相关临床评分的相关性。

研究的末日

具有自动标记地面实况的末日游戏框架,用于各种任务——物体和类别识别、检测、分割、单眼深度估计等。

编码方法评估

图像分类中浅层特征编码方法的评估。

基于凸优化的描述子学习

使用凸公式学习特征描述符以进行关键点匹配和对象实例检索。

测地线星凸性

基于测地线星凸性约束的交互式图像分割。

医学图像搜索引擎

即时搜索患者间医学图像数据集中的任意感兴趣区域。

OBJ切割

给定包含已知对象类别实例的图像,OBJ CUT旨在自动获得准确的类对象分割。

学习分层运动分割

学习场景的生成性分层表示,以便在无监督的情况下进行运动分割。

对象类别识别

学习对象类别(脸、车)看起来,为了识别查询图像中的新实例,需要考虑对象变化、背景杂波、遮挡、比例和照明变化等因素。

仿射协变特征

仿射协变区域的提取和描述,用于不同成像条件下的图像匹配和识别。

纹理分类

根据材料在未知视点和照明条件下获得的单纹理图像中的外观对材料进行分类。

从Web上收集图像数据库

自动从web中检索指定对象类的大量图像,具有较高的准确性,并且不使用任何用户交互。

图像分类

根据图像包含的对象类别对图像进行分类。结合图像的不同特征描述来学习类模型。

图像超分辨率

考虑到图像注册和照明等因素的不确定性,提高图像集的空间分辨率。