单击数据集类别以展开/折叠它。单击此处展开所有类别。单击此处折叠所有类别。
我们建议Transpeller模型识别BSL中的拼写单词视频。
我们提出一个简单、可扩展的框架来大大提高了自动化的密度手语翻译电视中的注释广播。
我们提出了一种Transformer架构,用于在手语视频中临时对齐异步字幕。
我们表明,定位符号的能力来自变压器序列预测模型的注意模式。
我们确定连续手语视频中符号之间的时间边界位置。
对于给定的符号及其相应的字典视频,我们的任务是确定它是否在连续的手语视频中出现以及出现在哪里。
我们引入了一种新的可扩展的方法来收集连续视频中的符号识别数据。
利用强弱监督相结合的方式从电视广播中学习手语。
使用具有姿势结构化输出的随机森林框架对长视频序列进行快速准确的上半身姿势估计。
一种将3D对象从单个图像去重渲染为形状、材质和照明的方法,该方法仅依赖于粗略的形状估计,以一种缺乏监督的方式进行训练。
我们提出了一种无监督方法,通过构建一个鼓励模型学习语义分解的自监督任务,将对象图像分解为语义有意义的部分。
通过联合训练RGB和光流模型,自我监督视频表示学习超越了实例识别。
使用自主学习将视频转换为一组离散的视听对象。
一种新的多模式聚类方法,允许对视频数据集进行无监督的伪标记,而无需任何人工注释。
通过优化特征和标签的共同交叉熵损失,同时学习特征表示和有用的数据集标签,同时最大化信息。
通过预测未来时空特征的自我监督视频表示学习。RGB流动作分类精度高于ImageNet预处理权重。
本研究的目的是以一种自我监督的方式从视频中学习对应关系,所学习的嵌入在密集像素级跟踪方面表现出了优异的性能。
DVE是一种学习高维无监督地标的技术。
从未标记的视频和未对齐的姿势注释中学习地标探测器。无需配对数据/标签图像。
自我监督的表征学习,可用于情绪预测或里程碑回归等下游任务。
本研究旨在将自我视觉应用于面向几何的任务,如语义匹配和零件检测。
一种学习在没有任何手动注释的情况下发现对象地标的方法。
新的同步任务-确定对方的手势和语音是否同步。
我们建议使用可视变压器池(VTP)注意唇部区域正在读取。
我们提出Transpotter,一种交叉模态基于注意力的视觉架构关键词识别。
使用硬采样定位视频中可见的声源。
在这项工作中,我们仅仅通过解释说话人的嘴唇动作来识别口语。
仅从视觉数据转录钢琴音乐。
将嵌入到内容和身份中的言语分离出来,并只使用附带的脸迹作为监督。
学习一个模型,仅从转录的言语中预测动作。
通过调节嘴唇运动来隔离多扬声器视频中的个人声音。
一种对视觉遮挡鲁棒的声源分离视听模型。
这项工作的目标是开发最先进的唇读模型——视觉语音识别。
这项研究的目的是“在野外”进行说话人识别,其中的话语可能是可变长度的,也可能包含不相关的信号。
将情感知识从面孔转移到声音。
在没有身份监督的情况下,可以学习语音和面部的联合表示。
一个网络被训练成只从声音中识别人脸,反之亦然。
我们教网络预测图像看起来像是在转型,比如旋转和缩放,但也有很多更一般的更改,如3D旋转,对象变形和照明更改。
曲线球是一种快速的二阶方法,可用作当前深度学习解算器的替代方法。
在这项工作中,我们展示了生成器网络的结构足以在任何学习之前捕获大量低层图像统计信息。
借助于之前的自然图像,通过将其转换回图像来可视化表示。
本研究探讨了纹理表征与深度学习的关系。
用于图像分类的深度卷积特征评估。
我们定义了平均精度损失的显式平滑版本,并显示它以改进图像检索的结果。
协作专家(Collaborative Experts)是一个用于组合深层神经网络进行文本视频检索的框架。
从大型图像数据集中检索包含目标人物和目标场景类型的图像(例如,海滩上的巴拉克·奥巴马)。
使用文本关键字即时检索对象类别、实例和面。
使用有效的方法搜索超大图像数据集中的特定对象。
像谷歌检索包含特定单词的网页那样,轻松、快速、准确地检索电影中的对象或场景。
使用图像脸作为查询检索视频中包含特定人物/演员的镜头。
从好莱坞电影数据库中实时检索人类摆出的姿势。
估计图像和视频中人的2D身体姿势。搜索具有特定姿势的人的视频数据集。
使用深度CNN从长期视频记录中检测、跟踪和识别野生黑猩猩的面部。
给定两个输入磁头轨迹及其相对位置,LAEO-Net可以确定视频中是否有两个人在看对方。
目标是在视频序列中定位在空间和时间上相互注视的人群。
这项工作的目标是从电视节目和故事片材料中自动识别无约束条件下的人。
检测编辑的电视素材中一个或多个人物的配置。
在电视或电影胶片上自动标记视频每帧中出现的人的姓名。
使用现代多核计算架构,只需输入从标准网卡获得的视频流,即可识别视频中的人物。
使用全球和本地上下文信息对电视节目中的人类交互进行时空定位。
这项工作探讨了是否有可能在时间序列中观察到时间之箭。
通过检查成对的相似镜头来检测电影中无法解释的视觉差异。对于任何DVD,自动生成可能错误的排名列表。
我们发布了完全合成的数据集用于人头检测和3D网格估计超过100万扩散生成的图像模型。cA模型经过训练能够同时头部检测和头部网格从单个图像重建只需一步。
我们通过重画来增加图像场景中的单个对象保持其原始形状。这允许使用未改变的类别标签,例如类别,分割、检测等。
训练网络进行计数指定的任何类的对象自然语言描述。
制定“闭塞检测”建立两个基准,并尝试通过闭塞器-目标-闭塞插件。
检测图像对中的“对象级别”变化,尽管存在光度和几何差异。
我们提出了一种方法来验证和正确的伪注释少量快照对象检测。
我们表明,神经网络可以在不受限制的环境中读取模拟时钟,而无需人工监督。
这项工作介绍了两种放大关键线索的方法,以及一种在考虑人与对象之间的交互时组合线索的方法。
这项工作解决了文档中文本识别的通用性和灵活性问题。
该作品介绍了一种“计数、裁剪和识别”(CCR)多级识别过程,用于动物个体的帧级标记。
这项工作的目标是用含噪数据训练模型,并纠正注释中的配准噪声。
真实感视频中的目标检测和跟踪。
训练网络使用标记为要跟踪的视频数据统计任何类别的对象。
学习计算图像中的物体,例如显微图像中的细胞或监控视频帧中的人。
定位和识别自然图像中的文本,允许大规模注释和搜索图像中的文字。
静止图像中人手的检测和定位。
解决在给定其他类的标签示例的图像集合中发现新类的问题。
这项工作旨在发现图像集合中的新视觉类别。
利用形状、颜色和纹理从图像中对不同花卉进行分类。这些页面描述了我们的数据库和一些实验结果。
学习物体的视觉质量模型,如红色、条纹或斑点,并确定它们在图像中的空间范围。
在一个大型的实时绘画数据集中搜索给定的对象类别。
将人物照片与大型语料库中相似的绘画进行匹配。
即时检索100万张图像中的对象类别和重复插图。
一种基于检索的方法,用于自动确定图像雕塑的标题和雕塑家。
一种允许在希腊花瓶的大型数据集中自动检测神和动物的方法。
目标是提供一个基于web的花瓶检索系统,该系统允许上传新的花瓶图像并对花瓶的形状进行分类。此外,还将返回与花瓶形状密切匹配的列表。
我们提出了一个新的不需要专家注释的细粒度图像分类问题,该问题利用了类别无关的非属性描述和离线专家语料库。
一种在临床MR图像中检测和标记脊椎的新方法,对病理学和不同视野具有鲁棒性。
提出的C1C方法对HAC方法施加了自监督约束,并且在不进行任何训练的情况下实现了视频人脸聚类的新技术。
我们引入了一种半监督学习方法,该方法使用很少的注释。
通过视频自动检测和跟踪细胞,在每个时间点标记细胞周期阶段。
使用从简单注释中学习的模型自动检测单元格。
本研究旨在自动分析脊椎核磁共振成像,并研究核磁共振扫描与背痛相关临床评分的相关性。
具有自动标记地面实况的末日游戏框架,用于各种任务——物体和类别识别、检测、分割、单眼深度估计等。
图像分类中浅层特征编码方法的评估。
使用凸公式学习特征描述符以进行关键点匹配和对象实例检索。
基于测地线星凸性约束的交互式图像分割。
即时搜索患者间医学图像数据集中的任意感兴趣区域。
给定包含已知对象类别实例的图像,OBJ CUT旨在自动获得准确的类对象分割。
学习场景的生成性分层表示,以便在无监督的情况下进行运动分割。
学习对象类别(脸、车等)看起来,为了识别查询图像中的新实例,需要考虑对象变化、背景杂波、遮挡、比例和照明变化等因素。
仿射协变区域的提取和描述,用于不同成像条件下的图像匹配和识别。
根据材料在未知视点和照明条件下获得的单纹理图像中的外观对材料进行分类。
自动从web中检索指定对象类的大量图像,具有较高的准确性,并且不使用任何用户交互。
根据图像包含的对象类别对图像进行分类。结合图像的不同特征描述来学习类模型。
考虑到图像注册和照明等因素的不确定性,提高图像集的空间分辨率。