K R Prajwal公司

你好!我是一名三年级博士生安德鲁·齐瑟曼教授在中视觉几何组(VGG)在牛津大学。我目前对有限标记数据的多模式学习和视频理解感兴趣。

在加入VGG之前,我在海得拉巴IIIT完成了硕士学位C V Jawahar教授Vinay Namboodiri教授我在哪里工作野外同步口型视频.

电子邮件 / 个人简历 / 谷歌学者 / github

个人资料照片
研究

我目前的研究项目旨在解决唇读和手语翻译等任务,但人工监督有限。在我最近的工作中,我引入了更好的视觉主干架构,用于跟踪无声人脸视频中的嘴唇区域。以下是最能反映我当前研究兴趣的出版物列表。请检查我的谷歌学者完整列表的第页。

英国手语视频中的弱监督指纹识别
K R Prajwal公司*,汉纳公牛*,莉莲·莫梅尼*,
塞缪尔·奥尔巴尼,吉尔·瓦罗尔,安德鲁·齐瑟曼
BMVC公司, 2022
项目页面/arXiv公司/代码[即将]/数据[即将]

我们首次解决了极具挑战性的手指拼写任务。我们提出了一种只有在弱监督下才能学习的方法。我们收集并发布了一个基准来评估英国手语中的拼写识别。

大型手语视频的自动密集标注
莉莲·莫梅尼*,汉纳公牛*,K R Prajwal公司*,
塞缪尔·奥尔巴尼,吉尔·瓦罗尔,安德鲁·齐瑟曼
电子对抗车辆, 2022
项目页面/arXiv公司/视频/数据

我们提出了几种可扩展的方法来增加标准手语数据集中自动注释的密度。自信的自动标志注释数量从670K增加到5M。

视觉注意下的次字级唇读
K R Prajwal公司,Triantafyllos Afouras公司,安德鲁·齐瑟曼
CVPR公司, 2022
项目页面/纸张/代码

我们提出了一种新的视觉中枢,用于跟踪嘴唇区域的唇读;因此大大降低了单词错误率。

注意视觉关键词识别
K R Prajwal公司*,莉莲·莫梅尼*,Triantafyllos Afouras公司,安德鲁·齐瑟曼
BMVC公司,2021年
项目页面/arXiv公司/代码

我们提出了一种基于变换器的体系结构,大大提高了视觉关键词识别的性能。

无真实视频流的视觉语音增强
信杜赫格德*,K R Prajwal公司*,Rudrabha Mukhopadhyay先生*,维奈·南布迪里,C V Jawahar公司
WACV(加权平均值), 2021
演示视频/项目页面/纸张/代码

我们提出了一种新的视听语音增强范式,该范式不受视频中的损坏(参见左侧示例)的影响,例如嘴唇被遮挡、失去焦点或光线不足。

嘴唇同步专家是你在野外进行语音对嘴唇生成所需要的一切
K R Prajwal公司*,Rudrabha Mukhopadhyay先生*,维奈·南布迪里,C V贾瓦哈尔
ACM多媒体, 2020(口头陈述)
演示视频/交互式演示/项目页面/arXiv公司/代码

我们提出了一种新的架构,可以对野外的任何身份执行音频驱动的唇同步。唇形同步比之前的任何方法都要精确得多。

学习个人说话风格以实现准确的唇语合成
K R Prajwal公司*,Rudrabha Mukhopadhyay先生*,维奈·南布迪里,C V贾瓦哈尔
CVPR公司, 2020
演示视频/项目页面/纸张/代码

我们通过在野外为单个目标演讲者无声的嘴唇动作实现了逼真的语音生成。

走向自动面对面翻译
K R Prajwal公司*,Rudrabha Mukhopadhyay先生*,杰林·菲利普,Abhishek Jha公司,维奈·南布迪里,C V贾瓦哈尔
ACM多媒体, 2019(口头陈述)
演示视频/项目页面/arXiv公司/代码

我们建议建立一个名为面对面翻译,它可以将一种语言的人脸视频翻译成另一种语言。作为其中的一部分,我们设计了一种新颖的方法来同步视频同时也保留面部的姿势和背景。我们的实际应用模型。

同行评审
我已经审查了以下场馆:
  • 2022:CVPR、WACV、ECCV、SIGGRAPH-Asia、IEEE TIP、,
    IEEE传输。多媒体、神经计算和应用
  • 2021:CVPR、WACV、AAAI、ICCV、BMVC、NeurIPS

此干净模板的学分:乔恩·巴伦