2024年声学、语音和信号处理国际会议
@诉讼中{Iashin24a,author=“弗拉基米尔·拉欣(Vladimir Iashin)、谢伟迪(Weidi Xie)、埃萨·拉图(Esa Rahtu)和安德鲁·齐瑟曼(Andrew Zisserman)”,title=“Synchformer:从稀疏提示进行高效同步”,booktitle=“声学、语音和信号处理国际会议”,年=“2024”,组织=“IEEE”,}
我们的目标是视听同步,重点放在“现场”视频上,例如YouTube上的视频,其中同步提示可以稀疏的我们的贡献包括一种新颖的视听同步模型,以及通过多模态分段级对比预训练将特征提取与同步建模解耦的训练。这种方法在两方面都达到了最先进的性能稠密的和稀疏的设置。我们还将同步模型训练扩展到了AudioSet上,这是一个百万级的“世界范围内”数据集,研究了可解释性的证据归因技术,并探索了同步模型的一种新功能:视听同步。
2022年英国机器视觉会议
@诉讼中{Iashin22,author=“弗拉基米尔·拉欣(Vladimir Iashin)、谢伟迪(Weidi Xie)、埃萨·拉图(Esa Rahtu)和安德鲁·齐瑟曼(Andrew Zisserman)”,title=“时空稀疏:与可训练选择器的视听同步”,booktitle=“英国机器视觉会议”,年=“2022”,}
本文的目标是“野外”一般视频的视听同步。对于此类视频,可用于同步提示的事件可能在空间上较小,并且可能仅在多秒长的视频剪辑期间很少发生,即同步信号“在空间和时间上稀疏”。这与同步有声头部视频的情况形成了对比,在这种情况下,视听通信在时间和空间上都很密集。我们有四个贡献:(i)为了处理稀疏同步信号所需的较长时间序列,我们设计了一个多模式变换器模型,该模型使用“选择器”将长音频和视频流提取为小序列,然后用于预测流之间的时间偏移。(ii)我们识别出音频和视频压缩编解码器中可能产生的人工制品,并可在训练中被视听模型用于人工解决同步任务。(iii)我们只使用稀疏的时间和空间同步信号来管理数据集;并且(iv)该模型在稠密和稀疏数据集上的有效性得到了定量和定性的证明。
O.M.Parkhi,E.拉赫图,Q.曹,A.齐瑟曼
IEEE模式分析和机器智能汇刊,第42卷,第4期,第780-792页,2020年4月
@第{条Parkhi20,author=“Omkar M.Parkhi和Esa Rahtu以及Qiong Cao和Andrew Zisserman”,title=“电影和电视材料的自动视频人脸标记”,journal=“IEEE模式分析和机器智能汇刊”,number=“4”,volume=“42”,pages=“780--792”,月=“apr”,年=“2020”,doi=“10.1109/TPAMI.2018.2889831”,}
这项工作的目标是在电视视频和电影中自动标记角色,因为对齐的抄本提供的监管信息较弱。我们做出了五个贡献:(i)一种新的策略,用于从一致的抄本中获取更强的监管信息;(ii)基于人脸特征的背景字符分类的显式模型;(iii)使用新的基于ConvNet的人脸特征,以及(iv)使用线性规划联合标记所有人脸轨迹的新方法。每一个贡献都能提高性能,我们使用以前工作的作者提供的轨迹在标准基准上证明了这一点。作为第五个贡献,我们还通过在没有使用监督信息的新视频材料上“原始”应用特征和分类器来研究特征和分类器的泛化和强度。特别是,为了在这些素材上提供高质量的轨迹,我们提出了高效的轨迹分类器来通过人脸跟踪器去除假阳性轨迹。总的来说,我们在电视剧和电影数据集上都取得了显著的进步,在一些基准上几乎达到饱和。
ICCV研讨会:描述和理解视频以及大规模电影描述挑战,2015年
@诉讼程序{Parkhi15a,author=“Omkar M.Parkhi、Esa Rahtu和Andrew Zisserman”,title=“它就在包里:加强对自动人脸标记的监管”,booktitle=“ICCV研讨会:描述和理解视频以及大规模电影描述挑战”,year=“2015”,组织=“IEEE”,}
这项工作的目标是自动标记电视中的字符视频和电影,监管信息较弱由对齐的成绩单提供。我们做出了四个贡献:(i)一个增强实力的新战略来自一致记录的监管信息;(ii)明确基于背景字符的分类模型面跟踪;和(iii)使用新的基于ConvNet的面部特征。每个这些贡献大大提高了性能,并且我们使用轨迹在标准基准上演示了这一点由先前工作的作者提供。最后,(iv),我们还研究了泛化和通过在未使用监管信息的新剧集的原始“”。总的来说,我们在电视剧和电影数据集上的艺术几乎饱和在一些基准上的表现。
A.维达尔迪,S.Mahendran,S.Tsogkas,S.马吉,R.Girshick,J.Kannala,E.拉赫图,I.科基诺,M.B.Blaschko,D.维斯,B.Taskar,K.Simonyan,N.Saphra,S.穆罕默德
2014年IEEE计算机视觉和模式识别会议
@在诉讼中{Vedald14,author=“安德烈亚·维达尔迪(Andrea Vedaldi)、西德哈斯·马亨德兰(Siddharth Mahendran)、斯塔夫罗斯·索格卡斯(Stavros Tsogkas)、苏伯兰素·马吉(Subhransu Maji)、罗斯·吉希克(Ross Girshick)、朱霍·坎纳拉(Juho Kannala)、埃萨·拉图·伊索纳斯·科基诺斯(Iasonas Kokkinos)、马修·布拉斯科,title=“了解具有细粒度属性的详细对象”,booktitle=“IEEE计算机视觉和模式识别会议”,year=“2014”,}
我们详细研究了理解对象的问题,旨在识别大量细粒度对象属性。为此,我们引入了一个7413架飞机的数据集,其中详细标注了零件及其属性,利用了飞机观察员捐赠的图像,并通过众包方式设计和收集详细标注。我们提供了一些见解,这些见解将帮助有兴趣为其他基本级别类别设计细粒度数据集的研究人员。我们表明,收集的数据可以用于通过诊断分类器的性能来研究部分检测和属性预测之间的关系,分类器可以汇集来自对象不同部分的信息。我们注意到,某些属性的预测可以从准确的零件检测中受益匪浅。我们还表明,与以前的目标检测结果不同,使用大量的零件模板可以提高检测精度,但以检测速度为代价。最后,我们提出了一种通过层次级联算法来加速检测的粗到细方法。
Y.Chai,E.拉赫图,V.Lempitsky,L.Van Gool,A.齐瑟曼
2012年欧洲计算机视觉会议
@诉讼中{Chai12,author=“Yuning Chai、Esa Rahtu、Victor Lempitsky、Luc Van~Gool和Andrew Zisserman”,title=“TriCoS:一种用于图像分类的三级分类-区分协同分割方法”,booktitle=“欧洲计算机视觉会议”,year=“2012”,}
本文的目的是利用前景分割来提高弱注释数据集的分类性能,这些数据集除了类标签之外没有其他注释。我们引入了TriCoS,这是一种新的联合分割算法,它可以联合查看所有训练图像,并自动为每个图像分割出最具类识别性的前景。最后,这些前景分割用于训练分类系统。TriCoS通过最小化三个不同级别的损失来解决联合分割问题:前景/背景的类别级别属于同一类别的图像之间的一致性,图像级别用于每个图像中的空间连续性,数据集级别用于类之间的区分。在一组广泛的实验中,我们在三个基准数据集上评估了该算法:UCSD-Caltech Birds-200-2010、Stanford Dogs和Oxford Flowers 102。在现代图像分类器的帮助下,与以前发表的分类方法和其他联合分割方法相比,我们显示了优越的性能。
2011年IEEE国际计算机视觉会议
@诉讼中{Rahtu11,author=“Esa Rahtu和Juho Kannala以及Matthew B.Blaschko”,title=“学习与类别无关的对象检测级联”,booktitle=“IEEE计算机视觉国际会议”,year=“2011”,}
级联是一种流行的框架,用于加速对象检测系统。在这里,我们关注与类别无关的第一层我们对大量窗口进行采样的对象检测级联从先前的对象性,然后有区别地学习过滤这些候选窗口的数量级。我们制造了许多对级联设计的贡献大大超过了最新进展:(i)我们的小说《客体优先》给出了更高的回忆比竞争方法,(ii)我们提出了对象特征以极低的计算成本提供高性能,以及(iii)我们利用结构化输出排名方法进行高度学习通过直接优化级联性能。对PASCAL VOC进行全面评估数据集显示与当前状态相比艺术和过度选择性的歧视性学习策略。