视觉几何组-牛津大学

Synchformer：稀疏线索的高效同步

2024年声学、语音和信号处理国际会议

下载出版物：

我们的目标是视听同步，重点放在“现场”视频上，例如YouTube上的视频，其中同步提示可以稀疏的我们的贡献包括一种新颖的视听同步模型，以及通过多模态分段级对比预训练将特征提取与同步建模解耦的训练。这种方法在两方面都达到了最先进的性能稠密的和稀疏的设置。我们还将同步模型训练扩展到了AudioSet上，这是一个百万级的“世界范围内”数据集，研究了可解释性的证据归因技术，并探索了同步模型的一种新功能：视听同步。

链接：

BibTeX参考：

@诉讼中{Iashin24a，author=“弗拉基米尔·拉欣（Vladimir Iashin）、谢伟迪（Weidi Xie）、埃萨·拉图（Esa Rahtu）和安德鲁·齐瑟曼（Andrew Zisserman）”，title=“Synchformer:从稀疏提示进行高效同步”，booktitle=“声学、语音和信号处理国际会议”，年=“2024”，组织=“IEEE”，}

数据库中的其他出版物：

»弗拉基米尔·拉申
»谢伟迪
»埃萨·拉赫图
»安德鲁·齐瑟曼

出版物

Synchformer：稀疏线索的高效同步

链接：

项目页面

代码

BibTeX参考：

数据库中的其他出版物：