本材料旨在确保学术和技术工作的及时传播。版权及其所有权利由作者或其他版权所有者保留。所有复制此信息的人都应遵守每个作者的版权所引用的条款和限制。在大多数情况下,未经版权所有者明确许可,不得转载这些作品。



Synchformer:稀疏线索的高效同步

V.拉欣,谢伟东(W.Xie),E.拉赫图,A.齐瑟曼
2024年声学、语音和信号处理国际会议
下载出版物:iashin24.pdf[748Ko] 
我们的目标是视听同步,重点放在“现场”视频上,例如YouTube上的视频,其中同步提示可以稀疏的我们的贡献包括一种新颖的视听同步模型,以及通过多模态分段级对比预训练将特征提取与同步建模解耦的训练。这种方法在两方面都达到了最先进的性能稠密的稀疏的设置。我们还将同步模型训练扩展到了AudioSet上,这是一个百万级的“世界范围内”数据集,研究了可解释性的证据归因技术,并探索了同步模型的一种新功能:视听同步。

链接:


BibTeX参考:

@诉讼中{Iashin24a,author=“弗拉基米尔·拉欣(Vladimir Iashin)、谢伟迪(Weidi Xie)、埃萨·拉图(Esa Rahtu)和安德鲁·齐瑟曼(Andrew Zisserman)”,title=“Synchformer:从稀疏提示进行高效同步”,booktitle=“声学、语音和信号处理国际会议”,年=“2024”,组织=“IEEE”,}

数据库中的其他出版物: