2022年英国机器视觉会议
@诉讼中{Iashin22,author=“弗拉基米尔·拉欣(Vladimir Iashin)、谢伟迪(Weidi Xie)、埃萨·拉图(Esa Rahtu)和安德鲁·齐瑟曼(Andrew Zisserman)”,title=“时空稀疏:与可训练选择器的视听同步”,booktitle=“英国机器视觉会议”,年=“2022”,}
本文的目标是“野外”一般视频的视听同步。对于此类视频,可用于同步提示的事件可能在空间上较小,并且可能仅在多秒长的视频剪辑期间很少发生,即同步信号“在空间和时间上稀疏”。这与同步有声头部视频的情况形成了对比,在这种情况下,视听通信在时间和空间上都很密集。我们有四个贡献:(i)为了处理稀疏同步信号所需的较长时间序列,我们设计了一个多模式变换器模型,该模型使用“选择器”将长音频和视频流提取为小序列,然后用于预测流之间的时间偏移。(ii)我们识别出音频和视频压缩编解码器中可能产生的人工制品,并可在训练中被视听模型用于人工解决同步任务。(iii)我们只使用稀疏的时间和空间同步信号来管理数据集;并且(iv)该模型在稠密和稀疏数据集上的有效性得到了定量和定性的证明。