计算机科学>计算机视觉和模式识别
标题: 360DVD:360度视频扩散模型的可控全景视频生成
摘要: 全景视频因其身临其境的体验,最近在研究和应用方面引起了更多的兴趣。 由于拍摄360度全景视频的成本高昂,迫切需要通过提示生成所需的全景视频。 最近,新兴的文本到视频(T2V)扩散方法在标准视频生成中表现出显著的效果。 然而,由于全景视频和标准视频在内容和运动模式方面存在巨大差距,这些方法在生成令人满意的360度全景视频方面遇到了挑战。 本文提出了一种360度视频扩散模型(360DVD)流水线,用于根据给定的提示和运动条件生成360度全景视频。 具体来说,我们引入了一种轻量级360度适配器,并结合360度增强技术来转换预先训练的T2V模型以生成全景视频。 我们进一步提出了一个新的全景数据集WEB360,该数据集由全景视频文本对组成,用于训练360DVD,解决了缺少标题全景视频数据集的问题。 大量实验证明了360DVD在全景视频生成中的优越性和有效性。 我们的项目页面位于 此https URL .