来自上海 AI Lab 和香港中文大学的研究团队推出了 Neural Foley,其能够自动生成与视频同步的高质量音效,从而实现身临其境的视听体验。
尽管应用范围广泛,但现有方法在同时合成高质量和视频同步(即语义相关和时间同步)的声音时遇到了限制。为了克服这些限制,他们提出了 FoleyCrafter,这是一个新颖的框架,利用预先训练好的文本到音频模型来确保生成高质量的音频。
FoleyCrafter 包括两个关键组件:用于语义对齐的语义适配器和用于精确音视频同步的时序控制器。语义适配器利用并行交叉注意层,根据视频特征调节音频生成,产生与视觉内容语义相关的逼真音效。同时,时间控制器结合了起始检测器和基于时间戳的适配器,从而实现音频和视频的精确对齐。
FoleyCrafter 的一个显著优势是与文本提示兼容,可以根据用户意图使用文本描述来实现可控和多样化的视频音频生成。
论文链接:
https://arxiv.org/abs/2407.01494
项目地址:
https://foleycrafter.github.io/