港科大团队开源高效视频压缩重建模型videovae+,该模型在保持时间一致性和运动恢复的同时,实现了对大幅运动视频的高效压缩与精准重建。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

AIxiv专栏持续报道全球顶尖AI学术研究成果,欢迎投稿分享您的研究成果。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
VideoVAE+模型关键创新:
VideoVAE+ 是一种跨模态视频变分自编码器,其核心突破在于:
- 时空分离压缩机制: 有效分离空间和时间信息处理,避免了时空耦合导致的运动伪影。
- 轻量级运动压缩模型: 高效捕获视频运动动态,提升压缩效率。
- 文本指导: 利用文本信息指导视频重建,提升细节保留和时间稳定性。
- 图像视频联合训练: 增强模型在多任务上的重建性能和适应性。

论文地址: https://www.php.cn/link/b22511377f9a12f2c227ef2628933a3d 代码地址: https://www.php.cn/link/a1cae678af59c92bbf86e04d9949aad7
VideoVAE模型及现有方法的局限性:
VideoVAE模型用于视频压缩、重建和生成。许多现有方法直接采用图像VAE逐帧处理,忽略帧间关联性,导致时序闪烁。而一些考虑时间维度的VideoVAE方法,也存在细节模糊、失真、运动卡顿等问题。

图1:VideoVAE+与其他先进模型的视觉效果对比
VideoVAE+模型技术细节:
VideoVAE+采用时空分离的建模策略:
- 时序感知的空间自编码器: 先压缩空间信息,利用3D卷积捕捉局部时序信息。
- 时序自编码器: 进一步压缩时间维度信息。
此外,VideoVAE+还采用了:
- 智能特征分块: 将视频特征图分割成不同尺寸的块进行处理。
- 跨模态注意力机制: 利用文本嵌入指导视觉token的处理。
- 强大的文本嵌入器: 采用Flan-T5模型进行文本嵌入。

图2:三种时空建模方法对比
实验结果与结论:
VideoVAE+在多个数据集上显著优于包括英伟达Cosmos Tokenizer和腾讯Hunyuan Video在内的最新模型。

Demo视频链接 (请替换为实际链接)
VideoVAE+的开源为视频压缩和重建领域带来了新的突破,其高效性和高精度有望推动相关应用的发展。










