快手可灵团队携手滑铁卢大学共同发布全新统一视频基础模型 univideo,该模型首次实现视频理解、编辑与生成三大能力的一体化集成。
其核心技术架构包含两大部分:一个具备多模态感知能力的大语言模型(MLLM),用于精准解析文本指令及视觉上下文;另一个是多模态 DiT 架构(MMDiT),专责视频内容的生成与精细化编辑。该方案全面覆盖多种视频智能处理场景——支持基于文本、图像等多类型提示的视频生成;可对输入图像或视频进行深度语义理解与分析;亦能依据用户文字描述及参考图,灵活调整视频内容结构、风格特征乃至细节表现。

在实际演示中,UniVideo 展现出高度灵活性:既可通过单张图片+文本 prompt 生成全新视频,也可结合原始视频与参考图像完成定向修改,甚至仅凭自然语言 prompt 即可实现对已有视频的语义级编辑。
技术层面的重大突破在于:采用通义千问2.5 VL 模型作为“视觉大脑”,专注处理图像、视频与文本的联合理解任务;同时以混元视频模型为“创作引擎”,承担高质量视频生成与编辑工作。二者协同运作,使系统真正兼具“看得懂”与“做得好”的双重能力。
相较以往需调用多个专用模型分别完成不同子任务的传统范式,UniVideo 实现了端到端统一建模,不仅大幅降低部署复杂度,更让各项能力在训练与推理过程中彼此赋能、正向增强。
从实测效果来看,对于动作幅度较小、结构相对稳定的视频片段,输出质量表现优异;但部分高动态、强物理属性的场景(如火焰燃烧)仍存在优化空间,同时在细粒度一致性方面(例如发丝运动连贯性)尚有提升余地。尽管如此,瑕不掩瑜,UniVideo 在通用视频智能领域的探索极具开创性与应用潜力。
开源地址:https://www.php.cn/link/3bf47241fd8ea682509ba6b7cc875f72
源码地址:点击下载











