讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

PHPz

发布时间：2024-06-06 19:30:24

|

601人浏览过

|

来源于51CTO.COM

转载

什么？疯狂动物城被国产ai搬进现实了？

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

与视频一同曝光的，是一款名为「可灵」全新国产视频生成大模型。

Sora利用了相似的技术路线，结合多项自研技术创新，生产的视频不仅运动幅度大且合理，还能模拟物理世界特性，具备强大的概念组合能力和想象力。

数据上看，可灵支持生成长达2分钟的30fps的超长视频，分辨率高达1080p，且支持多种宽高比。

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

另外再划个重点，可灵不是实验室放出的Demo或者视频结果演示，而是短视频领域头部玩家快手推出的产品级应用。

而且主打一个务实，不开空头支票、发布即上线，可灵大模型已在快影APP中正式开启邀测。

话不多说，接下来就带大家欣赏一下可灵的大作~

更懂世界规律，复杂运动也能准确刻画

相信通过开头的视频，大家已经感受到了可灵丰富的想象力。

可灵不但在想象上天马行空，在描绘运动时又能做到符合真实的运动规律，复杂、大幅度的时空运动也能准确刻画。

比如这个在公路上高速奔跑的老虎，不仅画面连贯，随镜头角度的变化合理，老虎四肢的动作协调，而且还把奔跑过程中躯干部分的抖动也展现得淋漓尽致。

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

还有宇航员在月球上奔跑的画面，动作流畅，步态和影子的运动合理恰当，太绝了。

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

除了运动，可灵大模型还能模拟真实物理世界特性，生成的视频更符合物理规律。

在这段倒牛奶的视频中，力学方面的重力规律、液面的上升都符合现实，连倒液体时泡沫一直在最上层的特性也考虑到了：

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

还有光学上的反射规律也考虑到了，注意看这只弹钢琴的猫猫，光滑表面上影子里的猫爪和琴键，都在随着本体同步变化。

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

另外，与真实物理世界的交互，也能被真实反映——下面视频中小男孩吃汉堡的生成视频中，一口咬下去，齿印一直都在，小男孩享受吃汉堡的享受过程宛如就在眼前。

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

要知道，符合物理规律对于大模型来说还是相当困难的事，连Sora也不能完全做好。

比如同样是吃汉堡这个场景，Sora生成的视频不仅有人手只有三根手指这样的槽点，咬合位置与汉堡上的咬痕也并不匹配……

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

不仅仅是真实世界中的物理规律和运动，对于想象力的场景，可灵也是信手拈来。

比如这只戴着眼镜的兔子边喝咖啡，边看报纸，悠闲自得。

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

同时，可灵对细节的刻画也很到位，比如两朵缓慢绽放的花，可以看到花瓣和花蕊的细节。

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

而且，可灵不仅生成的视频更加真实，生成的视频分辨率高达1080p，时长高达2分钟（帧率30fps），且支持自由的宽高比。

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

其中也包括竖版视频，可以说是和快手的短视频生态相当匹配了。

画面中，一列火车向前方行驶，窗外的风景走过了春夏秋冬四季，整个两分多钟的画面都十分连贯。

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

到这里，相信效果展示得已经够多了，如果还意犹未尽的话，可以前往可灵官网平台（传送门见文末），看更多神奇的AI视频吧！

（注：本文中的视频有压缩，高清及最新效果以官方网页为准）

那么在可灵的这些视频背后，都运用了哪些独特的技术呢？

原生的视频生成技术路线

整体上，可灵大模型的采用了原生的文生视频技术路线，替代了图像生成+时序模块的组合，这也是可灵生成时间长、帧率高，能准确处理复杂运动的核心奥义。

具体来看，快手大模型团队认为，一个优秀的视频生成模型，需要考虑四大核心要素——模型设计、数据保障、计算效率，以及模型能力的扩展。

类Sora模型架构，scaling law得到验证

先从模型的设计说起，这当中主要应当考虑两方面的因素，一是足够强的拟合能力，二是足够多的参数容量。

架构的选择方面，可灵整体框架采用了类Sora的DiT结构，用Transformer代替了传统扩散模型中基于卷积网络的U-Net。

Transformer的处理能力和生成能力更强大，扩展能力更强、收敛效率更好，解决了U-Net在处理复杂任务时冗余过大、感受野和定位精度不可兼得的局限。

在此基础之上，快手大模型团队还对模型中的隐空间编/解码、时序建模等模块进行了升维。

目前，在隐空间编/解码上，主流的视频生成模型通常沿用Stable Diffusion的2D VAE进行空间压缩，但这对于视频而言存在明显的信息冗余。

因此，快手大模型团队自研了3D VAE网络，实现时空同步压缩，获得了较高的重建质量，在训练性能和效果取得了最佳平衡。

另外在时序信息建模上，快手大模型团队设计了一款计算高效的全注意力机制（3D Attention）作为时空建模模块。

该方法可以更准确地建模复杂时空运动，同时还能兼顾具运算成本，有效提升了模型的建模能力。

当然，除了模型自身的能力，用户输入的文本提示词也对最终生成的效果有着重要影响。

为此，团队专门设计了专用的语言模型，可以对用户输入的提示词进行高质量扩充及优化。

唱鸭

音乐创作全流程的AI自动作曲工具，集 AI 辅助作词、AI 自动作曲、编曲、混音于一体

下载

数据如何构建？自建高质量数据筛选方案

说完了模型的设计，数据对于模型的表现同样至关重要。

事实上，训练数据的规模和质量不足，也正是许多视频生成模型研发者所面临的棘手问题。

网上视频普遍质量低、难以满足训练需求。快手大模型团队构建了较为完备的标签体系，可以精细化的筛选训练数据，或对训练数据的分布进行调整。

该体系从视频基础质量、美学、自然度等多个维度对视频数据质量进行刻画，并针对每一个维度设计多种定制化的标签特征。

在训练视频生成模型时，需要同时把视频及对应文本描述喂给模型。视频本身质量也有了保证，其对应文本描述，应该如何获得？

开发团队专门研发了视频描述模型，可以生成精确、详尽、结构化的视频描述。显著提升视频生成模型的文本指令响应能力。

纵使模型天赋异禀，亦离不开勤学苦练

模型和数据都有了，运算效率也要跟得上，如此才能在有限的时间内完成海量规模数据训练，看到显著的效果。

为了获得更高的运算效率，可灵大模型并没有采用当前行业主流的DDPM方案，而是使用了传输路径更短的flow模型作为扩散模型基座。

从另一层面上看，算力的不足也是不少AI从业者面临的难题，即使像OpenAI这样的大模型巨头，所拥有的算力资源同样紧缺。

这一问题在短时间内可能无法彻底解决，但可以做的是，在总体硬件资源有限的条件下，尽可能地提高算力的运用效率。

快手大模型团队便使用了分布式训练集群，并通过算子优化、重算策略优化等手段，大幅提升了可灵大模型的硬件利用率。

在训练过程当中，可灵也没有选择一步到位，而是采取分阶段训练策略来逐步提升分辨率：

在初期的低分辨率阶段，主要是以数量取胜，通过大量数据增强模型对概念多样性的理解和建模能力；

在随后的高分辨率阶段，数据的质量开始变成更重要的考量因素，目的是进一步提高模型性能，并加强在细节上的表现。

采取这样的策略，有效结合了量与质的优势，确保了模型在训练的各个阶段均能得到优化提升。

需求千变万化，模型游刃有余

在基础模型的研发工作之上，快手大模型团队也从长宽比等多个维度上对其能力进行了扩展。

在长宽比上，可灵同样没有采用主流模型在固定分辨率上进行训练的方式。

因为传统方法在面对长宽比多变的真实数据时，通常会引入前处理逻辑，破坏了原始数据的构图，导致生成结果构图较差。

相比之下，快手大模型团队的方案可以使模型直接处理不同长宽比的数据，保留原始数据的构图。

为了应对未来数分钟甚至更长的视频生成需求，团队也研发了基于自回归的视频时序拓展方案，且不会出现明显的效果退化。

除了文本输入外，可灵还支持多种控制信息输入，如相机运镜、帧率、边缘/关键点/深度等，为用户提供了丰富的内容控制能力。

不做“画饼”大模型，应用才是硬道理

大模型行业“卷”到今天，我们见证了太多技术的高光时刻，但技术突破的初心仍然还是应用。

快手可灵视频生成模型，诞生于短视频头部厂商，也持续面向应用在探索。非常值得一提的是，可灵大模型是发布即上线，不画饼！不画饼！不画饼！

可灵的文生视频模型，已在快影APP中正式开启邀测，目前开放的版本支持720P视频生成，竖版视频生成能力也即将开放。

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

除了文生视频，快手还基于可灵大模型推出了其他应用，如“AI舞王”已在快手和快影APP中上线。

无论是科目三还是二人转，只要上传一张全身照，都能分分钟让人物跟着音乐优雅地跳动，甚至兵马俑也能跳起最炫民族风。

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

除了视频生成模块，快手大模型团队还向其中加入了自研3D人脸重建技术，以及背景稳定性和重定向模块，更生动地展现表情和运动效果。

而且，更新一些的“AI唱跳”技术也迎来了首发，在跳舞的同时，也能让人物张嘴唱歌了。

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

顺便再做个剧透，基于可灵大模型的图生视频功能，也将于近期与用户见面。

实际上，作为头部视频厂商，快手在大模型热潮之中也动作迅速，此前就曾相继推出语言模型和文生图模型。

基于这些模型，AI文案、AI生图，AI生视频，以及更多AI创作功能，都已相继在快手和快影APP中上线。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

在视频生成上，快手也曾与多个高校或科研机构联手，陆续发布可控运动的视频生成算法Direct-a-Video、多模态生成算法Video-LaVIT、图生视频算法I2V-Adapter、多模态美学评价模型UNIAA等关键技术，为可灵大模型积累了深厚的技术沉淀。

现在，快手完整的文生视频功能终于华丽登场，我们期待快手作为一家拥有独特场景优势和广泛应用场景的短视频赛道巨头，能够率先把视频生成能力在短视频场景中落地生花。

如果你对AI视频创作感兴趣，不妨到快影APP中一探究竟。

传送门：https://www.php.cn/link/5a1106fcb6c23317695f2f619988ef41

相关文章

AI网页生成工具有哪些_一键生成企业官网的AI工具推荐

稿定设计AI抠图怎样调整透明度_稿定设计AI透明度滑块与渐变设置【攻略】

豆包 AI 在新手厨师菜谱步骤优化中的实战

批改网ai检测工具如何批量检测作文_批改网ai检测工具批量上传与结果查看【实操】

如何用AI帮你进行竞品功能对比分析？轻松制作对比矩阵

快手极速版

快手极速版

快手极速版是一款看视频看直播领现金app，海量视频精挑细选，看更流行的，玩更热门的，覆盖全网千万精彩原创小视频，浏览起来更省流量，有需要的小伙伴快来保存下载体验吧！

下载

相关标签:

ai 架构分布式算法 transformer stable diffusion http

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：GLM-4开源版本终于来了：超越Llama3，多模态比肩GPT4V，MaaS平台也大升级下一篇：清华大学与智谱AI重磅开源 GLM-4：掀起自然语言处理新革命

作者最新文章

如何让你的电商前端快如闪电：SprykerTouch模块与Composer助力数据同步挑战

2025-09-12 09:46

如何解决复杂应用中动态URL和重定向管理难题，使用spryker/url模块轻松搞定

2025-09-12 10:39

如何在Spryker项目中实现前端与后端高效通信？Spryker/Zed-Request与Composer助你轻松连接！

2025-09-12 12:40

如何高效生成唯一ID？Ramsey/Uuid助你解决分布式系统中的ID难题

2025-09-13 09:51

Yii2数据库迁移总是手动写？insolita/yii2-migration-generator助你告别繁琐，实现自动化！

2025-09-15 09:38

如何解决复杂系统可视化难题，Spryker/Graphviz助你轻松绘制依赖与状态图

2025-09-15 09:52

如何高效生成订单/发票号？SprykerSequenceNumber模块助你轻松搞定

2025-09-16 10:01

如何解决电商平台商品属性管理混乱的问题，使用SprykerProductAttribute模块助你实现灵活高效的数据管理

2025-09-16 12:23

解锁夸克浏览器AI搜索新功能_掌握夸克AI搜索的进阶玩法

2025-10-13 17:08

升级夸克浏览器体验AI搜索_夸克AI搜索核心功能深度解析

2025-10-28 20:58

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

更多

什么是分布式

什么是分布式

分布式是一种计算和数据处理的方式，将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容，供大家免费下载体验。

319

2023.08.11

分布式和微服务的区别

分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容，供大家免费下载体验。

228

2023.10.07

页面置换算法

页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章，大家可以免费体验。

387

2023.08.14

http500解决方法

http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

266

2023.11.09

http请求415错误怎么解决

http请求415错误怎么解决

解决方法：1、检查请求头中的Content-Type；2、检查请求体中的数据格式；3、使用适当的编码格式；4、使用适当的请求方法；5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容，可以阅读下面的文章。

385

2023.11.14

HTTP 503错误解决方法

HTTP 503错误解决方法

HTTP 503错误表示服务器暂时无法处理请求。想了解更多http错误代码的相关内容，可以阅读本专题下面的文章。

1037

2024.03.12

http与https有哪些区别

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1668

2024.08.16

php源码安装教程大全

php源码安装教程大全

本专题整合了php源码安装教程，阅读专题下面的文章了解更多详细内容。

3

2025.12.31

php网站源码教程大全

php网站源码教程大全

本专题整合了php网站源码相关教程，阅读专题下面的文章了解更多详细内容。

1

2025.12.31

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

10分钟--Midjourney创作自己的漫画

10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合

Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程

AI绘画教程

共2课时 | 0.2万人学习

最新文章

更多

DeepSeek读PDF怎么用_DeepSeek读PDF使用方法详细指南【教程】

通义千问网页版怎么用模板_通义千问模板使用方法【方法】

Jasper AI如何做SEO优化 Jasper AI结合SurferSEO用法【教程】

3步教你用AI总结会议录音，再也不怕错过重点

Midjourney怎样加元素词丰富画面_Midjourney元素词技巧【方法】

批改网AI检测工具怎么关联班级学生_批改网AI检测工具班级绑定与学生管理【步骤】

ChatGPT官方入口 ChatGPT官网网页版访问步骤详解

如何用豆包ai做SWOT分析_豆包ai快速生成个人或企业优劣势分析【指南】

智行ai抢票能否抢下铺票_智行ai抢票下铺优先设置与成功率提升【技巧】

AI网页生成工具有哪些_一键生成企业官网的AI工具推荐

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部