0

0

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

WBOY

WBOY

发布时间:2024-03-22 08:30:44

|

1322人浏览过

|

来源于机器之心

转载

openai 的 sora 在今年 2 月惊艳亮相,为文本生成视频带来了全新的突破。它可以根据文字输入创作出仿佛来自好莱坞的逼真且充满想象力的影片,让人叹为观止。许多人都对这一创新赞叹不已,认为openai 的表现实现了巅峰之作。

Sora引发的热潮持续不减,同时研究者们也开始认识到AI视频生成技术的巨大潜力,这一领域正受到越来越多人的关注。

然而,当前 AI 视频生成领域,大部分算法研究将重点放在了通过文本提示生成视频,对于多模态输入,特别是图片与文本结合的场景,并没有进行深入探讨或广泛应用。这种偏向降低了生成视频的多样性和可控制性,限制了从静态图像到动态视频的转换能力。

另一方面,现有的大部分视频生成模型对生成视频内容缺乏可编辑性的支持,无法满足用户对生成视频进行个性化调整的需求。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

提示:把熊猫变成熊,并且让它跳舞。(Change the panda to a bear and make it dance.)

本文,来自 SEEKING AI、哈佛大学、斯坦福大学以及北京大学的研究者们共同提出了一种创新的基于图片 - 文本的视频生成编辑统一框架,名为 WorldGPT。该框架建立在 SEEKING AI 与上述顶尖高校共同研发的 VisionGPT 框架之上,不仅能够实现由图片和文本直接生成视频的功能,还支持通过简单的文本提示(prompt)对生成视频进行风格迁移、背景替换等一系列视频外观编辑操作。

该框架的另一个显著优势在于其无需进行训练,这使得技术门槛大幅降低,同时也使得部署和使用变得非常方便。用户可以直接使用模型进行创作,而无需关注背后繁琐的训练过程。

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

  • 论文地址:https://arxiv.org/pdf/2403.07944.pdf
  • 论文标题:WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text and Image Inputs

接下来我们看看 WorldGPT 在多种复杂视频生成控制场景中的示例展示。

背景替换 + 生成视频

提示:「一支船队在呼啸的风暴中奋力前行,他们的船帆在无情风暴的巨浪中航行。(A fleet of ships pressed on through the howling tempest, their sails billowing as they navigated the towering waves of the relentless storm.)」

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

背景替换 + 风格化 + 生成视频

提示:「一条可爱的龙在城市的街道上喷火。(A cute dragon is spitting fire on an urban street.)」

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

对象替换 + 背景替换 + 生成视频

提示:「一个赛博朋克风格的机器人在霓虹灯照亮的反乌托邦城市景观中疾驰,高耸的全息图和数字衰变的反射投影到其光滑的金属机身上。(A cyberpunk-style automaton raced through the neon-lit, dystopian cityscape, reflections of towering holograms and digital decay playing across its sleek, metallic body.)」

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

MagickPen
MagickPen

在线AI英语写作助手,像魔术师一样在几秒钟内写出任何东西。

下载

从上面的示例可以看出,WorldGPT 在面对复杂视频生成指令时具有以下优点:

1)较好的保持了原输入图像的结构和环境;

2)生成符合图片 - 文本描述的生成视频,展现出了强大的视频生成定制能力;

3)可以通过 prompt 对生成视频进行定制化编辑。

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

了解更多有关 WorldGPT 的原理、实验和用例的信息,请查看原论文。

VisonGPT

前面已经提到,WorldGPT 框架建立在 VisionGPT 框架之上。接下来我们简单介绍一下有关 VisionGPT 的信息。

VisionGPT 是由 SeekingAI、斯坦福大学、哈佛大学及北京大学等世界顶尖机构联合研发,是一款开创性的开放世界视觉感知大模型框架。该框架通过智能整合和决策选择最先进的 SOTA 大模型,提供了强大的 AI 多模态图像处理功能。

VisionGPT 的创新之处主要体现在三个方面:

  1. 首先,它以大型语言模型(例如 LLaMA-2)为核心,将用户的 prompt 请求分解成详细的步骤需求,并自动化调用最合适的大模型进行处理;
  2. 其次,VisionGPT 自动接受并融合来自多个 SOTA 大模型产生的多模态输出,从而生成针对用户需求的图像处理结果;
  3. 最后,VisionGPT 具有极高的灵活性和多功能性,无需用户对模型进行微调,就能够支持包括文本驱动的图像理解、生成、编辑在内的广泛应用场景。

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

  • 论文地址:https://arxiv.org/pdf/2403.09027.pdf
  • 论文标题:VisionGPT: Vision-Language Understanding Agent Using Generalized Multimodal Framework

VisionGPT 用例

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

从上面可以看出,VisionGPT 无需 fine-tune,即可以轻松实现 1)开放世界的实例分割;2)基于 prompt 的图像生成和编辑功能等。VisionGPT 的工作流程如下图所示。

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

更多详细信息可以参考论文。

VisionGPT-3D

此外,研究者们还推出了 VisionGPT-3D,旨在解决从文本到视觉元素转换中的一大挑战:如何高效、准确地将 2D 图像转换成 3D 表示。在这个过程中,经常面临算法与实际需求不匹配的问题,从而影响最终结果的质量。VisionGPT-3D 通过整合多种最先进的 SOTA 视觉大模型,提出了一个多模态框架,优化了这一转换流程。其核心创新点在于自动选择最适合的视觉 SOTA 模型和 3D 点云创建算法,并且根据文本提示等多模态输入生成最符合用户需求的输出的能力。

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

  • 论文地址:https://arxiv.org/pdf/2403.09530v1.pdf
  • 论文标题: VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding

了解更多信息,请参考原论文。

相关专题

更多
页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

389

2023.08.14

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1751

2024.08.16

PHP 命令行脚本与自动化任务开发
PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境(CLI)下的开发与应用,内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理,以及与 Linux 定时任务(Cron)的结合使用。通过实战示例,帮助开发者掌握使用 PHP 构建 自动化脚本、批处理工具与后台任务程序 的能力。

21

2025.12.13

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

138

2025.12.31

php网站源码教程大全
php网站源码教程大全

本专题整合了php网站源码相关教程,阅读专题下面的文章了解更多详细内容。

80

2025.12.31

视频文件格式
视频文件格式

本专题整合了视频文件格式相关内容,阅读专题下面的文章了解更多详细内容。

82

2025.12.31

不受国内限制的浏览器大全
不受国内限制的浏览器大全

想找真正自由、无限制的上网体验?本合集精选2025年最开放、隐私强、访问无阻的浏览器App,涵盖Tor、Brave、Via、X浏览器、Mullvad等高自由度工具。支持自定义搜索引擎、广告拦截、隐身模式及全球网站无障碍访问,部分更具备防追踪、去谷歌化、双内核切换等高级功能。无论日常浏览、隐私保护还是突破地域限制,总有一款适合你!

61

2025.12.31

出现404解决方法大全
出现404解决方法大全

本专题整合了404错误解决方法大全,阅读专题下面的文章了解更多详细内容。

458

2025.12.31

html5怎么播放视频
html5怎么播放视频

想让网页流畅播放视频?本合集详解HTML5视频播放核心方法!涵盖<video>标签基础用法、多格式兼容(MP4/WebM/OGV)、自定义播放控件、响应式适配及常见浏览器兼容问题解决方案。无需插件,纯前端实现高清视频嵌入,助你快速打造现代化网页视频体验。

16

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 0.6万人学习

Python 教程
Python 教程

共137课时 | 6.9万人学习

Java 教程
Java 教程

共578课时 | 40.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号