0

0

生成越长越跑偏?浙大商汤新作StarGen让场景视频生成告别「短片魔咒」

霞舞

霞舞

发布时间:2025-01-16 23:42:09

|

1216人浏览过

|

来源于php中文网

原创

浙江大学和商汤科技的研究人员提出了一种名为stargen的新型时空自回归框架,用于实现可扩展且可控的场景生成。该框架巧妙地结合了空间和时间双重条件机制,将稀疏视图的3d几何信息与视频扩散模型有效融合,从而解决了复杂场景长距离生成中时空一致性难题,显著降低了误差累积。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

AIxiv专栏持续发布学术和技术前沿内容,至今已报道超过2000篇来自全球顶尖高校和企业实验室的论文,为学术交流与传播做出了重要贡献。欢迎投稿或联系我们报道您的优秀成果!投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

StarGen:一种基于时空自回归框架和视频扩散模型的可扩展可控场景生成方法

这项研究的核心在于StarGen框架,它能够生成多视图一致的长视频,并支持稀疏视图插值、图像到视频生成以及布局驱动的场景生成等多种任务。实验结果显示,StarGen在生成质量、一致性以及场景扩展能力方面均超越了现有方法。

图片

研究背景

近年来,3D重建和生成技术蓬勃发展,并呈现出融合互补的趋势。基于大规模模型的重建方法降低了对密集多视角数据的依赖,而生成模型则有效地用于补全稀疏视角下不可见区域。在生成领域,3D重建技术为2D生成模型向3D生成任务的迁移提供了关键支撑,主要通过两种途径:将2D概率分布蒸馏为3D表示,或基于2D生成图像重建3D表示。

然而,这些大规模模型面临一个共同挑战:有限的计算资源限制了单次推理所能处理的Token数量。虽然时间自回归方法通过关联当前和前一视频片段来生成长视频,但这种方法在较长时间跨度内难以保持时空一致性,误差累积问题会严重影响空间一致性。

相关工作

现有新视角生成方法主要分为三类:重建模型、生成模型以及两者结合的混合方法。

  • 重建模型: 传统方法如NeRF和3D-GS生成高质量新视角,但依赖密集视角输入。基于前馈网络的方法如PixelNeRF和PixelSplat降低了对密集输入的需求,但缺乏生成能力,需要充分的图像覆盖才能获得完整的场景表达。

  • 生成模型: GAN在早期取得了成功,但在全局一致性方面存在不足。扩散模型结合ControlNet等技术可以生成高质量图像并实现精确控制,但在长距离、高质量且多视图一致的视频生成方面受到计算资源限制。

  • 混合方法: ViewCrafter等方法结合重建和生成,但点云作为空间约束会累积误差,且需要训练视频生成模型本身,限制了扩展性和通用性。

StarGen方法

图片 图 1. 系统框架

AILOGO
AILOGO

LOGO123旗下的AI智能LOGO生成器,只需输入品牌名称就能免费在线生成公司logo设计及配套企业VI,轻松打造您的个性品牌!

下载

StarGen框架包含三个主要部分:时空自回归框架、时空条件视频生成和下游任务实现。

时空自回归框架: 采用滑动窗口方式逐步生成长距离场景,每个窗口的生成依赖于上一窗口的时间条件图像和空间相邻图像。时间条件确保时间连续性,空间条件保证多视图一致性。

图片 图 2. 时空条件视频生成

时空条件视频生成: 利用大型重建模型(LRM)和视频扩散模型(VDM)生成高质量可控视频。空间条件图像的3D几何信息通过多视几何渲染生成特征图,并压缩到VDM潜在空间。时间条件图像通过VAE编码为隐特征,与空间条件特征融合,最终输入VDM进行条件控制生成。

下游任务: StarGen支持稀疏视图插值、图生视频和基于布局的城市生成等任务。

损失函数

StarGen采用三种损失函数:深度损失、潜在损失和扩散损失,分别优化深度图精度、特征空间一致性和生成序列质量。

图片 图 3. 损失函数

实验结果

StarGen在稀疏视图插值、图生视频和基于布局的城市生成任务上均取得了显著成果,在各项指标上优于现有方法。具体结果见论文中的表格和图像。(此处省略论文中的表格和gif图,因为无法直接复制粘贴并保持格式)

消融实验

消融实验验证了空间和时间条件对生成质量和一致性的重要贡献。

总而言之,StarGen框架为可扩展可控的场景生成提供了一种有效方案,在长距离视频生成中取得了突破性进展。

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6025

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

777

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1043

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1062

2024.03.01

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1511

2024.08.16

苹果官网入口直接访问
苹果官网入口直接访问

苹果官网直接访问入口是https://www.apple.com/cn/,该页面具备0.8秒首屏渲染、HTTP/3与Brotli加速、WebP+AVIF双格式图片、免登录浏览全参数等特性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

115

2025.12.24

拼豆图纸在线生成器
拼豆图纸在线生成器

拼豆图纸生成器有PixelBeads在线版、BeadGen和“豆图快转”;推荐通过pixelbeads.online或搜索“beadgen free online”直达官网,避开需注册的诱导页面。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

84

2025.12.24

俄罗斯搜索引擎yandex官方入口地址(最新版)
俄罗斯搜索引擎yandex官方入口地址(最新版)

Yandex官方入口网址是https://yandex.com。用户可通过网页端直连或移动端浏览器直接访问,无需登录即可使用搜索、图片、新闻、地图等全部基础功能,并支持多语种检索与静态资源精准筛选。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

553

2025.12.24

JavaScript ES6新特性
JavaScript ES6新特性

ES6是JavaScript的根本性升级,引入let/const实现块级作用域、箭头函数解决this绑定问题、解构赋值与模板字符串简化数据处理、对象简写与模块化提升代码可读性与组织性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

155

2025.12.24

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 0.6万人学习

Node.js 教程
Node.js 教程

共57课时 | 7.3万人学习

CSS3 教程
CSS3 教程

共18课时 | 4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号