0

0

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

WBOY

WBOY

发布时间:2024-03-20 14:25:18

|

1062人浏览过

|

来源于51CTO.COM

转载

stable diffusion背后公司stability ai又上新了。

这次带来的是图生3D方面的新进展:

基于Stable Video Diffusion的Stable Video 3D(SV3D),只用一张图片就能生成高质量3D网格。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Stable Video Diffusion (SVD)是Stability AI之前发布的一个用于生成高分辨率视频的模型。SV3D的问世标志着视频扩散模型首次被成功运用到3D生成领域。

官方表示,基于此,SV3D大大提高了3D生成的质量和视图一致性。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

模型权重依然开源,不过仅可用于非商业用途,想要商用的话还得买个Stability AI会员~

话不多说,还是来扒一扒论文细节。

将视频扩散模型用于3D生成

引入潜在视频扩散模型,SV3D的核心目的是利用视频模型的时间一致性来提高3D生成的一致性。

并且视频数据本身也比3D数据更容易获得。

Stability AI这次提供两个版本的SV3D:

  • SV3D_u:基于单张图像生成轨道视频。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

  • SV3D_p:扩展了SV3D_u的功能,可以根据指定的相机路径创建3D模型视频。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

研究人员还改进了3D优化技术:采用由粗到细的训练策略,优化NeRF和DMTet网格来生成3D对象。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

他们还设计了一种名为掩码得分蒸馏采样(SDS)的特殊损失函数,通过优化在训练数据中不直接可见的区域,来提高生成3D模型的质量和一致性。

同时,SV3D引入了一个基于球面高斯的照明模型,用于分离光照效果和纹理,在保持纹理清晰度的同时有效减少了内置照明问题。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

具体到架构方面,SV3D包含以下关键组成部分:

302.AI
302.AI

302.AI是一个汇集全球顶级AI的自助服务平台

下载
  • UNet:SV3D是在SVD的基础上构建的,包含一个多层UNet,其中每一层都有一系列残差块(包括3D卷积层)和两个分别处理空间和时间信息的Transformer模块。
  • 条件输入:输入图像通过VAE编码器嵌入到潜在空间中,会和噪声潜在状态合并,一起输入到UNet中;输入图像的CLIP嵌入矩阵则被用作每个Transformer模块交叉注意力层的键值对
  • 相机轨迹编码:SV3D设计了静态和动态两种类型的轨道来研究相机姿态条件的影响。静态轨道中,相机以规律间隔的方位角围绕对象;动态轨道则允许不规则间隔的方位角和不同的仰角。

相机的运动轨迹信息和扩散噪声的时间信息会一起输入到残差模块中,转换为正弦位置嵌入,然后这些嵌入信息会被整合并进行线性变换,加入到噪声时间步长嵌入中。

这样的设计旨在通过精细控制相机轨迹和噪声输入,提升模型处理图像的能力。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

此外,SV3D在生成过程中采用CFG(无分类器引导)来控制生成的清晰度,特别是在生成轨道的最后几帧时,采用三角形CFG缩放来避免过度锐化。

研究人员在Objaverse数据集上训练SV3D,图像分辨率为575×576,视场角为33.8度。论文透露,所有三种模型(SV3D_u,SV3D_c,SV3D_p)在4个节点上训练了6天左右,每个节点配备8个80GB的A100 GPU。

实验结果

在新视角合成(NVS)和3D重建方面,SV3D超过了现有其他方法,达到SOTA。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩
Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

从定性比较的结果来看,SV3D生成的多视角试图,细节更丰富,更接近与原始输入图像。也就是说,SV3D在理解和重构物体的3D结构方面,能够更准确地捕捉到细节,并保持视角变换时的一致性。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

这样的成果,引发了不少网友的感慨:

可以想象,在未来6-12个月内,3D生成技术将会被用到游戏和视频项目中。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

评论区也总少不了一些大胆的想法……

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

并且项目开源嘛,已经有第一波小伙伴玩上了,在4090上就能跑起来。

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

参考链接:
[1]https://twitter.com/StabilityAI/status/1769817136799855098。
[2]https://stability.ai/news/introducing-stable-video-3d。
[3]https://sv3d.github.io/index.html。

相关专题

更多
html版权符号
html版权符号

html版权符号是“©”,可以在html源文件中直接输入或者从word中复制粘贴过来,php中文网还为大家带来html的相关下载资源、相关课程以及相关文章等内容,供大家免费下载使用。

597

2023.06.14

html在线编辑器
html在线编辑器

html在线编辑器是用于在线编辑的工具,编辑的内容是基于HTML的文档。它经常被应用于留言板留言、论坛发贴、Blog编写日志或等需要用户输入普通HTML的地方,是Web应用的常用模块之一。php中文网为大家带来了html在线编辑器的相关教程、以及相关文章等内容,供大家免费下载使用。

641

2023.06.21

html网页制作
html网页制作

html网页制作是指使用超文本标记语言来设计和创建网页的过程,html是一种标记语言,它使用标记来描述文档结构和语义,并定义了网页中的各种元素和内容的呈现方式。本专题为大家提供html网页制作的相关的文章、下载、课程内容,供大家免费下载体验。

461

2023.07.31

html空格
html空格

html空格是一种用于在网页中添加间隔和对齐文本的特殊字符,被用于在网页中插入额外的空间,以改变元素之间的排列和对齐方式。本专题为大家提供html空格的相关的文章、下载、课程内容,供大家免费下载体验。

243

2023.08.01

html是什么
html是什么

HTML是一种标准标记语言,用于创建和呈现网页的结构和内容,是互联网发展的基石,为网页开发提供了丰富的功能和灵活性。本专题为大家提供html相关的各种文章、以及下载和课程。

2864

2023.08.11

html字体大小怎么设置
html字体大小怎么设置

在网页设计中,字体大小的选择是至关重要的。合理的字体大小不仅可以提升网页的可读性,还能够影响用户对网页整体布局的感知。php中文网将介绍一些常用的方法和技巧,帮助您在HTML中设置合适的字体大小。

501

2023.08.11

html转txt
html转txt

html转txt的方法有使用文本编辑器、使用在线转换工具和使用Python编程。本专题为大家提供html转txt相关的文章、下载、课程内容,供大家免费下载体验。

307

2023.08.31

html文本框代码怎么写
html文本框代码怎么写

html文本框代码:1、单行文本框【<input type="text" style="height:..;width:..;" />】;2、多行文本框【textarea style=";height:;"></textare】。

419

2023.09.01

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

150

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
麻省理工大佬Python课程
麻省理工大佬Python课程

共34课时 | 5万人学习

国外Web开发全栈课程全集
国外Web开发全栈课程全集

共12课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号