0

0

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

WBOY

WBOY

发布时间:2024-03-01 15:01:26

|

594人浏览过

|

来源于51CTO.COM

转载

“绝不是简单的抠图。”

ControlNet作者最新推出的一项研究受到了一波高度关注——

给一句prompt,用Stable Diffusion可以直接生成单个或多个透明图层(PNG)

例如来一句:

头发凌乱的女性,在卧室里。
Woman with messy hair, in the bedroom.

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

可以看到,AI不仅生成了符合prompt的完整图像,就连背景和人物也能分开

而且把人物PNG图像放大细看,发丝那叫一个根根分明。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

再看一个例子:

燃烧的柴火,在一张桌子上,在乡下。
Burning firewood, on a table, in the countryside.

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

同样,放大“燃烧的火柴”的PNG,就连火焰周边的黑烟都能分离出来:

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

这就是ControlNet作者提出的新方法——LayerDiffusion,允许大规模预训练的潜在扩散模型(Latent Diffusion Model)生成透明图像。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

值得再强调一遍的是,LayerDiffusion绝不是抠图那么简单,重点在于生成

正如网友所说:

这是现在动画、视频制作最核心的工序之一。这一步能够过,可以说SD一致性就不再是问题了。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

还有网友以为类似这样的工作并不难,只是“顺便加个alpha通道”的事,但令他意外的是:

结果这么久才有出来的。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

那么LayerDiffusion到底是如何实现的呢?

PNG,现在开始走生成路线了

LayerDiffusion的核心,是一种叫做潜在透明度(latent transparency)的方法。

简单来说,它可以允许在不破坏预训练潜在扩散模型(如Stable Diffusion)的潜在分布的前提下,为模型添加透明度。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

在具体实现上,可以理解为在潜在图像上添加一个精心设计过的小扰动(offset),这种扰动被编码为一个额外的通道,与RGB通道一起构成完整的潜在图像。

为了实现透明度的编码和解码,作者训练了两个独立的神经网络模型:一个是潜在透明度编码器(latent transparency encoder),另一个是潜在透明度解码器(latent transparency decoder)

编码器接收原始图像的RGB通道和alpha通道作为输入,将透明度信息转换为潜在空间中的一个偏移量。

而解码器则接收调整后的潜在图像和重建的RGB图像,从潜在空间中提取出透明度信息,以重建原始的透明图像。

为了确保添加的潜在透明度不会破坏预训练模型的潜在分布,作者提出了一种“无害性”(harmlessness)度量。

这个度量通过比较原始预训练模型的解码器对调整后潜在图像的解码结果与原始图像的差异,来评估潜在透明度的影响。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

在训练过程中,作者还使用了一种联合损失函数(joint loss function),它结合了重建损失(reconstruction loss)、身份损失(identity loss)和判别器损失(discriminator loss)

它们的作用分别是:

  • 重建损失:用于确保解码后的图像与原始图像尽可能相似;
  • 身份损失:用于确保调整后的潜在图像能够被预训练的解码器正确解码;
  • 判别器损失:则是用于提高生成图像的真实感。

通过这种方法,任何潜在扩散模型都可以被转换为透明图像生成器,只需对其进行微调以适应调整后的潜在空间。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

潜在透明度的概念还可以扩展到生成多个透明图层,以及与其他条件控制系统结合,实现更复杂的图像生成任务,如前景/背景条件生成、联合图层生成、图层内容的结构控制等。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star
ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star
ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

值得一提的是,作者还展示了如何把ControlNet引入进来,丰富LayerDiffusion的功能:

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

与传统抠图的区别

至于LayerDiffusion与传统抠图上的区别,我们可以简单归整为以下几点。

原生生成 vs. 后处理

LayerDiffusion是一种原生的透明图像生成方法,它直接在生成过程中考虑并编码透明度信息。这意味着模型在生成图像的同时就创建了透明度通道(alpha channel),从而产生了具有透明度的图像。

传统的抠图方法通常涉及先生成或获取一个图像,然后通过图像编辑技术(如色键、边缘检测、用户指定的遮罩等)来分离前景和背景。这种方法通常需要额外的步骤来处理透明度,并且可能在复杂背景或边缘处产生不自然的过渡。

潜在空间操作 vs. 像素空间操作

LayerDiffusion在潜在空间(latent space)中进行操作,这是一个中间表示,它允许模型学习并生成更复杂的图像特征。通过在潜在空间中编码透明度,模型可以在生成过程中自然地处理透明度,而不需要在像素级别上进行复杂的计算。

传统的抠图技术通常在像素空间中进行,这可能涉及到对原始图像的直接编辑,如颜色替换、边缘平滑等。这些方法可能在处理半透明效果(如火焰、烟雾)或复杂边缘时遇到困难。

数据集和训练

LayerDiffusion使用了一个大规模的数据集进行训练,这个数据集包含了透明图像对,使得模型能够学习到生成高质量透明图像所需的复杂分布。

传统的抠图方法可能依赖于较小的数据集或者特定的训练集,这可能限制了它们处理多样化场景的能力。

灵活性和控制

LayerDiffusion提供了更高的灵活性和控制能力,因为它允许用户通过文本提示(text prompts)来指导图像的生成,并且可以生成多个图层,这些图层可以被混合和组合以创建复杂的场景。

传统的抠图方法可能在控制方面更为有限,尤其是在处理复杂的图像内容和透明度时。

质量比较

用户研究显示,LayerDiffusion生成的透明图像在大多数情况下(97%)被用户偏好,这表明其生成的透明内容在视觉上与商业透明资产相当,甚至可能更优。

传统的抠图方法可能在某些情况下无法达到同样的质量,尤其是在处理具有挑战性的透明度和边缘时。

总而言之,LayerDiffusion提供的是一种更先进且灵活的方法来生成和处理透明图像。

它在生成过程中直接编码透明度,并且能够产生高质量的结果,这在传统的抠图方法中是很难实现的。

关于作者

正如我们刚才提到的,这项研究的作者之一,正是大名鼎鼎的ControlNet的发明人——张吕敏

他本科就毕业于苏州大学,大一的时候就发表了与AI绘画相关的论文,本科期间更是发了10篇顶会一作。

目前张吕敏在斯坦福大学攻读博士,但他为人可以说是非常低调,连Google Scholar都没有注册。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

就目前来看,LayerDiffusion在GitHub中并没有开源,但即便如此也挡不住大家的关注,已经斩获660星。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

毕竟张吕敏也被网友调侃为“时间管理大师”,对LayerDiffusion感兴趣的小伙伴可以提前mark一波了。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

相关专题

更多
Golang channel原理
Golang channel原理

本专题整合了Golang channel通信相关介绍,阅读专题下面的文章了解更多详细内容。

238

2025.11.14

golang channel相关教程
golang channel相关教程

本专题整合了golang处理channel相关教程,阅读专题下面的文章了解更多详细内容。

320

2025.11.17

function是什么
function是什么

function是函数的意思,是一段具有特定功能的可重复使用的代码块,是程序的基本组成单元之一,可以接受输入参数,执行特定的操作,并返回结果。本专题为大家提供function是什么的相关的文章、下载、课程内容,供大家免费下载体验。

467

2023.08.04

js函数function用法
js函数function用法

js函数function用法有:1、声明函数;2、调用函数;3、函数参数;4、函数返回值;5、匿名函数;6、函数作为参数;7、函数作用域;8、递归函数。本专题提供js函数function用法的相关文章内容,大家可以免费阅读。

158

2023.10.07

苹果官网入口直接访问
苹果官网入口直接访问

苹果官网直接访问入口是https://www.apple.com/cn/,该页面具备0.8秒首屏渲染、HTTP/3与Brotli加速、WebP+AVIF双格式图片、免登录浏览全参数等特性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

115

2025.12.24

拼豆图纸在线生成器
拼豆图纸在线生成器

拼豆图纸生成器有PixelBeads在线版、BeadGen和“豆图快转”;推荐通过pixelbeads.online或搜索“beadgen free online”直达官网,避开需注册的诱导页面。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

84

2025.12.24

俄罗斯搜索引擎yandex官方入口地址(最新版)
俄罗斯搜索引擎yandex官方入口地址(最新版)

Yandex官方入口网址是https://yandex.com。用户可通过网页端直连或移动端浏览器直接访问,无需登录即可使用搜索、图片、新闻、地图等全部基础功能,并支持多语种检索与静态资源精准筛选。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

553

2025.12.24

JavaScript ES6新特性
JavaScript ES6新特性

ES6是JavaScript的根本性升级,引入let/const实现块级作用域、箭头函数解决this绑定问题、解构赋值与模板字符串简化数据处理、对象简写与模块化提升代码可读性与组织性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

155

2025.12.24

php框架基础知识汇总
php框架基础知识汇总

php框架是构建web应用程序的架构,提供工具和功能,以简化开发过程。选择合适的框架取决于项目需求和技能水平。实战案例展示了使用laravel构建博客的步骤,包括安装、创建模型、定义路由、编写控制器和呈现视图。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

20

2025.12.24

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Django 教程
Django 教程

共28课时 | 2.4万人学习

Go 教程
Go 教程

共32课时 | 2.9万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 1.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号