0

0

何恺明与MIT合作:简单框架实现无条件图像生成的最新突破

王林

王林

发布时间:2023-12-15 09:57:28

|

998人浏览过

|

来源于51CTO.COM

转载

大佬何恺明还未正式入职mit,但和mit的第一篇合作研究已经出来了:

他和MIT师生一起开发了一个自条件图像生成框架,名叫RCG(代码已开源)

这个框架结构非常简单但效果拔群,直接在ImageNet-1K数据集上实现了无条件图像生成的新SOTA

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

新标题:何恺明与MIT合作:简单框架实现无条件图像生成的最新突破

它生成的图像不需要任何人类注释(也就是提示词、类标签什么的),就能做到既保真又具有多样性。

新标题:何恺明与MIT合作:简单框架实现无条件图像生成的最新突破

这样的它不仅显著提高了无条件图像生成的水平,还能跟当前最好的条件生成方法一较高下。

用何恺明团队自己的话来说:

有条件和无条件生成任务之间长期存在的性能差距,终于在这一刻被弥补了。

那么,它究竟是如何做到的呢?

类似自监督学习的自条件生成

首先,所谓无条件生成,就是模型在没有输入信号帮助的情况下直接捕获数据分布生成内容。

这种训练方式很困难,因此一直与条件生成存在很大的性能差距——就像无监督学习无法与监督学习相比

正如自我监督学习的出现一样,它也改变了这种情况

在无条件图像生成领域,也有一个类似于自监督学习概念的自条件生成方法。

相比传统的无条件生成简单地将噪声分布映射到图像分布,这种方法主要将像素生成过程设置在从数据分布本身导出的表示分布上

它有望超越条件图像生成,并推动诸如分子设计或药物发现这种不需要人类给注释的应用往前发展(这也是为什么条件生成图像发展得这么好,我们还要重视无条件生成)

现在,基于这个自条件生成概念,何恺明团队首先开发了一个表示扩散模型RDM

通过自监督图像编码器从图像中截取,主要用于生成低维自监督图像表示

新标题:何恺明与MIT合作:简单框架实现无条件图像生成的最新突破

它的核心架构如下:

首先是输入层,它负责将表征投射到隐藏维度C,接着是N个全连接块,最后是一个输出层,负责把隐藏层的潜在特征重新投射(转换)到原始表征维度。

其中每一层都包含一个LayerNorm层、一个SiLU层以及一个线性层。

新标题:何恺明与MIT合作:简单框架实现无条件图像生成的最新突破

这样的RDM具有两个优点:

它的特点之一是具有很强的多样性,另一个特点是计算开销很小

蝉妈妈AI
蝉妈妈AI

电商人专属的AI营销助手

下载

在此之后,团队借助RDM提出了今天的主角:表示条件图像生成架构RCG

它是一个简单的自条件生成框架,由三个组件组成:

一个是SSL图像编码器,用于将图像分布转换为紧凑的表示分布。

一个是RDM,用于对该分布进行建模和采样。

最后是一个像素生成器MAGE,用于根据表示来处理图像像。

MAGE的工作方式是在token化的图像中添加随机掩码,并要求网络以从同一图像中提取的表示为条件来重建丢失的token

新标题:何恺明与MIT合作:简单框架实现无条件图像生成的最新突破

经过测试发现,最终结果显示,尽管这个自条件生成框架的结构简单,但其效果非常出色

在ImageNet 256×256上,RCG实现了3.56的FID和186.9的IS(Inception Score)得分。

相比之下,在它之前最厉害的无条件生成方法FID分数为7.04,IS得分为123.5。

新标题:何恺明与MIT合作:简单框架实现无条件图像生成的最新突破

对于RCG来说,它不仅在条件生成方面表现出色,而且在与该领域基准模型相比时,它的水平相当甚至超过

最后,在无分类器引导的情况下,RCG的成绩还能进一步提高到3.31(FID)和253.4(IS)

团队表达了:

这些结果显示,条件图像生成模型具有巨大的潜力,可能预示着这一领域的新时代即将到来

团队介绍

本文一共三位作者:

新标题:何恺明与MIT合作:简单框架实现无条件图像生成的最新突破

一作是MIT博士生黎天鸿,本科毕业于清华姚班,研究方向为跨模态集成传感技术。

他的个人主页非常有趣,还专门放了一个菜谱合集——研究和烹饪是他最热衷的两件事情

新标题:何恺明与MIT合作:简单框架实现无条件图像生成的最新突破

另一位作者是MIT电气工程与计算机科学系(EECS)教授、MIT无线网络和移动计算中心主任Dina Katabi,她是今年斯隆奖的获得者,并已当选美国国家科学院院士。

新标题:何恺明与MIT合作:简单框架实现无条件图像生成的最新突破

最后,通讯作者为何恺明,他将在明年正式回归学界、离开Meta加入MIT电气工程和计算机科学系,与Dina Katabi成为同事。

新标题:何恺明与MIT合作:简单框架实现无条件图像生成的最新突破

请点击以下链接查看论文:https://arxiv.org/abs/2312.03701

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6048

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

783

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1052

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1095

2024.03.01

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1726

2024.08.16

SSL检测工具介绍
SSL检测工具介绍

SSL检测工具有SSL Labs、SSL Check、SSL Server Test、SSLMate、SSL/TLS Analyzer等。详细介绍:1、SSL Labs是一个由Qualys提供的在线SSL检测工具,可以评估服务器证书的部署情况、加密套件、协议支持等方面的安全性,它提供了一个详细的报告,包括证书的颁发者、有效期、安全性配置等;2、SSL Check等等。

327

2023.10.20

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

65

2025.12.31

php网站源码教程大全
php网站源码教程大全

本专题整合了php网站源码相关教程,阅读专题下面的文章了解更多详细内容。

43

2025.12.31

视频文件格式
视频文件格式

本专题整合了视频文件格式相关内容,阅读专题下面的文章了解更多详细内容。

35

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Django 教程
Django 教程

共28课时 | 2.7万人学习

Go 教程
Go 教程

共32课时 | 3.2万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号