0

0

英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer

心靈之曲

心靈之曲

发布时间:2024-11-24 08:27:01

|

1239人浏览过

|

来源于机器之心

转载

tokenizer对于图像、视频生成的重要性值得重视。

笔启AI论文
笔启AI论文

专业高质量、低查重,免费论文大纲,在线AI生成原创论文,AI辅助生成论文的神器!

下载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
在讨论图像、视频生成模型时,人们的焦点更多地集中在模型所采用的架构,比如大名鼎鼎的 DiT。但其实,tokenizer 也是非常重要的组件。

谷歌等机构的研究者曾在一篇题为「Language model Beats diffusion - tokenizer is key to visual generation」的论文中证明,一个好的 tokenizer 接入到语言模型后,能够立即获得比当时最好的 diffusion 模型还要好的效果。论文作者蒋路在后来接受采访时表示,「我们的研究可能会让社区意识到 tokenizer 是被严重忽视的一个领域,值得发力去做」。

在图像、视频生成模型中,tokenizer 的核心作用是将连续的、高维的视觉数据(如图像和视频帧)转换成模型可以处理的形式,即紧凑的语义 token,它的视觉表示能力对于模型的训练和生成过程至关重要。就像上述论文作者所说,「tokenizer 的存在就是通过建立 token 之间的互联,让模型明确『我现在要做什么』,互联建立得越好、LLM 模型越有机会发挥它的全部潜力。」
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
tokenizer 是生成式 AI 的关键组件,它通过无监督学习发现潜在空间,从而将原始数据转换为高效的压缩表示。视觉 tokenizer 专门将图像和视频等高维视觉数据转化为紧凑的语义 token,从而实现高效的大型模型训练,并降低推理的计算需求。图中展示了一个视频 token 化过程。

当前,业界有很多可用的开源视频、图像 tokenizer,但这些 tokenizer 经常生成质量不佳的数据表示,这会造成采用该 tokenizer 的模型生成失真的图像、不稳定的视频。此外,低效的 token 化过程还会导致编解码速度变慢、训练和推理时间变长,从而对开发人员的工作效率和用户体验产生负面影响。

为了解决这些问题,来自英伟达的研究者开源了一套名为 Cosmos 的全新 tokenizer。英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
  • 研究地址:https://research.nvidia.com/labs/dir/cosmos-tokenizer/
  • HuggingFace 地址:https://huggingface.co/collections/nvidia/cosmos-tokenizer-672b93023add81b66a8ff8e6

一般来说,tokenizer 有两种类型:连续型和离散型。连续 tokenizer 将视觉数据映射为连续嵌入,适用于从连续分布中采样的模型,如 Stable Diffusion。离散 tokenizer 将视觉数据映射为量化指数,适用于 VideoPoet 等依赖交叉熵损失进行训练的模型,类似于 GPT 模型。下图比较了这些 token 类型。
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
tokenizer 必须兼顾高压缩和高质量,保留潜在空间的视觉细节。Cosmos tokenizer 是一套全面的连续和离散图像和视频视觉 tokenizer,可提供出色的压缩和高质量重建,速度是以前方法的 12 倍。
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
如表 1 所示,它支持各种图像和视频类型,具有灵活的压缩率,以适应不同的计算限制。
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
Cosmos tokenizer 基于轻量级时间因果架构,使用因果时间卷积和注意力层来保持视频帧的顺序。这种统一的设计允许对图像和视频进行无缝 token 化。

英伟达的研究者在高分辨率图像和长视频上训练 Cosmos tokenizer,涵盖不同类别数据的宽高比(包括 1:1、3:4、4:3、9:16 和 16:9)。在推理过程中,它不受时间长度的影响,可以处理比训练时间更长的数据。
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
  • GitHub 地址:https://github.com/NVIDIA/Cosmos-Tokenizer

研究者在标准数据集(包括 MS-COCO 2017、ImageNet-1K、FFHQ、CelebA-HQ 和 DAVIS)上对 Cosmos tokenizer 进行了评估。为了使视频 tokenizer 评估标准化,他们还策划了一个名为 TokenBench 的新数据集,涵盖机器人、驾驶和体育等类别,并在 GitHub 上公开发布。
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
  • TokenBench 地址:https://github.com/NVlabs/TokenBench

结果(图 1)显示,Cosmos tokenizer 明显优于现有方法,在 DAVIS 视频上的 PSNR 提升了 4 dB。它的 token 化速度是以前方法的 12 倍,并能在配备 80GB 内存的英伟达 A100 GPU 上编码长达 8 秒的 1080p 和 10 秒的 720p 视频。空间压缩率为 8 倍和 16 倍、时间压缩率为 4 倍和 8 倍的预训练模型可在 GitHub 上获取。
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
试用过 Cosmos 的 1x 机器人公司 AI 副总裁 Eric Jang 表示,Cosmos 是一个非常好的 tokenizer,比根据他们自己的数据进行微调的 Magvit2 好得多。看来,这个新工具值得一试。
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
以下是 Cosmos 的一些技术细节。

Cosmos tokenizer 架构

Cosmos tokenizer 采用复杂的编码器 - 解码器结构,旨在实现高效率和高效学习。其核心是采用 3D 因果卷积块,这是联合处理时空信息的专门层,并利用因果时间注意力捕捉数据中的长程依赖关系。

因果结构确保模型在进行 token 化时只使用过去和现在的帧,而避免使用未来帧。这对于与许多真实世界系统的因果性质保持一致至关重要,例如物理 AI 或多模态 LLM 中的系统。
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
                                   Cosmos tokenizer 架构图。

使用 3D wavelet 对输入进行降采样,这种信号处理技术能更有效地表示像素信息。数据处理完成后,通过反向 wavelet 变换重建原始输入。

这种方法提高了学习效率,使 tokenizer 编码器 - 解码器可学习模块专注于有意义的特征,而不是多余的像素细节。这些技术与其独特的训练方法相结合,使 Cosmos tokenizer 成为了一个高效、强大的架构。

实验结果

定性结果

图 6 显示了使用连续视频 tokenizer 重建的视频帧。
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
图 9 显示了使用不同离散图像 tokenizer 重建的图像。
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
图 8 则显示了连续图像 tokenizer 的误差图,以突出重建差异。与之前的方法相比,Cosmos tokenizer 能更有效地保留结构和高频细节(如草地、树枝、文本),同时将视觉失真(如人脸、文本)和伪影降到最低。
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
这些定性结果表明,Cosmos tokenizer 能够编码和解码各种视觉内容,并有能力保持图像和视频的最高视觉质量。

定量结果

表 2 和表 3 列出了连续和离散视频 tokenizer 在各种基准上的平均定量指标。Cosmos tokenizer 在 4×8×8 压缩率的 DAVIS 和 TokenBench 数据集上都达到了 SOTA 性能。即使在更高的压缩率(8×8×8 和 8×16×16)下,Cosmos tokenizer 的性能也优于以前的方法,显示了出色的压缩质量权衡。
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
参考链接:
https://developer.nvidia.com/blog/state-of-the-art-multimodal-generative-ai-model-development-with-nvidia-nemo/
https://research.nvidia.com/labs/dir/cosmos-tokenizer/
https://mp.weixin.qq.com/s/Hamz5XMT1tSZHKdPaCBTKg

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6080

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

798

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1056

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1211

2024.03.01

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1953

2024.08.16

Java 项目构建与依赖管理(Maven / Gradle)
Java 项目构建与依赖管理(Maven / Gradle)

本专题系统讲解 Java 项目构建与依赖管理的完整体系,重点覆盖 Maven 与 Gradle 的核心概念、项目生命周期、依赖冲突解决、多模块项目管理、构建加速与版本发布规范。通过真实项目结构示例,帮助学习者掌握 从零搭建、维护到发布 Java 工程的标准化流程,提升在实际团队开发中的工程能力与协作效率。

10

2026.01.12

c++主流开发框架汇总
c++主流开发框架汇总

本专题整合了c++开发框架推荐,阅读专题下面的文章了解更多详细内容。

106

2026.01.09

c++框架学习教程汇总
c++框架学习教程汇总

本专题整合了c++框架学习教程汇总,阅读专题下面的文章了解更多详细内容。

63

2026.01.09

学python好用的网站推荐
学python好用的网站推荐

本专题整合了python学习教程汇总,阅读专题下面的文章了解更多详细内容。

139

2026.01.09

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号