0

0

太全了!苹果上新视觉模型4M-21,搞定21种模态

王林

王林

发布时间:2024-06-25 20:49:34

|

414人浏览过

|

来源于机器之心

转载

当前的多模态和多任务基础模型,如 **4m** 或 **unifiedio**,显示出有希望的结果。然而,它们接受不同输入和执行不同任务的开箱即用能力,受到它们接受训练的模态和任务的数量(通常很少)的限制。

,基于此,来自洛桑联邦理工学院(EPFL)和苹果的研究者联合开发了一个**先进的**任意到任意模态单一模型,该模型在数十种**广泛**多样化的模态上进行训练,并对大规模多模态数据集和文本语料库进行协同训练。

训练过程中一个关键步骤是对各种模态执行离散 **tokenization**,无论它们是类似图像的神经网络 **feature map**、向量、实例分割或人体姿态等结构化数据,还是可以表征为文本的数据。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

太全了!苹果上新视觉模型4M-21,搞定21种模态

  • 论文地址:https://arxiv.org/pdf/2406.09406

  • 论文主页 https://4m.epfl.ch/

  • 论文标题:4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities

该研究展示了训练单一模型,也能完成现有模型至少**三倍**多的任务 / **模态**,并且不会损失性能。此外,该研究还实现了更细粒度和更可控的多**模态**生成能力。

该研究建立在多模态掩码预训练方案的基础上,并通过在数十种高度多样化的模态上进行训练来提升**模型**能力。通过使用特定于模态的离散分词器对其进行编码,该研究实现了在不同模态上训练单个统一**模型**。

简单来说,该研究在几个关键维度上扩展了现有模型的功能:

  • 模态:从现有最佳任意到任意模型的 7 种模态增加到 21 种不同模态,从而实现跨模态检索、可控生成和强大的开箱即用性能。这是第一次单个视觉模型可以以任意到任意的方式解决数十个不同的任务,而不会损害性能,并且没有任何传统的多任务学习。

  • 多样性:添加对更多结构化数据的支持,例如人体姿态、SAM 实例、元数据等等。 

  • tokenization:使用特定于模态的方法研究不同模态的离散 tokenization,例如全局图像嵌入、人体姿态和语义实例。

  • 扩展:将模型大小扩展至 3B 参数,将数据集扩展至 0.5B 样本。 

  • 协同训练:同时在视觉和语言上协同训练。

方法介绍

该研究采用 4M 预训练方案(该研究同样来自 EPFL 和苹果,在去年发布),其被证明是一种通用方法,可以有效扩展到多模态。

具体而言,本文保持架构和多模态掩码训练目标不变,通过扩大模型和数据集的规模、增加训练模型所涉及的模态类型和数量,并且在多个数据集上进行联合训练,可以提升模型的性能和适应性。

模态分为以下几大类别:RGB、几何、语义、边缘、特征图、元数据和文本,如下图所示。

太全了!苹果上新视觉模型4M-21,搞定21种模态

Tokenization

Tokenization 主要包括将不同模态和任务转换为序列或离散 token,从而统一它们的表示空间。研究者使用不同的 tokenization 方法来离散具有不同特征的模态,如图 3 所示。总而言之,本文采用了三种 tokenizer,包括 ViT tokenizer、MLP tokenizer 以及文本 tokenizer。

太全了!苹果上新视觉模型4M-21,搞定21种模态

DreamGen
DreamGen

一个AI驱动的角色扮演和故事写作的平台

下载

在架构选择上,本文采用基于 Transformer 的 4M 编码器 - 解码器架构,并添加额外的模态嵌入以适应新模态。

实验结果

接下来,论文展示了 4M-21 多模态能力。

多模态生成

基于迭代解码 token ,4M-21 可以用来预测任意训练模态。如图 2 所示,本文可以从给定的输入模态以一致的方式生成所有模态。太全了!苹果上新视觉模型4M-21,搞定21种模态

此外,由于该研究可以有条件和无条件地从其他模态的任何子集生成任何训练模态,因此它支持几种方法来执行细粒度和多模态生成,如图 4 所示,例如执行多模态编辑。此外,4M-21 表现出改进的文本理解能力,无论是在 T5-XXL 嵌入上还是在常规字幕上,都可以实现几何和语义上合理的生成(图 4,右上)。

太全了!苹果上新视觉模型4M-21,搞定21种模态

多模态检索

如图 5 所示,4M-21 解锁了原始 DINOv2 和 ImageBind 模型无法实现的检索功能,例如通过使用其他模态作为查询来检索 RGB 图像或其他模态。此外,4M-21 还可以组合多种模态来预测全局嵌入,从而更好地控制检索,如右图所示。

太全了!苹果上新视觉模型4M-21,搞定21种模态

开箱即用

4M-21 能够开箱即用地执行一系列常见的视觉任务,如图 6 所示。

太全了!苹果上新视觉模型4M-21,搞定21种模态

表 1 评估了 DIODE 表面法线和深度估计、COCO 语义和实例分割、3DPW  3D 人体姿态估计等。

太全了!苹果上新视觉模型4M-21,搞定21种模态

迁移实验

此外,本文还训练了三种不同尺寸的模型:B、L 和 XL。然后,将其编码器迁移到下游任务,并在单模态 (RGB) 和多模态 (RGB + 深度) 设置上进行评估。所有迁移实验均丢弃解码器,而是训练特定任务的头部。结果如表 2 所示:

太全了!苹果上新视觉模型4M-21,搞定21种模态

最后,本文在 NYUv2、Hypersim 语义分割和 ARKitScenes 上的 3D 对象检测上执行多模态传输。如表 3 所示,4M-21 充分利用了可选的深度输入,并显著改进了基线。

太全了!苹果上新视觉模型4M-21,搞定21种模态

相关文章

数码产品性能查询
数码产品性能查询

该软件包括了市面上所有手机CPU,手机跑分情况,电脑CPU,电脑产品信息等等,方便需要大家查阅数码产品最新情况,了解产品特性,能够进行对比选择最具性价比的商品。

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6048

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

783

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1052

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1095

2024.03.01

golang map内存释放
golang map内存释放

本专题整合了golang map内存相关教程,阅读专题下面的文章了解更多相关内容。

73

2025.09.05

golang map相关教程
golang map相关教程

本专题整合了golang map相关教程,阅读专题下面的文章了解更多详细内容。

25

2025.11.16

golang map原理
golang map原理

本专题整合了golang map相关内容,阅读专题下面的文章了解更多详细内容。

37

2025.11.17

java判断map相关教程
java判断map相关教程

本专题整合了java判断map相关教程,阅读专题下面的文章了解更多详细内容。

32

2025.11.27

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

74

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 0.6万人学习

Node.js 教程
Node.js 教程

共57课时 | 7.8万人学习

CSS3 教程
CSS3 教程

共18课时 | 4.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号