0

0

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

王林

王林

发布时间:2024-06-04 08:49:05

|

1120人浏览过

|

来源于机器之心

转载

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文作者为VMamba的原班人马,其中第一作者王兆植是中国科学院大学和鹏城实验室的2022级联合培养博士生,共同一作刘悦是中国科学院大学2021级直博生。他们的主要研究方向是视觉模型设计和自监督学习。

如何突破 transformer 的 attention 机制?中国科学院大学与鹏城国家实验室提出基于热传导的视觉表征模型 vheat。将图片特征块视为热源,并通过预测热传导率、以物理学热传导原理提取图像特征。相比于基于attention机制的视觉模型, vheat 同时兼顾了:计算复杂度(1.5次方)、全局感受野、物理可解释性。

当使用vHeat-base+%E6%A8%A1%E5%9E%8B进行高分辨率图像输入时,通过put、GPU显存占用、flops分别是Swin-base+%E6%A8%A1%E5%9E%8B的3倍、1/4、3/4。在图像分类、目标检测、语义/实例分割等基础下游任务上达到了先进的性能表现。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

  • 论文地址: https://arxiv.org/pdf/2405.16555

  • 代码地址: https://github.com/MzeroMiko/vHeat

  • 论文标题:vHeat: Building Vision Models upon Heat Conduction

Overview

当前最主流的两类基础视觉模型是CNN和视觉Transformer(ViT)。然而,CNN的性能表现受限于局部感受野和固定的卷积核算子。ViT 具有全局依赖关系的表征能力,然而代价是高昂的二次范数计算复杂度。我们认为 CNN 和 ViT 的卷积算子和自注意力算子都是特征内部的像素传递过程,分别是一种信息传递的形式,这也让我们联想到了物理领域的热传导。于是我们根据热传导方程,将视觉语义的空间传播和物理热传导建立联系,提出了一种 1.5 次方计算复杂度的视觉传导算子(Heat Conduction Operator, HCO),进而设计出了一种兼具低复杂度、全局感受野、物理可解释性的视觉表征模型 vHeat。HCO 与 self-attention 的计算形式和复杂度对比如下图所示。实验证明了 vHeat 在各种视觉任务中表现优秀。例如,vHeat-T 在 ImageNet-1K 上达到了 82.2% 的分类准确率,比 Swin-T 高 0.9%,比 ViM-S 高 1.7%。性能之外,vHeat 还拥有高推理速度、低 GPU 显存占用和低 FLOPs 这些优点。在输入图像分辨率较高时,base 规模的 vHeat 模型相比于 Swin 只多吞吐量1/3、1/4 的GPU显存占用和 3/4 的 FLOPs。

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

方法介绍

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野表示点物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野在 t 时刻下的温度, 物理热传导方程为物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野,其中 k>0,表示热扩散率。给定 t=0 时刻下的初始条件物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野,该热传导方程可以采用傅里叶变换求得通解,表示如下:

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

其中物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野分别表示傅里叶变换和逆傅里叶变换,物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野 表示频域空间坐标。

我们利用 HCO 来实现视觉语义中的热传导,先将物理热传导方程中的物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野扩展为多通道特征物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野,将物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野视为输入,物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野视为输出,HCO 模拟了离散化形式的热传导通解,如下公式所示:

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

其中物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野分别表示二维离散余弦变换和逆变换,HCO 的结构如下图 (a) 所示。

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

AITDK
AITDK

免费AI SEO工具,SEO的AI生成器

下载

此外,我们认为不同图像内容应该对应不同的热扩散率,考虑到物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野的输出在频域中,我们根据频率值来决定热扩散率,物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野。由于频域中不同位置表示了不同的频率值,我们提出了频率值编码(Frequency Value Embeddings,  FVEs)来表示频率值信息,与 ViT 中的绝对位置编码的实现和作用类似,并用 FVEs 对热扩散率 k 进行预测,使得 HCO 可以进行非均匀、自适应的传导,如下图所示。

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

vHeat 采用多层级的结构实现,如下图所示,整体框架与主流的视觉模型类似,其中的 HCO layer 如图 2 (b) 所示。

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

实验结果

ImageNet分类

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

通过对比实验结果不难看出,在相似的参数量和 FLOPs 下:

  1. vHeat-T 取得了 82.2% 的性能,超过 DeiT-S 达 2.4%、Vim-S 达 1.7%、Swin-T 达 0.9%。
  2. vHeat-S 取得了 83.6% 的性能,超过 Swin-S 达 0.6%、ConvNeXt-S 达 0.5%。
  3. vHeat-B 取得了 83.9% 的性能,超过 DeiT-B 达 2.1%、Swin-B 达 0.4%。

同时,由于 vHeat 的 O (N^1.5) 低复杂度和可并行计算性,推理吞吐量相比于 ViTs、SSM 模型有明显的优势,例如 vHeat-T 的推理吞吐量为 1514 img/s,比 Swin-T 高 22%,比 Vim-S 高 87%,也比 ConvNeXt-T 高 26%,同时拥有更好的性能。

下游任务

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

在 COCO 数据集上, vHeat 也拥有性能优势:在 fine-tune 12 epochs 的情况下,vHeat-T/S/B 分别达到 45.1/46.8/47.7 mAP,超过了 Swin-T/S/B 达 2.4/2.0/0.8 mAP,超过 ConvNeXt-T/S/B 达 0.9/1.4/0.7 mAP。在 ADE20K 数据集上,vHeat-T/S/B 分别达到 46.9/49.0/49.6 mIoU,相比于 Swin 和 ConvNeXt 依然拥有更好的性能表现。这些结果验证了 vHeat 在视觉下游实验中完全 work,展示出了能平替主流基础视觉模型的潜力。

分析实验

有效感受野

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

vHeat 拥有全局的有效感受野,可视化对比的这些主流模型中只有 DeiT 和 HiViT 也具备这个特性。但是值得注意的是,DeiT 和 HiViT 的代价是平方级的复杂度,而 vHeat 是 1.5 次方级的复杂度。

计算代价

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

上图从左到右分别为 vHeat-B 与其他 base 规模下的 ViT-based 模型的推理吞吐量 / GPU 显存占用 / 计算量 FLOPs 对比。可以明显看出,由于 O (N^1.5) 的计算复杂度,vHeat 相比于对比的模型有更快的推理速度、更低的显存占用以及更少的 FLOPs,并且在图像分辨率越大时,优势会更为明显。在输入图像为 768*768 分辨率时,vHeat-B 的推理吞吐量为 Swin-B 的 3 倍左右,GPU 显存占用比 Swin-B 低 74%,FLOPs 比 Swin-B 低 28%。vHeat 与 ViT-based 模型的计算代价对比,展示出其处理高分辨率图像的优秀潜质。

相关专题

更多
golang map内存释放
golang map内存释放

本专题整合了golang map内存相关教程,阅读专题下面的文章了解更多相关内容。

73

2025.09.05

golang map相关教程
golang map相关教程

本专题整合了golang map相关教程,阅读专题下面的文章了解更多详细内容。

24

2025.11.16

golang map原理
golang map原理

本专题整合了golang map相关内容,阅读专题下面的文章了解更多详细内容。

36

2025.11.17

java判断map相关教程
java判断map相关教程

本专题整合了java判断map相关教程,阅读专题下面的文章了解更多详细内容。

31

2025.11.27

vim保存退出命令
vim保存退出命令

vim是一个非常强大的文本编辑器,常用于Unix和Linux系统。它是从vi发展而来的,相比vi有许多改进和扩展。在vim中,保存并退出的命令是:wq"wq"这个命令是由两个部分组成的。其中,"w"表示写入文件,将所做的更改保存到磁盘;而"q"表示退出vim编辑器。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

262

2023.08.01

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1538

2024.08.16

虚拟号码教程汇总
虚拟号码教程汇总

本专题整合了虚拟号码接收验证码相关教程,阅读下面的文章了解更多详细操作。

30

2025.12.25

错误代码dns_probe_possible
错误代码dns_probe_possible

本专题整合了电脑无法打开网页显示错误代码dns_probe_possible解决方法,阅读专题下面的文章了解更多处理方案。

20

2025.12.25

网页undefined啥意思
网页undefined啥意思

本专题整合了undefined相关内容,阅读下面的文章了解更多详细内容。后续继续更新。

37

2025.12.25

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号