通俗讲解DeepSeek开源：DeepGEMM，究竟是个啥？（第三弹）

蓮花仙者

发布时间：2025-04-23 22:16:01

796人浏览过

来源于php中文网

原创

deepseek开源周，继deepep之后，第三弹deepgemm震撼来袭。今天我们来探讨一下：

吃瓜：DeepGMEE是干什么用的？
技术：DeepGMEE是如何实现的？
普通人有什么用：对写提示词有什么启示？

【1】DeepGMEE是干什么用的？

通俗讲解DeepSeek开源：DeepGEMM，究竟是个啥？（第三弹）

DeepGMEE，全称General Matrix Multiplication，是一个FP8通用矩阵乘法库（library）。

画外音，FP8：8-bit Floating Point，8位浮点格式。

【2】关于FP8通用矩阵乘法

有人可能会问，矩阵乘法的优化值得这么吹吗？

矩阵乘法是现代AI计算的基石：

矩阵是数据表示的核心工具：神经网络中的权重、特征、参数传递等都使用矩阵表示；
矩阵乘法占大模型中90%的计算量：Transformer基操QKV运算、卷积计算、分层全连接计算等；
硬件优化的核心目标就是矩阵乘法计算。

传统AI的矩阵乘法通常使用NVIDIA开源的CUDA C++模板库CUTLASS，采用FP16/FP32格式，但存在一些不足：

占显存资源：FP32占显存是FP8的4倍；
资源利用率低：强制要求矩阵为2次幂尺寸（例如：128*128），容易出现显存碎片；
不支持MOE模型的分组矩阵计算；
部署复杂度高：需要编译，需要配置。

为什么之前不直接采用FP8呢？因为FP8虽然占用资源少，资源利用率高，但会带来精度损失。

高精度乘法：1.2 * 3.4 = 4.08

如果直接降低精度，用整数表示浮点数，变为1 * 3 = 3，精度损失是无法接受的。

我们可以对浮点数进行整数化编码处理：

步骤一：1.2用(12, 1)表示，其中1是小数位数；步骤二：3.4用(34, 1)表示；步骤三：1.2 3.4 = (12, 1) (34, 1) = (12*34, 1+1) = (408, 2)

如此一来，就没有精度损失了。

矩阵乘法的精度补偿比这个复杂，其核心思路是：使用低精度乘法矩阵快速计算，高精度加法补足。

结论就是：DeepSeek使用FP8就能完成FP16/FP32的计算，降低显存占用+提高显存利用率的同时，仍然能够保持高精度。

【3】DeepGMEE的特点

Git介绍中对DeepGMEE有三个关键形容词：

简洁（clean）
高效（efficient）
高精度（fine-grained scaling）

为什么说DeepGMEE简洁？

核心代码300行，而CUTLASS数千行；
零依赖（除CUDA），无需预编译，无需复杂环境配置；
注释清晰，便于学习与二次开发；

画外音：我看了一下，调整数据分块策略，只需要修改10-20行代码。

为什么说DeepGMEE高效？

这是FP8对比FP16/FP32的天然优势，相比CUTLASS：

显存占用下降50%+；
MOE推理延时下降60%+；
计算密度(TFLOPS)提升了270%+；

为什么说DeepGEMM高精度？

采用FP8矩阵乘法加速计算，BF16累加修正精度的办法，平衡了速度与精度。

除此之外，DeepGEMM还有不少特色：

arXiv Xplorer

ArXiv 语义搜索引擎，帮您快速轻松的查找，保存和下载arXiv文章。

下载

针对MOE优化，支持MOE分组矩阵乘法；
针对硬件加速；
动态编译JIT：运行时根据矩阵大小与硬件条件优化；
矩阵灵活尺寸对齐（例如：可以支持112*128矩阵）；

上面种种，DeepGMEE本次最大的创新，我认为是：FP8优化，JIT优化，以及MOE优化。

【4】DeepGMEE是怎么做到的？

信息密度太大，头疼，有点学不过来了，感兴趣的同学去官网看吧，我Copy一下git的信息：

1. Persistent warp-specialization

2. Hopper TMA features

3. A unified and optimized block scheduler

4. Fully JIT design

5. Unaligned block sizes

6. FFMA SASS interleaving

7. Common detail optimizations

画外音：其实你也不想知道这些how？

【5】了解GEMM对普通人写提示词有什么启示？

没有启示，这东西和提示词没关系。

【6】结尾

对于DeepGEMM，我的思考是：

之前各大玩家都卷硬件，而忽略了软件的优化；
僵化思维真的很要命，一直以来都是FP16/FP32，大家也都用CUTLASS，它就一定是最优吗？
写代码，搞架构，少即是多：多写这类300行优美的代码，而不要在垃圾公司堆shi山；

先睡了，共勉！

画外音：球球deepseek，明天不要开源新东西了。

补充阅读材料：

《DeepGEMM》

https://www.php.cn/link/e0c082bdcbcf050ff454698580c89289

可参考。

==全文完==

Wattpad能否参与跨平台连载_Wattpad多平台同步发布流程【步骤】

github干什么用_GitHub用途及新手入门使用指南

github镜像_国内GitHub镜像站点访问与使用教程

vscode如何打开git承诺时间表

IntelliJ IDEA如何导入项目

AI工具

AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型，支持联网搜索。

下载

相关标签:

git 工具 ai c++ 二次开发硬件加速为什么 deepseek 架构 sass 堆 copy github git transformer https

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何抢到淘宝510免单资格-淘宝510免单资格抢法下一篇：一淘查看商品返利教程

作者最新文章

Zoom如何共享屏幕_Zoom共享屏幕方法【指南】

2025-12-30 13:15

个人所得税APP收入显示不对怎么办_个人所得税APP收入异常申诉方法【指南】

2025-12-30 13:16

微信客户端怎么注册账号_微信客户端注册新账号详细流程

2025-12-30 13:23

html文件怎么打开无响应_双击后浏览器没反应的排查办法【汇总】

2025-12-30 13:39

搜狗搜索网页版入口搜狗网页搜索在线入口

2025-12-30 13:49

2027年觅知网文献检索入口觅知网最新可用官方网站地址

2025-12-30 13:52

Claude怎样写指令型提示词_Claude指令提示词写法【方法】

2025-12-30 13:57

高德地图怎样添加途经点出行_高德地图添加途经点出行【步骤】

2025-12-30 13:58

BOOKING怎样使用智能推荐_BOOKING推荐算法与偏好设置【方法】

2025-12-30 14:03

批改网ai检测工具怎么检测多语言作文_批改网ai检测工具多语言切换与检测支持【技巧】

2025-12-30 14:09

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档