0

0

太震撼了!梁文锋带领DeepSeek团队发表注意力新机制重磅论文,网友:这才是真正的OpenAI

星夢妙者

星夢妙者

发布时间:2025-04-22 16:48:45

|

676人浏览过

|

来源于php中文网

原创

就在马斯克发布了grok3,而sam altman还在犹豫是否要开源时,梁文锋作为共同作者,与deepseek研究团队一起发布了重磅研究论文,deepseek推出了最新的研究成果——原生稀疏注意力(native sparse attention, nsa)!这一技术有望显著提升下一代大语言模型处理长文本的能力,同时还能兼顾效率,可谓是llm领域的又一里程碑式进展!

太震撼了!梁文锋带领DeepSeek团队发表注意力新机制重磅论文,网友:这才是真正的OpenAI

简单来说,论文的核心贡献如下:

不多废话,我们一起来看看这篇论文:

首先了解一下论文的背景。近年来,长文本建模在AI领域的重要性日益凸显。无论是深度推理、代码库生成,还是多轮对话,都离不开模型对长序列信息的有效处理能力。像OpenAI的o-series模型、DeepSeek-R1以及Google Gemini 1.5 Pro等,都展示了处理超长文本的强大潜力。

然而,传统Attention机制的计算复杂度随着序列长度的增加而呈平方级增长,这成为了制约LLM发展的关键瓶颈。计算成本高昂,延迟成为问题,如何在保证模型性能的同时,提升长文本处理的效率,成为了亟待解决的难题。

稀疏注意力应运而生,被认为是提升效率,同时维持模型能力的有希望的方向。DeepSeek的NSA技术正是在这个方向上迈出了重要一步!

DeepSeek NSA:原生稀疏注意力,训推一体化,硬件友好。DeepSeek提出的NSA(Native Sparse Attention,原生稀疏注意力)机制,巧妙地将算法创新与硬件优化相结合,旨在实现高效的长文本建模。

NSA的核心亮点可以概括为以下两点:

  1. 动态分层稀疏策略:NSA采用了一种动态分层的稀疏策略,结合了粗粒度的Token压缩和细粒度的Token选择。这种策略既能保证模型对全局上下文的感知,又能兼顾局部信息的精确性。

  2. 两大关键创新:

    • 算术强度平衡的算法设计与硬件优化:NSA通过精巧的算法设计,并针对现代硬件进行了实现优化,显著提升了计算速度。
    • 端到端可训练:NSA支持端到端训练,这意味着它不仅在推理阶段高效,还能减少预训练的计算量,同时不牺牲模型性能!

太震撼了!梁文锋带领DeepSeek团队发表注意力新机制重磅论文,网友:这才是真正的OpenAI

? 实验效果惊艳:性能不降反升,速度大幅提升!实验结果令人振奋!如图1所示,在通用基准测试、长文本任务和指令推理方面,使用NSA预训练的模型性能不仅没有下降,反而超越了Full Attention模型!

更重要的是,在处理64k长度的序列时,NSA在解码、前向传播和反向传播等各个阶段都实现了显著的速度提升,最高可达11.6倍!这充分证明了NSA在模型生命周期各个阶段的效率优势。

太震撼了!梁文锋带领DeepSeek团队发表注意力新机制重磅论文,网友:这才是真正的OpenAI

红墨
红墨

一站式小红书图文生成器

下载

? 现有稀疏注意力方法的局限性。论文也深入分析了现有稀疏注意力方法的局限性,主要体现在两个方面:

  1. 推理效率的“假象”:很多方法虽然在理论上实现了稀疏计算,但在实际推理延迟方面提升有限。这主要是因为:

    • 阶段限制的稀疏性:例如,有些方法只在自回归解码时应用稀疏性,但在预填充阶段仍然需要大量计算。
    • 与先进Attention架构的不兼容性:一些稀疏注意力方法难以适配像MQA和GQA这样的现代高效解码架构,导致内存访问瓶颈依然存在。
  2. 可训练稀疏性的“神话”:许多方法主要关注推理阶段的稀疏性,而忽略了训练阶段。这导致:

    • 性能退化:后验应用稀疏性可能导致模型偏离预训练的优化轨迹。
    • 训练效率需求:长序列训练对于提升模型能力至关重要,但现有方法在训练效率方面存在不足。
    • 不可训练的组件:一些方法引入了不可微的离散操作,阻碍了梯度传播,限制了模型学习最佳稀疏模式的能力。
    • 反向传播效率低下:一些理论上可训练的方法,在实际训练中效率低下,例如Token粒度的选择策略可能导致非连续的内存访问,影响硬件利用率。

? NSA的核心组件:分层稀疏,逐层优化。为了克服上述局限性,NSA架构采用了分层Token建模,并通过三个并行的注意力分支处理输入序列:

  1. 压缩注意力(Compressed Attention):处理粗粒度的模式,通过压缩Token块来捕获全局信息。
  2. 选择注意力(Selected Attention):处理重要的Token块,选择性地保留细粒度的信息。
  3. 滑动窗口注意力(Sliding Window Attention):处理局部上下文信息。

这三个分支的输出通过一个门控机制进行聚合。为了最大化效率,NSA还专门设计了硬件优化的Kernel。

太震撼了!梁文锋带领DeepSeek团队发表注意力新机制重磅论文,网友:这才是真正的OpenAI

写在最后:DeepSeek的NSA技术为长文本建模带来了新的突破。它不仅在性能上超越了传统的Full Attention模型,更在效率方面实现了显著的提升,尤其是在长序列场景下。NSA的硬件友好设计和训推一体化特性,使其在实际应用中更具优势,有望加速下一代LLM在长文本处理领域的应用落地。

这项研究无疑为稀疏注意力领域带来了新的思路和方向。未来,我们期待看到更多基于NSA技术的创新应用,共同推动AI技术的进步!

最后不得不再次强调,梁文锋不仅是deepseek的CEO,很明显他还在研究的最前沿参与研究,这是令我最震撼的,他不仅有管理能力,而且还真正懂AI,deepseek前途无量。

各路网友都在喊,这才是真正的OpenAI,?

论文地址:

https://www.php.cn/link/c9eca6cff4f25c6b73be4bfbd546b1d3

相关文章

AI工具
AI工具

AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型,支持联网搜索。

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6042

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

781

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1044

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1088

2024.03.01

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

387

2023.08.14

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1676

2024.08.16

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

7

2025.12.31

php网站源码教程大全
php网站源码教程大全

本专题整合了php网站源码相关教程,阅读专题下面的文章了解更多详细内容。

4

2025.12.31

视频文件格式
视频文件格式

本专题整合了视频文件格式相关内容,阅读专题下面的文章了解更多详细内容。

7

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号