0

0

揭秘的全新版本:你从未见过的Transformer数学原理

王林

王林

发布时间:2024-01-12 23:48:25

|

1404人浏览过

|

来源于机器之心

转载

近日,arxiv 上发布了一篇论文,对 Transformer 的数学原理进行全新解读,内容很长,知识很多,十二分建议阅读原文。

2017 年,Vaswani 等人发表的 《Attention is all you need》成为神经网络架构发展的一个重要里程碑。这篇论文的核心贡献是自注意机制,这是 Transformers 区别于传统架构的创新之处,在其卓越的实用性能中发挥了重要作用。

事实上,这一创新已成为计算机视觉和自然语言处理等领域人工智能进步的关键催化剂,同时在大语言模型的出现中也起到了关键作用。因此,了解 Transformers,尤其是自注意处理数据的机制,是一个至关重要但在很大程度上尚未充分研究的领域。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

你没有看过的全新版本,transformer数学原理揭秘

论文地址:https://arxiv.org/pdf/2312.10794.pdf

深度神经网络(DNNs)有一个共同特征:输入数据按照顺序,被逐层处理,形成一个时间离散的动态系统(具体内容可以参考 MIT 出版的《深度学习》,国内也被称为「花书」)。这种观点已被成功地用于将残差网络建模到时间连续的动态系统上,后者被称为神经常微分方程(neural ODEs)。在神经常微分方程中,输入图像 你没有看过的全新版本,Transformer数学原理揭秘在时间间隔 (0,T) 上会按照给定的时变速度场 你没有看过的全新版本,Transformer数学原理揭秘进行演化。因此,DNN 可以看作是从一个 你没有看过的全新版本,Transformer数学原理揭秘 到另一个图片的流映射(Flow Map)你没有看过的全新版本,Transformer数学原理揭秘。即使在经典 DNN 架构限制下的速度场你没有看过的全新版本,Transformer数学原理揭秘中,流映射之间也具有很强的相似性。

研究者们发现,Transformers 实际上是在你没有看过的全新版本,Transformer数学原理揭秘上的流映射,即 d 维概率测度空间(the space of probability measures)间的映射。为了实现这种在度量空间间进行转换的流映射,Transformers 需要建立了一个平均场相互作用的粒子系统(mean-field interacting particle system.)。

具体来说,每个粒子(在深度学习语境下可以理解为 token)都遵循向量场的流动,流动取决于所有粒子的经验测度(empirical measure)。反过来,方程决定了粒子经验测量的演变进程,这个过程可能会持续很长时间,需要进行持续关注。

对此,研究者的主要观察结果是,粒子们往往最终会聚集到一起。这种现象在诸如单向推导(即预测序列中的下一个词)的学习任务中会尤为明显。输出度量对下一个 token 的概率分布进行编码,根据聚类结果就可以筛选出少量可能的结果。

本文的研究结果表明,极限分布实际上是一个点质量,不存在多样性或随机性,但这与实际观测结果不符。这一明显的悖论因粒子存在长时间的可变状态得到解决。从图 2 和图 4 中可以看出,Transformers 具有两种不同的时间尺度:在第一阶段,所有 token 迅速形成几个簇,而在第二阶段(较第一阶段速度慢得多),通过簇的成对合并过程,所有 token 最终坍缩为一个点。

你没有看过的全新版本,Transformer数学原理揭秘

你没有看过的全新版本,Transformer数学原理揭秘

CodeSquire
CodeSquire

AI代码编写助手,把你的想法变成代码

下载
本文的目标有两个方面。一方面,本文旨在提供一个从数学角度研究 Transformers 通用且易于理解的框架。特别是,通过这些相互作用粒子系统的结构,研究者可以将其与数学中的既定主题建立具体联系,包括非线性传输方程、Wasserstein 梯度流、集体行为模型和球面上点的最优化配置等。另一方面,本文描述了几个有前景的研究方向,并特别关注长时间跨度下的聚类现象。研究者提出的主要结果指标都是新的,并且还在整篇论文中提出了他们认为有趣的开放性问题。

本文的主要贡献分为三个部分。

你没有看过的全新版本,Transformer数学原理揭秘


第 1 部分:建模。本文定义了 Transformer 架构的理想模型,该模型将层数视为连续时间变量。这种抽象方法并不新颖,与 ResNets 等经典架构所采用的方法类似。本文的模型只关注 Transformer 架构的两个关键组成部分:自注意力机制和层归一化。层归一化有效地将粒子限制在单位球 你没有看过的全新版本,Transformer数学原理揭秘的空间内部,而自注意力机制则是通过经验度量实现粒子之间的非线性耦合。反过来,经验度量根据连续性偏微分方程进行演化。本文还为自注意引入了一个更简单好用的替代模型,一个能量函数的 Wasserstein 梯度流,而能量函数在球面上点的最优配置已经有成熟的研究方法。

第二部分:聚类。在这一部分,研究者提出了在较长时间跨度下,token 聚类的新的数学结果。如定理 4.1 表明,在高维空间中,一组随机初始化在单位球上的 n 个粒子会在你没有看过的全新版本,Transformer数学原理揭秘时聚成一个点。研究者对粒子集群收缩率的精确描述对这一结果进行了补充说明。具体来说,研究者绘制了所有粒子间距离的直方图,以及所有粒子快要完成聚类的时间点(见原文第 4 节)。研究者还在不假设维数 d 较大的情况下就得到了聚类结果(见原文第 5 节)。

第 3 部分:未来展望。本文主要以开放式问题的形式提出问题,并通过数字观测加以证实,以此提出了未来研究的潜在路线。研究者首先关注维数 d = 2 的情况(见原文第 6 节),并引出与 Kuramoto 振荡器的联系。然后简要展示了如何通过对模型进行简单而自然的修改,解决球面最优化相关的难题(见原文第 7 节)。接下来的章节探讨了相互作用的粒子系统,这些粒子系统使得对 Transformer 架构中的参数进行调整成为可能,日后可能会进一步产生实际应用。

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6048

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

783

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1052

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1096

2024.03.01

golang map内存释放
golang map内存释放

本专题整合了golang map内存相关教程,阅读专题下面的文章了解更多相关内容。

73

2025.09.05

golang map相关教程
golang map相关教程

本专题整合了golang map相关教程,阅读专题下面的文章了解更多详细内容。

25

2025.11.16

golang map原理
golang map原理

本专题整合了golang map相关内容,阅读专题下面的文章了解更多详细内容。

37

2025.11.17

java判断map相关教程
java判断map相关教程

本专题整合了java判断map相关教程,阅读专题下面的文章了解更多详细内容。

32

2025.11.27

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

74

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 2.3万人学习

Django 教程
Django 教程

共28课时 | 2.7万人学习

MySQL 教程
MySQL 教程

共48课时 | 1.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号