讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

新标题：Meta改进Transformer架构：强化推理能力的新注意力机制

PHPz

发布时间：2023-11-24 14:53:48

|

889人浏览过

|

来源于51CTO.COM

转载

大型语言模型（LLM）的强大已经是不容置疑的事实，然而它们有时仍然会犯一些简单的错误，显示出推理能力较弱的一面

举个例子，LLM 可能会因为不相关的上下文或者输入提示中固有的偏好或意见而做出错误的判断。后一种情况表现出的问题被称为「阿谀奉承」，即模型与输入保持一致

是否有任何方法可以缓解这类问题呢？一些学者尝试通过添加更多的监督训练数据或强化学习策略来解决，但这些方法无法从根本上解决问题

在最近的一项研究中，Meta研究者指出，Transformer模型本身的构建方式存在根本性问题，尤其是其注意力机制。换句话说，软注意力倾向于将概率分配给大部分上下文（包括不相关的部分），并且过度关注重复的标记

因此，研究人员提出了一种完全不同的注意力机制方法，即通过将LLM用作一个自然语言推理器来执行注意力。具体来说，他们利用LLM遵循指令的能力，提示它们生成应该关注的上下文，从而使它们只包含不会扭曲自身推理的相关资料。研究人员将这一过程称为System 2 Attention（S2A），他们将底层transformer及其注意力机制视为类似于人类System 1推理的自动操作

当人们需要特别关注一项任务并且 System 1 可能出错时，System 2 就会分配费力的脑力活动，并接管人类的工作。因此，这一子系统与研究者提出的 S2A 具有类似目标，后者希望通过额外的推理引擎工作来减轻上述 transformer 软注意力的失败

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

新标题：Meta改进Transformer架构：强化推理能力的新注意力机制

需要重写的内容是：论文链接：https://arxiv.org/pdf/2311.11829.pdf

Dreamlike.art

Dreamlike.art

内置5种模型的AI图像生成器

下载

研究者对S2A机制的类别、提出动机以及几个具体实现进行了详细描述。在实验阶段，他们证实S2A相比基于标准注意力的LLM，可以产生更加客观、少见主观偏见或谄媚的LLM

特别是在问题中包含干扰性观点的修正后 TriviQA 数据集上，与 LLaMA-2-70B-chat 相比，S2A 将事实性从 62.8% 提高到 80.3%；在包含干扰性输入情绪的长格式参数生成任务重，S2A 的客观性提高了 57.4%，并且基本上不受插入观点的影响。此外对于 GSM-IC 中带有与主题不相关语句的数学应用题，S2A 将准确率从 51.7% 提高到了 61.3%。

这项研究得到了 Yann LeCun 的推荐。

新标题：Meta改进Transformer架构：强化推理能力的新注意力机制

System 2 Attention

下图1展示了一个伪相关示例。当上下文中包含不相关的句子时，即使是最强大的LLM也会改变对于简单事实问题的答案，因为上下文中出现的词语无意间增加了错误答案的概率

新标题：Meta改进Transformer架构：强化推理能力的新注意力机制

因此，我们需要研究一种更深入理解的、更深思熟虑的注意力机制。为了与更底层的注意力机制区分开来，研究者提出了一个被称为S2A的系统。他们探索了一种利用LLM本身来构建这种注意力机制的方法，特别是通过移除不相关的文本来重写上下文的指令调整LLM

通过这种方法，LLM 能够在产生回应之前对输入的相关部分进行仔细推理和决策。使用指令调整的 LLM 还有一个优点，就是可以控制注意力的焦点，这与人类控制自己注意力的方式有些相似

S2A包括两个步骤：

给定上下文 x，S2A 首先重新生成上下文 x '，从而删除会对输出产生不利影响的上下文的不相关部分。本文将其表示为 x ′ ∼ S2A (x)。
给定 x ′ ，然后使用重新生成的上下文而不是原始上下文生成 LLM 的最终响应：y ∼ LLM (x ′ )。

新标题：Meta改进Transformer架构：强化推理能力的新注意力机制

替代实现和变体

在本文中，我们研究了S2A方法的几种不同版本

无上下文和问题分离。在图 2 的实现中，本文选择重新生成分解为两部分（上下文和问题）的上下文。图 12 给出了该提示变体。

新标题：Meta改进Transformer架构：强化推理能力的新注意力机制

保留原始上下文在 S2A 中，在重新生成上下文之后，应该包含所有应该注意的必要元素，然后模型仅在重新生成的上下文上进行响应，原始上下文被丢弃。图 14 给出了该提示变体。

新标题：Meta改进Transformer架构：强化推理能力的新注意力机制

指令式提示。图 2 中给出的 S2A 提示鼓励从上下文中删除固执己见的文本，并使用步骤 2（图 13）中的说明要求响应不固执己见。

新标题：Meta改进Transformer架构：强化推理能力的新注意力机制

S2A的实现都强调重新生成上下文以提高客观性并减少阿谀奉承。然而，该文章认为还有其他需要强调的点，比如，我们可以强调相关性与不相关性。图15中的提示变体就给出了一个实例

新标题：Meta改进Transformer架构：强化推理能力的新注意力机制

实验

本文进行了三种设置下的实验：事实问答、长论点生成和解决数学应用题。此外，本文还使用LLaMA-2-70B-chat作为基础模型，在两种设置下进行了评估

基线：数据集中提供的输入提示被馈送到模型，并以零样本方式回答。模型生成可能会受到输入中提供的虚假相关性的影响。
Oracle Prompt：没有附加意见或不相关句子的提示被输入到模型中，并以零样本的方式回答。

图 5 (左) 展示了在事实问答上的评估结果。System 2 Attention 比原来的输入提示有了很大的改进，准确率达到 80.3%—— 接近 Oracle Prompt 性能。

新标题：Meta改进Transformer架构：强化推理能力的新注意力机制

总体结果显示，基线、Oracle Prompt和System 2 Attention都被评估为能够提供类似的高质量评估。图6（右）显示了分项结果：

新标题：Meta改进Transformer架构：强化推理能力的新注意力机制

在GSM-IC任务中，图7展示了不同方法的结果。与Shi等人的研究结果一致，我们发现基线准确率远低于oracle。当不相关的句子与问题属于同一主题时，这种影响甚至更大，如图7（右）所示

新标题：Meta改进Transformer架构：强化推理能力的新注意力机制

了解更多内容，请参考原论文。

相关文章

斑马AI能否离线使用部分功能_斑马AI离线模式开启与功能范围【教程】

佐糖AI抠图如何换背景_佐糖AI背景替换与自定义上传【攻略】

文心一言如何写出高质量的摘要文心一言信息精炼方法

利用 ChatGPT 进行品牌故事的深度挖掘

微信AI数字人怎么调整回复速度_微信AI数字人响应延迟设置与优化【方法】

相关标签:

架构 oracle transformer https llama prompt

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：机器人扎堆“炫技” 首届川渝科普大会科普展“亮点满满” 下一篇：垂直起降固定翼无人机F120应急通信试飞首飞成功

作者最新文章

如何让你的电商前端快如闪电：SprykerTouch模块与Composer助力数据同步挑战

2025-09-12 09:46

如何解决复杂应用中动态URL和重定向管理难题，使用spryker/url模块轻松搞定

2025-09-12 10:39

如何在Spryker项目中实现前端与后端高效通信？Spryker/Zed-Request与Composer助你轻松连接！

2025-09-12 12:40

如何高效生成唯一ID？Ramsey/Uuid助你解决分布式系统中的ID难题

2025-09-13 09:51

Yii2数据库迁移总是手动写？insolita/yii2-migration-generator助你告别繁琐，实现自动化！

2025-09-15 09:38

如何解决复杂系统可视化难题，Spryker/Graphviz助你轻松绘制依赖与状态图

2025-09-15 09:52

如何高效生成订单/发票号？SprykerSequenceNumber模块助你轻松搞定

2025-09-16 10:01

如何解决电商平台商品属性管理混乱的问题，使用SprykerProductAttribute模块助你实现灵活高效的数据管理

2025-09-16 12:23

解锁夸克浏览器AI搜索新功能_掌握夸克AI搜索的进阶玩法

2025-10-13 17:08

升级夸克浏览器体验AI搜索_夸克AI搜索核心功能深度解析

2025-10-28 20:58

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

更多

oracle清空表数据

oracle清空表数据

当表中的数据不需要时，则应该删除该数据并释放所占用的空间。本专题为大家提供oracle清空表数据的相关文章，帮助大家解决该问题。

262

2023.08.16

Oracle中declare的使用

Oracle中declare的使用

Oracle DECLARE语句是PL/SQL编程语言中用于声明变量、常量、游标或异常的关键字。它的主要作用是在程序中定义这些对象，以便在后续的代码中使用。DECLARE语句的语法简单明了，可以根据需要声明多个对象。通过使用这些声明的对象，可以进行各种操作，如计算、查询数据库、处理异常等。

200

2023.09.15

oracle怎么分页

oracle怎么分页

实现分页的步骤：1、使用ROWNUM进行分页查询；2、在执行查询之前进行设置分页参数；3、使用"COUNT(*)"函数来获取总行数，并使用"CEIL"函数来向上取整计算总页数；4、在外部查询中使用"WHERE"子句来筛选出特定的行号范围，以实现分页查询。想了解更多oracle怎么分页的文章，可以来阅读本专题先的文章。

233

2023.09.18

Oracle查看表操作历史记录

Oracle查看表操作历史记录

查看操作历史记录的方法：1、使用Oracle内置的审计功能，可以记录数据库中发生的各种操作，包括登录、DDL语句、DML语句等；2、使用Oracle日志文件，其中包含了数据库中发生的各种操作，可以通过查看日志文件来获取操作历史记录；3、使用Oracle的Flashback功能，可以查看数据库在某个时间点的操作历史记录；4、使用第三方工具等。本专题还提供其他查看表操作的文章，大家可以免费阅读。

441

2023.09.19

Oracle中RAC的用法

Oracle中RAC的用法

Oracle中RAC的用法：1、通过在多个服务器上运行数据库实例来提供高可用性；2、允许在需要时增加或减少节点数量；3、通过将工作负载分布到多个节点上来实现负载均衡；4、使用共享存储来实现多个节点之间的数据共享；5、允许多个节点同时处理数据库请求，从而实现并行处理；6、提供了透明故障切换功能；7、使用了一些技术来确保数据的一致性；8、提供了管理工具来简化RAC环境的管理和维护。本专题还提供RAC相关的其他文章，大家可以免费阅读。

435

2023.09.19

oracle imp

oracle imp

imp是Oracle数据库中的一个命令行工具，用于将导出的数据和对象从一个数据库实例导入到另一个数据库实例。imp命令的一般语法为“imp username/password@connect_string file=file_name [options]”。

308

2023.09.19

常用的数据库软件

常用的数据库软件

常用的数据库软件有MySQL、Oracle、SQL Server、PostgreSQL、MongoDB、Redis、Cassandra、Hadoop、Spark和Amazon DynamoDB。更多关于数据库软件的内容详情请看本专题下面的文章。php中文网欢迎大家前来学习。

954

2023.11.02

oracle通配符有哪些

oracle通配符有哪些

oracle通配符有“%”、“_”、“[]”和“[^]"。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

160

2023.11.08

笔记本电脑卡反应很慢处理方法汇总

笔记本电脑卡反应很慢处理方法汇总

本专题整合了笔记本电脑卡反应慢解决方法，阅读专题下面的文章了解更多详细内容。

1

2025.12.25

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

Django 教程

Django 教程

共28课时 | 2.4万人学习

Go 教程

Go 教程

共32课时 | 2.9万人学习

TypeScript 教程

TypeScript 教程

共19课时 | 1.7万人学习

最新文章

更多

微博AI机器人怎样推送抢票信息_微博AI机器人抢票提醒设置【指南】

kimi如何绑定账号_绑定第三方账号教程【操作】

AI一键生成可商用矢量插画

唐库AI拆书工具怎么提取人物关系_唐库AI拆书工具人物关系图谱生成方法【教程】

DeepSeek V3 处理高并发请求的性能优化方案

利用 ChatGPT 学习深度学习模型调优策略

DeepSeek在网络安全中的应用 DeepSeek漏洞分析方法

百度ai助手怎么彻底关闭百度ai助手永久关闭教程

可灵ai怎样生成短视频脚本_可灵ai脚本生成模板与分镜设置【攻略】

教你用AI一键更换证件照背景，小白也能轻松搞定

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部