0

0

田渊栋团队论文火了!连续思维链优于CoT,打开LLM推理新范式

聖光之護

聖光之護

发布时间:2024-12-11 21:36:29

|

489人浏览过

|

来源于php中文网

原创

meta和加州大学圣地亚哥分校的研究者提出了一种名为coconut(连续思维链)的新型范式,提升大型语言模型(llm)的推理能力。该方法巧妙地修改了传统的思维链(cot)过程,不再依赖语言模型头和嵌入层将隐藏状态与语言token映射,而是直接使用最终的隐藏状态(连续思维)作为下一个token的输入嵌入。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

这种改变使得推理摆脱了语言空间的限制,并允许通过梯度下降进行端到端优化,因为连续思维是完全可微的。研究采用多阶段训练策略,利用语言推理链指导训练过程,从而增强潜在推理能力。

Coconut 的推理机制高效且独特。与基于语言的推理不同,连续思维可以同时编码多个潜在的下一步,类似于广度优先搜索(BFS)。即使模型在初始阶段可能出错,它也能在连续思维中保留多种可能性,并逐步排除错误路径,最终找到正确答案。这一过程由隐含的价值函数引导,超越了传统的CoT方法。

实验结果表明,Coconut显著提升了LLM的推理能力。在数学推理(GSM8k)和逻辑推理(ProntoQA、ProsQA)任务中,Coconut及其变体在准确率和效率方面均优于基于语言的CoT方法,尤其在需要更强规划能力的逻辑推理任务中表现突出。 在社交媒体平台X上,这项研究也引发了广泛关注。

图片

Coconut方法概述:

Coconut在语言模式和潜在模式之间切换:

  • 语言模式:模型如同标准语言模型,自回归生成下一个token。
  • 潜在模式:模型直接利用最后一个隐藏状态(连续思维)作为下一个输入嵌入。

特殊token 分别标记潜在思维模式的开始和结束。

图片

训练过程:

研究采用多阶段训练策略,利用语言CoT数据监督连续思维的训练。初始阶段在常规CoT实例上训练,后续阶段逐步用连续思维替换CoT中的推理步骤。

LongShot
LongShot

LongShot 是一款 AI 写作助手,可帮助您生成针对搜索引擎优化的内容博客。

下载

图片

推理过程:

类似于标准语言模型解码,但在潜在模式下,直接使用最后一个隐藏状态作为输入嵌入。模型可以通过训练二元分类器或设置固定长度来决定潜在模式和语言模式的切换。

实验结果与分析:

实验涵盖数学推理(GSM8k)和逻辑推理(ProntoQA, ProsQA)。Coconut在各个数据集上均取得了显著提升,尤其在ProsQA上超越了CoT方法。 实验还比较了不同版本的Coconut,包括无课程学习、无思维和思维替换版本,证明了多阶段课程学习策略的重要性以及连续思维的有效性。

图片

通过分析Coconut的推理过程,研究者发现连续思维可以同时探索多个推理路径,类似于搜索树,并逐步收敛到正确答案。 这解释了其在规划密集型任务中的优势。

图片图片图片图片图片图片图片

这项研究为LLM的推理能力提升提供了新的思路,也为未来的研究方向指明了道路。 更多细节请参考原文:https://www.php.cn/link/73926ad475a40a4cb676b8d4516cd767

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6048

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

782

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1052

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1095

2024.03.01

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1725

2024.08.16

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

65

2025.12.31

php网站源码教程大全
php网站源码教程大全

本专题整合了php网站源码相关教程,阅读专题下面的文章了解更多详细内容。

45

2025.12.31

视频文件格式
视频文件格式

本专题整合了视频文件格式相关内容,阅读专题下面的文章了解更多详细内容。

40

2025.12.31

不受国内限制的浏览器大全
不受国内限制的浏览器大全

想找真正自由、无限制的上网体验?本合集精选2025年最开放、隐私强、访问无阻的浏览器App,涵盖Tor、Brave、Via、X浏览器、Mullvad等高自由度工具。支持自定义搜索引擎、广告拦截、隐身模式及全球网站无障碍访问,部分更具备防追踪、去谷歌化、双内核切换等高级功能。无论日常浏览、隐私保护还是突破地域限制,总有一款适合你!

41

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 0.6万人学习

Node.js 教程
Node.js 教程

共57课时 | 7.8万人学习

CSS3 教程
CSS3 教程

共18课时 | 4.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号