0

0

CREATOR制造、使用工具,实现LLM「自我进化」

PHPz

PHPz

发布时间:2023-06-12 23:34:44

|

1687人浏览过

|

来源于51CTO.COM

转载

自古以来,工具的使用被视为区分人与其他物种的一大区别,也被视为是智能的一种根本体现。而当下,人工智能已不再局限于对工具的简单使用,它们已然能够根据问题创造性地建立自己的工具来寻求解决方案。在思维上,这代表着当下大模型已经能够掌握更高层次的抽象思维认知,并将其与具象思维划分,共同解决问题;而在能力上,工具创造的出现也意味着模型已经能够从 “学习” 中蜕变,去运用已知 “创造” 未来的无限可能。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

CREATOR制造、使用工具,实现LLM「自我进化」

  • 论文链接:https://arxiv.org/pdf/2305.14318.pdf

研究背景

近年来,大规模语言模型(Large Language Models)取得了显著的研究进展,包括 GPT-3、Codex、PaLM、LLaMA、ChatGPT 和最近发布的 GPT-4 等。这些模型在上下文学习(In-Context Learning)、代码生成(Code Generation)和各种其他自然语言处理任务方面表现出色,将模型的潜力进一步推向了通用人工智能。

尽管大模型在这些取得了巨大的成功,其当下仍然存在很多短板,包括无法识别或回答最新的实时信息、很难在大规模的数据计算上达到高准确性,在题干逻辑复杂时推理能力不稳定等等。针对这些短板,研究者开始致力于向当前模型架构中引入对外部资源的利用能力,例如引入计算器,问答系统,维基百科等等外部知识源,来增强模型能力。这一系列研究奠定了模型工具学习(Tool Learning)能力的基础。

然而,当下研究中利用的外部工具数量仍然有限,而在潜在的新任务类型几乎是无尽的。因此,在面对新的问题类型时,很难找到现有的适合解决问题的工具。此外,即使提供了有效的可利用的工具,模型需要在工具包文档中进行海量搜索、匹配并针对问题进行针对性地规划。这将给模型带来很大的认知负担,并需要较高的学习成本

因此,研究团队提出了全新的一种研究范式:工具创造(Tool Creation)。其不再是简单利用大模型使用工具的能力,而是加入了全新的工具创造模块,让模型针对所面对的问题进行工具创造并寻求解决方案。

利用大模型创造工具能够提高工具的普适性、可复用性和多样性,超越给定 API 的限制。工具创造模块的设计还可以减轻大模型的认知负担,并解耦其进行抽象推理(创建可推广的具有普适性的工具)和具象推理(根据工具实现细节和工具使用文档进行决策)的能力。同时,该框架下模型以代码作为工具创造的媒介,这使得模型对于错误更加敏感,并能根据工具创造与使用中的问题进行回溯与修正

CREATOR制造、使用工具,实现LLM「自我进化」

工具创造范式相比工具使用更加灵活并对不同场景有更强的适应能力

CREATOR 研究框架

大模型进行工具创造来解决问题的框架 CREATOR 主要分为了以下四个阶段:

  • 创造(Creation):运用大模型对于问题的抽象推理能力,通过代码有针对性性地创造所需工具以及其使用说明。
  • 决策(Decision):运用大模型对于问题的具象推理能力,决策如何调用工具来解决当前问题。
  • 执行(Execution):根据创造的工具以及决策内容,进行决策的执行,并捕获执行过程中的输出信息。
  • 修正(Rectification):运用大模型对于错因推理以及自我修复的能力,对执行阶段捕捉到的问题进行修复。

CREATOR制造、使用工具,实现LLM「自我进化」

大模型进行工具创造与决策的流程框架

大模型首先将根据问题创造所需要的工具以及其相关使用说明;此后,问题内容以及工具信息将同时再次返回给大模型,用以决策针对本问题的解决方案,以及如何使用这些工具。此后,模型将根据执行情况对工具及决策做出调整,以更好地适应问题并寻求解答。

整个工具创造框架灵活运用了大模型的不同思维能力:提取问题关键信息的抽象思维推理,根据任务实施方案决策的具象思维推理,以及根据问题寻求解决方案的自我修复推理。这些能力的解耦帮助大模型避免了在普通推理链(Chain-of-Thought, CoT)中的思维混乱而导致的失败现象,有效提升了大模型对于任务的适应能力及表现。

CREATOR 实验评测

作者将 CREATOR 框架与当前的普通推理链方法(CoT),程序推理链方法(Program-of-Thought, PoT)以及没有创造的简单工具使用(Tool Use)进行了比对。同时,为了验证框架中剥离抽象推理与具象推理的有效性,作者还额外引入了整体工具创造(Tool Create - whole)作为基线,该方法将 CREATOR 框架中的创造阶段与决策阶段合二为一,不再进行推理能力上的解耦。

CREATOR制造、使用工具,实现LLM「自我进化」

Creation Challenge 数据集问题,标准工具及决策示例

CREATOR制造、使用工具,实现LLM「自我进化」

在 MATH 数据集上 CREATOR 框架的表现高于其他推理方法以及简单的工具运用

在数据集的选取上,作者选择了 MATH 以及 TabMWP 数据集作为主要验证。其中前者包含了美国数学竞赛当中的高难度数学问题,而后者将问题与丰富的数据表结合,二者都考验了模型对于多样化场景的问题推理与解决能力。除此之外,作者还额外引入了全新构建的 Creation Challenge 数据集,其中的问题都无法直接套用现有工具或者代码包解决,从而考验了模型进行工具创造的能力。

CREATOR制造、使用工具,实现LLM「自我进化」

CREATOR制造、使用工具,实现LLM「自我进化」

在 TabMWP 数据集以及 Creation Challenge 上 CREATOR 框架效果也显著更强

从实验结果看来,CREATOR 框架的推理结果要明显好于所有基线,尤其相对于标准的推理方法以及程序推理方法,均达到了更好的效果。同时实验也证明了对抽象与具象推理能力进行解耦也可以有效帮助模型提高准确率。在 Creation Challenge 测试集上,作者还额外验证了在有创造什么样的工具的提示(hint)的情况下,模型将会对问题有着更强的解决能力。因此,提示与思维解耦这两点也成为了工具创造中的重要影响因素。

CREATOR制造、使用工具,实现LLM「自我进化」

不同方法针对任务难度的准确率统计

CREATOR制造、使用工具,实现LLM「自我进化」

在修正阶段的参与下效果的提升

sematic
sematic

一个开源的机器学习平台

下载

除此之外,作者还验证了不同方法对于任务难度的变化曲线,以及修正阶段参与轮次与大模型效果提升之间的联系。结果表明,CREATOR 框架面对有难度的问题能够保持更好的鲁棒性,以及修正阶段的参与能够让不仅是 CREATOR 框架,甚至是 PoT 推理方法都能得到大幅度提升,证实了在实验中引入修正阶段的合理性与有效性。

工具创造的其他优势

在主实验之外,文章作者也着重探讨了工具创造的其他优势以及当下大模型工具创造能力的不同展现形式。既然是创造工具,那么作为工具的一大优势必定是其可复用性。作者也顺此思路进一步展示了工具的复用对于任务效果的提升。

作者设计了 300 条问题并三个一组分为了 100 组。其中每一组的三个问题虽然场景不同,但都涉及相同的核心知识(Core Knowledge),即同类问题。作者验证了将对于一个问题创造的工具用于一组问题中的所有场景,是否都能够有效解决并提升准确率。

CREATOR制造、使用工具,实现LLM「自我进化」

对于大模型创造的工具在其他问题上迁移,能够有效提高准确率

实验统计表明将模型创造的正确可用的工具迁移到其他同类问题场景,能够有效提升问题解决的正确率。这即表明大模型创造的工具具有良好的可复用性,对于同类问题也有着良好的普适性。

除此之外,作者还展示了大模型进行工具创造的三个维度:对已有工具进行封装以实现不同目的,将不同工具进行组合实现目标功能,以及进行层次化的工具创建。这三个维度由低到高展示了当下大模型工具创造的能力,而这些能力也帮助大模型能够更高效地适应不同场景。

CREATOR制造、使用工具,实现LLM「自我进化」

大模型进行工具创造的三个维度

总结

CREATOR 框架通过工具创造实现了大模型抽象与具象思维能力的解耦,是继工具学习之后,对模型能力边际探索的又一大突破。相信未来的更多研究将会以此为基础,继续在工具的使用与创造上不断证明与增强模型潜力,为我们带来更多惊喜。

文章主要作者

CREATOR制造、使用工具,实现LLM「自我进化」


钱成,清华大学大三年级本科生,THUNLP 实验室成员,导师刘知远。目前研究方向包括大模型预训练,大模型高效微调,以及工具学习等领域。曾获清华大学计算机综合优秀奖学金,并以共同一作身份在 EMNLP,ACL 等国际会议中发表论文。

个人主页:https://qiancheng0.github.io/

相关专题

更多
人工智能在生活中的应用
人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容,供大家免费下载体验。

401

2023.08.17

人工智能的基本概念是什么
人工智能的基本概念是什么

人工智能的英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

289

2024.01.09

人工智能不能取代人类的原因是什么
人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

620

2024.09.10

Python 人工智能
Python 人工智能

本专题聚焦 Python 在人工智能与机器学习领域的核心应用,系统讲解数据预处理、特征工程、监督与无监督学习、模型训练与评估、超参数调优等关键知识。通过实战案例(如房价预测、图像分类、文本情感分析),帮助学习者全面掌握 Python 机器学习模型的构建与实战能力。

32

2025.10.21

ChatGPT注册
ChatGPT注册

ChatGPT注册方法:1、访问OpenAI的官方网站,进入注册页面;2、完成注册后收到一份邮件,打开后点击验证账号;3、选择一个适合您需求的订阅计划;4、获得访问ChatGPT的权限即可。

523

2023.09.12

国内免费ChatGPT大全
国内免费ChatGPT大全

ChatGPT是一种基于深度学习技术的自然语言处理模型,由OpenAI开发。它是GPT的一个变体,专门设计用于生成上下文相关的文本回复。ChatGPT被训练成一个聊天机器人,可以与用户进行对话交互。更多关于ChatGPT的文章详情请查看本专题,希望对大家能有所帮助。

565

2023.10.25

手机安装chatgpt的方法
手机安装chatgpt的方法

手机安装chatgpt的方法:1、在ChatGTP官网或手机商店上下载ChatGTP软件;2、打开后在设置界面中,选择语言为中文;3、在对局界面中,选择人机对局并设置中文相谱;4、开始后在聊天窗口中输入指令,即可与软件进行交互。想了解更多chatgpt的相关内容,可以阅读本专题下面的文章。

2727

2024.03.05

chatgpt国内可不可以使用
chatgpt国内可不可以使用

chatgpt在国内可以使用,但不能注册,港澳也不行,用户想要注册的话,可以使用国外的手机号进行注册,注意注册过程中要将网络环境切换成国外ip。想了解更多chatgpt的相关内容,可以阅读本专题下面的文章。

935

2024.03.05

vlookup函数使用大全
vlookup函数使用大全

本专题整合了vlookup函数相关 教程,阅读专题下面的文章了解更多详细内容。

28

2025.12.30

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
计算机系统从应用层到底层
计算机系统从应用层到底层

共6课时 | 0.3万人学习

RunnerGo从入门到精通
RunnerGo从入门到精通

共22课时 | 1.7万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号