0

0

参照人类大脑,学会忘记会让AI大模型变得更好?

王林

王林

发布时间:2024-03-12 14:43:02

|

1295人浏览过

|

来源于51CTO.COM

转载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

参照人类大脑,学会忘记会让AI大模型变得更好?

最近,一支计算机科学家团队研发了一种更灵活、更具弹性的机器学习模型,它们具有周期性遗忘已知信息的能力,这是现有大型语言模型所不具备的特点。

实测表明,在很多情况下,“忘却法”的训练效率很高,忘却型模型表现也会更好。韩国基础科学研究院(Institute for Basic Science)的AI工程师Jea Kwon说,新研究意味着AI领域取得明显进步。

“忘却法”训练效率很高

目前主流的AI语言引擎大多采用人工神经网络技术。这种网络结构中的每个“神经元”实际上是一个数学函数,它们之间相互连接,接收和传递信息,通过多层神经元的复杂运算来实现数据处理和学习。神经网络的这种模拟方式使得AI能够模拟人类大脑的工作方式,从而实现类似人类的智能行为。

最开始时信息流或多或少都是随机的,当网络不断与训练数据匹配,神经元之间流动的信息会不断优化。例如,如果研究人员想训练一个双语翻译模型,它首先要收集海量双语文本,用文本训练模型,它会调整神经元之间的连接,将一种语言中的文本与另一种语言中的等效单词联系起来。

上述训练需要大量计算资源。如果模型性能不佳,或者用户需求发生变化,模型可能无法满足需求。

研究人员Mikel Artetxe指出:“假设你有一个包含100种语言的模型,但其中有一种语言没有被包括进去。如果想要将这种语言加入模型,就必须重新进行训练。”

几年前,Artetxe和同事用1种语言训练神经网络,他们抹去神经网络所知的单词组成信息,也就是所谓的“Tokens”。Tokens存储在神经网络的第一层,它也叫“嵌入层”。对于其它层,不去理睬。抹去第1语言的Tokens之后,用第2种语言训练,第2种语言新的Tokens可以填充到嵌入层。

虽然模型包含大量不匹配信息,但仍然可以用第2种语言重新训练,也就是说模型可以学习、处理第2种语言。研究人员认为,虽然嵌入层存储了第2种语言的语汇特殊信息,但神经网络更底层存储了抽象信息,它涉及到人类语言的幕后概念,正是这些概念帮助模型学习第二种语言。

研究报告作者陈一红认为:“我们生活在同一个世界,用不同语言的词汇来表达相同的概念。因此,在模型中会有相同级别的推理,比如一个苹果,它是甜的、美味的,它代表着不止是一个词汇。”

将新语言添加到已训练模型中,采用“忘却法”效率很高,尽管如此,还是需要重新训练,仍然需要海量数据和强大的处理能力。有没有更好的办法?当然有,不需要训练,直接抹去嵌入层,然后再训练,也就是在初步训练时周期性重置嵌入层。

羚珑
羚珑

京东推出的一站式AI图像处理平台

下载

Artetxe称:“如此一来,整个模型就能适应重置。如果你想扩展模型,让它适应另一种语言,过程会变得更容易。”

忘却型模型表现更好

研究人员用一种比较通用的大语言模型Roberta做实验,采用周期性忘却技术训练,将它与那些用标准、非忘却方法训练的模型作比较。结果发现,在处理第1种语言时,忘却型模型得分85.1分,传统标准模型得分86.1分。再用第2种语言训练,只用约500万Tokens(第一种语言用了700亿)训练,忘却型模型的精准度得分降至62.7分,标准模型降到53.3分。

再训练时如果研究人员施加计算限制,忘却型模型的表现会更好。例如,当研究人员将训练长度从125000步短到5000步,忘却型模型的平均得分约为57.8分,标准模型降到37.2分,几乎和猜测差不多。

因此研究人员得出结论:在学习语言时,忘却型模型表现更好一些。

魁北克深度学习研究中心Mila的研究人员Evgenii Nikishin认为:“因为模型在训练时不断忘却,然后再重新学习,所以后面再教网络一些新东西时会变得更容易些。”种种迹象显示,模型理解语言时会从更深层次着眼,不只是了解单个词汇的意思。

忘却法与人类大脑的运行模式有些相似。旧金山大学神经科学家Benjamin Levy认为:“存储大量详细信息时人类记忆是相当不精准的。但人类大脑可以记住经验要点,记住抽象信息,而且擅长推断。让AI像人类一样处理信息,比如让它具备忘却能力,AI也许会更有弹性。“

Yihong Chen认为,未来也许会出现制造语言模型的工厂,这样的工厂需要忘却型技术,它是一个基本模型,可以快速适应新领域。(小刀)

相关专题

更多
Word 字间距调整方法汇总
Word 字间距调整方法汇总

本专题整合了Word字间距调整方法,阅读下面的文章了解更详细操作。

2

2025.12.24

任务管理器教程
任务管理器教程

本专题整合了任务管理器相关教程,阅读下面的文章了解更多详细操作。

2

2025.12.24

AppleID格式
AppleID格式

本专题整合了AppleID相关内容,阅读专题下面的文章了解更多详细教程。

0

2025.12.24

csgo视频观看入口合集
csgo视频观看入口合集

本专题整合了csgo观看入口合集,阅读下面的文章了知道更多入口地址。

29

2025.12.24

yandex外贸入口合集
yandex外贸入口合集

本专题汇总了yandex外贸入口地址,阅读下面的文章了解更多内容。

58

2025.12.24

添加脚注通用方法
添加脚注通用方法

本专题整合了添加脚注方法合集,阅读专题下面的文章了解更多内容。

1

2025.12.24

重启电脑教程汇总
重启电脑教程汇总

本专题整合了重启电脑操作教程,阅读下面的文章了解更多详细教程。

3

2025.12.24

纸张尺寸汇总
纸张尺寸汇总

本专题整合了纸张尺寸相关内容,阅读专题下面的文章了解更多内容。

5

2025.12.24

Java Spring Boot 微服务实战
Java Spring Boot 微服务实战

本专题深入讲解 Java Spring Boot 在微服务架构中的应用,内容涵盖服务注册与发现、REST API开发、配置中心、负载均衡、熔断与限流、日志与监控。通过实际项目案例(如电商订单系统),帮助开发者掌握 从单体应用迁移到高可用微服务系统的完整流程与实战能力。

1

2025.12.24

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
麻省理工大佬Python课程
麻省理工大佬Python课程

共34课时 | 4.8万人学习

国外Web开发全栈课程全集
国外Web开发全栈课程全集

共12课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号