0

0

Ilya参与,OpenAI给GPT-4搞可解释,提取了1600万个特征,还能看它怎么想

WBOY

WBOY

发布时间:2024-06-07 17:49:15

|

1114人浏览过

|

来源于机器之心

转载

大模型也可解释了?

大模型都在想什么?openai 找到了一种办法,能给 gpt-4 做「扫描」,告诉你 ai 的思路,而且还把这种方法开源了。

Ilya参与,OpenAI给GPT-4搞可解释,提取了1600万个特征,还能看它怎么想

大语言模型(LLM)是当前AI领域最热门的探索方向,吸引了大量的关注和研究投入。它们强大的语言理解能力和生成能力在各种应用场景中都表现出巨大潜力。虽然我们已经证实了大模型迭代后性能能够显著提升,但我们目前对模型中的神经活动仍然只是一知半解。

据报道,OpenAI分享了一种全新的查找大量“特征”的方法,或许这会成为可解释的一种可用方向。OpenAI表示,新方法比此前一些思路更具扩展性,研究团队在GPT-4中使用该方法成功找到了1600万个特征。据悉,新方法能够更好地扩展,这意味着研究人员可以更轻松地对不同领域的模型进行解释和分析。

有趣的是,从作者列表中,我们发现已经从 OpenAI 离职的 Ilya Sutskever、Jan Leike 等人也是作者之一。

Ilya参与,OpenAI给GPT-4搞可解释,提取了1600万个特征,还能看它怎么想

可谓是一项重要的研究。

  • 论文标题:Scaling and evaluating sparse autoencoders

  • 论文地址:https://cdn.openai.com/papers/sparse-autoencoders.pdf

  • 代码:https://github.com/openai/sparse_autoencoder

  • 特征可视化:https://openaipublic.blob.core.windows.net/sparse-autoencoder/sae-viewer/index.html

解释神经网络

作为机器学习模型,神经网络通过使用模仿生物神经元协同工作的过程来识别现象并得出结论,然而长久以来,我们并不真正了解神经网络的内部运作原理。神经网络并不是直接设计的,研究人员设计了训练它们的算法。由此产生的神经网络还不能很好地被理解,并且不能轻易地分解为可识别的部分。这意味着我们不能像推理汽车安全那样推理人工智能安全。

为了理解和解释神经网络,首先需要找到用于神经计算的有用构建块。然而,语言模型内的神经激活是以不可预测的模式激活的,似乎同时代表许多概念,它们还密集激活,这意味着每次激活总是在每个输入上触发。

但现实世界的概念非常稀疏 —— 在任何给定的上下文中,所有概念中只有一小部分是相关的。这激发了稀疏自动编码器的使用。

稀疏自动编码器(sparse autoencoder)是一种识别神经网络中少数「特征」的方法,这些「特征」对于产生任何给定的输出都很重要,类似于一个人在推理某种情况时可能想到的一小部分概念。它们的特征显示出稀疏的激活模式,自然地与人类易于理解的概念保持一致,即使没有直接的可解释性激励。

Ilya参与,OpenAI给GPT-4搞可解释,提取了1600万个特征,还能看它怎么想

然而,训练稀疏自动编码器仍然面临严峻的挑战。大型语言模型表征大量概念,自动编码器可能需要相应巨大的规模才能接近完全覆盖前沿模型中的概念。学习大量稀疏特征具有挑战性,并且过去的工作尚未证明可以很好地扩展。

大规模自动编码器训练

OpenAI 最新的研究进展提出了一种新方法,能够将稀疏自动编码器扩展到前沿人工智能模型上的数千万个特征。并且该方法显示出平滑且可预测的扩展,与现有方法相比具有更好的规模回报。同时,OpenAI 还引入了几个用于评估特征质量的新指标。

OpenAI 使用该方法在 GPT-2 small 和 GPT-4 激活上训练各种自动编码器,包括 GPT-4 上的 1600 万个特征的自动编码器。

具体来说,研究团队在 GPT-2 small 模型和一系列逐步增大的、共享 GPT-4 架构和训练设置的模型(包括 GPT-4 本身)的残差流上训练自动编码器。他们选择了靠近网络末端的一层,该层应包含许多特征,而不专门用于下一个 token 的预测。

所有实验均使用 64 个 token 的上下文长度。研究团队先在 dmodel 维度上减去平均值,并将所有输入归一化为单位范数(unit norm),然后再传递给自动编码器(或计算重建误差)。 

训练结束后,研究团队根据稀疏性 L_0 和重建均方误差 (MSE) 对自动编码器进行评估。

为了简化分析,OpenAI 不考虑学习率预热或衰减,sweep 小规模的学习率,并推断大规模的最佳学习率的趋势。

为了检查特征的可解释性,OpenAI 进行了可视化工作。以下是 OpenAI 发现的一些可解释的特征:

唱鸭
唱鸭

音乐创作全流程的AI自动作曲工具,集 AI 辅助作词、AI 自动作曲、编曲、混音于一体

下载
  • 人类的缺陷;

  • 价格上涨;

  • X 和 Y;

  • 训练 Log;

  • 反问句;

  • 代数环;

  • 谁 / 什么;

  • 多巴胺。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Ilya参与,OpenAI给GPT-4搞可解释,提取了1600万个特征,还能看它怎么想

Ilya参与,OpenAI给GPT-4搞可解释,提取了1600万个特征,还能看它怎么想

例如,GPT-4 特征:与事物(尤其是人类)有缺陷相关的短语:

Ilya参与,OpenAI给GPT-4搞可解释,提取了1600万个特征,还能看它怎么想

价格上涨:

Ilya参与,OpenAI给GPT-4搞可解释,提取了1600万个特征,还能看它怎么想

反问句:

Ilya参与,OpenAI给GPT-4搞可解释,提取了1600万个特征,还能看它怎么想

局限和发展方向

新方法能够提高模型的可信度和可操纵性。然而这仍是早期工作,存在许多局限性:

  • 与此前的研究一样,许多发现的特征仍然难以解释,许多特征的激活没有明确的模式,或者表现出与它们通常编码的概念无关的虚假激活。此外,目前我们还没有很好的方法来检查解释的有效性。

  • 稀疏自动编码器不会捕获原始模型的所有行为。目前,将 GPT-4 的激活通过稀疏自动编码器大致相当于使用大约 1/10 计算量训练一个模型。为了完全映射前沿 LLM 中的概念,我们可能需要扩展到数十亿或数万亿个特征,即便使用改进的扩展技术,这也具有挑战性。

  • 稀疏自动编码器可以在模型中的某一点找到特征,但这只是解释模型的一步。还需要做更多的工作来了解模型如何计算这些特征以及如何在模型的其余部分下游使用这些特征。

稀疏自动编码器的研究令人兴奋,OpenAI 表示,还有一些待解决的挑战。短期内,工程师们希望新发现的特征能够实际用于监控和控制语言模型行为,并计划在前沿模型中对此进行测试。希望最终有一天,可解释性可以为我们提供推理模型安全性和稳健性的新方法,并通过对 AI 行为提供强有力的保证,大幅提高我们对新一代 AI 模型的信任。

参考内容:

https://openai.com/index/extracting-concepts-from-gpt-4/

相关专题

更多
html版权符号
html版权符号

html版权符号是“©”,可以在html源文件中直接输入或者从word中复制粘贴过来,php中文网还为大家带来html的相关下载资源、相关课程以及相关文章等内容,供大家免费下载使用。

591

2023.06.14

html在线编辑器
html在线编辑器

html在线编辑器是用于在线编辑的工具,编辑的内容是基于HTML的文档。它经常被应用于留言板留言、论坛发贴、Blog编写日志或等需要用户输入普通HTML的地方,是Web应用的常用模块之一。php中文网为大家带来了html在线编辑器的相关教程、以及相关文章等内容,供大家免费下载使用。

638

2023.06.21

html网页制作
html网页制作

html网页制作是指使用超文本标记语言来设计和创建网页的过程,html是一种标记语言,它使用标记来描述文档结构和语义,并定义了网页中的各种元素和内容的呈现方式。本专题为大家提供html网页制作的相关的文章、下载、课程内容,供大家免费下载体验。

458

2023.07.31

html空格
html空格

html空格是一种用于在网页中添加间隔和对齐文本的特殊字符,被用于在网页中插入额外的空间,以改变元素之间的排列和对齐方式。本专题为大家提供html空格的相关的文章、下载、课程内容,供大家免费下载体验。

241

2023.08.01

html是什么
html是什么

HTML是一种标准标记语言,用于创建和呈现网页的结构和内容,是互联网发展的基石,为网页开发提供了丰富的功能和灵活性。本专题为大家提供html相关的各种文章、以及下载和课程。

2854

2023.08.11

html字体大小怎么设置
html字体大小怎么设置

在网页设计中,字体大小的选择是至关重要的。合理的字体大小不仅可以提升网页的可读性,还能够影响用户对网页整体布局的感知。php中文网将介绍一些常用的方法和技巧,帮助您在HTML中设置合适的字体大小。

500

2023.08.11

html转txt
html转txt

html转txt的方法有使用文本编辑器、使用在线转换工具和使用Python编程。本专题为大家提供html转txt相关的文章、下载、课程内容,供大家免费下载体验。

306

2023.08.31

html文本框代码怎么写
html文本框代码怎么写

html文本框代码:1、单行文本框【<input type="text" style="height:..;width:..;" />】;2、多行文本框【textarea style=";height:;"></textare】。

418

2023.09.01

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

7

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 0.6万人学习

Node.js 教程
Node.js 教程

共57课时 | 7.7万人学习

CSS3 教程
CSS3 教程

共18课时 | 4.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号