GPT-4太强，OpenAI也不懂！智能到底是怎么突然「涌现」的？

PHPz

发布时间：2023-03-31 22:39:27

1542人浏览过

来源于51cto

转载

不可解释的智能，未来该如何发展？

2023年至今，ChatGPT和GPT-4始终霸占在热搜榜上，一方面外行人都在惊叹于AI怎么突然如此强大，会不会革了「打工人」的命；另一方面，其实内行人也不明白，为什么模型规模在突破某一界限后，突然就「涌现」出了惊人的智能。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

出现智能是好事，但模型不可控、不可预测、不可解释的行为，却让整个学术界陷入了迷茫与深思。

突然变强的超大模型

先出一道简单的题目，下面这几个emoj代表了什么电影？

最简单的语言模型往往只能续写出「The movie is a movie about a man who is a man who is a man」；中等复杂度模型的答案则更接近，给出的答案是「The Emoji Movie」；但最复杂的语言模型只会给出一个答案：海底总动员「Finding Nemo」

实际上这个prompt也是为测试各种大型语言模型能力而设计的204项任务之一。

Google Research的计算机科学家Ethan Dyer参与组织了这次测试，他表示，虽然构建BIG-Bench数据集的时候我已经准备好了迎接惊喜，但当真的见证这些模型能做到的时候，还是感到非常惊讶。

惊讶之处在于，这些模型只需要一个提示符：即接受一串文本作为输入，并且纯粹基于统计数据一遍又一遍地预测接下来是什么内容。

计算机科学家曾预计，扩大规模可以提高已知任务的性能，但他们没有预料到模型会突然能够处理这么多新的、不可预测的任务。

Dyer最近参与的一项调研结果显示，LLM 可以产生数百种「涌现」（emergent）能力，即大型模型可以完成的任务，小型模型无法完成，其中许多任务似乎与分析文本无关，比如从乘法计算到生成可执行的计算机代码，还包括基于Emoji符号的电影解码等。

新的分析表明，对于某些任务和某些模型，存在一个复杂性阈值，超过这个阈值，模型的功能就会突飞猛进。

研究人员也提出了涌现能力的另一个负面影响：随着复杂性的增加，一些模型在回答中显示出新的偏见（biases）和不准确性。

斯坦福大学的计算机科学家 Rishi Bommasani 表示，我所知道的任何文献中都没有讨论过语言模型可以做这些事情。

去年，Bommasani 参与编制了一份包含几十种涌现行为的清单，其中包括在Dyer的项目中发现的几种行为，并且这个名单还在继续变长。

论文链接：https://openreview.net/pdf?id=yzkSU5zdwD

目前研究人员不仅在竞相发现更多的涌现能力，而且还在努力找出它们发生的原因和方式，本质上是试图对不可预测性进行预测。

理解涌现可以揭示围绕人工智能和一般机器学习的深层次问题的答案，比如复杂模型是否真的在做一些新的事情，或者只是在统计方面变得非常擅长，它还可以帮助研究人员利用潜在的优势和减少涌现风险。

人工智能初创公司 Anthroic 的计算机科学家Deep Ganguli表示，我们不知道如何判断哪种应用程序的危害能力将会出现，无论是正常出现的还是不可预测的。

涌现的涌现（The Emergence of Emergence）

生物学家、物理学家、生态学家和其他科学家使用「涌现」一词来描述当一大群事物作为一个整体时出现的自组织、集体行为。

比如无生命的原子组合产生活细胞; 水分子产生波浪; 椋鸟的低语以变化但可识别的模式在天空中飞翔; 细胞使肌肉运动和心脏跳动。

重要的是，涌现能力在涉及大量独立部分的系统中都有出现，但是研究人员直到最近才能够在 LLM 中发现这些能力，或许是因为这些模型已经发展到了足够大的规模。

语言模型已经存在了几十年，但直到五年前最强大的武器还是基于循环神经网络（RNN），训练方法就是输入一串文本并预测下一个单词是什么；之所以叫循环（recurrent），是因为模型从自己的输出中进行学习，即把模型的预测反馈到网络中，以改善性能。

2017年，谷歌大脑的研究人员引入了一种名为Transformer的全新架构，相比循环网络逐字分析一个句子，Transformer可以同时处理所有的单词，也就意味着Transformer可以并行处理大量文本。

通过增加模型中的参数数量以及其他因素，Transformer使语言模型的复杂性得以快速扩展，其中参数可以被认为是单词之间的连接，模型通过在训练期间调整这些连接的权重以改善预测结果。

模型中的参数越多，建立联系的能力就越强，模拟人类语言的能力也就越强。

BgSub

免费的AI图片背景去除工具

下载

正如预期的那样，OpenAI 研究人员在2020年进行的一项分析发现，随着模型规模的扩大，它们的准确性和能力都有所提高。

论文链接：https://arxiv.org/pdf/2001.08361.pdf

随着 GPT-3（拥有1750亿参数）和谷歌的 PaLM （可扩展至5400亿参数）等模型的发布，用户发现了越来越多的涌现能力。

一位 DeepMind 的工程师甚至报告说，他可以让 ChatGPT 认为自己是一个 Linux 终端，并运行一些简单的数学代码来计算前10个素数。值得注意的是，ChatGPT可以比在真正的 Linux 机器上运行相同的代码更快地完成任务。

与电影Emoji符号任务一样，研究人员没有理由认为一个用于预测文本的语言模型可以模仿计算机终端，许多涌现行为都展现了语言模型的Zero-shot或Few-shot学习能力，即LLM可以解决以前从未见过或很少见过的问题的能力。

大批研究人员发现了 LLM 可以超越训练数据约束的迹象，他们正在努力更好地掌握涌现的样子以及它是如何发生的，第一步就是完全地记录下来。

超越模仿游戏

2020年，Dyer 和Google Research的其他人预测，LLM 将产生变革性影响，但这些影响具体是什么仍然是一个悬而未决的问题。

因此，他们要求各个研究团队提供困难且多样化任务的例子以找到语言模型的能力边界，这项工作也被称为「超越模仿游戏的基准」(BIG-bench，Beyond the Imitation Game Benchmark)项目，名字来源于阿兰 · 图灵提出的「模仿游戏」，即测试计算机是否能以令人信服的人性化方式回答问题，也叫做图灵测试。