0

0

UC伯克利LLM准中文排行榜来了!GPT-4稳居第一,国人开源RNN模型冲进前六

WBOY

WBOY

发布时间:2023-05-16 22:43:20

|

1122人浏览过

|

来源于51CTO.COM

转载

前段时间,来自LMSYS Org(UC伯克利主导)的研究人员搞了个大新闻——大语言模型版排位赛!

这次,团队不仅带来了4位新玩家,而且还有一个(准)中文排行榜。

  • OpenAI GPT-4
  • OpenAI GPT-3.5-turbo
  • Anthropic Claude-v1
  • RWKV-4-Raven-14B(开源)

毫无疑问,只要GPT-4参战,必定是稳居第一。

不过,出乎意料的是,Claude不仅超过了把OpenAI带上神坛的GPT-3.5位列第二,而且只比GPT-4差了50分。

相比之下,排名第三的GPT-3.5只比130亿参数的最强开源模型Vicuna高了72分。

而140亿参数的「纯RNN模型」RWKV-4-Raven-14B凭借着卓越的表现,超越一众Transformer模型排到了第6——除Vicuna模型外,RWKV在与所有其他开源模型的非平局比赛中赢得了超过50%的比赛。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

UC伯克利LLM准中文排行榜来了!GPT-4稳居第一,国人开源RNN模型冲进前六

此外,团队还分别制作了「仅英语」和「非英语」(其中大部分是中文)这两个单独的排行榜。

可以看到,不少模型的排位都出现了明显的变化。

比如,用更多中文数据训练的ChatGLM-6B确实表现更好,而GPT-3.5也成功超越Claude排到了第二的位置。

UC伯克利LLM准中文排行榜来了!GPT-4稳居第一,国人开源RNN模型冲进前六

本次更新的主要贡献者是盛颖、Lianmin Zheng、Hao Zhang、Joseph E. Gonzalez和Ion Stoica。

盛颖是LMSYS Org的3个创始人之一(另外两位是Lianmin Zheng和Hao Zhang),斯坦福大学计算机科学系的博士生。

她也是之前爆火的、可以在单GPU上可以跑175B模型推理的系统FlexGen的一作,目前已获8k星。

UC伯克利LLM准中文排行榜来了!GPT-4稳居第一,国人开源RNN模型冲进前六

论文地址:https://arxiv.org/abs/2303.06865

项目地址:https://github.com/FMInference/FlexGen

个人主页:https://sites.google.com/view/yingsheng/home

HIX.AI
HIX.AI

HIX.AI是一个多功能的一体化AI写作助手,集成了120多种AI写作工具,支持50多种语言,能够满足各种写作需求。

下载

「开源」VS「闭源」

在社区的帮助下,团队共收集了13k条匿名投票,并且有了一些有趣的发现。

专有与开源的差距

在三个专有模型中,Anthropic的Claude模型比GPT-3.5-turbo更受用户欢迎。

而且,Claude在与最强大的GPT-4竞争时,也表现得非常有竞争力。

从下面这个胜率图来看,GPT-4和Claude之间的66场非平局比赛中,Claude赢得了32场(48%)比赛。

UC伯克利LLM准中文排行榜来了!GPT-4稳居第一,国人开源RNN模型冲进前六

所有非平局A vs B对战中,模型A胜利的比例

然而,其他开源模型与这三个专有模型之间,依然存在着很大的差距。

特别是,GPT-4以1274的Elo分数领跑排行榜。这比榜单上最好的开源替代——Vicuna-13B——要高出近200分。

在去掉平局后,GPT-4在与Vicuna-13B对战时赢得了82%的比赛,甚至在与前一代GPT-3.5-turbo对战时赢得了79%的比赛。

然而,值得注意的是,排行榜上的这些开源模型通常具有比专有模型更少的参数,范围在30亿 - 140亿之间。

实际上,最近在LLM和数据策划方面的进展使得使用较小模型取得显著性能改进成为可能。

谷歌的最新PaLM 2就是一个很好的例子:我们知道PaLM 2在使用较小模型大小时,比其前一代实现了更好的性能。

因此,团队对开源语言模型迎头赶上充满乐观。

GPT-4在何时会「翻车」?

在下图中,用户提出了一个需要仔细推理和规划的棘手问题。虽然Claude和GPT-4提供了类似的答案,但Claude的回应稍微好一些。

然而,由于采样的随机性,团队发现这种情况并不能总能复刻。有时GPT-4也能像Claude一样给出相同的顺序,但在这次生成试验中失败了。

另外,团队注意到,当使用OpenAI API和ChatGPT接口时,GPT-4的行为略有不同,这可能是由于不同的提示、采样参数或其他未知因素导致的。

UC伯克利LLM准中文排行榜来了!GPT-4稳居第一,国人开源RNN模型冲进前六

用户更喜欢Claude而不是GPT-4的一个例子

在下图中,尽管Claude和GPT-4都具有惊人的能力,但它们仍在处理这类复杂的推理问题上挣扎。

UC伯克利LLM准中文排行榜来了!GPT-4稳居第一,国人开源RNN模型冲进前六

一个用户认为Claude和GPT-4都错了的例子

除了这些棘手的情况,还有许多并不需要复杂推理或知识的简单问题。

在这种情况下,像Vicuna这样的开源模型可以与GPT-4表现相当,因此我们可能可以使用稍微弱一些(但更小或更便宜)的大型语言模型(LLM)来替代像GPT-4这样更强大的模型。

Elo分数的变化

自从三个强大的专有模型参与以来,聊天机器人竞技场的竞争从未如此激烈。

由于在与专有模型对战时,开源模型输掉了不少比赛,因此它们的Elo分数都有所下降。

最后,团队还计划开放一些API,让用户可以注册自己的聊天机器人来参加排位赛。

相关专题

更多
硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

989

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

50

2025.10.17

php8.4实现接口限流的教程
php8.4实现接口限流的教程

PHP8.4本身不内置限流功能,需借助Redis(令牌桶)或Swoole(漏桶)实现;文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

200

2025.12.29

ChatGPT注册
ChatGPT注册

ChatGPT注册方法:1、访问OpenAI的官方网站,进入注册页面;2、完成注册后收到一份邮件,打开后点击验证账号;3、选择一个适合您需求的订阅计划;4、获得访问ChatGPT的权限即可。

523

2023.09.12

国内免费ChatGPT大全
国内免费ChatGPT大全

ChatGPT是一种基于深度学习技术的自然语言处理模型,由OpenAI开发。它是GPT的一个变体,专门设计用于生成上下文相关的文本回复。ChatGPT被训练成一个聊天机器人,可以与用户进行对话交互。更多关于ChatGPT的文章详情请查看本专题,希望对大家能有所帮助。

565

2023.10.25

手机安装chatgpt的方法
手机安装chatgpt的方法

手机安装chatgpt的方法:1、在ChatGTP官网或手机商店上下载ChatGTP软件;2、打开后在设置界面中,选择语言为中文;3、在对局界面中,选择人机对局并设置中文相谱;4、开始后在聊天窗口中输入指令,即可与软件进行交互。想了解更多chatgpt的相关内容,可以阅读本专题下面的文章。

2727

2024.03.05

chatgpt国内可不可以使用
chatgpt国内可不可以使用

chatgpt在国内可以使用,但不能注册,港澳也不行,用户想要注册的话,可以使用国外的手机号进行注册,注意注册过程中要将网络环境切换成国外ip。想了解更多chatgpt的相关内容,可以阅读本专题下面的文章。

935

2024.03.05

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1661

2024.08.16

小游戏4399大全
小游戏4399大全

4399小游戏免费秒玩大全来了!无需下载、即点即玩,涵盖动作、冒险、益智、射击、体育、双人等全品类热门小游戏。经典如《黄金矿工》《森林冰火人》《狂扁小朋友》一应俱全,每日更新最新H5游戏,支持电脑与手机跨端畅玩。访问4399小游戏中心,重温童年回忆,畅享轻松娱乐时光!官方入口安全绿色,无插件、无广告干扰,打开即玩,快乐秒达!

30

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Django 教程
Django 教程

共28课时 | 2.6万人学习

Go 教程
Go 教程

共32课时 | 3.1万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号