0

0

在「最难LLM评测榜单」上,阶跃万亿参数模型拿下中国第一

花韻仙語

花韻仙語

发布时间:2024-11-20 08:18:29

|

927人浏览过

|

来源于机器之心

转载

重写文本:

大模型格局再变:阶跃星辰跻身前五

国内人工智能领域传来重磅消息:

头部大模型创业公司阶跃星辰凭借其万亿参数大语言模型 Step-2 在权威大模型基准 LiveBench AI 上取得突破,位列第五,成为前十名中唯一的国产大模型。

Step-2 仅次于 OpenAI 和 Anthropic 两家公司,进一步凸显了国产大模型的快速发展。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

在「最难LLM评测榜单」上,阶跃万亿参数模型拿下中国第一

榜单地址:https://livebench.ai/#LiveBench 是当前生成式 AI 领域最权威、客观的模型能力评测榜单之一。它是由图灵奖得主、Meta 首席 AI 科学家 Yann LeCun 联合 Abacus.AI、纽约大学等机构推出的,今年六月才首次上线。它旨在消除现有 LLM 基准的局限性,被称作是「世界上第一个无法被操纵的大语言模型基准测试」。

在「最难LLM评测榜单」上,阶跃万亿参数模型拿下中国第一

  1. LiveBench 采用一种创新的基准测试方法,包含 6 大类共 18 项任务。
  2. 为了防止大模型“作弊”,LiveBench 每月发布新问题,这些问题基于最近发布的数据集、arXiv 论文、新闻文章和 IMDb 电影简介设计,以限制潜在的数据污染。每个问题都具有可验证且客观的真实答案,从而实现难题的自动化评分,无需 LLM 评审员。
  3. 通过定期更新问题集和采用客观的自动化评分方法,LiveBench 提供了一个公平且准确的评估平台,同时促进了 LLM 的持续改进和社区参与。
  4. 在最近的榜单中,step-2-16k-202411 模型的“Global Average”得分位居第五,已非常接近第三名和第四名。
  5. 值得注意的是,在提交的成绩中,Step-2 的指令跟随(IF Average)得分位居全榜第一,展示了对语言生成细节的强大控制力。具体来说,该任务要求对《卫报》最近的新文章进行转述、简化、概括或编写故事,同时遵循一项或多项指令,例如字数限制或将特定元素纳入答复中。

在「最难LLM评测榜单」上,阶跃万亿参数模型拿下中国第一

不断进化的 Step-2 万亿参数大模型

自发布以来,Step-2 持续快速迭代,与国际领先大模型的差距大幅缩小。

今年 3 月,阶跃星辰推出了 Step-2 语言大模型预览版,成为国内首个由创业公司发布的万亿参数模型。WAIC 2024 期间,阶跃星辰发布了 Step-2 万亿参数语言大模型正式版,其在逻辑推理、编程、中英文知识和指令理解等方面的表现接近国际顶尖模型。

深入了解,Step-2 万亿参数语言大模型有两大亮点:MoE 架构和万亿参数。

训练 MoE 模型有两种方式:基于现有模型进行升级(upcycle)或从头开始训练。upcycle 方式计算需求低且训练效率高,但上限较低。而从头开始训练 MoE 模型难度更高,但能达到更高的上限。

DreamGen
DreamGen

一个AI驱动的角色扮演和故事写作的平台

下载

阶跃星辰团队自主研发了 Step-2 MoE 架构并从头开始训练。通过专家参数共享和异构化专家设计等创新设计,Step-2 的每个专家模型都得到充分训练,总参数量达到万亿级,每次训练或推理激活的参数量也高于市面上的大多数密集模型。

此外,训练这样一个万亿参数模型对系统团队提出了极大挑战。在 Step-2 训练过程中,阶跃星辰系统团队突破了 6D 并行、极致显存管理和全自动化运维等关键技术,成功完成了 Step-2 的每一次升级。

根据 Scaling Law,当模型参数达到万亿规模时,推理能力(如数学和编程)将显著提升。这促使 Step-2 取得了与 OpenAI o1、Claude 3.5 Sonnet 等模型相当的出色表现。

不断进化的 Step-2 万亿参数语言大模型已接入阶跃星辰的 C 端智能助手「跃问」,可在跃问 App 和网页端(https://yuewen.cn)使用。

阶跃星辰的大模型矩阵打造之路

与国内大模型领域的知名公司相比,阶跃星辰是后来者。该公司由微软前全球副总裁姜大昕创办,去年 4 月成立,今年 3 月才崭露头角。

在「最难LLM评测榜单」上,阶跃万亿参数模型拿下中国第一

1. 阶跃星辰的创始人兼首席执行官姜大昕,曾担任微软全球副总裁和微软亚洲互联网工程院首席科学家。

2. 尽管成立时间较短,阶跃星辰已跻身国内 AI 创业公司第一梯队,并在一年内迅速发布了 Step 系列模型“全家桶”,包括万亿 MoE 语言大模型 Step-2、多模态理解大模型 Step-1.5V 和图像生成模型 Step-1X。

3. 在 AGI 技术路线图上,阶跃星辰选择了单模态、多模态、统一多模态理解和生成、世界模型和通用人工智能(AGI)的路径。

在「最难LLM评测榜单」上,阶跃万亿参数模型拿下中国第一

在快速迭代模型的同时,这家公司也将模型接入了两款 C 端产品智能生活助手跃问和 AI 开放世界冒泡鸭。目前,阶跃星辰已经完成了自身的大模型 + 产品矩阵,呈现出强势崛起的姿态。

相关专题

更多
if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

713

2023.08.22

人工智能在生活中的应用
人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容,供大家免费下载体验。

404

2023.08.17

人工智能的基本概念是什么
人工智能的基本概念是什么

人工智能的英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

291

2024.01.09

人工智能不能取代人类的原因是什么
人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

620

2024.09.10

Python 人工智能
Python 人工智能

本专题聚焦 Python 在人工智能与机器学习领域的核心应用,系统讲解数据预处理、特征工程、监督与无监督学习、模型训练与评估、超参数调优等关键知识。通过实战案例(如房价预测、图像分类、文本情感分析),帮助学习者全面掌握 Python 机器学习模型的构建与实战能力。

32

2025.10.21

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1727

2024.08.16

PHP 命令行脚本与自动化任务开发
PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境(CLI)下的开发与应用,内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理,以及与 Linux 定时任务(Cron)的结合使用。通过实战示例,帮助开发者掌握使用 PHP 构建 自动化脚本、批处理工具与后台任务程序 的能力。

21

2025.12.13

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

65

2025.12.31

php网站源码教程大全
php网站源码教程大全

本专题整合了php网站源码相关教程,阅读专题下面的文章了解更多详细内容。

44

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号