0

0

元象XVERSE-65B:国内最大开源模型来了,高性能无条件免费商用

PHPz

PHPz

发布时间:2023-11-06 15:33:20

|

1189人浏览过

|

来源于机器之心

转载

国内此前开源了多个 70 到 130 亿参 数大模型,落地成果涌现,开源生态系统初步建立。随着智能体等任务复杂性与数据量的提升,业界与社区对更「大」模型的需求愈发迫切。

研究表明,参数量越高,高质量训练数据越多,大模型性能才能不断提升。而业界普遍共识是达到 500 到 600 亿参数门槛,大模型才能「智能涌现」在多任务中展现强大性能。但训练此量级模型成本高昂,技术要求较高,目前主要为闭源付费提供。

在国外开源生态中,Llama2-70B 和 Falcon-180B 等标杆模型为有条件开源,设置了月活跃用户数或收入等商用上限,并因缺乏训练数据在中文能力上有明显短板。此外,美国新近颁布的 AI 芯片禁令,或将进一步限制中国大模型产业发展的速度。业界迫切呼吁一个高性能国产大模型,填补生态空白, 为中文应用提供更强大的理解、推理和长文生成能力。

在此背景下,元象 XVERSE 公司宣布开源 650 亿参数高性能通用大模型 XVERSE-65B并且无条件免费商用,业界尚属首次。此外,13B 模型全面升级,提高小模型能力上限。这将让海量中小企业、研究者和 AI 开发者更早一步实现大模型自由,根据其算力、资源限制和具体任务需求,自由使用、修改或蒸馏元象大模型,推动研究与应用的突破创新。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

元象XVERSE-65B:国内最大开源模型来了,高性能无条件免费商用

模型地址:https://huggingface.co/xverse/XVERSE-65B

元象 XVERSE 创始人姚星表示:「面对研发时间紧、算力持续短缺等挑战,团队依靠丰富经验,三个月内研发出多款高性能 7B、13B 模型,并最早为社区献上一个大有可为的 65B 模型,为研究、商业及生态创造三重价值。」

具体而言,65B 模型能够有以下积极影响:

  • 研发上,65B 将为新技术、新工具、性能优化到模型安全提供「大杠杆」,让社区快速累积经验,也有助于推动国家科技自主可控的长远目标。

  • 商业上,海量中小企业能以零成本用上「大工具」,可突破局限,推动应用显著创新。元象也能深入了解用例、安全模型部署和潜在机会。

  • 在开发者生态上,社区能充分发挥组织协同优势,推动研发应用的「寒武纪大爆发」。

元象XVERSE-65B:国内最大开源模型来了,高性能无条件免费商用

                                    开源可免费商用大模型图谱

全链条自研,多项技术创新

XVERSE-65B 底座模型在 2.6 万亿 Tokens 的高质量数据上从头训练,上下文窗口扩展至 16K,支持中、英、俄、法等 40 多种语言。

元象坚持高性能定位,显著提升了 65B 三方面能力:

  • 理解、生成、推理和记忆等基础能力,到模型的多样性、创造性和精度表现,从优异到强大;

  • 扩展了工具调用、代码解释、反思修正等能力,为构建智能体奠定技术基础,提高模型实用性;

  • 显著缓解 7B、13B 中常见且可能很严重的幻觉问题,减少大模型幻觉,提高准确性和专业度。

元象大模型系列均为全链条自研,涵盖多项关键技术与研发创新:

1. 复杂分布式系统设计:借鉴团队研发腾讯围棋 AI「绝艺」、王者荣耀 AI「绝悟」等大系统上的丰富经验,自研高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台与框架协同等关键技术,打造高效稳定的训练系统, 千卡集群峰值算力利用率达 58.5%,位居业界前列。

2. 全面提升性能:65B 训练中采用 FlashAttention2 加速计算, 3D 并行基础上采用虚拟流水线(virtual pipeline)技术,降低较长流水线产生过高气泡率,提升计算推理效率;上下文窗口长度从 8K 逐步提升到 16K,使其不仅能出色完成复杂任务,包括长文理解、长文生成和超长对话,还拓展了工具调用、代码解释及反思修正能力,能更好构建智能体(AI Agent)。

ShopWind网店系统
ShopWind网店系统

ShopWind网店系统是国内最专业的网店程序之一,采用ASP语言设计开发,速度快、性能好、安全性高。ShopWind网店购物系统提供性化的后台管理界面,标准的网上商店管理模式和强大的网店软件后台管理功能。ShopWind网店系统提供了灵活强大的模板机制,内置多套免费精美模板,同时可在后台任意更换,让您即刻快速建立不同的网店外观。同时您可以对网模板自定义设计,建立个性化网店形象。ShopWind网

下载

3. 极致提升训练稳定性:因计算量庞大,通信拥塞、芯片过热或计算节点故障成为 65B 训练常态,初期出现过一周最高八次故障的情况。通过集群基础设施运营、资源调度、训练框架和调度平台协同等持续优化,元象打造出高稳定、低中断、强容错的训练系统,将每周有效训练率提升至 98.6%。

此外,在接近 1.6 万亿 Tokens 的模型训练中期,损失函数产生了 NaN 值,可能导致训练中断。通常情况下,业界一般会在分析后删除与之相关的数据区间。而团队根据经验判定这是模型自然演化,选择不删除数据,直接跳过相关参数更新,最终 NaN 值问题解决。后期对参数值、激活值、梯度值等中间状态的进一步分析表明,该问题可能 与模型最后一层 transformer block 激活值的最大值变化有关,并会随最大值的逐渐降低而自行解决。

元象XVERSE-65B:国内最大开源模型来了,高性能无条件免费商用

                                      解决 NaN 值问题研发经验

全面测评 65B 性能媲美 GPT3.5

为确保业界能对元象大模型性能有全面、客观、长期认知,研究人员参考了一系列权威学术测评,制定了涵盖问答、理解、知识、推理、数学、代码等六个维度的 11 项主流权威测评标准,将持续使用并迭代。

XVERSE-65B 在 国内尚无同量级模型可对比,在与国外标杆对比测评中,部分指标超越、综合性能媲美 GPT3.5;全面超越开源标杆 Llama2-70B 和 Falcon-180B ;与 GPT4 仍有差距。          

元象XVERSE-65B:国内最大开源模型来了,高性能无条件免费商用

                                     XVERSE-65B 评测

全面升级的 XVERSE-13B-2,比同尺寸模型增加大量高质量数据,训练数据高达 3.2 万亿, 极大提升了小模型的能力上限。它文理兼修,保持了文科优势,问答提升 18%,理科长足进步, 代码提升 149%、数学提升 198%,在测评中全面超越了 Llama2、Baichuan2 等国内外开源标杆。

元象XVERSE-65B:国内最大开源模型来了,高性能无条件免费商用

                                     升级版 XVERSE-13B-2 测评

开启大模型应用新时代

元象大模型可在 Github、Hugging Face、魔搭 ModelScope 等多平台搜索「XVERSE」下载简单登记后即可无条件免费商用,能满足中小企业、科研机构和个人开发者绝大部分的应用与迭代需求。

元象同时提供模型训练、推理、部署、精调等全方位技术服务,赋能文娱、金融、医疗等各行各业,帮助在智能客服、创意写作、精准推荐等多场景打造行业领先的用户体验。2023 年 10 月,腾讯音乐率先宣布与元象大模型建立战略合作,共同推出 lyraXVERSE 加速大模型、全面升级其音乐助手「AI 小琴」,未来还将持续探索 AI 与 3D 前沿技术,引领音乐娱乐创新方向。

姚星表示:「真实世界的感知智能(3D),与真实世界的认知智能(AI),是探索通用人工智能(AGI)的必由之路,也是元象持续探索前沿科技的动力。XVERSE 开源系列致力于推动大模型国产可替代与持续技术创新,为实体经济、数字经济发展注入强劲动力。我们期待与企业和开发者携手,共同开启大模型应用新时代!」

关于元象

元象 XVERSE 于 2021 年初在深圳成立,是国内领先的 AI 与 3D 技术服务公司,致力于打造 AI 驱动的 3D 内容生产与消费一站式平台,愿景为「定义你的世界」。

元象XVERSE-65B:国内最大开源模型来了,高性能无条件免费商用                                  官方网站:www.XVERSE.cn

元象累计融资金额超过 2 亿美元。元象创始人姚星是前腾讯副总裁和腾讯 AI Lab 创始人、国家科技部新一代人工智能战略咨询委员会成员。

在 3D 与 AI 技术领域,元象拥有深厚积累与完整布局。在 3D 领域,已自主研发出行业引领性的「端云协同」3D 互动技术,开创零门槛(轻)、一站式(快)、高品质(美)全新 3D 体验;在 AI 领域,开源中国最大参数可商用大模型 XVERSE-65B,旨在推动大模型国产可替代与行业应用发展。

相关文章

数码产品性能查询
数码产品性能查询

该软件包括了市面上所有手机CPU,手机跑分情况,电脑CPU,电脑产品信息等等,方便需要大家查阅数码产品最新情况,了解产品特性,能够进行对比选择最具性价比的商品。

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
什么是分布式
什么是分布式

分布式是一种计算和数据处理的方式,将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容,供大家免费下载体验。

319

2023.08.11

分布式和微服务的区别
分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容,供大家免费下载体验。

229

2023.10.07

人工智能在生活中的应用
人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容,供大家免费下载体验。

401

2023.08.17

人工智能的基本概念是什么
人工智能的基本概念是什么

人工智能的英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

290

2024.01.09

人工智能不能取代人类的原因是什么
人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

620

2024.09.10

Python 人工智能
Python 人工智能

本专题聚焦 Python 在人工智能与机器学习领域的核心应用,系统讲解数据预处理、特征工程、监督与无监督学习、模型训练与评估、超参数调优等关键知识。通过实战案例(如房价预测、图像分类、文本情感分析),帮助学习者全面掌握 Python 机器学习模型的构建与实战能力。

32

2025.10.21

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1702

2024.08.16

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1702

2024.08.16

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

7

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号