0

0

来自科技进步一等奖的肯定:腾讯破解万亿参数大模型训练难题

WBOY

WBOY

发布时间:2024-03-27 21:41:45

|

1479人浏览过

|

来源于机器之心

转载

中国电子学会 2023 科学技术奖授奖名单公布,这次,我们发现了一个熟悉的身影 —— 腾讯 Angel 机器学习平台。

在大模型飞速发展的当下,科学技术奖授予机器学习平台类研究和应用项目,对于模型训练平台的价值和重要性给予了充分的肯定。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

来自科技进步一等奖的肯定:腾讯破解万亿参数大模型训练难题

科学技术奖认可了机器学习平台类项目的研究和应用,特别在大型模型快速发展的背景下,对模型训练平台的价值和重要性给予了充分的认可。

随着深度学习的兴起,各大公司开始认识到机器学习平台在发展人工智能技术中的重要性。谷歌、微软、英伟达等公司都推出了自己的机器学习平台,以加速人工智能模型的训练过程。这些平台为开发者提供了便捷的支持,使他们能够更快地构建和优化复杂的人工智能系统。这种趋势促使人们更加关注机器学习技术的发展,并为未来的人工智能应用打下了坚实的基础。

从2023年开始,大型模型的兴起进一步推动了模型参数量的提升。各大公司纷纷推出了参数规模达到千亿甚至万亿级别的模型,这些模型普遍采用深度神经网络结构。然而,这种发展也带来了两个核心痛点:模型分布式训练的困难以及应用复杂性所带来的模型设计挑战。

为什么是 Angel 机器学习平台?

详解四大核心技术突破

由多名院士等权威专家组成的鉴定委员会认为, 腾讯 Angel 机器学习平台技术复杂度高、研制难度大、创新性强,应用前景广阔,整体技术达到国际先进水平,其中面向 all-to-all 通信的高效缓存调度与管理技术、自适应预采样与图结构搜索技术达到国际领先水平。

来自科技进步一等奖的肯定:腾讯破解万亿参数大模型训练难题

                              腾讯 Angel 平台架构图

腾讯的 Angel 机器学习平台采用了分布式参数服务器架构,这种架构的特点是将存储模型参数和执行模型计算这两个任务分别在不同的服务器上运行。通过增加更多的服务器,可以支持更大规模、计算需求更高的模型。这种架构使得模型训练过程更为高效,能够处理大规模数据集和复杂模型计算。分布式参数服务器的设计使得系统具有良好的扩展性和灵活性,能够满足不同规模和需求的机器学习任务。这种架构的优势在于可以有效地利用集群资源,提高计算效率,并为用户提供更快速、更

面对海量数据和超大规模模型训练需求 ,腾讯 Angel 机器学习平台在网络通信与缓存、模型存储与调度、多模态模型与融合学习排序以及大规模图模型与结构搜索技术等核心环节取得技术突破。

来自科技进步一等奖的肯定:腾讯破解万亿参数大模型训练难题

为了提高训练效率,TB 级机器学习模型通常采用分布式训练方法,需要大量的参数和梯度同步,以 1.8T 模型千卡训练为例,IO 通信量达到 25TB, 耗时占比 53%,此外,加上不同算力集群间的异构网络环境,通信网络延迟不一,这些都对模型训练过程中的通信开销提出了较高的要求。腾讯 Angel 机器学习平台基于腾讯云星脉网络的高效通信与缓存调度管理技术,可有效解决 TB 级模型训练通讯开销大的问题,实现网络通信耗时减少 80%,分布式训练性能达业界主流方案的 2.5 倍。

来自科技进步一等奖的肯定:腾讯破解万亿参数大模型训练难题

现有的算力条件下,尽管模型达到 TB 级,而主流 GPU 的显存仍只有 80G,参数存储有瓶颈。针对 TB 级模型训练参数存储难的关键问题, 腾讯 Angel 机器学习平台提出了显存主存统一视角存储管理机制,实现模型存储容量比业界增加 1 倍,训练性能是业界主流方案 2 倍。

来自科技进步一等奖的肯定:腾讯破解万亿参数大模型训练难题

羚珑
羚珑

京东推出的一站式AI图像处理平台

下载

大模型要向通用模型发展,离不开对多模态数据的处理支持,不同模态,例如文字、图像、视频等数据的对齐融合理解难度大。在多模态模型的训练上, 腾讯 Angel 机器学习平台针对广告场景,提出多模态融合学习的全链路排序广告推荐技术,助力广告召回率提升 40% 以上。

来自科技进步一等奖的肯定:腾讯破解万亿参数大模型训练难题

另外,针对面向推荐系统的图模型训练, 腾讯 Angel 机器学习平台设计了图节点特征自适应图网络结构搜索技术,可自动输出最优结构,解决了 TB 图模型应用中 “图数据挖掘难” 的问题,实现模型训练性能提升 28 倍,与业界比具有最优扩展性。

腾讯 Angel 机器学习平台锻造之路

腾讯混元大模型扩展到万亿规模

作为腾讯人工智能技术的基础平台,腾讯 Angel 平台诞生于 2015 年,支持 PS-Worker 分布式训练, 以及十亿参数 LDA 模型的训练。

2017 年,Angel 框架在 Github 开源,向开发者开放,同时,技术上,Angel 解决了异构网络下的通信问题,性能进一步提升。2019 年,在可扩展图模型多模态理解技术取得突破,解决万亿节点可扩展图模型问题。2021 年,提出 GPU 显存统一视角存储技术,解决大模型 参数存储与性能问题。

在腾讯通用人工智能大模型腾讯混元的打造中,腾讯 Angel 机器学习平台也发挥了重要作用。

2023 年 9 月,腾讯混元大模型正式对外亮相,预训练语料超 2 万亿 tokens,具有强大的中文理解与创作能力、逻辑推理能力,以及可靠的任务执行能力。

面对建设腾讯混元大模型的需求,腾讯 Angel 机器学习平台打造了自研的面向大模型训练和推理的机器学习框架 Angel PTM 和 Angel HCF,支持单任务万卡级别超大规模训练和大规模推理服务部署。实现大模型训练效率提升至主流开源框架的 2.6 倍,千亿级大模型训练可节省 50% 算力成本,升级后支持单任务万卡级别超大规模训练。在推理上,腾讯 Angel 机器学习平台推理速度提高了 1.3 倍,在腾讯混元大模型文生图的应用中,推理耗时从原本的 10 秒缩短至 3 至 4 秒。

此外,Angel 还提供了从模型研发到应用落地的一站式平台,支持用户通过 API 接口或精调等方式快速调用腾讯混元大模型能力,加速大模型应用构建,腾讯会议、腾讯新闻、腾讯视频等超过 400 个腾讯产品及场景均已接入腾讯混元内测。

腾讯混元通过采用混合专家模型 (MoE) 结构,已将模型扩展至万亿级参数规模,推动了性能提升和推理成本下降。作为通用模型,腾讯混元在中文表现上处于业界领先水平,尤其在文本生成、数理逻辑和多轮对话中性能表现卓越。目前,腾讯混元也在积极发展多模态模型,以进一步加强文生图和文生视频能力。

腾讯大量的应用场景,为腾讯 Angel 机器学习平台的落地提供了实验地。除了腾讯混元大模型,腾讯 Angel 机器学习平台也支持了腾讯广告以及腾讯会议等产品,并通过腾讯云服务多个行业和企业客户,助力各行各业的数字化和智能化发展。

以腾讯广告为例,采用腾讯 Angel 机器学习平分布式训练优化、多模态理解图数据挖掘等创新技术,广告业务场景中的多模态大模型训练速度提升 5 倍,模型规模提升 10 倍,实现广告召回率大幅提升。

相关专题

更多
什么是分布式
什么是分布式

分布式是一种计算和数据处理的方式,将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容,供大家免费下载体验。

318

2023.08.11

分布式和微服务的区别
分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容,供大家免费下载体验。

225

2023.10.07

硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

980

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

36

2025.10.17

人工智能在生活中的应用
人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容,供大家免费下载体验。

390

2023.08.17

人工智能的基本概念是什么
人工智能的基本概念是什么

人工智能的英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

282

2024.01.09

人工智能不能取代人类的原因是什么
人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

617

2024.09.10

Python 人工智能
Python 人工智能

本专题聚焦 Python 在人工智能与机器学习领域的核心应用,系统讲解数据预处理、特征工程、监督与无监督学习、模型训练与评估、超参数调优等关键知识。通过实战案例(如房价预测、图像分类、文本情感分析),帮助学习者全面掌握 Python 机器学习模型的构建与实战能力。

32

2025.10.21

苹果官网入口直接访问
苹果官网入口直接访问

苹果官网直接访问入口是https://www.apple.com/cn/,该页面具备0.8秒首屏渲染、HTTP/3与Brotli加速、WebP+AVIF双格式图片、免登录浏览全参数等特性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

10

2025.12.24

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号