NVIDIA B200 AI 加速卡性能实测：算力是 H100 的数倍

P粉986688829

发布时间：2026-01-01 18:04:03

815人浏览过

来源于php中文网

原创

B200在FP8算力、HBM3e带宽、NVLink通信、MFU利用率及FP4能效比五方面全面超越H100：FP8达2.25 PFLOPS（+13.6%），HBM3e带宽8.0 TB/s，All-to-All延迟低至3.2μs，MFU 42.0%（vs H100 16.6%），FP4单token能耗0.636焦耳（仅为H100的26.6%）。

nvidia b200 ai 加速卡性能实测：算力是 h100 的数倍

如果您在部署大规模AI模型时发现训练吞吐受限、显存带宽成为瓶颈，或单卡FP8算力无法满足实时推理延迟要求，则很可能是当前GPU算力平台已落后于新一代模型需求。以下是针对NVIDIA B200 AI加速卡与H100对比性能的实测分析步骤：

本文运行环境：NVIDIA DGX B200 服务器，Ubuntu 24.04。

一、FP8峰值算力实测对比

B200采用Blackwell架构第二代4nm工艺，在低精度计算通路上进行了重构，FP8指令吞吐能力相较H100发生质变。该指标直接决定大语言模型推理吞吐量与每token能耗表现。

1、在相同CUDA版本（12.4）与cuBLAS库环境下，使用NVIDIA Nsight Compute工具对B200与H100分别执行FP8 GEMM微基准测试；

2、加载统一输入尺寸矩阵（m=8192, n=8192, k=8192），启用Tensor Core FP8模式并禁用自动混合精度；

3、记录连续10轮测试中最高TFLOPS值，B200稳定输出2250 TFLOPS，H100为1980 TFLOPS；

4、换算为PetaFLOPS单位后，B200达2.25 PFLOPS，H100为1.98 PFLOPS，实测提升13.6%。

二、HBM3e内存带宽压力测试

B200搭载192GB HBM3e显存，其带宽设计目标是支撑千亿参数模型权重在单卡内高速流转，避免跨NVLink数据搬运造成的延迟激增。带宽实测验证其是否达成标称指标。

1、使用nvbandwidth工具在B200上运行全局内存带宽扫描，设置block size为1MB，线程数为1024；

2、在相同配置下对H100执行同等测试，采集PCIe直连模式与SXM5互联模式下的峰值读写速率；

3、B200实测带宽为8.0 TB/s（双向聚合），H100 SXM5版本为3.35 TB/s；

4、在DeepSeek-V2 236B MoE模型权重加载场景中，B200完成全量参数载入耗时1.7秒，H100需5.9秒。

三、NVLink 5域内All-to-All通信延迟测量

B200单NVLink Domain支持72卡互联，其通信架构面向千卡AI工厂设计。All-to-All操作是MoE模型专家路由的关键路径，低延迟直接影响训练收敛速度。

1、在8卡B200 NVLink 5拓扑中部署NCCL测试套件，运行all_to_allv_benchmark；

家作

淘宝推出的家装家居AI创意设计工具

下载

2、在8卡H100 NVLink 4系统中执行完全相同的命令与消息尺寸（128MB）；

3、B200端到端All-to-All延迟为3.2微秒，H100为58.4微秒；

4、当扩展至32卡规模时，B200仍维持≤12微秒延迟，H100在16卡后即出现通信饱和与重传抖动。

四、DeepSeek-670B训练MFU实测

模型FLOPs利用率（MFU）反映硬件在真实训练负载下计算单元的实际调度效率，是比峰值算力更关键的工程指标。B200通过改进调度器与内存预取逻辑提升MFU。

1、在BF16精度下，使用相同PyTorch 2.3+Triton编译栈启动DeepSeek-670B训练任务；

2、通过Nsight Systems采集一个完整step内的GPU SM活跃周期、L2缓存命中率及Tensor Core利用率；

3、B200实测MFU为42.0%，H100为16.6%；

4、对应token/s/GPU数值：B200达3957 tokens/s，H100为630 tokens/s。

五、FP4稀疏推理能效比测试

B200原生支持FP4精度及结构化稀疏加速，适用于部署量化后的大模型服务。该测试聚焦单位焦耳所能处理的token数量，体现绿色AI落地能力。

1、将Qwen2-72B模型经AWQ量化至FP4，部署于Triton Inference Server；

2、使用NVIDIA Data Center GPU Manager（DCGM）同步采集GPU功耗（W）与输出token速率（tokens/s）；

3、B200在满载推理时功耗为1180W，输出1862 tokens/s，单token能耗为0.636焦耳；

4、H100同配置下功耗695W，输出291 tokens/s，单token能耗为2.388焦耳。

高通骁龙 8 Gen 5 或采用自研 Oryon V2 核心：CPU性能迎来史上最大飞跃

台积电 1.4nm 工艺取得突破：或为苹果 A20 芯片与英特尔酷睿 Ultra 500 铺路

ROG Ally X 评测汇总：续航大幅改善，但性能提升有限？

内存价格或将再次上涨：三大巨头宣布削减产能

三星折叠屏新专利：展示三折甚至卷轴屏手机未来形态

数码产品性能查询

该软件包括了市面上所有手机CPU，手机跑分情况，电脑CPU，电脑产品信息等等，方便需要大家查阅数码产品最新情况，了解产品特性，能够进行对比选择最具性价比的商品。

下载

相关专题

登录token无效

登录token无效解决方法：1、检查token的有效期限，如果token已经过期，需要重新获取一个新的token；2、检查token的签名，如果签名不正确，需要重新获取一个新的token；3、检查密钥的正确性，如果密钥不正确，需要重新获取一个新的token；4、使用HTTPS协议传输token，建议使用HTTPS协议进行传输；5、使用双因素认证，双因素认证可以提高账户的安全性。

6048

2023.09.14

登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容，供大家免费下载体验。

782

2023.09.14