在最新公布的 semianalysis inferencemax 基准评测中,signal65 对 deepseek-r1 0528 混合专家(moe)模型的推理能力进行了深度评估。结果显示,英伟达(nvidia)gb200 nvl72 机架级系统在同等规模下,推理性能显著超越 amd instinct mi355x 集群。
混合专家架构的核心优势在于按需调用最适配任务的“专家”子模型,从而提升计算效率;但当模型规模持续扩大时,节点间通信延迟与带宽压力随之加剧,极易演变为系统级瓶颈。

英伟达采用“深度协同设计”理念重构 GB200 NVL72 架构:通过超高速互连技术整合 72 颗 GPU 芯片,并集成高达 30TB 的统一内存池,大幅降低跨芯片数据搬运开销,有效缓解延迟难题。实测数据显示,在相近配置条件下,该系统单卡吞吐量达 75 tokens / 秒,性能约为 AMD MI355X 的 28 倍。
对头部云服务商而言,总体拥有成本(TCO)是部署决策的关键依据。Signal65 结合 Oracle 云平台定价信息分析指出,GB200 NVL72 不仅具备顶尖性能,更展现出极强的成本竞争力——其单位 token 成本仅为 AMD 方案的 1/15,同时支持更高频次的交互响应。
尽管英伟达当前在 MoE 推理场景中占据明显领先位置,AMD 仍保有差异化优势。报告特别提到,MI355X 凭借大容量 HBM3e 显存,在稠密型(Dense)模型推理任务中依然具备扎实的落地能力。
截至目前,AMD 尚未发布可对标 GB200 NVL72 的新一代机架级产品。不过,随着 AMD Helios 平台与英伟达 Vera Rubin 平台之间的竞争日趋升级,双方在整机架扩展能力、能效比及软件生态层面的博弈将愈发关键。
源码地址:点击下载











