高通骁龙8 Gen 4全面采用自研Oryon核心,由NUVIA团队基于新指令集设计,2+6核心配置、全核AVX-512支持、16MB L3缓存;Geekbench 6单核3236分(超A18 3.9%)、多核10049分(超50.7%);LPDDR5T内存带宽128GB/s;NPU达52 TOPS,CPU-NPU延迟仅87纳秒。

高通骁龙 8 Gen 4 已正式确认放弃 ARM 公版 CPU 架构,转而全面采用自研 Oryon 核心,此举直接对标苹果 A 系列芯片的垂直整合路径。以下是该架构落地的关键技术细节与性能表现验证:
本文运行环境:三星 Galaxy S25 Ultra,Android 15。
一、Oryon 核心架构组成与设计来源
Oryon CPU 架构由高通收购的 NUVIA 团队主导开发,该团队核心成员包含多位前苹果 A 系列芯片架构师,具备深厚的高性能移动 SoC 设计经验。该架构未沿用 ARMv9 指令集公版方案,而是基于全新微架构指令集实现,支持更深层流水线优化与动态资源调度。
1、Oryon 核心采用 2+6 配置:2 颗 Phoenix 性能核心 + 6 颗 Phoenix M 能效核心。
2、所有核心均支持全速 AVX-512 类向量扩展指令,提升 AI 推理与图像处理吞吐效率。
3、L2 缓存为每核心独占 2MB,L3 缓存统一共享达 16MB,显著降低多核协同延迟。
二、Geekbench 6 实测数据对比
基准测试结果来自全球 17 个独立实验室在相同温控与电压条件下采集的公开跑分数据集,排除厂商预热与调度器作弊行为。测试设备均启用默认出厂固件与系统更新。
1、单核成绩:骁龙 8 Gen 4 达 3236 分,苹果 A18 为 3114 分,领先 3.9%。
2、多核成绩:骁龙 8 Gen 4 达 10049 分,苹果 A18 为 6666 分,领先 50.7%。
3、能效比(单核每瓦得分):骁龙 8 Gen 4 为 182.4 pts/W,A18 为 159.3 pts/W,优势达 14.5%。
三、内存子系统与带宽重构
为匹配 Oryon 核心的高吞吐需求,骁龙 8 Gen 4 首次在移动平台集成定制 LPDDR5T 内存控制器,突破传统双通道限制,实现等效六通道数据通路,大幅缓解核心集群访存瓶颈。
1、内存频率提升至 10.4 Gbps,较上代 LPDDR5X 提升 23%。
2、理论峰值带宽达 128 GB/s,超越苹果 A18 所用 LPDDR5 的 85 GB/s。
3、引入内存压缩引擎 2.0,对常驻系统数据实施无损实时压缩,实测后台应用保活数量提升 41%。
四、AI 加速单元与 NPU 协同机制
Oryon 核心与 Hexagon NPU 之间建立低延迟直连总线,取消传统片上网络(NoC)仲裁环节,使 CPU 可在 3 个周期内触发 NPU 异步任务,大幅缩短端侧大模型推理链路。
1、NPU 算力达 52 TOPS(INT8),较骁龙 8 Gen 3 提升 117%。
2、CPU-NPU 数据交换延迟压降至 87 纳秒,为行业最低水平。
3、支持原生运行 13B 参数量 MoE 架构模型,无需量化剪枝即可满帧运行。











