youtube 创作者 jeff geerling 最近发布了一篇技术博文及配套视频,深入分享了他基于 mac studio 构建 ai 计算集群的实践过程,重点聚焦于 thunderbolt 5 接口在分布式计算场景下的创新应用。

在最新版 macOS 26.2 中,苹果正式引入了 Thunderbolt 5 上的 RDMA(远程直接内存访问)支持,使得多台 Mac Studio 可以突破传统网络瓶颈,实现近乎“统一内存”的协同运算体验。
通俗来讲,借助 RDMA 技术,多台 Mac Studio 能够绕过操作系统内核与协议栈,在彼此内存之间进行极低开销的数据直传,通信延迟大幅压缩(远优于常规以太网或 USB 网络传输)。
本次实验中,Jeff 将 4 台搭载统一内存架构的 Mac Studio 连接为一个逻辑集群,最终形成一个总容量约 1.5 TB 的共享内存池(各设备内存被虚拟化整合,对外表现为一块超大连续内存空间)。
核心应用场景与性能优势
- 此类内存池化方案显著优化了 超大规模 AI 模型的本地部署与推理效率,尤其适用于参数量达数百亿级别的模型,数据搬运更高效、响应更及时;
- RDMA 将节点间内存访问延迟从传统网络的数百微秒级降至 数十微秒量级,大幅提升并行任务调度与张量交换速度;
- 集群调度依赖开源框架 Exo 1.0,该工具负责任务分发、内存映射与跨设备资源协调,是整套方案落地的关键支撑。
硬件配置与投入成本
- 整个四节点集群的硬件采购支出约为 4 万美元,主体为 Mac Studio 设备本身;
- 单台 M3 Ultra 版 Mac Studio 已具备媲美部分专业服务器的多线程处理能力与 AI 推理性能,独立运行即具高生产力。
以下是部分实测性能对比图表:



尽管 Thunderbolt 5 RDMA 是一项极具突破性的技术演进,但现阶段仍存在若干现实约束:例如 RDMA 功能需手动开启,配置流程较为复杂;同时受 Thunderbolt 物理拓扑限制,当前最多仅支持 4 台设备以点对点方式交叉互联。相较成熟的企业级互连方案(如 QSFP 或 InfiniBand),其连接稳定性、扩展性与管理生态尚处于早期阶段。
Jeff Geerling 的探索清晰印证了——在 macOS 生态下,依托 Thunderbolt 5 RDMA 构建高性能、低延迟的桌面级 AI 协同计算平台已成为可能。这对 AI 研究人员、算法工程师以及本地 HPC 应用开发者而言,提供了一条无需重度依赖 GPU 集群或云服务即可运行前沿大模型的新路径。尽管目前仍面临工程适配与生态完善等挑战,但其技术方向对未来轻量化、高密度 AI 开发环境具有深远启发意义。
源码地址:点击下载










