月之暗面近日开源了 checkpoint engine,这是一款专为大语言模型(llm)推理引擎打造的中间件,旨在强化学习等应用场景中实现模型权重的原地热更新。

该技术能够在大约 20 秒内完成拥有 1 万亿参数的 Kimi-K2 模型在数千张 GPU 上的权重同步,极大缩短了强化学习训练过程中因模型更新导致的停机时间。

目前,Checkpoint Engine 已深度集成于 vLLM 框架,其接口设计具备良好的扩展性,未来可便捷支持 SGLang 等其他主流推理框架。
项目开源地址:https://www.php.cn/link/7921d90348e08272240aeed482095bae










