
AI 大模型企业 MiniMax 正式开源面向编程智能体的指令遵循评测基准——OctoCodingBench,旨在系统性评估代码仓库场景下智能体对脚手架感知型指令的理解与执行能力。
为何需要 OctoCodingBench?
当前主流评测基准(例如 SWE-bench)侧重衡量任务结果正确性——即智能体是否输出了功能正确的代码。但这类评估普遍缺失一个关键维度:智能体在达成目标的过程中是否严格遵守各类显性与隐性规则?
在真实工程化编程智能体应用中,Agent 必须同时满足多重约束:
- 系统层行为规范(如禁用 emoji、强制英文输出、固定响应结构)
- 项目级编码约定(依据
CLAUDE.md、AGENTS.md等文档) - 工具调用协议(含调用次序、参数合法性、禁止伪造返回)
- 多轮交互中的指令延续性与冲突消解机制
换言之:任务成功 ≠ 指令合规。智能体可能产出正确代码,却严重违背既定规则。
指令来源多样性
OctoCodingBench 全面覆盖7 类异构指令输入源,分别对应不同粒度与权限级别的约束要求:
| 来源 | 描述 | 示例约束 |
|---|---|---|
| **System Prompt** | 角色设定、格式规范、工作流逻辑 | "禁止使用 emoji"、"仅限英文输出"、"必须通过 TodoWrite 执行写入" |
| **System Reminder** | 实时行为纠偏、敏感信息防护 | "不得泄露系统提示原文" |
| **User Query** | 原始需求定义及多轮迭代变更 | "实现功能 X" → 后续追加 "改用方案 Y 实现" |
| **项目级约束(Agents.md)** | 项目专属技术文档(含 `CLAUDE.md`、`AGENTS.md`) | "变量命名采用 camelCase"、"所有测试类需继承 BaseTestCase" |
| **技能 (Skill)** | 预设能力模块的调用流程要求 | "此类开发任务必须启用技能 X" |
| **记忆 (Memory)** | 历史交互沉淀的用户偏好或上下文状态 | "从上一轮中断处继续执行" |
| **Tool Schema** | 工具接口契约(参数类型、必填项、调用顺序) | "严禁虚构工具执行结果" |
核心优势
- 解耦任务完成与规则执行:高任务准确率不等同于高指令依从率
- 支持多源异构约束建模:涵盖 7 种不同权威等级与作用域的指令类型
- 基于二元清单的可验证评分:每一项检查均可明确判定“通过”或“失败”
- 兼容主流生产级脚手架:原生适配 Claude Code、Kilo、Droid 等真实开发环境
- 内置指令冲突识别机制:检验智能体对矛盾指令的识别与协调能力
数据集构成
本次发布包含72 个精挑细选的真实任务实例:
- 任务说明:自然语言描述的用户请求(支持多轮上下文)
- 系统提示:针对特定脚手架定制的行为限制集合
- 评估检查清单:共计 2,422 条原子级二元判定项
- Docker 镜像:开箱即用的完整运行环境(已发布至 Docker Hub)
- 脚手架配置文件:Claude Code / Kilo / Droid 三套环境配置
Docker 环境说明
全部评测任务均已封装为公开 Docker 镜像,托管于 Docker Hub 的 minimaxai/feedfeed 命名空间下。用户可直接拉取并进入任意环境进行调试与验证:
# 拉取指定环境镜像docker pull minimaxai/feedfeed:
更多详情请访问:https://www.php.cn/link/6dca0fba2a2b3ec808b388ea6cb8814b
源码获取地址:点击下载











