知名开源浏览器自动化项目 browseruse 正式推出其首款自研大语言模型——bu-30b-a3b-preview。
该模型采用混合专家(MoE)架构,总参数量达30B(300亿),但在实际推理过程中仅动态激活3B(30亿)参数。这一设计在保障顶尖智能表现的同时显著降低硬件门槛,单张消费级GPU即可实现稳定、高效的本地运行。
BU-30B-A3B-Preview以阿里云通义千问Qwen3-VL-30B-A3B-Instruct为基座,经过深度定制化微调,专为浏览器自动化任务打造。模型原生支持多模态输入(图像+文本),上下文窗口扩展至32K tokens,可精准解析并理解超长网页结构与内容。

在真实浏览器操作场景中,BU-30B-A3B-Preview展现出卓越的交互能力,覆盖元素精确定位、点击触发、页面滚动、表单自动填充等全流程操作。其强化的DOM语义理解能力与跨模态视觉推理能力,使AI代理能同步“读懂”HTML结构与屏幕截图,实现类人级别的页面感知与可靠执行。
官方指出,该模型尤其适用于Web Agent类应用构建,涵盖自动化功能测试、网页数据抓取、智能RPA流程编排等方向,并已在内部多项基准评测中刷新行业性能纪录。
权威对比测试结果表明,BU-30B-A3B-Preview在响应效率与部署成本方面全面超越主流商用方案:
- 单步操作平均耗时仅1.2秒,端到端任务完成速度遥遥领先;
- 性价比优势突出:每1美元算力投入可稳定支撑约200次完整浏览器任务,效能达部分竞品模型的数十倍之高。
得益于轻量化模型体积与低资源依赖特性,开发者可一键下载、本地部署、即刻验证,彻底摆脱高昂云服务开销。
源码地址:点击下载










