0

0

Midscene v1.0 发布 - 视觉驱动,UI 自动化体验跃迁

聖光之護

聖光之護

发布时间:2025-12-26 17:01:26

|

669人浏览过

|

来源于php中文网

原创

midscene v1.0 发布 - 视觉驱动,ui 自动化体验跃迁

Midscene 是一款以视觉模型为核心、支持全平台的 UI 自动化 SDK。ByteDance Web Infra 团队正式推出 Midscene v1.0,全面拥抱视觉理解技术路线,为 UI 自动化带来更高稳定性与更强适应性。

视觉模型具备如下核心优势:

  • 效果稳健 :当前主流视觉模型(如 Doubao Seed 1.6、Qwen3-VL 等)已展现出高度一致性,在多数实际业务场景中可稳定交付结果
  • 任务规划能力强 :模型天然具备对 UI 流程的理解与拆解能力,能自主完成多步骤、跨界面的复杂操作序列
  • 跨平台无依赖 :不再受限于底层渲染框架。无论是 Android、iOS、桌面客户端,还是浏览器 渲染内容,只要能获取屏幕图像,Midscene 即可实现精准交互
  • 上手门槛低 :无需编写各类 selector 或解析 DOM 结构,开发者与模型之间的协作更直观,即使缺乏前端或原生开发经验的新手也能快速入门
  • Token 成本大幅降低 :在舍弃 DOM 提取环节后,整体 token 消耗减少约 80%,不仅显著节省调用成本,也提升了本地推理响应速度
  • 开源模型支持成熟 :随着 Qwen3-VL 等高质量开源视觉模型持续演进(提供 8B、30B 等多种规格),私有化部署与定制化训练已成为现实选择

除基础交互外,Midscene 还引入 Planning(任务规划)与 Insight(界面洞察)两类高级意图,并支持为不同意图配置专属模型。例如:使用 GPT 系列模型负责高层动作编排,而由 Doubao 模型专注执行元素识别与定位。

多模型协同机制,让开发者可根据任务复杂度灵活调配算力资源,兼顾效率与精度。

针对运行时性能,v1.0 做出多项关键优化:

  • 减少对设备系统接口的频繁访问,在保障安全前提下复用上下文缓存,使性能瓶颈更集中于模型推理侧
  • 重构 Web 与移动端的 Action Space 设计,向模型提供语义更清晰、组合更合理的工具集合

回放报告作为开发者高频使用的调试利器,本次也迎来全面升级:

  • 参数高亮视图:自动标注交互参数在截图中的具体位置,融合上下文图像,便于快速验证模型决策逻辑
  • 主题美化:新增深色模式支持,提升夜间阅读体验与视觉舒适度
  • Token 使用统计:按所用模型维度汇总 token 消耗,辅助评估各场景下的资源开销与成本分布

Midscene MCP 服务的定位同步更新:其核心使命聚焦于“视觉驱动的 UI 操作抽象”。通过将 iOS / Android / Web 各端设备的 Action Space 中每一个原子操作封装为标准 MCP 工具,MCP 层向上统一暴露能力接口。

这一设计使开发者得以专注于构建具备业务语义的高阶 Agent,彻底摆脱底层 UI 控制细节的束缚,同时持续获得高成功率保障。

AITDK
AITDK

免费AI SEO工具,SEO的AI生成器

下载

移动端能力全面升级

iOS 方面优化

  • 全面兼容 WebDriverAgent 5.x 至 7.x 各版本
  • 新增 WebDriver Clear API 支持,有效应对动态输入框清空失败问题
  • 显著增强对新旧机型及系统版本的适配能力

Android 方面优化

  • 引入截图轮询失败自动降级机制,大幅提升远程真机环境下的鲁棒性
  • 新增屏幕方向智能识别与 displayId 截图适配,确保横竖屏切换场景下定位准确
  • YAML 脚本中新增 runAdbShell 指令支持,扩展底层调试与控制能力

跨平台增强

  • 在 Agent 实例层面开放系统级操作接口,涵盖 Home 键、返回键、最近任务等常用系统行为

API 及环境变量调整(均保持向后兼容)

方法名称变更:

  • aiAction()aiAct()(旧方法仍可用,但会触发弃用警告)
  • logScreenshot()recordToReport()(旧方法保留,附带弃用提示)

环境变量名称变更:

  • OPENAI_API_KEYMODEL_API_KEY(优先读取新变量,旧变量作为兜底选项)
  • OPENAI_BASE_URLMODEL_BASE_URL(新变量优先生效,旧变量兼容保留)

源码地址:点击下载

相关文章

驱动精灵
驱动精灵

驱动精灵基于驱动之家十余年的专业数据积累,驱动支持度高,已经为数亿用户解决了各种电脑驱动问题、系统故障,是目前有效的驱动软件,有需要的小伙伴快来保存下载体验吧!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6028

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

778

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1044

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1062

2024.03.01

硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

980

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

39

2025.10.17

DOM是什么意思
DOM是什么意思

dom的英文全称是documentobjectmodel,表示文件对象模型,是w3c组织推荐的处理可扩展置标语言的标准编程接口;dom是html文档的内存中对象表示,它提供了使用javascript与网页交互的方式。想了解更多的相关内容,可以阅读本专题下面的文章。

2648

2024.08.14

html5动画制作有哪些制作方法
html5动画制作有哪些制作方法

html5动画制作方法有使用CSS3动画、使用JavaScript动画库、使用HTML5 Canvas等。想了解更多html5动画制作方法相关内容,可以阅读本专题下面的文章。

496

2023.10.23

虚拟号码教程汇总
虚拟号码教程汇总

本专题整合了虚拟号码接收验证码相关教程,阅读下面的文章了解更多详细操作。

25

2025.12.25

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Excel 教程
Excel 教程

共162课时 | 9.6万人学习

Java 教程
Java 教程

共578课时 | 37.9万人学习

Uniapp从零开始实现新闻资讯应用
Uniapp从零开始实现新闻资讯应用

共64课时 | 6.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号