0

0

视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源

霞舞

霞舞

发布时间:2025-03-05 14:30:10

|

1069人浏览过

|

来源于php中文网

原创

重磅推荐:visual-rft——视觉强化微调开源项目,赋能视觉语言模型!

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

AIxiv专栏持续关注全球顶尖AI研究,已发布2000余篇学术技术文章。欢迎投稿分享您的优秀成果!投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

Visual-RFT (Visual Reinforcement Fine-Tuning) 项目,将基于规则奖励的强化学习与强化微调(RFT)范式成功应用于视觉语言大模型(LVLM),突破了以往方法仅限于文本、数学等领域的局限。通过为视觉细分类、目标检测等任务设计特定规则奖励,Visual-RFT 为LVLM训练提供了全新思路!

图1展示了Visual-RFT的强大泛化能力:模型仅需少量数据,便能准确识别图片中特定宝可梦并定位其坐标。

图片

图 1. Visual-RFT 将强化微调扩展到多模态,只需10-1000条数据即可显著提升模型性能。

从RFT到Visual-RFT:强化学习在多模态领域的突破

OpenAI的强化微调技术,只需少量样本即可实现模型能力迁移。DeepSeek-R1揭示了其强大的推理能力源于基于可验证奖励的强化学习策略。然而,该策略此前主要应用于文本、数学等领域。Visual-RFT将此策略成功拓展至视觉领域,通过构建可验证规则奖励,解决了传统方法在视觉领域的局限性,实现高效、高泛化性的视觉理解与推理。

传统的视觉指令微调(SFT)需要大量数据,而Visual-RFT的少样本学习能力使其在数据稀缺场景下更具优势。

为了验证Visual-RFT的泛化能力,研究团队在目标检测、分类、 grounding等多个视觉任务上进行了测试。结果显示,Visual-RFT在开放词汇、少样本学习等设定下,仅需少量数据即可实现显著性能提升,并优于SFT方法。尤其在推理定位任务中,Visual-RFT展现出卓越的视觉推理能力。(详见论文)

图片

图 2. Visual-RFT在多个视觉任务上显著超越SFT。

图片

图 3. Visual-RFT框架图,利用IoU和cls奖励以及强化学习策略更新模型参数。

研究团队使用基于IoU的可验证奖励用于检测和grounding任务,使用基于分类正确性的cls奖励用于分类任务。(如图3所示)

Moshi Chat
Moshi Chat

法国AI实验室Kyutai推出的端到端实时多模态AI语音模型,具备听、说、看的能力,不仅可以实时收听,还能进行自然对话。

下载

图片

图 4. 推理定位结果展示,Visual-RFT超越SFT,更精准地定位物体。

图片

图 5. 推理细粒度分类结果展示,Visual-RFT超越SFT,更精准地定位物体。

图4和图5展示了模型输出结果,Visual-RFT通过强化学习策略,进行深入的推理分析,取得了优于SFT的性能。

Visual-RFT实验结果

基于QWen2-VL 2B/7B模型,Visual-RFT在开放目标检测、少样本检测、细粒度分类和推理定位任务上全面超越SFT。实验数据涵盖COCO、LVIS等通用场景和互联网卡通人物等开放场景。仅需少量数据,Visual-RFT即可实现能力迁移,展现出卓越的性能和鲁棒性。

图片

图片

图 5. 部分实验结果展示,Visual-RFT显著超越SFT。

Visual-RFT已开源!

Visual-RFT项目已开源,包含训练、评估代码和数据。欢迎参与!

项目地址:https://www.php.cn/link/b2c1a4c8e4f9c3f8efe19a903a005149

相关专题

更多
http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1683

2024.08.16

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

7

2025.12.31

php网站源码教程大全
php网站源码教程大全

本专题整合了php网站源码相关教程,阅读专题下面的文章了解更多详细内容。

4

2025.12.31

视频文件格式
视频文件格式

本专题整合了视频文件格式相关内容,阅读专题下面的文章了解更多详细内容。

7

2025.12.31

不受国内限制的浏览器大全
不受国内限制的浏览器大全

想找真正自由、无限制的上网体验?本合集精选2025年最开放、隐私强、访问无阻的浏览器App,涵盖Tor、Brave、Via、X浏览器、Mullvad等高自由度工具。支持自定义搜索引擎、广告拦截、隐身模式及全球网站无障碍访问,部分更具备防追踪、去谷歌化、双内核切换等高级功能。无论日常浏览、隐私保护还是突破地域限制,总有一款适合你!

7

2025.12.31

出现404解决方法大全
出现404解决方法大全

本专题整合了404错误解决方法大全,阅读专题下面的文章了解更多详细内容。

41

2025.12.31

html5怎么播放视频
html5怎么播放视频

想让网页流畅播放视频?本合集详解HTML5视频播放核心方法!涵盖<video>标签基础用法、多格式兼容(MP4/WebM/OGV)、自定义播放控件、响应式适配及常见浏览器兼容问题解决方案。无需插件,纯前端实现高清视频嵌入,助你快速打造现代化网页视频体验。

3

2025.12.31

关闭win10系统自动更新教程大全
关闭win10系统自动更新教程大全

本专题整合了关闭win10系统自动更新教程大全,阅读专题下面的文章了解更多详细内容。

3

2025.12.31

阻止电脑自动安装软件教程
阻止电脑自动安装软件教程

本专题整合了阻止电脑自动安装软件教程,阅读专题下面的文章了解更多详细教程。

3

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号