无需标注图像,RL自我进化框架VisPlay突破视觉推理难题
![]()
在 Vision-Language Model 领域,无需提升其复杂推理能力通常依赖于耗费巨大的标注人工标注数据或启发式奖励。这不仅成本高昂,图像突破推理酒泉市某某地暖科技制造厂且难以规模化。自进
最新研究 VisPlay 首次提出了一个自进化强化学习框架,化框使 VLM 能够仅通过海量的视觉未标注图像数据进行自我演化和能力提升。
VisPlay 将基础 VLM 分解为「提问者」和「推理者」两大角色,难题通过迭代的无需自我进化机制协同进化,并结合 GRPO 算法和创新的标注酒泉市某某地暖科技制造厂多样性/难度奖励,平衡了问题的图像突破推理复杂度和答案的质量。
![]()
- Title:VisPlay: Self-Evolving Vision-Language Models from Images
- Paper:https://arxiv.org/abs/2511.15661
- Github:https://github.com/bruno686/VisPlay
实验证明,自进VisPlay 在 Qwen2.5-VL 和 MiMo-VL 等主流模型上实现了持续的化框性能提升,尤其在视觉推理、视觉组合泛化和幻觉减少方面效果显著,难题展示了一条可扩展、无需低成本的多模态智能进化新路径。
![]()
引言:
VLM 推理能力的「数据困境」
近年来,Vision-Language Model(VLM)在感知任务上取得了不小的进展,但在更复杂的视觉推理上仍然吃力。主流的提升方式如指令微调(SFT)或强化学习(RL)都绕不开一个核心难题:依赖高质量标注数据。尤其是强化学习,需要精准且可验证的奖励信号,而这些往往要靠耗时费力的人工标注或针对具体任务设计复杂的规则。
随着模型规模越来越大,人工标注的成本和速度已经逐渐跟不上模型演化的需求,这也成为进一步提升能力的主要瓶颈。在这样的背景下,研究者开始尝试「自进化」(Self-Evolving)的思路,让模型能通过自我生成、自我修正以及从自身经验中持续学习,从而实现自主的能力迭代。
VisPlay:
基于自我进化的自进化框架
为解决上述挑战,由来自伊利诺伊大学厄巴纳-香槟分校、华盛顿大学圣路易斯分校、马里兰大学、新加坡国立大学的研究团队提出的 VisPlay 框架,首次将自进化强化学习应用于 VLM,并实现仅依赖未标注图片进行自主学习。
VisPlay 的核心理念是自我进化(Self-Evolving):它从一个基础预训练 VLM 出发,将其在训练过程中分解成两个相互作用的角色。
Image-Conditioned Questioner(提问者)
负责根据输入的图片生成具有挑战性、但又可被回答的视觉问题。具体来说,VisPlay 设计了一种精妙的奖励机制来指导自我进化的质量,分别是难度奖励(Difficulty Reward)和多样性奖励(Diversity Reward)。
前者鼓励提问者生成更复杂的、需要深层次推理才能解决的问题;后者确保生成的问题类型和涉及的知识点足够广泛,防止模型陷入狭窄的知识或推理路径,从而实现更强大的组合泛化能力。
通过这种奖励机制,VisPlay 有效解决了自进化模型中常见的「答案质量低」和「问题重复度高」的问题,真正实现了从量变到质变的能力飞跃。
Multimodal Reasoner(推理者)
负责基于图片和提问者的问题,生成「白银级响应」(Silver Responses,即伪标注答案)。这里我们采用回答的准确性作为训练信号。
![]()
实验结果:
全方位的能力突破
研究团队将 VisPlay 应用于包括 Qwen2.5-VL 和 MiMo-VL 在内的多个主流 VLM 模型家族,并在八个主流基准数据集上进行了广泛评估,涵盖:通用视觉理解(如 MM-Vet)、跨模态推理(如 MMMU)、视觉数学推理(如 MathVerse)以及幻觉检测(HallusionBench)。
![]()
关键发现:
持续稳定的性能提升:在所有测试模型和基准上,VisPlay 都实现了一致且显著的准确率增益,证明了该框架的泛化性和有效性。
强大的组合泛化能力:模型在训练中未见过的复杂推理组合上表现出更强的鲁棒性。
有效抑制「幻觉」:VisPlay 通过自我进化生成的高质量问答对,有效帮助模型识别和修正错误的视觉-语言关联,显著减少了模型产生「幻觉」现象的概率,这是一个困扰 VLM 的重大问题。
VisPlay 的成功证明了仅依赖海量非结构化图片来持续提升 VLM 推理能力的可行性,为未来开发更智能、更自主的多模态系统指明了方向。
(责任编辑:热门资讯)
-
甩锅内地,吃相难看!香港火灾后,甄子丹老婆一个举动,全网翻车
«——【·前言·】——»香港遇着难处,两岸三地同胞都揪心,国家也特别重视赶紧伸援手,各界捐款捐物一起渡难关,这就是中国人刻在骨子里的团结!可谁能想到,一直说自己爱国、根正苗红的甄子丹,老婆汪诗诗居然在
...[详细]
-
从分拣到装车仅需10分钟,京津冀13城互通实现次晨达。在河北省廊坊市,多家快递企业以科技创新推动产业创新,通过引入先进技术、升级自动化设备,提升分拣效率,助推行业降本增效。 作者:田策、陈健、马
...[详细]
-
11月19日,中国男足对战日本队的赛前,解说员苏东发文提醒道:国足要保护好两肋。在过去的5轮比赛里,日本队展现了强悍的实力,13分领跑,打进了19球,仅丢1球。苏东写道:伤停满营,主守;主力缺阵,勤跑
...[详细]
-
直播吧11月19日讯 对于霍利菲尔德发起的三番战提议,泰森给予了婉拒。58岁的泰森与27岁的网红保罗的比赛结束后,62岁的霍利菲尔德在社媒提议与泰森进行三番战,他配文写道:“拳迷们想看了”。不过泰森似
...[详细]
-
赵丽颖没想到,离婚4年,她那“听话”的47岁前夫,再次迎来喜讯
和赵丽颖分开后,冯绍峰身上的标签,似乎只剩下了“颖宝的前夫”这一个。事业上两人的发展也是呈现出,一个天上一个地下的状态,没想到再次出现,竟带来了一则超级喜讯!闪婚到闪离2009年两人因戏结缘,只是当时
...[详细]
-
来源:财联社 财联社11月22日电,美股三大指数集体收涨,道指涨1.06%,标普500指数涨0.53%,纳指涨0.03%。大型科技股多数下跌,谷歌跌超4%,亚马逊跌逾2%,苹果、特斯拉、微软、
...[详细]
-
iQOO Neo10 Pro 手机搭载“蓝晶 × 天玑 9400”芯片
IT之家 11 月 19 日消息,iQOO 官方今日发文预热,系列新机 Neo10 Pro 将搭载“蓝晶 × 天玑 9400”芯片,配 LPDDR5X Ultra读写速度 9600Mbps) + UF
...[详细]
-
当地时间21日晚,以色列总理内塔尼亚胡在其发表的讲话中,回应了国际刑事法院 ICC) 要求逮捕他的裁决。 内塔尼亚胡称,国际刑事法院做出了“有偏见”的决定,他对此表示谴责。 当天稍早前,国际刑
...[详细]
-
2025年11月23日胡彦斌认爱易梦玲,十年深情人设却被前女友手撕——“书里写的全是假的!”这反转也太猝不及防了。其实这俩人的绯闻早有苗头。上个月就有网友晒出马尔代夫海边照片,俩人牵手拥抱还亲上了,画
...[详细]
-
按照《米兰体育报》的报道,尤文图斯的中场球星道格拉斯-路易斯依然无法出战本周末他们在客场与AC米兰的比赛。现年26岁的道格拉斯-路易斯今夏以5150万欧元的价格从维拉转会至尤文,至今他代表斑马军团出场
...[详细]

以色列对黎巴嫩贝鲁特南郊地区发动袭击