Skywork-VL Reward – Skywork AI开源的多模态奖励模型

最近更新: 2026年6月7日下午8:03

Skywork-VL Reward是什么

Skywork-VL Reward是Skywork AI开源的多模态奖励模型，能为多模态理解和推理任务提供可靠的奖励信号。模型基于Qwen2.5-VL-7B-Instruct架构，基于添加奖励头结构，用成对偏好数据进行训练，输出与人类偏好对齐的标量奖励分数。模型在VL-RewardBench上取得了73.1的SOTA成绩，在RewardBench上表现出色，达到90.1的高分。Skywork-VL Reward基于混合偏好优化（MPO）显著提升多模态推理能力，为多模态强化学习领域带来新的突破。

阅读目录

Skywork-VL Reward是什么
Skywork-VL Reward的主要功能
Skywork-VL Reward的技术原理
Skywork-VL Reward的项目地址
Skywork-VL Reward的应用场景

Skywork-VL Reward

Skywork-VL Reward的主要功能

评估多模态输出：对视觉-语言模型（VLM）生成的输出进行质量评估，判断是否符合人类偏好。
提供奖励信号：输出标量奖励分数，反映生成内容的质量或与人类偏好的对齐程度。
支持多模态任务：适用多种多模态任务，如图像描述、复杂推理等，具有广泛的适用性。
提升模型性能：基于生成高质量的偏好数据，支持混合偏好优化（MPO），显著提升多模态推理能力。

Skywork-VL Reward的技术原理

模型架构：基于 Qwen2.5-VL-7B-Instruct 架构，架构包含视觉编码器（Vision Transformer）、视觉-语言适配器和语言模型解码器。在基础模型的基础上，添加一个奖励头结构，用在输出标量奖励分数。奖励头基于全连接层处理最终隐藏状态，生成奖励分数。
数据集构建：整合多个开源偏好数据集（如 LLaVA-Critic-113k、Skywork-Reward-Preference-80K-v0.2、RLAIF-V-Dataset）及内部标注的复杂推理任务数据。基于去重、相似性过滤和偏好判断过滤等步骤，确保数据的高质量和一致性。用高级 VLM 推理器生成高质量的偏好数据，增强模型的泛化能力。
训练方法：基于成对偏好损失函数，比较两个候选响应的优劣训练模型，让模型能学习到相对排名。两阶段微调，第一阶段用多模态偏好数据进行训练，第二阶段加入纯文本偏好数据，进一步提升模型在纯文本场景下的性能。

Skywork-VL Reward的项目地址

HuggingFace模型库：https://huggingface.co/Skywork/Skywork-VL-Reward
arXiv技术论文：https://arxiv.org/pdf/2505.07263

Skywork-VL Reward的应用场景

内容生成评估：评估多模态内容生成的质量，如图像描述、视频字幕等，判断生成内容是否准确且符合人类偏好。
推理任务优化：在复杂多模态推理任务中，如视觉问答、几何问题等，评估推理过程和结果的合理性，帮助优化推理模型。
模型对齐：确保多模态模型的输出与人类价值观和道德标准对齐，避免生成有害或误导性内容。
混合偏好优化（MPO）：作为MPO训练的关键组件，提供高质量偏好数据，提升多模态模型的推理能力和泛化性能。
基准测试：作为多模态任务的基准测试工具，评估和比较不同模型的性能，推动多模态技术的发展。

高德发布全球首个3D原生城市世界模型ABot-Earth0.5，已开放内测

Paper2Code – AI论文自动转为代码的多智能体框架

发表评价

Skywork-VL Reward – Skywork AI开源的多模态奖励模型

Skywork-VL Reward是什么

Skywork-VL Reward的主要功能

Skywork-VL Reward的技术原理

Skywork-VL Reward的项目地址

Skywork-VL Reward的应用场景

发表评价取消回复

最近更新

AutoGLM-Web – AI浏览器助手，模拟用户进行网页浏览与交互

OmniGen – 统一图像生成的扩散模型，支持多模态输入

CogAgent – 清华与智谱AI联合推出的多模态视觉大模型

OMNE Multiagent – 天桥脑科学研究院推出的大模型多智能体框架

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

Skywork-VL Reward是什么

Skywork-VL Reward的主要功能

Skywork-VL Reward的技术原理

Skywork-VL Reward的项目地址

Skywork-VL Reward的应用场景

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复