OmniAlign-V – 上海交大联合上海 AI Lab 等推出的高质量数据集

最近更新: 2026年6月8日下午1:49

OmniAlign-V是什么

OmniAlign-V 是上海交通大学、上海AI Lab、南京大学、复旦大学和浙江大学联合推出的专为提升多模态大语言模型（MLLMs）与人类偏好的对齐能力设计的高质量数据集。OmniAlign-V包含约20万个多模态训练样本，涵盖自然图像和信息图表，结合开放式、知识丰富的问答对。OmniAlign-V 的设计注重任务的多样性，包括知识问答、推理任务和创造性任务，基于复杂问题和多样化回答格式提升模型的对齐能力。OmniAlign-V 引入图像筛选策略，确保语义丰富且复杂的图像被用于数据生成。

阅读目录

OmniAlign-V是什么
OmniAlign-V的主要功能
OmniAlign-V的技术原理
OmniAlign-V的项目地址
OmniAlign-V的应用场景

OmniAlign-V

OmniAlign-V的主要功能

提供高质量的多模态训练数据：包含约20万个多模态训练样本，涵盖自然图像和信息图表（如海报、图表等），结合复杂问题和多样化回答格式，帮助模型更好地理解人类的偏好和需求。
增强模型的开放式问答能力：数据集设计注重开放式问题、跨学科知识和综合回答，让模型生成更符合人类偏好的回答。
提升模型的推理和创造性能力：训练模型进行更复杂的思考和创作，从而提升其在多模态交互中的表现。
优化多模态指令调优：基于高质量的指令调优数据，帮助模型更好地遵循人类指令，保持基础能力（如目标识别、OCR等）。
支持多模态模型的持续优化：OmniAlign-V用于监督微调（SFT），结合直接偏好优化（DPO）进一步提升模型的对齐能力。

OmniAlign-V的技术原理

图像筛选与分类：基于图像复杂度（IC）评分和对象类别（OC）过滤，筛选出语义丰富且复杂的图像。图像被分类为自然图像和信息图表，针对不同类型的图像设计不同的任务。
任务设计与数据生成：自然图像任务包括知识问答、推理任务和创造性任务，提升模型对真实场景的理解和生成能力。信息图表任务针对图表、海报等设计特定任务，要求模型具备对复杂信息的理解和解释能力。用GPT-4o等先进模型生成高质量的问答对，基于后处理优化数据质量。
后处理优化：对生成的问答对进行后处理，包括指令增强、推理增强和信息图表答案的精细化处理，确保数据的多样性和高质量。
多模态训练与优化：基于监督微调（SFT）和直接偏好优化（DPO）提升模型的对齐能力。数据集设计注重多样性和复杂性，让模型在多模态交互中更好地理解人类偏好。
基准测试与评估：引入MM-AlignBench基准测试，评估MLLMs在人类偏好对齐方面的表现，确保模型在真实场景中的适用性。