突破视觉理解极限！港理工联合腾讯发布UniPixel，像素级多模态大模型重新定义AI看懂世界

💡 站外导读：当AI视觉模型仍停留在“看个大概”的阶段时，我们真的准备好迎接精准到像素级的智能了吗？当前，图像与视频理解面临核心挑战：模型要么只能识别整体场景，要么需要多个专用模型拼接才能完成指代、分割和推理，效率低下且难以处理动态复杂场景。行业亟需一个能真正“看懂细节”的统一AI，以驱动自动驾驶、医疗影像、视频编辑等关键领域的革新。UniPixel的出现，正是瞄准了这一痛点，它试图让AI具备与人类类似的、对视觉世界的精细化、一体化理解能力。

UniPixel是什么

UniPixel是香港理工大学和腾讯ARC Lab团队开发的首个统一像素级多模态大模型，专注于图像/视频的精细理解与交互。能在单个模型中完成对象指代、像素级分割和区域推理三大任务，通过创新设计的”对象记忆机制”和统一视觉编码方式，实现了对视频中目标的精准追踪与语义理解。模型基于Qwen2.5-VL框架，支持点、框、掩码三种交互方式，在9项视觉任务基准测试中超越72B参数的传统模型，开源了代码和在线Demo。核心突破在于将视觉分割与语言推理深度融合，解决了传统模型无法处理复杂指代和动态区域理解的问题。

阅读目录

UniPixel是什么
UniPixel的主要功能
UniPixel的技术原理
UniPixel的项目地址
UniPixel的应用场景

📝 站长洞察 (Editor’s Insight)

UniPixel

UniPixel的主要功能

像素级视觉语言理解：专注于像素级视觉语言理解，能实现视觉信号与语言语义之间的像素级对齐，支持多种细粒度任务，包括图像/视频分割、区域理解以及PixelQA任务。
统一对象指代与分割：模型将对象指代和分割能力无缝集成，能根据视觉提示输入生成相关的掩码，并在推理过程中基于这些中间指针进行后续推理，实现细粒度的像素级推理。
多任务支持：在多个基准测试中表现出色，包括ReVOS推理分割基准、MeViS、Ref-YouTube-VOS、RefCOCO/+/g等数据集，设计了新的PixelQA任务，要求模型联合进行对象指代、分割和问答。
灵活的视觉提示处理：能灵活处理视觉提示输入，生成掩码并进行推理，支持单帧和多帧的视频区域理解，以及基于掩码的问答任务。

UniPixel的技术原理

统一框架设计：UniPixel采用统一框架，将对象指代和分割能力整合到一个模型中，实现从粗粒度场景理解到细粒度像素推理的跨越，为复杂视觉推理提供基础。
对象记忆库：模型包含对象记忆库，存储从指代任务中提取的对象特征，为后续的分割和推理任务提供上下文信息，增强模型在像素级任务上的性能。
多阶段训练策略：采用预训练、指代任务微调和分割任务微调的多阶段训练策略，逐步提升模型在像素级任务上的性能，适应不同任务需求。
端到端掩码生成：模型能根据语言描述直接生成像素级掩码，实现语言与视觉的深度融合，支持多种细粒度任务，如图像/视频分割和区域理解。
灵活的视觉提示处理：能灵活处理视觉提示输入，生成掩码并进行推理，支持单帧和多帧的视频区域理解，以及基于掩码的问答任务，适应不同场景需求。
强大的推理能力：在VideoRefer-Bench-Q问答任务中，UniPixel-7B模型取得了74.1%的准确率，超越了包括GPT-4o在内的多个强大基准模型，显示出其在复杂视觉推理任务中的强大能力。
模型权重与数据集提供：提供了UniPixel-3B和UniPixel-7B两个版本的模型权重，以及23个指代/分割/QA数据集的原始图像/视频和预处理注释，为研究和应用提供丰富资源。
训练与评估支持：代码库支持在23个数据集和基准测试上进行训练和评估，支持灵活的硬件设置、高效的训练技术、自定义基础LLM和对话模板，以及通过Tensorboard/Wandb监控训练过程，方便用户使用和优化。

UniPixel的项目地址

项目官网：https://polyu-chenlab.github.io/unipixel/
Github仓库：https://github.com/PolyU-ChenLab/UniPixel
HuggingFace数据：https://huggingface.co/datasets/PolyU-ChenLab/UniPixel-SFT-1M
arXiv技术论文：https://arxiv.org/pdf/2509.18094
在线体验Demo：https://huggingface.co/spaces/PolyU-ChenLab/UniPixel

UniPixel的应用场景

图像分割：UniPixel能根据语言描述生成图像中特定对象的像素级掩码，适用于需要精确图像分割的场景，如医学图像分析、自动驾驶中的目标分割等。
视频分割：在视频处理领域，UniPixel可以对视频中的对象进行实时分割，支持视频编辑、视频监控和增强现实等应用。
区域理解：通过理解语言描述来识别和分割视频中的特定区域，可用于视频内容分析、智能监控系统和视频会议中的背景分割等。
问答任务：UniPixel支持PixelQA任务，能够根据语言描述和视觉信息回答问题，适用于教育、智能客服和信息检索等场景。
多模态交互：在需要结合视觉和语言信息进行交互的场景中，如智能助手、虚拟现实和游戏开发等，UniPixel能够提供更自然和准确的交互体验。
智能监控：在安防监控领域，UniPixel可以实时识别和分割监控视频中的特定对象或区域，提高监控系统的智能化水平。

📝 站长洞察 (Editor’s Insight)

UniPixel的发布标志着多模态大模型进入了“精细化落地”的新阶段。过去一年，行业狂卷通用多模态能力，但真正的产业价值往往藏在“像素级”的细节里。腾讯与港理工的这次合作极具深意：他们没有追逐参数规模，而是聚焦于“统一框架”这一工程与算法层面的硬核创新，通过“对象记忆机制”巧妙地将语言推理与视觉分割深度绑定。这解决了长期困扰CV界的“语义鸿沟”问题。从趋势看，它预示着AI视觉将从“识别物体”走向“理解关系与过程”，这对短视频内容分析、具身智能乃至数字孪生都将是颠覆性的。开源生态的构建更是关键一步，降低了产业应用门槛，有望催生一批专注于垂直场景的细分应用。这不仅是技术突破，更是一次清晰的产业信号：未来的AI视觉竞争，拼的是在复杂场景下的理解精度与推理能力。

突破视觉理解极限！港理工联合腾讯发布UniPixel，像素级多模态大模型重新定义AI看懂世界

UniPixel是什么

UniPixel的主要功能

UniPixel的技术原理

UniPixel的项目地址

UniPixel的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

颠覆影视创作！字节跳动王牌模型Seedance 2. 5 正式发布， 30 秒一镜成片时代来了

我国人工智能迎来全产业链突破，将加快《人工智能法》立法

特斯拉中国车机正式接入豆包大模型

韩国最大 AI 模型问世：LG 发布 7500 亿参数 K-EXAONE 2.0，Apache 开源直面中国模型

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

UniPixel是什么

UniPixel的主要功能

UniPixel的技术原理

UniPixel的项目地址

UniPixel的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复