小红书Hi Lab重磅开源dots.vlm1：12亿参数视觉编码器+DeepSeek V3，多模态大模型性能直逼闭源SOTA

💡 站外导读：在多模态AI竞赛白热化的今天，如何让模型同时精通视觉理解与复杂文本推理，是行业面临的核心挑战。小红书Hi Lab此次开源dots.vlm1，正是为了破解这一难题。该模型基于从零训练的12亿参数视觉编码器NaViT，并融合强大的DeepSeek V3语言模型，不仅在视觉任务上逼近顶尖闭源模型，更在文本推理领域保持竞争力。这标志着开源多模态模型正式进入“性能对标闭源”的新阶段，为开发者提供了极具性价比的利器。

dots.vlm1是什么

dots.vlm1 是小红书 hi lab 开源的首个多模态大模型。基于一个从零训练的 12 亿参数视觉编码器 NaViT 和 DeepSeek V3 大语言模型（LLM），具备强大的视觉感知和文本推理能力。模型在视觉理解和推理任务上表现出色，接近闭源 SOTA 模型水平，在文本任务上也保持了竞争力。dots.vlm1 的视觉编码器 NaViT 完全从零开始训练，原生支持动态分辨率，在文本监督基础上增加了纯视觉监督，提升了感知能力。训练数据引入了多种合成数据思路，覆盖多样的图片类型及其描述，显著提升了数据质量。

阅读目录

dots.vlm1是什么
dots.vlm1的主要功能
dots.vlm1的技术原理
dots.vlm1的项目地址
dots.vlm1的应用场景

📝 站长洞察 (Editor’s Insight)

dots.vlm1

dots.vlm1的主要功能

强大的视觉理解能力：能准确识别和理解图像中的内容，包括复杂图表、表格、文档、图形等，支持动态分辨率，适用于多种视觉任务。
高效的文本生成与推理：基于 DeepSeek V3 LLM，能生成高质量的文本描述，在数学、代码等文本推理任务中表现出色。
多模态数据处理：支持图文交错的数据处理，能结合视觉和文本信息进行综合推理，适用于多模态应用场景。
灵活的适配与扩展：通过轻量级 MLP 适配器连接视觉编码器和语言模型，方便在不同任务中进行灵活适配和扩展。
开源与开放性：提供完整的开源代码和模型，支持开发者进行研究和应用开发，推动多模态技术的发展。

dots.vlm1的技术原理

NaViT 视觉编码器：dots.vlm1 使用了一个从零开始训练的 12 亿参数视觉编码器 NaViT，非基于现有成熟模型微调。原生支持动态分辨率，能处理不同分辨率的图像输入，在文本监督的基础上增加了纯视觉监督，提升了模型对图像的感知能力。
多模态数据训练：模型采用了多样化的多模态训练数据，包括普通图像、复杂图表、表格、文档、图形等，以及对应的文本描述（如 Alt Text、Dense Caption、Grounding 等）。引入了合成数据思路和网页、PDF 等图文交错数据，通过重写和清洗提升数据质量，增强模型的多模态理解能力。
视觉与语言模型融合：dots.vlm1 将视觉编码器与 DeepSeek V3 大语言模型（LLM）相结合，通过轻量级 MLP 适配器进行连接，实现视觉信息与语言信息的有效融合，支持多模态任务的处理。
三阶段训练流程：模型的训练分为三个阶段：视觉编码器预训练、VLM 预训练和 VLM 后训练。通过逐步提升图像分辨率和引入多样化的训练数据，增强模型的泛化能力和多模态任务处理能力。

dots.vlm1的项目地址

GitHub仓库：https://github.com/rednote-hilab/dots.vlm1
Hugging Face模型库：https://huggingface.co/rednote-hilab/dots.vlm1.inst
在线体验Demo：https://huggingface.co/spaces/rednote-hilab/dots-vlm1-demo

dots.vlm1的应用场景

复杂图表推理：能对复杂的图表进行分析和推理，帮助用户更好地理解和解读图表中的信息。
STEM 解题：在科学、技术、工程和数学（STEM）领域，模型可以辅助解决相关问题，提供解题思路。
长尾识别：对于一些出现频率较低的类别或对象，dots.vlm1 也具备较好的识别能力。
视觉推理：能处理涉及视觉信息的推理任务，如障碍物识别、商品比较分析等。
图文问答与互动：支持图文结合的问答任务，能进行多轮对话，根据上下文给出连贯的回答。
内容推荐：基于多模态数据，为用户提供个性化的内容推荐，如在小红书平台上推荐相关的图文或视频。

📝 站长洞察 (Editor’s Insight)

dots.vlm1的发布，其意义远超一个新模型的开源。它揭示了一个关键趋势：中国科技企业正从“应用创新”转向“基础模型创新”，且开始有能力在开源生态中挑战闭源巨头。小红书作为内容平台，其Hi Lab选择训练一个“原生”而非“微调”的视觉编码器，体现了对多模态本质的深刻理解——视觉感知能力必须从数据根源构建，而非简单嫁接。结合DeepSeek V3这一近期表现惊艳的LLM，dots.vlm1完成了视觉与语言两大模态的顶级能力拼图。这不仅是对学术界的贡献，更是为产业界，特别是内容、电商、教育等领域的AI应用，提供了一个强大、开放且可定制的技术基座。它预示着，未来的核心竞争力将在于如何基于此类开源多模态基座，构建垂直场景的深度解决方案，推动AIGC从“能用”走向“好用”和“专用”。

小红书Hi Lab重磅开源dots.vlm1：12亿参数视觉编码器+DeepSeek V3，多模态大模型性能直逼闭源SOTA

dots.vlm1是什么

dots.vlm1的主要功能

dots.vlm1的技术原理

dots.vlm1的项目地址

dots.vlm1的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

马斯克“亲手”清空 Grok Build 用户数据，Agentic Coding 信任危机化解

RAG-Diffusion – 南京大学推出的区域感知文本到图像生成方法

FitDiT – 腾讯联合复旦推出的高保真虚拟试穿技术

OpenAI反击马斯克窃密诉讼：要求xAI承担百万美元法律费，称其”先起诉后找证据”

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

dots.vlm1是什么

dots.vlm1的主要功能

dots.vlm1的技术原理

dots.vlm1的项目地址

dots.vlm1的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复