Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 小红书Hi Lab重磅开源dots.vlm1:12亿参数视觉编码器+DeepSeek V3,多模态大模型性能直逼闭源SOTA
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 小红书Hi Lab重磅开源dots.vlm1:12亿参数视觉编码器+DeepSeek V3,多模态大模型性能直逼闭源SOTA
AI 工具AIGC 资讯

小红书Hi Lab重磅开源dots.vlm1:12亿参数视觉编码器+DeepSeek V3,多模态大模型性能直逼闭源SOTA

站外新闻
最近更新: 2026年6月7日 下午8:21
DeepSeek V3 dots.vlm1 多模态大模型 小红书hi lab 视觉语言模型
SHARE

💡 站外导读:在多模态AI竞赛白热化的今天,如何让模型同时精通视觉理解与复杂文本推理,是行业面临的核心挑战。小红书Hi Lab此次开源dots.vlm1,正是为了破解这一难题。该模型基于从零训练的12亿参数视觉编码器NaViT,并融合强大的DeepSeek V3语言模型,不仅在视觉任务上逼近顶尖闭源模型,更在文本推理领域保持竞争力。这标志着开源多模态模型正式进入“性能对标闭源”的新阶段,为开发者提供了极具性价比的利器。

dots.vlm1是什么

dots.vlm1 是小红书 hi lab 开源的首个多模态大模型。基于一个从零训练的 12 亿参数视觉编码器 NaViT 和 DeepSeek V3 大语言模型(LLM),具备强大的视觉感知和文本推理能力。模型在视觉理解和推理任务上表现出色,接近闭源 SOTA 模型水平,在文本任务上也保持了竞争力。dots.vlm1 的视觉编码器 NaViT 完全从零开始训练,原生支持动态分辨率,在文本监督基础上增加了纯视觉监督,提升了感知能力。训练数据引入了多种合成数据思路,覆盖多样的图片类型及其描述,显著提升了数据质量。

阅读目录
  • dots.vlm1是什么
  • dots.vlm1的主要功能
  • dots.vlm1的技术原理
  • dots.vlm1的项目地址
  • dots.vlm1的应用场景
      • 📝 站长洞察 (Editor’s Insight)

dots.vlm1

dots.vlm1的主要功能

  • 强大的视觉理解能力:能准确识别和理解图像中的内容,包括复杂图表、表格、文档、图形等,支持动态分辨率,适用于多种视觉任务。
  • 高效的文本生成与推理:基于 DeepSeek V3 LLM,能生成高质量的文本描述,在数学、代码等文本推理任务中表现出色。
  • 多模态数据处理:支持图文交错的数据处理,能结合视觉和文本信息进行综合推理,适用于多模态应用场景。
  • 灵活的适配与扩展:通过轻量级 MLP 适配器连接视觉编码器和语言模型,方便在不同任务中进行灵活适配和扩展。
  • 开源与开放性:提供完整的开源代码和模型,支持开发者进行研究和应用开发,推动多模态技术的发展。

dots.vlm1的技术原理

  • NaViT 视觉编码器:dots.vlm1 使用了一个从零开始训练的 12 亿参数视觉编码器 NaViT,非基于现有成熟模型微调。原生支持动态分辨率,能处理不同分辨率的图像输入,在文本监督的基础上增加了纯视觉监督,提升了模型对图像的感知能力。
  • 多模态数据训练:模型采用了多样化的多模态训练数据,包括普通图像、复杂图表、表格、文档、图形等,以及对应的文本描述(如 Alt Text、Dense Caption、Grounding 等)。引入了合成数据思路和网页、PDF 等图文交错数据,通过重写和清洗提升数据质量,增强模型的多模态理解能力。
  • 视觉与语言模型融合:dots.vlm1 将视觉编码器与 DeepSeek V3 大语言模型(LLM)相结合,通过轻量级 MLP 适配器进行连接,实现视觉信息与语言信息的有效融合,支持多模态任务的处理。
  • 三阶段训练流程:模型的训练分为三个阶段:视觉编码器预训练、VLM 预训练和 VLM 后训练。通过逐步提升图像分辨率和引入多样化的训练数据,增强模型的泛化能力和多模态任务处理能力。

dots.vlm1的项目地址

  • GitHub仓库:https://github.com/rednote-hilab/dots.vlm1
  • Hugging Face模型库:https://huggingface.co/rednote-hilab/dots.vlm1.inst
  • 在线体验Demo:https://huggingface.co/spaces/rednote-hilab/dots-vlm1-demo

dots.vlm1的应用场景

  • 复杂图表推理:能对复杂的图表进行分析和推理,帮助用户更好地理解和解读图表中的信息。
  • STEM 解题:在科学、技术、工程和数学(STEM)领域,模型可以辅助解决相关问题,提供解题思路。
  • 长尾识别:对于一些出现频率较低的类别或对象,dots.vlm1 也具备较好的识别能力。
  • 视觉推理:能处理涉及视觉信息的推理任务,如障碍物识别、商品比较分析等。
  • 图文问答与互动:支持图文结合的问答任务,能进行多轮对话,根据上下文给出连贯的回答。
  • 内容推荐:基于多模态数据,为用户提供个性化的内容推荐,如在小红书平台上推荐相关的图文或视频。

📝 站长洞察 (Editor’s Insight)

dots.vlm1的发布,其意义远超一个新模型的开源。它揭示了一个关键趋势:中国科技企业正从“应用创新”转向“基础模型创新”,且开始有能力在开源生态中挑战闭源巨头。小红书作为内容平台,其Hi Lab选择训练一个“原生”而非“微调”的视觉编码器,体现了对多模态本质的深刻理解——视觉感知能力必须从数据根源构建,而非简单嫁接。结合DeepSeek V3这一近期表现惊艳的LLM,dots.vlm1完成了视觉与语言两大模态的顶级能力拼图。这不仅是对学术界的贡献,更是为产业界,特别是内容、电商、教育等领域的AI应用,提供了一个强大、开放且可定制的技术基座。它预示着,未来的核心竞争力将在于如何基于此类开源多模态基座,构建垂直场景的深度解决方案,推动AIGC从“能用”走向“好用”和“专用”。

生数科技Vidu Q3重磅发布:全球首款16秒音画同步AI视频生成模型,技术原理与应用场景全解析
美图AI PPT
TeamClaw:一个人的AI办公室!自动拆解任务、管理AI员工团队,无缝接入飞书钉钉
NameSnack
ChatNBX
TAGGED:DeepSeek V3dots.vlm1多模态大模型小红书hi lab视觉语言模型
分享
Email 复制链接 打印
Share
上一篇 阿里Qwen3闪电模型上线:性能飙升、百万token上下文、价格屠夫级定价,AIGC普惠化新标杆
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

阿里Qwen3闪电模型上线:性能飙升、百万token上下文、价格屠夫级定价,AIGC普惠化新标杆
AI 工具 AIGC 资讯
MiniMax Speech 2.5 重磅发布:支持40种语言,音色复刻与跨语种生成实现突破性进展
AI 工具
GPT-5实测:OpenAI史上最强模型,如何重塑编程、写作与健康咨询?
AI 工具 AIGC 资讯
腾讯重磅开源 WeKnora:基于大模型的文档理解与语义检索框架,企业级RAG知识管理新标杆
AI 工具 AIGC 资讯

相关推荐

AI 工具

Promptmakr

remaker
AIGC 资讯

Reasonix – 专为 DeepSeek 推出的开源终端编程 Agent

站外新闻
AIGC 资讯

StreamBridge – 苹果联合复旦推出的端侧视频大语言模型框架

站外新闻
全息流体渐变通用占位特色图
AIGC 资讯

中国将首发公有云大模型 Token 性能榜,日均调用量已突破 140 万亿次

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大模型推理 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 端侧部署 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 边缘计算 通义千问 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.