Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Kimi-VL – 月之暗面开源的轻量级多模态视觉语言模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Kimi-VL – 月之暗面开源的轻量级多模态视觉语言模型
AIGC 资讯

Kimi-VL – 月之暗面开源的轻量级多模态视觉语言模型

站外新闻
最近更新: 2026年6月8日 上午11:21
SHARE

Kimi-VL是什么

Kimi-VL 是月之暗面开源的轻量级多模态视觉语言模型,基于轻量级MoE模型Moonlight(16B总参数,2.8B激活参数)和原生分辨率的MoonViT视觉编码器(400M参数)。Kimi-VL支持单图、多图、视频和长文档等多模态输入,在图像感知、数学、多学科题目、OCR等任务中表现出色,尤其在长上下文(128K)和复杂推理方面有优势。在数学推理、长视频理解等任务中表现优异,超越GPT-4o等模型。Kimi-VL推出支持长思考的模型版本 Kimi-VL-Thinking,基于长链推理微调和强化学习,仅2.8B 激活参数,在较高推理难度的基准测试中,部分成绩接近甚至超过超大尺寸的前沿模型。

阅读目录
  • Kimi-VL是什么
  • Kimi-VL的主要功能
  • Kimi-VL的技术原理
  • Kimi-VL的性能优势
  • Kimi-VL的项目地址
  • Kimi-VL的应用场景

最新开源的Kimi-VL-A3B-Thinking-2506版本,在多模态推理基准测试中表现优异,准确性大幅提升且思考长度减少20%。模型视觉理解能力显著增强,支持更高分辨率图像处理,在高分辨率感知和OS-agent接地基准测试中取得显著进步(在V*Benchmark上得分为83.2,ScreenSpot-Pro上为52.8,OSWorld-G上为52.5)。模型在图像理解、图表推理、数学计算等多个领域表现出色,支持特定回答模式和思考链。

Kimi-VL

Kimi-VL的主要功能

  • 多模态信息输入:支持单图、多图、视频、长文档等多种输入形式。
  • 图像细粒度感知:对图像进行详细分析,识别图像中的复杂细节和场景。
  • 数学和逻辑推理:在多模态数学题目和逻辑推理任务中表现出色,支持结合视觉信息进行复杂计算。
  • OCR和文本识别:在光学字符识别(OCR)任务中表现优异,准确识别图像中的文字内容。
  • 智能体应用:支持Agent任务,如屏幕快照解析、智能体导航等,处理复杂的视觉和文本交互场景。
  • 长思考能力:Kimi-VL-Thinking版本在复杂任务中支持进行更深层次的推理。

Kimi-VL的技术原理

  •  架构设计:
    • 视觉编码器(MoonViT):基于400M参数的Vision Transformer架构,原生分辨率处理图像,无需对图像进行分割或拼接。引入NaViT中的打包方法,将图像划分为图像块,展平后串联成一维序列,与语言模型共享相同的算子和优化方法。
    • 多层感知器投影模块(MLP Projector):基于两层MLP桥接视觉编码器和语言模型。像素重排操作压缩图像特征的空间维度,投影到语言模型所需的嵌入维度。
    • 混合专家(MoE)语言模型(Moonlight):基于6B总参数、2.8B激活参数的轻量级MoE架构。从预训练阶段的中间检查点初始化,检查点已处理过5.2T token的纯文本数据,激活了8K的上下文长度。用混合训练方案,继续预训练2.3T token的多模态和纯文本数据。
  • 预训练阶段:
    • 独立 ViT 训练:对视觉编码器进行独立训练,建立健壮的视觉特征提取能力。
    • 联合训练:包括预训练、冷却和长上下文激活三个阶段,同时增强模型的语言和多模态能力。
    • 后训练阶段:分别在32K和128K上下文中进行,进一步优化模型性能。用长链推理(Long-CoT)微调激活和增强长思考能力,基于强化学习进一步提升模型的推理能力。
  • 性能优化:基于128K的上下文窗口,在长文本和长视频中进行精准信息检索。原生分辨率编码器MoonViT在超高分辨率视觉任务中用户较低的计算开销保持高准确率。基于长思维链(Long CoT)激活和强化学习,Kimi-VL-Thinking在复杂任务中进行更深层次的推理。

Kimi-VL的性能优势

  • 高智力:Kimi-VL在多模态推理和多步骤Agent任务中表现出色,文本处理能力也毫不逊色于纯文本语言模型。在MMMU、MathVista、OSWorld等基准测试中,Kimi-VL无需依赖“长思考”能力,取得令人瞩目的成绩,展现卓越的智能水平。
  • 长上下文:Kimi-VL拥有128K的超长上下文窗口,在处理长视频和长文档任务时,如LongVideoBench和MMLongBench-Doc基准测试,表现远超同级别其他模型,支持精准地检索和理解海量信息,为复杂任务提供更全面的上下文支持。
  • 更强的视觉能力:与其他开源视觉语言模型相比,Kimi-VL在视觉感知、视觉世界知识、OCR及高分辨率屏幕快照解析等多个视觉场景中,均展现出全面且显著的竞争优势。对复杂图像的细节捕捉和对视觉信息的深度理解,Kimi-VL都能精准高效地完成任务。

Kimi-VL的项目地址

  • GitHub仓库:https://github.com/MoonshotAI/Kimi-VL
  • HuggingFace模型库:https://huggingface.co/collections/moonshotai/kimi-vl
  • 技术论文:https://github.com/MoonshotAI/Kimi-VL/blob/main/Kimi-VL.pdf

Kimi-VL的应用场景

  • 智能客服:用在多轮对话,解答用户问题,支持图文结合的交互。
  • 教育辅导:辅助学生学习,提供图文并茂的解答和教学材料。
  • 内容创作:生成图文、视频内容,辅助视频编辑和创意生成。
  • 医疗辅助:分析医学影像,提供初步诊断建议和健康咨询。
  • 企业办公:处理长文档,提取关键信息,支持智能会议服务。
智谱AI发布SCAIL:影视级角色动画生成框架,一键实现多人复杂交互与照片驱动动画
CreatiLayout – 复旦和字节联合推出创新的布局到图像生成技术
影视圈又一重磅联手!生数科技牵手华策,加速 AI 视频从“创意辅助”迈向“真实生产”
HoloDrive – 商汤联合上海AI Lab等机构推出的2D-3D多模态街道场景生成框架
奥尔特曼最新反思:AI对白领岗位的冲击远低于预期,短期失业潮并未出现
分享
Email 复制链接 打印
Share
上一篇 Liquid – 华中科技、字节、港大联合推出的统一多模态生成框架
下一篇 Piece it Together – Bria AI等机构推出的图像生成框架
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Self Forcing: Adobe与德克萨斯大学联合推出实时视频生成模型,单GPU实现17FPS,告别传统AI视频生成延迟
AI 工具 AIGC 资讯
腾讯AI Lab重磅开源SongGeneration:AI音乐生成大模型,多轨合成、风格克隆,媲美商业模型
AI 工具 AIGC 资讯
快手OneRec:颠覆传统推荐!端到端生成式AI系统引爆观看时长与GMV
AI 工具 AIGC 资讯
Kimi-Researcher:月之暗面端到端强化学习Agent,深度研究基准测试超Claude 4 Opus
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

FLUX.1 Krea [dev] 开源:黑森林与Krea AI联手打造,照片级文生图模型,美学与真实感兼得

站外新闻
AIGC Black Forest Labs 开源模型 扩散变换器 文生图
量子芯片科技感占位特色图
AI 工具AIGC 资讯

AI复活传奇!斯坦·李获合法授权数字重生, ElevenLabs 用生成式AI重塑其标志性声音

站外新闻
AI音频 ElevenLabs 数字生命 斯坦·李 生成式AI
AI 工具AIGC 资讯

阿里通义开源WebResearcher:迭代式深度研究Agent,自主拆解复杂问题的AI研究助手

站外新闻
强化学习 深度推理 迭代研究 通义实验室
AIGC 资讯

反超美国!中国AI大模型周调用量创新高,包揽全球前四

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.