Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Kimi-VL – 月之暗面开源的轻量级多模态视觉语言模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Kimi-VL – 月之暗面开源的轻量级多模态视觉语言模型
AIGC 资讯

Kimi-VL – 月之暗面开源的轻量级多模态视觉语言模型

站外新闻
最近更新: 2026年6月8日 上午11:21
SHARE

Kimi-VL是什么

Kimi-VL 是月之暗面开源的轻量级多模态视觉语言模型,基于轻量级MoE模型Moonlight(16B总参数,2.8B激活参数)和原生分辨率的MoonViT视觉编码器(400M参数)。Kimi-VL支持单图、多图、视频和长文档等多模态输入,在图像感知、数学、多学科题目、OCR等任务中表现出色,尤其在长上下文(128K)和复杂推理方面有优势。在数学推理、长视频理解等任务中表现优异,超越GPT-4o等模型。Kimi-VL推出支持长思考的模型版本 Kimi-VL-Thinking,基于长链推理微调和强化学习,仅2.8B 激活参数,在较高推理难度的基准测试中,部分成绩接近甚至超过超大尺寸的前沿模型。

阅读目录
  • Kimi-VL是什么
  • Kimi-VL的主要功能
  • Kimi-VL的技术原理
  • Kimi-VL的性能优势
  • Kimi-VL的项目地址
  • Kimi-VL的应用场景

最新开源的Kimi-VL-A3B-Thinking-2506版本,在多模态推理基准测试中表现优异,准确性大幅提升且思考长度减少20%。模型视觉理解能力显著增强,支持更高分辨率图像处理,在高分辨率感知和OS-agent接地基准测试中取得显著进步(在V*Benchmark上得分为83.2,ScreenSpot-Pro上为52.8,OSWorld-G上为52.5)。模型在图像理解、图表推理、数学计算等多个领域表现出色,支持特定回答模式和思考链。

Kimi-VL

Kimi-VL的主要功能

  • 多模态信息输入:支持单图、多图、视频、长文档等多种输入形式。
  • 图像细粒度感知:对图像进行详细分析,识别图像中的复杂细节和场景。
  • 数学和逻辑推理:在多模态数学题目和逻辑推理任务中表现出色,支持结合视觉信息进行复杂计算。
  • OCR和文本识别:在光学字符识别(OCR)任务中表现优异,准确识别图像中的文字内容。
  • 智能体应用:支持Agent任务,如屏幕快照解析、智能体导航等,处理复杂的视觉和文本交互场景。
  • 长思考能力:Kimi-VL-Thinking版本在复杂任务中支持进行更深层次的推理。

Kimi-VL的技术原理

  •  架构设计:
    • 视觉编码器(MoonViT):基于400M参数的Vision Transformer架构,原生分辨率处理图像,无需对图像进行分割或拼接。引入NaViT中的打包方法,将图像划分为图像块,展平后串联成一维序列,与语言模型共享相同的算子和优化方法。
    • 多层感知器投影模块(MLP Projector):基于两层MLP桥接视觉编码器和语言模型。像素重排操作压缩图像特征的空间维度,投影到语言模型所需的嵌入维度。
    • 混合专家(MoE)语言模型(Moonlight):基于6B总参数、2.8B激活参数的轻量级MoE架构。从预训练阶段的中间检查点初始化,检查点已处理过5.2T token的纯文本数据,激活了8K的上下文长度。用混合训练方案,继续预训练2.3T token的多模态和纯文本数据。
  • 预训练阶段:
    • 独立 ViT 训练:对视觉编码器进行独立训练,建立健壮的视觉特征提取能力。
    • 联合训练:包括预训练、冷却和长上下文激活三个阶段,同时增强模型的语言和多模态能力。
    • 后训练阶段:分别在32K和128K上下文中进行,进一步优化模型性能。用长链推理(Long-CoT)微调激活和增强长思考能力,基于强化学习进一步提升模型的推理能力。
  • 性能优化:基于128K的上下文窗口,在长文本和长视频中进行精准信息检索。原生分辨率编码器MoonViT在超高分辨率视觉任务中用户较低的计算开销保持高准确率。基于长思维链(Long CoT)激活和强化学习,Kimi-VL-Thinking在复杂任务中进行更深层次的推理。

Kimi-VL的性能优势

  • 高智力:Kimi-VL在多模态推理和多步骤Agent任务中表现出色,文本处理能力也毫不逊色于纯文本语言模型。在MMMU、MathVista、OSWorld等基准测试中,Kimi-VL无需依赖“长思考”能力,取得令人瞩目的成绩,展现卓越的智能水平。
  • 长上下文:Kimi-VL拥有128K的超长上下文窗口,在处理长视频和长文档任务时,如LongVideoBench和MMLongBench-Doc基准测试,表现远超同级别其他模型,支持精准地检索和理解海量信息,为复杂任务提供更全面的上下文支持。
  • 更强的视觉能力:与其他开源视觉语言模型相比,Kimi-VL在视觉感知、视觉世界知识、OCR及高分辨率屏幕快照解析等多个视觉场景中,均展现出全面且显著的竞争优势。对复杂图像的细节捕捉和对视觉信息的深度理解,Kimi-VL都能精准高效地完成任务。

Kimi-VL的项目地址

  • GitHub仓库:https://github.com/MoonshotAI/Kimi-VL
  • HuggingFace模型库:https://huggingface.co/collections/moonshotai/kimi-vl
  • 技术论文:https://github.com/MoonshotAI/Kimi-VL/blob/main/Kimi-VL.pdf

Kimi-VL的应用场景

  • 智能客服:用在多轮对话,解答用户问题,支持图文结合的交互。
  • 教育辅导:辅助学生学习,提供图文并茂的解答和教学材料。
  • 内容创作:生成图文、视频内容,辅助视频编辑和创意生成。
  • 医疗辅助:分析医学影像,提供初步诊断建议和健康咨询。
  • 企业办公:处理长文档,提取关键信息,支持智能会议服务。
TesserAct – AI 4D具身世界模型,能预测3D场景的动态演变
腾讯混元Hy3 preview:21B激活参数达295B性能,开源MoE模型如何重新定义AI实用主义?
港股团队开源AI金融工作空间!74项技能+29个智能体,用自然语言生成可执行策略,覆盖A股、美股、加密货币全市场
PaperBench – OpenAI 开源的 AI 智能体评测基准
Pemo – AI文档管理工具,支持一键翻译智能总结文献摘要
分享
Email 复制链接 打印
Share
上一篇 Liquid – 华中科技、字节、港大联合推出的统一多模态生成框架
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Liquid – 华中科技、字节、港大联合推出的统一多模态生成框架
AIGC 资讯
AI-Researcher – 香港大学推出的开源自动化科学研究工具
AIGC 资讯
InternVL – OpenGVLab 推出的多模态大模型
AIGC 资讯
DeepSeek-R1T-Chimera – TNG开源的语言模型
AIGC 资讯

相关推荐

AIGC 资讯最新趋势

AI重新定义智能座舱!Rivian高管断言:CarPlay投屏时代已彻底终结

站外新闻
AI智能体 CarPlay Rivian 智能座舱 软件定义汽车
AI 工具AIGC 资讯

SearchClaw:人大自研开源AI深度研究智能体,支持多源检索与自托管部署

站外新闻
AI智能体 人大 信息检索 深度研究 自托管
AI 工具AIGC 资讯

蚂蚁灵波LingBot-VA论文入选RSS2026:全球首个开源因果世界模型如何让机器人‘边想边做’?

站外新闻
LingBot-VA RSS2026 具身智能 因果世界模型 蚂蚁灵波
全息流体渐变通用占位特色图
AIGC 资讯

谷歌 Gemini 遭“投毒”!新型漏洞曝光:黑客发条隐藏信息就能远程控车、控房

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.