Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Mini-InternVL – 上海AI Lab联合清华等机构推出的轻量级多模态大模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Mini-InternVL – 上海AI Lab联合清华等机构推出的轻量级多模态大模型
AIGC 资讯

Mini-InternVL – 上海AI Lab联合清华等机构推出的轻量级多模态大模型

站外新闻
最近更新: 2026年6月9日 上午11:18
SHARE

Mini-InternVL是什么

Mini-InternVL是“迷你版”书生·万象大模型,是上海AI实验室与清华大学、南京大学等机构联合推出的轻量级多模态大型语言模型系列,包含1B、2B和4B三个参数版本,用较小的参数量实现较高的性能,其中Mini-InternVL-4B仅用5%的参数量达到InternVL2-76B约九成的性能。Mini-InternVL用InternViT-300M作为视觉编码器,与不同的预训练语言模型结合,基于动态分辨率输入策略和像素洗牌操作来减少视觉标记数量,提高处理效率。Mini-InternVL在多个一般多模态基准测试中表现出色,且能用简单的转移学习框架适应特定领域的下游任务。

阅读目录
  • Mini-InternVL是什么
  • Mini-InternVL的主要功能
  • Mini-InternVL的技术原理
  • Mini-InternVL的项目地址
  • Mini-InternVL的应用场景

Mini-InternVL

Mini-InternVL的主要功能

  • 多模态理解与推理:在给定图像和文本输入的情况下,理解和推理其中的语义关系。
  • 跨领域适应性:基于知识蒸馏和转移学习技术,适应不同的领域和任务。
  • 轻量级与高效性:Mini-InternVL在保持较小模型参数量(1亿至40亿)的同时,实现与大型模型相近的性能。使得在资源受限的环境中(如消费级GPU或边缘设备)高效运行,降低部署成本和计算资源需求。
  • 视觉指令调优:具备根据视觉指令进行调优的能力,更好地理解和执行用户基于图像的指令。
  • 动态分辨率输入:支持动态分辨率输入策略,根据图像的长宽比将其分割成不同大小的瓦片,并进行相应的处理。

Mini-InternVL的技术原理

  • 视觉编码器(InternViT-300M):作为模型的核心部分,视觉编码器负责将输入图像转换为模型能理解的特征表示。InternViT-300M是轻量级的视觉模型,基于知识蒸馏从更强大的InternViT-6B模型中继承丰富的视觉知识。蒸馏过程使得InternViT-300M能在多个视觉领域中表现出色,同时保持较小的模型参数量。
  • 知识蒸馏:将大型教师模型的知识转移到小型学生模型中,让学生模型能继承教师模型的性能。在Mini-InternVL中,InternViT-6B作为教师模型,基于计算负余弦相似性损失,将隐藏状态的知识传递给InternViT-300M。
  • MLP投影器:MLP(多层感知器)投影器用在连接视觉编码器和语言模型。将视觉编码器输出的特征向量投影到一个适合语言模型处理的空间中,使得视觉信息和文本信息能有效地融合和交互。
  • 预训练语言模型(LLMs):Mini-InternVL结合不同的预训练语言模型,如Qwen2-0.5B、InternLM2-1.8B和Phi-3mini。
  • 动态分辨率输入策略:基于动态分辨率输入策略。该策略根据图像的长宽比将其分割成448×448大小的瓦片,将瓦片组合成固定序列,最终生成一个2688×896分辨率的图像表示。且模型为每个瓦片添加一个缩略图,提供全局上下文信息。
  • 像素洗牌操作:基于像素洗牌操作,模型将图像的分辨率降低到原来的四分之一,减少视觉标记的数量。

Mini-InternVL的项目地址

  • GitHub仓库:https://github.com/OpenGVLab/InternVL
  • HuggingFace模型库:https://huggingface.co/collections/OpenGVLab/internvl-adaptation
  • arXiv技术论文:https://arxiv.org/pdf/2410.16261

Mini-InternVL的应用场景

  • 自动驾驶:用在环境感知、行为预测和路径规划,处理多视角图像,识别和预测交通参与者的行为,生成安全高效的行驶路径。
  • 医学图像处理:辅助疾病诊断、图像标注和治疗方案建议,分析医学影像,提供诊断支持和治疗建议。
  • 遥感:进行土地利用分类、灾害监测和环境监测,识别不同类型的土地利用情况,评估自然灾害影响,监测环境变化。
  • 文档和图表理解:提取文档内容、解析表格和图表,生成文档摘要和图表解释,支持数据可视化和分析。
  • 视频理解:提取视频关键帧和内容,识别视频中的人物行为和事件,生成视频摘要和回答视频相关问题。
GameFactory – 香港大学和快手联合推出的可泛化游戏场景框架
ComfyUI-Copilot – 阿里推出基于 ComfyUI 的 AI 智能助手
JoyGen – 京东和港大推出音频驱动的3D说话人脸视频生成框架
谷歌强推AI搜索遭反噬,DuckDuckGo下载量飙升30%:隐私搜索如何逆势崛起?
Anthropic发布Claude Opus 4.8:代码缺陷率暴跌75%,速度提升2.5倍碾压GPT-5.5
分享
Email 复制链接 打印
Share
上一篇 HoloDrive – 商汤联合上海AI Lab等机构推出的2D-3D多模态街道场景生成框架
下一篇 EMO2 – 阿里研究院推出的音频驱动头像视频生成技术
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

大晓机器人Kairos 3.0-4B开源:全球首个端侧具身世界模型,推理速度提升72倍!
AI 工具 AIGC 资讯
Paperclip开源平台:用AI Agent组建「赛博公司」,自主运营降本增效新范式
AI 工具 最新趋势
斯坦福重磅开源OpenJarvis:本地AI智能体框架,隐私、成本、延迟全优化
AI 工具 AIGC 资讯
智谱AI发布GLM-5-Turbo:专为龙虾Agent优化,深度解决大模型工具调用与长任务失速难题
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

TripoSF – VAST AI 开源的新一代 3D 基础模型

站外新闻
AIGC 资讯

TransPixar – 港中文联合 Adobe 等机构开源的生成透明背景视频技术

站外新闻
AIGC 资讯

PaliGemma 2 mix – 谷歌DeepMind推出的升级版视觉语言模型

站外新闻
AI 工具AIGC 资讯

英伟达开源Polar框架发布:Codex性能暴涨近600%,GRPO训练法引爆智能体革命

站外新闻
GRPO Polar框架 代码智能体 强化学习 英伟达
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI绘画 AI编程 AI编程工具 AI编程智能体 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenClaw OpenRouter Pika prompt stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 强化学习 形式化验证 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.