Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Mellum2 – JetBrains 开源的混合专家模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Mellum2 – JetBrains 开源的混合专家模型
AIGC 资讯

Mellum2 – JetBrains 开源的混合专家模型

站外新闻
最近更新: 2026年6月7日 下午6:03
SHARE

Mellum2是什么

Mellum2 是 JetBrains 开源的面向软件工程系统的新机器学习模型。模型每 token 仅激活 2.5B 参数,专为软件工程 AI 工作流优化,支持代码生成、智能路由、子 Agent 调用及私有化部署。凭借低延迟、高吞吐和低成本特性,Mellum2 在 LiveCodeBench 等代码评测中表现领先,是构建企业级 AI 编程助手和自动化工作流的高性能选择。

阅读目录
  • Mellum2是什么
  • Mellum2的主要功能
  • Mellum2的技术原理
  • Mellum2的核心优势
  • Mellum2的同类竞品对比
  • Mellum2的应用场景

Mellum2

Mellum2的主要功能

  • 智能代码生成:基于代码和自然语言数据训练,支持代码补全、函数生成与重构建议。
  • 双模式推理:提供 Thinking(深度思考)与 Non-thinking(快速响应)两种模式,按需切换。
  • 工作流路由与摘要:充当 AI 工作流的智能路由器,负责任务分发、文档摘要与中间推理。
  • 工具调用与 Agent 协作:支持子 Agent 调用和工具链集成,可嵌入复杂自动化流程。
  • 本地私有部署:可在企业内网或本地设备独立运行,无需依赖外部 API。

Mellum2的技术原理

  • MoE 稀疏架构:采用 64 专家、每 token 激活 8 个专家的 Mixture-of-Experts 设计,总参数量 12B,实际激活仅 2.5B,使推理成本接近 2.5B 密集模型。结合 Grouped-Query Attention 与 滑动窗口注意力,显著压缩显存占用并加速解码。引入多 Token 预测头(Multi-Token Prediction),作为辅助预训练目标提升性能,充当投机解码的内置 Draft 模型,进一步降低延迟。
  • 三阶段课程预训练:在约 10.6 万亿 Token 上进行训练,数据配比从通用网页数据逐步过渡到精选代码与数学内容,形成渐进式课程。用 Muon 优化器 配合 FP8 混合精度,采用 Warmup-Hold-Decay(线性衰减至零)学习率调度,在训练效率与模型稳定性之间取得平衡。
  • 长上下文扩展:预训练基础模型通过 Layer-Selective YaRN 将上下文窗口扩展至 128K,仅对关键层进行位置编码插值,避免全层微调带来的性能损失。

Mellum2的核心优势

  • MoE 高效架构:12B 总参数仅激活 2.5B,显著降低推理成本,实现高吞吐、低延迟
  • 垂直领域专精:放弃多模态,专注代码与自然语言,在软件工程场景下更精准、更轻量
  • 生产级性能:在 LiveCodeBench v6 代码评测中 Thinking 模式得分 69.9,领先同级别开源模型
  • 完全开源可商用:Apache 2.0 协议,可自由实验、微调及大规模商用部署
  • 企业隐私友好:支持完全本地化运行,满足代码安全与数据合规要求

Mellum2的同类竞品对比

对比维度 Mellum2 Qwen3.5-9B SeedCoder-8B
模型架构 12B MoE(64 专家,8 激活,2.5B 活跃参数) 9B 密集模型(Dense) 8B 密集模型(Dense)
开源协议 Apache 2.0(完全可商用) 开源(可商用) 未明确/部分受限
模态支持 仅文本 + 代码(垂直专精) 文本、代码、图像、视频(多模态通用) 仅代码(单领域)
每 Token 计算量 ≈2.5B 参数(极低) 9B 参数(全量激活) 8B 参数(全量激活)
LiveCodeBench v6 69.9(Thinking) 68.3(Thinking) 28.1(Non-thinking)
BFCL V4 工具调用 45.6(Thinking) 42.7(Thinking) N/A(不支持)
AIME 数学推理 58.4(Thinking) 73.4(Thinking) 0(不支持)
上下文长度 128K(YaRN 扩展) 128K+ 通常 4K-8K
推理模式 双模式:Thinking + Non-thinking 双模式:Thinking + Non-thinking 仅 Non-thinking

Mellum2的应用场景

  • 智能代码补全与生成:在 IDE 中提供实时代码补全、函数生成、代码重构与编辑建议,替代传统自动补全工具。
  • 调试与错误诊断:辅助开发者定位 Bug、分析堆栈信息、生成修复方案,降低调试时间成本。
  • 多步推理与复杂任务分解:在 Agent 工作流中承担中间推理节点,将复杂需求拆解为可执行的子任务序列。
  • 工具调用与函数编排:通过 Function Calling 连接外部 API、数据库或开发工具,实现自动化构建、测试与部署流程。
  • 对话式编程助手:用自然语言交互方式解答技术问题、解释代码逻辑、推荐最佳实践,充当 24/7 技术顾问。
AI自主迭代闭环已成?孙正义断言超级智能两年内引爆科技临界点
腾讯HunyuanVideo 1.5开源:8.3B参数模型,14G显存流畅生成高清视频
字节豆包推出首款全模态理解模型Doubao-Seed-2.0-lite:视频、图像、音频、文本原生统一,Agent能力全面升级
阿里Qwen3-Next开源发布:80B参数仅激活3B,混合架构大模型重新定义效率与成本
Sonic – 腾讯联合浙大推出的音频驱动肖像动画框架
分享
Email 复制链接 打印
Share
上一篇 MAI-Code-1-Flash – 微软推出的轻量级代码生成模型
下一篇 Bernini – 字节跳动开源的统一视频生成与编辑框架
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

华为盘古大模型5.5震撼发布:7180亿参数Ultra MoE领衔,五大模型重塑产业智能
AI 工具 AIGC 资讯
腾讯清华重磅开源MindOmni:强化学习驱动的多模态推理生成模型,重塑视觉AI边界
AI 工具 AIGC 资讯
联影智能发布‘元智’医疗大模型:多模态融合,一次CT扫描诊断37种疾病
AI 工具 AIGC 资讯
Dive3D重磅发布:北大x小红书联手破解文本生成3D多样性难题,SIM损失取代KL散度实现模式突破
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

通义千问「拍照问健康」重大升级:AI圈图识异常、智能推理获三甲专家实测认可

站外新闻
AIGC AI健康助手 医学图像识别 通义千问
AI 工具AIGC 资讯

阿里通义Fun-ASR1.5重磅发布:单模型支持30语言+方言识别,MoE架构引领ASR新纪元

站外新闻
Fun-ASR1.5 MoE架构 方言识别 语音识别大模型 阿里通义
AIGC 资讯

HMA – MIT联合Meta等推出的机器人动作视频动态建模方法

站外新闻
AIGC 资讯

Step R-mini – 阶跃星辰推出的 Step 系列首个推理模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.