Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Mellum2 – JetBrains 开源的混合专家模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Mellum2 – JetBrains 开源的混合专家模型
AIGC 资讯

Mellum2 – JetBrains 开源的混合专家模型

站外新闻
最近更新: 2026年6月7日 下午6:03
SHARE

Mellum2是什么

Mellum2 是 JetBrains 开源的面向软件工程系统的新机器学习模型。模型每 token 仅激活 2.5B 参数,专为软件工程 AI 工作流优化,支持代码生成、智能路由、子 Agent 调用及私有化部署。凭借低延迟、高吞吐和低成本特性,Mellum2 在 LiveCodeBench 等代码评测中表现领先,是构建企业级 AI 编程助手和自动化工作流的高性能选择。

阅读目录
  • Mellum2是什么
  • Mellum2的主要功能
  • Mellum2的技术原理
  • Mellum2的核心优势
  • Mellum2的同类竞品对比
  • Mellum2的应用场景

Mellum2

Mellum2的主要功能

  • 智能代码生成:基于代码和自然语言数据训练,支持代码补全、函数生成与重构建议。
  • 双模式推理:提供 Thinking(深度思考)与 Non-thinking(快速响应)两种模式,按需切换。
  • 工作流路由与摘要:充当 AI 工作流的智能路由器,负责任务分发、文档摘要与中间推理。
  • 工具调用与 Agent 协作:支持子 Agent 调用和工具链集成,可嵌入复杂自动化流程。
  • 本地私有部署:可在企业内网或本地设备独立运行,无需依赖外部 API。

Mellum2的技术原理

  • MoE 稀疏架构:采用 64 专家、每 token 激活 8 个专家的 Mixture-of-Experts 设计,总参数量 12B,实际激活仅 2.5B,使推理成本接近 2.5B 密集模型。结合 Grouped-Query Attention 与 滑动窗口注意力,显著压缩显存占用并加速解码。引入多 Token 预测头(Multi-Token Prediction),作为辅助预训练目标提升性能,充当投机解码的内置 Draft 模型,进一步降低延迟。
  • 三阶段课程预训练:在约 10.6 万亿 Token 上进行训练,数据配比从通用网页数据逐步过渡到精选代码与数学内容,形成渐进式课程。用 Muon 优化器 配合 FP8 混合精度,采用 Warmup-Hold-Decay(线性衰减至零)学习率调度,在训练效率与模型稳定性之间取得平衡。
  • 长上下文扩展:预训练基础模型通过 Layer-Selective YaRN 将上下文窗口扩展至 128K,仅对关键层进行位置编码插值,避免全层微调带来的性能损失。

Mellum2的核心优势

  • MoE 高效架构:12B 总参数仅激活 2.5B,显著降低推理成本,实现高吞吐、低延迟
  • 垂直领域专精:放弃多模态,专注代码与自然语言,在软件工程场景下更精准、更轻量
  • 生产级性能:在 LiveCodeBench v6 代码评测中 Thinking 模式得分 69.9,领先同级别开源模型
  • 完全开源可商用:Apache 2.0 协议,可自由实验、微调及大规模商用部署
  • 企业隐私友好:支持完全本地化运行,满足代码安全与数据合规要求

Mellum2的同类竞品对比

对比维度 Mellum2 Qwen3.5-9B SeedCoder-8B
模型架构 12B MoE(64 专家,8 激活,2.5B 活跃参数) 9B 密集模型(Dense) 8B 密集模型(Dense)
开源协议 Apache 2.0(完全可商用) 开源(可商用) 未明确/部分受限
模态支持 仅文本 + 代码(垂直专精) 文本、代码、图像、视频(多模态通用) 仅代码(单领域)
每 Token 计算量 ≈2.5B 参数(极低) 9B 参数(全量激活) 8B 参数(全量激活)
LiveCodeBench v6 69.9(Thinking) 68.3(Thinking) 28.1(Non-thinking)
BFCL V4 工具调用 45.6(Thinking) 42.7(Thinking) N/A(不支持)
AIME 数学推理 58.4(Thinking) 73.4(Thinking) 0(不支持)
上下文长度 128K(YaRN 扩展) 128K+ 通常 4K-8K
推理模式 双模式:Thinking + Non-thinking 双模式:Thinking + Non-thinking 仅 Non-thinking

Mellum2的应用场景

  • 智能代码补全与生成:在 IDE 中提供实时代码补全、函数生成、代码重构与编辑建议,替代传统自动补全工具。
  • 调试与错误诊断:辅助开发者定位 Bug、分析堆栈信息、生成修复方案,降低调试时间成本。
  • 多步推理与复杂任务分解:在 Agent 工作流中承担中间推理节点,将复杂需求拆解为可执行的子任务序列。
  • 工具调用与函数编排:通过 Function Calling 连接外部 API、数据库或开发工具,实现自动化构建、测试与部署流程。
  • 对话式编程助手:用自然语言交互方式解答技术问题、解释代码逻辑、推荐最佳实践,充当 24/7 技术顾问。
BrowserAct Skills – 开源的 AI Agent 浏览器自动化 CLI 工具
蚂蚁百灵Ring-2.6-1T:万亿参数MoE推理模型,专攻数学竞赛与代码生成,性能超越DeepSeek-R1
阿里通义Qwen3.7-Max旗舰大模型发布:全能智能体基座,编程推理全面领先,定义AI Agent新标杆
OpenHuman:开源AI桌面助手革命,主动感知工作上下文,集成118+应用构建你的私人知识网络
智谱GLM-5.1高速版发布:400 tokens/s刷新全球API速度极限,破解AI效率与智能不可兼得难题
分享
Email 复制链接 打印
Share
上一篇 MAI-Code-1-Flash – 微软推出的轻量级代码生成模型
下一篇 Bernini – 字节跳动开源的统一视频生成与编辑框架
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Dynamic Workflows – Claude Code 推出的动态工作流
AIGC 资讯
阿里云百炼 CLI – 阿里云开源的 AI Agent 命令行工具
AIGC 资讯
Qwen3.7-Plus – 阿里通义推出的智能体多模态大模型
AIGC 资讯
Bernini – 字节跳动开源的统一视频生成与编辑框架
AIGC 资讯

相关推荐

全息流体渐变通用占位特色图
AIGC 资讯

腾讯会议多项AI功能升级,元宝纪要月使用时长增长近5倍

站外新闻
AI 工具AIGC 资讯

阿里Qwen团队重磅开源WebWorld:百万级真实网页世界模型,三大版本赋能下一代智能体

站外新闻
A11y Tree Qwen WebWorld 世界模型 智能体
AI 工具AIGC 资讯

Cloudflare开源AI原生CMS EmDash:终结WordPress时代,用AI自动管理网站内容

站外新闻
AI原生CMS Cloudflare EmDash MCP协议 Serverless
量子芯片科技感占位特色图
AI 工具AIGC 资讯

15个月营收暴涨三倍!企业级AI搜索独角兽Glean凭’上下文图谱’破局巨头围剿

站外新闻
ARR Glean 上下文图谱 企业级AI搜索
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 支付宝 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.