Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Moonlight-16B-A3B – 月之暗面开源的 MoE 模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Moonlight-16B-A3B – 月之暗面开源的 MoE 模型
AIGC 资讯

Moonlight-16B-A3B – 月之暗面开源的 MoE 模型

站外新闻
最近更新: 2026年6月8日 下午12:01
SHARE

Moonlight-16B-A3B是什么

Moonlight-16B-A3B 是 Moonshot AI 推出的新型 Mixture-of-Expert (MoE) 模型,具有 160 亿总参数和 30 亿激活参数。模型使用了优化后的 Muon 优化器进行训练,计算效率是传统 AdamW 的两倍。在性能方面,Moonlight 在多个基准测试中表现优异,在英语语言理解(MMLU)和代码生成(HumanEval)等任务中均超越了其他同类模型。模型的训练数据量达到 5.7 万亿 token,展现了更高的样本效率。

阅读目录
  • Moonlight-16B-A3B是什么
  • Moonlight-16B-A3B的主要功能
  • Moonlight-16B-A3B的技术原理
  • Moonlight-16B-A3B的项目地址
  • Moonlight-16B-A3B的性能效果
  • Moonlight-16B-A3B的应用场景

Moonlight-16B-A3B

Moonlight-16B-A3B的主要功能

  • 高效的语言理解和生成:该模型通过优化后的 Muon 优化器进行训练,能在多种语言任务中表现出色,例如语言理解、文本生成和代码生成。
  • 大规模数据训练:Moonlight-16B-A3B 使用了 5.7 万亿 token 的数据进行训练,支持高效率的分布式训练。
  • 高效优化器与训练效率:模型使用了改进后的 Muon 优化器,相比传统的 AdamW 优化器,计算效率提升约 2 倍。通过优化权重衰减和参数更新比例,Muon 优化器在大规模训练中表现出更高的稳定性和效率。
  • 低计算成本:模型仅需约 52% 的训练 FLOPs 即可达到与 AdamW 训练相当的性能。
  • 低激活参数设计:总参数量为 16B,激活参数仅为 3B,在保持高性能的同时显著降低了计算资源需求。

Moonlight-16B-A3B的技术原理

  • Muon 优化器的改进:Moonlight-16B-A3B 使用了经过优化的 Muon 优化器。Muon 优化器通过矩阵正交化技术(如 Newton-Schulz 迭代)对模型参数进行优化,显著提升了训练效率。与传统的 AdamW 优化器相比,Muon 的样本效率提升了约 2 倍,在大规模训练中表现出更高的稳定性和效率。
  • 权重衰减与更新调整:为了提高 Muon 在大规模模型训练中的表现,开发团队引入权重衰减机制,对每个参数的更新规模进行了调整。使 Muon 能在无需超参数调整的情况下直接应用于大规模模型训练。
  • 分布式实现:Moonlight-16B-A3B 的训练采用了基于 ZeRO-1 的分布式优化技术。减少了内存开销,降低了通信成本,使模型能在大规模分布式环境中高效训练。
  • 模型架构与训练数据:Moonlight-16B-A3B 是一个 16B 参数的 MoE 模型,激活参数为 3B,使用了 5.7 万亿个标记进行训练。在保持高性能的同时,显著降低了计算资源需求。
  • 性能优化:通过优化的 Muon 优化器和高效的分布式训练,Moonlight-16B-A3B 在多个基准测试中表现出色,超越了其他同规模模型。

Moonlight-16B-A3B的项目地址

  • Github仓库:https://github.com/MoonshotAI/Moonlight
  • HuggingFace模型库:https://huggingface.co/moonshotai/Moonlight-16B-A3B
  • 技术论文:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf

Moonlight-16B-A3B的性能效果

  • 语言理解任务
    • MMLU(Multilingual Language Understanding):Moonlight-16B-A3B 的性能达到了 70.0%,显著优于 LLAMA3-3B(54.75%)和 Qwen2.5-3B(65.6%)。
    • BBH(BoolQ Benchmark):Moonlight 在任务中达到了 65.2%,优于其他同类模型。
    • TriviaQA:Moonlight 的表现为 66.3%,接近或超越了其他模型。
  • 代码生成任务
    • HumanEval:Moonlight 在代码生成任务中达到了 48.1% 的性能,优于 LLAMA3-3B(28.0%)和 Qwen2.5-3B(42.1%)。
    • MBPP(Mini-Benchmark for Program Synthesis):Moonlight 的性能为 63.8%,显著优于其他模型。
  • 数学推理任务
    • GSM8K:Moonlight 在该任务中的表现为 77.4%,接近 Qwen2.5-3B 的最佳表现(79.1%)。
    • MATH:Moonlight 的性能为 45.3%,优于其他同类模型。
    • CMath:Moonlight 达到了 81.1% 的性能,优于 Qwen2.5-3B(80.0%)。
  • 中文任务
    • C-Eval:Moonlight 的性能为 77.2%,优于 Qwen2.5-3B(75.0%)。
    • CMMLU:Moonlight 的表现为 78.2%,优于其他同类模型。
  • 计算效率
    • 训练效率:Moonlight 使用的 Muon 优化器在计算效率上是 AdamW 的 2 倍,仅需约 52% 的训练 FLOPs 即可达到与 AdamW 相当的性能。
    • 内存和通信效率:通过改进的分布式实现,Moonlight 在大规模训练中表现出更高的内存和通信效率。
Benchmark (Metric) Llama3.2-3B Qwen2.5-3B DSV2-Lite Moonlight
Activated Param† 2.81B 2.77B 2.24B 2.24B
Total Params† 2.81B 2.77B 15.29B 15.29B
Training Tokens 9T 18T 5.7T 5.7T
Optimizer AdamW * AdamW Muon
English MMLU 54.75 65.6 58.3 70.0
MMLU-pro 25.0 34.6 25.5 42.4
BBH 46.8 56.3 44.1 65.2
TriviaQA‡ 59.6 51.1 65.1 66.3
Code HumanEval 28.0 42.1 29.9 48.1
MBPP 48.7 57.1 43.2 63.8
Math GSM8K 34.0 79.1 41.1 77.4
MATH 8.5 42.6 17.1 45.3
CMath – 80.0 58.4 81.1
Chinese C-Eval – 75.0 60.3 77.2
CMMLU – 75.0 64.3 78.2

Moonlight-16B-A3B的应用场景

  • 教育和研究:在学术研究中,Moonlight 可以帮助研究人员快速理解和分析大量文献。
  • 软件开发:开发者可以用 Moonlight 自动生成代码片段,提高开发效率。
  • 研究和工程:研究人员和工程师可以用 Moonlight 解决实际问题中的数学难题。
  • 中文内容创作:在内容创作领域,Moonlight 可以帮助创作者生成高质量的中文内容。
  • 大规模模型训练:在需要大规模模型训练的场景中,Moonlight 可以显著降低计算资源需求,提高训练效率。
小红书×复旦重磅开源:InstanceAssemble框架实现像素级布局控制,3%参数精准生成复杂场景
n8n – 开源工作流自动化平台,支持400多个应用程序、拖放创建复杂工作流
Step 3.7 Flash – 阶跃星辰开源的新一代 Flash 模型
GPT-5.4发布:OpenAI旗舰AI模型首次超越人类水平,如何重新定义专业工作与自动化?
阿里联合高校开源Live Avatar:140亿参数实时数字人模型,20FPS流式生成无限时长视频
分享
Email 复制链接 打印
Share
上一篇 DeepSeek百宝箱 – DeepSeek API在多种软件中的集成应用
下一篇 HumanRig – 阿里高德推出的3D人形角色自动绑定任务数据集
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Self Forcing: Adobe与德克萨斯大学联合推出实时视频生成模型,单GPU实现17FPS,告别传统AI视频生成延迟
AI 工具 AIGC 资讯
腾讯AI Lab重磅开源SongGeneration:AI音乐生成大模型,多轨合成、风格克隆,媲美商业模型
AI 工具 AIGC 资讯
快手OneRec:颠覆传统推荐!端到端生成式AI系统引爆观看时长与GMV
AI 工具 AIGC 资讯
Kimi-Researcher:月之暗面端到端强化学习Agent,深度研究基准测试超Claude 4 Opus
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

Claude Opus 4.5:Anthropic重磅发布,编程能力超越人类的AI模型全面解析

站外新闻
AI工具 AI编程模型 Anthropic Claude Opus 4.5
AIGC 资讯

SmolDocling – 轻量级的多模态文档处理模型

站外新闻
AIGC 资讯

腾讯混元T1 – 腾讯混元推出的最新深度思考模型

站外新闻
AI 工具AIGC 资讯

京东开源JoyAgent-JDGenie:GAIA榜单准确率75.15%的轻量化通用多智能体系统,开箱即用

站外新闻
AI Agent GAIA榜单 京东开源 企业级AI应用 多智能体系统
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.