Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 什么是“专家混合模型”(Mixture-of-Experts,MoE)? [译]
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > 强化 AI 学习 > 什么是“专家混合模型”(Mixture-of-Experts,MoE)? [译]
强化 AI 学习

什么是“专家混合模型”(Mixture-of-Experts,MoE)? [译]

宝玉的分享
最近更新: 2024年3月9日 下午7:15
SHARE

“专家混合模型”是一种创新的神经网络架构设计,它在 Transformer 架构中融合了众多的专家/模型层。在这种设计中,数据流动时,每一个输入的 Token 都会被动态分配给一些专家进行处理。这种做法使得计算更高效,因为每个专家都能在其擅长的特定任务上发挥出色。

阅读目录
  • 关键要素包括:
  • 为何选择 MoE?
  • 推荐阅读的论文:

关键要素包括:

  • 专家:MoE 层由众多专家组成,既可以是小型的多层感知机(MLP),也可以是像 Mistral 7B 这样复杂的大语言模型(LLM)。
  • 路由器:负责将输入的 Token 分配给合适的专家。路由策略有两种:由 Token 选择路由器,或由路由器选择 Token。具体是怎样实现的呢?系统通过一个 softmax 门控函数来建立一个概率分布,从而在众多专家或 Token 中选出最合适的几个。

为何选择 MoE?

  • 每个专家可以专注于处理不同的任务或数据的不同部分。
  • 为大语言模型增加了可学习的参数,同时不会增加推理成本。
  • 能够高效处理稀疏矩阵。
  • 所有专家层可并行计算,充分利用了 GPU 的并行处理能力。
  • 有助于在降低计算成本的同时,缩短模型训练时间并提升效果!

推荐阅读的论文:

  • 《稀疏门控的专家混合模型层》(2017):点击查看
  • 《GShard:利用条件计算和自动分片扩展巨型模型》(2020):点击查看
  • 《MegaBlocks:使用专家混合模型进行高效稀疏训练》(2022):点击查看
  • 《专家混合模型遇见指令调整》(2023):点击查看
Voyager:结合大语言模型的创新虚拟智能体 [译]
你唯一需要精通的事情 [译]
即使在理想情况下,信用卡诈骗也是会存在的 [译]
大语言模型提示工程综述:技巧与应用领域 [译]
整合人工智能的两大策略 [译]
分享
Email 复制链接 打印
Share
上一篇 12 种调整策略指南:为生产环境打造高效的 RAG 应用 [译]
下一篇 针对 Claude 2.1 的长篇幅提示技巧 [译]
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

MiniMax-M1开源发布:4560亿参数MoE架构,百万上下文推理模型性价比之王
AI 工具 AIGC 资讯
FlowDirector:无需训练,一文看懂西湖&中南大学如何用ODE革新AI视频编辑,精准指令直达
AI 工具 AIGC 资讯
字节跳动DreamActor-H1:DiT框架革新电商视频生成,3D动作引导+身份保留引领AIGC商业化
AI 工具
Kimi-Dev 72B 开源代码模型登顶SWE-bench!月之暗面发布,超越DeepSeek-R1,编程能力堪比闭源模型
AI 工具 AIGC 资讯

相关推荐

强化 AI 学习

大语言模型推理的价格战 – 靠规模取胜?[译]

宝玉的分享
一组提示语成功地让 ChatGPT 绕过了其原本的限制,创造了一幅布拉德·皮特做体操的图像,虽然 ChatGPT 最初表示它不能生成布拉德·皮特的图像,只能生成“相似体型”的人物。
强化 AI 学习

生成式 AI 面临的抄袭问题 —— Midjourney 和 DALL-E 3 的实验揭示了版权方面的难题 [译]

宝玉的分享
图 1. - 描述“软件质量”如何分解为四个组成部分的理论。箭头表示影响的方向,例如认为过程质量会影响代码质量。
强化 AI 学习

针对人类开发者的生产力提升,第 7 部分:软件质量 [译]

宝玉的分享
视觉资本家
强化 AI 学习

科技正在吞噬世界 [译]

宝玉的分享
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.