Prompt 语宙Prompt 语宙
  • 首页
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • Remaker AI
    • Free Image Splitter
    • AIGC 工具
    • Prompt 咒语生成器
  • 社区
    • 知识星球
    • 公众号
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 什么是“专家混合模型”(Mixture-of-Experts,MoE)? [译]
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • Remaker AI
    • Free Image Splitter
    • AIGC 工具
    • Prompt 咒语生成器
  • 社区
    • 知识星球
    • 公众号
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > 强化 AI 学习 > 什么是“专家混合模型”(Mixture-of-Experts,MoE)? [译]
强化 AI 学习

什么是“专家混合模型”(Mixture-of-Experts,MoE)? [译]

宝玉的分享
最近更新: 2024年3月9日 下午7:15
SHARE

“专家混合模型”是一种创新的神经网络架构设计,它在 Transformer 架构中融合了众多的专家/模型层。在这种设计中,数据流动时,每一个输入的 Token 都会被动态分配给一些专家进行处理。这种做法使得计算更高效,因为每个专家都能在其擅长的特定任务上发挥出色。

阅读目录
关键要素包括:为何选择 MoE?推荐阅读的论文:

关键要素包括:

  • 专家:MoE 层由众多专家组成,既可以是小型的多层感知机(MLP),也可以是像 Mistral 7B 这样复杂的大语言模型(LLM)。
  • 路由器:负责将输入的 Token 分配给合适的专家。路由策略有两种:由 Token 选择路由器,或由路由器选择 Token。具体是怎样实现的呢?系统通过一个 softmax 门控函数来建立一个概率分布,从而在众多专家或 Token 中选出最合适的几个。

为何选择 MoE?

  • 每个专家可以专注于处理不同的任务或数据的不同部分。
  • 为大语言模型增加了可学习的参数,同时不会增加推理成本。
  • 能够高效处理稀疏矩阵。
  • 所有专家层可并行计算,充分利用了 GPU 的并行处理能力。
  • 有助于在降低计算成本的同时,缩短模型训练时间并提升效果!

推荐阅读的论文:

  • 《稀疏门控的专家混合模型层》(2017):点击查看
  • 《GShard:利用条件计算和自动分片扩展巨型模型》(2020):点击查看
  • 《MegaBlocks:使用专家混合模型进行高效稀疏训练》(2022):点击查看
  • 《专家混合模型遇见指令调整》(2023):点击查看
作为软件工程师,你可能不知道的 4 件事 [译]
No Priors 第 61 集 | 采访 OpenAI 的 Sora 团队负责人 Aditya Ramesh、Tim Brooks 和 Bill Peebles [译]
FunSearch:利用大语言模型在数学科学领域探索新奇发现 [译]
如何避免 12 大软件架构常见误区 [译]
什么是提示词注入攻击? [译]
分享
Email 复制链接 打印
Share
上一篇 12 种调整策略指南:为生产环境打造高效的 RAG 应用 [译]
下一篇 针对 Claude 2.1 的长篇幅提示技巧 [译]
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Deep Research 与知识价值:从信息搜索到价值重新定义
强化 AI 学习
什么是多模态大语言模型(MLLM)?[译]
强化 AI 学习
比尔·盖茨:特朗普、马斯克,以及我的神经多样性如何塑造了我 [译]
强化 AI 学习
阿兰·图灵的神秘“Delilah”项目:被遗失的故事 [译]
强化 AI 学习

相关推荐

截至 2023 年 12 月 20 日的 bc 的 Theseus 堆栈图
强化 AI 学习

代码并非技术债 [译]

宝玉的分享
强化 AI 学习

如何在 Mac 上免费使用 cli 或 python 进行 OCR?[译]

宝玉的分享
这是 1996 年的一份典型历史论文阅读清单。我在清单顶部的注释是关于图书馆参考信息的,而底部那些即使现在我也难以辨认的笔记,可能是我在导师讲解我应该如何撰写论文时所做的记录。
强化 AI 学习

利用私人大语言模型撰写本科历史论文的心得体会 [译]

宝玉的分享
强化 AI 学习

美国芯片制造的重大失误 [译]

宝玉的分享
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

3D AI AIGC AI人像 AI创作小助手 AI工具 AI换脸 AI海报设计 AI生成视频 AI绘画 AI视频 AI设计 app图标 chatgpt DALL-E3 excel GPT meta Midjourney openai Pika prompt runway SDXL stable diffusion UI设计 专业 丛林 乐高 人像 人物 光晕 动物 吉卜力 咒语 图标设计 圣诞 壁纸 女性 奶牛 实验室 宠物 客厅 室内设计 家居 局部重绘 展台 山景 帅哥 建筑 建筑设计 影谱科技 微摄影 怪物 提示词 摄影 教程 新闻 日本排放核污水 早报 星光 枯木 植物 模特 水果 泳池 海报 海报设计 清华大学 温馨的家 游戏 游戏美术 炫光 炫彩 玻璃 白茶花 矢量插画 研究报告 破碎 科幻 穿搭 窗 美食 背景 节日 芭比 花 花卉 茶园一角 草原 荷兰奶源 表情包 赛博朋克 超现实主义 软件 运动 金毛 风景 食物 香水
Prompt 语宙Prompt 语宙
Follow US
© 2009-2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Welcome Back!

Sign in to your account

Username or Email Address
Password

忘记密码