Prompt 语宙Prompt 语宙
  • 首页
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • Remaker AI
    • Free Image Splitter
    • AIGC 工具
    • Prompt 咒语生成器
  • 社区
    • 知识星球
    • 公众号
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 什么是“专家混合模型”(Mixture-of-Experts,MoE)? [译]
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • Remaker AI
    • Free Image Splitter
    • AIGC 工具
    • Prompt 咒语生成器
  • 社区
    • 知识星球
    • 公众号
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > 强化 AI 学习 > 什么是“专家混合模型”(Mixture-of-Experts,MoE)? [译]
强化 AI 学习

什么是“专家混合模型”(Mixture-of-Experts,MoE)? [译]

宝玉的分享
最近更新: 2024年3月9日 下午7:15
SHARE

“专家混合模型”是一种创新的神经网络架构设计,它在 Transformer 架构中融合了众多的专家/模型层。在这种设计中,数据流动时,每一个输入的 Token 都会被动态分配给一些专家进行处理。这种做法使得计算更高效,因为每个专家都能在其擅长的特定任务上发挥出色。

阅读目录
关键要素包括:为何选择 MoE?推荐阅读的论文:

关键要素包括:

  • 专家:MoE 层由众多专家组成,既可以是小型的多层感知机(MLP),也可以是像 Mistral 7B 这样复杂的大语言模型(LLM)。
  • 路由器:负责将输入的 Token 分配给合适的专家。路由策略有两种:由 Token 选择路由器,或由路由器选择 Token。具体是怎样实现的呢?系统通过一个 softmax 门控函数来建立一个概率分布,从而在众多专家或 Token 中选出最合适的几个。

为何选择 MoE?

  • 每个专家可以专注于处理不同的任务或数据的不同部分。
  • 为大语言模型增加了可学习的参数,同时不会增加推理成本。
  • 能够高效处理稀疏矩阵。
  • 所有专家层可并行计算,充分利用了 GPU 的并行处理能力。
  • 有助于在降低计算成本的同时,缩短模型训练时间并提升效果!

推荐阅读的论文:

  • 《稀疏门控的专家混合模型层》(2017):点击查看
  • 《GShard:利用条件计算和自动分片扩展巨型模型》(2020):点击查看
  • 《MegaBlocks:使用专家混合模型进行高效稀疏训练》(2022):点击查看
  • 《专家混合模型遇见指令调整》(2023):点击查看
脉动观察:美国的公司会因为税法第 174 条款而减少招聘工程师吗? [译]
第 1 章:AI 研发 —— 2024 年人工智能指数报告 [译]
实际使用 SORA [译]
数字游民三年记:我如何成为一名全职“漂流者” [译]
给年轻人的忠告,我对自己的自欺 [译]
分享
Email 复制链接 打印
Share
上一篇 12 种调整策略指南:为生产环境打造高效的 RAG 应用 [译]
下一篇 针对 Claude 2.1 的长篇幅提示技巧 [译]
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

DeepSeek 开源周第 6 天彩蛋 – DeepSeek-V3/R1 推理系统概览
强化 AI 学习
OpenAI GPT-4.5 系统卡
强化 AI 学习
如何像人类一样进行代码评审(第二部分)
强化 AI 学习
模型即产品(The Model is the Product)
强化 AI 学习

相关推荐

图 2.1.1 来源:Anthropic, 2023
强化 AI 学习

Chapter 2: Technical Performance | 2024 AI Index Report

宝玉的分享
强化 AI 学习

27 年前,史蒂夫·乔布斯曾经说过:最优秀的员工专注于内容而非流程。研究证实了他的观点 [译]

宝玉的分享
强化 AI 学习

什么是提示词注入攻击? [译]

宝玉的分享
强化 AI 学习

多样本越狱 [译]

宝玉的分享
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

3D AI AIGC AI人像 AI创作小助手 AI工具 AI换脸 AI海报设计 AI生成视频 AI绘画 AI视频 AI设计 app图标 chatgpt DALL-E3 excel GPT meta Midjourney openai Pika prompt runway SDXL stable diffusion UI设计 专业 丛林 乐高 人像 人物 光晕 动物 吉卜力 咒语 图标设计 圣诞 壁纸 女性 奶牛 实验室 宠物 客厅 室内设计 家居 局部重绘 展台 山景 帅哥 建筑 建筑设计 影谱科技 微摄影 怪物 提示词 摄影 教程 新闻 日本排放核污水 早报 星光 枯木 植物 模特 水果 泳池 海报 海报设计 清华大学 温馨的家 游戏 游戏美术 炫光 炫彩 玻璃 白茶花 矢量插画 研究报告 破碎 科幻 穿搭 窗 美食 背景 节日 芭比 花 花卉 茶园一角 草原 荷兰奶源 表情包 赛博朋克 超现实主义 软件 运动 金毛 风景 食物 香水
Prompt 语宙Prompt 语宙
Follow US
© 2009-2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Welcome Back!

Sign in to your account

Username or Email Address
Password

忘记密码