Prompt 语宙Prompt 语宙
  • 首页
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • Remaker AI
    • Free Image Splitter
    • AIGC 工具
    • Prompt 咒语生成器
  • 社区
    • 知识星球
    • 公众号
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 什么是“专家混合模型”(Mixture-of-Experts,MoE)? [译]
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • Remaker AI
    • Free Image Splitter
    • AIGC 工具
    • Prompt 咒语生成器
  • 社区
    • 知识星球
    • 公众号
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > 强化 AI 学习 > 什么是“专家混合模型”(Mixture-of-Experts,MoE)? [译]
强化 AI 学习

什么是“专家混合模型”(Mixture-of-Experts,MoE)? [译]

宝玉的分享
最近更新: 2024年3月9日 下午7:15
SHARE

“专家混合模型”是一种创新的神经网络架构设计,它在 Transformer 架构中融合了众多的专家/模型层。在这种设计中,数据流动时,每一个输入的 Token 都会被动态分配给一些专家进行处理。这种做法使得计算更高效,因为每个专家都能在其擅长的特定任务上发挥出色。

阅读目录
关键要素包括:为何选择 MoE?推荐阅读的论文:

关键要素包括:

  • 专家:MoE 层由众多专家组成,既可以是小型的多层感知机(MLP),也可以是像 Mistral 7B 这样复杂的大语言模型(LLM)。
  • 路由器:负责将输入的 Token 分配给合适的专家。路由策略有两种:由 Token 选择路由器,或由路由器选择 Token。具体是怎样实现的呢?系统通过一个 softmax 门控函数来建立一个概率分布,从而在众多专家或 Token 中选出最合适的几个。

为何选择 MoE?

  • 每个专家可以专注于处理不同的任务或数据的不同部分。
  • 为大语言模型增加了可学习的参数,同时不会增加推理成本。
  • 能够高效处理稀疏矩阵。
  • 所有专家层可并行计算,充分利用了 GPU 的并行处理能力。
  • 有助于在降低计算成本的同时,缩短模型训练时间并提升效果!

推荐阅读的论文:

  • 《稀疏门控的专家混合模型层》(2017):点击查看
  • 《GShard:利用条件计算和自动分片扩展巨型模型》(2020):点击查看
  • 《MegaBlocks:使用专家混合模型进行高效稀疏训练》(2022):点击查看
  • 《专家混合模型遇见指令调整》(2023):点击查看
利用 AI 技术,MIT 研究人员发现新一类抗生素候选物 [译]
如果有人在我第一次创业之前告诉我这些 [译]
提升软件工程效率的小技巧:留点悬念,让工作更流畅 [译]
揭秘 OpenAI 至 2027 年打造通用人工智能的蓝图 [译]
Loro 富文本 CRDT 的介绍 [译]
分享
Email 复制链接 打印
Share
上一篇 12 种调整策略指南:为生产环境打造高效的 RAG 应用 [译]
下一篇 针对 Claude 2.1 的长篇幅提示技巧 [译]
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

图 1: PAIR 框架示意图。在 PAIR 中,攻击者模型与目标语言模型展开对抗,攻击者模型尝试生成能破解目标模型的对抗性提示。生成的提示 P 被输入到目标模型中,以产生响应 R。攻击者模型运用先前的提示和响应,在聊天格式中迭代优化候选提示,并输出一个“改进”值,以促进解释性和逐步推理。
大语言模型的“破解”研究:仅需二十次尝试 [译]
强化 AI 学习
Deep Research 与知识价值:从信息搜索到价值重新定义
强化 AI 学习
什么是多模态大语言模型(MLLM)?[译]
强化 AI 学习
比尔·盖茨:特朗普、马斯克,以及我的神经多样性如何塑造了我 [译]
强化 AI 学习

相关推荐

Fanatics 创始人兼 CEO 迈克尔·鲁宾在纽约市中心办公室,2022 年 12 月 7 日。
强化 AI 学习

成功人士共有的秘诀,亿万富翁 CEO 揭秘:“这是我决策的法宝” [译]

宝玉的分享
图 1: 在 CS50.ai 的主页上,学生们可以与 CS50 小黄鸭进行交流,这是一个互动型的“小黄鸭调试工具”。
强化 AI 学习

利用 AI 教学哈佛 CS50 课程 —— 在计算机科学教育中的生成式人工智能应用 [译]

宝玉的分享
ong
强化 AI 学习

长故事概要:针对长视频问答的“概括后检索”方法 [译]

宝玉的分享
1次查看
强化 AI 学习

如何成功地与你的雇主建立良好关系 [译]

宝玉的分享
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

3D AI AIGC AI人像 AI创作小助手 AI工具 AI换脸 AI海报设计 AI生成视频 AI绘画 AI视频 AI设计 app图标 chatgpt DALL-E3 excel GPT meta Midjourney openai Pika prompt runway SDXL stable diffusion UI设计 专业 丛林 乐高 人像 人物 光晕 动物 吉卜力 咒语 图标设计 圣诞 壁纸 女性 奶牛 实验室 宠物 客厅 室内设计 家居 局部重绘 展台 山景 帅哥 建筑 建筑设计 影谱科技 微摄影 怪物 提示词 摄影 教程 新闻 日本排放核污水 早报 星光 枯木 植物 模特 水果 泳池 海报 海报设计 清华大学 温馨的家 游戏 游戏美术 炫光 炫彩 玻璃 白茶花 矢量插画 研究报告 破碎 科幻 穿搭 窗 美食 背景 节日 芭比 花 花卉 茶园一角 草原 荷兰奶源 表情包 赛博朋克 超现实主义 软件 运动 金毛 风景 食物 香水
Prompt 语宙Prompt 语宙
Follow US
© 2009-2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Welcome Back!

Sign in to your account

Username or Email Address
Password

忘记密码