Prompt 语宙Prompt 语宙
  • 首页
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • Remaker AI
    • Free Image Splitter
    • AIGC 工具
    • Prompt 咒语生成器
  • 社区
    • 知识星球
    • 公众号
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Mixtral 8x7B — 混合专家模型(Mixtral of Experts) [译]
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • Remaker AI
    • Free Image Splitter
    • AIGC 工具
    • Prompt 咒语生成器
  • 社区
    • 知识星球
    • 公众号
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
性能总览
Prompt 语宙 > 强化 AI 学习 > Mixtral 8x7B — 混合专家模型(Mixtral of Experts) [译]
强化 AI 学习

Mixtral 8x7B — 混合专家模型(Mixtral of Experts) [译]

宝玉的分享
最近更新: 2024年5月15日 下午6:18
SHARE

一款高品质的稀疏专家混合模型

阅读目录
开源模型的新篇章:采用稀疏架构性能对比指导模型利用开源部署栈推广 Mixtral在我们平台上体验 Mixtral致谢

Mistral AI 团队,2023 年 12 月 11 日

Mistral AI 团队致力于为开发者社区提供顶尖的开源模型。在 AI 领域,要实现突破,不仅要超越现有的架构和训练方法,更重要的是让社区能够利用创新模型,激发新的发明和应用。

今日,团队隆重推出 Mixtral 8x7B——一款高品质的稀疏专家混合模型(SMoE),这款模型拥有开放的权重,且在 Apache 2.0 协议下授权。在众多基准测试中,Mixtral 的表现超越了 Llama 2 70B,推理速度快 6 倍。它是目前最强大的具有宽松许可证的开放权重模型,在成本与性能的平衡上表现最佳,尤其在大多数标准基准测试中,其表现可与 GPT3.5 相媲美。

Mixtral 的主要能力包括:

  • 能够流畅处理 32k 个 Token 的上下文。
  • 支持多种语言,包括英语、法语、意大利语、德语和西班牙语。
  • 在代码生成领域表现出色。
  • 可以调整为遵循指令的模型,在 MT-Bench 上获得了 8.3 分的高分。

开源模型的新篇章:采用稀疏架构

Mixtral 是一个采用稀疏专家混合网络的模型,它是一个仅包含解码器的模型。在这个模型中,前馈块从 8 组不同的参数组中进行选择。对于每一层的每个 Token,一个路由网络会挑选两组“专家”处理 Token,并将它们的输出结果进行加法组合。

这种技术让模型在增加参数数量的同时,有效控制了成本和延迟,因为模型每处理一个 Token 只会使用部分参数。具体来说,Mixtral 总共有 467 亿参数,但每个 Token 只用到了其中的 129 亿。因此,它在处理输入和生成输出时,无论是速度还是成本,都相当于一个 129 亿参数的模型。

Mixtral 的预训练是在开放网络提取的数据基础上完成的,其中专家和路由器的训练是同时进行的。

性能对比

我们把 Mixtral 与 Llama 2 系列和 GPT3.5 的基础模型进行了比较。在大部分的性能测试中,Mixtral 不仅达到了 Llama 2 70B 的水平,甚至在很多方面超越了它和 GPT3.5。

性能总览
性能总览

接下来的图表展示了模型在质量和计算成本之间的平衡。不论是 Mistral 7B 还是 Mixtral 8x7B,都是相比 Llama 2 系列更加高效的模型家族成员。

性能提升示意图
性能提升示意图

下面这个表格详细列出了上图的测试结果。

详细性能对比
详细性能对比

关于幻觉和偏见。 为了发现并通过微调或偏好建模修正潜在问题,我们对基础模型在 TruthfulQA、BBQ 和 BOLD 上的表现进行了评估。

BBQ 和 BOLD 性能测试
BBQ 和 BOLD 性能测试

相较于 Llama 2,Mixtral 在 TruthfulQA 测试中更加真实(73.9% 对比 50.2%),并且在 BBQ 测试中显示出更少的偏见。总的来说,与 Llama 2 相比,Mixtral 在 BOLD 测试中展现了更多的正面情绪,且各方面的波动程度相似。

语言能力。 Mixtral 8x7B 精通包括法语、德语、西班牙语、意大利语和英语在内的多种语言。

多语言性能测试
多语言性能测试

指导模型

我们推出了专门优化的 Mixtral 8x7B Instruct 模型,它通过监督式微调和直接偏好优化(DPO)被训练以更准确地遵循指令。在 MT-Bench 测试中,该模型得分高达 8.30,成为目前最优秀的开源模型之一,其性能可与 GPT3.5 媲美。

需要注意的是,Mixtral 可以通过特定提示来排除一些输出,这在需要严格内容控制的应用构建中非常有用,具体示例可见这里。恰当的偏好调整同样可以达到这一目的。但请记住,如果没有这样的提示,模型将按照给定的指令行事。

利用开源部署栈推广 Mixtral

为了使社区能够通过全开源的技术栈运行 Mixtral,我们向 vLLM 项目提交了改进,该项目融合了 Megablocks CUDA 核心技术,以便高效进行推理计算。

通过 Skypilot,用户可以在云端的任何实例上部署 vLLM API 端点。

在我们平台上体验 Mixtral

目前,我们的 mistral-small API 端点正在使用 Mixtral 8x7B 版本,现已在 beta 测试版中提供。您可以注册以抢先体验所有的生成式 AI 和 Embedding 功能。

  • 下载 Mixtral-8x7B-v0.1 Base model: https://huggingface.co/mistralai/Mixtral-8x7B-v0.1

  • 下载 Mixtral-8x7B-v0.1 Instruct model: https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1

致谢

我们要感谢 CoreWeave 和 Scaleway 团队在我们模型训练过程中给予的技术支持。

语言模型中的语言代理树搜索:实现推理、行动与规划的统一 [译]
苦涩的教训 [译]
AI 像水一般普遍 [译]
可解释语言模型:探索传统与创新方法 [译]
大语言模型在帮助医生获取信息方面效果如何?[译]
分享
Email 复制链接 打印
Share
上一篇 Switch Layer 深入解析“混合专家模型(Mixtral of Experts)” [译]
下一篇 功能标记(Feature Flags)管理指南 [译]
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Cursor: 以每秒 1000 个 Token 的速度编辑文件
强化 AI 学习
Anthropic 经济指数
强化 AI 学习
真正的AI智能体即将到来:告别死板提示词,迎接自主规划时代!
强化 AI 学习
致敬“普通”的工程师——一位软件工程师对“10倍工程师”神话的质疑与反思
强化 AI 学习

相关推荐

强化 AI 学习

4 个 GPT-4 Vision 的开源替代方案 [译]

宝玉的分享
解释推理过程中的神经网络结构 - 裁剪版
强化 AI 学习

大语言模型与大脑的相似之处与不同之处 [译]

宝玉的分享
强化 AI 学习

Netflix 的技术架构解析 [译]

宝玉的分享
图 2.1.1 来源:Anthropic, 2023
强化 AI 学习

Chapter 2: Technical Performance | 2024 AI Index Report

宝玉的分享
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

3D AI AIGC AI人像 AI创作小助手 AI工具 AI换脸 AI海报设计 AI生成视频 AI绘画 AI视频 AI设计 app图标 chatgpt DALL-E3 excel GPT meta Midjourney openai Pika prompt runway SDXL stable diffusion UI设计 专业 丛林 乐高 人像 人物 光晕 动物 吉卜力 咒语 图标设计 圣诞 壁纸 女性 奶牛 实验室 宠物 客厅 室内设计 家居 局部重绘 展台 山景 帅哥 建筑 建筑设计 影谱科技 微摄影 怪物 提示词 摄影 教程 新闻 日本排放核污水 早报 星光 枯木 植物 模特 水果 泳池 海报 海报设计 清华大学 温馨的家 游戏 游戏美术 炫光 炫彩 玻璃 白茶花 矢量插画 研究报告 破碎 科幻 穿搭 窗 美食 背景 节日 芭比 花 花卉 茶园一角 草原 荷兰奶源 表情包 赛博朋克 超现实主义 软件 运动 金毛 风景 食物 香水
Prompt 语宙Prompt 语宙
Follow US
© 2009-2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Welcome Back!

Sign in to your account

Username or Email Address
Password

忘记密码