Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Mixtral 8x7B — 混合专家模型(Mixtral of Experts) [译]
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
多语言性能测试
Prompt 语宙 > 强化 AI 学习 > Mixtral 8x7B — 混合专家模型(Mixtral of Experts) [译]
强化 AI 学习

Mixtral 8x7B — 混合专家模型(Mixtral of Experts) [译]

宝玉的分享
最近更新: 2026年5月23日 下午6:28
SHARE

一款高品质的稀疏专家混合模型

阅读目录
  • 开源模型的新篇章:采用稀疏架构
  • 性能对比
  • 指导模型
  • 利用开源部署栈推广 Mixtral
  • 在我们平台上体验 Mixtral
  • 致谢

Mistral AI 团队,2023 年 12 月 11 日

Mistral AI 团队致力于为开发者社区提供顶尖的开源模型。在 AI 领域,要实现突破,不仅要超越现有的架构和训练方法,更重要的是让社区能够利用创新模型,激发新的发明和应用。

今日,团队隆重推出 Mixtral 8x7B——一款高品质的稀疏专家混合模型(SMoE),这款模型拥有开放的权重,且在 Apache 2.0 协议下授权。在众多基准测试中,Mixtral 的表现超越了 Llama 2 70B,推理速度快 6 倍。它是目前最强大的具有宽松许可证的开放权重模型,在成本与性能的平衡上表现最佳,尤其在大多数标准基准测试中,其表现可与 GPT3.5 相媲美。

Mixtral 的主要能力包括:

  • 能够流畅处理 32k 个 Token 的上下文。
  • 支持多种语言,包括英语、法语、意大利语、德语和西班牙语。
  • 在代码生成领域表现出色。
  • 可以调整为遵循指令的模型,在 MT-Bench 上获得了 8.3 分的高分。

开源模型的新篇章:采用稀疏架构

Mixtral 是一个采用稀疏专家混合网络的模型,它是一个仅包含解码器的模型。在这个模型中,前馈块从 8 组不同的参数组中进行选择。对于每一层的每个 Token,一个路由网络会挑选两组“专家”处理 Token,并将它们的输出结果进行加法组合。

这种技术让模型在增加参数数量的同时,有效控制了成本和延迟,因为模型每处理一个 Token 只会使用部分参数。具体来说,Mixtral 总共有 467 亿参数,但每个 Token 只用到了其中的 129 亿。因此,它在处理输入和生成输出时,无论是速度还是成本,都相当于一个 129 亿参数的模型。

Mixtral 的预训练是在开放网络提取的数据基础上完成的,其中专家和路由器的训练是同时进行的。

性能对比

我们把 Mixtral 与 Llama 2 系列和 GPT3.5 的基础模型进行了比较。在大部分的性能测试中,Mixtral 不仅达到了 Llama 2 70B 的水平,甚至在很多方面超越了它和 GPT3.5。

性能总览
性能总览

接下来的图表展示了模型在质量和计算成本之间的平衡。不论是 Mistral 7B 还是 Mixtral 8x7B,都是相比 Llama 2 系列更加高效的模型家族成员。

性能提升示意图
性能提升示意图

下面这个表格详细列出了上图的测试结果。

详细性能对比
详细性能对比

关于幻觉和偏见。 为了发现并通过微调或偏好建模修正潜在问题,我们对基础模型在 TruthfulQA、BBQ 和 BOLD 上的表现进行了评估。

BBQ 和 BOLD 性能测试
BBQ 和 BOLD 性能测试

相较于 Llama 2,Mixtral 在 TruthfulQA 测试中更加真实(73.9% 对比 50.2%),并且在 BBQ 测试中显示出更少的偏见。总的来说,与 Llama 2 相比,Mixtral 在 BOLD 测试中展现了更多的正面情绪,且各方面的波动程度相似。

语言能力。 Mixtral 8x7B 精通包括法语、德语、西班牙语、意大利语和英语在内的多种语言。

多语言性能测试
多语言性能测试

指导模型

我们推出了专门优化的 Mixtral 8x7B Instruct 模型,它通过监督式微调和直接偏好优化(DPO)被训练以更准确地遵循指令。在 MT-Bench 测试中,该模型得分高达 8.30,成为目前最优秀的开源模型之一,其性能可与 GPT3.5 媲美。

需要注意的是,Mixtral 可以通过特定提示来排除一些输出,这在需要严格内容控制的应用构建中非常有用,具体示例可见这里。恰当的偏好调整同样可以达到这一目的。但请记住,如果没有这样的提示,模型将按照给定的指令行事。

利用开源部署栈推广 Mixtral

为了使社区能够通过全开源的技术栈运行 Mixtral,我们向 vLLM 项目提交了改进,该项目融合了 Megablocks CUDA 核心技术,以便高效进行推理计算。

通过 Skypilot,用户可以在云端的任何实例上部署 vLLM API 端点。

在我们平台上体验 Mixtral

目前,我们的 mistral-small API 端点正在使用 Mixtral 8x7B 版本,现已在 beta 测试版中提供。您可以注册以抢先体验所有的生成式 AI 和 Embedding 功能。

  • 下载 Mixtral-8x7B-v0.1 Base model: https://huggingface.co/mistralai/Mixtral-8x7B-v0.1

  • 下载 Mixtral-8x7B-v0.1 Instruct model: https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1

致谢

我们要感谢 CoreWeave 和 Scaleway 团队在我们模型训练过程中给予的技术支持。

数学队——及其他你为了进入斯坦福而做出的疯狂之举 [译]
27 年前,史蒂夫·乔布斯曾经说过:最优秀的员工专注于内容而非流程。研究证实了他的观点 [译]
为何你不应该成为经理的 17 个理由 [译]
ChatGPT 中的 GPT Builder 是用来做什么的,我们为什么要开发它?以及它的 Prompt 是什么?[译]
利用 ChatGPT 在技术面试中作弊到底有多容易?我们做了个实验来探究 [译]
分享
Email 复制链接 打印
Share
上一篇 为块稀疏运算优化的矩阵乘法示例。 深入解析“混合专家模型(Mixtral of Experts)” [译]
下一篇 功能标记(Feature Flags)管理指南 [译]
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

12岁孩童用眉笔画胡子破解AI年龄验证:轻量级模型的技术漏洞引发行业警示
AIGC 资讯 最新趋势
MiniMax M3大模型重磅发布:首创MSA架构,1M上下文全面开源,性能对标GPT-5.5
AI 工具 AIGC 资讯
流光脑波AI大脑占位特色图
谷歌 DeepMind CEO:AGI 将至,关键三年窗口期人类准备好了吗?
AIGC 资讯 最新趋势
机器人告别逐帧学动作!全球首个事件级具身智能世界模型WALL-WM重磅发布
AIGC 资讯 最新趋势

相关推荐

强化 AI 学习

给新手软件开发者的建议——从那些“老司机”的建议中挑选 [译]

宝玉的分享
强化 AI 学习

Sam Altman 在斯坦福创业者思维领导研讨会上的对话 [译]

宝玉的分享
AI 注入搜寻航班
强化 AI 学习

ChatGPT 插件:利用图像和跨插件请求伪造技术进行数据泄露 [译]

宝玉的分享
扩展数据图 3 | 进行的额外比较研究,主要是与贝叶斯优化法的对比。a 部分,将 GPT-4 模型与从不同初始样本量开始进行的贝叶斯优化方法进行了比较。b 部分,分别对比了各个化合物在优势差异上的比较结果。
强化 AI 学习

大语言模型在自主化学研究中的应用 [译]

宝玉的分享
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 支付宝 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.