Llama 4 – Meta 开源的多模态系列AI模型，重夺开源王座

Llama 4是什么

Llama 4 是 Meta 开源的多模态系列AI模型。首次采用混合专家（MoE）架构，在训练和推理时计算效率更高。Llama 4 目前有 Scout 和 Maverick 两个版本。Scout 有 170 亿个活跃参数、16 个 “专家” 模型、1090 亿个总参数，支持 1000 万上下文，可处理 20 多小时视频，在单个 H100 GPU 上就能运行，性能超越 Gemma 3 等模型。Maverick 有 170 亿个活跃参数，128 个 “专家” 模型，4000 亿总参数，在图像精准理解和创意写作方面表现突出，适合通用助手、聊天类应用，在大模型 LMSYS 排行榜上位居第二。Llama 4 Behemoth 为预览版本，还在训练中，拥有2 万亿参数在 STEM 基准测试中表现优异。Llama 4 通过在 200 种语言上预训练支持开源微调，训练数据超 30 万亿个 token。

阅读目录

Llama 4是什么
Llama 4的主要功能
Llama 4的技术原理
Llama 4的项目地址
Llama 4的应用场景

Llama 4

Llama 4的主要功能

强大的语言理解与生成能力：经过大量文本数据训练，语言理解精准。能生成连贯、有逻辑的文本，可用于创意写作、文章撰写、对话交互等。如进行故事创作时，能根据给定主题和情节线索，生成丰富生动的故事内容；在对话场景中，能理解用户意图并给出恰当回复。
多模态处理能力：通过图像数据训练，具备图像理解能力，可识别图像中的物体、场景、颜色等元素，能对图像内容进行描述和分析。Scout 版本支持 1000 万 tokens 上下文窗口，可处理多达数百万字的文本，适用于总结长文档、基于大型代码库推理等任务。
高效的推理与计算能力：采用混合专家（MoE）架构，将模型划分为多个专注特定任务的 “专家” 子模型，在训练和回答用户查询时效率更高，可降低模型服务成本和延迟，提高推理效率。
多语言处理能力：通过对 200 种语言进行预训练，能处理和生成多种语言的文本，支持跨语言交流和处理任务，如语言翻译、不同语言文本的分析与生成等，帮助用户打破语言障碍。

Llama 4的技术原理

混合专家（MoE）架构：Llama 4 是 Llama 系列中首个采用 MoE 架构的模型。在 MoE 模型中，单独的 token 只会激活全部参数中的一小部分。例如，Llama 4 Maverick 模型的 4000 亿个总参数中有 170 亿个活跃参数。为提高推理效率，Meta 交替使用了稠密层和 MoE 层，MoE 层用到了 128 个路由专家和一个共享专家，每个 token 都会被送到共享专家，同时也会送到 128 个路由专家中的一个，这样在运行模型时，只有部分参数会被激活，提升了推理效率，降低了模型服务的成本和延迟。
原生多模态设计：Llama 4 是原生多模态模型，采用早期融合技术，能将文本和视觉 token 无缝整合到一个统一的模型框架里。可以用海量的无标签文本、图片和视频数据一起来预训练模型。Meta 升级了 Llama 4 的视觉编码器，编码器基于 MetaCLIP，在训练时跟一个冻结的 Llama 模型分开进行，能更好地调整编码器，更适配大语言模型（LLM）。
模型超参数优化：Meta 开发了 MetaP 新训练方法，能更靠谱地设置关键的模型超参数，如每层的学习率和初始化规模，这些超参数在不同的批大小、模型宽度、深度和训练 token 量上都能很好地适配。
高效的模型训练：采用 FP8 精度，既不牺牲质量，又能保证模型的高 FLOPs 利用率。如在使用 FP8 精度和 32K 个 GPU 预训练 Llama 4 Behemoth 模型时，达到了每个 GPU 390 TFLOPs 的性能。训练数据包含超过 30 万亿个 token，涵盖文本、图片和视频数据集。通过 “中期训练” 方式继续训练模型，用专门数据集扩展长上下文，提升核心能力，为 Llama 4 Scout 解锁了领先的 1000 万输入上下文长度。
后训练流程优化：训练流程为轻量级监督微调（SFT）> 在线强化学习（RL）> 轻量级直接偏好优化（DPO）。为解决 SFT 和 DPO 可能过度限制模型的问题，Meta 使用 Llama 模型作为评判者，移除超过 50% 被标记为 “简单” 的数据，对剩余更难数据进行轻量级 SFT，在多模态在线 RL 阶段精心选择更难的提示，并实施持续在线 RL 策略，交替进行模型训练和数据筛选，保留中等到高难度的提示，最后进行轻量级 DPO，平衡模型的智能性和对话能力。

Llama 4的项目地址

项目官网：https://ai.meta.com/blog/llama-4
HuggingFace模型库：https://huggingface.co/collections/meta-llama/llama-4

Llama 4的应用场景

对话系统：Llama 4 可用于构建智能聊天机器人，如 Maverick 适用于通用 AI 助手和聊天应用，能理解用户问题并生成自然流畅的回答，提供信息、解答疑问、进行闲聊等。
文本生成：能进行创意写作，如创作故事、诗歌、剧本等，可用于撰写新闻报道、产品说明、文案策划等，根据给定主题和要求生成高质量文本。
代码生成与辅助：可帮助开发者生成代码，根据功能描述生成相应代码片段或完整程序，能提供代码解释、注释生成、代码规范检查等辅助功能，提高开发效率。
代码理解与分析：Scout 能基于大型代码库进行推理，帮助开发者理解复杂代码库的逻辑和功能，进行代码审查、漏洞检测等工作。
图像理解与描述：Maverick 在图像精准理解方面表现出色，能识别图像中的物体、场景、颜色等元素，对图像内容进行描述和分析，如输入一张照片，可描述照片内容、判断拍摄地点等。
信息检索与推荐：结合其语言理解和生成能力，可用于信息检索系统，理解用户查询意图，提供更精准的搜索结果，还能基于用户兴趣和行为进行个性化推荐。

Llama 4 – Meta 开源的多模态系列AI模型，重夺开源王座

Llama 4是什么

Llama 4的主要功能

Llama 4的技术原理

Llama 4的项目地址

Llama 4的应用场景

发表评价取消回复

最近更新

HuggingChat macOS – Hugging Face开源的macOS聊天应用程序

OmniParser – 微软推出的屏幕解析工具，将UI截图转换为结构化数据

Ditto – AI应用程序生成器，零编码自动规划和构建应用

Flux.1 Lite – Freepik推出的轻量级AI模型

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

Llama 4是什么

Llama 4的主要功能

Llama 4的技术原理

Llama 4的项目地址

Llama 4的应用场景

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复