Qwen2.5-1M – 阿里通义千问开源的语言模型，支持100万Tokens上下文

Qwen2.5-1M是什么

Qwen2.5-1M是阿里通义千问团队推出的开源模型，支持100万Tokens的上下文长度。模型包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M两个模型。在长上下文任务中表现出色，优于之前的128K版本，特别是在处理超过64K长度的任务时。Qwen2.5-14B-Instruct-1M模型击败了Qwen2.5-Turbo，在多个数据集上稳定超越GPT-4o-mini。Qwen2.5-1M系列模型在短文本任务上的表现与其128K版本相当，确保了基本能力没有因为增加了长序列处理能力而受到影响。

阅读目录

Qwen2.5-1M是什么
Qwen2.5-1M的主要功能
Qwen2.5-1M的技术原理
Qwen2.5-1M的项目地址
Qwen2.5-1M的应用场景

Qwen2.5-1M

Qwen2.5-1M的主要功能

长上下文任务处理：Qwen2.5-1M系列模型能处理长达100万Tokens的上下文，优于之前的128K版本。在上下文长度为100万Tokens的Passkey Retrieval任务中，Qwen2.5-1M系列模型能够准确地从1M长度的文档中检索出隐藏信息。
性能优势：Qwen2.5-14B-Instruct-1M模型击败了Qwen2.5-Turbo，在多个数据集上稳定超越GPT-4o-mini。
短序列任务处理：Qwen2.5-1M系列模型在短文本任务上的表现与其128K版本相当，确保了基本能力没有因为增加了长序列处理能力而受到影响。

Qwen2.5-1M的技术原理

长上下文训练：Qwen2.5-1M采用逐步扩展长度的方法，将上下文长度从4K扩展到256K。训练过程分为多个阶段：
- 预训练阶段：从4K开始，逐步增加到256K，同时使用Adjusted Base Frequency方案，将RoPE基础频率从10,000提高到10,000,000。
- 监督微调阶段：分两个阶段进行，第一阶段仅在短指令（最多32K长度）上微调，第二阶段混合短指令和长指令（最多256K）进行训练。
- 强化学习阶段：在短文本（最多8K长度）上训练，即使在短文本上训练，也能很好地将人类偏好对齐性能泛化到长上下文任务中。
稀疏注意力机制：为了加速预填充阶段，Qwen2.5-1M引入了基于MInference的稀疏注意力优化，提出了一系列改进：
- 分块预填充：将输入序列以32768长度分块，逐块进行预填充，显著降低显存需求。
- 集成长度外推方案：在稀疏注意力机制中集成基于DCA的长度外推方案，提升推理效率和长序列任务的准确性。
- 稀疏性优化：提出一种在100万长度的序列上优化稀疏化配置的方法，减少稀疏注意力带来的精度损失。
- 其他优化：优化算子效率和动态分块流水线并行，提升整个框架的潜力。
长度外推：为了将模型的上下文长度从256K扩展到1M，Qwen2.5-1M采用长度外推技术。通过Dual Chunk Attention（DCA）方法，将过大的相对位置重新映射为较小的值，解决了长上下文任务中的性能下降问题。