Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Qwen2.5-1M – 阿里通义千问开源的语言模型,支持100万Tokens上下文
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Qwen2.5-1M – 阿里通义千问开源的语言模型,支持100万Tokens上下文
AIGC 资讯

Qwen2.5-1M – 阿里通义千问开源的语言模型,支持100万Tokens上下文

站外新闻
最近更新: 2026年6月9日 上午3:49
SHARE

Qwen2.5-1M是什么

Qwen2.5-1M是阿里通义千问团队推出的开源模型,支持100万Tokens的上下文长度。模型包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M两个模型。在长上下文任务中表现出色,优于之前的128K版本,特别是在处理超过64K长度的任务时。Qwen2.5-14B-Instruct-1M模型击败了Qwen2.5-Turbo,在多个数据集上稳定超越GPT-4o-mini。Qwen2.5-1M系列模型在短文本任务上的表现与其128K版本相当,确保了基本能力没有因为增加了长序列处理能力而受到影响。

阅读目录
  • Qwen2.5-1M是什么
  • Qwen2.5-1M的主要功能
  • Qwen2.5-1M的技术原理
  • Qwen2.5-1M的项目地址
  • Qwen2.5-1M的应用场景

Qwen2.5-1M

Qwen2.5-1M的主要功能

  • 长上下文任务处理:Qwen2.5-1M系列模型能处理长达100万Tokens的上下文,优于之前的128K版本。在上下文长度为100万Tokens的Passkey Retrieval任务中,Qwen2.5-1M系列模型能够准确地从1M长度的文档中检索出隐藏信息。
  • 性能优势:Qwen2.5-14B-Instruct-1M模型击败了Qwen2.5-Turbo,在多个数据集上稳定超越GPT-4o-mini。
  • 短序列任务处理:Qwen2.5-1M系列模型在短文本任务上的表现与其128K版本相当,确保了基本能力没有因为增加了长序列处理能力而受到影响。

Qwen2.5-1M的技术原理

  • 长上下文训练:Qwen2.5-1M采用逐步扩展长度的方法,将上下文长度从4K扩展到256K。训练过程分为多个阶段:
    • 预训练阶段:从4K开始,逐步增加到256K,同时使用Adjusted Base Frequency方案,将RoPE基础频率从10,000提高到10,000,000。
    • 监督微调阶段:分两个阶段进行,第一阶段仅在短指令(最多32K长度)上微调,第二阶段混合短指令和长指令(最多256K)进行训练。
    • 强化学习阶段:在短文本(最多8K长度)上训练,即使在短文本上训练,也能很好地将人类偏好对齐性能泛化到长上下文任务中。
  • 稀疏注意力机制:为了加速预填充阶段,Qwen2.5-1M引入了基于MInference的稀疏注意力优化,提出了一系列改进:
    • 分块预填充:将输入序列以32768长度分块,逐块进行预填充,显著降低显存需求。
    • 集成长度外推方案:在稀疏注意力机制中集成基于DCA的长度外推方案,提升推理效率和长序列任务的准确性。
    • 稀疏性优化:提出一种在100万长度的序列上优化稀疏化配置的方法,减少稀疏注意力带来的精度损失。
    • 其他优化:优化算子效率和动态分块流水线并行,提升整个框架的潜力。
  • 长度外推:为了将模型的上下文长度从256K扩展到1M,Qwen2.5-1M采用长度外推技术。通过Dual Chunk Attention(DCA)方法,将过大的相对位置重新映射为较小的值,解决了长上下文任务中的性能下降问题。

Qwen2.5-1M的项目地址

  • 项目官网:https://qwenlm.github.io/zh/blog/qwen2.5-1m/
  • HuggingFace模型库:https://huggingface.co/spaces/Qwen/Qwen2.5-1M-Demo
  • 技术论文:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/Qwen2_5_1M_Technical_Report.pdf

Qwen2.5-1M的应用场景

  • 长篇小说深入理解:能一次性处理10本长篇小说,对长篇小说进行深入分析和理解。
  • 多篇论文阅读:可以同时处理多篇学术论文,帮助研究人员快速获取关键信息。
  • 文学创作:辅助作家进行长篇小说创作,提供写作灵感和创意内容。
  • 广告文案撰写:帮助广告人员快速生成吸引人的广告文案。
  • 教学辅助:在教育领域作为教学辅助工具,帮助学生理解复杂概念。
  • 数据分析:在研究领域,帮助分析大量数据和文献。
BabelDOC – 开源 AI PDF 翻译工具,专为科学论文翻译设计
OLMo 2 32B – Ai2 推出的最新开源语言模型
Step-Audio-TTS-3B – 高性能 TTS 模型,能生成特定情感和说唱风格的语音
小米开源Lego-Edit:基于MLLM的下一代图像编辑框架,三阶段强化学习实现SOTA性能
HoloPart – 港大联合 VAST 开源生成完整可编辑部件的 3D 模型
分享
Email 复制链接 打印
Share
上一篇 Wear-Any-Way – 阿里拍立淘团队推出自由定制的虚拟试穿框架
下一篇 WhisperChain – AI实时语音转文字工具,自动对文本进行清理和优化
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

流光脑波AI大脑占位特色图
2026年3月美国AI榜单巨变:Claude单月狂飙130%紧追ChatGPT,格局突变信号已现
AIGC 资讯 最新趋势
得物实战揭秘:AI Coding工具如何突破数仓开发’失忆’痛点,Harness工程引领新范式
AI 工具 AIGC 资讯
全息流体渐变通用占位特色图
历史性和解!Meta妥协规避审判,美国首例学校诉社交媒体成瘾案落幕,揭示行业司法风向
AIGC 资讯
量子芯片科技感占位特色图
Spotify与环球音乐联手:AI翻唱混音工具上线,正版版权终结Suno野蛮生长
AI 工具 AIGC 资讯 最新趋势

相关推荐

AI 工具AIGC 资讯

DeepSWE开源Agent框架发布:基于Qwen3-32B与强化学习,SWE-Bench准确率59%领跑行业

站外新闻
AI Agent Qwen3-32B 开源框架 强化学习 软件工程
AI 工具AIGC 资讯

FutureHouse Kosmos:一天顶半年!单次解析1500篇论文的AI科学家系统深度解析

站外新闻
AI科学家 FutureHouse 多智能体系统 科学发现 自动化科研
AIGC 资讯

Veo 3 – 谷歌推出的新一代视频生成模型

站外新闻
AIGC 资讯

TrendPublish – AI内容发布工具,支持智能总结和自动发布

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 知识管理 美团 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 轻量级模型 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.