Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 华为盘古大模型5.5震撼发布:7180亿参数Ultra MoE领衔,五大模型重塑产业智能
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 华为盘古大模型5.5震撼发布:7180亿参数Ultra MoE领衔,五大模型重塑产业智能
AI 工具AIGC 资讯

华为盘古大模型5.5震撼发布:7180亿参数Ultra MoE领衔,五大模型重塑产业智能

站外新闻
最近更新: 2026年6月7日 下午8:25
AI大模型 MoE 产业智能化 华为盘古大模型 多模态
SHARE

💡 站外导读:当AI从炫技的“作诗”走向务实的“做事”,产业智能化升级便迎来了真正的拐点。华为开发者大会(HDC 2025)上发布的盘古大模型5.5,正是这一趋势的集中体现。它不再追求单一参数的极限,而是以“解决实际问题”为核心,构建了涵盖NLP、多模态、预测、科学计算和视觉的五大模型矩阵,直击企业在效率、成本和精度上的核心痛点,为实体经济注入AI新动能。

盘古大模型 5.5是什么

盘古大模型5.5是华为在开发者大会(HDC 2025)上发布的最新一代人工智能大模型。模型强调“不作诗,只做事”,专注于解决实际产业问题,推动千行百业的智能化升级。盘古大模型5.5包含五大基础模型,分别面向自然语言处理(NLP)、多模态、预测、科学计算和计算机视觉(CV)领域。

阅读目录
  • 盘古大模型 5.5是什么
  • 盘古大模型 5.5的主要功能
  • 盘古大模型 5.5的模型介绍
  • 盘古大模型 5.5的项目地址
  • 盘古大模型 5.5的应用场景
      • 📝 站长洞察 (Editor’s Insight)

盘古Ultra MoE是一款拥有7180亿参数的深度思考大模型,它依托昇腾全栈软硬件的协同优化而构建,擅长高效处理长文本序列、有效抑制幻觉输出,并能执行深度研究等关键任务。盘古Pro MoE则是一个72B参数(其中16B为激活参数)的模型,其在处理智能体相关任务时表现突出,性能足以与高达6710亿参数的DeepSeek-R1相媲美。此外,盘古大模型5.5版本创新性地融合了自适应快慢思考技术,显著提升了模型的推理效率,并借助多模态世界模型,为智能驾驶系统的开发以及具身智能机器人的训练提供了有力支持。

盘古大模型 5.5

盘古大模型 5.5的主要功能

  • 自然语言处理(NLP)
    • 高效长序列处理:通过Adaptive SWA和ESA技术,能够轻松应对100万token长度的上下文。
    • 低幻觉:采用知识边界判定和结构化思考验证等创新方案,提升模型推理的准确度。
    • 快慢思考融合:自适应快慢思考合一技术,根据问题难易程度自动切换思考模式,简单问题快速回复,复杂问题深度思考,推理效率提升8倍。
    • 深度研究能力:盘古DeepDiver通过长链难题合成和渐进式奖励机制,在网页搜索、常识性问答等应用中表现出色,可在5分钟内完成超过10跳的复杂问答,并生成万字以上专业调研报告。
  • 多模态
    • 世界模型:为智能驾驶、具身智能机器人训练构建数字物理空间,实现持续优化迭代。例如在智能驾驶领域,可生成大量训练数据,无需依赖高成本路采。
  • 预测
    • triplet transformer架构:将不同行业的数据进行统一的三元组编码和预训练,提升预测精度和跨行业、跨场景的泛化性。
  • 科学计算
    • AI集合预报:例如深圳气象局基于盘古大模型升级的“智霁”大模型,首次实现AI集合预报,能更直观地反映天气系统的演变可能性。
  • 计算机视觉(CV)
    • 300亿参数视觉大模型:支持多维度泛视觉感知、分析和决策,构建工业场景稀缺的泛视觉故障样本库,提升业务场景的可识别种类与精度。

盘古大模型 5.5的模型介绍

  • 盘古 Ultra MoE
    • 超大规模与稀疏激活:拥有 7180 亿参数,采用 256 个路由专家,每个 token 激活 8 个专家,激活量为 39 亿,具备超大规模和高稀疏比的特性。
    • 先进架构设计:引入 MLA(Multi-head Latent Attention)注意力机制,有效压缩 KV Cache 空间,缓解推理阶段的内存带宽瓶颈。同时采用 MTP(Multi-Token Parallelism)多头扩展,通过单头 MTP 训练后扩展至多头结构,实现多 Token 投机推理,加速整体推理过程。
    • 稳定训练技术:提出 Depth-Scaled Sandwich-Norm(DSSN)稳定架构和 TinyInit 小初始化方法,解决了超大规模 MoE 模型训练过程中的稳定性难题,实现了超过 18TB 数据的长期稳定训练。
    • 高效负载优化:采用 EP group loss 负载优化方法,保证各个专家之间保持较好的负载均衡,同时提升专家的领域特化能力。
    • 训练策略优化:使用 Dropless 训练策略,避免 Drop&Pad 训推不一致问题,提升训练的数据效率。此外,采用迭代难例挖掘与多能力项均衡的奖励函数,参考 GRPO 算法,提升模型的训练效率与最终推理性能。
  • 盘古 Pro MoE
    • 分组混合专家架构:创新性地提出分组混合专家模型(MoGE),在专家选择阶段对专家进行分组,并约束 token 在每个组内激活等量专家,实现专家负载均衡,显著提升模型在昇腾平台的部署效率。
    • 高效推理性能:在昇腾 300I Duo 平台上,单卡吞吐量可达 201 tokens/s,通过引入 MTP 解码和多 token 优化可进一步提升至 321 tokens/s。在昇腾 800I A2 平台上,低并发场景下可实现毫秒级响应,高并发条件下单卡吞吐量可达 1148 tokens/s,结合优化后可提升至 1528 tokens/s,性能大幅领先于同等规模的稠密模型。
    • 卓越推理能力:在跨语言多领域基准测试中展现出色性能,涵盖英语通用推理、阅读理解、常识推理,逻辑推理中的代码生成和中英双语数学问题,以及中文的知识问答和阅读理解等,全面验证了模型在复杂认知任务上的通用性与领域适应性。
    • 硬件亲和优化:针对昇腾 300I Duo 和 800I A2 平台进行系统优化,深度融合昇腾硬件加速架构的并行计算特性与算子级编译优化技术,实现从算法设计到系统落地的全栈创新。
  • 盘古 Embedding
    • 快慢思考融合:采用双系统认知架构,集成“快思考”与“慢思考”双推理模式。通过两阶段训练框架,第一阶段通过迭代蒸馏和多源动态奖励系统(MARS)构建基础推理器;第二阶段赋予模型快慢思考能力,可根据任务难度自动切换模式,实现推理效率与深度的动态平衡。
    • 高效训练策略:提出基于模型感知型迭代蒸馏(Model-aware Iterative Distillation)的 SFT 方案,动态选择与模型当前能力相匹配的数据样本进行训练,并通过训练过程中的模型合并策略保留早期知识,持续提升性能。
    • 行业垂域能力拓展:通过引入特定领域的长思考数据继续训练,可显著提升模型在专业任务上的能力水平。例如在法律领域,经过法律语料训练后,在 LawBench 基准测试中的平均准确率达到 54.59%。
    • 自适应模式切换:模型能够根据任务的复杂程度自动调整推理深度。在简单问题上快速输出答案,在复杂问题上进行深入分析,确保输出的准确性。
  • 盘古 DeepDiver
    • 复杂任务处理:针对深度研究场景,如科学助手、个性化教育以及复杂的行业报告调研等,能够完成超过 10 跳的复杂问答,并生成万字以上的专业调研报告。
    • 高效信息获取:通过构建大量的合成交互数据,并采用渐进式奖励策略进行强化学习训练,在开放域信息获取中表现出色,可在 5 分钟内完成复杂的任务,生成高质量的调研报告。
    • 高阶能力增强:显著提升了盘古大模型的自主规划、探索、反思等高阶能力,使其在复杂任务处理中表现更加出色。
  • 盘古预测大模型:采用业界首创的 triplet transformer 统一预训练架构,将不同行业的数据进行统一的三元组编码,并、在同一框架内高效处理和预训练,提升预测大模型的精度,跨行业、跨场景的泛化性。
  • 盘古科学计算大模型:华为云持续拓展盘古科学计算大模型与更多科学应用领域的结合。比如深圳气象局基于盘古进一步升级「智霁」大模型,首次实现 AI 集合预报,能更直观地反映天气系统的演变可能性,减少单一预报模型的误差。
  • 盘古计算机视觉 CV 大模型:华为云发布全新 MoE 架构的 300 亿参数视觉大模型,是目前业界最大的视觉模型,全面支持图像、红外、激光点云、光谱、雷达等多维度、泛视觉的感知、分析与决策。通过跨维度生成模型,构建油气、交通、煤矿等工业场景稀缺的泛视觉故障样本库,提升了业务场景的可识别种类与精度。
  • 盘古多模态大模型:全新发布基于盘古多模态大模型的世界模型,可以为智能驾驶、具身智能机器人的训练,构建所需要的数字物理空间,实现持续优化迭代。

盘古大模型 5.5的项目地址

  • 盘古 Ultra MoE 技术论文:https://arxiv.org/pdf/2505.04519
    盘古 Pro MoE 项目地址:https://gitcode.com/ascend-tribe/pangu-pro-moe
    盘古 Embedding 技术论文:https://arxiv.org/pdf/2505.22375
    盘古 DeepDiver 技术论文:https://arxiv.org/pdf/2505.24332

盘古大模型 5.5的应用场景

  • 智能驾驶:盘古多模态大模型可以为智能驾驶生成大量的训练数据,无需依赖高成本的路采。
  • 具身智能机器人:盘古世界模型可以为具身智能机器人的训练构建所需的数字物理空间,实现持续优化迭代。
  • 气象预报:深圳气象局基于盘古科学计算大模型升级的“智霁”大模型,首次实现AI集合预报,能更直观地反映天气系统的演变可能性,减少单一预报模型的误差。
  • 工业场景:盘古CV大模型通过跨维度生成模型,构建油气、交通、煤矿等工业场景稀缺的泛视觉故障样本库,极大地提升了业务场景的可识别种类与精度。

📝 站长洞察 (Editor’s Insight)

盘古5.5的发布,标志着大模型竞争进入了“深水区”——从参数竞赛转向体系化工程能力的比拼。其“快慢思考合一”技术,巧妙地平衡了推理效率与深度,是迈向通用人工智能(AGI)的关键架构探索。更重要的是,华为通过MoE架构(如盘古Ultra和Pro)在昇腾硬件上的极致优化,构建了从算法到算力的“全栈护城河”。这不仅是技术展示,更是对“AI工业化”的宣言:一个模型家族,通过模块化组合,精准赋能从科学研究(如气象预报)到工业质检的广泛场景。未来,AI的决胜点将在于谁能将模型能力更丝滑、更经济地“嵌入”产业流程,而华为正试图定义这个新范式。

Dream-7B – 港大联合华为诺亚方舟开源的扩散推理模型
Ubie AI 医疗
Kami:AI生成文档终于告别廉价排版,开源设计系统打造印刷级专业PDF
谷歌开源EmbeddingGemma:200MB内存、100+语言支持的端侧AI文本嵌入革命
谷歌DeepMind重磅开源TIPSv2:多模态模型SOTA,零样本分割领先,参数效率极高
TAGGED:AI大模型MoE产业智能化华为盘古大模型多模态
分享
Email 复制链接 打印
Share
上一篇 腾讯清华重磅开源MindOmni:强化学习驱动的多模态推理生成模型,重塑视觉AI边界
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

腾讯清华重磅开源MindOmni:强化学习驱动的多模态推理生成模型,重塑视觉AI边界
AI 工具 AIGC 资讯
联影智能发布‘元智’医疗大模型:多模态融合,一次CT扫描诊断37种疾病
AI 工具 AIGC 资讯
Dive3D重磅发布:北大x小红书联手破解文本生成3D多样性难题,SIM损失取代KL散度实现模式突破
AI 工具 AIGC 资讯
PreenCut开源AI视频剪辑工具:基于WhisperX与大模型,实现自然语言秒搜定位,高效视频剪辑新革命
AI 工具 AIGC 资讯

相关推荐

AI 工具

Caden AI

remaker
AI 工具

AskYoutube

remaker
AIGC 资讯

SpeechGPT 2.0-preview – 复旦大学推出的端到端实时语音交互模型

站外新闻
AI 工具AIGC 资讯

MiniMax开源OctoCodingBench:编程智能体评测新基准,如何衡量AI编码的’过程合规性’?

站外新闻
Coding Agent MiniMax 开源 指令遵循 评测基准
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.