Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 阶跃星辰开源Step 3.5 Flash:1960亿参数MoE模型,350TPS极速推理与Agent性能比肩顶尖闭源模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 阶跃星辰开源Step 3.5 Flash:1960亿参数MoE模型,350TPS极速推理与Agent性能比肩顶尖闭源模型
AI 工具AIGC 资讯

阶跃星辰开源Step 3.5 Flash:1960亿参数MoE模型,350TPS极速推理与Agent性能比肩顶尖闭源模型

站外新闻
最近更新: 2026年6月7日 下午8:06
Agent MoE架构 开源模型 本地部署
SHARE

💡 站外导读:随着大模型从“大力出奇迹”向“高效实用”演进,如何在海量参数与推理效率间取得平衡,成为行业核心痛点。阶跃星辰推出的Step 3.5 Flash正切中这一要害:它是一款专为Agent场景设计的开源基座模型,通过创新的稀疏MoE架构,在拥有1960亿总参数的同时,仅激活110亿参数进行计算,从而在数学推理、代码生成等关键任务上达到顶尖闭源模型水平,并支持消费级硬件本地部署,解决了企业用户对数据隐私与高性能的双重焦虑。

Step 3.5 Flash是什么

Step 3.5 Flash 是阶跃星辰最新开源的基座模型,专为 Agent 场景推出。模型采用稀疏 MoE 架构,总参数 1960 亿,每 token 仅激活 110 亿参数,兼顾性能与效率。Step 3.5 Flash推理速度高达 350 TPS,支持 256K 长上下文,在数学推理、代码生成(SWE-bench 74.4%)和 Agent 任务上媲美顶级闭源模型。Step 3.5 Flash已开源并支持 vLLM、SGLang、llama.cpp 等框架,可在 Mac Studio M4 Max、NVIDIA DGX Spark 等消费级硬件本地部署,实现数据隐私与高性能兼得。

阅读目录
  • Step 3.5 Flash是什么
  • Step 3.5 Flash的主要功能
  • Step 3.5 Flash的技术原理
  • Step 3.5 Flash的项目地址
  • Step 3.5 Flash的应用场景
      • 📝 站长洞察 (Editor’s Insight)

Step 3.5 Flash

Step 3.5 Flash的主要功能

  • 高速推理:模型通过 MTP-3 技术实现最高 350 TPS 的生成速度,支持复杂多步推理的即时响应。
  • Agent 能力:模型专为智能体任务设计,在 SWE-bench Verified 达到 74.4%,可处理长链条复杂任务。
  • 高效长文本:支持 256K 上下文窗口,采用混合注意力机制降低长文本计算开销。
  • 本地部署:优化消费级硬件支持,可在 Mac Studio M4 Max、NVIDIA DGX Spark 等设备流畅运行。
  • 代码生成:模型具备强大的编程能力,支持自动工具调用和结构化推理输出。

Step 3.5 Flash的技术原理

  • 稀疏 MoE 架构:模型采用 45 层 Transformer 骨干网络,每层配置 288 个细粒度路由专家和 1 个共享专家。推理时仅激活 Top-8 专家,每 token 实际计算约 110 亿参数,实现 1960 亿总参数规模的模型能力与小模型推理成本的平衡。
  • MTP-3 多 Token 预测:通过滑动窗口注意力机制与密集前馈网络组成的专用预测头,单次前向传播并行生成 4 个 token。将典型场景生成速度提升至 100-300 tok/s,峰值可达 350 tok/s,显著降低解码延迟。
  • 混合注意力机制:采用 3:1 滑动窗口注意力与全局注意力层交替的架构设计。滑动窗口层聚焦局部上下文,全局层捕捉长距离依赖,在 256K 长文本场景下有效控制计算复杂度,兼顾效率与性能。
  • 推理优化策略:模型支持专家并行(EP8)与张量并行(TP8)的组合部署,配合 FP8 量化降低显存带宽压力。通过投机解码与 MTP 协同,在 Hopper GPU 上实现高效服务化部署。

Step 3.5 Flash的项目地址

  • 项目官网:https://static.stepfun.com/blog/step-3.5-flash/
  • GitHub仓库:https://github.com/stepfun-ai/Step-3.5-Flash/
  • HuggingFace模型库:https://huggingface.co/stepfun-ai/Step-3.5-Flash
  • arXiv技术论文:https://arxiv.org/pdf/2602.10604

Step 3.5 Flash的应用场景

  • 智能编程开发:作为 Claude Code、Codex 等工具的底层模型,提供代码生成、自动调试、软件工程任务处理等能力,在 SWE-bench Verified 上达到 74.4% 的通过率。
  • 自主智能体执行:适用深度研究、网页信息检索、跨平台数据对比等需要长链条推理的 Agent 场景。
  • 实时对话交互:凭借 100-350 TPS 的生成速度,支撑低延迟聊天机器人、在线教育辅导、智能客服等需要即时响应的交互应用。
  • 长文本分析处理:可进行学术论文研读、法律合同审查、大型代码库理解,高效提取并整合海量信息。
  • 端侧隐私计算:可在 Mac Studio M4 Max、NVIDIA DGX Spark 等本地设备部署,满足金融、医疗、企业办公等敏感数据的私有化处理需求。

📝 站长洞察 (Editor’s Insight)

Step 3.5 Flash的发布,标志着开源大模型竞争进入“效率与场景化”的新阶段。其核心突破不仅在于1960亿参数MoE架构带来的性能-成本平衡,更在于MTP-3技术将推理速度推至350 TPS,这为实时性要求高的Agent应用(如自动化编程、深度研究)打开了大门。结合256K长上下文与消费级硬件部署能力,它实质上构建了一个“隐私优先、高性能、低延迟”的本地AI解决方案蓝图,直击企业端对数据安全与合规的深层需求。这不仅是技术迭代,更是商业模式的演进——它预示着AI能力正从云端垄断,走向分布式、可私有化的新范式,为开发者及垂直行业(如金融、医疗)提供了更具自主权的AI基础设施选择。

AxBench – 斯坦福大学推出评估语言模控制方法的基准测试框架
Lumina-Image 2.0 – 上海 AI Lab 开源的统一图像生成模型
SearchClaw:人大自研开源AI深度研究智能体,支持多源检索与自托管部署
InspireMusic – 阿里通义实验室开源的音乐生成技术
DreamActor-M1 – 字节跳动推出的 AI 图像动画框架
TAGGED:AgentMoE架构开源模型本地部署
分享
Email 复制链接 打印
Share
上一篇 Happy开源AI编程神器:手机远程监控Claude Code,实时掌控开发任务进度
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Happy开源AI编程神器:手机远程监控Claude Code,实时掌控开发任务进度
AI 工具 AIGC 资讯
优必选开源具身智能大模型Thinker:4B参数9项基准全球第一,工业场景准确率99.99%
AI 工具 AIGC 资讯
智谱AI开源GLM-OCR:0.9B参数登顶SOTA,轻量级多模态OCR模型革新文档解析
AI 工具 AIGC 资讯
玄武CLI:5分钟部署国产大模型,一键激活华为昇腾、沐曦芯片算力,清昴智能开源利器破解“能用不好用”难题
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

Agentic Object Detection – 吴恩达团队推出的Agent目标检测技术

站外新闻
AIGC 资讯

SEMIKONG – 专为半导体领域设计的大型语言模型

站外新闻
AI 工具

Fantoons

remaker
AI 工具AIGC 资讯

腾讯云重磅开源Cube Sandbox:AI Agent安全沙箱新标杆,60ms启动+硬件级隔离

站外新闻
AI Agent KVM RustVMM 沙箱 腾讯云
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI绘画 AI编程 AI编程工具 AI视频 AI视频生成 AI设计 AI音乐生成 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 NVIDIA openai OpenClaw OpenRouter Pika prompt stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 小红书 展台 建筑 开源 开源AI工具 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 本地AI 海报设计 清华大学 生成式AI 科幻 端侧AI 网络安全 腾讯 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 边缘计算 通义千问 长上下文 阶跃星辰 阿里通义 阿里通义千问 面壁智能 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.