Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 阶跃星辰开源Step 3.5 Flash:1960亿参数MoE模型,350TPS极速推理与Agent性能比肩顶尖闭源模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 阶跃星辰开源Step 3.5 Flash:1960亿参数MoE模型,350TPS极速推理与Agent性能比肩顶尖闭源模型
AI 工具AIGC 资讯

阶跃星辰开源Step 3.5 Flash:1960亿参数MoE模型,350TPS极速推理与Agent性能比肩顶尖闭源模型

站外新闻
最近更新: 2026年6月7日 下午8:06
Agent MoE架构 开源模型 本地部署
SHARE

💡 站外导读:随着大模型从“大力出奇迹”向“高效实用”演进,如何在海量参数与推理效率间取得平衡,成为行业核心痛点。阶跃星辰推出的Step 3.5 Flash正切中这一要害:它是一款专为Agent场景设计的开源基座模型,通过创新的稀疏MoE架构,在拥有1960亿总参数的同时,仅激活110亿参数进行计算,从而在数学推理、代码生成等关键任务上达到顶尖闭源模型水平,并支持消费级硬件本地部署,解决了企业用户对数据隐私与高性能的双重焦虑。

Step 3.5 Flash是什么

Step 3.5 Flash 是阶跃星辰最新开源的基座模型,专为 Agent 场景推出。模型采用稀疏 MoE 架构,总参数 1960 亿,每 token 仅激活 110 亿参数,兼顾性能与效率。Step 3.5 Flash推理速度高达 350 TPS,支持 256K 长上下文,在数学推理、代码生成(SWE-bench 74.4%)和 Agent 任务上媲美顶级闭源模型。Step 3.5 Flash已开源并支持 vLLM、SGLang、llama.cpp 等框架,可在 Mac Studio M4 Max、NVIDIA DGX Spark 等消费级硬件本地部署,实现数据隐私与高性能兼得。

阅读目录
  • Step 3.5 Flash是什么
  • Step 3.5 Flash的主要功能
  • Step 3.5 Flash的技术原理
  • Step 3.5 Flash的项目地址
  • Step 3.5 Flash的应用场景
      • 📝 站长洞察 (Editor’s Insight)

Step 3.5 Flash

Step 3.5 Flash的主要功能

  • 高速推理:模型通过 MTP-3 技术实现最高 350 TPS 的生成速度,支持复杂多步推理的即时响应。
  • Agent 能力:模型专为智能体任务设计,在 SWE-bench Verified 达到 74.4%,可处理长链条复杂任务。
  • 高效长文本:支持 256K 上下文窗口,采用混合注意力机制降低长文本计算开销。
  • 本地部署:优化消费级硬件支持,可在 Mac Studio M4 Max、NVIDIA DGX Spark 等设备流畅运行。
  • 代码生成:模型具备强大的编程能力,支持自动工具调用和结构化推理输出。

Step 3.5 Flash的技术原理

  • 稀疏 MoE 架构:模型采用 45 层 Transformer 骨干网络,每层配置 288 个细粒度路由专家和 1 个共享专家。推理时仅激活 Top-8 专家,每 token 实际计算约 110 亿参数,实现 1960 亿总参数规模的模型能力与小模型推理成本的平衡。
  • MTP-3 多 Token 预测:通过滑动窗口注意力机制与密集前馈网络组成的专用预测头,单次前向传播并行生成 4 个 token。将典型场景生成速度提升至 100-300 tok/s,峰值可达 350 tok/s,显著降低解码延迟。
  • 混合注意力机制:采用 3:1 滑动窗口注意力与全局注意力层交替的架构设计。滑动窗口层聚焦局部上下文,全局层捕捉长距离依赖,在 256K 长文本场景下有效控制计算复杂度,兼顾效率与性能。
  • 推理优化策略:模型支持专家并行(EP8)与张量并行(TP8)的组合部署,配合 FP8 量化降低显存带宽压力。通过投机解码与 MTP 协同,在 Hopper GPU 上实现高效服务化部署。

Step 3.5 Flash的项目地址

  • 项目官网:https://static.stepfun.com/blog/step-3.5-flash/
  • GitHub仓库:https://github.com/stepfun-ai/Step-3.5-Flash/
  • HuggingFace模型库:https://huggingface.co/stepfun-ai/Step-3.5-Flash
  • arXiv技术论文:https://arxiv.org/pdf/2602.10604

Step 3.5 Flash的应用场景

  • 智能编程开发:作为 Claude Code、Codex 等工具的底层模型,提供代码生成、自动调试、软件工程任务处理等能力,在 SWE-bench Verified 上达到 74.4% 的通过率。
  • 自主智能体执行:适用深度研究、网页信息检索、跨平台数据对比等需要长链条推理的 Agent 场景。
  • 实时对话交互:凭借 100-350 TPS 的生成速度,支撑低延迟聊天机器人、在线教育辅导、智能客服等需要即时响应的交互应用。
  • 长文本分析处理:可进行学术论文研读、法律合同审查、大型代码库理解,高效提取并整合海量信息。
  • 端侧隐私计算:可在 Mac Studio M4 Max、NVIDIA DGX Spark 等本地设备部署,满足金融、医疗、企业办公等敏感数据的私有化处理需求。

📝 站长洞察 (Editor’s Insight)

Step 3.5 Flash的发布,标志着开源大模型竞争进入“效率与场景化”的新阶段。其核心突破不仅在于1960亿参数MoE架构带来的性能-成本平衡,更在于MTP-3技术将推理速度推至350 TPS,这为实时性要求高的Agent应用(如自动化编程、深度研究)打开了大门。结合256K长上下文与消费级硬件部署能力,它实质上构建了一个“隐私优先、高性能、低延迟”的本地AI解决方案蓝图,直击企业端对数据安全与合规的深层需求。这不仅是技术迭代,更是商业模式的演进——它预示着AI能力正从云端垄断,走向分布式、可私有化的新范式,为开发者及垂直行业(如金融、医疗)提供了更具自主权的AI基础设施选择。

上交大小红书联手打造LoopTool:自动化数据进化框架,显著提升大模型工具调用能力
OpenAI广告平台全面开放:免费ChatGPT用户成精准流量池,CPC定价与投放策略全解析
仅1.75公斤!海尔W3 AI外骨骼机器人颠覆行业,轻量化与智能助力双重突破
腾讯AI Lab发布SongBloom:全长度AI歌曲生成模型,10秒样本生成2分半高质量音乐
Adcreative.ai
TAGGED:AgentMoE架构开源模型本地部署
分享
Email 复制链接 打印
Share
上一篇 Happy开源AI编程神器:手机远程监控Claude Code,实时掌控开发任务进度
下一篇 生数科技Vidu Q3重磅发布:全球首款16秒音画同步AI视频生成模型,技术原理与应用场景全解析
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

流光脑波AI大脑占位特色图
2026年3月美国AI榜单巨变:Claude单月狂飙130%紧追ChatGPT,格局突变信号已现
AIGC 资讯 最新趋势
得物实战揭秘:AI Coding工具如何突破数仓开发’失忆’痛点,Harness工程引领新范式
AI 工具 AIGC 资讯
全息流体渐变通用占位特色图
历史性和解!Meta妥协规避审判,美国首例学校诉社交媒体成瘾案落幕,揭示行业司法风向
AIGC 资讯
量子芯片科技感占位特色图
Spotify与环球音乐联手:AI翻唱混音工具上线,正版版权终结Suno野蛮生长
AI 工具 AIGC 资讯 最新趋势

相关推荐

AIGC 资讯

Ola – 清华联合腾讯等推出的全模态语言模型

站外新闻
AI 工具

Formzil

remaker
AIGC 资讯

Dolphin – 清华联合海天瑞声推出的语音识别大模型

站外新闻
AIGC 资讯

moonshot-v1-vision-preview – 月之暗面推出的多模态图片理解模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 知识管理 美团 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 轻量级模型 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.