Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 原石科技发布MetaStone-S1:全球首款反思型大模型,自监督筛选推理链,数学代码能力超越GPT-4
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 原石科技发布MetaStone-S1:全球首款反思型大模型,自监督筛选推理链,数学代码能力超越GPT-4
AI 工具AIGC 资讯

原石科技发布MetaStone-S1:全球首款反思型大模型,自监督筛选推理链,数学代码能力超越GPT-4

站外新闻
最近更新: 2026年6月7日 下午8:24
MetaStone-S1 原石科技 反思型大模型 开源大模型 推理链优化
SHARE

💡 站外导读:当前,大模型在复杂推理任务中常因生成错误推理链而得出错误答案,且传统依赖人工标注的强化学习方法成本高昂、难以规模化。原石科技针对这一核心痛点,推出MetaStone-S1反思型生成式大模型,通过自监督过程奖励机制,让模型在推理时自动评估并筛选步骤,无需人工标注即可显著提升准确性。这一创新标志着大模型从被动生成向主动自我修正的关键演进。

MetaStone-S1是什么

MetaStone-S1是原石科技推出的反思型生成式大模型,首次融合深度推理与推理链自筛选能力。模型核心用自监督反思范式,基于共享主干的策略模型和过程评分模型(SPRM),仅增加53M参数即可实时评估推理步骤质量,无需人工标注。模型支持Long-CoT强化学习,生成超长推理链,在数学(AIME)、代码(LiveCodeBench)和中文推理(C-EVAL)任务中超越同类模型。开源1.5B 、7B、 32版本,用低推理成本实现高性能,推动推理智能迈向“自我修正”新阶段。

阅读目录
  • MetaStone-S1是什么
  • MetaStone-S1的主要功能
  • MetaStone-S1的技术原理
  • MetaStone-S1的项目地址
  • MetaStone-S1的应用场景
      • 📝 站长洞察 (Editor’s Insight)

MetaStone-S1

MetaStone-S1的主要功能

  • 深度推理生成功能:MetaStone-S1能生成超长且复杂的推理链条(Long-CoT),特别适用解决数学证明、编程算法等高难度推理任务。
  • 智能推理链优化:模型内置自监督过程评分机制(SPRM),支持自动识别、剔除推理过程中的错误步骤,显著提高最终答案的准确性。
  • 多档位推理模式:提供Low(快速响应)、Medium(平衡精度与速度)、High(深度思考)三种工作模式,满足不同场景的推理需求。
  • 开源可扩展特性:全面开源1.5B/7B/32B三种规模模型及配套工具,支持开发者在特定领域进一步优化模型的推理能力。

MetaStone-S1的技术原理

  • 双头共享架构:基于策略模型(Policy Model)与过程评分模型(SPRM)共享主干网络的设计,在Transformer层上并行部署生成头(Generation Head)和评分头(Scoring Head),前者负责生成推理链,后者基于自监督学习对每个推理步骤实时评分。
  • 自监督过程奖励:提出SPR Loss(Self-supervised Process Reward Loss)算法,用最终答案的正确性作为弱监督信号,基于噪声过滤机制自动生成步骤级伪标签,实现过程评分模型的训练,摆脱对人工标注的依赖。
  • 动态推理择优:在推理阶段用Test-Time Scaling技术:首先生成多条候选推理链(如High模式生成32条),用SPRM计算路径总分,最终选择最优路径继续生成,形成”生成-评估-择优”的闭环。
  • 联合优化机制:基于GRPO强化学习算法同步优化策略模型和SPRM,其中策略模型最大化答案正确率,SPRM用对比学习区分优质/低质推理步骤,二者共享梯度形成协同进化。
  • 涌现能力调控:设计思考长度与模型性能的Scaling Law,基于调整rollout次数控制计算量(参数量×思考token数),实现从快速响应(Low)到深度思考(High)的平滑过渡。

MetaStone-S1的项目地址

  • GitHub仓库:https://github.com/MetaStone-AI/MetaStone-S1
  • HuggingFace模型库:https://huggingface.co/MetaStoneTec
  • arXiv技术论文:https://arxiv.org/pdf/2507.00195

MetaStone-S1的应用场景

  • 教育智能化:作为”AI导师”精准解答数学/物理竞赛题,生成可交互的解题路径说明。
  • 法律智能领域:深度分析合同条款的逻辑关系,精准识别潜在法律风险点,提供符合法律逻辑的修订建议。
  • 智能制造领域:基于多级因果推理,快速定位工业设备故障根源,生成最优维修方案,显著提升生产效率。
  • 学术写作领域:支持科研论文的公式推导和理论验证,确保学术内容的逻辑严谨性。

📝 站长洞察 (Editor’s Insight)

MetaStone-S1的推出,代表了推理大模型范式的一次重要跃迁。它首次将“反思”能力内化到模型架构中,通过自监督过程奖励(SPRM)实现推理链的自动净化,这解决了大模型在严谨任务中“幻觉”频发的行业难题。从技术趋势看,模型正从追求参数规模转向优化推理效率与可靠性,MetaStone-S1的Test-Time Scaling和GRPO联合优化机制正是这一趋势的典范。其开源三档位模型,也为行业提供了低成本的推理增强方案,预计将加速AI在教育、法律、科研等深度推理场景的落地。这不仅是原石的技术突破,也为整个行业探索“自我改进型AI”提供了重要参考。

cpmGO – 面壁智能推出的首个纯端侧汽车智能助手
Mureka O1 – 昆仑万维推出的音乐推理大模型
AI Code Converter
ChatGPT Code Interpreter 代码解释器
高德发布全球首个3D原生城市世界模型ABot-Earth0.5,已开放内测
TAGGED:MetaStone-S1原石科技反思型大模型开源大模型推理链优化
分享
Email 复制链接 打印
Share
上一篇 蚂蚁开源Ming-Flash-Omni 2.0全模态大模型:MoE架构激活6B参数,统一理解生成引领SOTA
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

蚂蚁开源Ming-Flash-Omni 2.0全模态大模型:MoE架构激活6B参数,统一理解生成引领SOTA
AI 工具 AIGC 资讯
GPT‑5.3 Instant 深度评测:免费开放的轻量级对话模型,幻觉率暴降27%彻底告别「AI说教」
AI 工具 AIGC 资讯
GPT-5.4重磅发布:OpenAI旗舰AI模型集成电脑操作与深度搜索,专业工作性能首超人类
AI 工具 AIGC 资讯
FairyGen:大湾区大学AI框架,从单张草图生成风格一致、叙事连贯的动画故事视频
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

HippoRAG 2 – 俄亥俄州立大学推出的检索增强生成框架

站外新闻
AIGC 资讯

Social Media Agent – AI社交媒体内容管理工具,输入URL自动生成帖子

站外新闻
AI 工具AIGC 资讯

小红书开源OpenStoryline:首个具备导演思维的视频剪辑Agent,自然语言对话实现全流程AI创作

站外新闻
AIGC MCP协议 小红书开源 自然语言处理 视频剪辑Agent
AIGC 资讯

GigaTok – 港大联合字节推出用于自回归图像生成的视觉分词器

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.