Anthropic于5月29日正式发布了其最新旗舰大模型Claude Opus4.8。作为一次针对用户核心痛点的精准升级,新模型在保持原有价格体系的基础上,全面强化了智能体编程、复杂逻辑推理以及多领域知识工作能力。

1.png

在 AI 编程与智能体核心能力方面,新版本实现了重大飞跃。众多早期测试机构的反馈显示,Opus 4.8 的运行更加稳定,决策也更为精准。面对复杂的多步骤任务,它不仅表现出极高的可靠性,还能在发现计划不周时主动向用户提出质疑,并清晰标注不确定之处。评估数据表明,该模型默许自身编写的代码存在缺陷却未作说明的比率,大幅下降到上一代的四分之一,这显著减少了缺乏依据的结论。

2.png

在业界备受瞩目的基准测试中,新模型展现出了极强的统治力。官方数据显示,Opus4.8在知名编程基准测试SWE-Bench Pro上取得了69.2%的优秀成绩,并在多项核心主流基准测试中成功超越了GPT-5.5与Gemini3.1Pro,进一步巩固了其在行业内的第一梯队地位。

3.png

除了性能层面的飞跃,此次升级在用户体验和计算成本方面也带来了惊喜。全新的 Claude 平台特别引入了“努力程度”调控功能,让用户能够在追求极致质量与追求极速响应之间灵活权衡。更令人兴奋的是,新模型在快速模式下的运行速度一举提升至以往的 2.5 倍,而实际消耗的模型成本却被大幅压低,仅为此前模型的三分之一。这种能力增强、成本降低的升级策略,无疑为开发者提供了更强大的生产力支持。