💡 站外导读:当AI从聊天机器人进化为能独立操作电脑、处理复杂专业任务的智能体,一场深刻的生产力革命已然到来。OpenAI最新发布的旗舰模型GPT-5.4,正是这一转折点的标志性产品。它首次将推理、编程、计算机操作、深度搜索和百万级上下文整合于单一模型,并在多项权威测试中首次超越人类专家水平。这不仅标志着AI能力的跨越式提升,更预示着从“辅助回答”到“自主执行”的范式转变,将彻底重塑知识工作者的工作方式与企业的自动化流程。
GPT‑5.4是什么
GPT-5.4是OpenAI推出的旗舰AI模型,定位为”专为专业工作设计的最强前沿模型”。模型首次将推理、编程、原生计算机操作、深度网页搜索和百万Token上下文整合进单一模型,且未牺牲任何单项性能。在OSWorld电脑操作测试中,以75%成功率首次超越人类水平;在GDPval知识工作测试中,83%的任务达到或超过专业人士水准。GPT-5.4支持截图理解界面并执行鼠标键盘操作,可独立完成跨应用复杂任务,标志着AI从”回答问题”向”完成任务”的关键转变。

GPT‑5.4的主要功能
- 原生计算机操作:通过截图理解界面,执行鼠标点击和键盘输入,跨应用完成复杂任务(如发邮件、填表单、操作网页),OSWorld 测试成功率 75%,首次超越人类水平。
- 深度知识工作:支持处理 44 种职业的真实工作任务,包括制作 PPT、财务建模、数据分析、法律文档分析等,GDPval 测试 83% 达到或超过专业人士水准。
- 高阶编程与调试:整合 GPT-5.3-Codex 能力,支持代码生成、审查和优化;新增 Playwright Interactive 实现边写代码边可视化调试,可自动测试 Web 应用。
- 智能工具调用:引入工具搜索机制,按需查询工具定义,Token 消耗降低 47%;支持多步骤任务中灵活调用外部工具和 API。
- 深度网页搜索:支持多轮持续搜索、筛选信息并整合结果,BrowseComp 测试达 82.7%,擅长处理” needle-in-a-haystack “类复杂查询。
- 超长上下文处理:API 支持最高 100 万 Token 上下文,可一次性处理完整项目文档;支持高达 1024 万像素的高保真图像输入。
- 实时任务调控:复杂任务前先展示工作计划,执行中可随时调整方向,无需重新开始。
- 多模态视觉理解:视觉推理、文档解析和界面识别能力显著提升,支持高分辨率图像和复杂界面操作。
GPT‑5.4的性能表现
- 知识工作:
-
GDPval 测试:83.0% 的任务达到或超过行业专家水平(GPT-5.2 仅 70.9%)。
-
投行级表格建模:87.3%(GPT-5.2 为 68.4%)。
-
PPT 生成:人类评审68% 更偏好 GPT-5.4。
-
- 计算机操作:
-
OSWorld-Verified:75.0% 成功率,首次超越人类基线 72.4%,GPT-5.2 仅 47.3%。
-
WebArena-Verified:67.3%,浏览器任务处理能力领先。
-
Online-Mind2Web:92.8%,纯截图观察即可精准操作网页。
-
- 编程能力:
- SWE-Bench Pro:57.7%,略超 GPT-5.3-Codex(56.8%),同时延迟更低、Token 效率更高。
- Terminal-Bench 2.0:75.1%,终端任务处理表现稳健。
- 工具与搜索:
-
BrowseComp:82.7%(Pro 版高达 89.3%),较 GPT-5.2(65.8%)提升 17 个百分点,创业界新高。
-
Toolathlon:54.6%(GPT-5.2 为 45.7%),多步骤工具调用更准确。
-
Token 消耗:降低 47%,工具搜索机制在保持同等准确率下大幅降本。
-
- 学术与推理:
-
GPQA Diamond:92.8%(Pro 版 94.4%),科学问答接近满分。
-
Humanity’s Last Exam(带工具):52.1%(Pro 版 58.7%),高难度综合测试表现突出。
-
ARC-AGI-2:73.3%(Pro 版 83.3%),抽象推理能力大幅跃升,GPT-5.2 Pro 仅 54.2%。
-
- 可靠性:
-
单条事实错误概率:降低 33%。
-
完整回答出错率:降低 18%,成为 OpenAI 迄今最 factual 的模型。
-

如何使用GPT‑5.4
- ChatGPT:访问 ChatGPT 官网或 ChatGPT App,GPT-5.4 已向 ChatGPT Plus、Team 和 Pro 用户开放,替代 GPT-5.2 Thinking 成为默认思考模型。。
- OpenAI API:通过 API 密钥调用
gpt-5.4或gpt-5.4-pro模型端点,支持最高 100 万 Token 上下文和工具搜索功能,按 Token 用量计费。 - Codex:访问 Codex 官网输入
/fast开启加速模式,或使用实验性 1M 上下文窗口处理大型代码项目,支持 Playwright Interactive 可视化调试。
GPT‑5.4的产品定价
- ChatGPT 订阅
-
Plus/Business订阅:含 GPT-5.4 Thinking(每周3000次)。
-
Pro订阅:含 GPT-5.4 Pro(不限量)。
-
- API 按量计费
-
GPT-5.4:输入 $2.50/百万Token,缓存输入 $0.25/百万Token,输出 $15/百万Token。
-
GPT-5.4 Pro:输入 $30/百万Token,输出 $180/百万Token。
-
GPT‑5.4的应用场景
- 办公自动化:替代人工完成制作 PPT、财务建模、数据分析、文档处理等知识工作。
- 智能 Agent:自主操作电脑完成跨应用任务,如自动发送邮件、填写表单、调度日程、批量数据录入。
- 软件开发:全栈开发、代码审查、Bug 修复,支持边写边测的 Playwright 交互调试,可独立构建复杂 Web 应用和游戏。
- 企业流程:接入内部系统实现 RPA 自动化,处理税务申报、合同审核、客户服务等长周期多步骤任务。
- 深度研究:多轮网页搜索整合信息,处理需要跨来源验证的复杂查询。
📝 站长洞察 (Editor’s Insight)
GPT-5.4的发布绝非一次简单的模型迭代,而是AI Agent时代正式开启的宣言。其核心突破在于“原生计算机操作”与“任务闭环能力”的实现——AI首次能像人类一样,通过屏幕截图理解界面,并自主操作鼠标键盘完成跨应用复杂任务。这意味着AI的边界从文本生成,正式扩展至物理世界的数字交互。结合其75%的OSWorld测试成功率首次超越人类,我们看到的不是一个更聪明的聊天机器人,而是一个可以7×24小时工作的“数字员工”。从行业趋势看,这将加速企业RPA(机器人流程自动化)向IPA(智能流程自动化)的跃迁,初级的知识工作、数据录入、报表生成等岗位面临重构。但更重要的是,它为开发者提供了构建真正自主Agent的基础设施,Playwright交互调试等功能将大幅降低复杂应用的开发门槛。OpenAI通过降低47%的工具调用Token消耗,也显示出其构建经济可扩展的Agent生态的野心。GPT-5.4不仅是一个工具,更是通往AGI道路上一个清晰的里程碑:AI开始真正理解并行动于我们构建的数字世界。
