GPT-5.4横空出世：OpenAI发布能操作电脑的终极AI模型，75%任务超越人类水平

💡 站外导读：AI行业正面临一个关键转折点：模型能力越来越强，但实际工作场景中，AI依然停留在「辅助建议」阶段，无法真正接管任务。OpenAI发布的GPT-5.4试图打破这一瓶颈，首次将推理、编程、电脑操作和百万Token上下文整合为单一模型，让AI不仅能回答问题，更能独立操作电脑完成任务。在OSWorld测试中，它以75%成功率首次超越人类水平，标志着AI从工具向智能体的根本跃迁。

GPT‑5.4是什么

GPT-5.4是OpenAI推出的旗舰AI模型，定位为”专为专业工作设计的最强前沿模型”。模型首次将推理、编程、原生计算机操作、深度网页搜索和百万Token上下文整合进单一模型，且未牺牲任何单项性能。在OSWorld电脑操作测试中，以75%成功率首次超越人类水平；在GDPval知识工作测试中，83%的任务达到或超过专业人士水准。GPT-5.4支持截图理解界面并执行鼠标键盘操作，可独立完成跨应用复杂任务，标志着AI从”回答问题”向”完成任务”的关键转变。

阅读目录

GPT‑5.4是什么
GPT‑5.4的主要功能
GPT‑5.4的性能表现
如何使用GPT‑5.4
GPT‑5.4的产品定价
GPT‑5.4的应用场景

📝 站长洞察 (Editor’s Insight)

GPT‑5.4

GPT‑5.4的主要功能

原生计算机操作：通过截图理解界面，执行鼠标点击和键盘输入，跨应用完成复杂任务（如发邮件、填表单、操作网页），OSWorld 测试成功率 75%，首次超越人类水平。
深度知识工作：支持处理 44 种职业的真实工作任务，包括制作 PPT、财务建模、数据分析、法律文档分析等，GDPval 测试 83% 达到或超过专业人士水准。
高阶编程与调试：整合 GPT-5.3-Codex 能力，支持代码生成、审查和优化；新增 Playwright Interactive 实现边写代码边可视化调试，可自动测试 Web 应用。
智能工具调用：引入工具搜索机制，按需查询工具定义，Token 消耗降低 47%；支持多步骤任务中灵活调用外部工具和 API。
深度网页搜索：支持多轮持续搜索、筛选信息并整合结果，BrowseComp 测试达 82.7%，擅长处理” needle-in-a-haystack “类复杂查询。
超长上下文处理：API 支持最高 100 万 Token 上下文，可一次性处理完整项目文档；支持高达 1024 万像素的高保真图像输入。
实时任务调控：复杂任务前先展示工作计划，执行中可随时调整方向，无需重新开始。
多模态视觉理解：视觉推理、文档解析和界面识别能力显著提升，支持高分辨率图像和复杂界面操作。

GPT‑5.4的性能表现

知识工作：
- GDPval 测试：83.0% 的任务达到或超过行业专家水平（GPT-5.2 仅 70.9%）。
- 投行级表格建模：87.3%（GPT-5.2 为 68.4%）。
- PPT 生成：人类评审68% 更偏好 GPT-5.4。
计算机操作：
- OSWorld-Verified：75.0% 成功率，首次超越人类基线 72.4%，GPT-5.2 仅 47.3%。
- WebArena-Verified：67.3%，浏览器任务处理能力领先。
- Online-Mind2Web：92.8%，纯截图观察即可精准操作网页。
编程能力：
- SWE-Bench Pro：57.7%，略超 GPT-5.3-Codex（56.8%），同时延迟更低、Token 效率更高。
- Terminal-Bench 2.0：75.1%，终端任务处理表现稳健。
工具与搜索：
- BrowseComp：82.7%（Pro 版高达 89.3%），较 GPT-5.2（65.8%）提升 17 个百分点，创业界新高。
- Toolathlon：54.6%（GPT-5.2 为 45.7%），多步骤工具调用更准确。
- Token 消耗：降低 47%，工具搜索机制在保持同等准确率下大幅降本。
学术与推理：
- GPQA Diamond：92.8%（Pro 版 94.4%），科学问答接近满分。
- Humanity’s Last Exam（带工具）：52.1%（Pro 版 58.7%），高难度综合测试表现突出。
- ARC-AGI-2：73.3%（Pro 版 83.3%），抽象推理能力大幅跃升，GPT-5.2 Pro 仅 54.2%。
可靠性：
- 单条事实错误概率：降低 33%。
- 完整回答出错率：降低 18%，成为 OpenAI 迄今最 factual 的模型。

GPT‑5.4

如何使用GPT‑5.4

ChatGPT：访问 ChatGPT 官网或 ChatGPT App，GPT-5.4 已向 ChatGPT Plus、Team 和 Pro 用户开放，替代 GPT-5.2 Thinking 成为默认思考模型。。
OpenAI API：通过 API 密钥调用 gpt-5.4 或 gpt-5.4-pro 模型端点，支持最高 100 万 Token 上下文和工具搜索功能，按 Token 用量计费。
Codex：访问 Codex 官网输入 /fast 开启加速模式，或使用实验性 1M 上下文窗口处理大型代码项目，支持 Playwright Interactive 可视化调试。

GPT‑5.4的产品定价

ChatGPT 订阅
- Plus/Business订阅：含 GPT-5.4 Thinking（每周3000次）。
- Pro订阅：含 GPT-5.4 Pro（不限量）。
API 按量计费
- GPT-5.4：输入 $2.50/百万Token，缓存输入 $0.25/百万Token，输出 $15/百万Token。
- GPT-5.4 Pro：输入 $30/百万Token，输出 $180/百万Token。

GPT‑5.4的应用场景

办公自动化：替代人工完成制作 PPT、财务建模、数据分析、文档处理等知识工作。
智能 Agent：自主操作电脑完成跨应用任务，如自动发送邮件、填写表单、调度日程、批量数据录入。
软件开发：全栈开发、代码审查、Bug 修复，支持边写边测的 Playwright 交互调试，可独立构建复杂 Web 应用和游戏。
企业流程：接入内部系统实现 RPA 自动化，处理税务申报、合同审核、客户服务等长周期多步骤任务。
深度研究：多轮网页搜索整合信息，处理需要跨来源验证的复杂查询。

📝 站长洞察 (Editor’s Insight)

GPT-5.4的发布标志着AI Agent时代的真正开启。过去三年，行业一直在讨论AI的能力边界，而OpenAI这次选择了一条最激进的路径：让AI直接操作电脑完成工作，而非仅停留在对话层面。这背后的技术突破在于「原生计算机操作」——通过截图理解界面并执行鼠标键盘操作，AI第一次获得了与人类相同的数字世界「入口」。更值得关注的是其工具搜索机制，将Token消耗降低47%，这意味着Agent在执行复杂任务时的成本将大幅下降，企业级应用的门槛被显著拉低。从产业角度看，RPA、低代码平台、甚至部分外包服务都将面临重构压力。当AI能以83%的专业水准处理投行建模、PPT制作和法律文档时，知识工作者的核心价值将从「执行」转向「决策」和「创新」。这才是GPT-5.4真正带来的行业冲击——它不是在优化现有流程，而是在重新定义工作本身。

GPT-5.4横空出世：OpenAI发布能操作电脑的终极AI模型，75%任务超越人类水平

GPT‑5.4是什么

GPT‑5.4的主要功能

GPT‑5.4的性能表现

如何使用GPT‑5.4

GPT‑5.4的产品定价

GPT‑5.4的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

OpenAI扩大ChatGPT家长通知，青少年暴力违规将触发提醒

GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型

YouTube 收紧政策，严打低质 AI 内容

小鹏甩出TuringViT视觉编码器：只用十分之一数据，却把SOTA基线甩在身后

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

GPT‑5.4是什么

GPT‑5.4的主要功能

GPT‑5.4的性能表现

如何使用GPT‑5.4

GPT‑5.4的产品定价

GPT‑5.4的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复