GPT‑5.4发布：75%成功率超越人类，首款能独立操作电脑的AI模型来了

💡 站外导读：当AI不再只是“回答问题的助手”，而是能“替你完成任务的同事”，意味着什么？OpenAI最新发布的GPT‑5.4，正试图回答这一问题。这款旗舰模型首次将推理、编程、原生计算机操作、深度搜索和百万Token上下文能力整合进单一模型，并在多项测试中首次超越人类基准。从自动制作PPT、财务建模，到独立操作鼠标键盘完成跨应用任务，GPT‑5.4标志着AI从工具向自主Agent的关键跃迁，为知识工作者和开发者带来了全新的自动化可能。

GPT‑5.4是什么

GPT-5.4是OpenAI推出的旗舰AI模型，定位为”专为专业工作设计的最强前沿模型”。模型首次将推理、编程、原生计算机操作、深度网页搜索和百万Token上下文整合进单一模型，且未牺牲任何单项性能。在OSWorld电脑操作测试中，以75%成功率首次超越人类水平；在GDPval知识工作测试中，83%的任务达到或超过专业人士水准。GPT-5.4支持截图理解界面并执行鼠标键盘操作，可独立完成跨应用复杂任务，标志着AI从”回答问题”向”完成任务”的关键转变。

阅读目录

GPT‑5.4是什么
GPT‑5.4的主要功能
GPT‑5.4的性能表现
如何使用GPT‑5.4
GPT‑5.4的产品定价
GPT‑5.4的应用场景

📝 站长洞察 (Editor’s Insight)

GPT‑5.4

GPT‑5.4的主要功能

原生计算机操作：通过截图理解界面，执行鼠标点击和键盘输入，跨应用完成复杂任务（如发邮件、填表单、操作网页），OSWorld 测试成功率 75%，首次超越人类水平。
深度知识工作：支持处理 44 种职业的真实工作任务，包括制作 PPT、财务建模、数据分析、法律文档分析等，GDPval 测试 83% 达到或超过专业人士水准。
高阶编程与调试：整合 GPT-5.3-Codex 能力，支持代码生成、审查和优化；新增 Playwright Interactive 实现边写代码边可视化调试，可自动测试 Web 应用。
智能工具调用：引入工具搜索机制，按需查询工具定义，Token 消耗降低 47%；支持多步骤任务中灵活调用外部工具和 API。
深度网页搜索：支持多轮持续搜索、筛选信息并整合结果，BrowseComp 测试达 82.7%，擅长处理” needle-in-a-haystack “类复杂查询。
超长上下文处理：API 支持最高 100 万 Token 上下文，可一次性处理完整项目文档；支持高达 1024 万像素的高保真图像输入。
实时任务调控：复杂任务前先展示工作计划，执行中可随时调整方向，无需重新开始。
多模态视觉理解：视觉推理、文档解析和界面识别能力显著提升，支持高分辨率图像和复杂界面操作。

GPT‑5.4的性能表现

知识工作：
- GDPval 测试：83.0% 的任务达到或超过行业专家水平（GPT-5.2 仅 70.9%）。
- 投行级表格建模：87.3%（GPT-5.2 为 68.4%）。
- PPT 生成：人类评审68% 更偏好 GPT-5.4。
计算机操作：
- OSWorld-Verified：75.0% 成功率，首次超越人类基线 72.4%，GPT-5.2 仅 47.3%。
- WebArena-Verified：67.3%，浏览器任务处理能力领先。
- Online-Mind2Web：92.8%，纯截图观察即可精准操作网页。
编程能力：
- SWE-Bench Pro：57.7%，略超 GPT-5.3-Codex（56.8%），同时延迟更低、Token 效率更高。
- Terminal-Bench 2.0：75.1%，终端任务处理表现稳健。
工具与搜索：
- BrowseComp：82.7%（Pro 版高达 89.3%），较 GPT-5.2（65.8%）提升 17 个百分点，创业界新高。
- Toolathlon：54.6%（GPT-5.2 为 45.7%），多步骤工具调用更准确。
- Token 消耗：降低 47%，工具搜索机制在保持同等准确率下大幅降本。
学术与推理：
- GPQA Diamond：92.8%（Pro 版 94.4%），科学问答接近满分。
- Humanity’s Last Exam（带工具）：52.1%（Pro 版 58.7%），高难度综合测试表现突出。
- ARC-AGI-2：73.3%（Pro 版 83.3%），抽象推理能力大幅跃升，GPT-5.2 Pro 仅 54.2%。
可靠性：
- 单条事实错误概率：降低 33%。
- 完整回答出错率：降低 18%，成为 OpenAI 迄今最 factual 的模型。

GPT‑5.4

如何使用GPT‑5.4

ChatGPT：访问 ChatGPT 官网或 ChatGPT App，GPT-5.4 已向 ChatGPT Plus、Team 和 Pro 用户开放，替代 GPT-5.2 Thinking 成为默认思考模型。。
OpenAI API：通过 API 密钥调用 gpt-5.4 或 gpt-5.4-pro 模型端点，支持最高 100 万 Token 上下文和工具搜索功能，按 Token 用量计费。
Codex：访问 Codex 官网输入 /fast 开启加速模式，或使用实验性 1M 上下文窗口处理大型代码项目，支持 Playwright Interactive 可视化调试。

GPT‑5.4的产品定价

ChatGPT 订阅
- Plus/Business订阅：含 GPT-5.4 Thinking（每周3000次）。
- Pro订阅：含 GPT-5.4 Pro（不限量）。
API 按量计费
- GPT-5.4：输入 $2.50/百万Token，缓存输入 $0.25/百万Token，输出 $15/百万Token。
- GPT-5.4 Pro：输入 $30/百万Token，输出 $180/百万Token。

GPT‑5.4的应用场景

办公自动化：替代人工完成制作 PPT、财务建模、数据分析、文档处理等知识工作。
智能 Agent：自主操作电脑完成跨应用任务，如自动发送邮件、填写表单、调度日程、批量数据录入。
软件开发：全栈开发、代码审查、Bug 修复，支持边写边测的 Playwright 交互调试，可独立构建复杂 Web 应用和游戏。
企业流程：接入内部系统实现 RPA 自动化，处理税务申报、合同审核、客户服务等长周期多步骤任务。
深度研究：多轮网页搜索整合信息，处理需要跨来源验证的复杂查询。

📝 站长洞察 (Editor’s Insight)

GPT‑5.4的发布不仅是技术迭代，更是AI应用范式的分水岭。其核心突破在于“原生计算机操作”能力——AI首次能像人一样看屏幕、点鼠标、打键盘，这意味着“AI Agent”从概念走向了可用阶段。结合百万Token上下文和深度搜索，它不再只是代码助手或对话模型，而是能处理长周期、多步骤复杂任务的“数字员工”。对企业而言，这预示着RPA（机器人流程自动化）的智能化升级；对开发者，Playwright交互调试代表了“人机协同编程”的新形态。尽管Pro版API定价不菲，但其在SWE-Bench、BrowseComp等硬核测试中的表现，证明了其在真实工作场景中的可靠性。未来，AI竞争将从“谁更会聊天”转向“谁更能干活”。

GPT‑5.4发布：75%成功率超越人类，首款能独立操作电脑的AI模型来了

GPT‑5.4是什么

GPT‑5.4的主要功能

GPT‑5.4的性能表现

如何使用GPT‑5.4

GPT‑5.4的产品定价

GPT‑5.4的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

OmniParser – 微软推出的屏幕解析工具，将UI截图转换为结构化数据

Ditto – AI应用程序生成器，零编码自动规划和构建应用

Flux.1 Lite – Freepik推出的轻量级AI模型

Phidata – 创建具有记忆、知识、工具和推理能力的AI智能体框架

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

GPT‑5.4是什么

GPT‑5.4的主要功能

GPT‑5.4的性能表现

如何使用GPT‑5.4

GPT‑5.4的产品定价

GPT‑5.4的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复