OpenAI发布GPT‑5.4：首款超越人类的AI模型，75%成功率自主操作电脑完成复杂任务

💡 站外导读：当AI还在回答问题时，OpenAI的GPT-5.4已经开始“完成任务”。这款最新旗舰模型首次将推理、编程、原生计算机操作、深度网页搜索和百万Token上下文整合进单一模型，无需牺牲任何单项性能。在OSWorld电脑操作测试中，它以75%成功率首次超越人类水平；在GDPval知识工作测试中，83%的任务达到或超过专业人士水准。这意味着AI正从“智能助手”向“自主执行者”转变，能够理解界面、操作鼠标键盘、跨应用完成复杂工作流程，为专业工作自动化打开了全新大门。

GPT‑5.4是什么

GPT-5.4是OpenAI推出的旗舰AI模型，定位为”专为专业工作设计的最强前沿模型”。模型首次将推理、编程、原生计算机操作、深度网页搜索和百万Token上下文整合进单一模型，且未牺牲任何单项性能。在OSWorld电脑操作测试中，以75%成功率首次超越人类水平；在GDPval知识工作测试中，83%的任务达到或超过专业人士水准。GPT-5.4支持截图理解界面并执行鼠标键盘操作，可独立完成跨应用复杂任务，标志着AI从”回答问题”向”完成任务”的关键转变。

阅读目录

GPT‑5.4是什么
GPT‑5.4的主要功能
GPT‑5.4的性能表现
如何使用GPT‑5.4
GPT‑5.4的产品定价
GPT‑5.4的应用场景

📝 站长洞察 (Editor’s Insight)

GPT‑5.4

GPT‑5.4的主要功能

原生计算机操作：通过截图理解界面，执行鼠标点击和键盘输入，跨应用完成复杂任务（如发邮件、填表单、操作网页），OSWorld 测试成功率 75%，首次超越人类水平。
深度知识工作：支持处理 44 种职业的真实工作任务，包括制作 PPT、财务建模、数据分析、法律文档分析等，GDPval 测试 83% 达到或超过专业人士水准。
高阶编程与调试：整合 GPT-5.3-Codex 能力，支持代码生成、审查和优化；新增 Playwright Interactive 实现边写代码边可视化调试，可自动测试 Web 应用。
智能工具调用：引入工具搜索机制，按需查询工具定义，Token 消耗降低 47%；支持多步骤任务中灵活调用外部工具和 API。
深度网页搜索：支持多轮持续搜索、筛选信息并整合结果，BrowseComp 测试达 82.7%，擅长处理” needle-in-a-haystack “类复杂查询。
超长上下文处理：API 支持最高 100 万 Token 上下文，可一次性处理完整项目文档；支持高达 1024 万像素的高保真图像输入。
实时任务调控：复杂任务前先展示工作计划，执行中可随时调整方向，无需重新开始。
多模态视觉理解：视觉推理、文档解析和界面识别能力显著提升，支持高分辨率图像和复杂界面操作。

GPT‑5.4的性能表现

知识工作：
- GDPval 测试：83.0% 的任务达到或超过行业专家水平（GPT-5.2 仅 70.9%）。
- 投行级表格建模：87.3%（GPT-5.2 为 68.4%）。
- PPT 生成：人类评审68% 更偏好 GPT-5.4。
计算机操作：
- OSWorld-Verified：75.0% 成功率，首次超越人类基线 72.4%，GPT-5.2 仅 47.3%。
- WebArena-Verified：67.3%，浏览器任务处理能力领先。
- Online-Mind2Web：92.8%，纯截图观察即可精准操作网页。
编程能力：
- SWE-Bench Pro：57.7%，略超 GPT-5.3-Codex（56.8%），同时延迟更低、Token 效率更高。
- Terminal-Bench 2.0：75.1%，终端任务处理表现稳健。
工具与搜索：
- BrowseComp：82.7%（Pro 版高达 89.3%），较 GPT-5.2（65.8%）提升 17 个百分点，创业界新高。
- Toolathlon：54.6%（GPT-5.2 为 45.7%），多步骤工具调用更准确。
- Token 消耗：降低 47%，工具搜索机制在保持同等准确率下大幅降本。
学术与推理：
- GPQA Diamond：92.8%（Pro 版 94.4%），科学问答接近满分。
- Humanity’s Last Exam（带工具）：52.1%（Pro 版 58.7%），高难度综合测试表现突出。
- ARC-AGI-2：73.3%（Pro 版 83.3%），抽象推理能力大幅跃升，GPT-5.2 Pro 仅 54.2%。
可靠性：
- 单条事实错误概率：降低 33%。
- 完整回答出错率：降低 18%，成为 OpenAI 迄今最 factual 的模型。

GPT‑5.4

如何使用GPT‑5.4

ChatGPT：访问 ChatGPT 官网或 ChatGPT App，GPT-5.4 已向 ChatGPT Plus、Team 和 Pro 用户开放，替代 GPT-5.2 Thinking 成为默认思考模型。。
OpenAI API：通过 API 密钥调用 gpt-5.4 或 gpt-5.4-pro 模型端点，支持最高 100 万 Token 上下文和工具搜索功能，按 Token 用量计费。
Codex：访问 Codex 官网输入 /fast 开启加速模式，或使用实验性 1M 上下文窗口处理大型代码项目，支持 Playwright Interactive 可视化调试。

GPT‑5.4的产品定价

ChatGPT 订阅
- Plus/Business订阅：含 GPT-5.4 Thinking（每周3000次）。
- Pro订阅：含 GPT-5.4 Pro（不限量）。
API 按量计费
- GPT-5.4：输入 $2.50/百万Token，缓存输入 $0.25/百万Token，输出 $15/百万Token。
- GPT-5.4 Pro：输入 $30/百万Token，输出 $180/百万Token。

GPT‑5.4的应用场景

办公自动化：替代人工完成制作 PPT、财务建模、数据分析、文档处理等知识工作。
智能 Agent：自主操作电脑完成跨应用任务，如自动发送邮件、填写表单、调度日程、批量数据录入。
软件开发：全栈开发、代码审查、Bug 修复，支持边写边测的 Playwright 交互调试，可独立构建复杂 Web 应用和游戏。
企业流程：接入内部系统实现 RPA 自动化，处理税务申报、合同审核、客户服务等长周期多步骤任务。
深度研究：多轮网页搜索整合信息，处理需要跨来源验证的复杂查询。

📝 站长洞察 (Editor’s Insight)

GPT-5.4的发布标志着AI应用进入“执行时代”。从技术层面看，OpenAI成功实现了多模态能力的深度融合——计算机操作、长上下文、工具调用、视觉理解不再是割裂的功能，而是协同工作的有机整体。OSWorld测试中75%成功率超越人类基线，这个数字背后是AI对真实数字环境理解能力的质变。更值得关注的是其“智能工具调用”机制，Token消耗降低47%却保持同等准确率，这直接解决了企业级AI部署的成本痛点。从产业趋势看，GPT-5.4将加速RPA（机器人流程自动化）向IPA（智能流程自动化）演进，传统需要人工介入的跨应用复杂任务——财务建模、合同审核、数据录入——将逐步被AI Agent接管。然而，这也带来了新的挑战：当AI能够独立操作电脑完成任务时，我们需要重新思考人机协作的边界、数据安全框架以及相关伦理规范。OpenAI正通过GPT-5.4向市场传递一个明确信号：下一代AI竞争的核心不再是“谁更聪明”，而是“谁能更可靠地完成工作”。

OpenAI发布GPT‑5.4：首款超越人类的AI模型，75%成功率自主操作电脑完成复杂任务

GPT‑5.4是什么

GPT‑5.4的主要功能

GPT‑5.4的性能表现

如何使用GPT‑5.4

GPT‑5.4的产品定价

GPT‑5.4的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

腾讯混元世界模型1.1开源：单卡秒级推理的3D世界生成，如何重塑内容创作与工业仿真？

字节跳动Seed3D 1.0重磅发布：单图生成高精度3D模型，赋能物理仿真与AI机器人训练

蛐蛐QuQu：开源免费的中文语音输入神器，隐私本地运行，AI智能优化文本

百川智能Baichuan-M2 Plus：循证增强医疗大模型，六源推理范式引领AI医疗可信可用新纪元

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

GPT‑5.4是什么

GPT‑5.4的主要功能

GPT‑5.4的性能表现

如何使用GPT‑5.4

GPT‑5.4的产品定价

GPT‑5.4的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复