GPT-5.4发布：首个超越人类的AI Agent，75%电脑操作成功率重新定义生产力

💡 站外导读：当AI还在比拼谁回答问题更准，GPT-5.4已悄然跨过了那条界线——它不再只是你的问答助手，而是一位能独立操作电脑、完成跨应用复杂任务的数字员工。在OSWorld电脑操作测试中，75%的成功率首次超越人类基线72.4%，这意味着AI在真实工作环境中的执行力已达到新高度。面对企业降本增效、个人效率提升的迫切需求，GPT-5.4的出现标志着AI从被动响应向主动执行的关键转折。

GPT‑5.4是什么

GPT-5.4是OpenAI推出的旗舰AI模型，定位为”专为专业工作设计的最强前沿模型”。模型首次将推理、编程、原生计算机操作、深度网页搜索和百万Token上下文整合进单一模型，且未牺牲任何单项性能。在OSWorld电脑操作测试中，以75%成功率首次超越人类水平；在GDPval知识工作测试中，83%的任务达到或超过专业人士水准。GPT-5.4支持截图理解界面并执行鼠标键盘操作，可独立完成跨应用复杂任务，标志着AI从”回答问题”向”完成任务”的关键转变。

阅读目录

GPT‑5.4是什么
GPT‑5.4的主要功能
GPT‑5.4的性能表现
如何使用GPT‑5.4
GPT‑5.4的产品定价
GPT‑5.4的应用场景

📝 站长洞察 (Editor’s Insight)

GPT‑5.4

GPT‑5.4的主要功能

原生计算机操作：通过截图理解界面，执行鼠标点击和键盘输入，跨应用完成复杂任务（如发邮件、填表单、操作网页），OSWorld 测试成功率 75%，首次超越人类水平。
深度知识工作：支持处理 44 种职业的真实工作任务，包括制作 PPT、财务建模、数据分析、法律文档分析等，GDPval 测试 83% 达到或超过专业人士水准。
高阶编程与调试：整合 GPT-5.3-Codex 能力，支持代码生成、审查和优化；新增 Playwright Interactive 实现边写代码边可视化调试，可自动测试 Web 应用。
智能工具调用：引入工具搜索机制，按需查询工具定义，Token 消耗降低 47%；支持多步骤任务中灵活调用外部工具和 API。
深度网页搜索：支持多轮持续搜索、筛选信息并整合结果，BrowseComp 测试达 82.7%，擅长处理” needle-in-a-haystack “类复杂查询。
超长上下文处理：API 支持最高 100 万 Token 上下文，可一次性处理完整项目文档；支持高达 1024 万像素的高保真图像输入。
实时任务调控：复杂任务前先展示工作计划，执行中可随时调整方向，无需重新开始。
多模态视觉理解：视觉推理、文档解析和界面识别能力显著提升，支持高分辨率图像和复杂界面操作。

GPT‑5.4的性能表现

知识工作：
- GDPval 测试：83.0% 的任务达到或超过行业专家水平（GPT-5.2 仅 70.9%）。
- 投行级表格建模：87.3%（GPT-5.2 为 68.4%）。
- PPT 生成：人类评审68% 更偏好 GPT-5.4。
计算机操作：
- OSWorld-Verified：75.0% 成功率，首次超越人类基线 72.4%，GPT-5.2 仅 47.3%。
- WebArena-Verified：67.3%，浏览器任务处理能力领先。
- Online-Mind2Web：92.8%，纯截图观察即可精准操作网页。
编程能力：
- SWE-Bench Pro：57.7%，略超 GPT-5.3-Codex（56.8%），同时延迟更低、Token 效率更高。
- Terminal-Bench 2.0：75.1%，终端任务处理表现稳健。
工具与搜索：
- BrowseComp：82.7%（Pro 版高达 89.3%），较 GPT-5.2（65.8%）提升 17 个百分点，创业界新高。
- Toolathlon：54.6%（GPT-5.2 为 45.7%），多步骤工具调用更准确。
- Token 消耗：降低 47%，工具搜索机制在保持同等准确率下大幅降本。
学术与推理：
- GPQA Diamond：92.8%（Pro 版 94.4%），科学问答接近满分。
- Humanity’s Last Exam（带工具）：52.1%（Pro 版 58.7%），高难度综合测试表现突出。
- ARC-AGI-2：73.3%（Pro 版 83.3%），抽象推理能力大幅跃升，GPT-5.2 Pro 仅 54.2%。
可靠性：
- 单条事实错误概率：降低 33%。
- 完整回答出错率：降低 18%，成为 OpenAI 迄今最 factual 的模型。

GPT‑5.4

如何使用GPT‑5.4

ChatGPT：访问 ChatGPT 官网或 ChatGPT App，GPT-5.4 已向 ChatGPT Plus、Team 和 Pro 用户开放，替代 GPT-5.2 Thinking 成为默认思考模型。。
OpenAI API：通过 API 密钥调用 gpt-5.4 或 gpt-5.4-pro 模型端点，支持最高 100 万 Token 上下文和工具搜索功能，按 Token 用量计费。
Codex：访问 Codex 官网输入 /fast 开启加速模式，或使用实验性 1M 上下文窗口处理大型代码项目，支持 Playwright Interactive 可视化调试。

GPT‑5.4的产品定价

ChatGPT 订阅
- Plus/Business订阅：含 GPT-5.4 Thinking（每周3000次）。
- Pro订阅：含 GPT-5.4 Pro（不限量）。
API 按量计费
- GPT-5.4：输入 $2.50/百万Token，缓存输入 $0.25/百万Token，输出 $15/百万Token。
- GPT-5.4 Pro：输入 $30/百万Token，输出 $180/百万Token。

GPT‑5.4的应用场景

办公自动化：替代人工完成制作 PPT、财务建模、数据分析、文档处理等知识工作。
智能 Agent：自主操作电脑完成跨应用任务，如自动发送邮件、填写表单、调度日程、批量数据录入。
软件开发：全栈开发、代码审查、Bug 修复，支持边写边测的 Playwright 交互调试，可独立构建复杂 Web 应用和游戏。
企业流程：接入内部系统实现 RPA 自动化，处理税务申报、合同审核、客户服务等长周期多步骤任务。
深度研究：多轮网页搜索整合信息，处理需要跨来源验证的复杂查询。

📝 站长洞察 (Editor’s Insight)

GPT-5.4的发布不仅是一次模型迭代，更是AI范式转移的里程碑。它将Agent能力深度内化，而非依赖外部工具链编排，这直接挑战了当前RPA和自动化领域的技术路线。从产业视角看，当AI能自主操作软件界面、调用API、执行多步任务，传统SaaS的护城河将被重新定义——未来竞争力不在于功能丰富度，而在于能否成为AI Agent的高效执行层。值得关注的是，其47%的Token消耗降低，预示着成本曲线正加速下探，大规模企业部署的临界点已近在眼前。对从业者而言，与其焦虑被替代，不如思考如何成为AI Agent的指挥官而非执行者。

GPT-5.4发布：首个超越人类的AI Agent，75%电脑操作成功率重新定义生产力

GPT‑5.4是什么

GPT‑5.4的主要功能

GPT‑5.4的性能表现

如何使用GPT‑5.4

GPT‑5.4的产品定价

GPT‑5.4的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型

GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型

GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型

Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

GPT‑5.4是什么

GPT‑5.4的主要功能

GPT‑5.4的性能表现

如何使用GPT‑5.4

GPT‑5.4的产品定价

GPT‑5.4的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复