GPT-5.4 正式发布：OpenAI 旗舰模型首超人类，赋能专业工作全流程

💡 站外导读：当 AI 还在比拼对话流畅度时，OpenAI 已悄然推出 GPT-5.4，一个能直接操作电脑、完成专业工作的“数字员工”。这标志着 AI 发展进入新阶段：从被动的问答助手，进化为主动执行复杂任务的智能体。GPT-5.4 在多项测试中首次超越人类基准，预示着知识工作自动化时代的全面到来，企业与个人的工作模式将面临根本性重塑。

GPT‑5.4是什么

GPT-5.4是OpenAI推出的旗舰AI模型，定位为”专为专业工作设计的最强前沿模型”。模型首次将推理、编程、原生计算机操作、深度网页搜索和百万Token上下文整合进单一模型，且未牺牲任何单项性能。在OSWorld电脑操作测试中，以75%成功率首次超越人类水平；在GDPval知识工作测试中，83%的任务达到或超过专业人士水准。GPT-5.4支持截图理解界面并执行鼠标键盘操作，可独立完成跨应用复杂任务，标志着AI从”回答问题”向”完成任务”的关键转变。

阅读目录

GPT‑5.4是什么
GPT‑5.4的主要功能
GPT‑5.4的性能表现
如何使用GPT‑5.4
GPT‑5.4的产品定价
GPT‑5.4的应用场景

📝 站长洞察 (Editor’s Insight)

GPT‑5.4

GPT‑5.4的主要功能

原生计算机操作：通过截图理解界面，执行鼠标点击和键盘输入，跨应用完成复杂任务（如发邮件、填表单、操作网页），OSWorld 测试成功率 75%，首次超越人类水平。
深度知识工作：支持处理 44 种职业的真实工作任务，包括制作 PPT、财务建模、数据分析、法律文档分析等，GDPval 测试 83% 达到或超过专业人士水准。
高阶编程与调试：整合 GPT-5.3-Codex 能力，支持代码生成、审查和优化；新增 Playwright Interactive 实现边写代码边可视化调试，可自动测试 Web 应用。
智能工具调用：引入工具搜索机制，按需查询工具定义，Token 消耗降低 47%；支持多步骤任务中灵活调用外部工具和 API。
深度网页搜索：支持多轮持续搜索、筛选信息并整合结果，BrowseComp 测试达 82.7%，擅长处理” needle-in-a-haystack “类复杂查询。
超长上下文处理：API 支持最高 100 万 Token 上下文，可一次性处理完整项目文档；支持高达 1024 万像素的高保真图像输入。
实时任务调控：复杂任务前先展示工作计划，执行中可随时调整方向，无需重新开始。
多模态视觉理解：视觉推理、文档解析和界面识别能力显著提升，支持高分辨率图像和复杂界面操作。

GPT‑5.4的性能表现

知识工作：
- GDPval 测试：83.0% 的任务达到或超过行业专家水平（GPT-5.2 仅 70.9%）。
- 投行级表格建模：87.3%（GPT-5.2 为 68.4%）。
- PPT 生成：人类评审68% 更偏好 GPT-5.4。
计算机操作：
- OSWorld-Verified：75.0% 成功率，首次超越人类基线 72.4%，GPT-5.2 仅 47.3%。
- WebArena-Verified：67.3%，浏览器任务处理能力领先。
- Online-Mind2Web：92.8%，纯截图观察即可精准操作网页。
编程能力：
- SWE-Bench Pro：57.7%，略超 GPT-5.3-Codex（56.8%），同时延迟更低、Token 效率更高。
- Terminal-Bench 2.0：75.1%，终端任务处理表现稳健。
工具与搜索：
- BrowseComp：82.7%（Pro 版高达 89.3%），较 GPT-5.2（65.8%）提升 17 个百分点，创业界新高。
- Toolathlon：54.6%（GPT-5.2 为 45.7%），多步骤工具调用更准确。
- Token 消耗：降低 47%，工具搜索机制在保持同等准确率下大幅降本。
学术与推理：
- GPQA Diamond：92.8%（Pro 版 94.4%），科学问答接近满分。
- Humanity’s Last Exam（带工具）：52.1%（Pro 版 58.7%），高难度综合测试表现突出。
- ARC-AGI-2：73.3%（Pro 版 83.3%），抽象推理能力大幅跃升，GPT-5.2 Pro 仅 54.2%。
可靠性：
- 单条事实错误概率：降低 33%。
- 完整回答出错率：降低 18%，成为 OpenAI 迄今最 factual 的模型。

GPT‑5.4

如何使用GPT‑5.4

ChatGPT：访问 ChatGPT 官网或 ChatGPT App，GPT-5.4 已向 ChatGPT Plus、Team 和 Pro 用户开放，替代 GPT-5.2 Thinking 成为默认思考模型。。
OpenAI API：通过 API 密钥调用 gpt-5.4 或 gpt-5.4-pro 模型端点，支持最高 100 万 Token 上下文和工具搜索功能，按 Token 用量计费。
Codex：访问 Codex 官网输入 /fast 开启加速模式，或使用实验性 1M 上下文窗口处理大型代码项目，支持 Playwright Interactive 可视化调试。

GPT‑5.4的产品定价

ChatGPT 订阅
- Plus/Business订阅：含 GPT-5.4 Thinking（每周3000次）。
- Pro订阅：含 GPT-5.4 Pro（不限量）。
API 按量计费
- GPT-5.4：输入 $2.50/百万Token，缓存输入 $0.25/百万Token，输出 $15/百万Token。
- GPT-5.4 Pro：输入 $30/百万Token，输出 $180/百万Token。

GPT‑5.4的应用场景

办公自动化：替代人工完成制作 PPT、财务建模、数据分析、文档处理等知识工作。
智能 Agent：自主操作电脑完成跨应用任务，如自动发送邮件、填写表单、调度日程、批量数据录入。
软件开发：全栈开发、代码审查、Bug 修复，支持边写边测的 Playwright 交互调试，可独立构建复杂 Web 应用和游戏。
企业流程：接入内部系统实现 RPA 自动化，处理税务申报、合同审核、客户服务等长周期多步骤任务。
深度研究：多轮网页搜索整合信息，处理需要跨来源验证的复杂查询。

📝 站长洞察 (Editor’s Insight)

GPT-5.4 的发布，绝非一次简单的模型迭代，而是 AI Agent 从概念走向大规模应用的关键拐点。其核心突破在于“原生计算机操作”与“深度知识工作”的深度融合，这直接击中了当前 AI 应用“只能动口，不能动手”的痛点。OpenAI 将推理、编程、搜索、上下文处理等能力整合进单一模型，展现了构建通用任务执行框架的野心。这背后是 AI 基础设施从“生成内容”到“执行操作”的范式转移，将催生新一代的软件形态与商业模式。对于企业而言，它意味着 RPA（机器人流程自动化）的智能化升级；对于开发者，则是构建复杂 Agent 应用的全新基座。未来，AI 的竞争维度将更多体现在任务规划、环境交互与可靠性上，GPT-5.4 已为此树立了新的行业标杆。

GPT-5.4 正式发布：OpenAI 旗舰模型首超人类，赋能专业工作全流程

GPT‑5.4是什么

GPT‑5.4的主要功能

GPT‑5.4的性能表现

如何使用GPT‑5.4

GPT‑5.4的产品定价

GPT‑5.4的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

CAD-MLLM – 上海科技大学联合多机构推出的计算机辅助设计CAD模型生成系统

LaTRO – 基于自我奖励提升LLMs复杂推理能力的框架

ReCapture – 谷歌和新加坡国立大学共同推出的视频处理技术

MagicClay – Adobe 推出的3D建模工具，文本引导3D模型局部雕刻

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

GPT‑5.4是什么

GPT‑5.4的主要功能

GPT‑5.4的性能表现

如何使用GPT‑5.4

GPT‑5.4的产品定价

GPT‑5.4的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复