GPT-5.4 · OpenAI

GPT-5.4 将推理、编码和智能体工作流方面的进展融合到一个前沿模型中。

2026 年 3 月 6 日,OpenAI 正式推出了 GPT-5.4 系列模型。与此前版本相比,GPT-5.4 并没有一味追求单项性能的极致突破,而是在代码执行、知识推理和多模态理解三个维度上实现了更好的平衡,使其在真实工作场景中的表现更加稳定可靠。

GPT-5.4 基准测试对比

OSWorld

75.0%

WebArena

67.3%

SWE-Bench

57.7%

GPQA

92.8%

GPT-5.4 哪些用户可以使用?

根据 OpenAI 目前公布的上线计划,GPT-5.4 的推送节奏如下:

  • ChatGPT 付费用户(包括 Plus、Pro、Business、Enterprise)已开始分批次接收推送;
  • 免费版及 ChatGPT Go 用户预计将在后续阶段陆续获得访问权限;
  • 旧版模型(如 GPT-5.1)将在过渡期后逐步下线。

简单来说,OpenAI 延续了先向付费用户灰度开放、再逐步全量推送的策略。付费用户不仅能更早使用新模型,还能获得更高的调用额度和更完整的功能支持。

为何 GPT-5.4 更适合 Agent 应用?

一个真正能投入生产的 AI Agent,通常需要同时具备三项核心能力:

  • 代码能力 — 能够编写和执行代码,完成自动化操作;
  • 世界知识 — 能够理解复杂的业务背景和上下文;
  • 多模态理解 — 能够识别和解读页面、图片等视觉信息。

此前的模型版本往往存在"某一项特别突出、但另一项明显不足"的问题。GPT-5.4 的核心价值在于将这三项能力拉到了更加均衡的水平。对于需要让 AI 连续执行多步骤复杂任务的开发者而言,这种综合能力的平衡往往比单项指标的极端表现更有实际意义。

GPT-5.4 综合能力评估:代码 · 推理 · 多模态 · 知识 · Agent

原生计算机操作:从回答问题到执行任务

GPT-5.4 的一项重要进化是引入了原生计算机操作能力(Native Computer Use)。通俗地说,模型不再只是告诉你"应该怎么操作",而是能够在受控环境下直接完成一系列界面操作:打开应用、点击按钮、填写表单、切换页面。

在桌面自动化相关的基准测试中,GPT-5.4 展现出了显著的进步。这意味着在办公流程自动化、跨系统数据处理、重复性任务批量执行等场景中,它正在从"理论上可行"向"实际可部署"迈进。

ChatGPT · GPT-5.4

New
U

帮我分析这个数据表格,找出异常值并生成可视化图表。

G

正在分析数据...

📊 数据分析 🖥️ 代码执行 📈 图表生成

生态与定价:关注实际可用性

对大多数用户来说,选择模型时真正需要考虑的不只是跑分成绩,而是以下几个维度:

  • 订阅费用是否在合理范围内;
  • 第三方工具和插件生态是否完善;
  • 日常使用中是否流畅、是否频繁触发限制。

从目前的信息来看,GPT-5.4 延续了 Plus 订阅即可体验核心功能的定价策略,同时在开发者 API 和工具集成方面保持了开放态度。对于长期使用 ChatGPT 作为主力工具的用户来说,升级后的体验提升是实打实的。

GPT-5.4 能力维度对比

代码生成95%
推理能力92%
多模态理解88%
计算机操作75%
Agent 协作89%

国内用户如何快速体验?

如果你已经拥有 ChatGPT Plus 账号,可以直接在模型切换菜单中查看 GPT-5.4 是否已推送到你的账号。由于采用分批推送的方式,部分用户可能需要等待几天。

如果你尚未开通 Plus 订阅,建议尽早完成升级,这样可以更快进入新模型的推送批次。

如需便捷的国内升级通道,欢迎使用:

98GPT — 国内 ChatGPT Plus 自助充值平台

总结

GPT-5.4 的核心升级可以用三句话概括:

  • 多步骤复杂任务的执行链路更加完整和可靠;
  • 代码生成与自然语言理解的综合表现更加均衡;
  • 面向 Agent 和自动化场景的实用价值显著提升。

无论你是在探索 AI 办公自动化、构建智能客服系统,还是在进行内容创作和软件开发,GPT-5.4 都值得尽快上手体验,感受新一代模型在实际工作中的差异。

参考资料: