GPT-5.4,它来了!

  它更像是一个“模型能力大一统”成果:OpenAI首次在单一模型中,把推理(Reasoning)、编程(Coding)、计算机原生交互(Computer Use)、深度网页搜索以及百万级Token上下文全部揉碎、重组,焊死在了同一个模型里。

  重点是,没有因为N in one而牺牲掉任何一个单项的性能——

  OpenAI特别强调,GPT-5.4在以上领域的多个关键基准测试中依然保持领先。

  跳票许久的OpenAI,终于冷不丁给了AI大模型圈梆梆一拳。

  其中最能吸引开发者目光的,莫过于它是OpenAI首个原生支持“计算机使用”能力的通用模型。

  我耳边都已经听到GPT-5.4的声音了:

玩儿龙虾的朋友们,走过路过考虑一下我咯~

  同时,官方博文显示,GPT-5.4的效率也出现了明显提升。

  相比GPT-5.2,GPT-5.4在推理过程中使用的Token数量显著减少。

  Token消耗下降意味着响应速度更快,同时整体成本也更低。

  是的,它变强了,但也变便宜、变快了。

  这也是OpenAI这次发布反复强调的一点:能力提升和效率优化是同时发生的。

  随着GPT-5.4上线,ChatGPT中的模型体系也随之调整。

  GPT-5.4同步上线ChatGPT、API以及Codex。

  在API价格体系中,GPT-5.4的单Token价格略高于GPT-5.2,但由于任务所需Token减少,总体成本可能并不会上升太多。

  面向复杂任务的GPT-5.4 Pro版本也一起推出,在ChatGPT中则提供为GPT-5.4 Thinking。

  值得小伙伴们注意的一点,GPT-5.4 Thinking将取代此前的GPT-5.2 Thinking,且GPT-5.2将在三个月后正式退役。

  而GPT-5.1系列将在3月11日就要从ChatGPT里say bye bye了。

  珍惜你们最后相处的甜蜜时光吧~

  目前各个社交媒体已经炸开了锅。

  有网友感慨道拥有百万token上下文窗口、还能原生使用电脑的GPT-5.4,和苹果史上最便宜笔记本电脑MacBook Neo同周发布……

  “天爷啊,我的笔记本电脑正在经历一场存在主义危机!!”

  三大能力提升,系OpenAI首个原生支持电脑操作的通用模型

  在具体能力层面,GPT-5.4的升级可以概括为三个方向:

  • 深度知识工作 (Knowledge Work)

  • 原生计算机使用 (Computer Use)

  • 高阶编程与调试 (Coding)

  这三种能力基本覆盖了当前大多数数字工作的核心流程,而GPT-5.4都做得挺出色。

  我们一一来看。

  深度知识工作 (Knowledge Work)

  首先是知识工作能力。

  在衡量AI处理44种职业知识工作能力的GDPval基准测试中,它平局+获胜的综合得分83.0%。

  多说几句嗷,GDPval评测主要是用来测试模型在真实职业场景中的表现,它评测涉及44种职业,覆盖了美国GDP贡献最高的9个行业。

  具体任务上并不只是简单问答,它要求模型完成真实工作产物,例如销售演示文稿、会计表格、排班表、制造流程图甚至短视频。

  所以在大量知识工作任务中,GPT-5.4的结果已经能够与专业从业者持平,甚至超过他们。

  此外,OpenAI特别强化了GPT-5.4在办公文档领域的能力。

  例如在内部投资银行建模测试中,GPT-5.4的平均得分达到87.3%,而GPT-5.2为68.4%。在人类评审的PPT生成测试中,评委有68%的时间更偏好GPT-5.4生成的结果,原因包括视觉效果更好、版式更丰富以及图片使用更合理。

  从应用角度来看,这些能力对应的场景非常直接。

  包括写报告、做财务模型、制作演示文稿、分析商业数据等工作,都是典型的知识型任务。

  GPT-5.4正在朝着这类任务进行专门优化。

  原生计算机使用 (Computer Use)

  GPT-5.4最引人关注的一项能力是原生计算机操作,这是GPT-5.4区别于以往所有模型的核心标志。

  模型可以通过截图理解软件界面,然后执行鼠标点击和键盘输入等操作。

  包括发送邮件、创建日历事件、填写表单、操作网页等……都可以通过这种方式完成。

  在WebArena浏览器任务测试中,GPT-5.4取得67.3%的成功率,高于GPT-5.2的65.4%。

  在Online-Mind2Web测试中,仅通过截图观察完成网页操作时,GPT-5.4的成功率达到92.8%。

  此外,在OSWorld-Verified基准测试中,GPT-5.4在桌面操作任务中的成功率达到75.0%,已经超过人类平均水平(72.4%)。

  这些数据背后代表的是一种新的交互模式,也算是没落下最近的龙虾狂热潮。

  高阶编程与调试

  第三个关键能力来自编程。

  而且强调的是“高阶编程”。

  GPT-5.4吸纳了此前最强的编程模型GPT-5.3-Codex的能力。现在的它不仅支持Token输出速度提升1.5倍的/fast模式,还加入了一个名为“Playwright (Interactive)”的实验性技能。

  它允许AI在帮你写网页或者应用时,开启一个窗口进行视觉化调试。

  比如你给它一个简单的需求去做模拟游戏,它能一边生成美术资产、一边写逻辑,甚至一边运行自动测试来验证游戏状态是否正常。

  在SWE-Bench Pro测试中,GPT-5.4取得57.7%的成绩,略高于GPT-5.3-Codex的56.8%,同时延迟更低。

  内部测试还显示,GPT-5.4在复杂前端任务中的表现明显优于此前模型。生成的界面设计更加美观,功能结构也更完整。

  为了展示这一能力,OpenAI演示了一个由GPT-5.4生成的浏览器主题公园模拟游戏。

  模型从简单提示词出发,生成游戏资源、构建场景、编写逻辑,并通过自动浏览器测试不断迭代。

  这种“边造边测”的能力,已经非常接近一个人类高级全栈工程师的工作流。

  一种趋势不言而喻:

UI交互正在取代繁琐的API对接,成为AI操作世界的新主流路径。

  emmmm,这可能会让很多中间件失去价值。

  整体定位:AI数字员工

  看完上述能力的整合,你就能读懂OpenAI在官方博文里透露出的野心。

  OpenAI在发布文章中多次提到:

GPT-5.4的目标是成为能够完成真实工作的Agent系统。

  如果说之前的GPT模型版本还是一个需要你盯着看的辅助工具,那么GPT-5.4已经开始尝试成为一个能独立负责整块业务的数字员工。

  这种“AI数字员工化”体现在三个维度的飞跃。

  首先是电脑操作能力。

  模型可以通过截图理解软件界面,并通过鼠标和键盘指令进行操作。

  这使得AI能够直接在电脑环境中执行任务。

  其次是浏览器任务能力。

  在BrowseComp测试中,GPT-5.4的成绩达到82.7%,而GPT-5.4 Pro达到89.3%,比GPT-5.2提升17个百分点。

  这意味着模型能够持续搜索网页、筛选信息并整合结果,尤其适合处理需要多轮检索的问题。

  第三是多工具调用能力。

  在Toolathlon基准测试中,GPT-5.4取得54.6%的准确率,高于GPT-5.2的45.7%。

  这个测试的任务通常需要多步骤操作,例如读取邮件附件、上传文件、评分作业并记录到表格中。

  这种按需检索工具的能力是降低Agent运行成本的关键,它解决了过去模型在面对复杂指令时容易“迷路”或者Token爆炸的问题。

  此外,对于对延迟要求较高的场景(在这种场景中,人们倾向于不进行推理操作),GPT-5.4 比其前辈版本有了进一步的改进。

  细节之处的全面进化

  除了上述支柱能力,GPT-5.4在办公细节上也进行了大量打磨。

  比如它在创建和编辑电子表格、PPT方面的表现,其表格建模准确率从68.4%跃升至87.3%。

  在演示文稿生成测试中,人类评审也更偏好GPT-5.4的结果,认为其视觉多样性和审美更强。

  同时,视觉能力的提升也带动了文档解析的进步。

  在MMMU-Pro视觉推理测试中,GPT-5.4取得81.2%的准确率,高于GPT-5.2的79.5%。

  更重要的是,它现在支持高达1024万像素的原图输入,对高密度、高分辨率的图像理解更加精准。

  视觉能力的提升也带来了更强的文档解析能力。

  在OmniDocBench测试中,GPT-5.4的平均错误率从0.140下降到0.109。

  最令人欣慰的是错误率的下降。

  从官方介绍中能初步感觉到,GPT-5.4是个极其讲求事实的模型,其事实错误概率比前代降低了33%,大大缓解了用户对模型幻觉的焦虑。

  在效率方面,GPT-5.4引入工具搜索机制。

  过去模型在使用工具时,需要在Prompt中包含所有工具定义。如果工具数量很多,Prompt就会变得非常庞大。

  现在模型可以先获取工具列表,然后按需查询具体工具定义。

  在实现相同准确率的情况下,将总Token使用率降低了47%。

  这种成本控制手段说明OpenAI正试图让大模型大规模商业化变得更加现实,毕竟对于企业来说,省钱和好用同等重要。

  更好用了,但更省钱了吗?

  从OpenAI公布的API定价表来看,GPT-5.4的定价确实比5.2版本要高出一截。

  GPT-5.2的每百万Token输入/输出价格分别是1.75美元和14美元,而GPT-5.4则上涨到了2.5美元和15美元。

  尤其是对于那些追求极限性能的用户,GPT-5.4 Pro的价格更是飙升到了每百万输入30美元。

  当然,原因肯定是5.4被定位为针对专业机构和高端生产力场景的溢价产品。

  如果你只是写写简单的闲聊文案,继续用5.2其实更划算。

  不过虽然单价涨了,但GPT-5.4在Agent任务中的“省钱之道”主要藏在它的技术机制里。

  最核心的一点是就是工具搜索(Tool Search)功能。

  以往我们让AI接入外部工具(比如接入几十个公司的数据库和内部接口)时,必须把所有工具的定义全部塞进提示词里。

  哪怕AI这次只用了一个工具,你也得为剩下的几十个工具的定义支付Token费用。

  但在GPT-5.4下,由于引入了类似“查字典”的搜索机制,模型可以先看一遍简略的工具清单,等确定要用哪个时,再临时去调取那个工具的详细定义。

  在针对MCP Atlas基准测试的实验中,这项技术在保持同等准确率的情况下,把总Token使用量足足降低了47%。

  One more Thing

  大家沉浸在技术狂欢中时,也有网友分享了一些肉痛瞬间。

  永远在冲浪一线的Yuchen Jin只是对GPT 5.4 Pro说了一句“Hi,俺是Anthropic创始人”,就花掉了整整560元……

  技术进步好快,但网友的心好痛。

  这也引出一个问题,杀鸡焉用牛刀?

如果GPT-5.4 Pro是最智能、最接近AGI的模型……那么,你有什么AGI级别的问题要问它呢?

(何况还这么贵,TAT)