刊载于 2026年3月9日

GPT-5.4深度分析：OpenAI首个"大一统"模型如何重塑AI竞争格局

2026年3月5日，OpenAI发布GPT-5.4，首次在单一模型中整合推理、编程、计算机操控、网页搜索和百万Token上下文能力。本文深入分析其核心突破、技术创新、竞争格局及对企业AI应用的深远影响。

AI 专题分析 OpenAI GPT-5.4 AI Agent 计算机操控企业AI

GPT-5.4深度分析：OpenAI首个”大一统”模型如何重塑AI竞争格局

2026年3月5日深夜，OpenAI毫无预兆地扔出了王炸——GPT-5.4系列正式发布。

就在前一天，OpenAI才刚刚发布了GPT-5.3 Instant，重点优化用户体验和去”爹味”。不到24小时，GPT-5.4便接踵而至，这种密集的产品节奏让整个AI行业为之震动。

但GPT-5.4的意义远不止于一次常规的模型更新。它代表了OpenAI战略方向的重大转变：从”能力专精”走向”能力大一统”。这是OpenAI首次在单一模型中，把推理、编程、计算机操控、网页搜索和百万级Token上下文全部揉碎、重组，焊死在同一个模型里。

更关键的是，OpenAI特别强调，GPT-5.4没有因为N in one而牺牲掉任何一个单项的性能——在以上领域的多个关键基准测试中，它依然保持领先或持平。

这个”大一统”模型的出现，标志着AI竞争进入了全新阶段。从今往后，企业不再需要在”最好的编程模型""最好的推理模型""最好的计算机操控模型”之间做选择题——一个GPT-5.4，全都要。

GPT-5.4是什么？OpenAI首个”大一统”模型的战略野心

从分裂到统一：OpenAI产品线的战略重组

过去两年，OpenAI的产品线呈现出明显的”分裂”状态：

GPT-5.2系列：通用推理主力，但在专业场景下表现有限
GPT-5.3-Codex：编程专精模型，SWE-Bench Pro得分高达56.8%
GPT-5.3 Instant：优化用户体验，去”爹味”，降低幻觉率
各类专用模型：针对不同场景的特化版本

这种分裂状态让开发者和企业客户陷入选择困境：想要最好的编程能力，就得用Codex；想要最好的推理能力，就得用GPT-5.2；想要自然对话，就得用Instant——不同模型之间的能力割裂，增加了集成复杂度和成本。

GPT-5.4的出现，彻底改变了这个局面。OpenAI将GPT-5.3-Codex的顶尖编程能力整合进主线模型，同时保留了通用推理、计算机操控等全方位能力。

这意味着什么？

从技术架构看，GPT-5.4标志着OpenAI完成了从”任务特化”到”能力融合”的战略转型。未来的GPT模型线将呈现清晰的分层：

Instant系列：快速响应，优化日常对话体验
Thinking系列（GPT-5.4及后续）：深度推理，面向专业工作负载
Pro版本：极致性能，适合最复杂的任务

而在Codex中，开发者只需选择一个模型——GPT-5.4，就能同时获得顶尖的编程、推理和Agent能力，无需在多个模型间来回切换。

为专业工作而生的”AI数字员工”

OpenAI在官方博文中反复强调：GPT-5.4的目标是成为能够完成真实工作的Agent系统。

这背后的战略意图很清晰：OpenAI希望GPT-5.4不再只是一个”擅长回答问题的助手”，而是进化为”能独立负责整块业务的数字员工”。

这种定位转变体现在三个维度的飞跃：

第一，从”输出建议”到”直接行动”

以前的GPT模型只能生成文字、代码等输出，人类还需要亲自操作才能让事情发生。GPT-5.4的原生计算机操控能力，让它可以自己打开浏览器、填写表单、点击按钮、记录结果，独立完成一个有头有尾的任务闭环。

第二，从”单次问答”到”持续工作流”

百万Token上下文、深度网页搜索、工具调用优化，这些能力的叠加让GPT-5.4能够处理需要多轮、多步骤、多工具协同的复杂工作流。它不再是”一问一答”的聊天机器人，而是能够持续工作、自我验证、自我迭代的AI员工。

第三，从”辅助工具”到”责任主体”

在GDPval基准测试中，GPT-5.4在83.0%的知识工作任务中达到或超过了人类专业人士水准。这个数字的背后，是OpenAI试图让企业敢于把真实业务交给AI来负责——而不只是用来”提供建议”。

三大核心能力：GPT-5.4如何重新定义AI生产力

深度知识工作：83.0%的任务达到人类专家水准

理解GPT-5.4在知识工作上的突破，需要先理解GDPval这个基准测试的设计逻辑。

GDPval是什么？

它横跨美国GDP贡献最大的9个行业、44种职业。任务是那些职场里每天真实发生的工作：给投资银行写财务模型、给医院排急诊班次、给销售团队做演示文稿、制作制造业流程图甚至生成短视频。

任务完成后，把输出结果交给行业内的真实从业者盲测打分，看AI的产出能赢过多少比例的人类同行。

GPT-5.4的表现：

测试维度	GPT-5.4	GPT-5.2	GPT-5.3-Codex
GDPval综合得分	83.0%	70.9%	-
投行分析师建模任务	87.3%	68.4%	79.3%
PPT生成人类偏好	68.0%	-	-

这意味着什么？

GPT-5.4在83.0%的案例中达到了持平或更优的水准——换句话说，十次对比中有八次以上，行业专业人士认为AI的产出达到或超过了人类同行水准。上代GPT-5.2是70.9%，差距接近13个百分点。

进步在电子表格建模上表现得最为具体。在模拟初级投行分析师完成建模任务的内部测试中，GPT-5.4平均得分87.3%，而GPT-5.2仅为68.4%——差距接近20个百分点。

更值得注意的是演示文稿生成能力。在人类评审的PPT生成测试中，评委有68%的时间更偏好GPT-5.4生成的结果，原因包括：

视觉效果更好
版式更丰富
图片使用更合理

幻觉率大幅降低：

事实准确性一直是AI进入专业场景最大的拦路虎。GPT-5.4在这方面给出了令人瞩目的改进：

单条陈述错误率降低33%（相对）
完整回复包含错误的概率降低18%（相对）

每降低一个百分点，都意味着更多场景可以放心用它。对于法律、金融、医疗等高风险领域，这个进步可能意味着从”不能用于生产”到”可以谨慎试用”的关键跨越。

法律与专业服务的突破：

法律平台Harvey的BigLaw Bench测试结果显示，GPT-5.4得分91%。专业服务评测平台Mercor的APEX-Agents基准中，GPT-5.4也拿下了第一。

这些数据共同指向一个结论：在大量知识工作任务中，GPT-5.4的结果已经能够与专业从业者持平，甚至超过他们。

原生计算机操控：超越人类的桌面操作能力

GPT-5.4最引人关注的一项能力是原生计算机操作，这是GPT-5.4区别于以往所有模型的核心标志。

模型可以通过截图理解软件界面，然后执行鼠标点击和键盘输入等操作。包括发送邮件、创建日历事件、填写表单、操作网页等……都可以通过这种方式完成。

基准测试数据：

测试项目	GPT-5.4	GPT-5.2	人类基线
OSWorld-Verified（桌面导航）	75.0%	47.3%	72.4%
Online-Mind2Web（网页操作）	92.8%	-	-
WebArena-Verified（浏览器任务）	67.3%	65.4%	-

OSWorld-Verified是什么？

这个基准测试通过屏幕截图以及键盘/鼠标操作，来评估模型导航桌面环境的能力。GPT-5.4达到75.0%的成功率，不仅远超GPT-5.2的47.3%，还超越了人类72.4%的平均表现。

这是一个具有里程碑意义的数字——它标志着AI在计算机操控能力上，首次在标准化测试中全面超越人类平均水平。

真实部署案例：

Mainstay将GPT-5.4用于约三万个物业税务门户网站的自动表单填写，结果显示：

首次成功率达95%
三次以内成功率100%
此前同类模型仅在73%至79%之间
会话完成速度提升约三倍
Token消耗降低约70%

视觉感知能力的提升：

操控电脑说到底是一件需要”看清楚”的事——看清楚界面上有什么、按钮在哪里、点击是否准确。

GPT-5.4在这一层做了专项加强：

原始图像输入模式：支持最高1024万像素或6000像素最大边长的高保真图像输入
高清模式升级：上限从此前的标准提升至256万像素或2048像素最大边长

在与API用户进行的早期测试中，OpenAI观察到在使用”原始”或”高”精度模式时，模型的定位能力、图像理解以及点击准确度均有显著提升。

从”独立模块”到”原生能力”：

此前OpenAI的计算机操控能力是一个独立模块，跟模型的语言理解、代码生成之间有一道明显的分隔。两套系统各管各的，信息要来回传递，效率自然打折。

现在这道分隔没了。GPT-5.4操控电脑时，用的就是模型本身的推理能力，不需要再绕一圈。这也是OpenAI第一款将计算机使用能力原生内置进通用模型的产品。

高阶编程与调试：写代码、测代码、全自动化

GPT-5.4吸纳了此前最强的编程模型GPT-5.3-Codex的能力，同时保留了更低延迟的优势。

基准测试数据：

测试项目	GPT-5.4	GPT-5.3-Codex	GPT-5.2
SWE-Bench Pro（真实软件工程）	57.7%	56.8%	55.6%

SWE-Bench Pro专门测试真实软件工程任务，GPT-5.4得分57.7%，略高于GPT-5.3-Codex的56.8%。整合之后，编程分数不降反升，同时还顺带获得了计算机操控等一整套通用能力。

Playwright (Interactive)：边写代码边测试

OpenAI推出了一个名为”Playwright (Interactive)“的实验性Codex技能。它允许Codex对网页和Electron应用进行可视化调试；甚至在构建应用的过程中，它就能同步对该应用进行实时测试。

OpenAI展示了一个典型案例：仅凭一条轻量提示词，GPT-5.4生成了一个完整的等距视角主题公园模拟游戏，涵盖：

基于瓦片的路径铺设与景点建设系统
游客AI寻路与排队行为
资金、游客数、满意度、清洁度四项指标全部实时动态更新

Playwright (Interactive)在整个过程中承担了多轮自动化测试，验证路径铺设、摄像机导航、游客响应及UI指标的正确性。

从写代码到测试验收，模型全程自己完成。这种”边造边测”的能力，已经非常接近一个人类高级全栈工程师的工作流。

开发者实测反馈：

知名AI评测博主Dan Shipper试用后写道：

“这是我们最近一段时间里见过OpenAI最出色的规划能力，代码审查也很强，而且成本大约只有Opus的一半。”

他点出了两个具体维度：

规划能力是长任务成败的关键，GPT-5.4在任务拆解和持续推进上明显更有条理
与Claude Opus相比约一半的成本，对需要大规模API调用的开发者来说，这个差距在账单上会非常直观

博主Angel用GPT-5.4写了一个Minecraft克隆版，模型花了约24分钟，运行流畅，过程中没有卡住。他在推文里写道：

“Minecraft基本上被攻克了，我现在得找个新测试了。”

沃顿商学院教授Ethan Mollick同样获得了早期访问权限。他用同一条提示词，让GPT-5.4 Pro生成了一个受《皮拉内西》启发的三维空间场景，全程没有报错，只额外追加了一句”把它做得更好”的指令。

他随后把结果和两年前GPT-4生成的版本并排放在一起，差距一眼可见。

技术创新：从”对话式AI”到”可控AI”

思考过程预览：执行前先看计划

用过AI处理长任务的人大概都有过这种体验：等模型跑完一大段，发现方向不对，只能从头再来，时间全浪费了。

GPT-5.4 Thinking在ChatGPT中新增了一项**“思考过程预览”**功能：在处理复杂任务之前，模型会先呈现工作计划概要，再开始执行。

这个功能的价值在于：

用户可以在模型开始执行前就看到它的工作思路
如果方向不对，可以立即调整，不必等到结果出来再从头重来
对需要多轮协作的任务来说，体验差别会比较明显

中途打断：执行中实时调整

更进一步的创新是**“中途打断”功能**。

用户可以在模型生成过程中实时添加指令或调整其方向。这让你能更轻松地引导模型达成预期的结果，而无需推倒重来，或通过多轮额外对话进行补救。

从”完成后返工”到”执行中调整”：

这个功能把纠偏这件事从”完成后”提前到了”执行中”。对于企业场景来说，这意味着：

减少无效计算，降低成本
提升协作效率，加快迭代速度
增强可控性，让AI更符合实际业务需求

该功能目前已在chatgpt.com和Android应用上线，iOS应用也将于近期推出。

工具搜索：Token消耗骤降47%

在GPT-5.4中，OpenAI显著优化了模型与外部工具的协作方式。

过去的问题：

当模型调用工具时，所有的工具定义都必须预先包含在提示词中。对于拥有大量工具的系统，这会导致：

每次请求都额外增加数千甚至数万个Token
推高成本、减慢响应速度
上下文中充斥着模型可能永远用不到的冗余信息

GPT-5.4的解决方案：

通过工具搜索，GPT-5.4不再需要预加载完整定义，而是接收一份精简的可选工具列表及工具搜索能力。当模型需要调用特定工具时，它会即时查找该工具的定义，并将其添加到当前的对话上下文。

实际效果：

OpenAI对Scale MCP Atlas基准测试中的250个任务进行了评估。在开启全部36个MCP服务器的情况下，对比了两种模式：

将每个MCP函数直接暴露在模型上下文中
将所有MCP服务器置于”工具搜索”之后

结果显示，在保持同等准确率的前提下，“工具搜索”配置将总Token使用量降低了47%。

将近一半的成本节省，精度一点没少。这种成本控制手段说明OpenAI正试图让大模型大规模商业化变得更加现实——毕竟对于企业来说，省钱和好用同等重要。

/fast模式：Token生成速度提升1.5倍

开启Codex中的/fast模式后，包括GPT-5.4在内的所有受支持模型均可获得高达1.8倍的性能提升。

模型本身及其智能水平完全一致，只是速度更快。这意味着用户在处理编码任务、迭代和调试时，能够始终保持专注顺畅的状态。

性能与定价：更强了，但更贵还是更便宜？

定价策略：专业定位的溢价产品

从OpenAI公布的API定价表来看，GPT-5.4的定价比GPT-5.2要高出一截。

API定价对比：

模型	输入价格	缓存输入	输出价格
gpt-5.2	$1.75/百万token	$0.175/百万token	$14/百万token
gpt-5.4 (<272K)	$2.50/百万token	$0.25/百万token	$15/百万token
gpt-5.4 (>272K)	$5.00/百万token	$0.50/百万token	$22.50/百万token
gpt-5.2-pro	$21/百万token	-	$168/百万token
gpt-5.4-pro	$30/百万token	-	$180/百万token

GPT-5.2的每百万Token输入/输出价格分别是1.75美元和14美元，而GPT-5.4则上涨到了2.5美元和15美元。

尤其是对于那些追求极限性能的用户，GPT-5.4 Pro的价格更是飙升到了每百万输入30美元、输出180美元。

为什么涨价？

原因很明显：5.4被定位为针对专业机构和高端生产力场景的溢价产品。如果你只是写写简单的闲聊文案，继续用5.2或5.3 Instant其实更划算。

效率提升：Token消耗显著降低

虽然单价涨了，但GPT-5.4在Agent任务中的”省钱之道”主要藏在它的技术机制里。

OpenAI特别强调，与GPT-5.2相比，GPT-5.4在推理过程中使用的Token数量显著减少。Token消耗下降意味着：

响应速度更快
整体成本更低

在处理相同问题时，GPT-5.4所需的Token数量明显少于前代产品，这直接转化为：

更低的Token消耗
更快的响应速度

实际案例分析：

在工具搜索机制的测试中，Token使用量降低了47%。在计算机操控任务中，Mainstay报告Token消耗降低约70%。

这些数据表明，虽然GPT-5.4的单价上涨了，但在实际应用中，由于效率提升带来的Token节省，总成本可能并不会上升太多，甚至可能下降。

成本陷阱：一句Hi烧掉80美元

强大的推理能力也有它的另一面。

Hyperbolic联合创始人金宇晨在X平台吐槽，GPT-5.4 Pro是他用过最爱”过度思考”的模型——仅仅发了一句简单的”Hi”，模型就开始认真推理，直接烧掉了80美元。

这并非个例。推理模型的特性决定了它在处理任何输入时都倾向于深度思考，哪怕问题本身根本不需要。

对企业用户的启示：

日常轻量任务：标准版或许是更合适的选择
Pro版的推理火力：还是留给真正值得的场合更划算
成本控制机制：需要设置合理的预算和使用监控

这也引出一个问题：如果GPT-5.4 Pro是最智能、最接近AGI的模型……那么，你有什么AGI级别的问题要问它呢？

竞争格局：三分天下，各有所长

GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1 Pro

GPT-5.4发布后，AI模型竞争格局呈现出”三足鼎立”的态势。根据多方评测数据，三大模型各有优势领域：

GPT-5.4的优势领域：

Computer Use（计算机操控）：OSWorld-Verified 75.0%，超越人类
知识工作：GDPval 83.0%，显著领先
网页搜索：BrowseComp 82.7%，Pro版达89.3%
全能平衡：没有明显短板

Claude Opus 4.6的优势领域：

编程能力：SWE-Bench Pro得分更高，在代码质量上领先
Agent任务：在复杂多步骤任务中表现更稳定
安全性：坚持伦理红线，企业信任度更高

Gemini 3.1 Pro的优势领域：

抽象推理：GPQA Diamond 94.3%，在科学推理上卓越
性价比：标准层定价便宜约20%
上下文窗口：1M原生上下文，有竞争力的基准表现

没有一家全赢：

根据53AI的分析，GPT-5.4赢了5个benchmark类别，Claude Opus 4.6赢了2个，Gemini 3.1 Pro赢了3个。

GPT-5.4赢了Computer Use和知识工作，Claude Opus 4.6赢了编程和Agent，Gemini 3.1 Pro赢了推理和性价比。

定价对比：Claude比GPT-5.4贵2-3倍，Gemini最便宜

从定价角度看，三家呈现出明显的分层：

Gemini 3.1 Pro：最便宜，但可用性在某些场景受限
GPT-5.4：中等价位，全能性能
Claude Opus 4.6：最贵，比GPT-5.4贵2-3倍

对于需要高频调用Agent能力的应用，Claude的定价可能是致命伤。

企业选择困境：是选”理科大脑”还是”全能打工者”？

面对三大旗舰模型，企业用户陷入两难：

选Gemini 3.1 Pro：便宜、推理强，但计算机操控和知识工作能力相对较弱
选Claude Opus 4.6：编程强、安全可信，但价格昂贵且计算机操控能力不足
选GPT-5.4：全能平衡、计算机操控领先，但单价上涨

这个选择背后，其实是企业对AI应用场景的优先级排序：

如果企业最看重的是：

成本控制 → Gemini 3.1 Pro
代码质量和安全性 → Claude Opus 4.6
全能性能和Agent能力 → GPT-5.4

行业影响：AI Agent企业应用的拐点

从”聊天机器人”到”数字员工”

GPT-5.4的发布，标志着AI正在从一个擅长回答问题的系统，变成一个擅长完成任务的系统。

过去两年：

AI主要被用来：

写文案、做总结
回答问题、提供建议
辅助人类决策

GPT-5.4时代：

AI开始能够：

操作计算机，直接完成任务
调用工具，自动化工作流
持续搜索，整合多方信息
自我测试，验证结果

这种转变对企业的影响是深远的。AI不再只是一个”辅助工具”，而是可以成为”责任主体”——能够独立负责整块业务的数字员工。

AI Agent企业应用的关键能力

GPT-5.4的三大核心能力，恰好对应企业AI应用的三大痛点：

1. 知识工作自动化

财务建模：投行分析师建模任务准确率87.3%
文档生成：PPT生成人类偏好68%
数据分析：在各类专业任务中达到人类专家水准

2. 业务流程自动化

表单填写：税务门户网站首次成功率达95%
跨应用操作：能够在不同软件之间执行复杂工作流
持续任务：百万Token上下文支持长周期任务规划

3. 开发流程自动化

代码编写：SWE-Bench Pro得分57.7%
自动测试：Playwright (Interactive)支持边写边测
全栈开发：从生成代码到测试验收全程自动化

企业级AI市场的爆发前夜

中信证券研报表示，从OpenAI企业端AI的数据来看，2025年企业级AI处于场景探索阶段，用户数和流量实现高增，能力平权和人员降本价值凸显，且行业整体渗透率仍有较大提升空间。

GPT-5.4如何推动企业级AI爆发？

第一，降低集成复杂度

过去企业需要在不同模型间做选择和集成，现在一个GPT-5.4就能覆盖大部分场景，大幅降低了技术门槛和集成成本。

第二，提升可靠性

幻觉率降低33%、计算机操控超越人类、持续搜索能力提升，这些改进让企业敢于把真实业务交给AI来负责。

第三，控制成本

工具搜索机制使Token消耗降低47%，整体效率提升意味着在能力增强的同时，总成本可能不升反降。

AI Agent的商业化路径

根据企业级AI Agent价值及应用报告，AI Agent契合企业需求，天生适合处理复杂任务，强调执行与行动，具备自动化复杂流程的潜力，有望带来指数级效率提升和生产力解放。

GPT-5.4在Agent商业化中的优势：

原生计算机操控：无需额外适配，可直接操作现有软件系统
工具生态兼容：支持MCP等工具协议，可接入企业现有工具链
可控性增强：思考过程预览和中途打断功能，让企业更放心地部署

历史视角：从”能力特化”到”能力大一统”

AI模型演进的三个阶段

回顾过去两年的AI发展，可以清晰地看到三个阶段：

第一阶段：能力涌现（2022-2023）

GPT-3.5、GPT-4横空出世
大语言模型展现出惊人的通用能力
但在专业场景下表现不稳定

第二阶段：能力特化（2024-2025）

GPT-5.2专注推理
GPT-5.3-Codex专注编程
GPT-5.3 Instant专注用户体验
各类专用模型层出不穷

第三阶段：能力大一统（2026-）

GPT-5.4整合编程、推理、计算机操控、网页搜索
从”多个专精模型”走向”一个全能模型”
重点从”能力提升”转向”效率优化”

GPT-5.4的历史意义

从历史视角看，GPT-5.4的发布可能标志着：

第一，AI竞争进入”整合期”

过去两年，各大厂商都在疯狂扩充模型矩阵，推出各种专用模型。GPT-5.4的出现，可能预示着行业将从”能力分裂”走向”能力整合”。

第二，从”技术竞赛”转向”应用竞赛”

当头部模型的综合能力已达到实际应用阈值，竞争焦点将从”谁的模型更强”转向”谁的AI能帮企业赚更多钱/省更多钱”。

第三，AI从”辅助工具”进化为”生产力主体”

GPT-5.4的全能特性，使其能够独立完成有头有尾的任务闭环，而不只是提供建议。这可能是AI从”工具”到”员工”的关键转折点。

关键要点

GPT-5.4是OpenAI首个”大一统”模型，在单一模型中整合了推理、编程、计算机操控、网页搜索和百万Token上下文能力，且没有牺牲任何单项性能
深度知识工作能力显著提升，GDPval测试达到83.0%（GPT-5.2为70.9%），在投行分析师建模任务中准确率达87.3%（GPT-5.2为68.4%），幻觉率降低33%
原生计算机操控能力超越人类，OSWorld-Verified测试中成功率达75.0%（人类基线72.4%），Mainstay实际部署中首次成功率达95%，Token消耗降低约70%
编程能力整合不降反升，SWE-Bench Pro得分57.7%（GPT-5.3-Codex为56.8%），Playwright (Interactive)支持边写代码边测试，接近人类高级全栈工程师工作流
工具搜索机制大幅降低成本，在36个MCP服务器的测试中将Token使用量降低47%，/fast模式使Token生成速度提升1.8倍，整体效率提升显著
思考过程预览和中途打断功能，让用户在模型执行前看到工作计划，在执行中实时调整方向，从”完成后返工”进化为”执行中调整”
API定价上涨但效率提升，GPT-5.4输入$2.50/百万Token（GPT-5.2为$1.75），Pro版$30/百万Token，但Token消耗显著降低，总成本可能不升反降
竞争格局三分天下，GPT-5.4在计算机操控和知识工作上领先，Claude Opus 4.6在编程和Agent任务上更强，Gemini 3.1 Pro在推理和性价比上占优
AI Agent企业应用迎来拐点，从”聊天机器人”进化为”数字员工”，能够独立负责整块业务，企业级AI市场处于爆发前夜
从”能力特化”到”能力大一统”，AI竞争进入整合期，重点从”技术竞赛”转向”应用竞赛”，AI从”辅助工具”进化为”生产力主体”

常见问题

GPT-5.4和之前的GPT-5.3-Codex有什么区别？

GPT-5.4将GPT-5.3-Codex的顶尖编程能力整合进了主线模型。现在你不再需要为了写代码单独开一个模型，而且编程能力本身没有因此打折扣——SWE-Bench Pro得分从56.8%提升到57.7%。同时，GPT-5.4还获得了计算机操控、深度网页搜索等全方位能力，成为一个真正的”全能模型”。

GPT-5.4的”原生计算机操控”是什么意思？

这意味着GPT-5.4可以直接理解屏幕截图，然后发出鼠标点击和键盘输入指令来操作计算机。它不再需要独立的计算机操控模块，而是用模型本身的推理能力来完成这些任务。在OSWorld-Verified测试中，GPT-5.4的成功率达到75.0%，已经超越了人类72.4%的平均水平。

GPT-5.4的价格贵吗？值得升级吗？

GPT-5.4的单价确实比GPT-5.2高约43%（输入从$1.75涨到$2.50），但由于工具搜索等效率优化，实际任务中的Token消耗可能降低40-70%。对于计算机操控、Agent任务等复杂场景，总成本可能不升反降。但对于简单的日常对话，继续用GPT-5.2或5.3 Instant更划算。

GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro，我该选哪个？

这取决于你的优先级。如果最看重计算机操控和全能性能，选GPT-5.4；如果最看重代码质量和安全性，选Claude Opus 4.6；如果预算有限且主要需要推理能力，选Gemini 3.1 Pro。简单来说：GPT-5.4是”全能打工者”，Claude是”编程专家”，Gemini是”理科大脑”。

企业如何使用GPT-5.4？

GPT-5.4目前已通过API向企业开放，支持标准版和Pro版。Enterprise和Edu客户可由管理员在后台开启早期访问权限。GPT-5.4特别适合需要Agent能力、计算机操控、复杂工作流自动化的场景，如RPA（机器人流程自动化）、知识工作自动化、开发流程自动化等。

GPT-5.4的百万Token上下文真的能用吗？

GPT-5.4在API中支持最高100万Token的上下文窗口，但OpenAI的测试数据显示，128K至272K是表现最稳定的区间，适合日常使用。256K以上准确率开始下滑，512K至1M区间的得分降至36.6%，目前更接近实验性质。另外，超过272K的请求会按两倍用量计入配额，使用前需要权衡成本。

AI 观察👀