AI 观察👀

记录、思考,but AI

刊载于

GPT-5.4深度分析:OpenAI首个"大一统"模型如何重塑AI竞争格局

2026年3月5日,OpenAI发布GPT-5.4,首次在单一模型中整合推理、编程、计算机操控、网页搜索和百万Token上下文能力。本文深入分析其核心突破、技术创新、竞争格局及对企业AI应用的深远影响。

AI 专题分析 OpenAI GPT-5.4 AI Agent 计算机操控 企业AI

GPT-5.4深度分析:OpenAI首个”大一统”模型如何重塑AI竞争格局

2026年3月5日深夜,OpenAI毫无预兆地扔出了王炸——GPT-5.4系列正式发布。

就在前一天,OpenAI才刚刚发布了GPT-5.3 Instant,重点优化用户体验和去”爹味”。不到24小时,GPT-5.4便接踵而至,这种密集的产品节奏让整个AI行业为之震动。

但GPT-5.4的意义远不止于一次常规的模型更新。它代表了OpenAI战略方向的重大转变:从”能力专精”走向”能力大一统”。这是OpenAI首次在单一模型中,把推理、编程、计算机操控、网页搜索和百万级Token上下文全部揉碎、重组,焊死在同一个模型里。

更关键的是,OpenAI特别强调,GPT-5.4没有因为N in one而牺牲掉任何一个单项的性能——在以上领域的多个关键基准测试中,它依然保持领先或持平。

这个”大一统”模型的出现,标志着AI竞争进入了全新阶段。从今往后,企业不再需要在”最好的编程模型""最好的推理模型""最好的计算机操控模型”之间做选择题——一个GPT-5.4,全都要。


GPT-5.4是什么?OpenAI首个”大一统”模型的战略野心

从分裂到统一:OpenAI产品线的战略重组

过去两年,OpenAI的产品线呈现出明显的”分裂”状态:

  • GPT-5.2系列:通用推理主力,但在专业场景下表现有限
  • GPT-5.3-Codex:编程专精模型,SWE-Bench Pro得分高达56.8%
  • GPT-5.3 Instant:优化用户体验,去”爹味”,降低幻觉率
  • 各类专用模型:针对不同场景的特化版本

这种分裂状态让开发者和企业客户陷入选择困境:想要最好的编程能力,就得用Codex;想要最好的推理能力,就得用GPT-5.2;想要自然对话,就得用Instant——不同模型之间的能力割裂,增加了集成复杂度和成本

GPT-5.4的出现,彻底改变了这个局面。OpenAI将GPT-5.3-Codex的顶尖编程能力整合进主线模型,同时保留了通用推理、计算机操控等全方位能力。

这意味着什么?

从技术架构看,GPT-5.4标志着OpenAI完成了从”任务特化”到”能力融合”的战略转型。未来的GPT模型线将呈现清晰的分层:

  • Instant系列:快速响应,优化日常对话体验
  • Thinking系列(GPT-5.4及后续):深度推理,面向专业工作负载
  • Pro版本:极致性能,适合最复杂的任务

而在Codex中,开发者只需选择一个模型——GPT-5.4,就能同时获得顶尖的编程、推理和Agent能力,无需在多个模型间来回切换。

为专业工作而生的”AI数字员工”

OpenAI在官方博文中反复强调:GPT-5.4的目标是成为能够完成真实工作的Agent系统

这背后的战略意图很清晰:OpenAI希望GPT-5.4不再只是一个”擅长回答问题的助手”,而是进化为”能独立负责整块业务的数字员工”。

这种定位转变体现在三个维度的飞跃:

第一,从”输出建议”到”直接行动”

以前的GPT模型只能生成文字、代码等输出,人类还需要亲自操作才能让事情发生。GPT-5.4的原生计算机操控能力,让它可以自己打开浏览器、填写表单、点击按钮、记录结果,独立完成一个有头有尾的任务闭环。

第二,从”单次问答”到”持续工作流”

百万Token上下文、深度网页搜索、工具调用优化,这些能力的叠加让GPT-5.4能够处理需要多轮、多步骤、多工具协同的复杂工作流。它不再是”一问一答”的聊天机器人,而是能够持续工作、自我验证、自我迭代的AI员工。

第三,从”辅助工具”到”责任主体”

在GDPval基准测试中,GPT-5.4在83.0%的知识工作任务中达到或超过了人类专业人士水准。这个数字的背后,是OpenAI试图让企业敢于把真实业务交给AI来负责——而不只是用来”提供建议”。


三大核心能力:GPT-5.4如何重新定义AI生产力

深度知识工作:83.0%的任务达到人类专家水准

理解GPT-5.4在知识工作上的突破,需要先理解GDPval这个基准测试的设计逻辑。

GDPval是什么?

它横跨美国GDP贡献最大的9个行业、44种职业。任务是那些职场里每天真实发生的工作:给投资银行写财务模型、给医院排急诊班次、给销售团队做演示文稿、制作制造业流程图甚至生成短视频。

任务完成后,把输出结果交给行业内的真实从业者盲测打分,看AI的产出能赢过多少比例的人类同行。

GPT-5.4的表现:

测试维度GPT-5.4GPT-5.2GPT-5.3-Codex
GDPval综合得分83.0%70.9%-
投行分析师建模任务87.3%68.4%79.3%
PPT生成人类偏好68.0%--

这意味着什么?

GPT-5.4在83.0%的案例中达到了持平或更优的水准——换句话说,十次对比中有八次以上,行业专业人士认为AI的产出达到或超过了人类同行水准。上代GPT-5.2是70.9%,差距接近13个百分点。

进步在电子表格建模上表现得最为具体。在模拟初级投行分析师完成建模任务的内部测试中,GPT-5.4平均得分87.3%,而GPT-5.2仅为68.4%——差距接近20个百分点

更值得注意的是演示文稿生成能力。在人类评审的PPT生成测试中,评委有68%的时间更偏好GPT-5.4生成的结果,原因包括:

  • 视觉效果更好
  • 版式更丰富
  • 图片使用更合理

幻觉率大幅降低:

事实准确性一直是AI进入专业场景最大的拦路虎。GPT-5.4在这方面给出了令人瞩目的改进:

  • 单条陈述错误率降低33%(相对)
  • 完整回复包含错误的概率降低18%(相对)

每降低一个百分点,都意味着更多场景可以放心用它。对于法律、金融、医疗等高风险领域,这个进步可能意味着从”不能用于生产”到”可以谨慎试用”的关键跨越。

法律与专业服务的突破:

法律平台Harvey的BigLaw Bench测试结果显示,GPT-5.4得分91%。专业服务评测平台Mercor的APEX-Agents基准中,GPT-5.4也拿下了第一。

这些数据共同指向一个结论:在大量知识工作任务中,GPT-5.4的结果已经能够与专业从业者持平,甚至超过他们

原生计算机操控:超越人类的桌面操作能力

GPT-5.4最引人关注的一项能力是原生计算机操作,这是GPT-5.4区别于以往所有模型的核心标志。

模型可以通过截图理解软件界面,然后执行鼠标点击和键盘输入等操作。包括发送邮件、创建日历事件、填写表单、操作网页等……都可以通过这种方式完成。

基准测试数据:

测试项目GPT-5.4GPT-5.2人类基线
OSWorld-Verified(桌面导航)75.0%47.3%72.4%
Online-Mind2Web(网页操作)92.8%--
WebArena-Verified(浏览器任务)67.3%65.4%-

OSWorld-Verified是什么?

这个基准测试通过屏幕截图以及键盘/鼠标操作,来评估模型导航桌面环境的能力。GPT-5.4达到75.0%的成功率,不仅远超GPT-5.2的47.3%,还超越了人类72.4%的平均表现

这是一个具有里程碑意义的数字——它标志着AI在计算机操控能力上,首次在标准化测试中全面超越人类平均水平。

真实部署案例:

Mainstay将GPT-5.4用于约三万个物业税务门户网站的自动表单填写,结果显示:

  • 首次成功率达95%
  • 三次以内成功率100%
  • 此前同类模型仅在73%至79%之间
  • 会话完成速度提升约三倍
  • Token消耗降低约70%

视觉感知能力的提升:

操控电脑说到底是一件需要”看清楚”的事——看清楚界面上有什么、按钮在哪里、点击是否准确。

GPT-5.4在这一层做了专项加强:

  • 原始图像输入模式:支持最高1024万像素或6000像素最大边长的高保真图像输入
  • 高清模式升级:上限从此前的标准提升至256万像素或2048像素最大边长

在与API用户进行的早期测试中,OpenAI观察到在使用”原始”或”高”精度模式时,模型的定位能力、图像理解以及点击准确度均有显著提升。

从”独立模块”到”原生能力”:

此前OpenAI的计算机操控能力是一个独立模块,跟模型的语言理解、代码生成之间有一道明显的分隔。两套系统各管各的,信息要来回传递,效率自然打折。

现在这道分隔没了。GPT-5.4操控电脑时,用的就是模型本身的推理能力,不需要再绕一圈。这也是OpenAI第一款将计算机使用能力原生内置进通用模型的产品。

高阶编程与调试:写代码、测代码、全自动化

GPT-5.4吸纳了此前最强的编程模型GPT-5.3-Codex的能力,同时保留了更低延迟的优势。

基准测试数据:

测试项目GPT-5.4GPT-5.3-CodexGPT-5.2
SWE-Bench Pro(真实软件工程)57.7%56.8%55.6%

SWE-Bench Pro专门测试真实软件工程任务,GPT-5.4得分57.7%,略高于GPT-5.3-Codex的56.8%。整合之后,编程分数不降反升,同时还顺带获得了计算机操控等一整套通用能力。

Playwright (Interactive):边写代码边测试

OpenAI推出了一个名为”Playwright (Interactive)“的实验性Codex技能。它允许Codex对网页和Electron应用进行可视化调试;甚至在构建应用的过程中,它就能同步对该应用进行实时测试。

OpenAI展示了一个典型案例:仅凭一条轻量提示词,GPT-5.4生成了一个完整的等距视角主题公园模拟游戏,涵盖:

  • 基于瓦片的路径铺设与景点建设系统
  • 游客AI寻路与排队行为
  • 资金、游客数、满意度、清洁度四项指标全部实时动态更新

Playwright (Interactive)在整个过程中承担了多轮自动化测试,验证路径铺设、摄像机导航、游客响应及UI指标的正确性。

从写代码到测试验收,模型全程自己完成。这种”边造边测”的能力,已经非常接近一个人类高级全栈工程师的工作流。

开发者实测反馈:

知名AI评测博主Dan Shipper试用后写道:

“这是我们最近一段时间里见过OpenAI最出色的规划能力,代码审查也很强,而且成本大约只有Opus的一半。”

他点出了两个具体维度:

  1. 规划能力是长任务成败的关键,GPT-5.4在任务拆解和持续推进上明显更有条理
  2. 与Claude Opus相比约一半的成本,对需要大规模API调用的开发者来说,这个差距在账单上会非常直观

博主Angel用GPT-5.4写了一个Minecraft克隆版,模型花了约24分钟,运行流畅,过程中没有卡住。他在推文里写道:

“Minecraft基本上被攻克了,我现在得找个新测试了。”

沃顿商学院教授Ethan Mollick同样获得了早期访问权限。他用同一条提示词,让GPT-5.4 Pro生成了一个受《皮拉内西》启发的三维空间场景,全程没有报错,只额外追加了一句”把它做得更好”的指令。

他随后把结果和两年前GPT-4生成的版本并排放在一起,差距一眼可见


技术创新:从”对话式AI”到”可控AI”

思考过程预览:执行前先看计划

用过AI处理长任务的人大概都有过这种体验:等模型跑完一大段,发现方向不对,只能从头再来,时间全浪费了。

GPT-5.4 Thinking在ChatGPT中新增了一项**“思考过程预览”**功能:在处理复杂任务之前,模型会先呈现工作计划概要,再开始执行。

这个功能的价值在于:

  • 用户可以在模型开始执行前就看到它的工作思路
  • 如果方向不对,可以立即调整,不必等到结果出来再从头重来
  • 对需要多轮协作的任务来说,体验差别会比较明显

中途打断:执行中实时调整

更进一步的创新是**“中途打断”功能**。

用户可以在模型生成过程中实时添加指令或调整其方向。这让你能更轻松地引导模型达成预期的结果,而无需推倒重来,或通过多轮额外对话进行补救。

从”完成后返工”到”执行中调整”:

这个功能把纠偏这件事从”完成后”提前到了”执行中”。对于企业场景来说,这意味着:

  • 减少无效计算,降低成本
  • 提升协作效率,加快迭代速度
  • 增强可控性,让AI更符合实际业务需求

该功能目前已在chatgpt.com和Android应用上线,iOS应用也将于近期推出。

工具搜索:Token消耗骤降47%

在GPT-5.4中,OpenAI显著优化了模型与外部工具的协作方式。

过去的问题:

当模型调用工具时,所有的工具定义都必须预先包含在提示词中。对于拥有大量工具的系统,这会导致:

  • 每次请求都额外增加数千甚至数万个Token
  • 推高成本、减慢响应速度
  • 上下文中充斥着模型可能永远用不到的冗余信息

GPT-5.4的解决方案:

通过工具搜索,GPT-5.4不再需要预加载完整定义,而是接收一份精简的可选工具列表及工具搜索能力。当模型需要调用特定工具时,它会即时查找该工具的定义,并将其添加到当前的对话上下文。

实际效果:

OpenAI对Scale MCP Atlas基准测试中的250个任务进行了评估。在开启全部36个MCP服务器的情况下,对比了两种模式:

  1. 将每个MCP函数直接暴露在模型上下文中
  2. 将所有MCP服务器置于”工具搜索”之后

结果显示,在保持同等准确率的前提下,“工具搜索”配置将总Token使用量降低了47%

将近一半的成本节省,精度一点没少。这种成本控制手段说明OpenAI正试图让大模型大规模商业化变得更加现实——毕竟对于企业来说,省钱和好用同等重要

/fast模式:Token生成速度提升1.5倍

开启Codex中的/fast模式后,包括GPT-5.4在内的所有受支持模型均可获得高达1.8倍的性能提升。

模型本身及其智能水平完全一致,只是速度更快。这意味着用户在处理编码任务、迭代和调试时,能够始终保持专注顺畅的状态。


性能与定价:更强了,但更贵还是更便宜?

定价策略:专业定位的溢价产品

从OpenAI公布的API定价表来看,GPT-5.4的定价比GPT-5.2要高出一截。

API定价对比:

模型输入价格缓存输入输出价格
gpt-5.2$1.75/百万token$0.175/百万token$14/百万token
gpt-5.4 (<272K)$2.50/百万token$0.25/百万token$15/百万token
gpt-5.4 (>272K)$5.00/百万token$0.50/百万token$22.50/百万token
gpt-5.2-pro$21/百万token-$168/百万token
gpt-5.4-pro$30/百万token-$180/百万token

GPT-5.2的每百万Token输入/输出价格分别是1.75美元和14美元,而GPT-5.4则上涨到了2.5美元和15美元

尤其是对于那些追求极限性能的用户,GPT-5.4 Pro的价格更是飙升到了每百万输入30美元、输出180美元

为什么涨价?

原因很明显:5.4被定位为针对专业机构和高端生产力场景的溢价产品。如果你只是写写简单的闲聊文案,继续用5.2或5.3 Instant其实更划算。

效率提升:Token消耗显著降低

虽然单价涨了,但GPT-5.4在Agent任务中的”省钱之道”主要藏在它的技术机制里。

OpenAI特别强调,与GPT-5.2相比,GPT-5.4在推理过程中使用的Token数量显著减少。Token消耗下降意味着:

  1. 响应速度更快
  2. 整体成本更低

在处理相同问题时,GPT-5.4所需的Token数量明显少于前代产品,这直接转化为:

  • 更低的Token消耗
  • 更快的响应速度

实际案例分析:

在工具搜索机制的测试中,Token使用量降低了47%。在计算机操控任务中,Mainstay报告Token消耗降低约70%。

这些数据表明,虽然GPT-5.4的单价上涨了,但在实际应用中,由于效率提升带来的Token节省,总成本可能并不会上升太多,甚至可能下降

成本陷阱:一句Hi烧掉80美元

强大的推理能力也有它的另一面。

Hyperbolic联合创始人金宇晨在X平台吐槽,GPT-5.4 Pro是他用过最爱”过度思考”的模型——仅仅发了一句简单的”Hi”,模型就开始认真推理,直接烧掉了80美元。

这并非个例。推理模型的特性决定了它在处理任何输入时都倾向于深度思考,哪怕问题本身根本不需要。

对企业用户的启示:

  1. 日常轻量任务:标准版或许是更合适的选择
  2. Pro版的推理火力:还是留给真正值得的场合更划算
  3. 成本控制机制:需要设置合理的预算和使用监控

这也引出一个问题:如果GPT-5.4 Pro是最智能、最接近AGI的模型……那么,你有什么AGI级别的问题要问它呢?


竞争格局:三分天下,各有所长

GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1 Pro

GPT-5.4发布后,AI模型竞争格局呈现出”三足鼎立”的态势。根据多方评测数据,三大模型各有优势领域:

GPT-5.4的优势领域:

  • Computer Use(计算机操控):OSWorld-Verified 75.0%,超越人类
  • 知识工作:GDPval 83.0%,显著领先
  • 网页搜索:BrowseComp 82.7%,Pro版达89.3%
  • 全能平衡:没有明显短板

Claude Opus 4.6的优势领域:

  • 编程能力:SWE-Bench Pro得分更高,在代码质量上领先
  • Agent任务:在复杂多步骤任务中表现更稳定
  • 安全性:坚持伦理红线,企业信任度更高

Gemini 3.1 Pro的优势领域:

  • 抽象推理:GPQA Diamond 94.3%,在科学推理上卓越
  • 性价比:标准层定价便宜约20%
  • 上下文窗口:1M原生上下文,有竞争力的基准表现

没有一家全赢:

根据53AI的分析,GPT-5.4赢了5个benchmark类别,Claude Opus 4.6赢了2个,Gemini 3.1 Pro赢了3个。

GPT-5.4赢了Computer Use和知识工作,Claude Opus 4.6赢了编程和Agent,Gemini 3.1 Pro赢了推理和性价比。

定价对比:Claude比GPT-5.4贵2-3倍,Gemini最便宜

从定价角度看,三家呈现出明显的分层:

  • Gemini 3.1 Pro:最便宜,但可用性在某些场景受限
  • GPT-5.4:中等价位,全能性能
  • Claude Opus 4.6:最贵,比GPT-5.4贵2-3倍

对于需要高频调用Agent能力的应用,Claude的定价可能是致命伤。

企业选择困境:是选”理科大脑”还是”全能打工者”?

面对三大旗舰模型,企业用户陷入两难:

  • 选Gemini 3.1 Pro:便宜、推理强,但计算机操控和知识工作能力相对较弱
  • 选Claude Opus 4.6:编程强、安全可信,但价格昂贵且计算机操控能力不足
  • 选GPT-5.4:全能平衡、计算机操控领先,但单价上涨

这个选择背后,其实是企业对AI应用场景的优先级排序:

如果企业最看重的是:

  • 成本控制 → Gemini 3.1 Pro
  • 代码质量和安全性 → Claude Opus 4.6
  • 全能性能和Agent能力 → GPT-5.4

行业影响:AI Agent企业应用的拐点

从”聊天机器人”到”数字员工”

GPT-5.4的发布,标志着AI正在从一个擅长回答问题的系统,变成一个擅长完成任务的系统。

过去两年:

AI主要被用来:

  • 写文案、做总结
  • 回答问题、提供建议
  • 辅助人类决策

GPT-5.4时代:

AI开始能够:

  • 操作计算机,直接完成任务
  • 调用工具,自动化工作流
  • 持续搜索,整合多方信息
  • 自我测试,验证结果

这种转变对企业的影响是深远的。AI不再只是一个”辅助工具”,而是可以成为”责任主体”——能够独立负责整块业务的数字员工

AI Agent企业应用的关键能力

GPT-5.4的三大核心能力,恰好对应企业AI应用的三大痛点:

1. 知识工作自动化

  • 财务建模:投行分析师建模任务准确率87.3%
  • 文档生成:PPT生成人类偏好68%
  • 数据分析:在各类专业任务中达到人类专家水准

2. 业务流程自动化

  • 表单填写:税务门户网站首次成功率达95%
  • 跨应用操作:能够在不同软件之间执行复杂工作流
  • 持续任务:百万Token上下文支持长周期任务规划

3. 开发流程自动化

  • 代码编写:SWE-Bench Pro得分57.7%
  • 自动测试:Playwright (Interactive)支持边写边测
  • 全栈开发:从生成代码到测试验收全程自动化

企业级AI市场的爆发前夜

中信证券研报表示,从OpenAI企业端AI的数据来看,2025年企业级AI处于场景探索阶段,用户数和流量实现高增,能力平权和人员降本价值凸显,且行业整体渗透率仍有较大提升空间。

GPT-5.4如何推动企业级AI爆发?

第一,降低集成复杂度

过去企业需要在不同模型间做选择和集成,现在一个GPT-5.4就能覆盖大部分场景,大幅降低了技术门槛和集成成本。

第二,提升可靠性

幻觉率降低33%、计算机操控超越人类、持续搜索能力提升,这些改进让企业敢于把真实业务交给AI来负责。

第三,控制成本

工具搜索机制使Token消耗降低47%,整体效率提升意味着在能力增强的同时,总成本可能不升反降。

AI Agent的商业化路径

根据企业级AI Agent价值及应用报告,AI Agent契合企业需求,天生适合处理复杂任务,强调执行与行动,具备自动化复杂流程的潜力,有望带来指数级效率提升和生产力解放。

GPT-5.4在Agent商业化中的优势:

  1. 原生计算机操控:无需额外适配,可直接操作现有软件系统
  2. 工具生态兼容:支持MCP等工具协议,可接入企业现有工具链
  3. 可控性增强:思考过程预览和中途打断功能,让企业更放心地部署

历史视角:从”能力特化”到”能力大一统”

AI模型演进的三个阶段

回顾过去两年的AI发展,可以清晰地看到三个阶段:

第一阶段:能力涌现(2022-2023)

  • GPT-3.5、GPT-4横空出世
  • 大语言模型展现出惊人的通用能力
  • 但在专业场景下表现不稳定

第二阶段:能力特化(2024-2025)

  • GPT-5.2专注推理
  • GPT-5.3-Codex专注编程
  • GPT-5.3 Instant专注用户体验
  • 各类专用模型层出不穷

第三阶段:能力大一统(2026-)

  • GPT-5.4整合编程、推理、计算机操控、网页搜索
  • 从”多个专精模型”走向”一个全能模型”
  • 重点从”能力提升”转向”效率优化”

GPT-5.4的历史意义

从历史视角看,GPT-5.4的发布可能标志着:

第一,AI竞争进入”整合期”

过去两年,各大厂商都在疯狂扩充模型矩阵,推出各种专用模型。GPT-5.4的出现,可能预示着行业将从”能力分裂”走向”能力整合”。

第二,从”技术竞赛”转向”应用竞赛”

当头部模型的综合能力已达到实际应用阈值,竞争焦点将从”谁的模型更强”转向”谁的AI能帮企业赚更多钱/省更多钱”。

第三,AI从”辅助工具”进化为”生产力主体”

GPT-5.4的全能特性,使其能够独立完成有头有尾的任务闭环,而不只是提供建议。这可能是AI从”工具”到”员工”的关键转折点。


关键要点

  • GPT-5.4是OpenAI首个”大一统”模型,在单一模型中整合了推理、编程、计算机操控、网页搜索和百万Token上下文能力,且没有牺牲任何单项性能

  • 深度知识工作能力显著提升,GDPval测试达到83.0%(GPT-5.2为70.9%),在投行分析师建模任务中准确率达87.3%(GPT-5.2为68.4%),幻觉率降低33%

  • 原生计算机操控能力超越人类,OSWorld-Verified测试中成功率达75.0%(人类基线72.4%),Mainstay实际部署中首次成功率达95%,Token消耗降低约70%

  • 编程能力整合不降反升,SWE-Bench Pro得分57.7%(GPT-5.3-Codex为56.8%),Playwright (Interactive)支持边写代码边测试,接近人类高级全栈工程师工作流

  • 工具搜索机制大幅降低成本,在36个MCP服务器的测试中将Token使用量降低47%,/fast模式使Token生成速度提升1.8倍,整体效率提升显著

  • 思考过程预览和中途打断功能,让用户在模型执行前看到工作计划,在执行中实时调整方向,从”完成后返工”进化为”执行中调整”

  • API定价上涨但效率提升,GPT-5.4输入$2.50/百万Token(GPT-5.2为$1.75),Pro版$30/百万Token,但Token消耗显著降低,总成本可能不升反降

  • 竞争格局三分天下,GPT-5.4在计算机操控和知识工作上领先,Claude Opus 4.6在编程和Agent任务上更强,Gemini 3.1 Pro在推理和性价比上占优

  • AI Agent企业应用迎来拐点,从”聊天机器人”进化为”数字员工”,能够独立负责整块业务,企业级AI市场处于爆发前夜

  • 从”能力特化”到”能力大一统”,AI竞争进入整合期,重点从”技术竞赛”转向”应用竞赛”,AI从”辅助工具”进化为”生产力主体”


常见问题

GPT-5.4和之前的GPT-5.3-Codex有什么区别?

GPT-5.4将GPT-5.3-Codex的顶尖编程能力整合进了主线模型。现在你不再需要为了写代码单独开一个模型,而且编程能力本身没有因此打折扣——SWE-Bench Pro得分从56.8%提升到57.7%。同时,GPT-5.4还获得了计算机操控、深度网页搜索等全方位能力,成为一个真正的”全能模型”。

GPT-5.4的”原生计算机操控”是什么意思?

这意味着GPT-5.4可以直接理解屏幕截图,然后发出鼠标点击和键盘输入指令来操作计算机。它不再需要独立的计算机操控模块,而是用模型本身的推理能力来完成这些任务。在OSWorld-Verified测试中,GPT-5.4的成功率达到75.0%,已经超越了人类72.4%的平均水平。

GPT-5.4的价格贵吗?值得升级吗?

GPT-5.4的单价确实比GPT-5.2高约43%(输入从$1.75涨到$2.50),但由于工具搜索等效率优化,实际任务中的Token消耗可能降低40-70%。对于计算机操控、Agent任务等复杂场景,总成本可能不升反降。但对于简单的日常对话,继续用GPT-5.2或5.3 Instant更划算。

GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro,我该选哪个?

这取决于你的优先级。如果最看重计算机操控和全能性能,选GPT-5.4;如果最看重代码质量和安全性,选Claude Opus 4.6;如果预算有限且主要需要推理能力,选Gemini 3.1 Pro。简单来说:GPT-5.4是”全能打工者”,Claude是”编程专家”,Gemini是”理科大脑”。

企业如何使用GPT-5.4?

GPT-5.4目前已通过API向企业开放,支持标准版和Pro版。Enterprise和Edu客户可由管理员在后台开启早期访问权限。GPT-5.4特别适合需要Agent能力、计算机操控、复杂工作流自动化的场景,如RPA(机器人流程自动化)、知识工作自动化、开发流程自动化等。

GPT-5.4的百万Token上下文真的能用吗?

GPT-5.4在API中支持最高100万Token的上下文窗口,但OpenAI的测试数据显示,128K至272K是表现最稳定的区间,适合日常使用。256K以上准确率开始下滑,512K至1M区间的得分降至36.6%,目前更接近实验性质。另外,超过272K的请求会按两倍用量计入配额,使用前需要权衡成本。


参考资料