GPT-5.4深度分析:OpenAI首个"大一统"模型如何重塑AI竞争格局
2026年3月5日,OpenAI发布GPT-5.4,首次在单一模型中整合推理、编程、计算机操控、网页搜索和百万Token上下文能力。本文深入分析其核心突破、技术创新、竞争格局及对企业AI应用的深远影响。
GPT-5.4深度分析:OpenAI首个”大一统”模型如何重塑AI竞争格局
2026年3月5日深夜,OpenAI毫无预兆地扔出了王炸——GPT-5.4系列正式发布。
就在前一天,OpenAI才刚刚发布了GPT-5.3 Instant,重点优化用户体验和去”爹味”。不到24小时,GPT-5.4便接踵而至,这种密集的产品节奏让整个AI行业为之震动。
但GPT-5.4的意义远不止于一次常规的模型更新。它代表了OpenAI战略方向的重大转变:从”能力专精”走向”能力大一统”。这是OpenAI首次在单一模型中,把推理、编程、计算机操控、网页搜索和百万级Token上下文全部揉碎、重组,焊死在同一个模型里。
更关键的是,OpenAI特别强调,GPT-5.4没有因为N in one而牺牲掉任何一个单项的性能——在以上领域的多个关键基准测试中,它依然保持领先或持平。
这个”大一统”模型的出现,标志着AI竞争进入了全新阶段。从今往后,企业不再需要在”最好的编程模型""最好的推理模型""最好的计算机操控模型”之间做选择题——一个GPT-5.4,全都要。
GPT-5.4是什么?OpenAI首个”大一统”模型的战略野心
从分裂到统一:OpenAI产品线的战略重组
过去两年,OpenAI的产品线呈现出明显的”分裂”状态:
- GPT-5.2系列:通用推理主力,但在专业场景下表现有限
- GPT-5.3-Codex:编程专精模型,SWE-Bench Pro得分高达56.8%
- GPT-5.3 Instant:优化用户体验,去”爹味”,降低幻觉率
- 各类专用模型:针对不同场景的特化版本
这种分裂状态让开发者和企业客户陷入选择困境:想要最好的编程能力,就得用Codex;想要最好的推理能力,就得用GPT-5.2;想要自然对话,就得用Instant——不同模型之间的能力割裂,增加了集成复杂度和成本。
GPT-5.4的出现,彻底改变了这个局面。OpenAI将GPT-5.3-Codex的顶尖编程能力整合进主线模型,同时保留了通用推理、计算机操控等全方位能力。
这意味着什么?
从技术架构看,GPT-5.4标志着OpenAI完成了从”任务特化”到”能力融合”的战略转型。未来的GPT模型线将呈现清晰的分层:
- Instant系列:快速响应,优化日常对话体验
- Thinking系列(GPT-5.4及后续):深度推理,面向专业工作负载
- Pro版本:极致性能,适合最复杂的任务
而在Codex中,开发者只需选择一个模型——GPT-5.4,就能同时获得顶尖的编程、推理和Agent能力,无需在多个模型间来回切换。
为专业工作而生的”AI数字员工”
OpenAI在官方博文中反复强调:GPT-5.4的目标是成为能够完成真实工作的Agent系统。
这背后的战略意图很清晰:OpenAI希望GPT-5.4不再只是一个”擅长回答问题的助手”,而是进化为”能独立负责整块业务的数字员工”。
这种定位转变体现在三个维度的飞跃:
第一,从”输出建议”到”直接行动”
以前的GPT模型只能生成文字、代码等输出,人类还需要亲自操作才能让事情发生。GPT-5.4的原生计算机操控能力,让它可以自己打开浏览器、填写表单、点击按钮、记录结果,独立完成一个有头有尾的任务闭环。
第二,从”单次问答”到”持续工作流”
百万Token上下文、深度网页搜索、工具调用优化,这些能力的叠加让GPT-5.4能够处理需要多轮、多步骤、多工具协同的复杂工作流。它不再是”一问一答”的聊天机器人,而是能够持续工作、自我验证、自我迭代的AI员工。
第三,从”辅助工具”到”责任主体”
在GDPval基准测试中,GPT-5.4在83.0%的知识工作任务中达到或超过了人类专业人士水准。这个数字的背后,是OpenAI试图让企业敢于把真实业务交给AI来负责——而不只是用来”提供建议”。
三大核心能力:GPT-5.4如何重新定义AI生产力
深度知识工作:83.0%的任务达到人类专家水准
理解GPT-5.4在知识工作上的突破,需要先理解GDPval这个基准测试的设计逻辑。
GDPval是什么?
它横跨美国GDP贡献最大的9个行业、44种职业。任务是那些职场里每天真实发生的工作:给投资银行写财务模型、给医院排急诊班次、给销售团队做演示文稿、制作制造业流程图甚至生成短视频。
任务完成后,把输出结果交给行业内的真实从业者盲测打分,看AI的产出能赢过多少比例的人类同行。
GPT-5.4的表现:
| 测试维度 | GPT-5.4 | GPT-5.2 | GPT-5.3-Codex |
|---|---|---|---|
| GDPval综合得分 | 83.0% | 70.9% | - |
| 投行分析师建模任务 | 87.3% | 68.4% | 79.3% |
| PPT生成人类偏好 | 68.0% | - | - |
这意味着什么?
GPT-5.4在83.0%的案例中达到了持平或更优的水准——换句话说,十次对比中有八次以上,行业专业人士认为AI的产出达到或超过了人类同行水准。上代GPT-5.2是70.9%,差距接近13个百分点。
进步在电子表格建模上表现得最为具体。在模拟初级投行分析师完成建模任务的内部测试中,GPT-5.4平均得分87.3%,而GPT-5.2仅为68.4%——差距接近20个百分点。
更值得注意的是演示文稿生成能力。在人类评审的PPT生成测试中,评委有68%的时间更偏好GPT-5.4生成的结果,原因包括:
- 视觉效果更好
- 版式更丰富
- 图片使用更合理
幻觉率大幅降低:
事实准确性一直是AI进入专业场景最大的拦路虎。GPT-5.4在这方面给出了令人瞩目的改进:
- 单条陈述错误率降低33%(相对)
- 完整回复包含错误的概率降低18%(相对)
每降低一个百分点,都意味着更多场景可以放心用它。对于法律、金融、医疗等高风险领域,这个进步可能意味着从”不能用于生产”到”可以谨慎试用”的关键跨越。
法律与专业服务的突破:
法律平台Harvey的BigLaw Bench测试结果显示,GPT-5.4得分91%。专业服务评测平台Mercor的APEX-Agents基准中,GPT-5.4也拿下了第一。
这些数据共同指向一个结论:在大量知识工作任务中,GPT-5.4的结果已经能够与专业从业者持平,甚至超过他们。
原生计算机操控:超越人类的桌面操作能力
GPT-5.4最引人关注的一项能力是原生计算机操作,这是GPT-5.4区别于以往所有模型的核心标志。
模型可以通过截图理解软件界面,然后执行鼠标点击和键盘输入等操作。包括发送邮件、创建日历事件、填写表单、操作网页等……都可以通过这种方式完成。
基准测试数据:
| 测试项目 | GPT-5.4 | GPT-5.2 | 人类基线 |
|---|---|---|---|
| OSWorld-Verified(桌面导航) | 75.0% | 47.3% | 72.4% |
| Online-Mind2Web(网页操作) | 92.8% | - | - |
| WebArena-Verified(浏览器任务) | 67.3% | 65.4% | - |
OSWorld-Verified是什么?
这个基准测试通过屏幕截图以及键盘/鼠标操作,来评估模型导航桌面环境的能力。GPT-5.4达到75.0%的成功率,不仅远超GPT-5.2的47.3%,还超越了人类72.4%的平均表现。
这是一个具有里程碑意义的数字——它标志着AI在计算机操控能力上,首次在标准化测试中全面超越人类平均水平。
真实部署案例:
Mainstay将GPT-5.4用于约三万个物业税务门户网站的自动表单填写,结果显示:
- 首次成功率达95%
- 三次以内成功率100%
- 此前同类模型仅在73%至79%之间
- 会话完成速度提升约三倍
- Token消耗降低约70%
视觉感知能力的提升:
操控电脑说到底是一件需要”看清楚”的事——看清楚界面上有什么、按钮在哪里、点击是否准确。
GPT-5.4在这一层做了专项加强:
- 原始图像输入模式:支持最高1024万像素或6000像素最大边长的高保真图像输入
- 高清模式升级:上限从此前的标准提升至256万像素或2048像素最大边长
在与API用户进行的早期测试中,OpenAI观察到在使用”原始”或”高”精度模式时,模型的定位能力、图像理解以及点击准确度均有显著提升。
从”独立模块”到”原生能力”:
此前OpenAI的计算机操控能力是一个独立模块,跟模型的语言理解、代码生成之间有一道明显的分隔。两套系统各管各的,信息要来回传递,效率自然打折。
现在这道分隔没了。GPT-5.4操控电脑时,用的就是模型本身的推理能力,不需要再绕一圈。这也是OpenAI第一款将计算机使用能力原生内置进通用模型的产品。
高阶编程与调试:写代码、测代码、全自动化
GPT-5.4吸纳了此前最强的编程模型GPT-5.3-Codex的能力,同时保留了更低延迟的优势。
基准测试数据:
| 测试项目 | GPT-5.4 | GPT-5.3-Codex | GPT-5.2 |
|---|---|---|---|
| SWE-Bench Pro(真实软件工程) | 57.7% | 56.8% | 55.6% |
SWE-Bench Pro专门测试真实软件工程任务,GPT-5.4得分57.7%,略高于GPT-5.3-Codex的56.8%。整合之后,编程分数不降反升,同时还顺带获得了计算机操控等一整套通用能力。
Playwright (Interactive):边写代码边测试
OpenAI推出了一个名为”Playwright (Interactive)“的实验性Codex技能。它允许Codex对网页和Electron应用进行可视化调试;甚至在构建应用的过程中,它就能同步对该应用进行实时测试。
OpenAI展示了一个典型案例:仅凭一条轻量提示词,GPT-5.4生成了一个完整的等距视角主题公园模拟游戏,涵盖:
- 基于瓦片的路径铺设与景点建设系统
- 游客AI寻路与排队行为
- 资金、游客数、满意度、清洁度四项指标全部实时动态更新
Playwright (Interactive)在整个过程中承担了多轮自动化测试,验证路径铺设、摄像机导航、游客响应及UI指标的正确性。
从写代码到测试验收,模型全程自己完成。这种”边造边测”的能力,已经非常接近一个人类高级全栈工程师的工作流。
开发者实测反馈:
知名AI评测博主Dan Shipper试用后写道:
“这是我们最近一段时间里见过OpenAI最出色的规划能力,代码审查也很强,而且成本大约只有Opus的一半。”
他点出了两个具体维度:
- 规划能力是长任务成败的关键,GPT-5.4在任务拆解和持续推进上明显更有条理
- 与Claude Opus相比约一半的成本,对需要大规模API调用的开发者来说,这个差距在账单上会非常直观
博主Angel用GPT-5.4写了一个Minecraft克隆版,模型花了约24分钟,运行流畅,过程中没有卡住。他在推文里写道:
“Minecraft基本上被攻克了,我现在得找个新测试了。”
沃顿商学院教授Ethan Mollick同样获得了早期访问权限。他用同一条提示词,让GPT-5.4 Pro生成了一个受《皮拉内西》启发的三维空间场景,全程没有报错,只额外追加了一句”把它做得更好”的指令。
他随后把结果和两年前GPT-4生成的版本并排放在一起,差距一眼可见。
技术创新:从”对话式AI”到”可控AI”
思考过程预览:执行前先看计划
用过AI处理长任务的人大概都有过这种体验:等模型跑完一大段,发现方向不对,只能从头再来,时间全浪费了。
GPT-5.4 Thinking在ChatGPT中新增了一项**“思考过程预览”**功能:在处理复杂任务之前,模型会先呈现工作计划概要,再开始执行。
这个功能的价值在于:
- 用户可以在模型开始执行前就看到它的工作思路
- 如果方向不对,可以立即调整,不必等到结果出来再从头重来
- 对需要多轮协作的任务来说,体验差别会比较明显
中途打断:执行中实时调整
更进一步的创新是**“中途打断”功能**。
用户可以在模型生成过程中实时添加指令或调整其方向。这让你能更轻松地引导模型达成预期的结果,而无需推倒重来,或通过多轮额外对话进行补救。
从”完成后返工”到”执行中调整”:
这个功能把纠偏这件事从”完成后”提前到了”执行中”。对于企业场景来说,这意味着:
- 减少无效计算,降低成本
- 提升协作效率,加快迭代速度
- 增强可控性,让AI更符合实际业务需求
该功能目前已在chatgpt.com和Android应用上线,iOS应用也将于近期推出。
工具搜索:Token消耗骤降47%
在GPT-5.4中,OpenAI显著优化了模型与外部工具的协作方式。
过去的问题:
当模型调用工具时,所有的工具定义都必须预先包含在提示词中。对于拥有大量工具的系统,这会导致:
- 每次请求都额外增加数千甚至数万个Token
- 推高成本、减慢响应速度
- 上下文中充斥着模型可能永远用不到的冗余信息
GPT-5.4的解决方案:
通过工具搜索,GPT-5.4不再需要预加载完整定义,而是接收一份精简的可选工具列表及工具搜索能力。当模型需要调用特定工具时,它会即时查找该工具的定义,并将其添加到当前的对话上下文。
实际效果:
OpenAI对Scale MCP Atlas基准测试中的250个任务进行了评估。在开启全部36个MCP服务器的情况下,对比了两种模式:
- 将每个MCP函数直接暴露在模型上下文中
- 将所有MCP服务器置于”工具搜索”之后
结果显示,在保持同等准确率的前提下,“工具搜索”配置将总Token使用量降低了47%。
将近一半的成本节省,精度一点没少。这种成本控制手段说明OpenAI正试图让大模型大规模商业化变得更加现实——毕竟对于企业来说,省钱和好用同等重要。
/fast模式:Token生成速度提升1.5倍
开启Codex中的/fast模式后,包括GPT-5.4在内的所有受支持模型均可获得高达1.8倍的性能提升。
模型本身及其智能水平完全一致,只是速度更快。这意味着用户在处理编码任务、迭代和调试时,能够始终保持专注顺畅的状态。
性能与定价:更强了,但更贵还是更便宜?
定价策略:专业定位的溢价产品
从OpenAI公布的API定价表来看,GPT-5.4的定价比GPT-5.2要高出一截。
API定价对比:
| 模型 | 输入价格 | 缓存输入 | 输出价格 |
|---|---|---|---|
| gpt-5.2 | $1.75/百万token | $0.175/百万token | $14/百万token |
| gpt-5.4 (<272K) | $2.50/百万token | $0.25/百万token | $15/百万token |
| gpt-5.4 (>272K) | $5.00/百万token | $0.50/百万token | $22.50/百万token |
| gpt-5.2-pro | $21/百万token | - | $168/百万token |
| gpt-5.4-pro | $30/百万token | - | $180/百万token |
GPT-5.2的每百万Token输入/输出价格分别是1.75美元和14美元,而GPT-5.4则上涨到了2.5美元和15美元。
尤其是对于那些追求极限性能的用户,GPT-5.4 Pro的价格更是飙升到了每百万输入30美元、输出180美元。
为什么涨价?
原因很明显:5.4被定位为针对专业机构和高端生产力场景的溢价产品。如果你只是写写简单的闲聊文案,继续用5.2或5.3 Instant其实更划算。
效率提升:Token消耗显著降低
虽然单价涨了,但GPT-5.4在Agent任务中的”省钱之道”主要藏在它的技术机制里。
OpenAI特别强调,与GPT-5.2相比,GPT-5.4在推理过程中使用的Token数量显著减少。Token消耗下降意味着:
- 响应速度更快
- 整体成本更低
在处理相同问题时,GPT-5.4所需的Token数量明显少于前代产品,这直接转化为:
- 更低的Token消耗
- 更快的响应速度
实际案例分析:
在工具搜索机制的测试中,Token使用量降低了47%。在计算机操控任务中,Mainstay报告Token消耗降低约70%。
这些数据表明,虽然GPT-5.4的单价上涨了,但在实际应用中,由于效率提升带来的Token节省,总成本可能并不会上升太多,甚至可能下降。
成本陷阱:一句Hi烧掉80美元
强大的推理能力也有它的另一面。
Hyperbolic联合创始人金宇晨在X平台吐槽,GPT-5.4 Pro是他用过最爱”过度思考”的模型——仅仅发了一句简单的”Hi”,模型就开始认真推理,直接烧掉了80美元。
这并非个例。推理模型的特性决定了它在处理任何输入时都倾向于深度思考,哪怕问题本身根本不需要。
对企业用户的启示:
- 日常轻量任务:标准版或许是更合适的选择
- Pro版的推理火力:还是留给真正值得的场合更划算
- 成本控制机制:需要设置合理的预算和使用监控
这也引出一个问题:如果GPT-5.4 Pro是最智能、最接近AGI的模型……那么,你有什么AGI级别的问题要问它呢?
竞争格局:三分天下,各有所长
GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1 Pro
GPT-5.4发布后,AI模型竞争格局呈现出”三足鼎立”的态势。根据多方评测数据,三大模型各有优势领域:
GPT-5.4的优势领域:
- Computer Use(计算机操控):OSWorld-Verified 75.0%,超越人类
- 知识工作:GDPval 83.0%,显著领先
- 网页搜索:BrowseComp 82.7%,Pro版达89.3%
- 全能平衡:没有明显短板
Claude Opus 4.6的优势领域:
- 编程能力:SWE-Bench Pro得分更高,在代码质量上领先
- Agent任务:在复杂多步骤任务中表现更稳定
- 安全性:坚持伦理红线,企业信任度更高
Gemini 3.1 Pro的优势领域:
- 抽象推理:GPQA Diamond 94.3%,在科学推理上卓越
- 性价比:标准层定价便宜约20%
- 上下文窗口:1M原生上下文,有竞争力的基准表现
没有一家全赢:
根据53AI的分析,GPT-5.4赢了5个benchmark类别,Claude Opus 4.6赢了2个,Gemini 3.1 Pro赢了3个。
GPT-5.4赢了Computer Use和知识工作,Claude Opus 4.6赢了编程和Agent,Gemini 3.1 Pro赢了推理和性价比。
定价对比:Claude比GPT-5.4贵2-3倍,Gemini最便宜
从定价角度看,三家呈现出明显的分层:
- Gemini 3.1 Pro:最便宜,但可用性在某些场景受限
- GPT-5.4:中等价位,全能性能
- Claude Opus 4.6:最贵,比GPT-5.4贵2-3倍
对于需要高频调用Agent能力的应用,Claude的定价可能是致命伤。
企业选择困境:是选”理科大脑”还是”全能打工者”?
面对三大旗舰模型,企业用户陷入两难:
- 选Gemini 3.1 Pro:便宜、推理强,但计算机操控和知识工作能力相对较弱
- 选Claude Opus 4.6:编程强、安全可信,但价格昂贵且计算机操控能力不足
- 选GPT-5.4:全能平衡、计算机操控领先,但单价上涨
这个选择背后,其实是企业对AI应用场景的优先级排序:
如果企业最看重的是:
- 成本控制 → Gemini 3.1 Pro
- 代码质量和安全性 → Claude Opus 4.6
- 全能性能和Agent能力 → GPT-5.4
行业影响:AI Agent企业应用的拐点
从”聊天机器人”到”数字员工”
GPT-5.4的发布,标志着AI正在从一个擅长回答问题的系统,变成一个擅长完成任务的系统。
过去两年:
AI主要被用来:
- 写文案、做总结
- 回答问题、提供建议
- 辅助人类决策
GPT-5.4时代:
AI开始能够:
- 操作计算机,直接完成任务
- 调用工具,自动化工作流
- 持续搜索,整合多方信息
- 自我测试,验证结果
这种转变对企业的影响是深远的。AI不再只是一个”辅助工具”,而是可以成为”责任主体”——能够独立负责整块业务的数字员工。
AI Agent企业应用的关键能力
GPT-5.4的三大核心能力,恰好对应企业AI应用的三大痛点:
1. 知识工作自动化
- 财务建模:投行分析师建模任务准确率87.3%
- 文档生成:PPT生成人类偏好68%
- 数据分析:在各类专业任务中达到人类专家水准
2. 业务流程自动化
- 表单填写:税务门户网站首次成功率达95%
- 跨应用操作:能够在不同软件之间执行复杂工作流
- 持续任务:百万Token上下文支持长周期任务规划
3. 开发流程自动化
- 代码编写:SWE-Bench Pro得分57.7%
- 自动测试:Playwright (Interactive)支持边写边测
- 全栈开发:从生成代码到测试验收全程自动化
企业级AI市场的爆发前夜
中信证券研报表示,从OpenAI企业端AI的数据来看,2025年企业级AI处于场景探索阶段,用户数和流量实现高增,能力平权和人员降本价值凸显,且行业整体渗透率仍有较大提升空间。
GPT-5.4如何推动企业级AI爆发?
第一,降低集成复杂度
过去企业需要在不同模型间做选择和集成,现在一个GPT-5.4就能覆盖大部分场景,大幅降低了技术门槛和集成成本。
第二,提升可靠性
幻觉率降低33%、计算机操控超越人类、持续搜索能力提升,这些改进让企业敢于把真实业务交给AI来负责。
第三,控制成本
工具搜索机制使Token消耗降低47%,整体效率提升意味着在能力增强的同时,总成本可能不升反降。
AI Agent的商业化路径
根据企业级AI Agent价值及应用报告,AI Agent契合企业需求,天生适合处理复杂任务,强调执行与行动,具备自动化复杂流程的潜力,有望带来指数级效率提升和生产力解放。
GPT-5.4在Agent商业化中的优势:
- 原生计算机操控:无需额外适配,可直接操作现有软件系统
- 工具生态兼容:支持MCP等工具协议,可接入企业现有工具链
- 可控性增强:思考过程预览和中途打断功能,让企业更放心地部署
历史视角:从”能力特化”到”能力大一统”
AI模型演进的三个阶段
回顾过去两年的AI发展,可以清晰地看到三个阶段:
第一阶段:能力涌现(2022-2023)
- GPT-3.5、GPT-4横空出世
- 大语言模型展现出惊人的通用能力
- 但在专业场景下表现不稳定
第二阶段:能力特化(2024-2025)
- GPT-5.2专注推理
- GPT-5.3-Codex专注编程
- GPT-5.3 Instant专注用户体验
- 各类专用模型层出不穷
第三阶段:能力大一统(2026-)
- GPT-5.4整合编程、推理、计算机操控、网页搜索
- 从”多个专精模型”走向”一个全能模型”
- 重点从”能力提升”转向”效率优化”
GPT-5.4的历史意义
从历史视角看,GPT-5.4的发布可能标志着:
第一,AI竞争进入”整合期”
过去两年,各大厂商都在疯狂扩充模型矩阵,推出各种专用模型。GPT-5.4的出现,可能预示着行业将从”能力分裂”走向”能力整合”。
第二,从”技术竞赛”转向”应用竞赛”
当头部模型的综合能力已达到实际应用阈值,竞争焦点将从”谁的模型更强”转向”谁的AI能帮企业赚更多钱/省更多钱”。
第三,AI从”辅助工具”进化为”生产力主体”
GPT-5.4的全能特性,使其能够独立完成有头有尾的任务闭环,而不只是提供建议。这可能是AI从”工具”到”员工”的关键转折点。
关键要点
-
GPT-5.4是OpenAI首个”大一统”模型,在单一模型中整合了推理、编程、计算机操控、网页搜索和百万Token上下文能力,且没有牺牲任何单项性能
-
深度知识工作能力显著提升,GDPval测试达到83.0%(GPT-5.2为70.9%),在投行分析师建模任务中准确率达87.3%(GPT-5.2为68.4%),幻觉率降低33%
-
原生计算机操控能力超越人类,OSWorld-Verified测试中成功率达75.0%(人类基线72.4%),Mainstay实际部署中首次成功率达95%,Token消耗降低约70%
-
编程能力整合不降反升,SWE-Bench Pro得分57.7%(GPT-5.3-Codex为56.8%),Playwright (Interactive)支持边写代码边测试,接近人类高级全栈工程师工作流
-
工具搜索机制大幅降低成本,在36个MCP服务器的测试中将Token使用量降低47%,/fast模式使Token生成速度提升1.8倍,整体效率提升显著
-
思考过程预览和中途打断功能,让用户在模型执行前看到工作计划,在执行中实时调整方向,从”完成后返工”进化为”执行中调整”
-
API定价上涨但效率提升,GPT-5.4输入$2.50/百万Token(GPT-5.2为$1.75),Pro版$30/百万Token,但Token消耗显著降低,总成本可能不升反降
-
竞争格局三分天下,GPT-5.4在计算机操控和知识工作上领先,Claude Opus 4.6在编程和Agent任务上更强,Gemini 3.1 Pro在推理和性价比上占优
-
AI Agent企业应用迎来拐点,从”聊天机器人”进化为”数字员工”,能够独立负责整块业务,企业级AI市场处于爆发前夜
-
从”能力特化”到”能力大一统”,AI竞争进入整合期,重点从”技术竞赛”转向”应用竞赛”,AI从”辅助工具”进化为”生产力主体”
常见问题
GPT-5.4和之前的GPT-5.3-Codex有什么区别?
GPT-5.4将GPT-5.3-Codex的顶尖编程能力整合进了主线模型。现在你不再需要为了写代码单独开一个模型,而且编程能力本身没有因此打折扣——SWE-Bench Pro得分从56.8%提升到57.7%。同时,GPT-5.4还获得了计算机操控、深度网页搜索等全方位能力,成为一个真正的”全能模型”。
GPT-5.4的”原生计算机操控”是什么意思?
这意味着GPT-5.4可以直接理解屏幕截图,然后发出鼠标点击和键盘输入指令来操作计算机。它不再需要独立的计算机操控模块,而是用模型本身的推理能力来完成这些任务。在OSWorld-Verified测试中,GPT-5.4的成功率达到75.0%,已经超越了人类72.4%的平均水平。
GPT-5.4的价格贵吗?值得升级吗?
GPT-5.4的单价确实比GPT-5.2高约43%(输入从$1.75涨到$2.50),但由于工具搜索等效率优化,实际任务中的Token消耗可能降低40-70%。对于计算机操控、Agent任务等复杂场景,总成本可能不升反降。但对于简单的日常对话,继续用GPT-5.2或5.3 Instant更划算。
GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro,我该选哪个?
这取决于你的优先级。如果最看重计算机操控和全能性能,选GPT-5.4;如果最看重代码质量和安全性,选Claude Opus 4.6;如果预算有限且主要需要推理能力,选Gemini 3.1 Pro。简单来说:GPT-5.4是”全能打工者”,Claude是”编程专家”,Gemini是”理科大脑”。
企业如何使用GPT-5.4?
GPT-5.4目前已通过API向企业开放,支持标准版和Pro版。Enterprise和Edu客户可由管理员在后台开启早期访问权限。GPT-5.4特别适合需要Agent能力、计算机操控、复杂工作流自动化的场景,如RPA(机器人流程自动化)、知识工作自动化、开发流程自动化等。
GPT-5.4的百万Token上下文真的能用吗?
GPT-5.4在API中支持最高100万Token的上下文窗口,但OpenAI的测试数据显示,128K至272K是表现最稳定的区间,适合日常使用。256K以上准确率开始下滑,512K至1M区间的得分降至36.6%,目前更接近实验性质。另外,超过272K的请求会按两倍用量计入配额,使用前需要权衡成本。
参考资料
- OpenAI官方发布:Introducing GPT-5.4
- 量子位:GPT-5.4发布:OpenAI首个大一统模型,简直是龙虾原生
- 虎嗅:OpenAI正式发布GPT-5.4,整合编程、推理、计算机操控等多项能力
- TechCrunch: OpenAI launches GPT-5.4 with Pro and Thinking versions
- Fortune: OpenAI launches GPT-5.4, its most powerful model for enterprise work
- IT之家:OpenAI 最强模型GPT-5.4 正式登场:原生支持计算机操控
- 新华网:OpenAI发布最新模型GPT-5.4
- 21财经:OpenAI最强模型GPT-5.4发布,争夺企业市场
- 53AI:GPT-5.4发布,AI的最强之争已经结束了!
- Evolink:GPT-5.4 API Pricing 2026