<!DOCTYPE html>
<html lang="zh-cn">
<head>
    <meta charset="utf-8">
    <meta name="viewport" content="width=device-width, initial-scale=1">
    <title>GPT-5.4深度分析：OpenAI首个"大一统"模型如何重塑AI竞争格局 - Markdown</title>
    <style>
        body { 
            font-family: monospace; 
            white-space: pre-wrap; 
            word-wrap: break-word; 
            padding: 0; 
            background-color: #e5e5e5;
            color: #24292f;
            margin: 0;
            display: flex;
            flex-direction: column;
            align-items: center;
            min-height: 100vh;
        }
        .markdown-body {
            box-sizing: border-box;
            width: 100%;
            max-width: 980px;
            margin: 2em auto;
            padding: 45px;
            background-color: #fff;
            border: 1px solid #d0d7de;
            border-radius: 6px;
            font-family: -apple-system,BlinkMacSystemFont,Segoe UI,Helvetica,Arial,sans-serif,Apple Color Emoji,Segoe UI Emoji;
            white-space: normal;
            box-shadow: 0 4px 12px rgba(0,0,0,0.05);
        }
        @media (prefers-color-scheme: dark) {
            body {
                background-color: #010409;
                color: #c9d1d9;
            }
            .markdown-body {
                background-color: #0d1117;
                border-color: #30363d;
                box-shadow: 0 4px 12px rgba(0,0,0,0.3);
            }
        }
        @media (max-width: 767px) {
            .markdown-body {
                padding: 15px;
                margin: 0;
                border-radius: 0;
                border-left: none;
                border-right: none;
            }
        }
    </style>
    <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/github-markdown-css/5.5.0/github-markdown.min.css">
</head>
<body>---
title: 'GPT-5.4深度分析：OpenAI首个"大一统"模型如何重塑AI竞争格局'
description: '2026年3月5日，OpenAI发布GPT-5.4，首次在单一模型中整合推理、编程、计算机操控、网页搜索和百万Token上下文能力。本文深入分析其核心突破、技术创新、竞争格局及对企业AI应用的深远影响。'
pubDate: 2026-03-09
tags: ['AI', '专题分析', 'OpenAI', 'GPT-5.4', 'AI Agent', '计算机操控', '企业AI']
---
# GPT-5.4深度分析：OpenAI首个"大一统"模型如何重塑AI竞争格局

2026年3月5日深夜，OpenAI毫无预兆地扔出了王炸——GPT-5.4系列正式发布。

就在前一天，OpenAI才刚刚发布了GPT-5.3 Instant，重点优化用户体验和去"爹味"。不到24小时，GPT-5.4便接踵而至，这种密集的产品节奏让整个AI行业为之震动。

但GPT-5.4的意义远不止于一次常规的模型更新。它代表了OpenAI战略方向的重大转变：**从"能力专精"走向"能力大一统"**。这是OpenAI首次在单一模型中，把推理、编程、计算机操控、网页搜索和百万级Token上下文全部揉碎、重组，焊死在同一个模型里。

更关键的是，OpenAI特别强调，GPT-5.4**没有因为N in one而牺牲掉任何一个单项的性能**——在以上领域的多个关键基准测试中，它依然保持领先或持平。

这个"大一统"模型的出现，标志着AI竞争进入了全新阶段。从今往后，企业不再需要在"最好的编程模型""最好的推理模型""最好的计算机操控模型"之间做选择题——一个GPT-5.4，全都要。

---

## GPT-5.4是什么？OpenAI首个"大一统"模型的战略野心

### 从分裂到统一：OpenAI产品线的战略重组

过去两年，OpenAI的产品线呈现出明显的"分裂"状态：

- **GPT-5.2系列**：通用推理主力，但在专业场景下表现有限
- **GPT-5.3-Codex**：编程专精模型，SWE-Bench Pro得分高达56.8%
- **GPT-5.3 Instant**：优化用户体验，去"爹味"，降低幻觉率
- **各类专用模型**：针对不同场景的特化版本

这种分裂状态让开发者和企业客户陷入选择困境：想要最好的编程能力，就得用Codex；想要最好的推理能力，就得用GPT-5.2；想要自然对话，就得用Instant——**不同模型之间的能力割裂，增加了集成复杂度和成本**。

GPT-5.4的出现，彻底改变了这个局面。OpenAI将GPT-5.3-Codex的顶尖编程能力整合进主线模型，同时保留了通用推理、计算机操控等全方位能力。

**这意味着什么？**

从技术架构看，GPT-5.4标志着OpenAI完成了从"任务特化"到"能力融合"的战略转型。未来的GPT模型线将呈现清晰的分层：

- **Instant系列**：快速响应，优化日常对话体验
- **Thinking系列**（GPT-5.4及后续）：深度推理，面向专业工作负载
- **Pro版本**：极致性能，适合最复杂的任务

而在Codex中，开发者只需选择一个模型——GPT-5.4，就能同时获得顶尖的编程、推理和Agent能力，无需在多个模型间来回切换。

### 为专业工作而生的"AI数字员工"

OpenAI在官方博文中反复强调：**GPT-5.4的目标是成为能够完成真实工作的Agent系统**。

这背后的战略意图很清晰：OpenAI希望GPT-5.4不再只是一个"擅长回答问题的助手"，而是进化为"能独立负责整块业务的数字员工"。

这种定位转变体现在三个维度的飞跃：

**第一，从"输出建议"到"直接行动"**

以前的GPT模型只能生成文字、代码等输出，人类还需要亲自操作才能让事情发生。GPT-5.4的原生计算机操控能力，让它可以自己打开浏览器、填写表单、点击按钮、记录结果，独立完成一个有头有尾的任务闭环。

**第二，从"单次问答"到"持续工作流"**

百万Token上下文、深度网页搜索、工具调用优化，这些能力的叠加让GPT-5.4能够处理需要多轮、多步骤、多工具协同的复杂工作流。它不再是"一问一答"的聊天机器人，而是能够持续工作、自我验证、自我迭代的AI员工。

**第三，从"辅助工具"到"责任主体"**

在GDPval基准测试中，GPT-5.4在83.0%的知识工作任务中达到或超过了人类专业人士水准。这个数字的背后，是OpenAI试图让企业敢于把真实业务交给AI来负责——而不只是用来"提供建议"。

---

## 三大核心能力：GPT-5.4如何重新定义AI生产力

### 深度知识工作：83.0%的任务达到人类专家水准

理解GPT-5.4在知识工作上的突破，需要先理解GDPval这个基准测试的设计逻辑。

**GDPval是什么？**

它横跨美国GDP贡献最大的9个行业、44种职业。任务是那些职场里每天真实发生的工作：给投资银行写财务模型、给医院排急诊班次、给销售团队做演示文稿、制作制造业流程图甚至生成短视频。

任务完成后，把输出结果交给行业内的真实从业者盲测打分，看AI的产出能赢过多少比例的人类同行。

**GPT-5.4的表现：**

| 测试维度 | GPT-5.4 | GPT-5.2 | GPT-5.3-Codex |
|---------|---------|---------|---------------|
| GDPval综合得分 | 83.0% | 70.9% | - |
| 投行分析师建模任务 | 87.3% | 68.4% | 79.3% |
| PPT生成人类偏好 | 68.0% | - | - |

**这意味着什么？**

GPT-5.4在83.0%的案例中达到了持平或更优的水准——换句话说，**十次对比中有八次以上，行业专业人士认为AI的产出达到或超过了人类同行水准**。上代GPT-5.2是70.9%，差距接近13个百分点。

进步在电子表格建模上表现得最为具体。在模拟初级投行分析师完成建模任务的内部测试中，GPT-5.4平均得分87.3%，而GPT-5.2仅为68.4%——**差距接近20个百分点**。

更值得注意的是演示文稿生成能力。在人类评审的PPT生成测试中，评委有68%的时间更偏好GPT-5.4生成的结果，原因包括：
- 视觉效果更好
- 版式更丰富
- 图片使用更合理

**幻觉率大幅降低：**

事实准确性一直是AI进入专业场景最大的拦路虎。GPT-5.4在这方面给出了令人瞩目的改进：

- 单条陈述错误率降低33%（相对）
- 完整回复包含错误的概率降低18%（相对）

每降低一个百分点，都意味着更多场景可以放心用它。对于法律、金融、医疗等高风险领域，这个进步可能意味着从"不能用于生产"到"可以谨慎试用"的关键跨越。

**法律与专业服务的突破：**

法律平台Harvey的BigLaw Bench测试结果显示，GPT-5.4得分91%。专业服务评测平台Mercor的APEX-Agents基准中，GPT-5.4也拿下了第一。

这些数据共同指向一个结论：**在大量知识工作任务中，GPT-5.4的结果已经能够与专业从业者持平，甚至超过他们**。

### 原生计算机操控：超越人类的桌面操作能力

GPT-5.4最引人关注的一项能力是**原生计算机操作**，这是GPT-5.4区别于以往所有模型的核心标志。

模型可以通过截图理解软件界面，然后执行鼠标点击和键盘输入等操作。包括发送邮件、创建日历事件、填写表单、操作网页等……都可以通过这种方式完成。

**基准测试数据：**

| 测试项目 | GPT-5.4 | GPT-5.2 | 人类基线 |
|---------|---------|---------|---------|
| OSWorld-Verified（桌面导航） | 75.0% | 47.3% | 72.4% |
| Online-Mind2Web（网页操作） | 92.8% | - | - |
| WebArena-Verified（浏览器任务） | 67.3% | 65.4% | - |

**OSWorld-Verified是什么？**

这个基准测试通过屏幕截图以及键盘/鼠标操作，来评估模型导航桌面环境的能力。GPT-5.4达到75.0%的成功率，不仅远超GPT-5.2的47.3%，**还超越了人类72.4%的平均表现**。

这是一个具有里程碑意义的数字——它标志着AI在计算机操控能力上，首次在标准化测试中全面超越人类平均水平。

**真实部署案例：**

Mainstay将GPT-5.4用于约三万个物业税务门户网站的自动表单填写，结果显示：

- 首次成功率达95%
- 三次以内成功率100%
- 此前同类模型仅在73%至79%之间
- 会话完成速度提升约三倍
- Token消耗降低约70%

**视觉感知能力的提升：**

操控电脑说到底是一件需要"看清楚"的事——看清楚界面上有什么、按钮在哪里、点击是否准确。

GPT-5.4在这一层做了专项加强：

- **原始图像输入模式**：支持最高1024万像素或6000像素最大边长的高保真图像输入
- **高清模式升级**：上限从此前的标准提升至256万像素或2048像素最大边长

在与API用户进行的早期测试中，OpenAI观察到在使用"原始"或"高"精度模式时，模型的定位能力、图像理解以及点击准确度均有显著提升。

**从"独立模块"到"原生能力"：**

此前OpenAI的计算机操控能力是一个独立模块，跟模型的语言理解、代码生成之间有一道明显的分隔。两套系统各管各的，信息要来回传递，效率自然打折。

现在这道分隔没了。GPT-5.4操控电脑时，用的就是模型本身的推理能力，不需要再绕一圈。这也是OpenAI第一款将计算机使用能力原生内置进通用模型的产品。

### 高阶编程与调试：写代码、测代码、全自动化

GPT-5.4吸纳了此前最强的编程模型GPT-5.3-Codex的能力，同时保留了更低延迟的优势。

**基准测试数据：**

| 测试项目 | GPT-5.4 | GPT-5.3-Codex | GPT-5.2 |
|---------|---------|---------------|---------|
| SWE-Bench Pro（真实软件工程） | 57.7% | 56.8% | 55.6% |

SWE-Bench Pro专门测试真实软件工程任务，GPT-5.4得分57.7%，略高于GPT-5.3-Codex的56.8%。整合之后，**编程分数不降反升**，同时还顺带获得了计算机操控等一整套通用能力。

**Playwright (Interactive)：边写代码边测试**

OpenAI推出了一个名为"Playwright (Interactive)"的实验性Codex技能。它允许Codex对网页和Electron应用进行可视化调试；甚至在构建应用的过程中，它就能同步对该应用进行实时测试。

OpenAI展示了一个典型案例：仅凭一条轻量提示词，GPT-5.4生成了一个完整的等距视角主题公园模拟游戏，涵盖：

- 基于瓦片的路径铺设与景点建设系统
- 游客AI寻路与排队行为
- 资金、游客数、满意度、清洁度四项指标全部实时动态更新

Playwright (Interactive)在整个过程中承担了多轮自动化测试，验证路径铺设、摄像机导航、游客响应及UI指标的正确性。

**从写代码到测试验收，模型全程自己完成**。这种"边造边测"的能力，已经非常接近一个人类高级全栈工程师的工作流。

**开发者实测反馈：**

知名AI评测博主Dan Shipper试用后写道：

> "这是我们最近一段时间里见过OpenAI最出色的规划能力，代码审查也很强，而且成本大约只有Opus的一半。"

他点出了两个具体维度：

1. **规划能力是长任务成败的关键**，GPT-5.4在任务拆解和持续推进上明显更有条理
2. **与Claude Opus相比约一半的成本**，对需要大规模API调用的开发者来说，这个差距在账单上会非常直观

博主Angel用GPT-5.4写了一个Minecraft克隆版，模型花了约24分钟，运行流畅，过程中没有卡住。他在推文里写道：

> "Minecraft基本上被攻克了，我现在得找个新测试了。"

沃顿商学院教授Ethan Mollick同样获得了早期访问权限。他用同一条提示词，让GPT-5.4 Pro生成了一个受《皮拉内西》启发的三维空间场景，全程没有报错，只额外追加了一句"把它做得更好"的指令。

他随后把结果和两年前GPT-4生成的版本并排放在一起，**差距一眼可见**。

---

## 技术创新：从"对话式AI"到"可控AI"

### 思考过程预览：执行前先看计划

用过AI处理长任务的人大概都有过这种体验：等模型跑完一大段，发现方向不对，只能从头再来，时间全浪费了。

GPT-5.4 Thinking在ChatGPT中新增了一项**"思考过程预览"**功能：在处理复杂任务之前，模型会先呈现工作计划概要，再开始执行。

**这个功能的价值在于：**

- 用户可以在模型开始执行前就看到它的工作思路
- 如果方向不对，可以立即调整，不必等到结果出来再从头重来
- 对需要多轮协作的任务来说，体验差别会比较明显

### 中途打断：执行中实时调整

更进一步的创新是**"中途打断"功能**。

用户可以在模型生成过程中实时添加指令或调整其方向。这让你能更轻松地引导模型达成预期的结果，而无需推倒重来，或通过多轮额外对话进行补救。

**从"完成后返工"到"执行中调整"：**

这个功能把纠偏这件事从"完成后"提前到了"执行中"。对于企业场景来说，这意味着：

- 减少无效计算，降低成本
- 提升协作效率，加快迭代速度
- 增强可控性，让AI更符合实际业务需求

该功能目前已在chatgpt.com和Android应用上线，iOS应用也将于近期推出。

### 工具搜索：Token消耗骤降47%

在GPT-5.4中，OpenAI显著优化了模型与外部工具的协作方式。

**过去的问题：**

当模型调用工具时，所有的工具定义都必须预先包含在提示词中。对于拥有大量工具的系统，这会导致：

- 每次请求都额外增加数千甚至数万个Token
- 推高成本、减慢响应速度
- 上下文中充斥着模型可能永远用不到的冗余信息

**GPT-5.4的解决方案：**

通过工具搜索，GPT-5.4不再需要预加载完整定义，而是接收一份精简的可选工具列表及工具搜索能力。当模型需要调用特定工具时，它会即时查找该工具的定义，并将其添加到当前的对话上下文。

**实际效果：**

OpenAI对Scale MCP Atlas基准测试中的250个任务进行了评估。在开启全部36个MCP服务器的情况下，对比了两种模式：

1. 将每个MCP函数直接暴露在模型上下文中
2. 将所有MCP服务器置于"工具搜索"之后

结果显示，在保持同等准确率的前提下，**"工具搜索"配置将总Token使用量降低了47%**。

将近一半的成本节省，精度一点没少。这种成本控制手段说明OpenAI正试图让大模型大规模商业化变得更加现实——毕竟对于企业来说，**省钱和好用同等重要**。

### /fast模式：Token生成速度提升1.5倍

开启Codex中的/fast模式后，包括GPT-5.4在内的所有受支持模型均可获得高达1.8倍的性能提升。

模型本身及其智能水平完全一致，只是速度更快。这意味着用户在处理编码任务、迭代和调试时，能够始终保持专注顺畅的状态。

---

## 性能与定价：更强了，但更贵还是更便宜？

### 定价策略：专业定位的溢价产品

从OpenAI公布的API定价表来看，GPT-5.4的定价比GPT-5.2要高出一截。

**API定价对比：**

| 模型 | 输入价格 | 缓存输入 | 输出价格 |
|-----|---------|---------|---------|
| gpt-5.2 | $1.75/百万token | $0.175/百万token | $14/百万token |
| gpt-5.4 (<272K) | $2.50/百万token | $0.25/百万token | $15/百万token |
| gpt-5.4 (>272K) | $5.00/百万token | $0.50/百万token | $22.50/百万token |
| gpt-5.2-pro | $21/百万token | - | $168/百万token |
| gpt-5.4-pro | $30/百万token | - | $180/百万token |

GPT-5.2的每百万Token输入/输出价格分别是1.75美元和14美元，而**GPT-5.4则上涨到了2.5美元和15美元**。

尤其是对于那些追求极限性能的用户，**GPT-5.4 Pro的价格更是飙升到了每百万输入30美元、输出180美元**。

**为什么涨价？**

原因很明显：5.4被定位为针对专业机构和高端生产力场景的溢价产品。如果你只是写写简单的闲聊文案，继续用5.2或5.3 Instant其实更划算。

### 效率提升：Token消耗显著降低

虽然单价涨了，但GPT-5.4在Agent任务中的"省钱之道"主要藏在它的技术机制里。

OpenAI特别强调，与GPT-5.2相比，**GPT-5.4在推理过程中使用的Token数量显著减少**。Token消耗下降意味着：

1. **响应速度更快**
2. **整体成本更低**

在处理相同问题时，GPT-5.4所需的Token数量明显少于前代产品，这直接转化为：

- 更低的Token消耗
- 更快的响应速度

**实际案例分析：**

在工具搜索机制的测试中，Token使用量降低了47%。在计算机操控任务中，Mainstay报告Token消耗降低约70%。

这些数据表明，虽然GPT-5.4的单价上涨了，但在实际应用中，**由于效率提升带来的Token节省，总成本可能并不会上升太多，甚至可能下降**。

### 成本陷阱：一句Hi烧掉80美元

强大的推理能力也有它的另一面。

Hyperbolic联合创始人金宇晨在X平台吐槽，**GPT-5.4 Pro是他用过最爱"过度思考"的模型**——仅仅发了一句简单的"Hi"，模型就开始认真推理，直接烧掉了80美元。

这并非个例。推理模型的特性决定了它在处理任何输入时都倾向于深度思考，哪怕问题本身根本不需要。

**对企业用户的启示：**

1. **日常轻量任务**：标准版或许是更合适的选择
2. **Pro版的推理火力**：还是留给真正值得的场合更划算
3. **成本控制机制**：需要设置合理的预算和使用监控

这也引出一个问题：如果GPT-5.4 Pro是最智能、最接近AGI的模型……那么，你有什么AGI级别的问题要问它呢？

---

## 竞争格局：三分天下，各有所长

### GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1 Pro

GPT-5.4发布后，AI模型竞争格局呈现出"三足鼎立"的态势。根据多方评测数据，三大模型各有优势领域：

**GPT-5.4的优势领域：**
- Computer Use（计算机操控）：OSWorld-Verified 75.0%，超越人类
- 知识工作：GDPval 83.0%，显著领先
- 网页搜索：BrowseComp 82.7%，Pro版达89.3%
- 全能平衡：没有明显短板

**Claude Opus 4.6的优势领域：**
- 编程能力：SWE-Bench Pro得分更高，在代码质量上领先
- Agent任务：在复杂多步骤任务中表现更稳定
- 安全性：坚持伦理红线，企业信任度更高

**Gemini 3.1 Pro的优势领域：**
- 抽象推理：GPQA Diamond 94.3%，在科学推理上卓越
- 性价比：标准层定价便宜约20%
- 上下文窗口：1M原生上下文，有竞争力的基准表现

**没有一家全赢：**

根据53AI的分析，GPT-5.4赢了5个benchmark类别，Claude Opus 4.6赢了2个，Gemini 3.1 Pro赢了3个。

GPT-5.4赢了Computer Use和知识工作，Claude Opus 4.6赢了编程和Agent，Gemini 3.1 Pro赢了推理和性价比。

### 定价对比：Claude比GPT-5.4贵2-3倍，Gemini最便宜

从定价角度看，三家呈现出明显的分层：

- **Gemini 3.1 Pro**：最便宜，但可用性在某些场景受限
- **GPT-5.4**：中等价位，全能性能
- **Claude Opus 4.6**：最贵，比GPT-5.4贵2-3倍

对于需要高频调用Agent能力的应用，Claude的定价可能是致命伤。

### 企业选择困境：是选"理科大脑"还是"全能打工者"？

面对三大旗舰模型，企业用户陷入两难：

- 选Gemini 3.1 Pro：便宜、推理强，但计算机操控和知识工作能力相对较弱
- 选Claude Opus 4.6：编程强、安全可信，但价格昂贵且计算机操控能力不足
- 选GPT-5.4：全能平衡、计算机操控领先，但单价上涨

这个选择背后，其实是企业对AI应用场景的优先级排序：

**如果企业最看重的是：**
- 成本控制 → Gemini 3.1 Pro
- 代码质量和安全性 → Claude Opus 4.6
- 全能性能和Agent能力 → GPT-5.4

---

## 行业影响：AI Agent企业应用的拐点

### 从"聊天机器人"到"数字员工"

GPT-5.4的发布，标志着AI正在从一个擅长回答问题的系统，变成一个擅长完成任务的系统。

**过去两年：**

AI主要被用来：
- 写文案、做总结
- 回答问题、提供建议
- 辅助人类决策

**GPT-5.4时代：**

AI开始能够：
- 操作计算机，直接完成任务
- 调用工具，自动化工作流
- 持续搜索，整合多方信息
- 自我测试，验证结果

这种转变对企业的影响是深远的。AI不再只是一个"辅助工具"，而是可以成为"责任主体"——**能够独立负责整块业务的数字员工**。

### AI Agent企业应用的关键能力

GPT-5.4的三大核心能力，恰好对应企业AI应用的三大痛点：

**1. 知识工作自动化**

- 财务建模：投行分析师建模任务准确率87.3%
- 文档生成：PPT生成人类偏好68%
- 数据分析：在各类专业任务中达到人类专家水准

**2. 业务流程自动化**

- 表单填写：税务门户网站首次成功率达95%
- 跨应用操作：能够在不同软件之间执行复杂工作流
- 持续任务：百万Token上下文支持长周期任务规划

**3. 开发流程自动化**

- 代码编写：SWE-Bench Pro得分57.7%
- 自动测试：Playwright (Interactive)支持边写边测
- 全栈开发：从生成代码到测试验收全程自动化

### 企业级AI市场的爆发前夜

中信证券研报表示，从OpenAI企业端AI的数据来看，2025年企业级AI处于场景探索阶段，用户数和流量实现高增，能力平权和人员降本价值凸显，且行业整体渗透率仍有较大提升空间。

**GPT-5.4如何推动企业级AI爆发？**

**第一，降低集成复杂度**

过去企业需要在不同模型间做选择和集成，现在一个GPT-5.4就能覆盖大部分场景，大幅降低了技术门槛和集成成本。

**第二，提升可靠性**

幻觉率降低33%、计算机操控超越人类、持续搜索能力提升，这些改进让企业敢于把真实业务交给AI来负责。

**第三，控制成本**

工具搜索机制使Token消耗降低47%，整体效率提升意味着在能力增强的同时，总成本可能不升反降。

### AI Agent的商业化路径

根据企业级AI Agent价值及应用报告，AI Agent契合企业需求，天生适合处理复杂任务，强调执行与行动，具备自动化复杂流程的潜力，有望带来指数级效率提升和生产力解放。

**GPT-5.4在Agent商业化中的优势：**

1. **原生计算机操控**：无需额外适配，可直接操作现有软件系统
2. **工具生态兼容**：支持MCP等工具协议，可接入企业现有工具链
3. **可控性增强**：思考过程预览和中途打断功能，让企业更放心地部署

---

## 历史视角：从"能力特化"到"能力大一统"

### AI模型演进的三个阶段

回顾过去两年的AI发展，可以清晰地看到三个阶段：

**第一阶段：能力涌现（2022-2023）**

- GPT-3.5、GPT-4横空出世
- 大语言模型展现出惊人的通用能力
- 但在专业场景下表现不稳定

**第二阶段：能力特化（2024-2025）**

- GPT-5.2专注推理
- GPT-5.3-Codex专注编程
- GPT-5.3 Instant专注用户体验
- 各类专用模型层出不穷

**第三阶段：能力大一统（2026-）**

- GPT-5.4整合编程、推理、计算机操控、网页搜索
- 从"多个专精模型"走向"一个全能模型"
- 重点从"能力提升"转向"效率优化"

### GPT-5.4的历史意义

从历史视角看，GPT-5.4的发布可能标志着：

**第一，AI竞争进入"整合期"**

过去两年，各大厂商都在疯狂扩充模型矩阵，推出各种专用模型。GPT-5.4的出现，可能预示着行业将从"能力分裂"走向"能力整合"。

**第二，从"技术竞赛"转向"应用竞赛"**

当头部模型的综合能力已达到实际应用阈值，竞争焦点将从"谁的模型更强"转向"谁的AI能帮企业赚更多钱/省更多钱"。

**第三，AI从"辅助工具"进化为"生产力主体"**

GPT-5.4的全能特性，使其能够独立完成有头有尾的任务闭环，而不只是提供建议。这可能是AI从"工具"到"员工"的关键转折点。

---

## 关键要点

- **GPT-5.4是OpenAI首个"大一统"模型**，在单一模型中整合了推理、编程、计算机操控、网页搜索和百万Token上下文能力，且没有牺牲任何单项性能

- **深度知识工作能力显著提升**，GDPval测试达到83.0%（GPT-5.2为70.9%），在投行分析师建模任务中准确率达87.3%（GPT-5.2为68.4%），幻觉率降低33%

- **原生计算机操控能力超越人类**，OSWorld-Verified测试中成功率达75.0%（人类基线72.4%），Mainstay实际部署中首次成功率达95%，Token消耗降低约70%

- **编程能力整合不降反升**，SWE-Bench Pro得分57.7%（GPT-5.3-Codex为56.8%），Playwright (Interactive)支持边写代码边测试，接近人类高级全栈工程师工作流

- **工具搜索机制大幅降低成本**，在36个MCP服务器的测试中将Token使用量降低47%，/fast模式使Token生成速度提升1.8倍，整体效率提升显著

- **思考过程预览和中途打断功能**，让用户在模型执行前看到工作计划，在执行中实时调整方向，从"完成后返工"进化为"执行中调整"

- **API定价上涨但效率提升**，GPT-5.4输入$2.50/百万Token（GPT-5.2为$1.75），Pro版$30/百万Token，但Token消耗显著降低，总成本可能不升反降

- **竞争格局三分天下**，GPT-5.4在计算机操控和知识工作上领先，Claude Opus 4.6在编程和Agent任务上更强，Gemini 3.1 Pro在推理和性价比上占优

- **AI Agent企业应用迎来拐点**，从"聊天机器人"进化为"数字员工"，能够独立负责整块业务，企业级AI市场处于爆发前夜

- **从"能力特化"到"能力大一统"**，AI竞争进入整合期，重点从"技术竞赛"转向"应用竞赛"，AI从"辅助工具"进化为"生产力主体"

---

## 常见问题

### GPT-5.4和之前的GPT-5.3-Codex有什么区别？

GPT-5.4将GPT-5.3-Codex的顶尖编程能力整合进了主线模型。现在你不再需要为了写代码单独开一个模型，而且编程能力本身没有因此打折扣——SWE-Bench Pro得分从56.8%提升到57.7%。同时，GPT-5.4还获得了计算机操控、深度网页搜索等全方位能力，成为一个真正的"全能模型"。

### GPT-5.4的"原生计算机操控"是什么意思？

这意味着GPT-5.4可以直接理解屏幕截图，然后发出鼠标点击和键盘输入指令来操作计算机。它不再需要独立的计算机操控模块，而是用模型本身的推理能力来完成这些任务。在OSWorld-Verified测试中，GPT-5.4的成功率达到75.0%，已经超越了人类72.4%的平均水平。

### GPT-5.4的价格贵吗？值得升级吗？

GPT-5.4的单价确实比GPT-5.2高约43%（输入从$1.75涨到$2.50），但由于工具搜索等效率优化，实际任务中的Token消耗可能降低40-70%。对于计算机操控、Agent任务等复杂场景，总成本可能不升反降。但对于简单的日常对话，继续用GPT-5.2或5.3 Instant更划算。

### GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro，我该选哪个？

这取决于你的优先级。如果最看重计算机操控和全能性能，选GPT-5.4；如果最看重代码质量和安全性，选Claude Opus 4.6；如果预算有限且主要需要推理能力，选Gemini 3.1 Pro。简单来说：GPT-5.4是"全能打工者"，Claude是"编程专家"，Gemini是"理科大脑"。

### 企业如何使用GPT-5.4？

GPT-5.4目前已通过API向企业开放，支持标准版和Pro版。Enterprise和Edu客户可由管理员在后台开启早期访问权限。GPT-5.4特别适合需要Agent能力、计算机操控、复杂工作流自动化的场景，如RPA（机器人流程自动化）、知识工作自动化、开发流程自动化等。

### GPT-5.4的百万Token上下文真的能用吗？

GPT-5.4在API中支持最高100万Token的上下文窗口，但OpenAI的测试数据显示，128K至272K是表现最稳定的区间，适合日常使用。256K以上准确率开始下滑，512K至1M区间的得分降至36.6%，目前更接近实验性质。另外，超过272K的请求会按两倍用量计入配额，使用前需要权衡成本。

---

## 参考资料

- [OpenAI官方发布：Introducing GPT-5.4](https://openai.com/zh-Hans-CN/index/introducing-gpt-5-4/)
- [量子位：GPT-5.4发布：OpenAI首个大一统模型，简直是龙虾原生](https://www.qbitai.com/2026/03/384345.html)
- [虎嗅：OpenAI正式发布GPT-5.4，整合编程、推理、计算机操控等多项能力](https://www.huxiu.com/article/4839532.html)
- [TechCrunch: OpenAI launches GPT-5.4 with Pro and Thinking versions](https://techcrunch.com/2026/03/05/openai-launches-gpt-5-4-with-pro-and-thinking-versions/)
- [Fortune: OpenAI launches GPT-5.4, its most powerful model for enterprise work](https://fortune.com/2026/03/05/openai-new-model-gpt5-4-enterprise-agentic-anthropic/)
- [IT之家：OpenAI 最强模型GPT-5.4 正式登场：原生支持计算机操控](https://www.ithome.com/0/926/344.htm)
- [新华网：OpenAI发布最新模型GPT-5.4](http://www.xinhuanet.com/20260306/c5a0ade0c58349bbb16beccd0a0028c8/c.html)
- [21财经：OpenAI最强模型GPT-5.4发布，争夺企业市场](https://www.21jingji.com/article/20260306/herald/7d11853513f6d8378d64d5a1ea43dbc9.html)
- [53AI：GPT-5.4发布，AI的最强之争已经结束了！](https://www.53ai.com/news/LargeLanguageModel/2026030631642.html)
- [Evolink：GPT-5.4 API Pricing 2026](https://evolink.ai/blog/gpt-5-4-api-pricing-2026-latest-forecast-scenarios-cost-comparison)
<script src="https://cdn.jsdelivr.net/npm/marked/marked.min.js"></script>
<script>
    document.addEventListener("DOMContentLoaded", () => {
        try {
            const rawMarkdown = document.body.innerText;
            const isDark = window.matchMedia("(prefers-color-scheme: dark)").matches;

            let webUrl = window.location.pathname;
            if (webUrl.endsWith('/index.md')) {
                webUrl = webUrl.substring(0, webUrl.length - 'index.md'.length) || '/';
            } else {
                webUrl = webUrl.replace(/.md$/, '');
            }
            const linkColor = isDark ? '#58a6ff' : '#0969da';
            const navHtml = 
                '<div style="margin-bottom: 24px; font-size: 14px; font-family: -apple-system, BlinkMacSystemFont, Segoe UI, Helvetica, Arial, sans-serif;">' +
                    '<a href="/index.md" style="color: ' + linkColor + '; text-decoration: none;">← Back to Home</a>' +
                    '<span style="margin: 0 8px; color: ' + (isDark ? '#484f58' : '#d0d7de') + ';">|</span>' +
                    '<a href="' + webUrl + '" style="color: ' + linkColor + '; text-decoration: none;">Switch to Web View</a>' +
                '</div>';

            let contentToRender = rawMarkdown;
            let frontmatterHtml = '';
            
            const fmMatch = rawMarkdown.match(/^---\s*[\r\n]+([\s\S]*?)[\r\n]+---\s*/);
            
            if (fmMatch) {
                contentToRender = rawMarkdown.substring(fmMatch[0].length);
                const yamlText = fmMatch[1];
                
                const borderColor = isDark ? '#30363d' : '#d0d7de';
                const bgColor = isDark ? '#161b22' : '#f6f8fa';
                const keyColor = isDark ? '#8b949e' : '#57606a';
                const valColor = isDark ? '#c9d1d9' : '#24292f';

                const rows = yamlText.split('\n')
                    .filter(line => line.trim() && line.includes(':'))
                    .map(line => {
                        const splitIdx = line.indexOf(':');
                        const key = line.slice(0, splitIdx).trim();
                        let val = line.slice(splitIdx + 1).trim();
                        if ((val.startsWith("'") && val.endsWith("'")) || (val.startsWith('"') && val.endsWith('"'))) {
                            val = val.slice(1, -1);
                        }
                        
                        return '<tr>' +
                            '<td style="white-space:nowrap; padding:8px 12px; color:' + keyColor + '; font-weight:600; border-bottom:1px solid ' + borderColor + '; width:1%;">' + key + '</td>' +
                            '<td style="padding:8px 12px; color:' + valColor + '; border-bottom:1px solid ' + borderColor + ';">' + val + '</td>' +
                        '</tr>';
                    }).join('');
                
                if (rows) {
                    frontmatterHtml = 
                        '<div style="margin-bottom: 32px; border:1px solid ' + borderColor + '; border-radius:6px; overflow:hidden; background-color:' + bgColor + ';">' +
                            '<table style="width:100%; border-collapse:collapse; font-family:-apple-system,BlinkMacSystemFont,Segoe UI,Helvetica,Arial,sans-serif; font-size:13px;">' +
                                rows +
                            '</table>' +
                        '</div>';
                }
            }
            
            const renderedHtml = marked.parse(contentToRender);
            
            const wrapper = document.createElement('article');
            wrapper.className = 'markdown-body';
            wrapper.innerHTML = navHtml + frontmatterHtml + renderedHtml;
            
            document.body.innerHTML = '';
            document.body.appendChild(wrapper);
        } catch (e) {
            console.error("Markdown rendering failed", e);
        }
    });
</script>
</body>
</html>