让 Codex 覆盖电脑上的各类专业工作,实现更全面的能力拓展。
解锁 Codex 更多潜力的全新模型:GPT‑5.3-Codex,迄今能力最强智能体编程模型。将 GPT‑5.2-Codex 的前沿编程性能与 GPT‑5.2 的推理及专业知识能力整合,运行速度提升 25%。能承担涉及研究、工具使用和复杂执行的长期运行任务。就像同事,你可在 GPT‑5.3-Codex 工作时对其进行引导和交互,而不丢上下文。
是OpenAI首个在自身创建过程中发挥了关键作用的模型。Codex 团队利用其早期版本来调试其自身的训练过程、管理自身的部署,并诊断测试结果与评估。Codex 能如此大幅度加速自身开发进程令人震惊。
凭借 GPT‑5.3-Codex,Codex 从只能编写和审核代码的智能体,演变为几乎能完成开发者和专业人士在计算机上所做的一切工作的智能体。
在 SWE-Bench Pro 和 Terminal-Bench 上创下了行业新高,并在 OSWorld 和 GDPval 上表现强劲。衡量编程、智能体能力以及真实世界处理能力的工具。
在 SWE-Bench Pro 上达到了顶尖 (state-of-the-art) 水平,该基准是对真实世界软件工程能力的严格评估。SWE-bench Verified 仅测试 Python,而 SWE-Bench Pro 涵盖了四种编程语言,且具备更强的防污染性、挑战性、多样性,也更符合行业实际需求。此外,它在 Terminal-Bench 2.0 上的表现也远超之前的纪录,该基准主要衡量像 Codex 这样的编程智能体所需的终端操作技能。值得注意的是,GPT‑5.3-Codex 实现这些成绩所消耗的 Token 比以往任何模型都要少,从而让用户能够构建更多内容
结合前沿的编程能力、审美水平的提升以及模型压缩技术,该模型能够完成令人惊叹的工作,可以在几天时间内从零开始构建功能高度复杂的游戏和应用程序。
与 GPT‑5.2-Codex 相比,在要求构建日常网站时,GPT‑5.3-Codex 也能更好地理解你的意向。对于简单或描述不详的提示,模型现在会默认生成功能更全、预设更合理的网站,为你提供更强大的初始画布来将创意变为现实。
软件工程师、设计师、产品经理和数据科学家所做的工作远不止生成代码。GPT‑5.3-Codex 旨在支持软件生命周期中的所有工作,包括调试、部署、监控、编写公关需求文档 (PRD)、编辑文案、用户研究、测试、指标分析等。它的智能体能力不仅限于软件,还能帮助你构建任何想要的东西,无论是演示文稿还是分析表格中的数据。
通过使用类似于OpenAI之前 GDPval 测试中所用的自定义技能,GPT‑5.3-Codex 在专业知识型工作方面也表现强劲。根据 GDPval 的衡量,其表现与 GPT‑5.2 持平。GDPval 是 OpenAI 在 2025 年发布的一项评估,旨在衡量模型在 44 种职业中明确定义的知识型工作任务上的表现。这些任务包括制作演示文稿、电子表格以及其他工作产出。
OSWorld 是一个智能体计算机使用基准测试,要求智能体在视觉桌面计算机环境中完成办公生产任务。GPT‑5.3-Codex 展示了远强于以往 GPT 模型的计算机使用能力。
在 OSWorld-Verified 中,模型通过视觉能力来完成多样化的计算机任务。人类得分约为 72%。
综合来看,在编程、前端、计算机使用以及真实世界任务中的这些结果表明,GPT‑5.3-Codex 不仅仅是在单个任务上表现更强,它标志着向单一、通用的智能体迈出了关键一步 — 这种智能体能够在全方位的真实世界技术工作中进行推理、构建和执行。
随着模型能力变得愈发强大,差距已从“智能体能做什么”转向“人类如何轻松地针对多个并行工作的智能体进行交互、引导和监督”。Codex 应用让管理和引导智能体变得更加简单,而现在配合 GPT‑5.3-Codex,交互性得到了进一步提升。通过这一新模型,Codex 会提供频繁的状态更新,让你在它工作时随时掌握关键决策和进展。你无需等待最终输出,而是可以进行实时交互 — 提出问题、讨论方案并引导其走向解决方案。GPT‑5.3-Codex 会详述其正在执行的操作,响应反馈,并让你全程参与其中。
在应用中运行模型时,可前往“设置 > 通用 > 后续行为”启用引导功能。
Codex 近期实现的快速进步,建立在 OpenAI 各个团队跨越数月乃至数年的研究项目成果之上。这些研究项目正由 Codex 加速推动;OpenAI 的许多研究员和工程师表示,他们如今的工作性质与短短两个月前相比已发生了根本性的变化。即使是 GPT‑5.3-Codex 的早期版本,也展现出了卓越的能力,使OpenAI的团队能够利用这些早期版本来改进训练,并支持后续版本的部署工作。
Codex 可用于极其广泛的任务,以至于很难完全列举它帮助OpenAI团队的所有方式。举例来说,研究团队利用 Codex 监控并调试了本次发布的训练运行。它对研究的加速不仅限于调试基础设施问题:它还帮助追踪了整个训练过程中的模式,对交互质量进行了深度分析,提出了修复方案,并为人类研究员构建了功能丰富的应用程序,以便精确了解该模型的行为与以往模型相比有何差异。
工程团队利用 Codex 优化并调整了 GPT‑5.3-Codex 的测试框架 (harness)。当OpenAI开始发现影响用户的奇特边缘案例时,团队成员利用 Codex 识别出了上下文渲染中的漏洞,并找到了导致低缓存命中率的根本原因。在整个发布过程中,GPT‑5.3-Codex 持续帮助团队动态缩放 GPU 集群,以应对流量激增并保持延迟稳定。
在 Alpha 测试期间,一位研究员想要了解 GPT‑5.3-Codex 在每轮对话中多完成了多少工作,以及相关的生产力差异。GPT‑5.3-Codex 构思了几个简单的正则表达式分类器,用以评估澄清请求、用户正向与负面反馈以及任务进展的频率;随后,它将这些分类器在大规模会话日志上运行,并生成了一份带有结论的报告。使用 Codex 进行构建的人员感到更加满意,因为智能体能更好地理解他们的意向,且每轮对话的进展更多,所需的澄清问题更少。
由于 GPT‑5.3-Codex 与其前代产品差异巨大,Alpha 测试的数据呈现出许多异常且违背直觉的结果。团队中的一位数据科学家与 GPT‑5.3-Codex 合作构建了新的数据流水线,并以远超常规看板工具的方式,更丰富地实现结果可视化。随后,他们与 Codex 共同分析了结果,Codex 在不到三分钟的时间内,简明扼要地总结了数千个数据点中的关键洞察。
单独来看,所有这些任务都是 Codex 如何帮助研究人员和产品构建者的生动案例。综合而言,OpenAI发现这些新能力为OpenAI的研究、工程和产品团队带来了强大的加速效果。
近几个月来,OpenAI看到模型在网络安全任务上的性能有了显著提升,这使开发者和安全专业人士共同受益。与此同时,OpenAI一直在准备更强的网络安全保障措施,以支持防御性用途并增强整个生态系统的韧性。
GPT‑5.3-Codex 是OpenAI依据准备框架首个在网络安全相关任务中被评定为高能力的模型,也是OpenAI首个直接训练用于识别软件漏洞的模型。虽然OpenAI还没有确凿证据表明它可以实现端到端的自动化网络攻击,但OpenAI正采取预防性措施,部署了迄今为止最全面的网络安全安全栈。OpenAI的缓解措施包括安全训练、自动化监控、高级能力的受信访问,以及包含威胁情报在内的执行流水线。
由于网络安全本质上具有双重用途,OpenAI正采取一种基于证据的迭代方法,在提升防御者发现并修复漏洞能力的同时减少滥用行为。为此,OpenAI启用了网络安全受信访问 (Trusted Access for Cyber) 试点计划,以加速网络防御研究。
OpenAI正在投资生态系统保障措施,例如扩大安全研究智能体 Aardvark 的私测范围,这是OpenAI Codex 安全产品和工具系列中的首款产品;同时,OpenAI还与开源维护者合作,为 Next.js 等广泛使用的项目提供免费的代码库扫描。上周就有安全研究人员使用 Codex 发现并披露(在新窗口中打开)了相关漏洞。
基于OpenAI 2023 年启动的 100 万美元网络安全资助计划,OpenAI还承诺提供 1000 万美元的 API 额度,以利用OpenAI最强大的模型加速网络防御,特别是针对开源软件和关键基础设施系统。从事善意 (good-faith) 安全研究的组织可以通过OpenAI的网络安全资助计划申请 API 额度和支持。
GPT‑5.3-Codex 已通过 ChatGPT 付费套餐上线,涵盖所有你可以使用 Codex 的场景:应用、命令行界面 (CLI)、IDE 扩展以及网页端。OpenAI正在努力,确保尽快安全地开放 API 访问。
得益于OpenAI在基础设施和推理栈方面的改进,伴随此次更新,OpenAI为 Codex 用户运行 GPT‑5.3-Codex 的速度提升了 25%,从而带来了更快的交互体验和结果产出。
GPT‑5.3-Codex 是针对 NVIDIA GB200 NVL72 系统共同设计、训练并提供服务的。OpenAI对 NVIDIA 的合作伙伴关系深表感谢。
凭借 GPT‑5.3-Codex,Codex 正从单纯的代码编写工具,演变为一个能将代码作为工具来操作计算机并完成端到端工作的智能体。通过推高编程智能体能力的上限,OpenAI也在解锁更广泛的知识工作类别 — 从构建和部署软件到研究、分析及执行复杂任务。最初以打造“最强编程智能体”为目标的尝试,如今已成为构建更通用计算机协作伙伴的基础,这不仅扩大了“谁能进行构建”的受众范围,也拓展了 Codex 所能实现的无限可能。
| GPT-5.3-Codex (xhigh) | GPT-5.2-Codex (xhigh) | GPT-5.2 (xhigh) | |
|---|---|---|---|
| SWE-Bench Pro (Public) | 56.8% | 56.4% | 55.6% |
| Terminal-Bench 2.0 | 77.3% | 64.0% | 62.2% |
| OSWorld-Verified | 64.7% | 38.2% | 37.9% |
| GDPval(胜出或持平) | 70.9% | - | 70.9% (high) |
| 网络安全夺旗挑战 | 77.6% | 67.4% | 67.7% |
| SWE-lancer IC Diamond | 81.4% | 76.0% | 74.6% |


