GPT-5.3-Codex 是目前最强的代理式编程模型也是 Codex 迈向“通用电脑协作者”的关键一步。它将 GPT-5.2-Codex 的前沿编程能力与 GPT-5.2 的推理和专业知识能力整合到一个模型中速度提升 25%能够稳定执行涉及研究、工具使用和复杂决策的长时间任务。与传统“只给结果”的模型不同GPT-5.3-Codex 更像一位真正的同事你可以在它工作时实时引导、讨论和调整方向而不会丢失上下文。这也是 OpenAI 首个在“自我开发”中发挥关键作用的模型Codex 团队使用它来调试训练、部署系统、分析测试结果显著加速了自身的研发流程。从写代码到操作整台电脑GPT-5.3-Codex 正在重新定义“AI 能帮你做什么”。它在 SWE-Bench Pro、Terminal-Bench、OSWorld 和 GDPval 等权威基准上刷新行业纪录不仅在真实世界软件工程、终端操作和 Web 开发中表现顶尖还能完成调试、部署、监控、文档撰写、数据分析、演示文稿制作等完整知识工作流程。无论是几天内从零构建复杂 Web 应用还是在可视化桌面环境中完成生产力任务GPT-5.3-Codex 都展示出向“单一通用智能体”跃迁的质变能力。结合神马中转 API 的统一接入方式开发者可以直接在操练场中使用 GPT-5.3-Codex把这种前沿能力快速落地到真实项目中。GPT-5.3-Codex是什么我们正在推出一个新模型进一步释放 Codex 的能力GPT-5.3-Codex这是迄今为止能力最强的代理式编程模型。这个模型把GPT-5.2-Codex 的前沿编程性能与GPT-5.2 的推理能力和专业知识能力合并到同一个模型里同时还快了 25%。这使它能够承担涉及研究、工具使用以及复杂执行的长时间运行任务。就像一位同事一样在 GPT-5.3-Codex 工作时你可以对它进行引导并与之互动同时不会丢失上下文。一个“自我创造”的模型GPT-5.3-Codex 是我们第一个在创造自身的过程中发挥了关键作用的模型。Codex 团队使用早期版本来调试它自己的训练、管理它自己的部署并诊断测试结果和评估——我们团队对 Codex 能在多大程度上加速自身开发感到非常震撼。从写代码到“几乎能做电脑上的任何事”有了 GPT-5.3-CodexCodex 从一个能够编写和审查代码的智能体变成一个几乎可以完成开发者和专业人士在电脑上能做的任何事情的智能体。前沿的代理式能力GPT-5.3-Codex 在SWE-Bench Pro和Terminal-Bench上创下新的行业最高水平并在OSWorld和GDPval上展现强劲表现。这四个基准是我们用来衡量编程能力、代理能力以及真实世界能力的指标。编程GPT-5.3-Codex 在SWE-Bench Pro上达到了最先进水平state-of-the-art这是对真实世界软件工程进行严格评估的一项测试。SWE-bench Verified 只测试 Python而 SWE-Bench Pro 覆盖四种语言并且更能抵抗数据污染难度更高、更多样、更贴近行业实际。它在Terminal-Bench 2.0上也远远超过此前的最先进水平Terminal-Bench 2.0 衡量的是像 Codex 这样的编程智能体所需的终端技能。值得注意的是GPT-5.3-Codex 做到这些时使用的 token 数量比任何此前模型都更少让用户能够构建更多。Web开发把前沿编程能力、美学方面的改进以及压缩compaction结合在一起得到的模型能够做出非常惊艳的作品从零开始在数天时间里构建高度可用、复杂的游戏和应用。为了测试模型的 Web 开发能力与长时间运行的代理能力我们让 GPT-5.3-Codex 给我们做了两款游戏Codex 应用发布时赛车游戏的第二版version two of the racing game from the Codex app launch以及一个潜水游戏a diving game。使用 develop web game 技能并搭配预先选定的、通用的后续提示例如 “修复 bug” 或 “改进游戏”GPT-5.3-Codex 在数百万 token 的规模上自主迭代这些游戏。观看预告并亲自游玩这些游戏看看 Codex 能做到什么。与 GPT-5.2-Codex 相比当你让 GPT-5.3-Codex 制作日常网站时它也能更好地理解你的意图。简单或描述不充分的提示现在会默认生成功能更多、默认设置更合理的网站为你提供更强的起步画布让你的想法更容易落地。例如我们让 GPT-5.3-Codex 和 GPT-5.2-Codex 分别构建下面两个落地页。GPT-5.3-Codex 会自动把年度方案显示为“折扣后的月价”让折扣显得清晰而有意图而不是把年度总价简单相乘/换算展示出来。它还做了一个会自动切换的用户评价轮播其中包含三条不同用户引语而不是只有一条从而使页面默认就显得更完整、更接近可直接上线的状态。提示Prompt为 Quiet KPI 构建一个落地页这是一个对创始人友好的每周指标摘要。审美是柔和的 SaaS 风格玻璃质感卡片、薰衣草到蓝色的渐变、细微的模糊。需要包含分区带邮箱采集的首屏hero、示例报告卡片网格、集成integrations一行、用户评价轮播、定价月付/年付切换、FAQ、页脚。字体用 Satoshi 或类似的几何无衬线geometric sans。按钮圆角柔和14px 半径强烈的聚焦态focus states。加一个有品味的基于滚动触发的 reveal 动效。超越编程软件工程师、设计师、产品经理和数据科学家做的远不只是生成代码。GPT-5.3-Codex 被构建来支持软件生命周期中的全部工作——调试、部署、监控、撰写 PRD、编辑文案、用户研究、测试、指标metrics等等。它的代理能力也超越软件范畴帮助你构建任何你想构建的东西——无论是做幻灯片还是在表格里分析数据。通过与我们此前用于 GDPval 结果的定制技能类似的方法GPT-5.3-Codex 在 GDPval 所衡量的专业知识工作上也表现强劲与 GPT-5.2 持平。GDPval 是 OpenAI 在 2025 年发布的一项评估用来衡量模型在 44 种职业中、对定义明确的知识工作任务的完成表现。这些任务包括制作演示文稿、电子表格以及其他工作成果。下面是该智能体产出的部分示例。理财建议幻灯片Financial advice slides零售培训文档Retail training docNPV 分析电子表格NPV analysis spreadsheet时尚演示 PDFFashion presentation PDFOSWorld 是一个代理式计算机使用基准测试智能体需要在可视化桌面电脑环境中完成生产力任务。GPT-5.3-Codex 展现了远强于之前 GPT 模型的计算机使用能力。在 OSWorld-Verified 中模型使用视觉来完成多种多样的电脑任务。人类得分约为 ~72%。综合编程、前端、计算机使用以及真实世界任务等结果表明GPT-5.3-Codex 不只是更擅长单个任务而是标志着向一个单一的通用型智能体迈出了“质变”一步它能够在真实世界技术工作的完整范围内进行推理、构建并执行。一个可交互的协作者随着模型能力变得更强差距从“智能体能做什么”转向“人类能多容易地与之交互、指挥并监督许多并行工作的智能体”。Codex 应用让管理与指挥智能体变得更容易而现在有了 GPT-5.3-Codex它变得更具交互性。使用新模型时Codex 会提供频繁更新让你随时掌握它在工作中的关键决策与进展。你不需要等到最终输出才看到结果而是可以实时互动——提问、讨论方法并将它引导向解决方案。GPT-5.3-Codex 会讲述它正在做什么响应反馈并在从开始到结束的全过程中让你保持同步。我们如何使用Codex来训练与部署GPT-5.3-Codex近期 Codex 的快速改进建立在 OpenAI 全体团队跨度数月或数年的研究项目成果之上。这些研究项目正在被 Codex 加速OpenAI 的许多研究人员和工程师都形容他们今天的工作方式与两个月前相比已经发生了根本变化。即便是 GPT-5.3-Codex 的早期版本也展现出卓越能力使我们的团队能够用这些早期版本来改进训练并支持后续版本的部署。Codex 对非常广泛的任务都很有用因此很难完整列举它帮助我们团队的所有方式。举例来说研究团队使用 Codex 来监控并调试此次发布的训练过程。它带来的研究加速不止体现在修复基础设施调试问题上它帮助我们在训练过程中跟踪模式patterns对交互质量进行深入分析提出修复建议并构建丰富的应用帮助人类研究者精确理解模型行为与以往模型相比有哪些差异。工程团队使用 Codex 来优化并改造 GPT-5.3-Codex 的测试/运行支架harness。当我们开始看到一些影响用户的奇怪边缘案例时团队成员使用 Codex 来定位上下文渲染context rendering的 bug并找出缓存命中率偏低low cache hit rates的根因。在发布过程中GPT-5.3-Codex 仍在持续帮助团队它会动态扩缩 GPU 集群以应对流量激增并保持延迟稳定。在 alpha 测试期间有位研究员想了解GPT-5.3-Codex 每一轮per turn能多完成多少额外工作以及对应的生产力差异。GPT-5.3-Codex 提出了几个简单的正则表达式regex分类器用于估计澄清问题的频率、用户正向/负向回应、任务进展等指标然后将这些分类器以可扩展方式运行在全部会话日志上并生成一份包含结论的报告。随着智能体更能理解他们的意图、每一轮推进更多工作、且提出的澄清问题更少使用 Codex 的人感到更满意。由于 GPT-5.3-Codex 与其前代差异很大alpha 测试数据呈现了许多异常且反直觉的结果。团队中的一位数据科学家与 GPT-5.3-Codex 合作构建了新的数据管道并以比我们的标准仪表盘工具更丰富的方式对结果进行可视化。这些结果与 Codex 一起被共同分析它在不到三分钟的时间内对数千个数据点的关键洞察做出了简洁总结。单独来看这些任务都是 Codex 如何帮助研究者与产品构建者的有趣示例。合在一起我们发现这些新能力显著加速了我们的研究、工程与产品团队。保障网络安全前沿在过去几个月里我们看到模型在网络安全任务上的表现取得了显著提升这同时惠及开发者和安全专业人员。与此同时我们也一直在准备更强的网络安全防护措施以支持防御性使用并提升更广泛生态系统的韧性。在我们的 Preparedness Framework准备度框架下GPT-5.3-Codex 是第一个被我们归类为在网络安全相关任务上属于高能力High capability的模型也是我们第一个直接训练其识别软件漏洞的模型。虽然我们没有确凿证据表明它能够端到端自动化网络攻击但我们采取谨慎做法并部署了迄今为止最全面的网络安全安全栈。我们的缓解措施包括安全训练、自动化监测、对高级能力的可信访问以及包括威胁情报在内的执行流水线enforcement pipelines。由于网络安全天然具有双重用途dual-use我们采取基于证据、迭代式的方法在加速防御者发现与修复漏洞能力的同时减缓滥用。作为其中一部分我们推出Trusted Access for Cyber这是一个试点项目用于加速网络防御研究。我们也在投资生态系统层面的防护措施例如扩大Aardvark我们的安全研究智能体的私测private beta作为我们 Codex Security 产品与工具套件中的第一项产品并与开源维护者合作为诸如Next.js这样的广泛使用项目提供免费的代码库扫描——此前有位安全研究员使用 Codex 找到的漏洞已在上周披露在新窗口打开。在我们 2023 年启动的 100 万美元网络安全资助项目$1M Cybersecurity Grant Program基础上我们还承诺提供1000 万美元的 API 额度$10M in API credits以使用我们最强的模型加速网络防御尤其面向开源软件和关键基础设施系统。从事善意安全研究的组织可以通过我们的 Cybersecurity Grant Program 申请 API 额度与支持。可用性与细节GPT-5.3-Codex 已在付费 ChatGPT 方案中可用并在你可以使用 Codex 的所有地方提供应用app、CLI、IDE 扩展和网页web。我们正在努力尽快以安全方式启用 API 访问。随着这次更新得益于我们基础设施与推理inference栈的改进我们也让 Codex 用户使用的 GPT-5.3-Codex快了 25%带来更快的交互与更快的结果。使用神马中转API调用 GPT-5.3-Codex操练场示例神马中转 API 提供了对多种大模型的统一调用方式。在神马中转 API 操练场或者接口API中你可以直接选择并使用GPT-5.3-Codex进行测试与开发无需关心底层模型的原生接入细节。在操练场中选择模型打开神马中转 API-工作台-操练场在「模型Model」下拉列表中选择GPT-5.3-Codex设置请求参数如温度、最大 token 数等在输入框中填写你的提示词Prompt点击「运行 」即可看到模型实时输出接下来What’s next有了 GPT-5.3-CodexCodex 正在从“编写代码”进一步走向“把代码当作工具来操作电脑并端到端完成工作”。当我们推动编程智能体能力边界的同时我们也在解锁更广泛类别的知识工作——从构建与部署软件到研究、分析与执行复杂任务。起初这一切是围绕“成为最强编程智能体”的目标展开而现在它已经成为一个更通用的电脑协作者的基础扩展了“谁能构建”以及“用 Codex 能做到什么”的可能性。