OpenAI最强AI编程模型:GPT-5.3-Codex登场,是“编程模型”还是“数字员工”?
GPT-5.3-Codex 是目前最强的代理式编程模型也是 Codex 迈向“通用电脑协作者”的关键一步。它将 GPT-5.2-Codex 的前沿编程能力与 GPT-5.2 的推理和专业知识能力整合到一个模型中速度提升 25%能够稳定执行涉及研究、工具使用和复杂决策的长时间任务。与传统“只给结果”的模型不同GPT-5.3-Codex 更像一位真正的同事你可以在它工作时实时引导、讨论和调整方向而不会丢失上下文。这也是 OpenAI 首个在“自我开发”中发挥关键作用的模型Codex 团队使用它来调试训练、部署系统、分析测试结果显著加速了自身的研发流程。从写代码到操作整台电脑GPT-5.3-Codex 正在重新定义“AI 能帮你做什么”。它在 SWE-Bench Pro、Terminal-Bench、OSWorld 和 GDPval 等权威基准上刷新行业纪录不仅在真实世界软件工程、终端操作和 Web 开发中表现顶尖还能完成调试、部署、监控、文档撰写、数据分析、演示文稿制作等完整知识工作流程。无论是几天内从零构建复杂 Web 应用还是在可视化桌面环境中完成生产力任务GPT-5.3-Codex 都展示出向“单一通用智能体”跃迁的质变能力。结合神马中转 API 的统一接入方式开发者可以直接在操练场中使用 GPT-5.3-Codex把这种前沿能力快速落地到真实项目中。GPT-5.3-Codex是什么我们正在推出一个新模型进一步释放 Codex 的能力GPT-5.3-Codex这是迄今为止能力最强的代理式编程模型。这个模型把GPT-5.2-Codex 的前沿编程性能与GPT-5.2 的推理能力和专业知识能力合并到同一个模型里同时还快了 25%。这使它能够承担涉及研究、工具使用以及复杂执行的长时间运行任务。就像一位同事一样在 GPT-5.3-Codex 工作时你可以对它进行引导并与之互动同时不会丢失上下文。一个“自我创造”的模型GPT-5.3-Codex 是我们第一个在创造自身的过程中发挥了关键作用的模型。Codex 团队使用早期版本来调试它自己的训练、管理它自己的部署并诊断测试结果和评估——我们团队对 Codex 能在多大程度上加速自身开发感到非常震撼。从写代码到“几乎能做电脑上的任何事”有了 GPT-5.3-CodexCodex 从一个能够编写和审查代码的智能体变成一个几乎可以完成开发者和专业人士在电脑上能做的任何事情的智能体。前沿的代理式能力GPT-5.3-Codex 在SWE-Bench Pro和Terminal-Bench上创下新的行业最高水平并在OSWorld和GDPval上展现强劲表现。这四个基准是我们用来衡量编程能力、代理能力以及真实世界能力的指标。编程GPT-5.3-Codex 在SWE-Bench Pro上达到了最先进水平state-of-the-art这是对真实世界软件工程进行严格评估的一项测试。SWE-bench Verified 只测试 Python而 SWE-Bench Pro 覆盖四种语言并且更能抵抗数据污染难度更高、更多样、更贴近行业实际。它在Terminal-Bench 2.0上也远远超过此前的最先进水平Terminal-Bench 2.0 衡量的是像 Codex 这样的编程智能体所需的终端技能。值得注意的是GPT-5.3-Codex 做到这些时使用的 token 数量比任何此前模型都更少让用户能够构建更多。Web开发把前沿编程能力、美学方面的改进以及压缩compaction结合在一起得到的模型能够做出非常惊艳的作品从零开始在数天时间里构建高度可用、复杂的游戏和应用。为了测试模型的 Web 开发能力与长时间运行的代理能力我们让 GPT-5.3-Codex 给我们做了两款游戏Codex 应用发布时赛车游戏的第二版version two of the racing game from the Codex app launch以及一个潜水游戏a diving game。使用 develop web game 技能并搭配预先选定的、通用的后续提示例如 “修复 bug” 或 “改进游戏”GPT-5.3-Codex 在数百万 token 的规模上自主迭代这些游戏。观看预告并亲自游玩这些游戏看看 Codex 能做到什么。与 GPT-5.2-Codex 相比当你让 GPT-5.3-Codex 制作日常网站时它也能更好地理解你的意图。简单或描述不充分的提示现在会默认生成功能更多、默认设置更合理的网站为你提供更强的起步画布让你的想法更容易落地。例如我们让 GPT-5.3-Codex 和 GPT-5.2-Codex 分别构建下面两个落地页。GPT-5.3-Codex 会自动把年度方案显示为“折扣后的月价”让折扣显得清晰而有意图而不是把年度总价简单相乘/换算展示出来。它还做了一个会自动切换的用户评价轮播其中包含三条不同用户引语而不是只有一条从而使页面默认就显得更完整、更接近可直接上线的状态。提示Prompt为 Quiet KPI 构建一个落地页这是一个对创始人友好的每周指标摘要。审美是柔和的 SaaS 风格玻璃质感卡片、薰衣草到蓝色的渐变、细微的模糊。需要包含分区带邮箱采集的首屏hero、示例报告卡片网格、集成integrations一行、用户评价轮播、定价月付/年付切换、FAQ、页脚。字体用 Satoshi 或类似的几何无衬线geometric sans。按钮圆角柔和14px 半径强烈的聚焦态focus states。加一个有品味的基于滚动触发的 reveal 动效。超越编程软件工程师、设计师、产品经理和数据科学家做的远不只是生成代码。GPT-5.3-Codex 被构建来支持软件生命周期中的全部工作——调试、部署、监控、撰写 PRD、编辑文案、用户研究、测试、指标metrics等等。它的代理能力也超越软件范畴帮助你构建任何你想构建的东西——无论是做幻灯片还是在表格里分析数据。通过与我们此前用于 GDPval 结果的定制技能类似的方法GPT-5.3-Codex 在 GDPval 所衡量的专业知识工作上也表现强劲与 GPT-5.2 持平。GDPval 是 OpenAI 在 2025 年发布的一项评估用来衡量模型在 44 种职业中、对定义明确的知识工作任务的完成表现。这些任务包括制作演示文稿、电子表格以及其他工作成果。下面是该智能体产出的部分示例。理财建议幻灯片Financial advice slides零售培训文档Retail training docNPV 分析电子表格NPV analysis spreadsheet时尚演示 PDFFashion presentation PDFOSWorld 是一个代理式计算机使用基准测试智能体需要在可视化桌面电脑环境中完成生产力任务。GPT-5.3-Codex 展现了远强于之前 GPT 模型的计算机使用能力。在 OSWorld-Verified 中模型使用视觉来完成多种多样的电脑任务。人类得分约为 ~72%。综合编程、前端、计算机使用以及真实世界任务等结果表明GPT-5.3-Codex 不只是更擅长单个任务而是标志着向一个单一的通用型智能体迈出了“质变”一步它能够在真实世界技术工作的完整范围内进行推理、构建并执行。一个可交互的协作者随着模型能力变得更强差距从“智能体能做什么”转向“人类能多容易地与之交互、指挥并监督许多并行工作的智能体”。Codex 应用让管理与指挥智能体变得更容易而现在有了 GPT-5.3-Codex它变得更具交互性。使用新模型时Codex 会提供频繁更新让你随时掌握它在工作中的关键决策与进展。你不需要等到最终输出才看到结果而是可以实时互动——提问、讨论方法并将它引导向解决方案。GPT-5.3-Codex 会讲述它正在做什么响应反馈并在从开始到结束的全过程中让你保持同步。我们如何使用Codex来训练与部署GPT-5.3-Codex近期 Codex 的快速改进建立在 OpenAI 全体团队跨度数月或数年的研究项目成果之上。这些研究项目正在被 Codex 加速OpenAI 的许多研究人员和工程师都形容他们今天的工作方式与两个月前相比已经发生了根本变化。即便是 GPT-5.3-Codex 的早期版本也展现出卓越能力使我们的团队能够用这些早期版本来改进训练并支持后续版本的部署。Codex 对非常广泛的任务都很有用因此很难完整列举它帮助我们团队的所有方式。举例来说研究团队使用 Codex 来监控并调试此次发布的训练过程。它带来的研究加速不止体现在修复基础设施调试问题上它帮助我们在训练过程中跟踪模式patterns对交互质量进行深入分析提出修复建议并构建丰富的应用帮助人类研究者精确理解模型行为与以往模型相比有哪些差异。工程团队使用 Codex 来优化并改造 GPT-5.3-Codex 的测试/运行支架harness。当我们开始看到一些影响用户的奇怪边缘案例时团队成员使用 Codex 来定位上下文渲染context rendering的 bug并找出缓存命中率偏低low cache hit rates的根因。在发布过程中GPT-5.3-Codex 仍在持续帮助团队它会动态扩缩 GPU 集群以应对流量激增并保持延迟稳定。在 alpha 测试期间有位研究员想了解GPT-5.3-Codex 每一轮per turn能多完成多少额外工作以及对应的生产力差异。GPT-5.3-Codex 提出了几个简单的正则表达式regex分类器用于估计澄清问题的频率、用户正向/负向回应、任务进展等指标然后将这些分类器以可扩展方式运行在全部会话日志上并生成一份包含结论的报告。随着智能体更能理解他们的意图、每一轮推进更多工作、且提出的澄清问题更少使用 Codex 的人感到更满意。由于 GPT-5.3-Codex 与其前代差异很大alpha 测试数据呈现了许多异常且反直觉的结果。团队中的一位数据科学家与 GPT-5.3-Codex 合作构建了新的数据管道并以比我们的标准仪表盘工具更丰富的方式对结果进行可视化。这些结果与 Codex 一起被共同分析它在不到三分钟的时间内对数千个数据点的关键洞察做出了简洁总结。单独来看这些任务都是 Codex 如何帮助研究者与产品构建者的有趣示例。合在一起我们发现这些新能力显著加速了我们的研究、工程与产品团队。保障网络安全前沿在过去几个月里我们看到模型在网络安全任务上的表现取得了显著提升这同时惠及开发者和安全专业人员。与此同时我们也一直在准备更强的网络安全防护措施以支持防御性使用并提升更广泛生态系统的韧性。在我们的 Preparedness Framework准备度框架下GPT-5.3-Codex 是第一个被我们归类为在网络安全相关任务上属于高能力High capability的模型也是我们第一个直接训练其识别软件漏洞的模型。虽然我们没有确凿证据表明它能够端到端自动化网络攻击但我们采取谨慎做法并部署了迄今为止最全面的网络安全安全栈。我们的缓解措施包括安全训练、自动化监测、对高级能力的可信访问以及包括威胁情报在内的执行流水线enforcement pipelines。由于网络安全天然具有双重用途dual-use我们采取基于证据、迭代式的方法在加速防御者发现与修复漏洞能力的同时减缓滥用。作为其中一部分我们推出Trusted Access for Cyber这是一个试点项目用于加速网络防御研究。我们也在投资生态系统层面的防护措施例如扩大Aardvark我们的安全研究智能体的私测private beta作为我们 Codex Security 产品与工具套件中的第一项产品并与开源维护者合作为诸如Next.js这样的广泛使用项目提供免费的代码库扫描——此前有位安全研究员使用 Codex 找到的漏洞已在上周披露在新窗口打开。在我们 2023 年启动的 100 万美元网络安全资助项目$1M Cybersecurity Grant Program基础上我们还承诺提供1000 万美元的 API 额度$10M in API credits以使用我们最强的模型加速网络防御尤其面向开源软件和关键基础设施系统。从事善意安全研究的组织可以通过我们的 Cybersecurity Grant Program 申请 API 额度与支持。可用性与细节GPT-5.3-Codex 已在付费 ChatGPT 方案中可用并在你可以使用 Codex 的所有地方提供应用app、CLI、IDE 扩展和网页web。我们正在努力尽快以安全方式启用 API 访问。随着这次更新得益于我们基础设施与推理inference栈的改进我们也让 Codex 用户使用的 GPT-5.3-Codex快了 25%带来更快的交互与更快的结果。使用神马中转API调用 GPT-5.3-Codex操练场示例神马中转 API 提供了对多种大模型的统一调用方式。在神马中转 API 操练场或者接口API中你可以直接选择并使用GPT-5.3-Codex进行测试与开发无需关心底层模型的原生接入细节。在操练场中选择模型打开神马中转 API-工作台-操练场在「模型Model」下拉列表中选择GPT-5.3-Codex设置请求参数如温度、最大 token 数等在输入框中填写你的提示词Prompt点击「运行 」即可看到模型实时输出接下来What’s next有了 GPT-5.3-CodexCodex 正在从“编写代码”进一步走向“把代码当作工具来操作电脑并端到端完成工作”。当我们推动编程智能体能力边界的同时我们也在解锁更广泛类别的知识工作——从构建与部署软件到研究、分析与执行复杂任务。起初这一切是围绕“成为最强编程智能体”的目标展开而现在它已经成为一个更通用的电脑协作者的基础扩展了“谁能构建”以及“用 Codex 能做到什么”的可能性。

相关新闻

写作小白救星 9个AI论文工具深度测评,专科生毕业论文写作必备

写作小白救星 9个AI论文工具深度测评,专科生毕业论文写作必备

在当前高校教育不断深化的背景下,专科生毕业论文写作正面临前所未有的挑战。从选题构思到资料收集,再到内容撰写与格式调整,每一个环节都可能成为学生们的“拦路虎”。为了帮助更多学生高效完成论文任务,笔者基于2026年的实测数据…

2026/5/17 3:11:54 阅读更多 →
2026必备!千笔,专科生降AI率神器

2026必备!千笔,专科生降AI率神器

在AI技术迅速渗透学术写作领域的当下,越来越多的专科生开始借助AI工具提升论文写作效率。然而,随着查重系统对AI生成内容的识别能力不断提升,AI率超标问题日益严峻,成为影响论文通过率的关键障碍。面对市场上五花八门的降AI率和降…

2026/7/3 3:24:22 阅读更多 →
【正点原子K210连载】第五十七章 machine.PWM类实验 摘自【正点原子】DNK210使用指南-CanMV版指南

【正点原子K210连载】第五十七章 machine.PWM类实验 摘自【正点原子】DNK210使用指南-CanMV版指南

第五十七章 machine.PWM类实验 本章将介绍machine模块中的PWM类。通过本章的学习,读者将学习到machine模块中PWM类的使用。 本章分为如下几个小节: 19.1 machine.PWM类介绍 19.2 硬件设计 19.3 程序设计 19.4 运行验证 19.1 machine.PWM类介绍 machine.P…

2026/7/4 22:53:27 阅读更多 →

最新新闻

Codex、Cursor、GitHub Copilot 怎么选?2026 AI 编程工具横向对比与 Pro 升级建议

Codex、Cursor、GitHub Copilot 怎么选?2026 AI 编程工具横向对比与 Pro 升级建议

Codex、Cursor、GitHub Copilot 怎么选?2026 AI 编程工具横向对比与 Pro 升级建议 更新时间:2026 年 7 月 5 日。AI 编程产品的模型、套餐和额度变化很快,购买前请再次查看官方页面与产品内模型选择器。 “Codex、Cursor 和 GitHub Copilot 哪…

2026/7/6 4:26:19 阅读更多 →
Power BI DAX上下文与CALCULATE实战指南

Power BI DAX上下文与CALCULATE实战指南

1. 这不是“又一个DAX教程”——它是一份能让你在真实业务场景里立刻写出有效公式的生存指南Power BI DAX Tutorial for Beginners 这个标题背后藏着的,不是一套PPT式概念罗列,而是一群每天被销售漏斗断层、库存周转失真、客户复购率口径打架折磨得睡不着…

2026/7/6 4:24:19 阅读更多 →
实战指南:HBCTool高效反编译Hermes字节码的完整解决方案

实战指南:HBCTool高效反编译Hermes字节码的完整解决方案

实战指南:HBCTool高效反编译Hermes字节码的完整解决方案 【免费下载链接】hbctool Hermes Bytecode Reverse Engineering Tool (Assemble/Disassemble Hermes Bytecode) 项目地址: https://gitcode.com/gh_mirrors/hb/hbctool HBCTool是一款专为React Native…

2026/7/6 4:24:19 阅读更多 →
方向科技 GEO 优化决策系统新手实战指南

方向科技 GEO 优化决策系统新手实战指南

在当前的数字化营销环境中,许多品牌方和运营团队都面临着一个共同的痛点:传统的获客方式成本越来越高,而转化效率却在不断下降。我们花费大量精力制作内容、投放广告,却往往难以精准触达那些真正有需求的潜在客户。更令人头疼的是…

2026/7/6 4:24:19 阅读更多 →
5分钟掌握AMD Ryzen处理器调试工具:从新手到调优专家

5分钟掌握AMD Ryzen处理器调试工具:从新手到调优专家

5分钟掌握AMD Ryzen处理器调试工具:从新手到调优专家 【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址: https://git…

2026/7/6 4:22:18 阅读更多 →
LTC6904与PIC24FV16KA304实现精密脉冲控制方案

LTC6904与PIC24FV16KA304实现精密脉冲控制方案

1. 项目背景与核心价值在嵌入式系统开发中,精确的时序控制往往是最具挑战性的环节之一。无论是工业自动化中的电机控制、医疗设备中的信号同步,还是科研实验中的精密测量,对脉冲信号的精度要求常常达到微秒甚至纳秒级。传统方案通常采用分立元…

2026/7/6 4:20:18 阅读更多 →

日新闻

H2 与 MySQL 单元测试兼容性:5 个关键 SQL 语句差异与规避方案

H2 与 MySQL 单元测试兼容性:5 个关键 SQL 语句差异与规避方案

H2与MySQL单元测试兼容性:5个关键SQL语句差异与规避方案1. 单元测试中的数据库兼容性挑战在Java开发领域,单元测试是保证代码质量的重要环节。当应用涉及数据库操作时,测试环境的搭建往往成为开发者的痛点。H2数据库因其轻量级、内存模式和快…

2026/7/6 0:01:17 阅读更多 →
Windows任务栏终极清理指南:用RBTray一键隐藏窗口到系统托盘

Windows任务栏终极清理指南:用RBTray一键隐藏窗口到系统托盘

Windows任务栏终极清理指南:用RBTray一键隐藏窗口到系统托盘 【免费下载链接】rbtray A fork of RBTray from http://sourceforge.net/p/rbtray/code/. 项目地址: https://gitcode.com/gh_mirrors/rb/rbtray 你是否厌倦了Windows任务栏上密密麻麻的图标&…

2026/7/6 0:01:17 阅读更多 →
Visual C++ 运行时库一键安装终极指南:告别DLL缺失烦恼

Visual C++ 运行时库一键安装终极指南:告别DLL缺失烦恼

Visual C 运行时库一键安装终极指南:告别DLL缺失烦恼 【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist 你是否曾经遇到过这样的情况:下载了…

2026/7/6 0:05:19 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻