GPT-5.4 炸场发布!疯狂屠榜、超过Claude 和 Gemini
今天凌晨2点10分OpenAI正式发布了GPT-5.4模型已经可以在ChatGPT、API和Codex中使用了。本次共有Thingking和Pro两种模型在性能方面超过了Claude最新的Opus 4.6和谷歌的Gemini 3.1pro。性能更强、成本更低咱们先聊聊5.4的核心技术亮点我最直观的感受就是GPT-5.4做专业相关的活越来越靠谱了。以前用AI做表格、写报告总担心出错还得自己反复核对现在它输出的内容一致性和准确性都提升了不少甚至能媲美行业里的专业人士。有个测试特别能说明问题针对美国九个主流行业的44个职业测试AI做标准化工作的能力GPT-5.4的表现有83%的场景能赶上甚至超过专业人士而上一代只有70.9%。像销售PPT、会计报表、急诊排班表这些实际工作要做的事都能轻松搞定连制造业图纸、短视频脚本都不在话下。尤其是做表格和PPT进步真的肉眼可见。以前AI做的表格公式容易错排版也乱PPT更是千篇一律没什么设计感。现在GPT-5.4做投行分析师的表格建模平均分能到87.3%比上一代高了快20个百分点做的PPT视觉设计更精致版式也更多样有68%的人都觉得比上一代做得好。错误率也降了不少。以前用AI查资料总怕它瞎编也就是大家常说的“幻觉”。现在GPT-5.4单条表述的错误率比上一代降了33%完整回答出错的概率也降了18%。用来做法律分析、财务模型这种需要精准度的活也更放心了。计算机操作比人类还猛这绝对是GPT-5.4最惊艳我的地方以前的AI只能帮你写文字、出思路不能直接操作电脑。现在它终于能自己动手了相当于给你配了一个全天候在线的电脑操作AI助理。能适配各种电脑操作场景既能通过代码控制电脑也能看着截图用鼠标和键盘指令操作。比如你让它发邮件、安排日历、批量录入数据它都能自己完成不用你手动一步步来。而且它的视觉理解能力也升级了能看懂高分辨率的图片和截图以前有些模糊的截图AI识别不准现在哪怕是细节很多的界面它也能精准定位点击操作也更准确。OpenAI还新增了一个“原始”图像精度档位能支持更高像素的图片对于做设计、看图纸的人来说真的太实用了。有个第三方测试针对三万多个业主协会和房产税门户网站GPT-5.4第一次尝试操作的成功率就有95%三次以内基本能100%成功。比以前的操作智能体强太多了速度还快了3倍token消耗也少了70%规模化用起来特别划算。代码能力大升级对于程序员来说GPT-5.4绝对是福音。它继承了GPT-5.3-Codex在写代码上的优势还结合了新的办公和操作能力做长周期的开发任务特别顺手。比如需要反复调试、用各种工具辅助的项目它能省不少事。最实用的是在Codex里开启快速模式后它的token生成速度能提升1.5倍写代码、调试的速度快了很多程序员不用再等半天能保持连贯的工作节奏。而且它做复杂前端开发也很厉害生成的页面不仅好看功能还特别全比上一代模型做出来的效果好太多。例如只用一个简单的指令GPT-5.4就借助工具开发出了一个交互式的主题公园模拟游戏能布置路径、搭建游乐设施。还能监控游客状态、资金情况甚至能自动完成浏览器测试不得不说这能力真的超出预期了。AI终于更像人了不知道大家有没有过这种体验用AI做复杂任务一开始说清楚了需求结果做着做着就偏了还得重新发指令特别麻烦。GPT-5.4就解决了这个问题它在处理复杂任务的时候会先跟你说清楚它的做事思路你觉得不对中途就能调整不用重新发起请求。而且它的记忆力也更好了处理高难度任务的时候能记住对话前期的步骤不会做着做着就忘了之前的要求哪怕是很长的工作流、很复杂的指令它也能连贯完成不用我们反复提醒。目前这个功能已经在网页版和安卓端上线了iOS端也快了用起来会更方便。此外以前用AI调用工具得提前把所有工具的用法都告诉它工具多了不仅麻烦还特别耗token响应也慢。现在GPT-5.4新增了工具检索功能就像我们用搜索引擎找东西一样它需要哪个工具自己就能实时查询用法不用我们提前铺垫。这样一来不仅省了很多token响应速度也快了面对一大堆工具的时候AI也能轻松应对。测试数据显示用工具检索模式总token消耗能减少47%准确率还不变对于需要用很多工具的企业来说能省不少成本。而且它调用工具的逻辑也更聪明了能自己判断什么时候需要用工具、怎么用工具不用我们反复提醒。比如让它读取邮件、提取附件、给文件评分再录入表格它能一步到位比上一代少走很多弯路。上网找信息的能力也升级了以前有些“大海捞针”式的精准查询AI找半天找不到。现在GPT-5.4能通过多轮检索找到最相关的信息还能整合起来给出清晰的回答比我们自己上网找效率高多了。最后跟大家说下大家最关心的上线渠道和价格。GPT-5.4现在已经在ChatGPT和Codex平台逐步上线了API端也推出了标准版和专业版专业版主要针对有复杂任务需求的开发者。在ChatGPT里Plus、团队版、专业版用户现在就能用GPT-5.4思维版替代了之前的GPT-5.2思维版。以前的GPT-5.2会在历史模型板块保留3个月6月5号就正式下线了。价格方面API端的GPT-5.4单token定价比GPT-5.2高一点每一百万输入token 2.5美元输出是每一百万15美元。但它更省token总体算下来多数任务的成本反而更低。

相关新闻

强化学习,第五部分:时间差分学习

强化学习,第五部分:时间差分学习

原文:towardsdatascience.com/reinforcement-learning-part-5-temporal-difference-learning-cacf7854fe0c https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/d06ac84afe0e1e525667e94eace4989f.png 简介 强化学习是机器学习的…

2026/7/4 1:14:18 阅读更多 →
免费好用的论文查重网站推荐

免费好用的论文查重网站推荐

这里整理了免费额度充足、检测靠谱、适合学生党的论文查重网站,按免费力度、数据库、精准度、适用场景分类推荐,附核心信息与使用建议,方便你按需选择。 一、每日 / 长期免费(初稿首选,反复修改无压力) 1…

2026/7/6 1:03:06 阅读更多 →
Flutter 三方库 rad 的鸿蒙化适配指南 - 掌控 Web 渲染资产、响应式治理实战、鸿蒙级精密前端专家

Flutter 三方库 rad 的鸿蒙化适配指南 - 掌控 Web 渲染资产、响应式治理实战、鸿蒙级精密前端专家

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.csdn.net Flutter 三方库 rad 的鸿蒙化适配指南 - 掌控 Web 渲染资产、响应式治理实战、鸿蒙级精密前端专家 在鸿蒙跨平台应用执行高级 Web 渲染管理与多维响应式前端资产指控(如构建一个…

2026/7/4 1:15:26 阅读更多 →

最新新闻

如何通过线上线下结合的旅行社模式,提升竞争力?张源知

如何通过线上线下结合的旅行社模式,提升竞争力?张源知

线上线下结合的旅行社模式日益受到关注、尤其是在消费者对旅行体验要求越来越高的背景下。利用这一模式、旅行社能够同时利用线上平台的便利和线下服务等亲切感,这样更好地满足客户的需求。随着技术不断进步,数字化工具提供了更智能的运营方式&#xff0…

2026/7/6 6:28:55 阅读更多 →
ICM-42688-P与STM32F405ZG在运动感知系统中的应用

ICM-42688-P与STM32F405ZG在运动感知系统中的应用

1. ICM-42688-P与STM32F405ZG的黄金组合解析在工业自动化和机器人控制领域,精确的运动感知能力往往决定着整个系统的性能上限。ICM-42688-P作为TDK InvenSense推出的6轴MEMS惯性测量单元(IMU),与STMicroelectronics的STM32F405ZG微控制器形成的技术组合&…

2026/7/6 6:28:55 阅读更多 →
原神成就管理终极指南:YaeAchievement让数据导出变得如此简单![特殊字符]

原神成就管理终极指南:YaeAchievement让数据导出变得如此简单![特殊字符]

原神成就管理终极指南:YaeAchievement让数据导出变得如此简单!🎯 【免费下载链接】YaeAchievement 更快、更准的原神数据导出工具 项目地址: https://gitcode.com/gh_mirrors/ya/YaeAchievement 还在为原神中数百个成就的追踪和管理而…

2026/7/6 6:24:54 阅读更多 →
大模型:临时会话

大模型:临时会话

大模型的临时会话 临时会话指的是在一次对话会话(Session)期间,大模型能够记住之前交流过的内容,从而理解上下文、进行连贯对话的能力。会话结束后,这些记忆通常会被丢弃。 核心机制 1. 上下文窗口(Conte…

2026/7/6 6:24:54 阅读更多 →
为什么很多人会误解水泵的‘力气’大小

为什么很多人会误解水泵的‘力气’大小

为什么很多人会误解水泵的‘力气’大小 你是不是也听过这样的说法:“买水泵就选功率大的,劲儿足!”可结果装上后发现,水还是上不了三楼,或者电费蹭蹭涨?其实,水泵的“力气”并不只看功率&#x…

2026/7/6 6:22:53 阅读更多 →
西安GEO公司推荐与避雷指南

西安GEO公司推荐与避雷指南

1. 西安企业做GEO常见踩坑情况不少西安本地企业在布局AI流量渠道时,很容易踩中服务陷阱:有的机构只讲概念不落地,收了费用后只给几份通用文档就结束服务;有的只做前端内容铺设,没有配套线索承接工具,引来的…

2026/7/6 6:22:53 阅读更多 →

日新闻

H2 与 MySQL 单元测试兼容性:5 个关键 SQL 语句差异与规避方案

H2 与 MySQL 单元测试兼容性:5 个关键 SQL 语句差异与规避方案

H2与MySQL单元测试兼容性:5个关键SQL语句差异与规避方案1. 单元测试中的数据库兼容性挑战在Java开发领域,单元测试是保证代码质量的重要环节。当应用涉及数据库操作时,测试环境的搭建往往成为开发者的痛点。H2数据库因其轻量级、内存模式和快…

2026/7/6 0:01:17 阅读更多 →
Windows任务栏终极清理指南:用RBTray一键隐藏窗口到系统托盘

Windows任务栏终极清理指南:用RBTray一键隐藏窗口到系统托盘

Windows任务栏终极清理指南:用RBTray一键隐藏窗口到系统托盘 【免费下载链接】rbtray A fork of RBTray from http://sourceforge.net/p/rbtray/code/. 项目地址: https://gitcode.com/gh_mirrors/rb/rbtray 你是否厌倦了Windows任务栏上密密麻麻的图标&…

2026/7/6 0:01:17 阅读更多 →
Visual C++ 运行时库一键安装终极指南:告别DLL缺失烦恼

Visual C++ 运行时库一键安装终极指南:告别DLL缺失烦恼

Visual C 运行时库一键安装终极指南:告别DLL缺失烦恼 【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist 你是否曾经遇到过这样的情况:下载了…

2026/7/6 0:05:19 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻