AI成本失控,Claude烧Token换体验,OpenAI压Token提效率,降本先砍谁?
AI成本失控Claude与OpenAI的不同路线这是正在发生的现实。根据最新数据显示Anthropic自家公司花在算力上的钱也已经达到其薪资支出的2.3倍。按照一名高级工程师22.4万美元的完全成本来算Anthropic每位工程师每年对应的算力支出约为51.5万美元。也就是说人还没模型贵。在这种账单面前连Claude自己也不得不开始省token了。Token末日AI行业范式转变最近业界又有了一个新词Token ApocalypseToken末日。从token maxing到token apocalypse预示着AI行业真的发生了一种非常大的范式转变。今年三四月份大家还在炫耀自己用了多少token甚至把它当成一种排行榜。但使用AI并不自动意味着省钱于是大家开始更强调单个token的成本。更微妙的是大模型还在扩大很多原本根本不需要用AI的工作。我们现在PDF不想自己读了长文不想自己看了所有东西都要让AI总结。或者把这些东西用AI转成幻灯片再丢给别人对方可能再用AI读这些幻灯片......AI像是在给一些本来就很虚的工作再强行注入一层价值同时也把账单悄悄推高。大公司严控AI使用成本如今成本失控已成常态。亚马逊、Adobe、Atlassian、花旗集团等公司开始对AI使用实施严格管控限制模型等级一些公司的员工被禁止使用Claude Opus等高端模型被迫降级到更便宜的版本设定个人限额Uber为每位工程师每月设定了1500美元的token上限彻底停用权限花旗银行等机构已完全限制对高级AI工具的访问未达使用目标的员工甚至会被撤销企业账户。在此之前Uber的CTO曾坦言公司在几个月内就用完了全年AI预算。Walmart最近也停止了一些工具的使用。大公司要么在四处找省钱办法要么直接给token浪费踩急刹车。因此员工收到的信息极其矛盾一边是“AI能让你效率翻100倍必须用”一边是“别再把公司用破产了”。这也是AI工具第一轮普及里最典型的问题工具被推出时并没有足够护栏来阻止公司在大语言模型上花掉数百万美元也没有机制提醒团队token正在迅速烧光。不管是聊天机器人还是编码工具很多产品先把“能用起来”摆在第一位成本治理、使用配额、模型分级和上下文管理都被放到了后面。Claude Code烧token换“高产”错觉但Claude Code本质上不是效率工具而是一个营销工具。它的设计目标很明确让你感觉自己在高产。BorisClaude Code的项目负责人在做这个产品时最初的思考是“如果模型变得足够聪明代码会变成什么样我希望如何使用这些东西”——出发点不是“如何帮开发者省token”而是“如何展示模型的聪明”。Anthropic愿意为这种“感觉”烧掉大量token——不管是你的钱还是它们自己的钱。五分钟花掉200美元对Claude Code来说不是事故是设计。它的底层逻辑是能多烧token解决的问题绝不找更省token的办法。所有sub - agent、所有花哨的UI动画、所有冗长的reasoning trace都不是为了效率而是为了让你盯着屏幕时觉得“这模型真聪明真能干”。这背后是一个精心设计的营销闭环你烧掉大量token换来“高产”的感觉于是觉得Claude好用然后继续用它。Anthropic甚至愿意自己承担大量token成本来换取这种情绪上的认同。这也是为什么它们的桌面应用明显投入不足——Claude Code的目标从来不是做一个好工具而是成为Anthropic模型能力的最佳展示窗口。而恰恰是这种烧token换体验的设计哲学让Claude在token效率上被OpenAI甩开了。OpenAI一直在拼命压token。从reasoning trace的压缩到模型本身的效率优化它们的哲学是用更少的token干同样的活。Codex 5.5就是最好的例子。尽管像Fable 5这样的模型很智能但与其他模型相比它的效率不算高Deep SWE的这张图很能说明问题。如果将同批模型放一起对比则更明显GPT - 5.5 medium只用了2万个token就拿到了惊人的分数而Opus 4.8用了5万个token得分反而更低。这就是两条路线最直接的写照行业在恐慌Claude在烧OpenAI在省。而接下来的问题就是——既然要降本第一个该砍的是什么答案是那些堆了太久的提示词。Claude Code的Prompt债堆得越多欠得越多在最新的演讲中Anthropic表示他们已经删掉了Claude Code 80%的系统提示词。Anthropic技术团队成员Tariq Shihipar解释说这反映出AI模型引导方式正在发生一次根本变化——过去人们认为指令越多、例子越多模型表现就越好但现在这个逻辑不再成立。新模型Fable 5比它们自己给的示例更有想象力示例反而成了限制。这当然有营销成分他吹嘘了一把Fable的能力“示例反而容易限制模型因为它实际上比我们给出的示例更有想象力”。但一个事实绕不过去连Anthropic自己都开始对system prompt下刀了。那么为什么以前需要那么多prompt过去一两年AI Coding圈形成了一套惯性思维上下文越大越好工具说明越多越好system prompt越完整越好。模型不知道项目怎么组织写Agents.md。模型不知道工具怎么用写tool descriptions。模型不够主动写行为引导。模型不够稳定继续往system prompt里加约束。不可否认system prompt曾经是AI Coding工具的核心竞争力。对LLM的prompt做一些小调整就可能带来显著的性能提升。如果同一个模型在Codex、Cursor、OpenCode和Copilot里的感觉不一样那几乎肯定是因为prompting上存在细微差异。这也是为什么Cursor曾花大量时间测试system prompt做A/B testing针对不同模型微调提示方式。与在Claude Code里使用Opus相比Cursor的harness能显著提升模型表现一些benchmark测到的提升甚至高达10%到30%。差别核心往往就是那几段prompt。但问题是只要prompt有用团队就会不断往里加东西。某个模型喜欢乱用工具就加一段规则某个模型不够主动就加一段鼓励某个模型搜索太多就补一段限制某个模型不理解项目上下文就再加一个markdown文件。每一次增加都有理由但长期堆下来system prompt开始变成一个巨大的常驻上下文包袱。问题在于system prompt不是免费的。它每次调用都要被读入、计费、占上下文。Claude Code把所有工具和功能内置进去之后system prompt一度膨胀到65,000个token即便关闭大部分功能也还有12,000个token。换句话说模型还没开始写一行代码就已经背上了一本说明书。对比来看Pi启动时上下文不到一千个token。更麻烦的是prompt债比代码债更隐蔽。代码老了通常会在改功能、跑测试、处理bug时暴露出来。Prompt老了却可能只是让模型悄悄变差。用户看到的是“Claude Code最近好像不如以前聪明了”或者“新模型没有宣传得那么强”但真实原因可能是旧的system prompt没有跟上新模型。当prompt从竞争力变成负担时Anthropic选择删掉80%也能进一步提升token效率。Claude的“废话税”多说一个字多花一份钱Claude Code的废话实在太多了。今年有一个叫Caveman的插件迅速走红专门解决这个问题。它的名字直译是穴居人意思是像原始人一样说话——不讲礼貌不加多余语法不放填充词只保留核心意思。Caveman save you token, save you money. Star cost zero.乍一看它听起来像个玩笑。但一旦理解你会发现它解决的是LLM里一个非常真实的问题废话太多、token太多、成本也不必要地变高。而它的起源正是针对Claude Code。“我是在4月初做出Caveman的因为那段时间我重度使用Claude Code并且注意到我的很多token花费都浪费在了不必要的文字上寒暄、模糊措辞、过渡语以及那些在agent loop里其实并不重要的闲聊式表达。”Caveman的创建者Julius Brussee说。Brussee的评测显示Caveman相比默认输出能减少65%到75%的输出token效果仍然超过普通的请简洁指令。它主要压缩的是周围的语言不影响代码、命令、路径、URL、函数名这些需要精确性的部分。据报道OpenAI的工程总监Shayne Sweeney也为该项目贡献了代码以支持Codex。更有意思的是OpenAI早就把这种语言模式应用到了思考环节。一些泄露出来的reasoning trace 不是对外显示的reasoning summary 让外界看到了端倪。内容不像普通英语更像压缩过的工程速记 Use core new nodes. Need infer. Need add VAE encode for images. Try. Try period.这些句子看起来很好笑甚至有点乱但它们的重点不在可读性而在token效率。模型在内部推理时不需要像对用户说话那样保持礼貌、完整和流畅。它只需要保留动作、对象、判断和下一步。换句话说只要最终答案是正常的模型内部完全可以用一种更短、更粗糙、更省token的语言完成思考以疯狂追求token效率。这甚至比在写Prompt环节更有用。压缩reasoning token的收益更大因为agent是多步执行的前一步的思考会变成后一步的输入。模型每少“想”一段省下来的就不只是当下这几个token而是后面整条执行链上的重复开销。这正是OpenAI和Claude路线上的一个明显差异。Claude一直更好聊也更像一个用完整语言思考和表达的助手。只要看看它的reasoning trace长很多就能猜到它可能是在用普通英语。它的输出和reasoning往往更长所以更依赖大上下文窗口来容纳这些内容。这也是为什么Claude默认使用100万token的上下文窗口。很多人以为这是因为它想装进更大的代码库但原因其实更简单Claude生成的东西太长了没有这么大的窗口装不下。它们甚至在compaction上也很差当你恢复旧线程时Claude会建议你不要保留完整上下文而是尝试compact。因为它们不会保留reasoning trace——事实上它们会在10到20分钟后清掉这些东西因为reasoning token效率太低不值得一直保留否则成本会荒谬到不可接受。而OpenAI模型的token上下文窗口大概是20万或更少但因为它们一开始就通过这种简短语言做到了压缩。一个值得品味的细节如果Anthropic修复了“废话太多”这个问题它们的收入会明显下降。如果开发者可以用模型完成同样的工作但生成的token更少那就是它们赚不到的钱。

相关新闻

WAIC 2026 揭示算力新趋势:从单卡比拼到系统级竞争,多维度降本增效!

WAIC 2026 揭示算力新趋势:从单卡比拼到系统级竞争,多维度降本增效!

当算力竞赛步入新阶段当算力竞赛步入“系统级主权竞争”新阶段,衡量标准从单芯片峰值转变为整套系统的算力利用率。2026 年,产业重心从训练转向推理,推理算力规模超越训练,算力成为全行业通用基建和日常运营成本。行业关注焦点变为…

2026/7/5 8:32:22 阅读更多 →
AI对话前端从入门到崩溃:一个长对话引发的五层优化战争【引子】

AI对话前端从入门到崩溃:一个长对话引发的五层优化战争【引子】

引子——一个面试回答引发的思考 本文是系列开篇,通过一个真实的面试对话,拆解AI对话长场景下的核心痛点,并勾勒出从“初级”到“P7架构师”的五层进阶路线图。 01. 一个让全场安静的面试回答 在某次的前端面试现场,面试官抛出了…

2026/7/5 8:30:22 阅读更多 →
静态文件服务器XSS攻击:文件上传场景下的安全盲区与防御实践

静态文件服务器XSS攻击:文件上传场景下的安全盲区与防御实践

1. 项目概述:一个被忽视的“安全盲区”“静态文件服务器”和“XSS攻击”,这两个词放在一起,很多开发者第一反应可能是:“这俩有关系吗?” 在很多人的认知里,静态文件服务器,比如Nginx、Apache直…

2026/7/5 8:30:22 阅读更多 →

最新新闻

NCM加密音乐文件本地化转换方案:从原理到自动化实践

NCM加密音乐文件本地化转换方案:从原理到自动化实践

1. 项目概述:从“加密枷锁”到“自由播放”如果你是一个音乐爱好者,尤其是网易云音乐的重度用户,那么你大概率在电脑的某个角落发现过一些以.ncm为后缀的奇怪文件。这些文件直接双击无法用常规播放器打开,想导入手机或车载U盘更是…

2026/7/5 9:32:39 阅读更多 →
RevokeMsgPatcher防撤回补丁:原理、风险与Windows微信/QQ/TIM实操指南

RevokeMsgPatcher防撤回补丁:原理、风险与Windows微信/QQ/TIM实操指南

1. 项目概述:为什么我们需要一个“防撤回补丁”? 在即时通讯软件里,“消息撤回”功能设计的初衷是给用户一个纠正错误的机会,比如打错字、发错人或者一时冲动说了不合适的话。但很多时候,这个功能也带来了信息不对等的…

2026/7/5 9:28:38 阅读更多 →
Folia:全屏沉浸式在线音乐播放器,多端体验+AI 主题生成带来独特听歌感受!

Folia:全屏沉浸式在线音乐播放器,多端体验+AI 主题生成带来独特听歌感受!

Folia 是一款以全屏沉浸式歌词播放为核心的在线音乐播放器,支持多平台,具备智能歌词匹配、AI 生成配色主题等功能,为用户带来独特听歌体验。项目亮点与特色Folia 支持网易云、navidrome 和本地音乐库。其独特之处在于智能歌词匹配&#xff0c…

2026/7/5 9:26:38 阅读更多 →
SQL注入攻防全解析:从原理到实战,掌握Web安全核心漏洞

SQL注入攻防全解析:从原理到实战,掌握Web安全核心漏洞

1. 项目概述:为什么SQL漏洞是面试官的“心头好”? 干了这么多年安全,也面过不少人,我发现一个挺有意思的现象:无论你是应聘渗透测试、安全开发还是安全运维,面试官几乎都会把SQL注入漏洞拎出来问一遍。从“…

2026/7/5 9:26:37 阅读更多 →
Weex架构安卓商城APP逆向工程包:含完整源码结构、APK资源解包与AndroidX/Support双兼容支持

Weex架构安卓商城APP逆向工程包:含完整源码结构、APK资源解包与AndroidX/Support双兼容支持

本文还有配套的精品资源,点击获取 简介:一套真实上线商城App的逆向分析成果,主逻辑基于Weex框架(main.js驱动),集成weex-main-jsfm.js、weex-rax-api.js等核心运行时模块,支持RAX组件开发&am…

2026/7/5 9:20:36 阅读更多 →
山东大学编译原理PL0实验代码:Java实现的词法扫描、递归下降语法分析与P-code解释器

山东大学编译原理PL0实验代码:Java实现的词法扫描、递归下降语法分析与P-code解释器

本文还有配套的精品资源,点击获取 简介:一套开箱即用的PL/0语言编译器教学实现,基于Java开发,完整覆盖编译流程三大阶段:词法分析通过GETSYM函数识别关键字、标识符、数字和分界符;语法分析采用递归下降…

2026/7/5 9:18:36 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻