心情像个精算师拿着放大镜看账单任务建立 AI 专属监控指标、实现按部门的成本分摊 (Cost Allocation)、构建 Grafana/CloudWatch 大屏关键词FinOps, Observability, TTFT, TPOT, Cost per Token, AWS Cost Explorer, Tags早上 10:00月底的 AWS 账单出来了。 CFO 把我和李博士叫到办公室。虽然我们用 Spot 实例和自动缩容省了不少钱但总账单依然有大几千美金。CFO 推了一下眼镜“YY李博士系统很稳定大家用得也很开心。但我有三个问题销售部说他们平时不用研发部天天在里面跑长代码。这笔钱在财务上怎么分摊给各个部门咱们自己搭的这个 Llama-3算下来每个 Token字的成本到底是多少比直接买 OpenAI 的 API 便宜吗大家总说下午 2 点系统‘有点慢’这个‘慢’到底是指多少秒”李博士看着我我深吸了一口气“给我一天时间我给您一个实时的数据大屏。”在 AI 时代传统的运维监控看 CPU、看内存、看带宽无法回答商业问题。我们需要引入FinOps云财务运营和AI 可观测性Observability。上午 11:30定义 AI 的“黄金指标”在搞大屏之前我必须先向 CFO 和李博士明确 AI 推理界最核心的两个性能指标TTFT (Time To First Token - 首字响应时间):*含义用户按下回车到屏幕上蹦出第一个字等了多久及格线人类容忍度通常在1~2 秒。如果 TTFT 大于 3 秒用户就会觉得“卡死了”。这通常是因为 Day 11 提到的“排队请求”太多导致的。TPOT (Time Per Output Token - 单字生成时间):含义第一个字出来之后后面的字是以多快的速度蹦出来的及格线通常要求 50 毫秒/Token大约每秒 20 个字这样才能赶上人类的阅读速度。我把 vLLM 里提取出来的这两个指标vllm:time_to_first_token_seconds和vllm:time_per_output_token_seconds全部接入了 CloudWatch。下午 2:00破解成本分摊难题 —— 资源标签 (Tags) 与 Athena 联动CFO 的第一个问题最棘手怎么把一锅粥的算力费精准地扣到各个部门头上这就用到了我们在Day 7埋下的伏笔前端异步埋点 JSONL。第一步在日志里加上“部门”标签我修改了 Day 7 的前端埋点代码现在发往 S3 的日志长这样JSON{ timestamp: 1698123456, user_id: zhangsan, department: Sales, // -- 新增用户所属部门 prompt_tokens: 150, // -- 新增输入了多少个字 completion_tokens: 450 // -- 新增模型回答了多少个字 }第二步用 Athena 算账我打开 Amazon Athena写了一段 SQL直接统计过去一个月各个部门消耗的“总 Token 数”SQLSELECT department, SUM(prompt_tokens completion_tokens) AS total_tokens_used FROM chat_logs WHERE month 10 GROUP BY department ORDER BY total_tokens_used DESC;结果一目了然研发部消耗了 80% 的 Token销售部只占 5%。第三步AWS 成本分配标签 (Cost Allocation Tags)我还去 AWS EC2 控制台给那几台 G5 和 P4d 机器打上了标签Project: Internal-AI。这样在 AWS Cost Explorer 里我能一键筛选出“纯 AI 相关的硬件成本”。下午 4:00计算“灵魂指标” —— Cost per 1K Tokens现在左手是 Athena 算出来的**“总消耗字数”右手是 AWS Cost Explorer 算出来的“总硬件成本”**。我做了一个简单的数学题月度总成本 (G5 实例 网络 存储):$3,000月度总生成 Token 数 (Athena 统计):500,000,000 (5亿个 Token)每 1000 个 Token 的成本:$3000 / (500,000,000 / 1000) $0.006当算出$0.006 / 1K Tokens这个数字时李博士眼睛亮了“YY这比外面按量付费的商用 API 便宜多了而且数据还绝对保密。我们这套基建搭得太值了”下午 5:30搭建 Grafana / CloudWatch 终极大屏只有数字还不够老板们喜欢看图表。 我利用 AWS CloudWatch Dashboards或者对接公司的 Grafana把这 12 天积攒的所有关键数据汇聚到一个屏幕上。我把大屏分成了三个区域分别给不同的人看 业务与成本看板 (给 CFO 看)饼图各部门 Token 消耗占比数据来自 Athena/S3。折线图每日系统运行总成本美元。大数字当前 Cost per 1K Tokens。 用户体验看板 (给李博士看)实时仪表盘平均 TTFT (首字响应时间) -绿色表示 1.5秒红色表示拥堵。实时流速表平均生成速度 (Tokens/sec)。 底层基建看板 (给自己看)显存真实使用率 (gpu_cache_usage_perc)。当前等待排队的请求数 (num_requests_waiting)。自动伸缩组 (ASG) 当前运行的 G5 实例数量。晚上 6:00汇报时刻我把这个 Dashboard 链接发给了 CFO 和李博士。 CFO 看着清晰的“按部门成本分摊饼图”和极低的“单 Token 成本”回了一个大拇指表情包“这笔钱花得明明白白明年的 AI 预算我批了。”李博士看着 TTFT 的监控曲线说“下午 2 点确实 TTFT 飙到了 4 秒。YY多亏了你昨天设置的阈值为 5 的自动扩容15 分钟后新机器起来TTFT 马上就降回 1 秒了。”今日总结FinOps 思维运维不再只是“开机器”而是要能把“硬件成本”翻译成老板听得懂的“业务成本Cost per Token”。AI 的体验指标牢记 TTFT 和 TPOT这是衡量 LLM 服务质量的生死线。数据闭环的威力Day 7 的 JSONL 埋点不仅能做安全审查更是计算成本分摊的核心依据。