Karpathy最新手搓!复现GPT-2成本狂降600倍:仅需507元3小时训练「最好的AI学习项目」
现在训练一个GPT-2级别的LLM大语言模型成本已经低于100美元。Andrej Karpathy的个人项目nanochat迎来重大更新。现在训练一个GPT-2级别的LLM大语言模型成本已经低于100美元。具体来说在单个8XH100节点上仅需3小时花费约73美元。Karpathy直言GPT-2是他最喜欢的LLM因为它是LLM技术栈首次以现代形式整合在一起的标志。这也成了他某种“奇怪且持久的执念”利用过去7年的技术进步以极低的成本将模型训练到GPT-2的能力水平。他一直怀疑如今要在100美元以内实现这一目标完全是可行的。而现在的nanochat做到了7年600倍的成本缩减让我们把时间拨回2019年。当时OpenAI为了训练GPT-2使用了32个TPU v3芯片耗时168小时整整7天。按照当时每小时8美元的TPU价格计算总成本约为4.3万美元那个模型在CORE评分DCLM论文提出的一种综合指标涵盖ARC/MMLU等22项评估上得分为0.256525现如今随着nanochat合并了一系列改进许多源自modded-nanogpt仓库Karpathy在单个8XH100节点上仅用3.04小时约73美元就达到了更高的CORE评分这不仅仅是快了更是省了。这是一次跨越7年的600倍成本降低。换算下来训练GPT-2的成本大约每年下降2.5倍。Karpathy认为这个数字可能还是被低估了。因为他目前仍在定期发现更多的改进空间手头还有一个充满想法的积压清单等待尝试。核心优化技术栈为了达到这个效果Karpathy列出了几项“开箱即用”且效果立竿见影的关键改进Flash Attention 3 kernels速度更快并且允许使用window_size参数来获得交替的注意力模式。Muon 优化器Karpathy表示自己曾尝试花了一天时间去掉它只用AdamW但没能成功Muon不可或缺门控残差路径和跳跃连接由可学习的标量进行门控Value Embeddings值嵌入当然还有许多较小的优化叠加在一起产生了最终的效果。“通往GPT-2”排行榜受modded-nanogpt的启发Karpathy还专门创建了一个“通往GPT-2时长”time to GPT-2的排行榜。目前这个首发的“Jan29”模型以3.04小时的成绩位列榜首。Karpathy希望nanochat能成长为一个非常精简且经过调试的实验性LLM工具用于原型设计、娱乐当然还有学习。他对此充满期待并欢迎大家一起来迭代。关于优化的详细细节和复现指南Karpathy已在GitHub上发布了详细的长文。他还放出了一张推导当前nanochat模型系列Scaling Laws缩放定律的图表并称之为“令人满意的视觉糖果”Github讨论页指路https://github.com/karpathy/nanochat/discussions/481

相关新闻

使用GSD,在Claude Code中战胜上下文腐烂

使用GSD,在Claude Code中战胜上下文腐烂

迄今为止,我通常只在现有项目中使用LLM工具。尽管LLM付出了真诚的努力,但通过像Claude这样的智能体LLM,以“氛围编程”的方式从零开始创建详细项目的尝试往往会失败。它经常忘记信息或在非生产性循环中消耗令牌。 GSD扩展助Claude克服LLM“上…

2026/7/3 15:35:01 阅读更多 →
计算机毕业设计Python+Spark+Hadoop考研分数线预测系统 考研院校专业推荐系统 (源码+文档+PPT+讲解)

计算机毕业设计Python+Spark+Hadoop考研分数线预测系统 考研院校专业推荐系统 (源码+文档+PPT+讲解)

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 技术范围:Sprin…

2026/7/3 11:39:13 阅读更多 →
13. 数组

13. 数组

1.数组简介 2.数组的访问与遍历 3.多维数组 4.数组的注意事项1.数组简介 1).数组简介数组是C中一种"存储相同数据类型元素的连续内存集合", 可以把它想象成一排编号的储物柜: 每个储物柜(数组元素)类型相同, 有唯一的编号(下标), 且位置连续a.数组的大小在定义时必须…

2026/7/3 15:35:04 阅读更多 →

最新新闻

手动拍单容易违规?抖店一键下单、密文下单自动拍单售后合规采购发货模式详解

手动拍单容易违规?抖店一键下单、密文下单自动拍单售后合规采购发货模式详解

抖掌柜一键下单&自动下单完整操作教程(抖店一件代发专用) 一、基础概念:一键下单 vs 自动下单(1688 云下单) 1. 一键下单抖掌柜 - 抖店无货源一件代发,商品搬家上货,微信小店一键下单&…

2026/7/5 2:44:48 阅读更多 →
高仕星辅酶Q10什么时候吃吸收好?备孕期服用时间与剂量指南

高仕星辅酶Q10什么时候吃吸收好?备孕期服用时间与剂量指南

高仕星辅酶Q10什么时候吃吸收好?备孕期服用时间与剂量指南买好了辅酶Q10,打开瓶盖却犯了难:早上吃还是晚上吃?饭前吃还是饭后吃?一次吃几粒?别小看这些细节,服用方式直接影响吸收效果。今天就来…

2026/7/5 2:44:48 阅读更多 →
Dify实战:从零构建生产级AI应用的工作流与RAG优化指南

Dify实战:从零构建生产级AI应用的工作流与RAG优化指南

🚀 30款热门AI模型一站整合,DeepSeek/GLM/Qwen 随心用,限时 5 折。 👉 点击领海量免费额度 如果你最近在尝试把大语言模型(LLM)的能力真正用起来,而不是停留在聊天对话,大概率会遇…

2026/7/5 2:42:48 阅读更多 →
webMAN MOD:PS3 上的一站式管理插件

webMAN MOD:PS3 上的一站式管理插件

文章目录webMAN MOD:PS3 上的一站式管理插件webMAN MOD:PS3 上的一站式管理插件 webMAN MOD 是一个 PlayStation 3 的自制插件,从 DeanK 的 webMAN/sMAN 分支而来,在原有基础上增加了大量功能,目前在 GitHub 上有 1,7…

2026/7/5 2:42:48 阅读更多 →
企业微信二次开发实战:API、外部群与自动化应用指南

企业微信二次开发实战:API、外部群与自动化应用指南

引言 企业微信作为腾讯推出的企业级办公平台,其开放的API生态为开发者提供了丰富的二次开发能力。通过企业微信二次开发,企业能够将内部业务流程、客户服务与协同办公深度整合,构建定制化的数字化解决方案。本文将聚焦于企业微信API、企业微…

2026/7/5 2:40:47 阅读更多 →
VMPDump实战指南:动态脱壳VMProtect 3.x的原理与逆向分析

VMPDump实战指南:动态脱壳VMProtect 3.x的原理与逆向分析

1. 项目概述:为什么我们需要VMPDump?在逆向工程和安全研究的圈子里,VMProtect(简称VMP)一直是个让人又爱又恨的存在。爱的是它强大的保护能力,恨的也是它强大的保护能力。尤其是到了3.x版本,其引…

2026/7/5 2:36:47 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻