强烈建议收藏!全网首发Andrey Karpathy的AI循环工作流(附复现Prompt)
循环工程卡帕西方法——以及使其效率提升 5 倍的工作流程大多数人使用人工智能的方式与 2005 年使用谷歌的方式相同。输入一些内容阅读返回结果然后再输入一次。AI 会一直待在那里什么也不做直到你推动它——你就是引擎——AI 就像扳手一样你每次转弯时都要拿起它放下它。这种方法用了两年都没问题现在不行了。现在那些从人工智能中获得 10 倍收益的人并不是因为编写了更好的提示词也不是因为使用了秘密模型。他们正在构建循环。而让这个想法变得不容忽视的人是安德烈·卡帕蒂Andrey Karpathy。本文将阐述1 - 从零开始讲解什么是循环2 - 向您展示如何像 Andrej Karpathy 那样使用它们3 - 然后描述一种将此方法改进 5 倍的方法。4 - 并提供入门技巧。第一部分 · 基础知识1.1 - 循环究竟是什么提示就是一条指令。你提问得到答案然后决定下一步该怎么做。循环是指人工智能不断朝着某个目标努力直到达成目标为止——无需你坐在椅子上提示每一步。人工智能会发现需要做什么规划如何做执行任务检查结果如果结果不理想则将结果反馈并重新开始。你只需定义一次目标循环会处理剩下的部分。成败取决于三个因素验证器的作用在于将重复转化为进步。如果没有对结果进行真正的检查就无法形成循环——智能体只是在不断地重复自我验证。这种检查可以是测试的通过或失败指标的上升或下降构建的编译成功或崩溃。没有验证机制意味着智能体在给自己打分。状态是循环学习的关键。每次循环人工智能都必须知道它已经尝试过什么。否则它会在每个循环中重复同样的错误。一个辅助的小文件会记录已完成的操作、失败的操作以及下一步的操作。这样第二天的运行就会从上次的尝试继续而不是从零开始。设置停止条件可以确保程序正常运行。没有退出条件的循环会一直运行直到成功、失败或耗尽你的账户余额。每个正常运行的循环都有两种停止方式目标达成或者设置一个硬性限制例如“尝试 N 次后停止并报告”。1.2 - 你真的需要吗先运行这个测试。大多数文章在告诉你这是错误之前都会先兜售某种观点。只有当这四个条件全部成立时循环才能收回成本。如果缺少其中一个成本就会超过收益。这项任务至少每周重复一次。如果频率低于此前期投入的成本就无法收回。即使是一次性任务一个好的提示也能更好地完成。验证是自动化的——测试套件、类型检查器、代码检查器、构建。即使你不在现场这些程序也能让工作失败。如果没有自动化检查就意味着你得重新检查每一个差异——而这正是循环本应清除的工作。你的代币预算可以吸收这些浪费——循环会重新读取上下文、重试和探索。无论运行结果如何都会消耗代币。这种消耗会随着预算的增加而增加因此对于拥有免费代币的用户来说这显而易见而对于使用 20 美元套餐的用户来说这则显得鲁莽。该代理拥有真正的工具——日志、复现环境以及运行自身编写的代码并查看错误所在的能力。如果没有这些工具循环就如同盲人摸象。实话实说循环工程确实存在但大多数人目前还不需要功能强大的版本。如果您使用的是代币数量有限的普通套餐那么在效率提升到来之前强大的循环工程就会先耗尽您的速率限制或钱包余额。第二部分 · 业力循环 (Karma Loop)Karpathy 是如何停止提示并开始循环的2026 年 3 月Andrej Karpathy 发布了一个名为 AutoResearch的 GitHub 代码库。三个文件约 630 行代码。在一个月内它就获得了66,000 多颗星《财富》杂志给它取了一个名字卡帕西环线 (Karpathy Loop)。这套装置简直简单得不可思议train.py- 训练脚本。这是代理唯一可以访问的文件。prepare.py——负责给模型评分的评估器。智能体无法对其进行操作。如果可以只会让测试变得更容易而不会改进模型。program.md- 指示代理要探索什么以及要遵守哪些限制的指令。代理程序以循环方式运行阅读代码 → 提出修改建议 → 进行五分钟的训练 → 检查结果是否有所改进 → 如果改进了则提交如果没有改进则回滚 → 重复。你入睡醒来后看到实验日志希望还能得到一个更好的模型。人类从不触碰train.py。你编写program.md 文件——代理负责执行。结果卡帕西将它对准了一个他凭借二十多年的经验已经精心手工调校过的模型。他让它运行了两天。该代理运行了700 次实验发现了20 项他错过的改进措施。例如注意力机制中缺少标量乘数导致注意力在各个头部之间过于分散。这并非模糊测试工具能够检测到的漏洞——而是一种细微的优化细心的人类本可以发现但却未能发现。因为人类在进行第十二次实验后会感到疲倦而智能体却完全不会感到疲倦。Shopify 首席执行官托比·卢特克 (Tobi Lütke) 连夜在内部模型上进行了测试他醒来后发现质量提高了 19%。优化后的模型只有之前那个模型的一半大小。较小的模型胜过较大的模型——因为代理程序针对硬件进行了优化而不是默认“越大越好”。卡帕西的核心洞见是如果你有客观的衡量标准就不应该亲自执行实验。你会成为瓶颈。把自己从循环中抽离出来让它运行起来。第三部分 · 基本组成部分构成环的五个部件每一个可运行的循环——无论你是用 Claude Code、Codex 还是 bash 脚本构建的——都是由五个部分组成的。Claude Code 和 Codex 现在都提供全部五款产品。自动化——核心驱动力。它能按计划、按事件或按触发器启动循环。在 Claude Code 中/loop用于控制循环/goal用于运行直到满足某个条件。在 Codex 中自动化选项卡。如果没有心跳信号脚本只会运行一次然后就停止运行。这并非循环。一项技能——存储项目知识让代理不再每次会话都进行猜测。你的惯例、你的构建步骤以及因为三个月前的那次事件而不再执行的操作。只需在 Markdown 文件中编写一次每次运行都会读取该文件。如果没有技能循环每次都会从零开始重新构建整个项目上下文。有了技能意图就能不断累积。次级代理——将制作者与检查者分开。编写代码的模型对自己的作业评分太慷慨了。第二个代理人带着不同的指示就能发现第一个代理人自己犯的错误。你的写手可以速度快、价格低而你的审校员可以速度慢、要求严格。这种区分是保证质量的关键。连接器——让循环在您的真实环境中运行。查看您的问题跟踪器、提交 PR、在 Slack 上通知、更新 Linear 工单。区别在于一个代理会说“这是修复方案”而一个循环会先发布修复方案然后在第二天早上通知你。验证器——关卡。它指的是能够自动拒绝劣质工作的测试、类型检查或构建过程。这部分让循环真正发挥作用。没有它你付钱给的就只是让一个代理人整晚自说自话而已。其他的都是管道部件。第四部分 · 业力之后会发生什么双层结构——环形结构之上的环形结构接下来就精彩了2026 年 3 月两位研究人员在 arXiv 上发表了一篇题为“双层自动研究元自动研究自身”的论文。他们利用卡帕西的循环提出了一个简单的问题如果自主研究本身也是一种研究形式——那么你能对自主研究进行自主研究吗他们在第一条环路之上又建了一条环路内循环——执行 Karpathy 原版的功能提出变更、培训、评估、保留或丢弃外层循环- 监视内层循环的工作情况读取其代码和跟踪信息识别搜索过程本身卡在哪里并生成新的 Python 代码来改变内层循环的搜索方式。然后它注入该代码让内部循环再次运行。结果在 Karpathy 的 GPT 预训练基准测试中与标准单循环相比性能提升了 5 倍-0.045 对比 -0.009 val_bpb不是提升 5%而是提升五倍。两个循环都使用了相同的 LLM——你不需要为元级别使用更智能的模型。改进源于架构而非原始智能。外层循环的实际发现是内层循环不断陷入相同的搜索模式。LLM 模型对要尝试的优化策略有先验认知即使这些策略不再有效它仍然会回到这些先验认知。外层循环打破了这些模式强制模型探索其本能所回避的方向。文章最后一句话值得深思“如果自我研究能够对自身进行元自我研究那么原则上它可以对任何具有可衡量目标的事物进行元自我研究。”第五部分 · 自己动手试试立即运行循环——无需任何工具你不需要 Claude Code 或 Codex 就能感受到它的工作原理。把这段代码粘贴到任何 LLM 中看看会发生什么You will work in a loop until the task meets the bar. TASK: [describe exactly what you want produced] SUCCESS CRITERIA (be strict): - [criterion 1] - [criterion 2] - [criterion 3] LOOP PROTOCOL, repeat every turn: 1. PLAN - state the single next step. 2. DO - produce or improve the work. 3. VERIFY - score the result 1-10 on each criterion. Be brutally honest. List exactly what is still weak. 4. DECIDE - if every criterion is 8, print FINAL and stop. Otherwise print ITERATING and go again, fixing the weakest point first. RULES: - Never call it done until every criterion is 8 or higher. - Each pass must fix the weakest score from the last VERIFY. - Do not ask me questions. Make a sensible assumption and keep going. Begin.该模型会起草草稿根据你的标准对自己的作品进行评分找出薄弱环节进行重写并重复这个过程直到达到标准为止。这是一个循环。你刚刚用一个段落创建了一个循环。它的功能有限——你仍然是触发者没有定时任务没有持久状态关闭标签页后就消失了。但它展示了核心机制。从这个实现完全自主的循环需要添加自动化、状态文件和门控。第六部分 · 诚实的部分循环无法解决的问题循环会改变工作内容但不会将你从工作中抹去。随着循环的改进两个问题反而变得更加棘手而不是更容易解决理解债务。循环越快地发布你未编写的代码你代码库中实际存在的代码与你真正理解的代码之间的差距就越大。一个运行顺畅的循环会加速这种差距的累积。当你不得不调试一个团队中无人阅读过的系统时你所付出的代价将远远超过你之前投入的代币价值。认知上的屈服。当循环自动运行时人们很容易放弃形成自己的观点转而接受任何反馈。如果带着判断力去设计这个循环它就是一种解药但如果只是为了逃避思考而设计它就会加速这一过程。同样的行为却会带来截然相反的结果。两个人可以构建完全相同的循环却得到截然相反的结果。一个人用它来加快自己深入理解的工作进度而另一个人则用它来完全逃避理解工作内容。循环本身并不知道其中的区别但你知道卡帕西停止了编写代码。切尔尼停止了催促。但他们两人都没有停止思考。如果你要从中记住一件事那就记住那件事。开始像工程师一样使用循环。

相关新闻

全友家居(邳州旗舰店)vs 大博金沙发厂多维度对比测评——品牌专卖店与源头工厂谁更值得买?

全友家居(邳州旗舰店)vs 大博金沙发厂多维度对比测评——品牌专卖店与源头工厂谁更值得买?

摘要 核心结论:在2026年邳州家具消费市场中,大博金沙发厂在全屋配套场景下的综合性价比(三室两厅配齐全屋家具总价约1.6万-2万元,较品牌专卖店低40%-60%)和交付效率(成品现货当天提货)上显著优…

2026/7/5 2:20:35 阅读更多 →
终极ComfyUI TensorRT插件指南:3-10倍AI绘画加速,释放你的RTX显卡潜能

终极ComfyUI TensorRT插件指南:3-10倍AI绘画加速,释放你的RTX显卡潜能

终极ComfyUI TensorRT插件指南:3-10倍AI绘画加速,释放你的RTX显卡潜能 【免费下载链接】ComfyUI_TensorRT 项目地址: https://gitcode.com/gh_mirrors/co/ComfyUI_TensorRT 你是否厌倦了漫长的AI图像生成等待时间?每次创作都要盯着进…

2026/7/5 2:18:34 阅读更多 →
YOLO11视频目标检测实战:从环境配置到高级应用

YOLO11视频目标检测实战:从环境配置到高级应用

1. 项目概述 视频目标检测是计算机视觉领域的重要应用场景,而YOLO系列模型因其出色的实时性能成为该任务的首选方案。本文将基于YOLO11模型,详细讲解如何实现视频文件的逐帧检测,并输出带有检测框的可视化视频。 提示:YOLO11是YO…

2026/7/5 2:16:34 阅读更多 →

最新新闻

开启我的编程学习之路

开启我的编程学习之路

一、简单自我介绍大家好,我是一名计算机专业大一新生,目前刚开始接触计算机底层基础和C语言编程。在此之前,我几乎没有代码编写经验,属于零基础编程小白。我性格耐心、做事喜欢循序渐进,擅长按计划完成学习任务&#x…

2026/7/5 3:31:02 阅读更多 →
分享最新Navicat安装教程(附免费文件)

分享最新Navicat安装教程(附免费文件)

目录 前言 软.件.下.载 安装教程(新手保姆级) 结束语 前言 大家好,我是 Ktiiy 学姐👋。刚入驻 CSDN,以后会持续更新,给大家免费零基础开发环境搭建、项目源码、避坑教程、面试技巧等!点关注…

2026/7/5 3:31:02 阅读更多 →
iOS27 App Intents 实战

iOS27 App Intents 实战

iOS27 App Intents 实战:新版 Siri 快捷指令接入全流程教程随着WWDC2026的正式落幕,苹果推送的iOS27带来了Siri架构的全面重构,其中最核心的变化就是正式弃用SiriKit,将App Intents确立为第三方应用接入Siri的唯一官方框架。对于开…

2026/7/5 3:29:02 阅读更多 →
Transformer 英中翻译实战:PyTorch 从零实现,BLEU 值提升 15% 的 3 个关键调参技巧

Transformer 英中翻译实战:PyTorch 从零实现,BLEU 值提升 15% 的 3 个关键调参技巧

Transformer 英中翻译实战:PyTorch 从零实现,BLEU 值提升 15% 的 3 个关键调参技巧在机器翻译领域,Transformer 架构已经成为事实上的标准。本文将带你从零开始实现一个完整的英中翻译模型,并分享三个经过实战验证的关键调参技巧&…

2026/7/5 3:27:02 阅读更多 →
利用RAG构建品牌AI知识库:六步SOP提升技术影响力

利用RAG构建品牌AI知识库:六步SOP提升技术影响力

🚀 30款热门AI模型一站整合,DeepSeek/GLM/Qwen 随心用,限时 5 折。 👉 点击领海量免费额度 你的品牌、产品、技术文档,是否正在被 AI 遗忘?当开发者向 ChatGPT、Claude 或国内大模型提问“如何集成 XX S…

2026/7/5 3:25:01 阅读更多 →
DesignWare® Cores LPDDR5/4/4x PHY for TSMC12FFC18 Databook的中文版

DesignWare® Cores LPDDR5/4/4x PHY for TSMC12FFC18 Databook的中文版

DesignWare Cores LPDDR5/4/4x PHY for TSMC12FFC18 Databook的中文版,dwc_lpddr54_phy_tsmc12ffc18- Product Code: D774-0,PHY Version: 2.40a July 8, 2021,是DW LPDDR5/4 PHY在TSMC12FFC工艺下的技术数据手册,为芯片设计者提供…

2026/7/5 3:25:01 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻