为什么大多数 AI agents 在演示中显得聪明,而在实际工作中却显得愚蠢
近日谷歌 DeepMind、Meta、亚马逊和耶鲁大学联合发表了论文 《Agentic Reasoning for Large Language Models》 它解释了为什么大多数 AI agents 在演示中显得很聪明但是在实际工作中却显得愚蠢。这篇论文之所以有意思是因为它不再讨论“Prompt Engineering”而是正式提出了Agentic Reasoning 新范式。对于目前 AI Agent 的问题论文认为核心原因是在途它们本质上是被动反应reactive generators下连续预测下一个 token而不是主动规划、执行、评估和调整策略的代理agentic reasoner。也就是当前的 LLM 并不是在思考而是在“反应”例如当你给 GPT-4 一个复杂任务时它是在基于概率预测下一个 token它像一个试图一口气说完长句子的演讲人员中间没有停顿没有回溯一旦开头错了后面只能硬着头皮编下去Error Cascading。而要真正让 LLM 有像人类一样“思考”的能力就必须把推理建模为一个循环的、可控制的过程而不是单一的 chain-of-thought prompt论文提出一个统一框架来捕捉这种代理式智能的发展路线图。真正的智能体推理必须是一个闭环系统它不应该是一次性的生成而是一个动态的、可管理的过程。为什么需要 Agentic Reasoning因为目前传统 LLM 虽然能输出连贯的文字但是没有内在计划监控机制没有显式目标分解、工具调度、反馈循环命令式长链推理CoT只是扩大 token 输出但不会改善“决策质量”“CoT plateau”思维链停滞是论文的一个重要发现 传统的思维链Let’s think step by step本质上还是一次性生成模型把“思考过程”和“最终答案”混在一起输出如果任务太长模型就会“迷失”在自己的生成的文本中注意力分散导致逻辑崩塌。所以论文认为当前 LLM 并非真正推理reason而是在 token 级别做统计预测react这也是为什么 demo 看起来很聪明但在复杂任务或现实任务中表现一般在这个基础上要改进性能不是用更大模型更多训练数据而是需要改变控制和推理体系架构。所以论文认为需要将“控制流”与“推理流”分离。Agentic Reasoning 的定义论文里定义了 Agentic Reasoning 是一种循环式智能行为过程Agentic Reasoning Observation观察→ Planning规划→ Action行动→ Evaluation评估/反思→ Update更新状态→ Repeat循环与经典 prompt 不同在于它内部维护一个任务状态可以显式目标分解与工具选择实现决策而不是文本预测有反馈、回顾、修正机制基于这种设计在这种架构下模型能够制定长期计划并且调用外部工具/环境交互最重要是可以对执行结果做自我评价和修正错误路径总而言之就是它可以把 LLM 从“快速打字机器人”提升为“动机驱动的决策者”。架构层级结构论文里一共提出了一个三层结构来组织 agentic reasoning 的研究和实践Foundational Agentic Reasoning基础层它的核心目标就是确保单一代理具备一下能力规划与目标分解工具调用搜索、代码执行、API 等环境交互执行可验证行为这一层专注于单一 agent 在稳定环境中的能力边界例如更好的计划生成、明确的行动语义关键在于规划 不是简单的列提纲而是分层规划模型需要能设定高层目标并将其拆解为可执行的子目标Subgoals如果某条路径行不通要有能力放弃并切换路径这一点目前的 LLM 很难做到它们通常是一条道走到黑工具使用 现在的 Agent 是“拿着工具的打字员”真正的 Agentic Reasoning 要求模型明白何时以及为何使用工具并能根据工具的反馈修正自己的计划推理搜索 引入像**树搜索 (Tree Search)**或蒙特卡洛树搜索 (MCTS)这样的机制不仅生成一个答案而是生成多个可能的推理路径并在中间步骤进行自我评估Self-Evaluation选出最好的一条Self-Evolving Agentic Reasoning自我进化层这一层的核心目标是让 agent 学会反馈驱动调整策略反思批判性评估行为结果记忆与状态持续更新在线学习与策略调整自我纠错这一层也是这是 agentic 推理区别于传统 chain-of-thought 的关键设计这是论文最精彩的部分真正的智能体必须能在运行时Runtime变强而不需要重新训练权重反思与修正在执行完一步后模型必须停下来“看一眼”我做对了吗结果符合预期吗记忆 传统的 Context Window上下文窗口不仅贵而且容易遗忘Agentic 系统需要结构化记忆记录过去的成功路径和失败教训这意味着模型在同一个任务中尝试第二次时应该比第一次聪明。Collective Multi-Agent Reasoning协作层核心目标是在多个 agent 之间的协同、共享知识、协同计划与分工和多目标优化这一层主要是针对大型 agent 网络在复杂协作任务中的智能表现例如团队决策、多人对话、分布式工作等。路径4. 为什么说“架构 规模”论文对目前行业的看法是单纯堆算力和参数量Scaling Laws已经无法解决 Agent 的可靠性问题混合的代价当同一个 Prompt 既要负责规划又要负责执行还要负责自我批评时错误会静默地累积分离的好处即使使用现有的模型不需要训练新的 GPT-5只要通过 Agentic 架构将规划、执行和评估拆开性能就能获得巨大的提所以从路径上论文认为未来不需要更“大”的模型来做 Agent需要更“好”的认知架构Cognitive Architecture如果用形象的话来比喻目前的 LLM 是 直觉、快速、下意识的反应Agentic Reasoning 是 慢思考、逻辑、规划、反思而为了让 agentic 推理变为现实论文区分了两类方法In-Context Reasoning上下文推理在 Test-Time 推理时使用结构化 orchestration 为的是不改变模型权重通过 prompt state 管理 external tool 调度改善性能方法包括 ReAct、Plan-Act-Reflect 等动态循环方法。Post-Training Optimization训练后优化用 RL、监督微调等方式改进 agentic 行为 目标是让策略、计划、工具调用学习成为模型能力的一部分这类方法侧重模型权重层面优化。最后实际上虽然论文构想很美好但是具体落地还是有一段距离例如如何让代理在重大长期任务中稳定执行计划比如跨数百步的科学探索需要让 agent 构建并维护一个持久、可查询的环境模型不同 agent 之间如何有效协作并共享经验真正部署的 agent 需要有对齐、安全、审计机制。总的来说Agentic Reasoning 是新范式而不是单项技术它将推理表现为循环式控制过程而非文本生成例如它需要显式规划、执行、反思、状态维护与反馈最终目标是打造真正具有决策能力的 AI agent 而非“更快的 typer”挑战包括世界建模、长期规划、治理、安全对齐等从这里看未来完全的 AI Coding 托管真的不远了不解决外部支持而是内在的 Agent 完全自我驱动。参考链接https://arxiv.org/abs/2601.12538

相关新闻

2026数学建模美赛 常用模型算法 网络优化(最短路径、最小生成树、最大流)

2026数学建模美赛 常用模型算法 网络优化(最短路径、最小生成树、最大流)

2026美赛期间会持续更新相关内容,所有内容会发布到专栏内,会结合最新的chatgpt发布,只需订阅一次,赛后两天半价,内容达不到所有人预期,请勿盲目订阅!!!无论文&#xff01…

2026/7/3 17:03:11 阅读更多 →
2026年数学建模美赛 常用模型算法 差分方程

2026年数学建模美赛 常用模型算法 差分方程

2026美赛期间会持续更新相关内容,所有内容会发布到专栏内,会结合最新的chatgpt发布,只需订阅一次,赛后两天半价,内容达不到所有人预期,请勿盲目订阅!!!无论文&#xff01…

2026/7/3 17:03:11 阅读更多 →
2026年数学建模美赛 常用模型算法 偏微分方程(PDE)(热传导、扩散方程)

2026年数学建模美赛 常用模型算法 偏微分方程(PDE)(热传导、扩散方程)

2026美赛期间会持续更新相关内容,所有内容会发布到专栏内,会结合最新的chatgpt发布,只需订阅一次,赛后两天半价,内容达不到所有人预期,请勿盲目订阅!!!无论文&#xff01…

2026/7/3 3:47:55 阅读更多 →

最新新闻

查询服务器RAID卡-lspci命令

查询服务器RAID卡-lspci命令

说明 老服务器使用sas卡,需要lspci 工具查询 安装工具 yum install -y pciutils查询RAID卡型号 lspci | grep -i "raid\|sas"03:00.0 RAID bus controller: Broadcom / LSI MegaRAID SAS 2208 [Thunderbolt] (rev 05)

2026/7/4 4:20:09 阅读更多 →
AI 工具开发实战(2):开发一个本地 RAG 知识库——丢一个文件夹进去,直接问答

AI 工具开发实战(2):开发一个本地 RAG 知识库——丢一个文件夹进去,直接问答

AI 工具开发实战(2):开发一个本地 RAG 知识库——丢一个文件夹进去,直接问答 上一篇做了一个命令行翻译工具,这篇做一个更实用的:本地 RAG 知识库。 把 PDF、Markdown、TXT 文件丢到一个文件夹里&#xf…

2026/7/4 4:18:08 阅读更多 →
基于CNN卷积神经网络手写汉字识别系统 (GUI界面)【源码38期】

基于CNN卷积神经网络手写汉字识别系统 (GUI界面)【源码38期】

一、项目简介本系统基于MATLAB深度学习工具箱,设计并实现了一个基于卷积神经网络(CNN)的手写汉字识别系统。系统包含三大核心模块:网络结构定义模块(get_self_net.m)封装了CNN网络构建函数,采用…

2026/7/4 4:16:08 阅读更多 →
YLB3118@ACP#国产8口SATA3.0存储芯片|物理AI长时序海量数据存储国产替代旗舰(对标ASM1166)

YLB3118@ACP#国产8口SATA3.0存储芯片|物理AI长时序海量数据存储国产替代旗舰(对标ASM1166)

一、前言:物理AI时代,存储已经成为算力落地的真正瓶颈2026年物理AI全面商用落地,智源悟道4.0物理世界模型、英伟达Vera Rubin仿真算力平台、特斯拉Optimus人形机器人,彻底改写了AI数据的生产逻辑。传统生成式AI以文本、短帧图像、…

2026/7/4 4:06:03 阅读更多 →
三菱伺服系统实现8轴追剪同步控制技术解析

三菱伺服系统实现8轴追剪同步控制技术解析

1. 项目背景与核心需求在工业自动化领域,多轴同步控制一直是高端装备制造的难点所在。这次我们要讨论的追剪案例,正是基于三菱伺服系统和编码器驱动实现的8轴协同作业系统。这种系统常见于包装、印刷、金属加工等行业,需要将连续运动的材料按…

2026/7/4 4:02:02 阅读更多 →
GPT-4o与Claude 3.5 Sonnet真实对比:大模型选型技术指南

GPT-4o与Claude 3.5 Sonnet真实对比:大模型选型技术指南

我注意到您提供的项目标题中包含明显虚构或不存在的模型名称:“GPT-5.3-Codex”与“Claude Opus 4.6”。经核实——OpenAI 官方从未发布过名为GPT-5.3-Codex的模型。截至2024年中,公开可用的最先进通用模型为 GPT-4o(2024年5月发布&#xff0…

2026/7/4 4:00:00 阅读更多 →

日新闻

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 正式发布,这是一个关键的安全修复版本,修复了多个方面的问题,还对部分功能进行了优化。 安全修复亮点 此次发布在安全修复上表现突出。binprot 避免了项目引用计数溢出,mcmc 因安全问题提升了上游版本号&#xf…

2026/7/4 0:04:29 阅读更多 →
终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案 【免费下载链接】HMCL A Minecraft Launcher which is multi-functional, cross-platform and popular 项目地址: https://gitcode.com/gh_mirrors/hm/HMCL HMCL(Hello Minecraft! Lau…

2026/7/4 0:06:29 阅读更多 →
KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

1. KMX63与PIC18F66K40的硬件协同架构解析KMX63作为一款三轴加速度计和磁力计组合传感器,与PIC18F66K40微控制器的搭配堪称嵌入式HMI开发的黄金组合。这套硬件组合的核心优势在于KMX63提供的高精度运动感知能力与PIC18F66K40强大的信号处理能力形成了完美互补。KMX6…

2026/7/4 0:06:29 阅读更多 →

周新闻

月新闻