这项由斯坦福大学、加州大学伯克利分校、俄亥俄州立大学等多所知名院校联合开展的研究发表于2026年2月论文编号为arXiv:2602.12670v1。有兴趣深入了解的读者可以通过这个编号查询完整论文。在当今AI快速发展的时代你可能听说过ChatGPT、Claude这些聊天机器人但你知道它们正在进化成能够自主完成复杂任务的AI代理吗这些AI代理不再仅仅是回答问题而是能够像人类助手一样操作电脑、编写代码、分析数据甚至制作报告。然而就像一个刚入职的新员工需要培训手册一样AI代理也需要专门的技能包来指导它们完成特定领域的工作。但这些技能包真的有用吗它们到底能让AI代理变得多厉害这正是这项大规模研究想要回答的问题。研究团队就像是在测试不同品牌的工具箱对工匠工作效率的影响他们设计了一个名为SkillsBench的评测体系涵盖了84个不同难度的真实任务从简单的数据分析到复杂的软件开发从医疗保健到金融分析几乎涉及了现代职场的各个角落。这项研究的特别之处在于它不是简单地测试AI代理能否完成任务而是专门比较了三种不同情况下的表现完全没有技能包的裸奔状态、使用专家精心编写的技能包以及让AI代理自己临时编写技能包。研究团队测试了7种不同的AI模型-代理组合总共进行了7,308次任务尝试这个规模相当于一个小型企业一年的工作量评估。结果令人眼前一亮但也带来了一些意外发现。专家编写的技能包平均让AI代理的成功率提升了16.2个百分点这就像是给一个工匠配备了专业工具箱后工作效率显著提升。然而不同领域的效果差异巨大在医疗保健领域成功率提升了惊人的51.9个百分点而在软件工程领域提升幅度只有4.5个百分点。更有趣的是当AI代理试图自己编写技能包时不仅没有帮助反而平均降低了1.3个百分点的成功率这说明AI虽然聪明但还无法可靠地为自己制作使用手册。一、技能包的本质AI代理的专业培训手册回到最基本的问题什么是AI代理的技能包如果把AI代理比作一个万能的实习生那么技能包就像是针对特定岗位的培训手册。这个手册不是简单的知识介绍而是详细的操作指南告诉AI代理在这种情况下应该怎么做、使用哪些工具、按什么步骤执行。技能包的核心是程序性知识也就是如何做的知识而不是是什么的知识。就像烹饪食谱一样它不会花大篇幅解释什么是面粉或鸡蛋而是直接告诉你先在碗里打两个鸡蛋然后加入200克面粉顺时针搅拌五分钟。这种具体的步骤指导正是AI代理最需要的。研究团队发现一个合格的技能包必须满足四个条件。第一是包含程序性内容也就是具体的操作步骤和工作流程而不是纯粹的事实性信息。第二是具有任务类别适用性能够应用于一类问题而不仅仅是单个任务。第三是结构化组件包含一个名为SKILL.md的核心文件以及可选的脚本、模板和示例。第四是便携性技能包完全基于文件系统容易编辑、版本控制、分享并能在不同的代理系统中使用。这种定义排除了许多看似相关但实际不同的概念。系统提示词虽然能指导AI行为但缺乏结构和资源少样本示例虽然有用但是声明性的而非程序性的检索增强生成主要提供事实信息而非操作指导工具文档描述的是功能而非具体使用步骤。技能包的独特之处在于它将程序性指导与可执行资源结合同时保持跨模型和跨代理系统的兼容性。在实际应用中每个技能包就像一个迷你的专业培训课程。它位于环境的skills目录中包含必需的SKILL.md文件和可选的资源文件。SKILL.md文件用自然语言描述如何处理某类任务的具体方法比如工作流程、标准操作程序或领域规范。资源文件则可能包含可执行脚本、代码模板、参考文档或实际工作示例供代理在需要时调用或参考。二、实验设计像测试新员工一样评估AI代理为了科学地评估技能包的效果研究团队设计了一套完整的评测体系就像企业HR部门设计员工能力测试一样周密。他们首先面临的挑战是如何收集足够多样化的任务。研究团队采用了社区驱动的开源贡献模式邀请了105名来自学术界和工业界的贡献者提交候选任务最终收到了322个任务提案。这些任务的筛选过程非常严格就像招聘过程一样有多个环节。每个提交的任务都必须满足明确的要求任务说明必须由人类编写而非AI生成技能包必须提供适用于一类问题的程序性指导成功标准必须可以通过程序化断言进行测试。系统会自动进行结构验证、预言解决方案执行和指令质量检查通过后才进入人工审核阶段。人工审核阶段评估五个关键标准数据有效性要求输入数据反映真实世界的复杂性拒绝合成或玩具数据任务现实性要求场景反映真实的专业工作流程避免人为的困难预言质量要求参考解决方案应该匹配领域专家解决任务的方式技能质量要求技能包必须无错误、内部一致且对类似任务真正有用防作弊措施要求任务必须防止快捷解决方案如编辑输入数据或从测试文件中提取答案。审核者还会使用有技能包和无技能包两种条件在多个代理上运行基准实验以确认每个任务都能提供关于技能包效果的有意义信号。经过这个严格的筛选过程最终有86个任务通过了所有审核阶段并被纳入基准测试其中84个任务参与了最终评估。这84个任务覆盖了11个不同的领域从软件工程到医疗保健从金融分析到机器人控制。任务难度按照估计的人类完成时间进行分层核心任务17个需要少于60分钟扩展任务43个需要1-4小时极端任务26个需要超过4小时。这种分层确保了基准测试能够评估不同复杂程度的任务。三、测试对象七种AI代理的全面比拼研究团队选择了当前最先进的三种商业代理系统进行测试这些系统代表了不同公司在AI代理领域的最新成果。Claude Code来自Anthropic公司具有原生的技能包集成能力Gemini CLI来自Google是开源的终端代理Codex CLI来自OpenAI是轻量级的编程代理。这些代理系统与不同的语言模型配对形成了七种不同的配置组合。Claude Code系统测试了四种不同能力级别的Claude模型Opus 4.5和4.6代表顶级能力Sonnet 4.5提供平衡的性能Haiku 4.5则是效率优化版本。Gemini CLI测试了两种Google模型Gemini 3 Pro提供强大性能Gemini 3 Flash则优化了速度和成本效率。Codex CLI使用GPT-5.2模型专门针对代码生成进行了优化。每个任务都在三种不同的条件下进行测试就像对比实验一样控制变量。无技能包条件下代理只接收任务说明环境中没有任何技能包有技能包条件下完整的技能包目录提供所有示例、代码片段和资源自生成技能包条件下不提供预制技能包但提示代理在解决任务前生成相关的程序性知识。实验的执行过程严格控制了各种变量。所有模型都使用温度0进行确定性采样超时限制根据任务难度在600到1200秒之间变化上下文管理采用8000令牌限制的滑动窗口。每个条件下的主要测试进行5次试验自生成条件进行3次试验总计产生了7,308个有效轨迹供分析。技能包通过将环境的skills目录复制到代理特定路径的方式注入到每个任务的Docker容器中。每个代理系统使用其原生的技能包发现机制在运行时发现和加载技能包。重要的是任务说明从不引用要使用哪些技能包代理必须自主发现并应用它们。四、惊人发现技能包效果的巨大差异研究结果揭示了技能包效果的复杂图景。整体而言精心策划的技能包将代理的平均通过率提升了16.2个百分点这相当于将成功率从约24%提升到约41%。然而这个平均数字掩盖了巨大的变异性就像平均工资数字无法反映不同行业之间的巨大差距一样。不同代理-模型配置的效果差异显著改进幅度从13.6个百分点到23.3个百分点不等。Gemini CLI配合Gemini 3 Flash实现了最高的绝对通过率48.7%而Claude Code配合Opus 4.5显示了最大的改进幅度增长了23.3个百分点。有趣的是Claude Code在各个模型上都表现出了持续的技能包利用能力这可能与其原生的技能包集成优化有关。领域层面的差异更加戏剧性。医疗保健领域显示了最大的改进技能包将通过率从34.2%提升到86.1%净增长51.9个百分点。制造业紧随其后从1.0%提升到42.9%增长41.9个百分点。这些领域的巨大改进反映了它们需要专门的程序性知识而这些知识在模型的预训练中代表性不足。相比之下数学领域的改进相对较小从41.3%提升到47.3%仅增长6.0个百分点。软件工程显示了最小的改进从34.4%提升到38.9%仅增长4.5个百分点。这种模式表明在模型预训练覆盖较好的领域外部程序性指导的边际效用较低。任务级别的分析揭示了更多细节。表现最好的任务如mario-coin-counting和sales-pivot-analysis显示了超过85个百分点的改进从接近0%的基线跃升到接近90%的成功率。这些任务涉及需要特定程序性知识的专门操作如Excel透视表API或图像处理管道这些知识很难从一般训练中获得。然而并非所有任务都从技能包中受益。84个任务中有16个显示了负面的技能包增量最大的负面影响是taxonomy-tree-merge任务下降了39.3个百分点。这些失败表明技能包可能引入冲突的指导或为模型已经能够很好处理的任务增加不必要的复杂性。五、自生成技能包的失败AI还无法为自己编写手册研究中最令人意外的发现之一是自生成技能包的表现。当提示代理在解决任务之前生成自己的程序性知识时它们平均显示了-1.3个百分点的性能下降这与精心策划的技能包的16.2个百分点改进形成鲜明对比。这种失败模式在轨迹分析中得到了解释。研究团队发现了两种主要的失败模式。第一种是模型识别需要领域特定知识但生成的程序不精确或不完整。例如模型可能列出使用pandas进行数据处理而不提供具体的API模式或处理步骤。第二种失败模式出现在高领域知识任务中模型完全无法识别需要专门技能包的需求而是尝试使用通用方法解决问题。只有Claude Opus 4.6显示了适度的改进1.4个百分点而Codex配合GPT-5.2显示了实质性的退化-5.6个百分点。这种模式表明虽然模型在消费程序性知识方面表现出色但在创作有效的程序性知识方面仍有很大差距。自生成条件的失败凸显了精心策划的技能包的价值。有效的技能包不仅包含正确的信息还以代理能够有效处理和应用的方式进行结构化。这需要对任务领域的深度理解以及对代理能力和限制的洞察这些通常超出了当前语言模型的能力范围。这一发现对技能包生态系统具有重要意义。它表明至少在当前的技术水平下人工策划的技能包仍然是必要的。自动化技能包生成可能需要更先进的方法可能结合领域专业知识、任务特定的示例以及对代理行为的更深入理解。六、设计原则少即是多的技能包哲学研究深入分析了技能包设计对效果的影响得出了几个重要的设计原则。首先是数量的影响。分析显示包含2-3个技能包的任务表现最佳平均改进18.6个百分点而包含4个或更多技能包的任务仅改进5.9个百分点。这种非单调关系表明过多的技能包内容会产生认知开销或冲突指导。技能包复杂性的分析同样有启发性。研究团队根据内容长度和深度将技能包分类为详细、紧凑、标准和全面四种类型。详细技能包18.8个百分点和紧凑技能包17.1个百分点提供了最大的效益而全面技能包实际上损害了性能-2.9个百分点。这表明聚焦的程序性指导比详尽的文档更有效代理可能难以从冗长的技能包内容中提取相关信息。模型规模效应揭示了技能包的另一个重要价值主张。Claude Haiku 4.5配合技能包27.7%超过了Haiku无技能包11.0%的性能16.7个百分点同时Claude Opus 4.5无技能包仅达到22.0%。这证明技能包可以部分补偿模型能力限制使较小的模型在程序性任务上与较大的模型相匹配。这些发现对技能包创作实践具有直接影响。有效的技能包应该优先考虑简洁的、逐步的指导包含至少一个工作示例而避免详尽的文档。模块化技能包似乎在多部分任务上组合得更好技能包应该明确匹配代理约束例如为仅限JSON协议重复格式提醒。七、代理系统的可靠性差异研究还揭示了不同商业代理系统在技能包利用方面的显著差异。Claude Code在所有Claude模型中显示了一致的技能包效益改进范围从13.9个百分点Opus 4.6到23.3个百分点Opus 4.5。这种一致性可能反映了Claude Code为Agent Skills规范进行的原生技能包集成优化。Gemini CLI实现了最高的原始性能Gemini 3 Flash配合技能包达到48.7%的通过率但标准化增益相对较低。改进范围从13.6个百分点到17.4个百分点。轨迹分析显示Gemini CLI代理可靠地检索和使用技能包内容但有时会执行独立于提供指导的解决方案。Codex CLI显示了竞争性的原始性能技能包配置达到44.7%但经常忽略提供的技能包。代理承认技能包内容但经常独立实施解决方案这表明技能包发现和应用之间存在断裂。这种模式强调了评估多个代理系统而不是将配合技能包视为单一条件的重要性。这些系统间的差异突出了代理架构在调解技能包使用中的关键作用。技能包效果不仅取决于技能包质量还取决于代理系统如何实施技能包发现、上下文管理和应用策略。一些系统引入的结构化接口也可能导致长轨迹失败模式如格式漂移减少早期注入技能包的影响。八、成功案例分析技能包如何改变游戏规则为了更深入地理解技能包的作用机制研究团队分析了几个代表性的成功案例这些案例展示了技能包如何将失败转化为成功。sales-pivot-analysis任务为技能包如何弥合特定API差距提供了完美示例。在没有技能包的情况下所有7个模型都获得了0%的分数。这个任务需要从人口和收入数据以程序方式创建Excel透视表。代理始终正确加载数据但在透视表创建时失败。Codex尝试手动DataFrame重塑而不是使用openpyxl的透视表API产生结构错误的输出23个测试中有10个因缺少透视对象而失败出现列表索引超出范围错误。配合提供openpyxl透视表工作流程逐步指导的技能包7个模型中的6个达到了≥80%的通过率平均改进85.7个百分点。flood-risk-analysis任务展示了技能包如何提供关键的数据处理管道。这个任务需要使用回归周期估计从USGS流量数据识别洪水风险站点。没有技能包时代理尝试临时统计方法如简单的基于阈值的检测或不正确的分布拟合仅获得2.9%的通过率。策划的技能包指定了Log-Pearson Type III分布这是洪水频率分析的标准USGS方法包括确切的scipy函数调用和参数解释。配合技能包通过率上升到80.0%77.1个百分点所有模型都正确应用了USGS标准方法。sec-financial-report任务说明了技能包如何编码监管知识。从SEC 13F文件分析对冲基金活动需要理解特定的监管格式、CIK查找程序和文件比较方法。没有技能包时没有模型能够完成任务0%通过率代理要么未能找到正确的文件要么误解了表格数据格式。策划的技能包记录了SEC EDGAR API端点、13F-HR文件结构和跨季度比较方法。配合技能包通过率达到75.0%75.0个百分点。manufacturing-fjsp-optimization任务展示了技能包如何防止常见的实施陷阱。灵活作业车间调度问题需要具有机器停机时间窗口的约束感知优化。没有技能包时代理产生了忽略维护约束的简单调度0%通过率。策划的技能包概述了约束传播方法、目标函数公式和OR-Tools求解器配置。配合技能包代理成功制定并解决了优化问题68.6%通过率68.6个百分点。这些案例展示了技能包最有效的三个场景弥合特定API或工具知识差距提供领域特定的方法和标准以及指导复杂的多步骤工作流程。在每种情况下技能包不仅提供信息还提供可操作的程序性指导代理可以直接遵循。九、失败模式分析当技能包反而帮倒忙尽管技能包总体上提高了性能但研究也发现了它们可能有害的情况。对5,171个代理失败的综合分析揭示了技能包如何改变失败模式的分布。最常见的失败模式是质量低于阈值49.8%的失败这表明代理通常理解任务结构并产生输出但他们的解决方案不够准确。代理超时是第二常见的17.8%其次是不完整解决方案10.2%和无输出产生7.9%。比较无技能包和有技能包条件下的失败模式分布揭示了技能包的主要影响在哪里。技能包主要减少验证失败质量低于阈值失败的绝对数量从1,184个无技能包下降到819个有技能包减少30.8%。这占了改进的大部分技能包提供领域特定指导帮助代理在结构上理解的任务上产生更高质量的输出。然而技能包略微增加了超时的相对份额。虽然绝对超时计数从367个减少到328个但其在失败中的份额从16.1%增加到18.6%。这是因为技能包减少简单失败的速度快于困难失败以前产生低质量输出的代理现在花更长时间追求更好的解决方案有时超过时间限制。一些具体的失败案例说明了技能包何时会产生反效果。taxonomy-tree-merge任务显示了-39.3个百分点的下降这是最大的负面影响。在这种情况下技能包可能引入了与代理已经有效方法冲突的指导。energy-ac-optimal-power-flow显示了-14.3个百分点的下降表明对于模型已经有强先验的任务技能包可能增加不必要的复杂性。这些失败模式强调了技能包设计和选择的重要性。并非所有任务都能从外部指导中受益特别是那些模型已经表现良好的任务。技能包也可能引入自己的复杂性和潜在错误特别是当它们与代理的现有知识或偏好冲突时。十、成本效益分析技能包的经济价值研究还分析了技能包使用的令牌使用和成本影响。令牌使用数据显示技能包将输入令牌使用增加6-13%这反映了技能包文档的额外上下文。然而每次试验的成本增加是适度的从每次试验增加$0.03Gemini 3 Flash到$0.22GPT-5.2。有趣的是Gemini 3 Pro在配合技能包时显示了令牌使用的轻微减少-6%表明技能包帮助Pro更有效地解决任务减少探索轮次。这种模式在高级模型中可能更常见它们能够更有效地利用提供的指导。成本-性能权衡分析显示技能包将成本-性能前沿向上移动。Gemini 3 Flash每任务消耗的输入令牌比Gemini 3 Pro多2.3倍配合技能包时1.08M对0.47M这是一种补偿策略较小模型用迭代探索替代推理深度。在标准API定价下Flash的4倍更低每令牌成本超过了较高令牌量使Flash每任务便宜44%$0.55对$0.98。缓存效率分析显示所有模型都有高缓存命中率GPT-5.2为91-92%Gemini 3 Pro为75-76%Gemini 3 Flash为63-67%。Claude Code模型显示99%的缓存率反映了积极的提示缓存。在实践中缓存定价将实际成本降低到表中显示的标准费率的50-90%。这些发现表明虽然技能包确实增加了计算成本但性能改进平均16.2个百分点大大超过了边际成本增加。对于大多数应用技能包代表了一个有吸引力的成本-效益权衡。说到底这项研究为我们揭示了AI代理技能包的真实面貌。就像给工匠配备专业工具箱一样精心设计的技能包确实能显著提升AI代理的工作能力平均提升16.2个百分点的成功率。但这种提升并不是万能的灵丹妙药不同领域、不同任务、不同代理系统的效果差异巨大。更重要的是AI代理目前还无法为自己可靠地编写有效的使用手册人工精心编写的技能包仍然是必需品。这项研究的价值不仅在于证明了技能包的有效性更在于揭示了其局限性和设计原则。少即是多的哲学、聚焦而非全面的指导、适量而非过多的技能包数量这些都是实用的指导原则。同时研究也提醒我们不是所有任务都需要技能包有时候过多的指导反而会帮倒忙。归根结底这项研究为AI代理技能包的发展指明了方向精心策划的人工技能包在当前技术水平下仍然不可替代但随着技术进步自动化技能包生成和更智能的技能包应用可能会成为现实。对于普通用户而言这意味着在选择和使用AI代理工具时了解其技能包支持情况将成为一个重要考虑因素。这项研究为整个行业提供了宝贵的实证基础有兴趣的读者可以通过论文编号arXiv:2602.12670v1查询完整研究内容。QAQ1什么是AI代理的技能包AAI代理的技能包就像是专门的培训手册它不是简单的知识介绍而是详细的操作指南告诉AI代理在特定情况下应该怎么做、使用哪些工具、按什么步骤执行。比如在处理Excel数据时技能包会提供具体的API调用方法和操作步骤而不只是解释什么是Excel。Q2技能包能让AI代理提升多少能力A根据SkillsBench研究精心编写的技能包平均能让AI代理的成功率提升16.2个百分点。但不同领域差异巨大医疗保健领域能提升51.9个百分点而软件工程领域只提升4.5个百分点。有些情况下技能包甚至会降低性能。Q3AI代理能自己编写技能包吗A目前不行。研究发现当AI代理尝试自己编写技能包时平均性能反而下降了1.3个百分点。AI虽然擅长使用别人编写的指南但还无法可靠地为自己创作有效的操作手册人工精心编写的技能包仍然是必需的。