skill过多时,如何保证agent的命中率
以下内容为作者和AI多轮对话后总结生成概要Skill 数量膨胀导致 Agent 命中率下降本质是候选集噪声升高、模型决策边界模糊、上下文承载力不足共同作用的结果最终体现为两类核心问题漏召该调用的技能没选中和误召不该调用的技能被选中。提升命中率的核心思路是从源头降噪 → 分层收敛候选 → 强化决策精度 → 数据闭环迭代以下是可落地的完整方案按投入产出比从高到低排序技术细节第一步先把技能本身收拾利索技能体系标准化重复的合并没用的删掉两个技能干的事差不多比如都能画图就合成一个里面再分小功能。长期没人用、用了也容易出错的技能直接删掉别留着添乱。每个技能写明白 “什么时候用、什么时候别用”别写技术黑话就说人话。比如别说 “这是可视化工具”要说 “用户让画图、做表格的时候用单纯问‘柱状图是什么’的时候别用”。正反都写清楚AI 就不容易乱选。第二步分层路由别让 AI 一次从所有技能里挑。一次性给它几十上百个选项换谁都容易选错。改成 “层层缩小范围”最后只在一小撮里挑「粗筛→精排→决策」三层架构逐层缩小候选集兼顾召回与准确率。第一层规则粗筛零成本过滤 80% 无关项按输入特征硬过滤如用户上传图片则仅保留支持图片输入的技能用户提问代码则仅保留开发类技能关键词命中直达出现强触发词如「画图」「SQL」直接锁定对应品类跳过后续检索统计 Top 20% 高频请求建立「Query 模式→技能」的直接映射不走大模型路由速度与命中率拉满第二层语义检索重排召回核心候选将所有技能的「场景化描述」向量化构建索引用户请求编码后做向量相似度检索初步选出 Top 10~20 候选用轻量级重排序模型如 BGE-Reranker对初筛结果做精排输出 Top 5~8 高相关候选关键向量库只存储场景描述不混入技术实现细节避免语义偏移第三层大模型终判精准决策仅将 Top N 候选的精简描述输入大模型让其在小范围内判断「是否调用、调用哪一个」强制思考链CoT要求模型先输出「需求分析→技能匹配理由→最终决策」通过显性推理降低幻觉调用第三步决策强化提升选择稳定性给 AI 定死规矩别让它瞎发挥系统 Prompt 强约束在给 AI 的指令里写死几条铁律仅当技能能显著提升回答质量时调用纯通用知识问答禁止调用必须严格匹配技能适用场景禁止强行套用以「展示能力」拿不准的时候就别用别硬凑一个技能上去再补几个正反例子比如 “问什么是折线图” 不用画图技能“帮我画个销量折线图” 才用第四步闭环迭代用数据持续优化记录每次调用的核心数据原始请求、选中技能、置信度、执行结果、用户反馈重点标注「漏召」和「误召」两类错误。高误召技能补充「不适用场景」描述降低检索权重高漏召技能补充触发关键词优化场景描述提高检索权重用户确认机制低置信度场景下主动询问用户「是否使用 XX 技能完成需求」由用户确认通用能力降级无匹配技能时直接用大模型通用能力回答不强行调用

相关新闻

Qwen3.5小模型全系实测:端侧可用、视觉通吃、推理可切的开源多模态方案

Qwen3.5小模型全系实测:端侧可用、视觉通吃、推理可切的开源多模态方案

1. 项目概述:为什么这次Qwen3.5小模型系列值得你立刻上手试一试?我用自己那台4060 8G显存锐龙7 8845HS24GB内存的笔记本,连续三天泡在LM Studio里,把Qwen3.5全系四款模型——0.8B、2B、4B、9B——从头到尾跑了个遍。不是简单点开对…

2026/7/3 7:42:06 阅读更多 →
简单粗暴地理解js原型链--js面向对象编程

简单粗暴地理解js原型链--js面向对象编程

人是人他妈生的,妖是妖他妈生的。人和妖都是对象实例,而人他妈和妖他妈就是原型。原型也是对象,叫原型对象。 2)人他妈和人他爸啪啪啪能生出一堆人宝宝、妖他妈和妖他爸啪啪啪能生出一堆妖宝宝,啪啪啪就是构造函数&…

2026/7/3 7:40:05 阅读更多 →
2026春招AI抢人大战:小白程序员如何抓住大模型红利,速收藏!

2026春招AI抢人大战:小白程序员如何抓住大模型红利,速收藏!

2026年春招AI岗位激增8.7倍,大厂纷纷抢占人才,AI科学家月薪破13万。文章分析了AI岗位暴涨的原因、大厂抢人策略及职场焦虑,指出AI能力已成为职场新技能,并探讨了AI人才抢夺战后的可能发展趋势。对于想要抓住AI红利的程序员&#x…

2026/7/3 7:40:05 阅读更多 →

最新新闻

从测试框架到智能体:构建自适应Web自动化测试新范式

从测试框架到智能体:构建自适应Web自动化测试新范式

1. 项目概述:从“无Harness”到“测试Agent”的自动化测试新范式最近在团队里推动Web自动化测试落地时,我们遇到了一个经典困境:测试脚本的维护成本高得吓人。每次前端页面改个按钮ID、加个CSS类名,或者后端接口字段调整&#xff…

2026/7/3 8:44:28 阅读更多 →
软考与华为认证路径全拆解,从报名周期、考试难度到续证成本,一文看透隐藏成本!

软考与华为认证路径全拆解,从报名周期、考试难度到续证成本,一文看透隐藏成本!

更多请点击: https://intelliparadigm.com 第一章:软考与华为认证HCIP/HCIE区别 软考(全国计算机技术与软件专业技术资格(水平)考试)与华为认证(HCIP/HCIE)在定位、目标人群、知识体…

2026/7/3 8:42:27 阅读更多 →
软考高级/中级/初级证书继续教育学分要求全对比,3张表说清每年必修24学分背后的逻辑与替代方案

软考高级/中级/初级证书继续教育学分要求全对比,3张表说清每年必修24学分背后的逻辑与替代方案

更多请点击: https://intelliparadigm.com 第一章:软考证书继续教育学分制度的政策演进与核心定位 软考(计算机技术与软件专业技术资格(水平)考试)证书持有人的继续教育学分管理,是国家对信息技…

2026/7/3 8:42:27 阅读更多 →
OpenCode模型配置与切换:本地AI编程的可控性实践

OpenCode模型配置与切换:本地AI编程的可控性实践

1. 项目概述:这不是一个“装完就能用”的玩具,而是一把需要亲手校准的代码刻刀 OpenCode——这个名字在2024年中后期开始频繁出现在国内开发者社区的技术分享帖、内部工具链讨论组和AI辅助编程评测报告里。它不是GitHub Copilot的平替,也不是…

2026/7/3 8:40:27 阅读更多 →
5步彻底解决OFD文件兼容性问题:开源转换工具实战指南

5步彻底解决OFD文件兼容性问题:开源转换工具实战指南

5步彻底解决OFD文件兼容性问题:开源转换工具实战指南 【免费下载链接】Ofd2Pdf Convert OFD files to PDF files. 项目地址: https://gitcode.com/gh_mirrors/ofd/Ofd2Pdf 你是否曾经因为收到OFD格式的电子发票而无法在手机上查看?是否因为政府发…

2026/7/3 8:38:26 阅读更多 →
AI知识库投喂:企业智能化的关键一步

AI知识库投喂:企业智能化的关键一步

于企业智能化转型的浪潮里面, AI知识库已然变成提升工作效率以及决策质量的核心工具。可是呢, 好多企业在部署AI知识库之际, 常常忽视了“投喂”这个关键环节。所说的“投喂”, 是把企业内部的结构化还有非结构化数据, 像项目文档、会议纪要、客户资料、技术手册等, 有系统地输…

2026/7/3 8:38:26 阅读更多 →

日新闻

Nginx防御TLS重协商攻击实战:从原理到配置与监控

Nginx防御TLS重协商攻击实战:从原理到配置与监控

1. 项目概述:为什么TLS重协商攻击至今仍需警惕十多年前的CVE-2011-1473,一个关于TLS/SSL协议重协商机制的漏洞,现在提起来还有必要吗?很多运维和开发朋友可能会觉得,这都老掉牙了,现代服务器和客户端不都默…

2026/7/3 0:03:59 阅读更多 →
华为防火墙双通道远程管理实战:Web与SSH配置详解

华为防火墙双通道远程管理实战:Web与SSH配置详解

1. 项目概述:为什么需要双通道远程管理防火墙?在任何一个稍具规模的企业网络里,防火墙都是那个默默守护在边界的关键角色。作为网络工程师,我们不可能每次都跑到机房,插上console线去配置它。远程管理能力,…

2026/7/3 0:03:59 阅读更多 →
AD74413R与PIC18F65K40的高精度工业数据采集方案

AD74413R与PIC18F65K40的高精度工业数据采集方案

1. 项目概述:AD74413R与PIC18F65K40的协同工作在工业自动化和精密测量领域,同时实现高精度模数转换(ADC)和数模转换(DAC)功能是许多复杂系统的核心需求。AD74413R作为一款四通道可配置模拟输入/输出器件,与PIC18F65K40微控制器的组合&#xf…

2026/7/3 0:05:59 阅读更多 →

周新闻

月新闻