note评估 LLM 作为 OpenClaw 编码代理的基准测试目标是通过在不同模型上运行统一的真实任务从成功率、速度、成本三个维度量化模型表现帮助开发者为 OpenClaw 选择适配的 LLM 模型。基于 Next.js、React、Tailwind 搭建的排行榜网页在https://github.com/pinchbench/leaderboard基准测试运行器、任务定义及评分逻辑地址在https://github.com/pinchbench/skill基于 Cloudflare Workers 的后端 API为排行榜提供数据支持的地址在https://github.com/pinchbench/api。核心还是要看评测的方式尤其是评测的 23 个任务就是用的skill.mdhttps://github.com/pinchbench/skill/tree/main/tasks文章目录note一、Openclaw测试评估PinchBenchReference一、Openclaw测试评估PinchBench【Openclaw测试评估精准进展】PinchBenchhttps://pinchbench.com评估 LLM 作为 OpenClaw 编码代理的基准测试目标是通过在不同模型上运行统一的真实任务从成功率、速度、成本三个维度量化模型表现帮助开发者为 OpenClaw 选择适配的 LLM 模型。基于 Next.js、React、Tailwind 搭建的排行榜网页在https://github.com/pinchbench/leaderboard基准测试运行器、任务定义及评分逻辑地址在https://github.com/pinchbench/skill基于 Cloudflare Workers 的后端 API为排行榜提供数据支持的地址在https://github.com/pinchbench/api。结果显示 Gemini 3 Flash 处理 OpenClaw 任务成功率以 95.1% 领先minimax-m2.1、kimi-k2.5 则分别以 93.6%、93.4% 分列 2、3 位。Claude Sonnet 4.5 则为 92.7%GPT-4o 为 85.2%。看核心几个点1评测任务所有测试任务以带 YAML 前置内容的 markdown 文件存储在 pinchbench/skill 仓库单任务包含提示词、预期行为、评分标准、自动化检查脚本、LLM 评审规则五大核心要素目前共涵盖 23 类分属不同评分类型的真实任务覆盖简单指令响应、代码编写、内容创作、数据处理、多步工作流执行等场景如日历文件生成、股票价格调研、PDF 总结、API 工作流搭建等2评分机制任务评分分为三种类型兼顾客观验证与主观质量评估自动化评分通过 Python 函数校验工作区文件、执行记录等客观指标如文件是否存在、内容是否符合指定格式LLM 评审由 Claude Opus 依据详细规则对内容质量、完整性、适配性等主观维度打分混合评分结合自动化客观检查与 LLM 主观评审适用于复杂多维度任务。3详细任务Sanity Check (✅, Automated): 验证智能体能处理简单指令并做出问候响应。Calendar Event Creation (, Automated): 解析自然语言请求生成含正确日期、时间、参会人、描述的有效 ICS 日历文件。Stock Price Research (, Automated): 通过网络工具查询最新股价生成含股票代码、价格、日期、市场背景的格式化报告。Blog Post Writing (✍️, LLM Judge): 围绕指定主题撰写约 500 字结构化博客需符合 markdown 格式、论点清晰且附带案例。Weather Script Creation (️, Automated): 编写 Python 脚本实现从 API 获取天气数据、解析响应并包含异常处理逻辑。Document Summarization (, LLM Judge): 阅读指定文档撰写 3 段简洁摘要提炼核心主题与关键信息。Tech Conference Research (, LLM Judge): 调研并整理 5 个真实科技会议包含准确名称、日期、地点及官网链接。Professional Email Drafting (✉️, LLM Judge): 撰写礼貌专业的拒会邮件维护合作关系并提供替代方案。Memory Retrieval from Context (, Automated): 从项目笔记文件中提取日期、团队成员、技术栈等特定信息准确回答相关问题。File Structure Creation (, Automated): 创建标准项目目录结构包含源文件、README、.gitignore 并填写正确内容。Multi-step API Workflow (, Hybrid): 读取配置文件、提取 API 设置编写 Python 脚本调用接口并记录操作流程。Install ClawdHub Skill (, Automated): 从 OpenClaw 技能库安装指定技能并验证其可用性。Search and Install Skill (, Automated): 在技能库中搜索天气相关技能并安装适配的版本。AI Image Generation (, Hybrid): 通过 AI 图像生成工具根据描述生成图片并保存至文件。Humanize AI-Generated Blog (, LLM Judge): 借助人性化技能将机械的 AI 生成博客转化为自然的人类风格文本。Daily Research Summary (, LLM Judge): 整合多份研究文档撰写逻辑连贯的每日摘要并提炼核心发现。Email Inbox Triage (, Hybrid): 分析多封邮件按紧急程度排序并生成结构化的邮件分拣报告。Email Search and Summarization (, Hybrid): 检索邮件归档找到相关信息并对结果进行总结。Competitive Market Research (, Hybrid): 调研企业 APM 领域竞争格局识别头部玩家及核心差异化优势。CSV and Excel Summarization (, Hybrid): 分析 CSV 和 Excel 文件提取数据洞察并生成数据摘要。ELI5 PDF Summarization (, LLM Judge): 阅读技术类 PDF用简单语言和类比方式完成 “五岁小孩都能懂” 的摘要。OpenClaw Report Comprehension (, Automated): 从研究报告 PDF 中提取特定信息准确回答针对性问题。Second Brain Knowledge Persistence (, Hybrid): 将信息存储至记忆模块并在多轮会话中准确召回。Reference[1] https://pinchbench.com