benchmark-models

其他 已审计 @garrytan v1.0.0
信任分
92/100
兼容 Agent
1
速查档案 只列事实:领域、Agent、信任分、作者、原文章节。装与不装请看下方作者解读。
领域
通用
兼容 Agent
Claude Code
信任分
92 / 100 · 已通过审计
作者 / 版本 / 许可
@garrytan · v1.0.0 · 未声明 license
安装命令数
1 条

需要注意: 未限定 allowed-tools,默认拥有全部工具权限。

想读作者英文原文? ↓ 滚到正文区切换 · 在 GitHub 查看 ↗

解读由编辑根据原文凝练而成,命令、链接、术语均与作者原文一致;想看完整论述请切到右侧

benchmark-models 让多个 LLM 模型同时回答同一个问题,输出对比表——比成本、比质量、比速度。

设计思路

作者把「选模型」做成可量化的事:你给 5 个 prompt 模板和 5 个候选模型,技能帮你跑 5×5 矩阵,每格都给出回答 + 耗时 + token 消耗。看完这张表就知道应该用哪个模型。

Step 0: Locate the binary

SKILL.md 里 Step 0 章节说得很具体:先找 benchmark 工具的二进制位置——可能在系统 PATH,可能在 gstack 仓库里需要先 ./setup。这一步是 BLOCKING 的,没找到不允许继续。

Plan Mode 行为

benchmark 类似,plan mode 下只允许只读操作(不实际调用模型 API);正式执行阶段才会真的调 API、产生 token 费用。

输出

默认输出表格,列:

  • 模型名(gpt-5、claude-sonnet-4-6、gemini-pro 等)
  • prompt id
  • 回答(截断或完整)
  • token in / out
  • 耗时
  • 自动评分(如果配了 evaluator)

Voice

benchmark 一样,必须用客观语气——不会给某个模型「赢家」标签,让你自己看数字判断。

Operational Self-Improvement

每跑一次 benchmark,结果会回写进 ~/.gstack/,下次跑同一组 prompt 时可以做 diff(这次 vs 上次)。这对追踪模型升级(claude 4.6 → 4.7 之后效果变好还是变差)特别有用。

Telemetry

跑完会自动 telemetry,让 gstack-openclaw-retro 知道你这周做了哪些模型选型工作。

适合谁

  • 决定「我们项目用哪个模型」的工程负责人
  • 模型新版本发布后做回归对比
  • 给业务方算模型成本(同样质量下哪家更便宜)
  • 写技术博客 / 评测的人

何时不该用

  • 单次问问题——直接调一家模型就够
  • 主观体验对比(哪家「感觉」更聪明)——基准跑不出主观感受

配套

benchmark(系统性能)、gstack-openclaw-retro(数据消费)形成测量链路。