benchmark

其他 已审计 @garrytan v1.0.0
信任分
92/100
兼容 Agent
1
速查档案 只列事实:领域、Agent、信任分、作者、原文章节。装与不装请看下方作者解读。
领域
通用
兼容 Agent
Claude Code
信任分
92 / 100 · 已通过审计
作者 / 版本 / 许可
@garrytan · v1.0.0 · 未声明 license
安装命令数
1 条

需要注意: 未限定 allowed-tools,默认拥有全部工具权限。

想读作者英文原文? ↓ 滚到正文区切换 · 在 GitHub 查看 ↗

解读由编辑根据原文凝练而成,命令、链接、术语均与作者原文一致;想看完整论述请切到右侧

benchmark 是 gstack 工作流里的「跑性能基准」入口——在你项目里跑一组基准测试,输出对比报告。

设计思路

作者把性能基准做成 gstack 的标准命令之一,逻辑是:每个工程问题都该有可量化的方法。性能不是「感觉变快了」,而是「benchmark 数字从 X 降到 Y」。这个技能负责把 benchmark 流程标准化——你不必每次重新发明跑 benchmark 的方法。

Plan Mode 下的行为

按 SKILL.md 的 Plan Mode Safe Operations:在 plan mode 下只允许只读操作(读 ~/.gstack/codex exec/codex review、写 plan 文件、open 已生成的 artifact)。意思是 benchmark 在 plan mode 下只准备「要跑什么」、不真跑——把跑 benchmark 这种带副作用的操作留到正式执行阶段。

SETUP 检查

作者把「Step 0: 跑 SETUP」写成所有 browse 命令前都要做的事。SETUP 会检查:是否在 gstack 项目里、benchmark 工具是否装好、上次运行的 baseline 在哪儿。

Skill Routing

当用户说「跑 benchmark」时,会先经过 Skill Routing 决定调哪个具体的 benchmark 子命令(看是 perf benchmark 还是 model benchmark)——这就是 benchmark-models 存在的原因,二者是路由分流。

Telemetry

按 Telemetry 章节,每次跑完会自动收集结果摘要,方便后续 gstack-openclaw-retro 分析「这周性能变化」。

Voice / 写作风格

作者在 SKILL.md 里专门写了一节「Voice」——所有报告必须用统一的客观语气,不带「显著提升」「巨大优化」这种营销词。这是 gstack 命令的统一风格。

适合谁

  • 用 gstack 工作流的初创团队
  • 每周 / 每月做性能跟踪的项目
  • 大重构前后想客观对比的开发者
  • 团队里需要把「性能改进」量化交付给老板的人

何时不该用

  • 一次性性能调试——直接用语言自带的 profiler 更快
  • 微基准(比较两个函数的纳秒级差别)——用 hyperfine / Criterion 更精确

配套

benchmark-models 配套:那个比模型,这个比代码 / 系统性能。gstack-openclaw-retro 会消费它的输出。