browse

其他 已审计 @garrytan v1.1.0
信任分
92/100
兼容 Agent
1
速查档案 只列事实:领域、Agent、信任分、作者、原文章节。装与不装请看下方作者解读。
领域
通用
兼容 Agent
Claude Code
信任分
92 / 100 · 已通过审计
作者 / 版本 / 许可
@garrytan · v1.1.0 · 未声明 license
安装命令数
1 条

需要注意: 未限定 allowed-tools,默认拥有全部工具权限。

想读作者英文原文? ↓ 滚到正文区切换 · 在 GitHub 查看 ↗

解读由编辑根据原文凝练而成,命令、链接、术语均与作者原文一致;想看完整论述请切到右侧

设计思路

browse 是 gstack 的浏览器自动化前端——不是再造一个 Puppeteer,而是把 Playwright daemon 包成一组面向 agent 的命令行 verb($B goto$B text$B chain),让 LLM 可以像写脚本一样驱动一个真实的 Chromium。同一个文件还附带了「Puppeteer → browse」的对照速查,方便从老脚本迁移过来。

工作流

SETUP 阶段先跑健康检查;如果 daemon 没起,会引导你 $B connect 启一个 headed Chromium 并装上配套的 Chrome 扩展。日常使用最常用三组命令:

  • 核心 QAgoto / text / click / fill / screenshot / snapshot 这一票看-点-填的基础动作。
  • chain:通过 stdin 传入一个 JSON 数组(如 [["goto","https://example.com"],["text","h1"]]),一次性把多步串起来跑,遇错即停,结果按命令顺序回 JSON。LLM 调用最爱这条。
  • domain-skill:每个站点的「自学笔记」。save 写入,跑够 N=3 次成功且没被 prompt-injection 分类器标红就自动从 quarantined 升到 active;再 promote-to-global 提升到机器全局。机制本身把 prompt-injection 防护内嵌进升迁流程。

还提供 frame 切 iframe、tabs/tab/tab-each 多标签批处理、state save|load 持久化登录态、handoff 把控制权交还人类用户、resume 接回。Headed 模式 + 代理可以应付反爬严格的站点。

适合谁

  • 写自动化测试、跑端到端 QA 的人
  • 需要 LLM 操作「需要登录的站点」的工程师(用 state 共享登录态)
  • 做爬虫/数据抓取,但要面对反爬的场景

何时不该用

  • 纯 API 取数——直接 curl 比开浏览器轻
  • 截屏对比 / 视觉回归——配 canary 用更顺手

配套

canary(部署后视觉巡检)、webapp-testing(QA 框架)、make-pdf(用 newtab --json 抓 tabId 再渲染)一起用。