baoyu-url-to-markdown

文档 已审计 @JimLiu v1.61.0
信任分
92/100
兼容 Agent
1
速查档案 只列事实:领域、Agent、信任分、作者、原文章节。装与不装请看下方作者解读。
领域
文档
兼容 Agent
Claude Code
信任分
92 / 100 · 已通过审计
作者 / 版本 / 许可
@JimLiu · v1.61.0 · 未声明 license
安装命令数
1 条

需要注意: 未限定 allowed-tools,默认拥有全部工具权限。

想读作者英文原文? ↓ 滚到正文区切换 · 在 GitHub 查看 ↗

解读由编辑根据原文凝练而成,命令、链接、术语均与作者原文一致;想看完整论述请切到右侧

baoyu-url-to-markdown 给一个 URL,把网页正文抓回来转成干净的 Markdown——重点是「干净」:去广告、去导航、去推荐位,只留正文。

设计思路

作者发现通用型抓取工具(Mercury、Readability)对中文站点支持不太好,特定站点(X、YouTube、Hacker News、知乎、微信)又有自己的反爬和结构。所以技能用了「baoyu-fetch CLI + 站点专用 adapters」的双层设计——通用站点走 Defuddle 走清洗,特殊站点走 site-specific adapter。

内置 adapters

SKILL.md 列出 built-in adapters:

  • X / Twitter 推文 / 推串
  • YouTube 字幕(直接拿 transcript 而不是抓页面)
  • Hacker News thread
  • 通用页面 via Defuddle

未来可加更多 adapter,框架已留好扩展点。

工作流

按 Workflow:① 读 URL;② 自动判断走哪个 adapter;③ 通过 baoyu-fetch CLI(封装了 Chrome CDP)打开页面;④ Agent Quality Gate:抓回来后检查正文是否完整、是否有明显污染(导航、推荐);⑤ Output Path Generation 自动起文件名(基于标题 + 日期);⑥ Adapters & Media 处理图、视频、附件。

CLI Setup

启用前需装 baoyu-fetch CLI——SKILL.md 顶部 CLI Setup 章节给了详细的安装步骤。装好后通过 Environment Variables 控制 Chrome 路径、超时、缓存。

适合谁

  • 写作者收集素材,把读过的好文章按规范归档
  • 知识管理(PKM)用户,建立可搜索的笔记库
  • 研究人员追踪某话题,批量抓取参考文献
  • 把 RSS / Twitter 收藏夹批量沉淀到 Obsidian

何时不该用

  • 需要登录态才能看的私域内容——这是公域抓取
  • 大规模数据采集(每天上千 URL)——用专门的爬虫框架
  • 抓动态加载需要 JS 跑很久才出内容的页面——可能需要自定义 adapter

配套

  • baoyu-format-markdown:把抓回来的 Markdown 进一步格式化
  • baoyu-translate:英文文章抓回来后翻译
  • baoyu-post-to-wechat:抓 → 翻 → 发布的链路
  • obsidian-vault:把抓回来的文件归档到 Obsidian