pdf

数据 已审计 @anthropics
信任分
94/100
兼容 Agent
1
许可证
Proprietary. LICENSE.txt has complete terms
速查档案 只列事实:领域、Agent、信任分、作者、原文章节。装与不装请看下方作者解读。
领域
数据
兼容 Agent
Claude Code
信任分
94 / 100 · 已通过审计
作者 / 版本 / 许可
@anthropics · Proprietary. LICENSE.txt has complete terms
安装命令数
1 条

需要注意: 未限定 allowed-tools,默认拥有全部工具权限。

想读作者英文原文? ↓ 滚到正文区切换 · 在 GitHub 查看 ↗

解读由编辑根据原文凝练而成,命令、链接、术语均与作者原文一致;想看完整论述请切到右侧

设计思路

pdf 是 Anthropic 出品的 PDF 处理工具箱——不是单一功能,而是把 Python 三件套(pypdf / pdfplumber / reportlab)和命令行三件套(qpdf / pdftk / poppler-utils)的最佳搭配整理成可索引的速查。每种任务都给出最合适的工具,避免「都用 pypdf」或「都用 pdfplumber」之类的单兵作战。

Quick Reference

任务 最佳工具 命令 / 代码
合并 PDF pypdf writer.add_page(page)
拆分 PDF pypdf 一页一个文件
抽文本 pdfplumber page.extract_text()
抽表格 pdfplumber page.extract_tables()
创建 PDF reportlab Canvas 或 Platypus
命令行合并 qpdf qpdf --empty --pages ...
扫描件 OCR pytesseract pdf2image 再 OCR
填表 pdf-lib / pypdf FORMS.md

常见任务示例

抽扫描件文本(OCR)——先 pdf2image 把 PDF 转图,再 pytesseract 逐页 OCR,拼接结果。

加水印——pypdfpage.merge_page(watermark) 把水印 PDF 第一页合并到目标每页。

抽图——poppler-utils 的 pdfimages -j input.pdf output_prefix,输出 output_prefix-000.jpg 等。

密码保护——pypdfwriter.encrypt(user_password, owner_password)

qpdf 命令实例

  • 拆页:qpdf input.pdf --pages . 1-5 -- pages1-5.pdf
  • 旋转:qpdf input.pdf output.pdf --rotate=+90:1
  • 解密:qpdf --password=mypassword --decrypt encrypted.pdf decrypted.pdf

适合谁

  • 后端要批量处理 PDF 的工程师(合并 / 拆分 / 加水印 / 加密)
  • 数据团队要从 PDF 里抽文本和表格的人
  • 把扫描件转可搜索文本的归档项目

何时不该用

  • markdown→PDF 输出——用 make-pdf 直接更简单
  • 重视觉的 PDF 设计(海报)——用 canvas-design

配套

make-pdf(输出端)、docx / pptx / xlsx(其它办公格式)、scrape(先抓再 PDF 化)。