代码收藏家技术教程 2024-12-30

轻松解析 PDF 文档：深入了解 Python 的 pdfplumber 库

轻松解析 PDF 文档：深入了解 Python 的 `pdfplumber` 库

PDF 是一种常见的文件格式，广泛用于报告、文档、表单等领域。然而，如何高效解析 PDF 内容（尤其是文本和表格），一直是开发者面临的挑战。pdfplumber 是一个强大的 Python 库，专门用于从 PDF 文件中提取结构化数据，功能强大且易于使用。

在本文中，我们将详细介绍 pdfplumber 的功能和使用方法，并通过实际示例展示其在文本提取、表格解析等场景中的应用。

1. 什么是 pdfplumber？

pdfplumber 是基于 pdfminer.six 的 Python 库，它提供了更高级和友好的接口，适合处理以下任务：

提取 PDF 文档中的 纯文本 和图片。

精确解析 表格数据。

提供对 PDF 页面布局的细粒度控制。

2. 安装 pdfplumber

安装 pdfplumber 非常简单，只需运行以下命令：

pip install pdfplumber

同时，它依赖 pillow 和 pdfminer.six，安装过程中会自动处理。

3. 基本功能介绍

(1) 打开 PDF 文件

使用 pdfplumber.open() 可以轻松加载 PDF 文件。以下是简单的代码示例：

import pdfplumber

# 打开 PDF 文件
with pdfplumber.open("example.pdf") as pdf:
    print(f"PDF 文档包含 {len(pdf.pages)} 页")

(2) 提取页面中的文本

可以按页提取 PDF 的纯文本：

# 提取第一页的文本
with pdfplumber.open("example.pdf") as pdf:
    page = pdf.pages[0]
    text = page.extract_text()
    print("第一页文本内容：")
    print(text)

(3) 提取表格数据

如果 PDF 中包含表格，pdfplumber 可以将其解析为结构化数据：

with pdfplumber.open("example.pdf") as pdf:
    page = pdf.pages[0]
    table = page.extract_table()
    print("表格内容：")
    for row in table:
        print(row)

4. 高级功能与应用

(1) 处理特定页面或区域

pdfplumber 提供了对页面布局的精确控制，可以提取特定区域的内容。例如，提取页面顶部的一部分文本：

# 提取特定区域的文本 (x0, y0, x1, y1)
with pdfplumber.open("example.pdf") as pdf:
    page = pdf.pages[0]
    cropped = page.within_bbox((0, 0, 500, 100))
    text = cropped.extract_text()
    print("页面顶部的文本：")
    print(text)

(2) 提取图像

除了文本和表格，pdfplumber 还支持提取嵌入的图片：

with pdfplumber.open("example.pdf") as pdf:
    page = pdf.pages[0]
    for img in page.images:
        print(f"图片信息：{img}")

(3) 导出页面的像素级图片

可以将页面导出为图片，方便进一步处理：

from PIL import Image

with pdfplumber.open("example.pdf") as pdf:
    page = pdf.pages[0]
    page_image = page.to_image(resolution=150)  # 分辨率 150 DPI
    page_image.save("page_image.png")

(4) 自定义表格解析

有时自动表格解析可能不准确，您可以通过手动调整表格边界来解析表格：

with pdfplumber.open("example.pdf") as pdf:
    page = pdf.pages[0]
    # 定义表格区域 (x0, y0, x1, y1)
    table = page.extract_table({
        "vertical_strategy": "lines",
        "horizontal_strategy": "lines",
        "intersection_x_tolerance": 5,
        "intersection_y_tolerance": 5,
    })
    print("手动解析表格：")
    for row in table:
        print(row)

5. 示例应用场景

(1) 批量提取 PDF 文本

import os
import pdfplumber

# 批量处理多个 PDF 文件
pdf_dir = "pdf_folder"
output_dir = "text_output"
os.makedirs(output_dir, exist_ok=True)

for file_name in os.listdir(pdf_dir):
    if file_name.endswith(".pdf"):
        with pdfplumber.open(os.path.join(pdf_dir, file_name)) as pdf:
            all_text = ""
            for page in pdf.pages:
                all_text += page.extract_text()
        with open(os.path.join(output_dir, f"{file_name}.txt"), "w", encoding="utf-8") as f:
            f.write(all_text)

(2) 从发票中提取关键信息

import pdfplumber

# 提取发票中的特定信息
with pdfplumber.open("invoice.pdf") as pdf:
    page = pdf.pages[0]
    text = page.extract_text()
    if "Invoice Number:" in text:
        invoice_number = text.split("Invoice Number:")[1].split("\n")[0].strip()
        print(f"发票号：{invoice_number}")

6. 注意事项与常见问题

(1) 表格解析不准确

原因：表格线条不清晰或页面布局复杂。

解决方法：

手动调整表格边界或策略（如 explicit_bbox 和 snap_tolerance）。

使用其他表格解析工具（如 Tabula）结合 pdfplumber。

(2) 无法提取嵌套文本

原因：某些 PDF 文档采用复杂的嵌套格式。

解决方法：结合 pdfminer 或导出页面为图片后用 OCR 工具（如 pytesseract）。

7. 实践与扩展

在实际应用中，pdfplumber 通常结合其他 Python 库（如 pandas、numpy 和 matplotlib）使用，构建完整的数据处理和分析流程。以下是一些扩展应用场景的示例：

(1) 文档处理自动化

使用 pdfplumber 批量提取合同、发票或报告中的关键数据。

结合 pandas 将提取的数据结构化存储，方便进一步分析。

import pdfplumber
import pandas as pd

# 批量提取发票编号和日期
data = []
with pdfplumber.open("invoices.pdf") as pdf:
    for page in pdf.pages:
        text = page.extract_text()
        if "Invoice Number:" in text and "Date:" in text:
            invoice_number = text.split("Invoice Number:")[1].split("\n")[0].strip()
            date = text.split("Date:")[1].split("\n")[0].strip()
            data.append({"Invoice Number": invoice_number, "Date": date})

# 转为 DataFrame
df = pd.DataFrame(data)
print(df)
df.to_csv("invoices.csv", index=False)

(2) 表格数据清洗与可视化

使用 pdfplumber 提取 PDF 表格后，可结合 matplotlib 或 seaborn 进行数据可视化。

import pdfplumber
import pandas as pd
import matplotlib.pyplot as plt

# 提取表格并清洗数据
with pdfplumber.open("report.pdf") as pdf:
    table = pdf.pages[0].extract_table()
    df = pd.DataFrame(table[1:], columns=table[0])

# 转换列类型
df['Value'] = pd.to_numeric(df['Value'])

# 数据可视化
df.plot(x='Category', y='Value', kind='bar', legend=False, title="Report Analysis")
plt.xlabel("Category")
plt.ylabel("Value")
plt.show()

(3) OCR 增强

对于扫描版 PDF 或图片型 PDF，结合 pytesseract 进行 OCR 处理，弥补纯文字解析的不足。

import pdfplumber
from PIL import Image
import pytesseract

# 使用 pdfplumber 提取图像
with pdfplumber.open("scanned.pdf") as pdf:
    for page in pdf.pages:
        page_image = page.to_image()
        page_image.save("temp_page.png")
        
        # OCR 提取文字
        text = pytesseract.image_to_string(Image.open("temp_page.png"))
        print("OCR 提取文本：")
        print(text)