代码收藏家技术教程 2025-01-30

Python 爬虫实战：攻克百度文库，批量下载优质文档资源

一、引言

二、技术选型

三、分析百度文库页面结构

四、数据爬取

（一）发送请求获取页面内容

（二）解析页面获取关键信息

（三）下载文档内容

五、批量下载

六、处理复杂情况

（一）处理加密文档

（二）处理付费文档

七、总结与注意事项

一、引言

百度文库作为一个知识资源丰富的平台，涵盖了各种领域的文档资料。在学习、工作和研究过程中，我们常常希望获取其中的优质文档。虽然百度文库提供了在线查看和单篇下载的功能，但对于需要大量文档的情况，手动逐个下载效率极低。通过编写 Python 爬虫程序，我们可以实现批量下载百度文库文档，提高获取资源的效率。不过，需要注意的是，未经授权爬取网站数据可能涉及侵犯版权和违反网站使用条款等法律问题，请仅将本教程用于学习目的，并遵守相关法律法规。

二、技术选型

网络请求：requests 库用于发送 HTTP 请求，获取网页内容。它提供了简洁易用的 API，能够方便地处理各种请求类型，如 GET、POST 等。

网页解析：BeautifulSoup 库用于解析 HTML 和 XML 文档。它可以轻松定位和提取文档中的特定元素，帮助我们从百度文库页面中找到文档的关键信息。

文档处理：对于不同格式的文档（如 DOCX、PPTX、XLSX 等），我们可能需要使用相应的库进行处理和保存。例如，docx 库用于处理 Word 文档，pptx 库用于处理 PowerPoint 文档，openpyxl 库用于处理 Excel 文档。

其他工具：re 模块用于正则表达式操作，帮助我们从复杂的文本中提取特定模式的信息；os 模块用于操作系统相关的操作，如创建文件夹、文件路径管理等。

三、分析百度文库页面结构

在编写爬虫之前，我们需要深入了解百度文库的页面结构。打开一个百度文库文档页面，通过浏览器的开发者工具（如 Chrome 浏览器按 F12 键）进行分析。

百度文库的文档页面包含多个部分，其中与我们下载文档相关的关键信息通常包括：

文档标题：用于命名下载后的文档。

文档格式：如 DOC、PPT、XLS 等，决定了我们后续使用何种库进行处理。

文档内容数据：这是我们真正要获取的部分，但它的获取方式因文档格式而异。有些文档内容可能直接包含在页面的 HTML 中，而对于一些特殊格式，可能需要通过特定的 API 或加密方式获取。

例如，对于一些简单的文本类文档，文档内容可能包含在特定的 <div> 标签内，我们可以通过分析标签的属性和层级关系来定位和提取内容。

四、数据爬取

（一）发送请求获取页面内容

import requests


def get_doc_page(url):
    headers = {
        'User - Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    try:
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            return response.text
        else:
            print(f"请求失败，状态码: {response.status_code}")
            return None
    except requests.RequestException as e:
        print(f"请求发生异常: {e}")
        return None

代码解释

定义函数 get_doc_page：该函数接受一个参数 url，即百度文库文档的链接。
设置请求头 headers：模拟浏览器发送请求，防止被网站识别为爬虫而拒绝访问。这里使用了常见的 Chrome 浏览器 User – Agent。
发送 GET 请求：使用 requests.get 方法发送请求到指定的 URL，并将响应结果存储在 response 变量中。
检查响应状态码：如果状态码为 200，表示请求成功，返回页面的文本内容；否则打印错误信息并返回 None。
异常处理：捕获 requests.RequestException 异常，打印异常信息并返回 None。

（二）解析页面获取关键信息

from bs4 import BeautifulSoup
import re


def parse_doc_page(html_content):
    soup = BeautifulSoup(html_content, 'html.parser')

    # 获取文档标题
    title = soup.find('h1', class_='doc-title').text.strip()

    # 获取文档格式
    doc_format = re.search(r'\.(\w+)$', soup.find('a', class_='down').get('href')).group(1)

    return title, doc_format

代码解释

定义函数 parse_doc_page：该函数接受一个参数 html_content，即上一步获取到的百度文库文档页面的 HTML 内容。
创建 BeautifulSoup 对象：使用 html.parser 解析器解析 HTML 内容。
获取文档标题：通过查找 class 为 doc - title 的 <h1> 标签，提取文档的标题，并使用 strip 方法去除两端的空白字符。
获取文档格式：通过查找 class 为 down 的 <a> 标签，获取其 href 属性值，然后使用正则表达式 r'\.(\w+)$' 匹配并提取文档格式后缀（如 DOC、PPT 等）。
返回关键信息：返回包含文档标题和文档格式的元组。

（三）下载文档内容

不同格式的文档下载方式有所不同。以下以文本类文档为例，介绍一种简单的下载方法。对于其他格式的文档，可能需要更复杂的处理方式。

def download_text_doc(url, title, doc_format):
    html_content = get_doc_page(url)
    if html_content:
        soup = BeautifulSoup(html_content, 'html.parser')
        # 假设文本内容包含在 class 为 'doc - content' 的 div 标签内
        content_div = soup.find('div', class_='doc - content')
        if content_div:
            content = content_div.get_text()
            file_name = f"{title}.{doc_format}"
            with open(file_name, 'w', encoding='utf - 8') as f:
                f.write(content)
            print(f"已下载文档: {file_name}")

代码解释

定义函数 download_text_doc：该函数接受三个参数，url 为文档链接，title 为文档标题，doc_format 为文档格式。
获取页面内容：调用 get_doc_page 函数获取文档页面的 HTML 内容。
解析页面获取内容：使用 BeautifulSoup 解析 HTML 内容，查找 class 为 doc - content 的 <div> 标签，获取文档的文本内容。
保存文档：根据文档标题和格式生成文件名，使用 open 函数以写入模式打开文件，并将文档内容写入文件。
打印提示信息：打印已下载文档的文件名。

五、批量下载

为了实现批量下载百度文库文档，我们可以将上述功能整合到一个循环中，遍历文档链接列表。

if __name__ == "__main__":
    doc_urls = [
        "https://wenku.baidu.com/view/xxxxxxxx",
        "https://wenku.baidu.com/view/yyyyyyyy"
    ]  # 替换为实际的百度文库文档链接列表

    for url in doc_urls:
        html_content = get_doc_page(url)
        if html_content:
            title, doc_format = parse_doc_page(html_content)
            if doc_format.lower() in ['txt', 'html']:  # 这里仅处理文本类文档，可根据需求扩展
                download_text_doc(url, title, doc_format)

代码解释

主程序入口：if __name__ == "__main__": 确保代码在作为主程序运行时执行以下内容。
定义文档链接列表：创建一个包含多个百度文库文档链接的列表 doc_urls，请将其中的链接替换为实际需要下载的文档链接。
遍历链接列表：使用 for 循环遍历 doc_urls 列表中的每个链接。
获取页面内容：对于每个链接，调用 get_doc_page 函数获取文档页面的 HTML 内容。
解析页面获取关键信息：如果成功获取到页面内容，调用 parse_doc_page 函数解析页面，获取文档标题和文档格式。
下载文档：检查文档格式，如果是文本类格式（如 TXT、HTML），调用 download_text_doc 函数下载文档。这里仅处理了简单的文本类文档，实际应用中可根据不同格式扩展下载逻辑。