代码收藏家技术教程 2024-11-15

Python爬取豆瓣电影评论

文章概述

本文将详细介绍如何使用Python编写一个简单的爬虫来抓取豆瓣电影《千与千寻》的用户评论。我们将利用requests库来发送HTTP请求，使用BeautifulSoup库来解析HTML文档，从而提取出每条评论的内容。

技术栈

Python: 编程语言

requests: HTTP客户端库

BeautifulSoup: HTML/XML解析库

环境准备

确保安装了以下Python库：

requests

beautifulsoup4

可通过pip安装：

pip install requests beautifulsoup4

代码详解

1. 导入库

import time
import requests
from bs4 import BeautifulSoup

2. 设置时间戳

t1 = time.time()

3. 循环抓取评论

for i in range(0, 200, 20):
    url = f'https://movie.douban.com/subject/1291561/comments?start={i}&limit=20&status=P&sort=new_score'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36 Edg/108.0.1462.54'
    }
    reps = requests.get(url, headers=headers)
    html = reps.text
    soup = BeautifulSoup(html, 'html.parser')
    spans = soup.find_all('span', class_='short')
    r = '>(.*?)<'
    for span in spans:
        print(span.string)