Python实现微信公众号文章图片下载攻略

一、核心技术实现方案

1. 网页解析与参数破解

python
import requests
from bs4 import BeautifulSoup
import re
import os
from urllib.parse import urlparse, unquote

def decode_weixin_url(encoded_url):
    """破解微信图片URL编码规则"""
    decoded = unquote(encoded_url)
    # 替换webp格式参数为jpg（关键步骤）[2](@ref)
    if 'tp=webp' in decoded:
        return decoded.replace('tp=webp', 'tp=jpg').replace('wxfrom=5', 'wxfrom=10')
    return decoded

def extract_images(article_url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    
    # 获取网页源代码
    response = requests.get(article_url, headers=headers)
    html = response.text
    
    # 提取封面原图（1440px级别）[2](@ref)
    cover_pattern = re.compile(r'msg_cdn_url = "(.*?)"')
    cover_url = cover_pattern.search(html).group(1) if cover_pattern.search(html) else None
    
    # 提取正文图片并破解参数
    soup = BeautifulSoup(html, 'html.parser')
    content_images = []
    for img in soup.find_all('img', class_=re.compile('rich_pages*')):
        data_src = img.get('data-src') or img.get('src')
        if data_src and 'mmbiz.qpic.cn' in data_src:
            decoded_url = decode_weixin_url(data_src)
            content_images.append(decoded_url)
    
    return {'cover': cover_url, 'content': content_images}

2. 高清图片下载器

python
def download_hd_images(urls, save_dir='weixin_images'):
    os.makedirs(save_dir, exist_ok=True)
    
    def download_single(url):
        try:
            # 构造高清请求头
            headers = {
                'Referer': 'https://mp.weixin.qq.com/',
                'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
            }
            response = requests.get(url, headers=headers, stream=True)
            
            # 生成文件名
            parsed = urlparse(url)
            filename = f"{parsed.path.split('/')[-1].split('?')[0]}.jpg"
            
            # 保存图片
            with open(os.path.join(save_dir, filename), 'wb') as f:
                for chunk in response.iter_content(chunk_size=8192):
                    f.write(chunk)
            return True
        except Exception as e:
            print(f"下载失败: {url} | 错误: {str(e)}")
            return False

    # 批量下载
    results = []
    if urls['cover']:
        results.append(('封面图', urls['cover'], download_single(urls['cover'])))
    
    for idx, img_url in enumerate(urls['content'], 1):
        results.append((f'内容图{idx}', img_url, download_single(img_url)))
    
    return results

3. 图像质量增强（可选）

python
from PIL import Image
import io

def enhance_image_quality(image_path):
    """使用双三次插值算法提升画质"""
    with Image.open(image_path) as img:
        # 计算目标尺寸（如检测到小图则放大）
        if img.width < 1000:
            new_size = (int(img.width*1.5), int(img.height*1.5))
            resized_img = img.resize(new_size, Image.Resampling.BICUBIC)
            
            # 锐化处理
            enhancer = ImageEnhance.Sharpness(resized_img)
            enhanced_img = enhancer.enhance(1.5)
            
            enhanced_img.save(image_path, quality=95, subsampling=0)

二、完整调用示例

python
if __name__ == "__main__":
    # 目标文章URL（示例）
    article_url = "https://mp.weixin.qq.com/s/xxxxxxxxxx"
    
    # 步骤1：提取图片URL
    image_urls = extract_images(article_url)
    print(f"发现封面图: {image_urls['cover']}")
    print(f"发现内容图: {len(image_urls['content'])}张")
    
    # 步骤2：下载高清图片
    results = download_hd_images(image_urls)
    
    # 步骤3：质量增强（可选）
    for file in os.listdir('weixin_images'):
        if file.endswith('.jpg'):
            enhance_image_quality(os.path.join('weixin_images', file))
    
    # 输出结果
    success_count = sum([1 for r in results if r[2]])
    print(f"成功下载{success_count}/{len(results)}张高清图片")