代码收藏家技术教程 2025-02-19

字体加密反爬虫通用解决方案（Python 版本）

一、字体加密反爬虫原理剖析

1.字体混淆：许多网站为了防止爬虫轻易获取关键信息，采用字体加密技术。它们会自定义特殊字体，将网页上的数字、文字等内容用这些特殊字体显示。这些字体的字符形状与常规字体截然不同，即使爬虫抓取到了页面 HTML 代码中的文本内容，由于不认识这些特殊字体，也无法直接提取有价值的信息。例如，在一些电商价格页面，价格数字使用自定义字体，正常用户看到的是熟悉的阿拉伯数字，而爬虫获取到的可能是一堆乱码符号。

2.动态加载：字体文件通常是动态加载的，网页不会一开始就把所有字体信息暴露出来。当页面需要显示加密字体内容时，通过 JavaScript 代码在特定时刻从服务器请求字体文件，这使得爬虫难以预先知晓字体的具体样式和映射关系，进一步增加了破解难度。

二、识别字体加密的迹象

1.查看页面元素：在浏览器中打开目标网页，使用开发者工具（一般按 F12 键调出）查看可疑文本元素的样式。如果发现字体家族（font-family）指向一些不常见的自定义字体名称，如 “fangsong-custom” 之类，很可能就是采用了字体加密。同时，观察文本在页面上的显示效果，若数字或文字边缘不规整、与常见字体差异大，也是线索之一。

2.对比抓取结果与页面显示：用简单的爬虫代码尝试抓取网页文本，若抓取到的内容与肉眼在页面上看到的明显不符，比如抓取到的价格是乱码，而页面显示正常价格，那就基本能确定存在字体加密。

三、Python 破解字体加密的方法

1.下载字体文件：既然字体是动态加载的，首先要找到字体文件的下载链接。在开发者工具的 “网络（Network）” 标签下，刷新页面，筛选出字体文件类型（通常是.woff、.woff2 等格式）的请求，复制其 URL，使用 Python 的 requests 库下载字体文件到本地，例如：

import requests

font_url = "https://example.com/custom-font.woff" # 替换为实际字体文件 URL

response = requests.get(font_url)

with open('custom-font.woff', 'wb') as f:

f.write(response.content)

2.解析字体文件：借助第三方库 fontTools 来解析下载的字体文件，它可以帮助我们理解字体的内部结构，提取字符编码与字形的映射关系。安装 fontTools 后，代码示例如下：

from fontTools.ttLib import TTFont

font = TTFont('custom-font.woff')

glyph_order = font.getGlyphOrder()

# glyph_order 包含字体字符的编码信息，后续用于映射真实文本

3.建立映射关系：通过观察字体文件解析结果，结合页面上显示的文本，人工或借助一些图像识别辅助工具，建立起加密字符编码与真实字符的映射表。例如，发现字体文件中某个编码对应的字形在页面上总是显示为数字 “1”，就记录下来这个映射关系，存放在一个字典中：

mapping_dict = {}

# 假设经过分析，glyph1 对应的真实字符是 '1'，以此类推建立映射

mapping_dict['glyph1'] = '1'

4.替换加密文本：在抓取到网页文本后，根据建立的映射关系，将加密字符替换为真实字符。假设抓取到的文本包含加密字符，代码如下：

encrypted_text = "glyph1glyph2" # 假设的加密文本

for encrypted_char, real_char in mapping_dict.items():

encrypted_text = encrypted_text.replace(encrypted_char, real_char)

print(encrypted_text) # 输出替换后的真实文本