代码收藏家技术教程 2025-01-28

在Python中如何处理JSON数据中的特殊字符？

转义字符的处理
自动转义：在Python中，使用json.dumps()函数将Python对象转换为JSON字符串时，它会自动对特殊字符进行转义。例如，当字符串中包含双引号（"）、反斜杠（\）等特殊字符时，json.dumps()会按照JSON规范进行转义。
```
import json
data = {"text": "He said, \"Hello!\""}
json_str = json.dumps(data)
print(json_str) 
# 输出: {"text": "He said, \"Hello!\""}
```
手动转义：如果需要手动转义特殊字符，可以使用反斜杠（\）。例如，在构建一个包含特殊字符的字符串时，要确保它符合JSON规范。假设要在JSON字符串中表示一个包含双引号的文本，可以这样手动构建：
```
json_str = '{"text": "This is a \\"quoted\\", text"}'
try:
    data = json.loads(json_str)
    print(data)
except json.JSONDecodeError as e:
    print("解析错误:", e)
```
处理Unicode字符
编码与解码：Python的json模块默认支持Unicode字符。在处理包含Unicode字符的JSON数据时，不需要额外的步骤。例如，当将包含非 – ASCII字符（如中文）的Python对象序列化为JSON时，json.dumps()会正确处理。
```
import json
data = {"name": "张三"}
json_str = json.dumps(data)
print(json_str)
# 输出: {"name": "\u5f20\u4e09"}
json_data = json.loads(json_str)
print(json_data["name"])
# 输出: 张三
```

指定编码格式（可选）：如果需要指定特定的编码格式（如UTF – 8）来处理Unicode字符，可以在文件操作中使用。例如，当从文件中读取或写入JSON数据时：

import json
data = {"name": "张三"}
# 将Python对象写入文件，指定UTF - 8编码
with open("data.json", "w", encoding="utf-8") as f:
    json.dump(data, f)
# 从文件中读取JSON数据，指定UTF - 8编码
with open("data.json", "r", encoding="utf-8") as f:
    json_data = json.load(f)
    print(json_data)

处理HTML标签等特殊字符组合
过滤或转义：如果JSON数据包含HTML标签等可能导致安全问题或格式问题的特殊字符组合，可以使用第三方库如html（Python标准库的一部分）进行处理。例如，要将<和>转义，以防止在HTML上下文中的错误解析。
```
import json
import html
data = {"html_text": "<p>这是一段包含HTML标签的文本</p>"}
json_str = json.dumps(data)
escaped_str = html.escape(json_str)
print(escaped_str)
```

使用安全加载函数（可选）：如果JSON数据是从不可信的来源获取的，并且可能包含JavaScript代码等恶意内容，可以考虑使用json.JSONDecoder的object_pairs_hook参数来进行安全加载。例如，通过自定义一个函数来检查键值对，防止执行恶意代码。

import json
def safe_loads(json_str):
    def check_key_value_pairs(pairs):
        for key, value in pairs:
            # 检查键和值是否包含恶意代码等
            if "javascript:" in value.lower():
                raise ValueError("可能包含恶意代码")
        return dict(pairs)
    return json.loads(json_str, object_pairs_hook=check_key_value_pairs)
json_str = '{"link": "javascript:alert(\'恶意代码\')"}'
try:
    data = safe_loads(json_str)
    print(data)
except ValueError as e:
    print("错误:", e)

作者：若木胡

物联沃分享整理
物联沃-IOTWORD物联网 » 在Python中如何处理JSON数据中的特殊字符？