Python pickle模块的使用指南_Python

python pickle 模块详解

python 的 pickle 模块是一个用于序列化和反序列化 python 对象结构的强大工具。

它可以将 python 对象转换为字节流，以便保存到文件或通过网络传输，并能在需要时重新恢复为原始对象。

以下是 pickle 模块的核心功能及代码示例。

基本序列化与反序列化

pickle 模块的核心功能是 dump() 和 load() 方法，分别用于序列化和反序列化对象。

import pickle

# 定义一个示例对象
data = {
    'name': 'alice',
    'age': 30,
    'skills': ['python', 'data analysis']
}

# 序列化对象到文件
with open('data.pkl', 'wb') as file:
    pickle.dump(data, file)

# 从文件反序列化对象
with open('data.pkl', 'rb') as file:
    loaded_data = pickle.load(file)

print(loaded_data)  # 输出: {'name': 'alice', 'age': 30, 'skills': ['python', 'data analysis']}

直接序列化为字节流

除了保存到文件，pickle 还可以将对象序列化为字节流，适用于网络传输或内存存储。

import pickle

# 序列化为字节流
data_bytes = pickle.dumps(data)
print(data_bytes)  # 输出: b'\x80\x04\x95...'

# 从字节流反序列化
loaded_data = pickle.loads(data_bytes)
print(loaded_data)  # 输出原始对象

自定义对象的序列化

pickle 支持序列化自定义类的实例，但要求类定义在反序列化时可用。

import pickle

class person:
    def __init__(self, name, age):
        self.name = name
        self.age = age

    def __repr__(self):
        return f"person(name={self.name}, age={self.age})"

# 创建自定义对象
person = person('bob', 25)

# 序列化
with open('person.pkl', 'wb') as file:
    pickle.dump(person, file)

# 反序列化
with open('person.pkl', 'rb') as file:
    loaded_person = pickle.load(file)

print(loaded_person)  # 输出: person(name=bob, age=25)

安全注意事项

pickle 反序列化可能存在安全风险，因为恶意构造的字节流可能执行任意代码。

建议仅在受信任的环境中使用 pickle。

# 避免反序列化不可信数据
malicious_data = b"cos\nsystem\n(s'rm -rf /'\ntr."  # 模拟恶意数据
try:
    pickle.loads(malicious_data)  # 危险操作！
except exception as e:
    print(f"安全警告: {e}")

高级用法：协议版本

pickle 支持多种协议版本，不同版本在效率和兼容性上有所差异。

# 使用最高效的协议版本（python 3.8+默认使用协议4）
data = {'key': 'value'}

# 指定协议版本
high_protocol_bytes = pickle.dumps(data, protocol=pickle.highest_protocol)
print(f"协议版本: {pickle.highest_protocol}")  # 输出: 5 (python 3.8+)

实际应用场景

pickle 适用于以下场景：

保存机器学习模型（如 scikit-learn 模型的持久化）。
缓存复杂计算结果。
跨进程通信（需结合 multiprocessing 模块）。

# 示例：保存和加载机器学习模型
from sklearn.linear_model import linearregression
import numpy as np

# 训练一个简单模型
x = np.array([[1], [2], [3]])
y = np.array([2, 4, 6])
model = linearregression().fit(x, y)

# 保存模型
with open('model.pkl', 'wb') as file:
    pickle.dump(model, file)

# 加载模型并预测
with open('model.pkl', 'rb') as file:
    loaded_model = pickle.load(file)
print(loaded_model.predict([[4]]))  # 输出: [8.]

总结

pickle 模块是 python 中强大的序列化工具，适用于对象持久化、数据传输等场景。

使用时需注意安全性问题，并优先选择高效的协议版本。通过合理利用 pickle，可以简化复杂对象的存储和恢复流程。

以上为个人经验，希望能给大家一个参考，也希望大家多多支持代码网。

5 种使用Python自动化处理PDF的实用方法介绍

自动化处理 pdf 文件已成为减少重复工作、提升工作效率的重要手段。对于需要处理报表、合同或发票的开发者来说，手动操作往往耗时且容易出错。python 因其简单... [阅读全文]

Python打包成exe常用的四种方法小结

将python脚本打包成可执行文件（.exe）是分发python应用程序的常见方式。以下是几种常用的方法：一.pyinstaller1pyinstaller 是... [阅读全文]

利用Python操作Word文档页码的实际应用

需求：一次性处理24个文档的页码。文档详情：1、每个word文档包含800页左右，每一页包含一个标题和一张图片。2、由于图片有横排也有竖排，因此，每页文档都进行... [阅读全文]

从基础到高级详解Python与关系型数据库交互的完全指南

引言在当今数据驱动的开发环境中，与关系型数据库进行高效交互已成为python开发者必备的核心技能。无论是web应用、数据分析平台还是企业级系统，都需要与... [阅读全文]

Python重试库Retrying和Tenacity的实现

简介retrying 是一个通用重试库，用于简化任何需要重试的任务，已不再维护，功能：通用装饰器指定停止条件，如重试次数指定等待条件，如重试间的指数回退休眠自定... [阅读全文]

深入详解Python解析带有命名空间XML的多种方法

引言xml命名空间是xml技术中不可或缺的重要组成部分，它通过提供元素和属性的唯一标识，有效避免了不同xml词汇表之间的命名冲突。在现代xml文... [阅读全文]


验证码：

验证码：

Python pickle模块的使用指南

2025年09月27日 • Python •我要评论