Python类与对象序列化_pickle应用解析【教程】

pickle是Python对象序列化为二进制字节流的机制,依赖类定义存在,不支持lambda、局部类、文件句柄等;反序列化不可信数据有安全风险,推荐json/msgpack跨语言、dill/joblib替代。

Python 的 pickle 模块是实现类与对象序列化的最直接方式,但它不是万能的“黑箱”,用对了省时省力,用错了会报错、丢数据甚至引发安全风险。

什么是 pickle:对象到字节流的“快照”

pickle 不是把对象转成 JSON 那样的文本格式,而是将 Python 对象的状态(包括类型、属性值、引用关系)原样封存为二进制字节流。它专为 Python 生态设计,反序列化时必须能重新导入原始类定义。

例如有一个简单类:

class Person:
  def __init__(self, name, age):
    self.name = name
    self.age = age

创建实例 p = Person("Alice", 30) 后,用 pickle.dumps(p) 得到一串字节;再用 pickle.loads(字节) 就能还原出完全相同的对象(前提是运行环境中已定义 Person 类)。

常见踩坑点:哪些对象不能 pickle?

pickle 无法处理以下几类内容,遇到就会抛 AttributeErrorPicklingError

  • lambda 函数、嵌套函数、未命名的局部函数
  • 模块顶层以外定义的类(比如在函数内部定义的 class)
  • 打开的文件对象、网络连接、数据库游标等运行时资源
  • 某些 C 扩展类型(如 NumPy 数组需用 numpy.save 更稳妥)

如果类中包含不可 pickle 的属性(如临时缓存或 socket),可重写 __getstate__ 方法,返回一个剔除这些字段的字典。

安全警告:不要 unpickle 不可信的数据

pickle 反序列化过程会执行任意代码(如调用 __reduce__ 返回的构造逻辑),恶意构造的字节流可能删除文件、启动进程。生产环境绝对禁止用 pickle.loads() 解析来自用户、网络或外部文件的输入。

替代方案推荐:

  • 需要跨语言 → 用 json(仅支持基础类型)或 msgpack
  • 需保留 Python 类型且可信环境 → pickle 仍是最简方案
  • 大数据科学场景 → dill(支持更多对象类型)或 joblib(针对 numpy/scikit-learn 优化)

实用技巧:保存/加载类实例到文件

最常用模式是搭配 open(..., "wb")open(..., "rb")

# 保存
with open("person.pkl", "wb") as f:
  pickle.dump(p, f)

# 加载
with open("person.pkl", "rb") as f:
  p2 = pickle.load(f)

注意:多个对象可连续 pickle.dump() 到同一文件,读取时也需按顺序多次 pickle.load();若想一次存多个,建议先放进列表再 dump。

不复杂但容易忽略:版本兼容性。不同 Python 版本的 pickle 协议默认不同(如 Python 3.8 默认 protocol=4),低版本可能无法加载高版本生成的文件。显式指定协议可提升兼容性:pickle.dump(obj, f, protocol=4)