Python字符串编码教程_UTF8Unicode原理解析

舞夢輝影 2026-01-08 00:00:00 次阅读

Python字符串编码核心是区分Unicode字符串（str）与字节序列（bytes），UTF-8仅为一种编码规则；Unicode为字符分配唯*点，UTF-8按规则将其转为1–4字节，encode/decode需匹配编码格式，文件操作须显式指定encoding。

Python中字符串编码问题的核心在于区分Unicode字符串和字节序列（bytes），UTF-8只是其中一种将Unicode字符映射为字节的规则。理解这一点，就抓住了乱码、解码错误、文件读写异常等问题的根源。

Unicode为世界上每种语言的每个字符分配一个唯一的编号（称为码点，如汉字“中”的码点是U+4E2D）。它不规定这个编号怎么存成文件或网络传输的字节——那是编码方案（如UTF-8、UTF-16）的事。

Python 3中，str类型默认就是Unicode字符串，你写的 "你好" 在内存里是以Unicode码点形式存在的，不是UTF-8字节。

UTF-8用1–4个字节表示一个Unicode码点，原则是：ASCII字符（U+0000–U+007F）用1个字节原样保存；其余字符按规则扩展。这使得UTF-8兼容ASCII，也节省空间。

例如：

从str转bytes叫编码（指定目标编码格式），从bytes转str叫解码（必须用当初编码时相同的格式，否则报错或乱码）。

常见错误场景：读取UTF-8保存的中文文件却用open(..., encoding="gbk")，或把网络收到的UTF-8响应字节直接当str用而忘记.decode("utf-8")。

Python不会自动猜编码。打开文件时务必用encoding参数；终端输出依赖系统环境，但代码中应确保传给print()的是str（Unicode），而非未解码的bytes。

Windows命令行默认GBK，可能无法正常显示UTF-8输出，可在脚本开头加：import sys; sys.stdout.reconfigure(encoding="utf-8")（Python 3.7+）。

上一篇文章

JSTL XML标签库怎么用 c:import和x:pars

2026-01-08 1009次阅读

下一篇文章

2026-01-08 1458次阅读