Python爬虫数据清洗流程_结构化处理方法解析【教程】

舞夢輝影 2025-12-30 00:00:00 次阅读

清洗应先确认必要性，再精准处理结构破坏内容；用dtypes和sample检查数据形态，repr暴露隐藏字符；str.extract比replace更安全；嵌套JSON优先用ast.literal_eval；缺失值需按语义填充。

清洗前先确认数据是否真的需要清洗

很多新手一拿到爬虫结果就急着写 dropna()、str.replace()，结果把有效空格、分隔符、嵌套 JSON 字段全干掉了。真正要清洗的，是那些破坏结构一致性的内容：比如 "¥1,299.00" 里的逗号和符号，"2025-03-15\xa0" 末尾的不可见空格，或者 "暂无数据" 这类占位字符串。

建议用 df.dtypes 和 df.sample(5).to_dict('records') 快速扫一眼字段类型和原始值形态；对文本列执行 df['price'].apply(repr) 能暴露隐藏字符。

用 `str.extract()` 比 `str.replace()` 更安全地提取数值

直接用 str.replace(r'[^0-9.]', '') 处理价格字段，会把 "1.2万" 变成 "1.2"（漏掉单位换算），也可能把 "2025.03.15" 误当成数字。更稳的做法是用正则精准捕获目标模式。

df['price'].str.extract(r'(\d+(?:\.\d+)?)\s*(?:元|¥)?') 提取带小数的价格数字
df['sales'].str.extract(r'(\d+(?:,\d+)*)\s*万') 提取“万”为单位的销量，并配合 .str.replace(',', '').astype(float) * 10000 转为整数
匹配失败时返回 NaN，比强行转类型抛 ValueError 更可控

处理嵌套结构：别用 `json.loads()` 硬解

爬到的字段里常有类似 '{"name": "iPhone", "color": "black"}' 这种 JSON 字符串，但直接 json.loads() 会因引号不规范、含 HTML 实体或缺失引号而报错 JSONDecodeError。

更鲁棒的路径是：

先用 df['spec'].str.startswith('{') & df['spec'].str.endswith('}') 过滤出大概率合法的行
用 ast.literal_eval() 替代 json.loads() —— 它能容忍单引号、无引号键（如 {name: "iPhone"}）等常见爬虫脏数据格式
再用 pandas.json_normalize() 展开字典，避免手写 pd.json_normalize(df['spec'].apply(ast.literal_eval)) 时遇到 None 报错，应加 errors='ignore'