如何高效统计180万行数据中城市与犯罪类型的组合频次_技术教程

本文介绍使用pandas对大规模结构化文本数据（如含“~”分隔的多值字段）进行高效频次统计的方法，通过`str.split`和`explode`展开嵌套值，再用`groupby`聚合计数，避免手动维护哈希映射或冗长条件判断，兼顾可读性与性能。

处理百万级文本数据时，暴力循环+多重if判断不仅代码臃肿、易出错，且性能极差。针对本例中“City”和“Crime”字段均以波浪线（~）分隔多个取值的结构，Pandas 提供了简洁而高效的向量化解决方案。

核心思路是：先将多值字段拆分为列表，再“炸开”

（explode）为独立行，使每行仅表示一个城市–犯罪的原子组合，最后按双字段分组计数。整个流程无需预定义城市/犯罪列表，也无需哈希表手动管理索引，完全由Pandas底层优化实现。

以下是完整可运行示例（假设输入CSV文件为 cities_crimes.csv）：

import pandas as pd

# 1. 加载数据
df = pd.read_csv("cities_crimes.csv")

# 2. 拆分并展开 City 字段（支持空值与单值）
df["City"] = df["City"].str.split('~')
df = df.explode("City").dropna(subset=["City"])  # 去除空城市行

# 3. 拆分并展开 Crime 字段
df["Crime"] = df["Crime"].str.split('~')
df = df.explode("Crime").dropna(subset=["Crime"])  # 去除空犯罪类型

# 4. 按城市与犯罪类型分组计数
result = df.groupby(["City", "Crime"]).size().reset_index(name="count")

# 5. （可选）格式化为题目要求的字符串形式（如 "Mugging(2), Murder(1)"）
from collections import defaultdict
city_summary = defaultdict(list)
for _, row in result.iterrows():
    city_summary[row["City"]].append(f"{row['Crime']}({row['count']})")

# 转为DataFrame并排序输出
output_df = pd.DataFrame([
    {"City": city, "Crimes": ", ".join(crimes)}
    for city, crimes in sorted(city_summary.items())
])
print(output_df.to_string(index=False))

✅ 关键优势说明： explode() 是 Pandas 0.25+ 的原生操作，对180万行数据性能优异（底层C实现），远快于Python循环；自动处理缺失值与单值场景（str.split('~') 对不含~的字符串返回单元素列表）； groupby(...).size() 比 value_counts() 更直接，返回 Series 或 DataFrame 均可灵活后续处理；若需高频查询（如查 Paris 下 Murder 次数），可将结果转为 MultiIndex Series： city_crime_series = result.set_index(["City", "Crime"])["count"] print(city_crime_series.loc[("Paris", "Murder")]) # 输出 2

⚠️ 注意事项：