计算坐标列表间的距离矩阵（NumPy向量化实现）

聖光之護 2025-12-27 00:00:00 次阅读

使用scipy的`cdist`函数可高效、向量化地计算任意坐标点集的两两欧氏距离矩阵，避免显式循环，兼顾简洁性与性能。

在科学计算和机器学习中，经常需要对一组二维（或高维）坐标点快速构建完整的成对距离矩阵（例如用于聚类、图构建或核方法）。虽然NumPy本身不直接提供距离矩阵函数，但借助scipy.spatial.distance.cdist——一个专为向量化计算设计的高性能工具，可在一行代码内完*部计算，且底层基于优化的C实现，远快于Python循环或np.linalg.norm嵌套广播。

以下是一个完整示例：

import numpy as np
from scipy.spatial.distance import cdist

# 原始坐标列表（支持任意维度）
l_coords = [(1, 2), (1.1, 2.2), (1.05, 1.9)]

# 转为 NumPy 数组（必需：cdist 要求输入为 (n_samples, n_features) 形状）
coords = np.array(l_coords)

# 计算对称距离矩阵（默认使用欧氏距离）
dist_matrix = cdist(coords, coords)

print(dist_matrix)
# 输出：
# [[0.         0.2236068  0.1118034 ]
#  [0.2236068  0.         0.30413813]
#  [0.1118034  0.30413813 0.        ]]

✅ 关键说明：

cdist(X, Y) 返回形状为 (len(X), len(Y)) 的矩阵；当 X == Y 时，结果为对称矩阵，主对角线全为0（点到自身的距离）。
支持多种度量方式（如 'manhattan', 'cosine', 'chebyshev'），通过 metric= 参数指定。
若仅需上三角/下三角部分（如避免重复计算），可后续用 np.triu(dist_matrix, k=1) 提取非对角元素。

⚠️ 注意事项：

输入必须是二维数组（即使是一维坐标，也要确保 shape 为 (n, 1)）；若传入一维列表或错误形状，会触发 ValueError。
对于超大规模点集（如 >10⁵ 点），内存可能成为瓶颈（距离矩阵占 O(n²) 空间），此时应考虑近似算法或分块计算。
若项目已依赖 scikit-learn，也可使用 sklearn.metrics.pairwise_distances，其接口一致且支持稀疏输入，但 cdist 通常更轻量、启动更快。

综上，scipy.spatial.distance.cdist 是计算坐标距离矩阵的首选向量化方案：简洁、可靠、高效，是NumPy生态中不可或缺的“隐形加速器”。