C++怎么分割字符串 C++ split功能的三种实现方式【片段】

最轻量用std::stringstream(仅空白分隔),最可控用手写find+substr,复杂模式用std::regex(开销大),推荐Boost的split(简洁可靠)。

std::stringstream 按空格分割最轻量

如果分隔符是空白字符(空格、制表符、换行),std::stringstream 是最直接的选择,无需额外依赖,且不修改原字符串。

  • 只按空白切分,不能指定任意分隔符(比如 ",""|"
  • 连续多个空格会被合并为一次分隔,无法保留空字段
  • 示例:
    std::string s = "a  b   c";
    std::stringstream ss(s);
    std::vector v;
    std::string token;
    while (ss >> token) v.push_back(token); // 得到 {"a", "b", "c"}

std::string::find + substr 手动切分最可控

这是实现任意单字符或固定子串分隔的通用做法,逻辑清晰、无额外依赖、可精确控制边界行为(比如是否保留空项)。

  • 对单字符分隔符(如 ','),用 find 循环查找位置,配合 substr 提取
  • 若要支持多字符分隔符(如 "::"),需用 find(str, pos) 并每次跳过分隔符长度
  • 注意处理末尾无分隔符时的最后一次提取,以及首尾空字段是否忽略
  • 示例(逗号分隔):
    std::string s = "a,,b,c";
    std::vector v;
    size_t start = 0, end = 0;
    while ((end = s.find(',', start)) != std::string::npos) {
        v.push_back(s.substr(start, end - start));
        start = end + 1;
    }
    v.push_back(s.substr(start)); // 尾部剩余部分

std::regex 分割复杂模式但开销大

当分隔逻辑涉及正则(如“一个或多个空白”“非字母数字字符”“带转义的分隔符”),std::regex 是唯一标准库方案,但代价明显。

  • 构造 std::regex 对象有初始化开销,不适合高频调用场景
  • 不支持直接获取“被匹配的分隔符”,需用 std::sregex_iterator 遍历匹配间隙,或改用 std::regex_token_iterator-1 索引取非匹配段
  • 跨平台兼容性注意:MSVC 对 std::regex 的 UTF-8 支持较弱,GCC/Clang 更稳定
  • 示例(按空白或多逗号切):
    std::string s = "a,  b,,,c";
    std::regex re("\\s+|,+");
    std::sregex_token_iterator it(s.begin(), s.end(), re, -1);
    std::vector v;
    while (it != std::sregex_token_iterator{}) {
        if (!it->str().empty()) v.push_back(it->str());
        ++it;
    }

别忘了 boost::algorithm::split 这个实用替代

虽然不属于标准库,但 boost::algorithm::split 是 C++ 社区最常用、最可靠的字符串切分工具,接口简洁、语义明确、性能好。

  • 支持多种分隔策略:boost::algorithm::token_compress_on(压缩连续分隔符)、token_compress_off(保留空字段)
  • 可传入任意二元谓词作为分隔判断逻辑,比正则更轻量、比手写更安全
  • 注意链接时需确保 boost_system 和编译器版本兼容,头文件只需 #include
  • 示例:
    std::string s = "a,,b,c";
    std::vector v;
    boost::algorithm::split(v, s, boost::is_any_of(","), boost::token_compress_off);

实际项目中,优先用 std::stringstream 处理空白分隔;需要精确控制时手写 find + substr;正则仅用于真正复杂的分隔逻辑;而引入 Boost 的项目,几乎没理由不用 boost::algorithm::split。空字段处理、边界截断、内存局部性这些细节,往往比选哪种方式更重要。