JavaScript字符串操作_Unicode与编码转换技巧_技术教程

JavaScript字符串以UTF-16存储，BMP字符占2字节，扩展字符用代理对占4字节；需用Array.from获取真实字符数，如'?‍?‍?‍?'.length为8但实际为1个字符。

JavaScript 中的字符串操作经常涉及 Unicode 和编码转换，尤其是在处理多语言文本、特殊符号或网络传输时。理解这些机制能帮助开发者避免乱码、解析错误等问题。下面介绍几个关键点和实用技巧。

Unicode 基础与 JavaScript 字符串

JavaScript 字符串以 UTF-16 编码存储，每个字符通常占用 2 个字节（16 位）。对于基本多文种平面（BMP）中的字符（U+0000 到 U+FFFF），可以直接表示。超出此范围的字符（如一些 emoji 或罕见汉字）使用代理对（surrogate pair）表示，占 4 个字节。

你可以用 \u 表示 Unicode 字符：

\u0041 // 输出 'A'
\u{1F600} // 输出 ?，注意大括号用于扩展 Unicode

要安全获取字符串中真实字符数量（包括 emoji 等），应使用 Array.from() 或展开语法：

Array.from('?‍?‍?‍?').length // 返回 1（正确）
'?‍?‍?‍?'.length // 返回 8（错误，因代理对和组合字符）

编码转换：UTF-8 与 Base64

浏览器环境提供了 TextEncoder 和 TextDecoder 来处理 UTF-8 编码转换：

const encoder = new TextEncoder();
const decoder = new TextDecoder('utf-8');

const bytes = encoder.encode('你好 world');
decoder.decode(bytes); // 恢复为 '你好 world'

在网络传输或存储中，常需将二进制数据转为 Base64。虽然浏览器原生支持 btoa 和 atob，但它们只支持单字节字符（ASCII），不能直接处理 Unicode 字符串。

正确做法是先转为 UTF-8 字节流再编码：

检测与处理代理对

某些字符（如 ?、?）由两个代理字符组成。若未正确处理，可能导致截断错误或显示异常。

判断一个字符是否为代理对的一部分：

function isSurrogatePair(charCode) {
return charCode >= 0xD800 && charCode }

遍历字符串时推荐使用 for...of，它会自动识别代理对和组合字符：

for (const ch of 'Hello ?') {
console.log(ch); // 每次输出一个完整字符
}

实用技巧总结

使用 Array.from(str) 或 [...str] 获取准确字符数组
处理非 ASCII 文本时，优先使用 TextEncoder/TextDecoder
避免直接使用 atob/btoa 处理中文或 emoji，需先转 UTF-8 字节流
字符串截取建议使用 String.prototype.slice 配合正确认知长度，或借助库如 grapheme-splitter
正则表达式中可使用 \u{xxxxx} 匹配扩展 Unicode 字符（需加 u 标志）

基本上就这些。掌握 Unicode 特性能让字符串操作更稳健，尤其在国际化项目中尤为重要。不复杂但容易忽略细节。

JavaScript字符串操作_Unicode与编码转换技巧

Unicode 基础与 JavaScript 字符串

编码转换：UTF-8 与 Base64

检测与处理代理对

实用技巧总结

CSS Flexbox如何实现标题与按钮对齐_align-i

如何在CSS中使用伪类:not()排除特定元素_结合:not

Unicode 基础与 JavaScript 字符串

编码转换：UTF-8 与 Base64

检测与处理代理对

实用技巧总结

CSS Flexbox如何实现标题与按钮对齐_align-i

如何在CSS中使用伪类:not()排除特定元素_结合:not

相关文章