javascript正则表达式是什么_如何匹配文本

狼影 2026-01-09 00:00:00 次阅读

JavaScript正则表达式是RegExp对象，非字符串方法；创建方式有字面量（/abc/g）和构造函数（new RegExp("abc", "g")），后者需双写反斜杠；test()返布尔值，exec()返匹配详情并可循环，match()是字符串方法返数组或null；点号不匹配换行需/s，量词默认贪婪需加?变非贪婪，Unicode需/u标志。

JavaScript 正则表达式是内置的文本匹配引擎，不是字符串方法，而是 RegExp 对象——它能描述、复用和高效执行模式匹配逻辑。

正则表达式怎么写：字面量 vs 构造函数

两种创建方式行为基本一致，但关键差异在转义和动态性：

字面量写法：/abc/g，斜杠包裹，标志（如 g、i）写在末尾；编译时确定，不可拼接变量
构造函数写法：new RegExp("abc", "g")，模式为字符串，标志单独传；适合动态生成（比如用户输入的关键词），但反斜杠需双写：new RegExp("\\d+", "g")
错误常见于构造函数中漏掉双反斜杠：new RegExp("\d+") 会报错或匹配失败，因为 \d 在字符串字面量里被当作非法转义

`test()`、`exec()`、`match()` 的核心区别

它们不是“换着用就行”，选错会导致逻辑漏洞或性能浪费：

test() 返回布尔值，只问“有没有匹配”，最快，适合表单校验：/^\d{3}-\d{2}-\d{4}$/.test(input)
exec() 返回首个匹配的详细对象（含 index、groups），配合 g 标志可循环调用，适合逐个提取：
```
const re = /(\w+):(\d+)/g;
let match;
while ((match = re.exec(str)) !== null) {
  console.log(match[1], match[2]);
}
```
match() 是字符串方法，返回全部匹配数组（无 g 时返回带捕获组的单个对象）；注意 null 安全：若没匹配，它返回 null 而非空数组，直接调 .length 会报 TypeError

常见陷阱：点号、量词、贪婪与 Unicode

看似简单的符号，在 JS 里容易出人意料：

. 默认不匹配换行符（\n、\r），想匹配所有字符得加 s 标志（ES2018+）：/a.b/s，否则用 [\s\S] 替代
*、+、? 默认贪婪，会吞掉尽可能多的内容；非贪婪写法是加 ? 后缀：a.*?b 匹配最短的 a...b 段
中文、emoji 等 Unicode 字符可能被拆成两个码元（如某些 emoji 是代理对），\w、\b 不识别它们；需要 u 标志启用 Unicode 模式：/\p{Script=Han}+/u 才能正确匹配汉字
^ 和 $ 默认只匹配字符串首尾；多行模式 m 下才匹配每行起止，但不会改变 . 行为