javascript正则表达式是什么_如何匹配文本

JavaScript正则表达式是RegExp对象,非字符串方法;创建方式有字面量(/abc/g)和构造函数(new RegExp("abc", "g")),后者需双写反斜杠;test()返布尔值,exec()返匹配详情并可循环,match()是字符串方法返数组或null;点号不匹配换行需/s,量词默认贪婪需加?变非贪婪,Unicode需/u标志。

JavaScript 正则表达式是内置的文本匹配引擎,不是字符串方法,而是 RegExp 对象——它能描述、复用和高效执行模式匹配逻辑。

正则表达式怎么写:字面量 vs 构造函数

两种创建方式行为基本一致,但关键差异在转义和动态性:

  • 字面量写法:/abc/g,斜杠包裹,标志(如 gi)写在末尾;编译时确定,不可拼接变量
  • 构造函数写法:new RegExp("abc", "g"),模式为字符串,标志单独传;适合动态生成(比如用户输入的关键词),但反斜杠需双写:new RegExp("\\d+", "g")
  • 错误常见于构造函数中漏掉双反斜杠:new RegExp("\d+") 会报错或匹配失败,因为 \d 在字符串字面量里被当作非法转义

test()exec()match() 的核心区别

它们不是“换着用就行”,选错会导致逻辑漏洞或性能浪费:

  • test() 返回布尔值,只问“有没有匹配”,最快,适合表单校验:/^\d{3}-\d{2}-\d{4}$/.test(input)
  • exec() 返回首个匹配的详细对象(含 indexgroups),配合 g 标志可循环调用,适合逐个提取:
    const re = /(\w+):(\d+)/g;
    let match;
    while ((match = re.exec(str)) !== null) {
      console.log(match[1], match[2]);
    }
  • match() 是字符串方法,返回全部匹配数组(无 g 时返回带捕获组的单个对象);注意 null 安全:若没匹配,它返回 null 而非空数组,直接调 .length 会报 TypeError

常见陷阱:点号、量词、贪婪与 Unicode

看似简单的符号,在 JS 里容易出人意料:

  • . 默认不匹配换行符(\n\r),想匹配所有字符得加 s 标志(ES2018+):/a.b/s,否则用 [\s\S] 替代
  • *+? 默认贪婪,会吞掉尽可能多的内容;非贪婪写法是加 ? 后缀:a.*?b 匹配最短的 a...b
  • 中文、emoji 等 Unicode 字符可能被拆成两个码元(如某些 emoji 是代理对),\w\b 不识别它们;需要 u 标志启用 Unicode 模式:/\p{Script=Han}+/u 才能正确匹配汉字
  • ^$ 默认只匹配字符串首尾;多行模式 m 下才匹配每行起止,但不会改变 . 行为

正则真正难的不是语法,而是边界条件:要不要全局匹配、是否允许多行、Unicode 怎么处理、空匹配怎么跳过——这些不提前想清楚,调试时花半天也看不出哪步错了。