如何在 Java 中精准提取指定前缀后的数字(如 OTP)

本文介绍如何从字符串中准确提取紧跟特定文本(如 "your otp for darshann is : ")之后的数字,避免误匹配其他数字,重点解决正则替换导致数字拼接的问题。

在实际开发中(如短信/邮件 OTP 解析),我们常需从非结构化文本中提取关键数字。直接使用 replaceAll("[^0-9]", "") 会删除所有非数字字符并拼接剩余数字,导致 "9999" 和 "12341234123" 合并为 "999912341234123" ——这显然不符合 OTP 场景下“唯一、短位数、紧邻提示语”的业务要求。

更可靠的方式是定位前缀 + 提取后续首个数字序列。推荐使用正则表达式 Pattern 进行

精确匹配:

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class OtpExtractor {
    public static String extractOtp(String text) {
        // 匹配 "Your OTP for Darshann is :" 后紧跟的连续数字(支持空格、换行、冒号等常见分隔)
        Pattern pattern = Pattern.compile("Your\\s+OTP\\s+for\\s+Darshann\\s+is\\s*[:\\s]*?(\\d+)");
        Matcher matcher = pattern.matcher(text);
        return matcher.find() ? matcher.group(1) : null;
    }

    public static void main(String[] args) {
        String str = "Your OTP for Darshann is : 9999%n 12341234123";
        String otp = extractOtp(str);
        System.out.println("Extracted OTP: " + otp); // 输出: 9999
    }
}

优势说明

  • 使用捕获组 (\\d+) 精确提取前缀后第一个数字串,忽略后续其他数字;
  • \\s*[:\\s]*? 兼容冒号、空格、换行符(如 %n)等常见格式变体;
  • 正则具备语义明确性,可轻松适配不同 OTP 模板(只需修改前缀部分)。

⚠️ 注意事项

  • 若前缀文本动态变化(如应用名不固定),建议将前缀作为参数传入,或使用更通用的模式如 "Your\\s+OTP.*?is\\s*[:\\s]*(\\d+)"(注意 .*? 的非贪婪匹配);
  • 对于高并发或高频解析场景,建议将 Pattern 编译为静态常量以提升性能;
  • 始终校验 matcher.find() 返回值,避免 NullPointerException。

总结:提取 OTP 不应依赖“去除非数字字符”这类粗粒度操作,而应基于上下文定位 + 精确捕获。正则匹配既简洁又健壮,是处理此类文本解析任务的标准实践。