Go语言——正则表达式

发布时间 2023-03-28 10:55:19作者: 中亿丰数字科技

概述:

  1. 概念:
    正则表达式(regular expression)就是由元字符组成的⼀种字符串匹配的模式,使⽤这种模式可以实现对⽂本内容解析、校验、替换。

  2. 正则表达式的⽤途:

    1. 数据有效性验证:⽤户注册模块是应⽤正则表达式最集中的地⽅,主要是
      ⽤于验证⽤户帐号、密码、EMAIL、电话号码、QQ号码、身份证号码、家庭地址等信息。如果填写的内容与正则表达式不匹配,可以断定填写的内容是不合乎要求或虚假的信息,那么在将表单提交到服务器进⼀步处理前,JavaScript程序会检查表单以确认⽤户填写的是有效信息。采⽤正则表达式会使得数据校验的⼯作量⼤⼤减轻。
    2. 模糊查询,批量替换。可以在⽂档中使⽤⼀个正则表达式来查找匹配的特定⽂字,然后可以全部将其删除,或者替换为别的⽂字。

正则表达式中主要元字符:

  1. \ 将下⼀个字符标记为⼀个特殊字符、或⼀个原义字符、或⼀个 向后引⽤、或⼀个⼋进制转义符。例如,'n'匹配字符 "n"。'\n' (newline)匹配⼀个换⾏符。序列 '\' 匹配 "" ⽽"(" 则匹配 "("。 ‘\r’ (return)
  2. ^ 匹配输⼊字符串的开始位置。如果设置了 RegExp 对象的 Multiline 属性,^也匹配'\n' 或 '\r' 之后的位置。
  3. $ 匹配输⼊字符串的结束位置。如果设置了RegExp 对象的 Multiline 属性,$也匹配'\n' 或 '\r' 之前的位置。
  4. * 匹配前⾯的⼦表达式零次或多次。例如,zo* 能匹配"z" 以及 "zoo"。* 等价于{0,}。
  5. + 匹配前⾯的⼦表达式⼀次或多次。例如,'zo+' 能匹配 "zo" 以及"zoo",但不能匹配 "z"。+ 等价于 {1,}。
  6. ? 匹配前⾯的⼦表达式零次或⼀次。例如,"do(es)?" 可以匹配 "do" 或"does" 中的"do" 。? 等价于 {0,1}。
  7. {n} n 是⼀个⾮负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配"Bob" 中的 'o',但是能匹配 "food" 中的两个 正好匹配的个数o。
  8. {n,} n 是⼀个⾮负整数。⾄少匹配n 次。例如,'o{2,}' 不能匹配"Bob" 中的 'o',但能匹配 "foooood" 中的所有o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于'o*'。
  9. {n,m} m 和 n 均为⾮负整数,其中n <= m。最少匹配 n 次且最多匹配 m次。例如,"o{1,3}" 将匹配 "fooooood" 中的前三个o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。
  10. ? 当该字符紧跟在任何⼀个其他限制符 (*, +, ?, {n}, {n,}, {n,m})后⾯时,匹配模式是⾮贪婪的。⾮贪婪模式尽可能少的匹配所搜索的字符串,⽽默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串"oooo",'o+?' 将匹配单个 "o",⽽ 'o+'将匹配所有 'o'。
  11. “. ” 匹配除 "\n"之外的任何单个字符。要匹配包括 '\n'在内的任何字符,请使⽤象 '[.\n]' 的模式。
  12. x|y 匹配 x 或 y。“|”代表“或”的意思。例如,'z|food'能匹配 "z" 或 "food"。'(z|f)ood' 则匹配"zood" 或 "food"。
  13. [xyz] 字符集合。匹配所包含的任意⼀个字符。例如, '[abc]' 可以匹配"plain" 中的 'a'。
  14. [^xyz] 负值字符集合。匹配未包含的任意字符。例如, '[^abc]' 可以匹配"plain" 中的'p'。
  15. [a-z] 字符范围。匹配指定范围内的任意字符。例如,'[a-z]' 可以匹配 'a'到 'z' 范围内的任意⼩写字⺟字符。
  16. [^a-z]负值字符范围。匹配任何不在指定范围内的任意字符。例如,'[^a-z]' 可以匹
    配任何不在 'a' 到'z' 范围内的任意字符。
  17. \b匹配⼀个单词边界,也就是指单词和空格间的位置。例如, 'er\b' 可以配"never" 中的'er',但不能匹配 "verb" 中的 'er'。
  18. \B匹配⾮单词边界。'er\B' 能匹配 "verb" 中的 'er',但不能匹配"never" 中的 'er'。
  19. \cx匹配由 x 指明的控制字符。例如, \cM 匹配⼀个 Control-M 或回⻋符。x 的
    值必须为 A-Z 或 a-z 之⼀。否则,将c 视为⼀个原义的 'c' 字符。
  20. \d 匹配⼀个数字。等价于 [0-9]。 digital
  21. \D 匹配⼀个⾮数字。等价于 [^0-9]。
  22. \f匹配⼀个换⻚符。等价于 \x0c 和 \cL。
  23. \n 匹配⼀个换⾏符。等价于 \x0a 和 \cJ。
  24. \r 匹配⼀个回⻋符。等价于 \x0d 和 \cM。
  25. \s 匹配任何空⽩字符,包括空格、制表符、换⻚符等等。等价于 [ \f\n\r\t\v](space)
  26. \S匹配任何⾮空⽩字符。等价于 [^ \f\n\r\t\v]。
  27. \t匹配⼀个制表符。等价于 \x09 和 \cI。
  28. \v匹配⼀个垂直制表符。等价于 \x0b 和 \cK。
  29. \w 匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'。 word
  30. \W匹配任何⾮单词字符。等价于 '[^A-Za-z0-9_]'。
  31. \num匹配 num,其中 num 是⼀个正整数。对所获取的匹配的引⽤。例如,'(.)\1'
    匹配两个连续的相同字符。
  32. \xn匹配 n,其中 n 为⼗六进制转义值。⼗六进制转义值必须为确定的两个数字
    ⻓。例如,'\x41' 匹配"A"。'\x041' 则等价于 '\x04' &"1"。正则表达式中可以使⽤ ASCII 编码。
  33. \un匹配 n,其中 n 是⼀个⽤四个⼗六进制数字表示的 Unicode 字符。例如,\u00A9 匹配版权符号(?)。
  34. (pattern)匹配 括号内pattern所代表的表达式。是成组匹配。
  35. (?=pattern) 正向预查。例如windows(?=95/98/2000/NT),含义是匹配“windows”后⾯可以是“95”“98”“2000”或者“NT”。
  36. (?!pattern) 负向预查。例windows(?!95/98),含义是匹配“windows”后⾯不是“95”或“98”的其它字符串。

【特别备注】正则表达式的备注说明

  1. ⼤写英⽂字⺟的正则表达式,除了可以写成[A-Z],还可以写成[\x41-
    \x5A]。因为在ASCII码字典中A-Z被排在了65-90号(也就是ASCII码的第66到 第91位),换算成16进制就是0x41-0x5A;
  2. [0-9],可以写成[\x30-\x39];
  3. [a-z],可以写成[\x61-\x7A]。
  4. [A-Z],可以写成[\x41-\x5A]。
  5. 中⽂的正则表达式为:[\u4E00-\u9FA5]
    因为中⽂在unicode编码字典中排在4E00到9FA5之间。换成10进制,也就
    是第19968号到40869号是中⽂字,⼀共20902个中⽂字被搜录到unicode编码
    集中。(常识了解:第19968号是“⼀”,⽽第40869号是“龥”——发⾳为yu)。

图解正则表达式:

特殊字符:

有部分元字符在正则表达式中代表特定的含义。如果要匹配这些字符本身,需要使⽤反斜杠""进⾏转义。这些特殊字符有:

  1. ^ $
  2. * + ?
  3. { } ()[]
  4. \ / . |

【备注:】以上特殊符号在实际定义regexp字符串的时候,实际上使⽤两个反斜杠"\"。

元字符优先级顺序(从⾼到低,从左到右)

  1. \ 转义字符
  2. ()圆括号,[]⽅括号
  3. * + ? {n} {n,} {n,m}限定符4. ^ $ 开始和结束标识
  4. | "或"操作

常⽤的正则表达式的写法:

  1. 中⽂字符:^[\u4E00-\u9FA5]+$
  2. ⼿机号码:^(86)?0?1\d{10}$
    电话号码:^((d{3,4})|d{3,4}-)?d{7,8}$
  3. Email地址:^[\w-]+[\w-.]?@[\w-]+(\.[A-Za-z]{2,5})+$
    Email地址:^w+[-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*$
    Email地址:w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*
  4. URL⽹址:^http://([w-]+.)+[w-]+(([w-.)?%&=]*)?$
    URL⽹址:http://([w-]+.)+[w-]+(/[w- ./?%&=]*)?
  5. 密码(安全级别中):^(\d+[A-Za-z]\w*|[A-Za-z]+\d\w*)$
  6. 密码(安全级别⾼):^(\d+[a-zA-Z~!@#$%^&(){}][\w~!@#$%^&(){}]*|[a-zA-Z~!@#$%^&(){}]+\d[\w~!@#$%^&(){}]*)$

【备注:】对于同⼀个需求的正则表达式,因理解不同和验证的严格程度不同⽽
差异很⼤,没有固定的统⼀写法。只要尽量与需求进⾏匹配就可以。