PHP正则表达式可以对字符串进行匹配、查找、分割等操作,如果只是简单的字符串处理,推荐使用PHP自带字符串处理函数,如果是复杂的字符串处理,则需要用到正则表达式。正则表达式的效率比PHP自带字符串处理函数效率更低。
定界符
表达式内容需要放到定界符中,通常使用|
作为定界符,也可以使用其它定界符,比如#
、!
、{}
都是可以的。
原子
每个模式中 最少要包含一个原子,普通字符(a-z
)及特殊字符(*
)、非打印字符(\n
)都可以作为原子,比如:
- 特殊字符需要使用
\
进行转义
一些常用的费打印字符如下:
原子字符 | 含义 |
\n |
换行符 |
\f |
回车符 |
\t |
制表符 |
也可以使用通用字符作为原子,这样看起来更加简洁直观。
原子字符 | 含义 |
\d |
匹配一个十进制数字,等价于[0-9] |
\D |
匹配一个除十进制以外的字符,等价于[^0-9] |
\s |
匹配任意一个空白字符,等价于[\f\n\r\t\v] |
\S |
匹配除空白字符以外任何一个字符,等价于[^\f\n\r\t\v] |
\w |
匹配任意一个数字、字母、下划线,等价于[0-9a-zA-Z] |
\W |
匹配除数字、字母、下划线以外的任意一个字符,等价于[^0-9a-zA-Z] |
元字符
元字符就是用于构建正则表达式的具有特殊含义的字符,比如*
、.
、+
等字符。
字符 | 描述 | ^ |
匹配输入字符串的开始位置。 |
---|---|
$ |
匹配输入字符串的结束位置。 |
* |
匹配前面的子表达式零次或多次。例如,zo 能匹配 "z" 以及 "zoo"。 等价于{0,}。 |
+ |
匹配前面的子表达式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等价于 {1,}。 |
? |
匹配前面的子表达式零次或一次。例如,"do(es)?" 可以匹配 "do" 或 "does" 。? 等价于 {0,1}。 |
{n} |
n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。 |
{n,} |
n 是一个非负整数。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。 |
{n,m} |
m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。 |
? |
当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串 "oooo",'o+?' 将匹配单个 "o",而 'o+' 将匹配所有 'o'。 |
. |
匹配除换行符(\n 、\r )之外的任何单个字符。 |
x|y |
匹配 x 或 y。例如,'z|food' 能匹配 "z" 或 "food"。'(z|f)ood' 则匹配 "zood" 或 "food"。 |
[xyz] |
字符集合。匹配所包含的任意一个字符。 |
[^xyz] |
负值字符集合。匹配未包含的任意字符。 |
[a-z] |
字符范围。匹配指定范围内的任意字符。 |
[^a-z] |
负值字符范围。匹配任何不在指定范围内的任意字符。 |
模式修正符
模式修正符在定界符之外使用(最后一个/
之后),常用的模式修正符如下(不完全):
模式修正符 | 含义 |
i | 匹配时不区分大小写 |
m | 将字符串视为多行 |
s | 模式中的.匹配所有字符,包括换行符(默认.是无法匹配换行符的) |