从零开始学正则

这是一篇简单介绍正则表达式的博客，从零开始学正则，简单易懂。

首先

我们编写处理字符串的程序或网页时会用到正则表达式，它就是记录文本规则的代码。

举个栗子，大家应该都知道通配符的概念，windows下查找一个word文档你会搜索*.doc，那么，*就是一个任意的字符串，和通配符类似。正则表达式就和这有一些相似，只不过比那种搜索更精准，可以满足你的需求。

入门

我们从栗子开始。

假设你在要在一篇英文文章里搜索hi，那么你就可以使用正则表达式hi。它可以匹配到hi,Hi,hI,HI这四种情况。但是还有些情况你不能排除，比如说him,history等，如果你要精确查找hi的话，那么你就要使用\bhi\b。

\b是正则表达式规定的一个特殊代码也叫元字符，代表单词开头或者结尾，也是单词分界处。\b只匹配一个位置，并不匹配单词分隔字符。

如果你要查找的是hi后面不远处跟着一个Lucy，那么你应该用\bhi\b.*\bLucy\b。

这里的.是一个元字符，匹配除了换行符以外的任意字符。*代表了任意字符。所以\bhi\b.*\bLucy\b就是先一个单词hi，然后任意个数任意字符（不能换行），然后Lucy这个词。

同时使用其他元字符，可以构造出更强大的表达式，又一个栗子：

0\d\d-\d\d\d\d\d\d\d\d匹配的是以0开头，然后是两个数字，然后是一个连字号-，最后是8个数字(这也就是中国的电话号码)。

这里的\d是个新的元字符用来匹配一位数字。-只匹配本身。

为了避免重复，这个表达式也可以写成0\d{2}-\d{8}。这里的{2}和{8}就是重复两次和八次的意思。

特殊代码

我们已经知道几个具有特殊意义的代码了，其实还有更多的特殊代码，\s代表任意空白符，包括空格、制表符(Tab)以及换行符。\w代表字母或者数字

下面还是栗子。

\ba\w*\b匹配以字母a开头的单词。\b匹配单词开始，a是字母a，\w匹配任意数量字母和数字，\b匹配单词结束。

\d+匹配1个及以上的连续数字。+和*有一些相似，*代表着任意字符任意数量，而+则代表着重复一次或者更多。

\b\w{8}\b匹配刚好8个字母或者数字的词。

特殊代码^以及$都匹配一个位置。^匹配要用来查找的字符串开头，$匹配结尾。这两个代码在验证输入的内容是非常有用，有网站需要你输入的qq号必须为7到10位数字时，那么就可以使用：^\d{7,10}$。

这里的{7,10}的意思是必须重复最少7次，最多12次，否则都不匹配。因为使用了^和$，所以输入的字符串就会用\d{,7,10}来匹配。

有一些正则表达式的处理工具还会有一个处理多行的选项。如果选中了，那么^和$的意义就变成了匹配行的开始处和结束处。

特殊代码

.	匹配除换行符以外的任意字符
\w	匹配字母或数字
\s	匹配任意的空白符
\d	匹配数字
\b	匹配单词的开始或结束
^	匹配字符串的开始
$	匹配字符串的结束

字符转义

有些代码比较特殊，比如你要查找.或者*，那么要怎么办，所以就用到了转义。这是\就是用来取消这些字符的特殊意义，所以当你要查找的时候则应该用\.和\*，如果你要查找的就是\这个符号，那么你就要用\\。

炒个栗子

Mr\.D匹配Mr.D；c:\\windows匹配c:\windows；2\^8匹配2^8（通常这是书写2的8次方的书写方式）。

重复

前面已经说过了重复，*，+，{2}，{7，10}，这几个都代表重复。

然后举几个例子来说明一下

Windows\d+匹配Windows后面跟着1个或者跟多的数字

13\d{9}匹配以13后面跟9个数字(手机号)

^\w+匹配一行的第一个单词

常用量词

代码/语法	说明
*	重复零次或更多次
+	重复一次或更多次
?	重复零次或一次
{n}	重复n次
{n,}	重复n次或更多次
{n,m}	重复n到m次

字符类

要查找数字、字母或者空白，这些也是很简单的，因为已经有了对应这些字符集的特殊代码。

例如如果你想查找元音（a,e,I,o,u），那么你可以这样说[aeiou]，这就可以匹配任何一个元音字母，[,.!?]这就可以匹配这四个字符。当我们在中括号中这样输入时不会被匹配成其他的意义。

同理，[0-9]的意义与\d的含义是一样的，[a-z0-9A-Z]与\w也是一样的。

列一个相对比较复杂的表达式：\(?0)d{2}[) -]?\d{8}。

这个表达式匹配的是几种格式的电话号码(010)88888888或者023-88888888或02088888888等。分析：首先一个转义字符\(，?是0次或者1次，然后是一个0，接着{2}是出现两个数字，后面是)或-或空格其中的一个，?是出现1次或者不出现，最后八个数字\d{8}。但是这个式子也是可以匹配020)88888888或者(02088888888这样不正确的格式。所以要解决这样的问题就要看下面的内容。

反义

又是需要查找不属于某个简单定义的字符类型的字符。比如想查找除了数字以外，其他任意字符都行的情况，只是需要用到反义。

常用的反义代码

代码/语法	说明
\D	匹配任意非数字的字符
\B	匹配不是单词开头或结束的位置
[^aeiou]	匹配除了aeiou这几个字母以外的任意字符
\W	匹配任意不是字母和数字的字符
\S	匹配任意不是空白符的字符
[^x]	匹配除了x以外的任意字符

栗子：\S+匹配不包含空白符的字符串。

<a[^>]+>匹配用尖括号括起来的以a开头的字符串

替换

正则表达式里的替换值得是有几种规则，如果满足其中一种规则都应该当成匹配，具体方法是用|把不同的规则分开。下面用栗子来进行说明。

(\d{1,3}\.){3}\d{1,3}是一个简单的IP地址匹配表达式。分析：\d{1,3}代表1到3的数字，(\d{1,3}\.){3}代表三位数加上一个英文句号（次整体）重复三次，最后再加上一个三位数\d{1,3}。

但是这个表达式出现的问题是他可以匹配得到256.333.999.999这种可能的IP地址。因为正则表达式不提供关于数学的任何功能，所以只能使用冗长的分组来进行表达正确的IP地址：((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。

后向引用

使用小括号制定一个子表达式后，匹配这个表达式的文本可以在正则表达式或其他程序中作进一步的处理。默认情况下魅族会自动拥有一个组号，规则是：以分组的左括号为标志，从左向右，第一个分组的组号为1，第二个为2，以此类推。

后向引用用来重复搜索前面某个分组匹配的文本。

\b(\w+)\b\s+\1\b可以用来匹配重复的单词，像go go，fire fire。首先是一个单词\b(\w+)\b，然后是一个或者几个空白符\s+，最后是前面匹配的那个单词\1。

你也可以自己指定子表达式的组号或组名。要指定一个子表达式的组名，请使用这样的语法：(?<Word>\w+),这样就把\w+的组名指定为Word了。要反向引用这个分组捕获的内容，你可以使用\k<Word>,所以上一个例子也可以写成这样：\b(?<Word>\w+)\b\s*\k<Word>\b。

捕获
(exp)	匹配exp,并捕获文本到自动命名的组里
(?<name>exp)	匹配exp,并捕获文本到名称为name的组里
(?:exp)	匹配exp,不捕获匹配的文本
位置指定
(?=exp)	匹配exp前面的位置
(?<=exp)	匹配exp后面的位置
(?!exp)	匹配后面跟的不是exp的位置
(?<!exp)	匹配前面不是exp的位置
注释
(?#comment)	这种类型的组不对正则表达式的处理产生任何影响，只是为了提供让人阅读注释

一些没有介绍到的表达式

\a	报警字符(打印它的效果是电脑嘀一声)
\b	通常是单词分界位置，但如果在字符类里使用代表退格
\t	制表符，Tab
\r	回车
\v	竖向制表符
\f	换页符
\n	换行符
\e	Escape
\0nn	ASCII代码中八进制代码为nn的字符
\xnn	ASCII代码中十六进制代码为nn的字符
\unnnn	Unicode代码中十六进制代码为nnnn的字符
\cN	ASCII控制字符。比如\cC代表Ctrl+C
\A	字符串开头(类似^，但不受处理多行选项的影响)
\Z	字符串结尾或行尾(不受处理多行选项的影响)
\z	字符串结尾(类似$，但不受处理多行选项的影响)
\G	当前搜索的开头
\p{name}	Unicode中命名为name的字符类，例如\p{IsGreek}
(?>exp)	贪婪子表达式
(?<x>-<y>exp)	平衡组
(?-<y>exp)	平衡组
(?im-nsx:exp)	在子表达式exp中改变处理选项
(?im-nsx)	为表达式后面的部分改变处理选项
(?(exp)yes\|no)	把exp当作零宽正向先行断言，如果在这个位置能匹配，使用yes作为此组的表达式；否则使用no
(?(exp)yes)	同上，只是使用空表达式作为no
(?(name)yes\|no)	如果命名为name的组捕获到了内容，使用yes作为表达式；否使用no
(?(name)yes)	同上，只是使用空表达式作为no

相关推荐