从零开始学正则

这是一篇简单介绍正则表达式的博客,从零开始学正则,简单易懂。


首先

我们编写处理字符串的程序或网页时会用到正则表达式,它就是记录文本规则的代码。

举个栗子,大家应该都知道通配符的概念,windows下查找一个word文档你会搜索*.doc,那么,*就是一个任意的字符串,和通配符类似。正则表达式就和这有一些相似,只不过比那种搜索更精准,可以满足你的需求。

入门

我们从栗子开始。

假设你在要在一篇英文文章里搜索hi,那么你就可以使用正则表达式hi。它可以匹配到hi,Hi,hI,HI这四种情况。但是还有些情况你不能排除,比如说him,history等,如果你要精确查找hi的话,那么你就要使用\bhi\b

\b是正则表达式规定的一个特殊代码也叫元字符,代表单词开头或者结尾,也是单词分界处。\b只匹配一个位置,并不匹配单词分隔字符。

如果你要查找的是hi后面不远处跟着一个Lucy,那么你应该用\bhi\b.*\bLucy\b

这里的.是一个元字符,匹配除了换行符以外的任意字符。*代表了任意字符。所以\bhi\b.*\bLucy\b就是先一个单词hi,然后任意个数任意字符(不能换行),然后Lucy这个词。

同时使用其他元字符,可以构造出更强大的表达式,又一个栗子:

0\d\d-\d\d\d\d\d\d\d\d匹配的是以0开头,然后是两个数字,然后是一个连字号-,最后是8个数字(这也就是中国的电话号码)。

这里的\d是个新的元字符用来匹配一位数字。-只匹配本身。

为了避免重复,这个表达式也可以写成0\d{2}-\d{8}。这里的{2}和{8}就是重复两次和八次的意思。

特殊代码

我们已经知道几个具有特殊意义的代码了,其实还有更多的特殊代码,\s代表任意空白符,包括空格、制表符(Tab)以及换行符。\w代表字母或者数字

下面还是栗子。

\ba\w*\b匹配以字母a开头的单词。\b匹配单词开始,a是字母a,\w匹配任意数量字母和数字,\b匹配单词结束。

\d+匹配1个及以上的连续数字。+*有一些相似,*代表着任意字符任意数量,而+则代表着重复一次或者更多。

\b\w{8}\b匹配刚好8个字母或者数字的词。

特殊代码^以及$都匹配一个位置。^匹配要用来查找的字符串开头,$匹配结尾。这两个代码在验证输入的内容是非常有用,有网站需要你输入的qq号必须为7到10位数字时,那么就可以使用:^\d{7,10}$

这里的{7,10}的意思是必须重复最少7次,最多12次,否则都不匹配。因为使用了^$,所以输入的字符串就会用\d{,7,10}来匹配。

有一些正则表达式的处理工具还会有一个处理多行的选项。如果选中了,那么^和$的意义就变成了匹配行的开始处和结束处。

特殊代码

.

匹配除换行符以外的任意字符

\w

匹配字母或数字

\s

匹配任意的空白符

\d

匹配数字

\b

匹配单词的开始或结束

^

匹配字符串的开始

$

匹配字符串的结束

字符转义

有些代码比较特殊,比如你要查找.或者*,那么要怎么办,所以就用到了转义。这是\就是用来取消这些字符的特殊意义,所以当你要查找的时候则应该用\.\*,如果你要查找的就是\这个符号,那么你就要用\\

炒个栗子

Mr\.D匹配Mr.D;c:\\windows匹配c:\windows;2\^8匹配2^8(通常这是书写2的8次方的书写方式)。

重复

前面已经说过了重复,*+{2}{7,10},这几个都代表重复。

然后举几个例子来说明一下

Windows\d+匹配Windows后面跟着1个或者跟多的数字

13\d{9}匹配以13后面跟9个数字(手机号)

^\w+匹配一行的第一个单词

常用量词

代码/语法

说明

*

重复零次或更多次

+

重复一次或更多次

?

重复零次或一次

{n}

重复n次

{n,}

重复n次或更多次

{n,m}

重复n到m次

字符类

要查找数字、字母或者空白,这些也是很简单的,因为已经有了对应这些字符集的特殊代码。

例如如果你想查找元音(a,e,I,o,u),那么你可以这样说[aeiou],这就可以匹配任何一个元音字母,[,.!?]这就可以匹配这四个字符。当我们在中括号中这样输入时不会被匹配成其他的意义。

同理,[0-9]的意义与\d的含义是一样的,[a-z0-9A-Z]\w也是一样的。

列一个相对比较复杂的表达式:\(?0)d{2}[) -]?\d{8}

这个表达式匹配的是几种格式的电话号码(010)88888888或者023-88888888或02088888888等。分析:首先一个转义字符\(?是0次或者1次,然后是一个0,接着{2}是出现两个数字,后面是)或-或空格其中的一个,?是出现1次或者不出现,最后八个数字\d{8}。但是这个式子也是可以匹配020)88888888或者(02088888888这样不正确的格式。所以要解决这样的问题就要看下面的内容。

反义

又是需要查找不属于某个简单定义的字符类型的字符。比如想查找除了数字以外,其他任意字符都行的情况,只是需要用到反义。

常用的反义代码

代码/语法

说明

\D

匹配任意非数字的字符

\B

匹配不是单词开头或结束的位置

[^aeiou]

匹配除了aeiou这几个字母以外的任意字符

\W

匹配任意不是字母和数字的字符

\S

匹配任意不是空白符的字符

[^x]

匹配除了x以外的任意字符

栗子:\S+匹配不包含空白符的字符串。

<a[^>]+>匹配用尖括号括起来的以a开头的字符串

替换

正则表达式里的替换值得是有几种规则,如果满足其中一种规则都应该当成匹配,具体方法是用|把不同的规则分开。下面用栗子来进行说明。

(\d{1,3}\.){3}\d{1,3}是一个简单的IP地址匹配表达式。分析:\d{1,3}代表1到3的数字,(\d{1,3}\.){3}代表三位数加上一个英文句号(次整体)重复三次,最后再加上一个三位数\d{1,3}

但是这个表达式出现的问题是他可以匹配得到256.333.999.999这种可能的IP地址。因为正则表达式不提供关于数学的任何功能,所以只能使用冗长的分组来进行表达正确的IP地址:((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)

后向引用

使用小括号制定一个子表达式后,匹配这个表达式的文本可以在正则表达式或其他程序中作进一步的处理。默认情况下魅族会自动拥有一个组号,规则是:以分组的左括号为标志,从左向右,第一个分组的组号为1,第二个为2,以此类推。

后向引用用来重复搜索前面某个分组匹配的文本。

\b(\w+)\b\s+\1\b可以用来匹配重复的单词,像go go,fire fire。首先是一个单词\b(\w+)\b,然后是一个或者几个空白符\s+,最后是前面匹配的那个单词\1

你也可以自己指定子表达式的组号或组名。要指定一个子表达式的组名,请使用这样的语法:(?<Word>\w+),这样就把\w+的组名指定为Word了。要反向引用这个分组捕获的内容,你可以使用\k<Word>,所以上一个例子也可以写成这样:\b(?<Word>\w+)\b\s*\k<Word>\b

捕获

(exp)

匹配exp,并捕获文本到自动命名的组里

(?<name>exp)

匹配exp,并捕获文本到名称为name的组里

(?:exp)

匹配exp,不捕获匹配的文本

位置指定

(?=exp)

匹配exp前面的位置

(?<=exp)

匹配exp后面的位置

(?!exp)

匹配后面跟的不是exp的位置

(?<!exp)

匹配前面不是exp的位置

注释

(?#comment)

这种类型的组不对正则表达式的处理产生任何影响,只是为了提供让人阅读注释



一些没有介绍到的表达式

\a

报警字符(打印它的效果是电脑嘀一声)

\b

通常是单词分界位置,但如果在字符类里使用代表退格

\t

制表符,Tab

\r

回车

\v

竖向制表符

\f

换页符

\n

换行符

\e

Escape

\0nn

ASCII代码中八进制代码为nn的字符

\xnn

ASCII代码中十六进制代码为nn的字符

\unnnn

Unicode代码中十六进制代码为nnnn的字符

\cN

ASCII控制字符。比如\cC代表Ctrl+C

\A

字符串开头(类似^,但不受处理多行选项的影响)

\Z

字符串结尾或行尾(不受处理多行选项的影响)

\z

字符串结尾(类似$,但不受处理多行选项的影响)

\G

当前搜索的开头

\p{name}

Unicode中命名为name的字符类,例如\p{IsGreek}

(?>exp)

贪婪子表达式

(?<x>-<y>exp)

平衡组

(?-<y>exp)

平衡组

(?im-nsx:exp)

在子表达式exp中改变处理选项

(?im-nsx)

为表达式后面的部分改变处理选项

(?(exp)yes|no)

把exp当作零宽正向先行断言,如果在这个位置能匹配,使用yes作为此组的表达式;否则使用no

(?(exp)yes)

同上,只是使用空表达式作为no

(?(name)yes|no)

如果命名为name的组捕获到了内容,使用yes作为表达式;否使用no

(?(name)yes)

同上,只是使用空表达式作为no

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


jquery.validate使用攻略(表单校验) 目录 jquery.validate使用攻略1 第一章&#160;jquery.validate使用攻略1 第二章&#160;jQuery.validate.js API7 Custom selectors7 Utilities8 Validato
/\s+/g和/\s/g的区别 正则表达式/\s+/g和/\s/g,目的均是找出目标字符串中的所有空白字符,但两者到底有什么区别呢? 我们先来看下面一个例子: let name = &#39;ye wen jun&#39;;let ans = name.replace(/\s/g, &#39;&#3
自整理几个jquery.Validate验证正则: 1. 只能输入数字和字母 /^[0-9a-zA-Z]*$/g jQuery.validator.addMethod(&quot;letters&quot;, function (value, element) { return this.optio
this.optional(element)的用法 this.optional(element)是jquery.validator.js表单验证框架中的一个函数,用于表单控件的值不为空时才触发验证。 简单来说,就是当表单控件值为空的时候不会进行表单校验,此函数会返回true,表示校验通过,当表单控件
jQuery.validate 表单动态验证 实际上jQuery.validate提供了动态校验的方法。而动态拼JSON串的方式是不支持动态校验的。牺牲jQuery.validate的性能优化可以实现(jQuery.validate的性能优化见图1.2 jQuery.validate源码 )。 也可
自定义验证之这能输入数字(包括小数 负数 ) &lt;script type=&quot;text/javascript&quot;&gt; function onlyNumber(obj){ //得到第一个字符是否为负号 var t = obj.value.charAt(0); //先把非数字的都
// 引入了外部的验证规则 import { validateAccountNumber } from &quot;@/utils/validate&quot;; validator.js /*是否合法IP地址*/ export function validateIP(rule, value,cal
VUE开发--表单验证(六十三) 一、常用验证方式 vue 中表单字段验证的写法和方式有多种,常用的验证方式有3种: data 中验证 表单内容: &lt;!-- 表单 --&gt; &lt;el-form ref=&quot;rulesForm&quot; :rules=&quot;formRul
正则表达式 座机的: 例子: 座机有效写法: 0316-8418331 (010)-67433539 (010)67433539 010-67433539 (0316)-8418331 (0316)8418331 正则表达式写法 0\d{2,3}-\d{7,8}|\(?0\d{2,3}[)-]?\d
var reg = /^0\.[1-9]{0,2}$/;var linka = 0.1;console.log (reg.test (linka)); 0到1两位小数正则 ^(0\.(0[1-9]|[1-9]{1,2}|[1-9]0)$)|^1$ 不含0、0.0、0.00 // 验证是否是[1-10
input最大长度限制问题 &lt;input type=&quot;text&quot; maxlength=&quot;5&quot; /&gt; //可以 &lt;input type=&quot;number&quot; maxlength=&quot;5&quot; /&gt; //没有效
js输入验证是否为空、是否为null、是否都是空格 目录 1.截头去尾 trim 2.截头去尾 会去掉开始和结束的空格,类似于trim 3.会去掉所有的空格,包括开始,结束,中间 1.截头去尾 trim str=str.trim(); // 强烈推荐 最常用、最实用 or $.trim(str);
正则表达式语法大全 字符串.match(正则):返回符合的字符串,若不满足返回null 字符串.search(正则):返回搜索到的位置,若非一个字符,则返回第一个字母的下标,若不匹配则返回-1 字符串.replace(正则,新的字符串):找到符合正则的内容并替换 正则.test(字符串):在字符串中
正整数正则表达式正数的正则表达式(包括0,小数保留两位): ^((0{1}.\d{1,2})|([1-9]\d.{1}\d{1,2})|([1-9]+\d)|0)$正数的正则表达式(不包括0,小数保留两位): ^((0{1}.\d{1,2})|([1-9]\d.{1}\d{1,2})|([1-9]+
JS 正则验证 test() /*用途:检查输入手机号码是否正确输入:s:字符串返回:如果通过验证返回true,否则返回false /function checkMobile(s){var regu =/[1][3][0-9]{9}$/;var re = new RegExp(regu);if (r
请输入保留两位小数的销售价的正则: /(^[1-9]([0-9]+)?(\.[0-9]{1,2})?$)|(^(0){1}$)|(^[0-9]\.[0-9]([0-9])?$)/ 1.只能输入英文 &lt;input type=&quot;text&quot; onkeyup=&quot;value
判断价格的正则表达式 价格的正则表达式 /(^[1-9]\d*(\.\d{1,2})?$)|(^0(\.\d{1,2})?$)/; 1 解析:价格符合两种格式 ^ [1-9]\d*(.\d{1,2})?$ : 1-9 开头,后跟是 0-9,可以跟小数点,但小数点后要带上 1-2 位小数,类似 2,2
文章浏览阅读106次。这篇文章主要介绍了最实用的正则表达式整理,比如校验邮箱的正则,号码相关,数字相关等等,本文给大家列举的比较多,需要的朋友可以参考下。_/^(?:[1-9]d*)$/ 手机号
文章浏览阅读1.2k次。4、匹配中的==、an==、== an9、i9 == "9i"和99p==请注意下面这部分的作用,它在匹配中间内容的时候排除了说明:当html字符串如下时,可以匹配到两处,表示匹配的字符串不包含and且不包含空白字符。说明:在上面的正则表达式中,_gvim正则表达式匹配不包含某个字符串
文章浏览阅读897次。【代码】正则表达式匹配a标签的href。_auto.js 正则匹配herf