正则表达式循环匹配

title : JS 关于正则循环匹配的问题
date : 2018/7/31 下午6:16:47
---

正则有一个最大的好处就是效率高，对于一些复杂的字符串匹配的问题，如果用原生原生API解决比较繁琐，可以考虑用正则表达式来匹配。

这几天正在研究正则的循环匹配的问题，分享出来看看。

分组实现循环匹配

正则表达式中的分组是一个很重要的功能，有了它，我们可以进行分组的查询替换操作，下面是例子??

var reg = /(abc|hij)/g;
"abcdefghij".replace(reg,"-");
//它会匹配分组里面的abc或hij 替换成-，输出结果 ：-defg-

当正则表达式中有分组时，JS正则引擎实现了一个美元符号+数字（$1,$2.$3 … ）按顺序匹配对应到的分组。

var reg = /(abc)(def)/g
"abcdef".replace(reg,"$2$1")
"defabc"
//这个例子就是abc->$1 def->$2 ，然后把匹配的分组替换了。

再进一步，如果分组中存在多个匹配（贪婪模式）时，光写$1,$2..就满足不了需求了。

举个例子：银行卡四位空格的处理

var reg = /(\d{4})+?/g
"6226600000000001".replace(reg,"$1 ")
/*
 这个$1匹配的是对应的循环出来的分组 不仅仅是第一分组，在这里的含义就是循环出来的每一个分组
"6226 6000 0000 0001"
*/

也就是说，如果正则想对贪婪模式的分组做处理时，譬如说替换，插入等操作时。 $1 就代表每次循环出来的分组

记一些正则比较冷门的知识。

//把相同的字符区分开来 aabbcccdddd -> "aa bb ccc dddd"
"aaabbcccdddd".match(/([a-z])\1+/g)  
//输出：["aaa","bb","ccc","dddd"]
//\n -> "斜杠后面带数字意味着相同的字符连续匹配n次，如果是连续匹配2次就是 \1 两次以上就是 \1+"

后向先行断言 (匹配到字符串后面的位置)

按上面的银行卡四位空格的的要求：我们写下如下的正则表达式

"1111222233334444".replace(/(?<=(^(\d{4})+))(?<!$)/g," ")

后向先行断言概念：?<= 这个api 是匹配后面位置的就是说匹配到所在字符的后面位置。

举个例子：

//aaabbbccc 需要匹配aaa 后面的所有内容
"aaabbbccc".match(/(?<=aaa).+/g)

上面的银行卡四位空格的可以分步骤来分析。

第一步：先得出第一个空格 /(?<=^(\d{4}))/ 得出来：1111 222233334444
第二步：得出其他的空格，也就是分组多加个+ 号进行贪婪匹配,并且全局搜索匹配 (?<=(^(\d{4})+))/g
第三步：我们发现最末尾的也会多出来空格，这个空格是我们不想看到的。所以最后的末尾我们不去匹配。/(?<=(^(\d{4})+))(?<!$)/g

正则表达式循环匹配

分组实现循环匹配

相关推荐