正则表达式(Regular Expression)是一种文本模式,使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。它繁琐也强大,几乎所有所有编程语言都支持利用正则表达式进行字符串操作。认真学习,勤动手。加上应用的时候进行一定的参考,掌握正则表达式不是问题。
首先我们用一条正则来做通篇的线索列表可以不记,但练习一定要做
w[-w.+]*@([A-Za-z0-9][-A-Za-z0-9]+.)+[A-Za-z]{2,14}
在线正则检测工具 (可以生成各种语言正则匹配的代码)
元字符
:w[-w.+]*@([A-Za-z0-9][-A-Za-z0-9]+.)+[A-Za-z]{2,14}
w 表示 匹配字母、数字、下划线
它是元字符,除此之外的元字符还有:
有了元字符,我们就可以练些简单的匹配
1. 匹配ing结尾单词
ing
2. 匹配11位数的中国手机号:
1dddddddddd
:w[-w.+]*@([A-Za-z0-9][-A-Za-z0-9]+.)+[A-Za-z]{2,14}
[-w.+] 区间,表示 匹配符号 -,或字母、数字、下划线,或符号 . ,或符号 +
除此之外的常见用法还有:
限定符
:w[-w.+]*@([A-Za-z0-9][-A-Za-z0-9]+.)+[A-Za-z]{2,14}
* 表示出现,匹配前面的子表达式零次或多次。例如,zo* 能匹配 'z' 以及 'zoo'
除此之外的限定符还有:
有了区间、限定符,结合元字符
1. 匹配9位数的QQ邮箱:
[0-9]{9}@qq.com
2. 身份证号:
d{17}[0-9Xx]|d{15}
3. ip地址:
d{0,3}.d{0,3}.d{0,3}.d{0,3}
:w[-w.+]*@([A-Za-z0-9][-A-Za-z0-9]+.)+[A-Za-z]{2,14}
@ 是普通字符,标识必定会出现的内容。 比如:匹配域名 juejin.im,你完全可以用
https://juejin.im
但由于符号 /、.、(、) 等等在正则是特殊字符,所以需要用转义符 转义
https://juejin.im
学到这里。结合在线检测工具,就能满足工作基本需要
在线正则检测工具 (可以生成各种语言正则匹配的代码)
接下来会说正则中重要的概念
子表达式
用圆括号组成一个比较复杂的匹配模式,那么一个圆括号的部分我们可以看作是一个子表达式。
举例 var reg=/(d)([a-z]*)/gi
捕获 & 反捕获
多个子表达式所匹配到的内容按顺序出现在内存的缓冲区中捕获数组,这个我们称为捕获
举例 var reg=/(d)([a-z]*)/gi 匹配 1adkk
用js代码验证下:/(d)([a-z]*)/gi
反捕获 与 捕获相反,标记不需要捕获的内容
用js代码验证下:/(?:d)([a-z]*)/gi
反向引用
圆括号的内容被捕获后,可以在这个括号后被使用,从而写出一个比较实用的匹配模式,这个我们称为反向引用
var str='1adkk' var reg=/(d)([a-z])/gi
把 (d)匹配到的结果 1 放入缓存区 => 引用 $1
把 ([a-z])匹配的内容 a 放入缓存区 => 引用 $2
用js代码验证下:
贪婪
贪婪匹配:当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符,这匹配方式叫做贪婪匹配。
举个例子:
由结果得知:“1adkk adkkk adkkkk”这一段,其实只需要出现4个字母就匹配成功,但是它并不满足,而是匹配到了最大能匹配的字符,也就是6个。 一个量词就如此贪婪
懒惰 / 非贪婪
当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能少的字符,这匹配方式叫做懒惰匹配。
懒惰量词是在贪婪量词后面加个?