正则表达式
定义:是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
用处:通过某种匹配模式,将有效的python标识筛选出来。
字符描述
在正则表达式中,如果直接给出字符,就是精确匹配。[]表示匹配范围,\d 可以匹配一个数字, \w 可以匹配一个字母或数字,\s可以匹配一个空格,. 可以任意匹配字符 :
如 [a-zA-Z]\w+ 的含义是第一个字符是字母,也就是要么是a-z,要么是是A-Z。后面至少一个(+)【后面讲述】字母或数字组成的字符(\w)。
在正则表达式中,要匹配长度可变的字符,用 * 表示任意个字符(包括0个),用 ? 表示0个或1个字符,+表示至少匹配一个字符,用 {n} 表示n个字符,用 {n,m} 表示n-m个字符:
在正则表达式中,有一些特殊的符号: A|B 表示匹配A或者B ^表示行的开头 $表示行的结束
注:其他表示符号还有很多,用法也有很多,在此不做过多说明
Python中,通过标准库中的re模块支持正则表达式!
python中有两种方法完成模式匹配:
1. 搜索(Searching):在字符串任意部分搜索匹配模式,通过search()函数或方法来实现。
2. 匹配(matching):判断一个字符串能否从起始处全部或者部分地匹配摸个模式。通过调用match()函数或者方法实现