「编程」正则表达式(字符串,文本处理)

一直以来,正则表达式都是开发人员必须掌握的技术,因为编程就是对信息进行处理,而信息大多数为文本字符串,因此,正则表达式就尤为重要了,但是由于正则表达式鼓噪无味晦涩难懂,需要死记硬背,这就难免让人望而生畏,不敢接触,今天我来简单分享一下正则表达式几个必备的语句,不需要背会,保存起来就行了。


1、正则表达式与通配符

正则表达式用来在文件中匹配符合条件的字符串, 正则是包含匹配。 grep、 awk、sed等命令可以支持正则表达式。

通配符用来匹配符合条件的文件名,通配符是完全匹配。 ls、 find、 cp这些命令不支持正则表达式,所以只能使用shell自己的通配符来进行匹配了。


2、基础正则表达式

元字符

作 用

*

前一个字符匹配0次或任意多次。

.

匹配除了换行符外任意一个字符。例:s.*d匹配said,sssssd,s爱神的箭卡仕达2d

^

匹配行首。例如:^hello会匹配以hello开头的行。

$

匹配行尾。例如:hello&会匹配以hello结尾的行。例:grep "^&" t.txt,匹配空行

[]

匹配中括号中指定的任意一个字符, 只匹配一个字符。 例如: [aoeiu] 匹配任意一个元音字母, [0-9] 匹配任意一位 数字, [a-z][0-9]匹配小写字和一位数字构成的两位字符。

[^]

匹配除中括号的字符以外的任意一个字符。 例如: [^0-9] 匹配 任意一位非数字字符, [^a-z] 表示任意一位非小写字母。 ^[^a-zA-Z] 匹配不以字母开头的。

\\

转义符。用于取消讲特殊符号的含义取消。

\\{n\\}

表示其前面的字符恰好出现n次。例如:[0-9]\\{4\\} 匹配4位数字

\\{n, \\}

表示其前面的字符出现不小于n次。 例如: [0-9]\\{2,\\} 表示两 位及以上的数字。

\\{n, m\\}

表示其前面的字符至少出现n次,最多出现m次。例如:[az]\\{6,8\\} 匹配6到8位的小写字母。

3.常用正则表达式

网址(URL)

[a-zA-z]+://[^\\s]*


IP地址(IP Address)

((2[0-4]\\d|25[0-5]|[01]?\\d\\d?)\\.){3}(2[0-4]\\d|25[0-5]|[01]?\\d\\d?)


电子邮件(Email)

\\w+([-+.]\\w+)*@\\w+([-.]\\w+)*\\.\\w+([-.]\\w+)*


QQ号码

[1-9]\\d{4,}


HTML标记(包含内容或自闭合)

.*|


密码(由数字/大写字母/小写字母/标点符号组成,四种都必有,8位以上)

(?=^.{8,}$)(?=.*\\d)(?=.*\\W+)(?=.*[A-Z])(?=.*[a-z])(?!.*\\n).*$


日期(年-月-日)

(\\d{4}|\\d{2})-((1[0-2])|(0?[1-9]))-(([12][0-9])|(3[01])|(0?[1-9]))


日期(月/日/年)

((1[0-2])|(0?[1-9]))/(([12][0-9])|(3[01])|(0?[1-9]))/(\\d{4}|\\d{2})


时间(小时:分钟, 24小时制)

((1|0?)[0-9]|2[0-3]):([0-5][0-9])


汉字(字符)

[\\\\u4e00-\\\\u9fa5]


中文及全角标点符号(字符)

[\\\\u3000-\\\\u301e\\\\ufe10-\\\\ufe19\\\\ufe30-\\\\ufe44\\\\ufe50-\\\\ufe6b\\\\uff01-\\\\uffee]


中国大陆固定电话号码

(\\d{4}-|\\d{3}-)?(\\d{8}|\\d{7})


中国大陆手机号码

1\\d{10}


中国大陆邮政编码

[1-9]\\d{5}


中国大陆身份证号(15位或18位)

\\d{15}(\\d\\d[0-9xX])?


非负整数(正整数或零)

\\d+


正整数

[0-9]*[1-9][0-9]*


负整数

-[0-9]*[1-9][0-9]*


整数

-?\\d+


小数

(-?\\d+)(\\.\\d+)?


不包含abc的单词

\\b((?!abc)\\w)+\\b


「编程」正则表达式(字符串,文本处理)


「编程」正则表达式(字符串,文本处理)


「编程」正则表达式(字符串,文本处理)


分享到:


相關文章: