一直以来,正则表达式都是开发人员必须掌握的技术,因为编程就是对信息进行处理,而信息大多数为文本字符串,因此,正则表达式就尤为重要了,但是由于正则表达式鼓噪无味晦涩难懂,需要死记硬背,这就难免让人望而生畏,不敢接触,今天我来简单分享一下正则表达式几个必备的语句,不需要背会,保存起来就行了。
1、正则表达式与通配符
正则表达式用来在文件中匹配符合条件的字符串, 正则是包含匹配。 grep、 awk、sed等命令可以支持正则表达式。
通配符用来匹配符合条件的文件名,通配符是完全匹配。 ls、 find、 cp这些命令不支持正则表达式,所以只能使用shell自己的通配符来进行匹配了。
2、基础正则表达式
元字符
作 用
*
前一个字符匹配0次或任意多次。
.
匹配除了换行符外任意一个字符。例:s.*d匹配said,sssssd,s爱神的箭卡仕达2d
^
匹配行首。例如:^hello会匹配以hello开头的行。
$
匹配行尾。例如:hello&会匹配以hello结尾的行。例:grep "^&" t.txt,匹配空行
[]
匹配中括号中指定的任意一个字符, 只匹配一个字符。 例如: [aoeiu] 匹配任意一个元音字母, [0-9] 匹配任意一位 数字, [a-z][0-9]匹配小写字和一位数字构成的两位字符。
[^]
匹配除中括号的字符以外的任意一个字符。 例如: [^0-9] 匹配 任意一位非数字字符, [^a-z] 表示任意一位非小写字母。 ^[^a-zA-Z] 匹配不以字母开头的。
\\
转义符。用于取消讲特殊符号的含义取消。
\\{n\\}
表示其前面的字符恰好出现n次。例如:[0-9]\\{4\\} 匹配4位数字
\\{n, \\}
表示其前面的字符出现不小于n次。 例如: [0-9]\\{2,\\} 表示两 位及以上的数字。
\\{n, m\\}
表示其前面的字符至少出现n次,最多出现m次。例如:[az]\\{6,8\\} 匹配6到8位的小写字母。
3.常用正则表达式
网址(URL)
[a-zA-z]+://[^\\s]*
IP地址(IP Address)
((2[0-4]\\d|25[0-5]|[01]?\\d\\d?)\\.){3}(2[0-4]\\d|25[0-5]|[01]?\\d\\d?)
电子邮件(Email)
\\w+([-+.]\\w+)*@\\w+([-.]\\w+)*\\.\\w+([-.]\\w+)*
QQ号码
[1-9]\\d{4,}
HTML标记(包含内容或自闭合)
.*|
密码(由数字/大写字母/小写字母/标点符号组成,四种都必有,8位以上)
(?=^.{8,}$)(?=.*\\d)(?=.*\\W+)(?=.*[A-Z])(?=.*[a-z])(?!.*\\n).*$
日期(年-月-日)
(\\d{4}|\\d{2})-((1[0-2])|(0?[1-9]))-(([12][0-9])|(3[01])|(0?[1-9]))
日期(月/日/年)
((1[0-2])|(0?[1-9]))/(([12][0-9])|(3[01])|(0?[1-9]))/(\\d{4}|\\d{2})
时间(小时:分钟, 24小时制)
((1|0?)[0-9]|2[0-3]):([0-5][0-9])
汉字(字符)
[\\\\u4e00-\\\\u9fa5]
中文及全角标点符号(字符)
[\\\\u3000-\\\\u301e\\\\ufe10-\\\\ufe19\\\\ufe30-\\\\ufe44\\\\ufe50-\\\\ufe6b\\\\uff01-\\\\uffee]
中国大陆固定电话号码
(\\d{4}-|\\d{3}-)?(\\d{8}|\\d{7})
中国大陆手机号码
1\\d{10}
中国大陆邮政编码
[1-9]\\d{5}
中国大陆身份证号(15位或18位)
\\d{15}(\\d\\d[0-9xX])?
非负整数(正整数或零)
\\d+
正整数
[0-9]*[1-9][0-9]*
负整数
-[0-9]*[1-9][0-9]*
整数
-?\\d+
小数
(-?\\d+)(\\.\\d+)?
不包含abc的单词
\\b((?!abc)\\w)+\\b
閱讀更多 攻防基地 的文章