Linux命令行文本工具

浏览文件

Copy
cat 查看文件内容
more 以翻页形式查看文件内容(只能向下翻页)
less 以翻页形式查看文件内容(可以上下翻页)
head 查看文件的头几行(默认10行)
tail 查看文件的尾几行(默认10行)

示例:

1、查看前10行

Copy
$ head -n 10 test.log

2、跟踪查看最后100行

Copy
$ tail -f -n 100 test.log

wc

命令 wc 用于统计文件的行数、单词数、字符数等。

不带参数时默认输出一行,字段格式为:

Copy
行数 单词数 字符数 文件名

常用参数:

Copy
-l 只统计行数
-w 只统计单词数
-c 只统计字节数
-m 只统计字符数
-L 最长的一行包含了多少个字符

grep

grep (global search regular expression(RE) and print out the line,全面搜索正则表达式并把行打印出来)是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。常用来在结果中搜索特定的内容。

一般格式:

Copy
 grep [选项] 基本正则表达式 [文件]

选项

Copy
 -c 只输出匹配行的计数
 -i 不区分大小写(单字符)
 -h 不显示文件名(多文件时)
 -l 只输出文件名(多文件时)
 -n 显示匹配行及行号
 -s 不显示错误信息
 -v 显示不包含匹配文本的所有行
 -r 递归在子目录里文件查找
 --color=auto 自动高亮找到的关键词

示例

1) 将/etc/passwd,有出现 root 的行取出来:

Copy
$ grep 'root' /etc/passwd
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin
# 或者
$ cat /etc/passwd | grep 'root'

2)将/etc/passwd,有出现 root 的行取出来,同时显示这些行在/etc/passwd的行号:

Copy
$ grep -n root /etc/passwd
1:root:x:0:0:root:/root:/bin/bash
30:operator:x:11:0:operator:/root:/sbin/nologin

3)将/etc/passwd,将没有出现 root 的行取出来

Copy
$ grep -v root /etc/passwd
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin

4)将/etc/passwd,将没有出现 root 和nologin的行取出来

Copy
$ grep -v root /etc/passwd | grep -v nologin
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin

5) 查找nginx是否运行:

Copy
$ ps aux | grep nginx
www 1576 0.0 2.7 71652 28232 ? S Aug14 0:21 nginx: worker process

根据文件内容递归查找目录

6)在当前目录里文件查找字符串'math'

Copy
$ grep 'math' *
grep: my: Is a directory
grep: my1: Is a directory
s.txt:lisi 1989 male math 99
s.txt:wangxuebing 1978 male math 89
s.txt:lichang 1989 male math 99

7)在当前目录及其子目录下搜索'math'行的文件

Copy
$ grep -r 'math' * 

8)当前目录及其子目录下搜索'math'行的文件,但是不显示匹配的行,只显示匹配的文件

Copy
$ grep -l -r 'math' * 
s.txt

显示行号:

Copy
$ grep -nr 'swoole' --color=auto /work/www/mixphp/*

正则表达式

支持正则语法,单引号里面写正则。

正则示例:

Copy
't[ae]st' #查找test或者tast
'[^g]oo' #字符串不含有g。注意中括号里是不包含,不是以其开头
'[^a-z]oo' #字符串前不包含a-z小写字母
'[0-9]' #包含数字0-9
'^the' #匹配字母t开始的字符
'the$' #匹配字母e结尾的字符

示例:

Copy
$ grep '^xu' s.txt 
xuliang 1977 male economic 89
xuxin 1986 female english 99

更多的正则知识请查看正则表达式相关知识。

扩展grep(grep -E 或者 egrep)

使用扩展grep的主要好处是增加了额外的正则表达式元字符集。

示例:

查找包含1990和1989的行:

Copy
$ grep -E '1990|1989' s.txt 
lisi 1989 male math 99
wanglijiang 1990 female chinese 78
lichang 1989 male math 99
wanglijiang 1990 female chinese 78
lisibao 1989 male math 99
xiaobao 1990 female chinese 78
Linux命令行文本工具

awk

awk简介

awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件(或其他方式的输入流, 如重定向输入)逐行的读入(看作一个记录集), 把每一行看作一条记录,以空格(或\t,或用户自己指定的分隔符)为默认分隔符将每行切片(类似字段),切开的部分再进行各种分析处理。

awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,gawk 是 AWK 的 GNU 版本。

Awk基本语法:

Copy
awk 'pattern1 {command1;command 2…; command 3} pattern2 { command …}'

pattern表示用来过滤记录的模式,可是是正则表达式,关系运算表达式,也可以什么也没有(表示选中所有记录)。

每个pattern选中的行记录会被花括号括起来的命令command操作一遍, command之间用;分割。 花括号里面可以什么也没有, 则默认为print输出整行记录。 Comamnd可以是输出, 可以是算术运算,逻辑运算,循环控制等等。

示例

s.txt

Copy
zhangsan 1977 male computer 83
lisi 1989 male math 99
wanglijiang 1990 female chinese 78
xuliang 1977 male economic 89
xuxin 1986 female english 99
wangxuebing 1978 male math 89
lichang 1989 male math 99
wanglijiang 1990 female chinese 78
zhangsansan 1977 male computer 83 
langxuebing 1978 male math 89
lisibao 1989 male math 99
xiaobao 1990 female chinese 78

一行中的5个字段分别表示姓名, 出生年, 性别,科目,分数, 是一个很传统很典型的报表文件。

现在演示awk是如何查找的:

1)直接输出1990年出生的同学:

Copy
$ awk '/1990/' s.txt
wanglijiang 1990 female chinese 78
wanglijiang 1990 female chinese 78
xiaobao 1990 female chinese 78
 

或者:

Copy
$ awk '/1990/{print $0}' s.txt

awk默认把输入的内容以空格拆分出每列。$0表示匹配所有列,print $0将输出所有列,每列分隔符是空格。

2)对chinese的课程的行输出"语文":

Copy
$ awk '/chinese/{print "语文"}' s.txt
语文
语文
语文

3)记录的头部和结尾加上一段说明:

Copy
$ awk 'BEGIN{print "Result of the quiz:\n"}{print $0}END{print "------"}' s.txt
Result of the quiz:
zhangsan 1977 male computer 83
lisi 1989 male math 99
wanglijiang 1990 female chinese 78
xuliang 1977 male economic 89
xuxin 1986 female english 99
wangxuebing 1978 male math 89
lichang 1989 male math 99
wanglijiang 1990 female chinese 78
zhangsansan 1977 male computer 83
langxuebing 1978 male math 89
lisibao 1989 male math 99
xiaobao 1990 female chinese 78
------

AWK工作流程:逐行扫描文件,从第一行到最后一行,寻找匹配特定模式的行,并在这些行上进行用户想要到的操作

BEGIN只会在最开始执行;END只会在扫描所有行数之后执行。BEGIN和END之间的花括号的内容每扫描一行都会执行。

4)查找女生的成绩且只输出姓名、学科、成绩:

Copy
$ awk '$3=="female"{print $1,$4,$5}' s.txt
wanglijiang chinese 78
xuxin english 99
wanglijiang chinese 78
xiaobao chinese 78

$1表示第1列,$n类推。这里条件是表达式,而不是正则。print里,表示空格分隔符。

5)找出1990年出生的学生姓名,并要求匹配正则:

Copy
$ awk '$2~/1990/{print $1}' s.txt
wanglijiang
wanglijiang
xiaobao

这里~表示匹配正则表达式。!~表示不匹配正则表达式。

如果需要多选,则改成:

Copy
$ awk '$2~/(1990|1991)/{print $1}' s.txt

6)找出大于1985年出生的学生姓名,年龄,使用表达式:

Copy
$ awk '$2>"1985"{print $1,$2}' s.txt
lisi 1989
wanglijiang 1990
xuxin 1986
lichang 1989
wanglijiang 1990
lisibao 1989
xiaobao 1990

awk内置变量

awk有许多内置变量用来设置环境信息,这些变量可以被改变,下面给出了最常用的一些变量。

Copy
ARGC 命令行参数个数
ARGV 命令行参数排列
ENVIRON 支持队列中系统环境变量的使用
FILENAME awk浏览的文件名
FNR 浏览文件的记录数
FS 设置输入列分隔符,等价于 -F选项。默认是空格
OFS 输出列分隔符。默认是空格
NF 列的字段总数,$NF指当前列最后一个的值
NR 已读的记录数(当前行数)
ORS 行输出分隔符,默认为\n
RS 行输入分隔符,默认分隔符为\n
RT 指定的那个分隔符
$0 指整条记录
$1, $2, … $n 分别是第1,2,...n列的字段值

示例:

6)第四个字段科目为chinese的记录编号, 学生姓名, 科目:

Copy
$ awk '$4=="chinese"{print NR, $1, $4, $5}' s.txt
3 wanglijiang chinese 78
8 wanglijiang chinese 78
12 xiaobao chinese 78

7)统计数学成绩大于90的个数:

Copy
$ awk 'BEGIN{goodMath=0;}($4=="math" && $5>90){goodMath++}END{print goodMath}' s.txt
3

8)更换输入换行符

Copy
echo "11 22|12 23" | awk 'BEGIN{RS="|"}{print $0}'

等价于:

Copy
echo "11 22|12 23" | awk -v RS='|' '{print $0}'

输出:

Copy
11 22
12 23

注:文本内容(例如"11 22\n12 23")里的\n不是换行符,实际是\\n。shell里字符串的\n要生效,需要使用echo -e。示例:echo -e "11 22\n12 23" | awk '{print $0}' 。

9)更换列输入、输出分隔符:

Copy
$ cat /etc/passwd |awk -F ':' -v OFS='\t' '{print $1}' 
root
daemon
bin
sys

-F指定输入域分隔符为:。-F等价于-v FS。

-v OFS指定输出域分隔符为\t。

注:-F和-v OFS在处理MySQL数据导出导入时有非常大的作用:我们可以使用-F指定每列是以\t或者,(csv格式)分隔的;输出的时候我们可以用-v OFS指定每列分隔符,默认的空格经常不足以方便使用。如果使用了-v OFS,使用print $0是改变不了输出分隔符的,需要手动指定列,例如print $1,$2。

10)批量操作

Copy
# docker里关闭所有正在运行容器
docker ps | awk '{print $1}' | xargs docker stop
# docker里删除所有容器应用
docker ps -a | awk '{print $1}' | xargs docker rm

11)文件切割

Copy
awk '{filename = "sub." int((NR-1)/5000) ".csv"; print >> filename}' history.csv

每5W行切割为一个文件。

12)分组合并

例如test.txt文本内容是:

Copy
yjc 1 20170118
yjc 1 20170118
lisi 1 20170223

需要整理成(姓名、日期相同的计数累加):

Copy
yjc 2 20170118
lisi 1 20170223

脚本:

Copy
cat test.txt | awk '{a[$1$3]["c"]+=$2;a[$1$3]["u"]=$1;a[$1$3]["d"]=$3;}END{for(i in a)print a[i]["u"],a[i]["c"],a[i]["d"]}'

awk函数

awk还支持内置函数。这里只列举部分。

Copy
int(x) 返回 x 的截断至整数的值
rand() 返回任意数字 n,其中 0 <= n < 1。
sqrt(x) 返回 x 平方根。
sub(Ere, Repl, [In]) 字符串替换
gsub(Ere, Repl, [In]) 正则替换
index(str, str2) str2在str中出现的位置,从1开始编号。不存在返回0
substr(str, M, [N]) 返回具有N参数指定的字符数量子串。如果未指定 N 参数,则子串的长度将是M参数指定的位置到str参数的末尾的长度。
length [(str)] 返回 str 参数指定的字符串的长度(字符形式)。如果未给出 str 参数,则返回整个记录的长度($0 记录变量)。
match(str, Ere) 返回Ere匹配的字符串在str中出现的位置,从1开始编号。不匹配返回 -1
tolower(str) 字符串转小写
toupper(str) 字符串转大写
split(str, A, [Ere] ) 将str参数指定的参数分割为数组元素 A[1], A[2], . . ., A[n],并返回n变量的值。分隔符由正则表达式Ere匹配得出。
mktime(YYYY MM DD HH MM SS[DST]) 根据日期生成时间戳。失败返回-1 
strftime([format [, timestamp]]) 格式化时间输出,将时间戳转为时间字符串
systime() 得到时间戳

13) int函数

Copy
$ echo "10.22元" | awk '{$1=int($1);print $1}'
10

如果只是想转换为数字,可以使用乘法运算:

Copy
$ echo "10.22元" | awk '{$1=$1*1;print $1}'
10.22

14) 数学函数

Copy
$ echo 9 | awk '{$1=sqrt($1);print $1}'
3

15) 字符串函数

Copy
$ awk 'BEGIN{info="test2010test";gsub("2010"," ",info);print info}'
test test
$ awk 'BEGIN{info="test2010test";gsub(/[0-9]+/," ",info);print info}'
test test
$ awk 'BEGIN{info="test2010test";print index(info, 2010);}'
5
$ awk 'BEGIN{info="test2010test";print substr(info, 5);}'
2010test
$ awk 'BEGIN{info="test2010test";print length(info);}'
12
$ awk 'BEGIN{info="test2010test";print toupper(info);}'
TEST2010TEST
$ awk 'BEGIN{info="test2010test";print match(info, /[0-9]+/);}'
5
$ echo "10:20" | awk '{split($1,arr,":");print arr[1];print arr[1];print arr[1]*60+arr[2];}'
10
10
620
$ awk 'BEGIN{info="hello shell";split(info,arr," ");print length(arr);for(k in arr){print
 k,arr[k];}}'
2
1 hello
2 shell

awk for …in 循环,是一个无序的循环。 并不是从数组下标1…n ,因此使用时候需要注意。split生成的数组下标从1开始。

16) 时间戳函数

Copy
$ awk 'BEGIN{print systime();}'
1543668202
$ awk 'BEGIN{print strftime("%Y-%m-%d %H:%M:%S",1543668202);}'
2018-12-01 20:43:22
$ awk 'BEGIN{print mktime("2018 12 01 20 43 22");}'
1543668202
$ awk 'BEGIN{$1="2018-12-20";gsub(/[-:]/," ",$1);print mktime($1." 20 43 22");}'
1545309802

printf格式化

格式和C语言的一样。支持%d %s %u %f %c %o %x等。

格式符说明%d十进制有符号整数%u十进制无符号整数%f浮点数%s字符串%c单个字符%p指针的值%e指数形式的浮点数%x%X 无符号以十六进制表示的整数%o无符号以八进制表示的整数%g自动选择合适的表示法

Copy
$ awk 'BEGIN{x=12.12; printf("%.2f,%.2u,%d,%s,%o\n",x,x,x,x,x);}'
12.12,12,12,12.12,14

其它详见:https://www.cnblogs.com/chengmo/archive/2010/10/08/1845913.html

17) if...else

if后面的条件判断需要使用括号括起来。支持 ==, >, =, <= 等判断。

示例: 将下列文件格式转换为新的格式:

原格式:route.csv

Copy
//测试
'/api/user/info' => 'User::getUserInfo',
'/api/user/info_batch' => 'User::getUserInfoBatch', //批量获取

新格式:route2.csv

Copy
//测试
'/api/user/info' => ["route" => 'User::getUserInfo', "tag" => 'user'],
'/api/user/info_batch' => ["route" => 'User::getUserInfoBatch', "tag" => 'user'], //批量获取

脚本:

Copy
cat route.csv | awk -F '=>' -v OFS='\t' '{print $1,$2}' | awk -F ',' -v OFS='\t' '{print $1,$2}' | awk -F '\t' '{if($2>"") print $1, " => [ "route" => "$2", "tag" => "user" ], "$3; else print $1 }' >> route2.csv

sed

和grep、awk不同,sed更侧重对搜索文本的处理,如修改、删除、替换等等。

sed工作原理:sed会一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,成为"模式空间",接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下一行,这样不断重复,直到文件末尾。文件内容并没有改变,除非你使用重定向存储输出。

语法

Copy
sed [options] 'command' file(s)
sed [options] -f>

参数说明:

Copy
-n, --quiet, --silent 安静模式,也就是不会输出默认打印信息
-e 将编辑的结果返回到标准输出
-i 直接编辑文件而不是显示在屏幕上
-f  
@飞鸿影的Blog

Linux命令行文本工具

0/2000字

广告

重复、旧闻

格式问题

低俗

标题夸张

与事实不符

抄袭侵犯名誉/商誉/肖像/隐私权

其他问题,我要吐槽


分享到:


相關文章: