Shell笔记：字符串提取

本文讲的字符串提取指的是从文件或某个输出中提取符合条件的列的内容，如果某个文件或输出中它的每一行的信息都是使用特定的分隔符来分割的话，就可以使用字符串的提取功能，本文涉及到的命令包括cut、printf、awk、sed等。

cut命令
cut [选项] 文件名：在文件中提取符合条件的列。
选项：

-f 列号：提取第几列，提取多列只需要将列号用逗号隔开即可。
-d 分隔符：按照指定分隔符分割列，如果分割符使用的是制表符tab，则不用特地指定分隔符，且对于cut命令来说，不能使用空格来作为分隔符。

示例：“cut -d ":" -f 1,3 /etc/passwd”表示使用分号作为分隔符分割文档后提取第一列和第三列的内容。

printf格式化输出
平常使用字符串输出时使用cat或echo命令即可，printf命令只是在AWK编程中比较常用，在平常的使用中并不常用。AWK编程中，会有print命令和printf命令，但是printf是Linux的标准输出命令，但是它默认没有输出换行符，而print在Linux命令中是没有的，且默认会自动输出换行符。
printf "输出类型和格式" 输出内容：格式化输出字符串（使用单引号或者双引号都行）。
输出类型：

%ns：输出字符串，n是数字，表示输出多少个字符。
%ni：输出整数，n是数字，表示输出多少个数字。
%m.nf：输出浮点数。m和n是数字，表示输出的整数位数和小数位数。

输出格式：

\a：输出警告声音。
\b：输出退格键。
\f：清除屏幕。
\n：换行。
\r：回车。
\t：水平制表符。
\v：垂直制表符。

AWK命令
AWK命令因为功能强大且复杂，所以通常也称为AWK编程，但是它的作用也是用来提取指定的列。
awk命令可以自动识别空格分隔的字符串（即使每列分隔的空格数不同也行），但cut命令就不可以。
awk '条件1{动作1} 条件2{动作2}...' 文件名：提取符合条件的字符串，也可以使用管道符的结果作为文件内容。
常用条件：

x>10：判断x是否大于10。
x>=10：大于等于。
x<=10：小于等于。
BEGIN：在执行文件内容的所有动作之前先执行这个命令。
END：在执行完所有动作之后执行这个命令。

常用动作：

格式化输出。
流程控制语句。
FS：指定分割符，如BEGIN{FS=":"}以冒号作为分割符，通常会和BEGIN配合使用，不然第一行字符串不会被分割处理。

示例：
awk '{printf $2 "\t" $6 "\n"}' test.txt：输出文件中所有内容的第2列和第6列，第2列和第6列之间使用制表符分隔，并且第6列之后输出换行符（这里的printf如果换为print，就可以不用指定换行符了）。
df -h | grep sda5 | awk '{print $5}'：查询分区信息中包含sda5的行，并输出这些行的第5列（可以自动以空格作为分隔符。）

sed命令
sed其实就是一个轻量级的流编辑器，sed命令主要用来进行数据的选取、替换、删除、新增。
sed和vim等编辑器的区别在于，vim操作的对象是一个文件，sed操作的对象不仅可以是文件，也可以是其他命令的结果或管道符输出的结果。
sed [选项] '[动作]' 文件名：处理输出并输出到屏幕或文件。
选项：

-n：一般sed命令会把所有数据都输出到屏幕，如果加入此选项，则只会把经过sed命令处理的行输出到屏幕。
-e：允许对输入数据应用多条sed命令编辑，多个命令之间使用分号隔开。
-i：用sed的修改结果直接修改读取数据的文件，而不是输出到屏幕（如果是处理文件，还是建议使用vim等编辑器而不是使用-i选项）。

动作：

a \：追加，在指定行后追加一行或多行数据，使用\表示达到换行效果（它本身表示数据还未输出完，换一行继续输出），如“sed '2a hello \ welcome' test.txt”表示在这个文件中第2行之后追加两行数据hello和welcome。
c \：行替换，使用指定的字符串替换原来的数据行，想要将指定行替换为多行的数据，同样使用\即可。
i \：插入，在指定行之前插入一行或多行数据。
d：删除指定行。
p：打印指定行，如“sed -n '2p'”表示只打印第2行，注意p选项一般和n一起使用，因为不加-n的话默认会先输出全部数据，然后再额外输出p选项指定的行，但这样的效果肯定不会是我们想要的。
s：字符串替换，格式为“sed '[n]s/旧字符串/新字符串/g' 文件名”，如果不指定n则表示文件全部内容，如果想要指定多行，则行号之间使用逗号隔开即可，如“sed '3s/99/55/g' test.txt”表示将文件中第3行中的99替换为55。

Shell笔记：字符串提取

相关推荐