Shell笔记:字符串提取

本文讲的字符串提取指的是从文件或某个输出中提取符合条件的列的内容,如果某个文件或输出中它的每一行的信息都是使用特定的分隔符来分割的话,就可以使用字符串的提取功能,本文涉及到的命令包括cut、printf、awk、sed等。

 

cut命令
cut [选项] 文件名:在文件中提取符合条件的列。
选项:

  • -f 列号:提取第几列,提取多列只需要将列号用逗号隔开即可。
  • -d 分隔符:按照指定分隔符分割列,如果分割符使用的是制表符tab,则不用特地指定分隔符,且对于cut命令来说,不能使用空格来作为分隔符。

示例:“cut -d ":" -f 1,3 /etc/passwd”表示使用分号作为分隔符分割文档后提取第一列和第三列的内容。

 

printf格式化输出
平常使用字符串输出时使用cat或echo命令即可,printf命令只是在AWK编程中比较常用,在平常的使用中并不常用。AWK编程中,会有print命令和printf命令,但是printf是Linux的标准输出命令,但是它默认没有输出换行符,而print在Linux命令中是没有的,且默认会自动输出换行符。
printf "输出类型和格式" 输出内容:格式化输出字符串(使用单引号或者双引号都行)。
输出类型:

  • %ns:输出字符串,n是数字,表示输出多少个字符。
  • %ni:输出整数,n是数字,表示输出多少个数字。
  • %m.nf:输出浮点数。m和n是数字,表示输出的整数位数和小数位数。

输出格式:

  • \a:输出警告声音。
  • \b:输出退格键。
  • \f:清除屏幕。
  • \n:换行。
  • \r:回车。
  • \t:水平制表符。
  • \v:垂直制表符。

 

AWK命令
AWK命令因为功能强大且复杂,所以通常也称为AWK编程,但是它的作用也是用来提取指定的列。
awk命令可以自动识别空格分隔的字符串(即使每列分隔的空格数不同也行),但cut命令就不可以。
awk '条件1{动作1} 条件2{动作2}...' 文件名:提取符合条件的字符串,也可以使用管道符的结果作为文件内容。
常用条件:

  • x>10:判断x是否大于10。
  • x>=10:大于等于。
  • x<=10:小于等于。
  • BEGIN:在执行文件内容的所有动作之前先执行这个命令。
  • END:在执行完所有动作之后执行这个命令。

常用动作:

  • 格式化输出。
  • 流程控制语句。
  • FS:指定分割符,如BEGIN{FS=":"}以冒号作为分割符,通常会和BEGIN配合使用,不然第一行字符串不会被分割处理。

示例:
awk '{printf $2 "\t" $6 "\n"}' test.txt:输出文件中所有内容的第2列和第6列,第2列和第6列之间使用制表符分隔,并且第6列之后输出换行符(这里的printf如果换为print,就可以不用指定换行符了)。
df -h | grep sda5 | awk '{print $5}':查询分区信息中包含sda5的行,并输出这些行的第5列(可以自动以空格作为分隔符。)

 

sed命令
sed其实就是一个轻量级的流编辑器,sed命令主要用来进行数据的选取、替换、删除、新增。
sed和vim等编辑器的区别在于,vim操作的对象是一个文件,sed操作的对象不仅可以是文件,也可以是其他命令的结果或管道符输出的结果。
sed [选项] '[动作]' 文件名:处理输出并输出到屏幕或文件。
选项:

  • -n:一般sed命令会把所有数据都输出到屏幕,如果加入此选项,则只会把经过sed命令处理的行输出到屏幕。
  • -e:允许对输入数据应用多条sed命令编辑,多个命令之间使用分号隔开。
  • -i:用sed的修改结果直接修改读取数据的文件,而不是输出到屏幕(如果是处理文件,还是建议使用vim等编辑器而不是使用-i选项)。

动作:

  • a \:追加,在指定行后追加一行或多行数据,使用\表示达到换行效果(它本身表示数据还未输出完,换一行继续输出),如“sed '2a hello \ welcome' test.txt”表示在这个文件中第2行之后追加两行数据hello和welcome。
  • c \:行替换,使用指定的字符串替换原来的数据行,想要将指定行替换为多行的数据,同样使用\即可。
  • i \:插入,在指定行之前插入一行或多行数据。
  • d:删除指定行。
  • p:打印指定行,如“sed -n '2p'”表示只打印第2行,注意p选项一般和n一起使用,因为不加-n的话默认会先输出全部数据,然后再额外输出p选项指定的行,但这样的效果肯定不会是我们想要的。
  • s:字符串替换,格式为“sed '[n]s/旧字符串/新字符串/g' 文件名”,如果不指定n则表示文件全部内容,如果想要指定多行,则行号之间使用逗号隔开即可,如“sed '3s/99/55/g' test.txt”表示将文件中第3行中的99替换为55。

 

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


系ubuntu 下面打开终端输入:sudo apt-get install sendmail一般就安装完成噶啦跟住进入 /etc/mail/目录输入:m4 sendmail.mc &gt; sendmail.cf意思系跟住.mc文件 生成 sendmial.cf文件输入呢个命令:ps aux | g
依家我有1个软件goagent目录(大家懂得) 放在/home/gateman/Programs/ 下 1. proxy.py 入面有1个 proxy.py 文件 放在/home/gateman/Programs/goagent/local/ 入面 2.breakwall.sh 我在 proxy.p
其实我想讲的是 cp -L关于-L参数的解释:-L, --dereference always follow symbolic links in SOURCE意思是如果复制目标是1个软链接,则复制链接的目标 不是链接本身做个例子: 例如 ~/tmp/fo1 入面有1个c.txt 文件 和 指向他的软
原地址:http://www.rjgc.net/control/content/content.php?nid=4418 1、将文件checkout到本地目录svn checkout path(path是服务器上的目录)例如:svn checkout svn://192.168.1.1/pro/do
chroot,即 change root directory (更改 root 目录)。在 linux 系统中,系统默认的目录结构都是以 `/`,即是以根 (root) 开始的。而在使用 chroot 之后,系统的目录结构将以指定的位置作为 `/` 位置。实例:用live CD ubuntu假设你的
简单解析下, stdin就是标准输入, stdout就是标准。举个例子, 在当前我要打包1个文件夹 /var/log/ 到当前目录下,并用zip压缩,那么我们可以分步执行#tar -cvf log.tar /var/log/#zip -r log.tar.zip log.tar#rm -rf log
转自:http://man.ddvip.com/linux/Mandrakelinuxref/process-priority.html系统中运行的每个进程都有一个优先级(亦称“nice 值”),其范围从 -20 (最高优先级)到 19 (最低优先级)。默认情况下,进程的优先级是 0 (“基本”调度
str=&quot;/home/gateman&quot; if [ ${str:0:1} = &quot;/&quot; ]; then echo &quot;yes&#39;fi ${str:0:1} 中0表示从第几个字符开始,1表示截取多长
转自:http://kwokchivu.blog.51cto.com/1128937/694347 在RedHat系统下用usermod 命令可把某用户添加进多个附属组,默认情况下,一次性添加多个附属组可用以下方式来添加: usermod -G 附属组1,附属组2,...,附属组X 用户名 但在添加
有个文件 test.txt 内容如下:bash-3.00$ cat test.txt user user user_hiuser #注:呢行系空行T JGATEMANGATTTTTEMANGABBEMANAAABbash-3.00$下面介绍下常用的通配符 配合grep 命令:1. &quot;.&q
linux系统为每1个文件都分配有i索引节点(inode),系统根据呢d节点从磁盘找出数据。 一般来讲,每1个文件名(包含全路径)实际上都链接住1个i索引节点。inode实际上系乜咧? 其实可以算系1个指向磁盘具体位置(柱面,扇区之类)的指针, 系统分析某个文件的inode,得出磁盘柱面,扇区等数据
grep 可以立即为筛选, 一般的用法系 grep + 要查询的字段 + 文件(或者内容 例如| 传递既内容)1.grep + 要查询的字段 + 文件gateman@GPC:~/shell/SQL_GSI$ grep OID a.sqlWHERE OID=@BuildNOWHERE OID INWH
原文转自:http://www.ibm.com/developerworks/cn/linux/l-cn-vimcolumn/index.html开始之前人类大脑对文字的处理是平面式的,所以我们浏览文章、查找资料或者重构代码,要么是横向读,要么是纵向读,要么使用搜索功能,将文字作为一个平面整体。而在
PS:偶很喜欢用scp这个命令来传输数据。scp命令跟cp命令类似,只不过cp命令是在同一台机器上用的,scp是在两台机器上复制传输数据的命令。scp实质相当于利用SSH协议来传输数据的cp命令。 用法举例: 1、复制远程服务器的文件到本地: scp -P888 root@120.18.50.33:
打开终端,进入/bin/ls 一下会见到 bash sh 呢两个文件。其实距地系两个唔同既shell 解析器。如果在脚本a.sh 开头写入#!/bin/sh那么执行./a.sh 时候 就相当于 sh a.sh同理 开头写入#!/bin/bash执行./a.sh 时候 就相当于 bash a.sh如果
find查找文件的时候排除某个或几个文件或目录转自:http://www.cnblogs.com/starspace/archive/2008/10/20/1315380.html比如要在/usr/sam目录下查找不在dir1子目录之内的所有文件find /usr/sam -path &quot;/
假设有变量 var=http://www.google.com/test.htm一 # 号截取,删除左边字符,保留右边字符。echo ${var#*//}其中 var 是变量名,# 号是运算符,*// 表示从左边开始删除第一个 // 号及左边的所有字符即删除 http://结果是 :www.goog
转自: http://edyfox.codecarver.org/html/_vimrc_for_beginners.htmlVIM 中可供用户定制的选项非常非常多,作为初学者,我们没有必要了解这么多东西。下面,滇狐简单列出了一些最常用的配置项,大家可以根据自己的需要将这些内容添加到自己的 .vim
转自:http://www.einit.com/user1/11/archives/2006/3603.htmlUnix/Linux下一般想让某个程序在后台运行,很多都是使用 &amp; 在程序结尾来让程序自动运行。比如我们要运行mysql在后台: /usr/local/mysql/bin/mysq
首先, mount是类unix系统, 挂载设备到1个文件夹的操作命令, 注意系设备阿正常来讲,mount 是不能挂在文件夹到文件夹的。例如, 在我的~/tmp/ 目录中有两个文件夹fo1 fo2其中fo1 中有3个文件a.txt b.txt c.txt fo2 有4个 e.txt d.txt e.t