大(27GB)文件的grep功能更快

时间：2019-05-01分类：Linux作者：编程之家用户

我必须从一个大文件(27GB)的文件(5MB)grep包含特定的字符串相同的字符串(和其他信息).
为了加快分析,我将27GB文件分解成1GB文件,然后应用以下脚本(在这里的一些人的帮助下).但是它不是很有效(生成一个180KB的文件需要30个小时！).

这是脚本.有没有比grep更合适的工具？还是使用grep更有效的方式？

#!/bin/bash

NR_CPUS=4
count=0


for z in `echo {a..z}` ;
do
 for x in `echo {a..z}` ;
 do
  for y in `echo {a..z}` ;
  do
   for ids in $(cat input.sam|awk '{print $1}');  
   do 
    grep $ids sample_"$z""$x""$y"|awk '{print $1" "$10" "$11}' >> output.txt &
    let count+=1
                                [[ $((count%NR_CPUS)) -eq 0 ]] && wait
   done
  done #&

解决方法

你可以尝试几件事：

1)你正在读取input.sam多次.它只需要在你的第一个循环开始之前被读取一次.将这个id保存到一个临时文件中,这个文件将被grep读取.

2)使用LC_ALL = C将您的grep命令前缀使用C语言环境而不是UTF-8.这样会加快grep.

3)使用fgrep,因为您正在搜索固定的字符串,而不是正则表达式.

4)使用-f使grep从文件中读取模式,而不是使用循环.

5)不要从多个进程写入输出文件,因为可能会导致行交错和损坏的文件.

进行这些更改后,您的脚本将成为：

awk '{print $1}' input.sam > idsFile.txt
for z in {a..z}
do
 for x in {a..z}
 do
  for y in {a..z}
  do
    LC_ALL=C fgrep -f idsFile.txt sample_"$z""$x""$y" | awk '{print $1,$10,$11}'
  done >> output.txt

另外,查看GNU Parallel是为了帮助您并行运行作业而设计的.

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

相关推荐

linux进程通信

linux常用进程通信方式包括管道（pipe）、有名管道（FIFO）、信号（signal）、消息队列、共享内存、信号量、套接字（socket)。管道用于具有亲缘关系的进程间通信,有名管道的每个管道具有名字,使没有亲缘关系的进程间也可以通信。信号是比较复杂的通信方式，用于通知接受进程有某种事件发生，除

Linux常用性能工具功能、用法及原理(一)

Linux性能观测工具按类别可分为系统级别和进程级别，系统级别对整个系统的性能做统计,而进程级别则具体到进程,为每个进程维护统计信息。

按实现原理分,可分为基于计数器和跟踪以及剖析。含义如下:

计数器:内核维护的统计数据，通常为无符号整型,用于对发生的事件计数,比如，网络包接收计数器,磁

curl命令详解

本文详细介绍了curl命令基础和高级用法，包括跳过https的证书验证，详细追踪整个交互过程,可用于调用网络后端接口，诊断http和https网络服务故障。

linux常用命令示例汇总

本文包含作者工作中常用到的一些命令,用于诊断网络、磁盘占满、fd泄漏等问题。命令包括ping、fping、tcpdump、lsof、netstat、/proc/$pid/fd、du、grep、traceroute、dig。

linux平均负载的理解及原因排查

linux的平均负载表示运行态和就绪态及不可中断状态(正在io)的进程数目,用uptime查看到负载很高，既有可能是CPU利用率高，也可能是大量在等待io的进程导致，用mpstat查看每个CPU的使用情况，查看CPU的使用率或者CPU花在等待io的时间，接着用pidstat定位具体的进程

CPU上下文切换

CPU上下文频繁切换会导致系统性能下降，切换分为进程切换、线程切换及中断切换，进程切换的开销较大，除了需要保存寄存器和程序计数器中的值还需保存全局变量、栈等到内存中，以便下次运行恢复，而同一进程中的线程切换开销会小很多，只需更新寄存器和线程独有的栈，共享资源如打开的文件、全局变量等无需切换，当硬件中

linux常用命令学习笔记

1.top命令作用：该命令可以按CPU使用.内存使用和执行时间对任务进行排序，常用来监控系统中占用CPU或内存较高的程序及CPU和内存的负载。默认视图：当想看系统负载时，可观察汇总的%CPU中的us用户进程和sy系统进程是否占用CPU很高，相加接近100%就说明占用很高了，有些程序可能得不到及

【Linux】权限完结

文章浏览阅读1.8k次，点赞63次，收藏54次。Linux下的目录权限！！！粘滞位！！！超详解！！！

5、关于Qt的安装、Windows、Linux、MacBook

文章浏览阅读1.6k次，点赞44次，收藏38次。关于Qt的安装、Windows、Linux、MacBook_mack book 安装qt

Linux之shell脚本

本文介绍了使用shell脚本编写一个 Hello

【Linux】糟糕，是心动的感觉——与Linux的初次相遇

文章浏览阅读1.5k次，点赞37次，收藏43次。【Linux】初识Linux——了解操作系统的发展历史以及初次体验Linux编程环境

Linux超详细笔记

文章浏览阅读3k次，点赞34次，收藏156次。Linux超详细笔记，个人学习时很认真的记录的，觉得好的麻烦点个赞。

【Linux】 OpenSSH_9.3p1 升级到 OpenSSH_9.5p1（亲测无问题，建议收藏）

文章浏览阅读6.8k次，点赞109次，收藏114次。【Linux】 OpenSSH_9.3p1 升级到 OpenSSH_9.5p1（亲测无问题，建议收藏）_openssh_9.5p1

【Linux】线程概念和线程控制

文章浏览阅读3.5k次，点赞93次，收藏78次。初识Linux中的线程，理解线程的各种概念，理解进程地址空间中的页表转换，介绍pthread线程库并理解线程库！

UE Linux常见错误

文章浏览阅读863次。出现此问题为Linux文件权限问题，解决方案为回到引擎目录执行命令。输入用户密码后运行./UnrealEditor。_increasing per-process limit of core file size to infinity.

Linux shell操作.csv文件

文章浏览阅读2.9k次。使用文本编辑器：打开CSV文件，并使用文本编辑器（如Notepad++、Sublime Text、Visual Studio Code等）来查看文件的字符编码格式。通常在编辑器的底部状态栏或设置中可以找到当前编码的显示。请注意，上述方法并非绝对准确，特别是当文件没有明确的编码标识时。因此，如果你发现CSV文件在不同的工具或方法中显示不同的编码格式，可能需要进行进一步的分析和判断，或者尝试使用不同的编码转换方法。该命令将输出文件的MIME类型和编码信息。使用命令行工具：在命令行中，你可以使用。_shell读取csv文件逐行处理

linux升级gcc版本详细教程

本文介绍了如何在Linux系统中升级gcc版本，以便更好地支持C++11及以上版本的新特性。通过升级gcc，可以提升编译器的功能和性能，获得更好的开发体验。详细的步骤和方法请参考原文链接。

linux下的mosquitto服务安装及使用（避坑指南）

文章浏览阅读4.4k次，点赞6次，收藏19次。Mosquitto是一个开源的MQTT消息代理服务器。MQTT是一个轻量级的、基于发布/订阅模式的消息传输协议。 mosquitto的安装使用比较简单，可以方便的来进行一些测试。_linux mosquitto

Linux ~/.ssh目录详解和密钥对使用

文章浏览阅读7.2k次，点赞2次，收藏12次。Linux中，用于根目录下有一个.ssh目录，保存了ssh相关的key和一些记录文件。_~/.ssh/

安装和配置SNMP(windows10和Linux)--附SNMP客户端工具

文章浏览阅读4.5k次，点赞5次，收藏18次。首先需要安装 snmp ，使用下面的命令进行安装安装完毕之后，使用下面的命令查看是否安装成功当命令行显示如图即为安装成功。_snmp工具

热门文章

最新文章