在Node.js中解析巨大的日志文件 – 逐行读取

我需要做一些解析大(5-10 Gb)日志文件在Javascript / Node.js(我使用的Cube)。

日志类似:

10:00:43.343423 I'm a friendly log message. There are 5 cats,and 7 dogs. We are in state "SUCCESS".

我们需要读取每一行,做一些解析(例如剥离5,7和SUCCESS),然后使用他们的JS客户端将这些数据泵入Cube(https://github.com/square/cube)。

首先,Node在文件中逐行读取的规范方式是什么?

这似乎是相当普遍的问题在线:

> http://www.quora.com/What-is-the-best-way-to-read-a-file-line-by-line-in-node-js
> Read a file one line at a time in node.js?

很多答案似乎指向一堆第三方模块:

> https://github.com/nickewing/line-reader
> https://github.com/jahewson/node-byline
> https://github.com/pkrumins/node-lazy
> https://github.com/Gagle/Node-BufferedReader

然而,这似乎是一个相当基本的任务 – 当然,在stdlib中有一个简单的方法在一个文本文件中逐行读取?

其次,我需要处理每一行(例如将时间戳转换为Date对象,并提取有用的字段)。

什么是最好的方法做到这一点,最大化吞吐量?有没有一些方法,不会阻止在每行读取,或发送到立方体?

第三 – 我猜使用字符串拆分,和JS等效的contains(IndexOf!= -1?)将会比正则表达式快得多?有没有人在解析大量的文本数据在Node.js有很多经验?

干杯,
胜利者

解决方法

我搜索一个解决方案来逐行解析非常大的文件(gbs)使用流。所有第三方库和示例不适合我的需要,因为他们不是逐行处理文件(如1,2,3,4 ..)或读整个文件到内存

下面的解决方案可以使用stream&管。对于测试,我使用了一个2.1 gb文件与17.000.000记录。 Ram使用不超过60 mb。

var fs = require('fs'),util = require('util'),stream = require('stream'),es = require('event-stream');

var lineNr = 0;

var s = fs.createReadStream('very-large-file.csv')
    .pipe(es.split())
    .pipe(es.mapSync(function(line){

        // pause the readstream
        s.pause();

        lineNr += 1;

        // process line here and call s.resume() when rdy
        // function below was for logging memory usage
        logMemoryUsage(lineNr);

        // resume the readstream,possibly from a callback
        s.resume();
    })
    .on('error',function(){
        console.log('Error while reading file.');
    })
    .on('end',function(){
        console.log('Read entire file.')
    })
);

请让我知道它怎么回事!

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


这篇文章主要介绍“基于nodejs的ssh2怎么实现自动化部署”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“基于nodejs...
本文小编为大家详细介绍“nodejs怎么实现目录不存在自动创建”,内容详细,步骤清晰,细节处理妥当,希望这篇“nodejs怎么实现目录不存在自动创建”文章能帮助大...
这篇“如何把nodejs数据传到前端”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这...
本文小编为大家详细介绍“nodejs如何实现定时删除文件”,内容详细,步骤清晰,细节处理妥当,希望这篇“nodejs如何实现定时删除文件”文章能帮助大家解决疑惑...
这篇文章主要讲解了“nodejs安装模块卡住不动怎么解决”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来...
今天小编给大家分享一下如何检测nodejs有没有安装成功的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文...
本篇内容主要讲解“怎么安装Node.js的旧版本”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“怎...
这篇“node中的Express框架怎么安装使用”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家...
这篇文章主要介绍“nodejs如何实现搜索引擎”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“nodejs如何实现搜索引擎...
这篇文章主要介绍“nodejs中间层如何设置”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“nodejs中间层如何设置”文...
这篇文章主要介绍“nodejs多线程怎么实现”,在日常操作中,相信很多人在nodejs多线程怎么实现问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法...
这篇文章主要讲解了“nodejs怎么分布式”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“nodejs怎么分布式”...
本篇内容介绍了“nodejs字符串怎么转换为数组”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情...
这篇文章主要介绍了nodejs如何运行在php服务器的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇nodejs如何运行在php服务器文章都...
本篇内容主要讲解“nodejs单线程如何处理事件”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“nodejs单线程如何...
这篇文章主要介绍“nodejs怎么安装ws模块”,在日常操作中,相信很多人在nodejs怎么安装ws模块问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法...
本篇内容介绍了“怎么打包nodejs代码”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!
本文小编为大家详细介绍“nodejs接收到的汉字乱码怎么解决”,内容详细,步骤清晰,细节处理妥当,希望这篇“nodejs接收到的汉字乱码怎么解决”文章能帮助大家解...
这篇“nodejs怎么同步删除文件”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇...
今天小编给大家分享一下nodejs怎么设置淘宝镜像的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希