NodeJs实现爬虫功能

我们可以经常见到一些后端语言的爬虫,既然Node已经使JS脱离浏览器了,何不用Node来写个爬虫呢?

实现爬取数据功能

要实现简单的爬虫,我们需要引入node的http模块,使用对应的get方法。我们以爬取百度首页为例子,实现如下:

var http = require('http');

var req = http.get('http://www.baidu.com',function(res) {
    var html = '';
    res.on('data',function(chunk) {
        html += chunk;
    });
    res.on('end',function() {
        console.log(html);
    });
});

此时,用node命令运行js文件,我们可以在命令提示符中看到一连串的代码,其实这是百度首页的代码。这样的话,一个很简单的爬取数据的功能就实现了。

解析数据

我们虽然可以爬取到数据了,但是由于各种有用的、无用的数据杂合在一起,很不容易分析。所以我们现在要解析数据,活得我们真正感兴趣的内容。

首先,我们通过npm安装cheerio(cheerio是node的抓取页面的模块,由于他包括了 jQuery 核心的子集,用法十分的简单,可以像jQuery一样操作DOM),

npm install cheerio --save

仅修改end监听函数中的内容,

res.on('end',function() {
    $ = cheerio.load(html);   // 将HTML DOM传给cheerio
    console.log($('#lg > img').attr('src'));
});

《NodeJs实现爬虫功能》

这样的话,我们可以得到百度首页上,id是lg、img子元素的src路径。实际上,这是百度首页的log的路径。是不是发现,cheerio很容易使用呢。

下载资源

我们可以从爬取的数据中解析出img的路径,那么下载就不成问题了吧?为了进行写操作,我们引入了fs模块。

var http = require('http');
var fs = require(fs);
var cheerio = require('cheerio');

var req = http.get('http://www.baidu.com',function() {
        $ = cheerio.load(html);
        var oImg = $('img'),length = oImg.length;
        for (var i = 0; i < length; ++i) {
            getPic(oImg.eq(i).attr('src'),'pic/' + i + '.png');
            console.log(oImg.eq(i).attr('src'));  // 打印img路径,注1.
        }
    });
});

// 下载图片函数
function getPic(url,local) {
    http.get(url,function(res) {
        var img = '';
        res.setEncoding(binary); // 必须设置response的编码为binary,否则下载下来的图片会打不开
        res.on('data',function(chunk) {
            img += chunk;
        });
        res.on('end',function() {
            fs.writeFile(local,img,'binary',function(err) { // 写操作函数
                if (err) {
                    console.log('dowmload error!');
                } else {
                    console.log('sucess!');
                }
            });
        });
    });
}

注1:我们会发现有些图片实际下载下来是空白的,可以直接看命令提示符中的打印的路径信息,不正常图片的src路径是有问题的,我们可以特殊处理下。

其实下载图片的函数不过是另外的get请求函数而已,只是这次直接请求的是图片资源而已。这样,我们就可以下载到百度首页下的所有图片资源了。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


这篇文章主要介绍“基于nodejs的ssh2怎么实现自动化部署”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“基于nodejs...
本文小编为大家详细介绍“nodejs怎么实现目录不存在自动创建”,内容详细,步骤清晰,细节处理妥当,希望这篇“nodejs怎么实现目录不存在自动创建”文章能帮助大...
这篇“如何把nodejs数据传到前端”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这...
本文小编为大家详细介绍“nodejs如何实现定时删除文件”,内容详细,步骤清晰,细节处理妥当,希望这篇“nodejs如何实现定时删除文件”文章能帮助大家解决疑惑...
这篇文章主要讲解了“nodejs安装模块卡住不动怎么解决”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来...
今天小编给大家分享一下如何检测nodejs有没有安装成功的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文...
本篇内容主要讲解“怎么安装Node.js的旧版本”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“怎...
这篇“node中的Express框架怎么安装使用”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家...
这篇文章主要介绍“nodejs如何实现搜索引擎”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“nodejs如何实现搜索引擎...
这篇文章主要介绍“nodejs中间层如何设置”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“nodejs中间层如何设置”文...
这篇文章主要介绍“nodejs多线程怎么实现”,在日常操作中,相信很多人在nodejs多线程怎么实现问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法...
这篇文章主要讲解了“nodejs怎么分布式”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“nodejs怎么分布式”...
本篇内容介绍了“nodejs字符串怎么转换为数组”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情...
这篇文章主要介绍了nodejs如何运行在php服务器的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇nodejs如何运行在php服务器文章都...
本篇内容主要讲解“nodejs单线程如何处理事件”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“nodejs单线程如何...
这篇文章主要介绍“nodejs怎么安装ws模块”,在日常操作中,相信很多人在nodejs怎么安装ws模块问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法...
本篇内容介绍了“怎么打包nodejs代码”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!
本文小编为大家详细介绍“nodejs接收到的汉字乱码怎么解决”,内容详细,步骤清晰,细节处理妥当,希望这篇“nodejs接收到的汉字乱码怎么解决”文章能帮助大家解...
这篇“nodejs怎么同步删除文件”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇...
今天小编给大家分享一下nodejs怎么设置淘宝镜像的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希