node-crawler

编程之家收集整理的这个编程导航主要介绍了node-crawler编程之家,现在分享给大家,也给大家做个参考。

node-crawler 介绍

node-crawler这是一个比较好用的node.js爬虫框架,我们可以使用最亲切的jQuery语法来解析响应返回的页面。

node-crawler安装

npm install crawler

node-crawler使用

var Crawler = require("crawler");

var c = new Crawler({

maxConnections : 10,

// This will be called for each crawled page

callback : function (error,res,done) {

if(error){

console.log(error);

}else{

var $ = res.$;

// $ is Cheerio by default

//a lean implementation of core jQuery designed specifically for the server

console.log($("title").text());

}

done();

}

});

// Queue just one URL,with default callback

c.queue('http://www.amazon.com');

// Queue a list of URLs

c.queue(['http://www.google.com/','http://www.yahoo.com']);

// Queue URLs with custom callbacks & parameters

c.queue([{

uri: 'http://parishackers.org/',

jQuery: false,

// The global callback won't be called

callback: function (error,done) {

if(error){

console.log(error);

}else{

console.log('Grabbed',res.body.length,'bytes');

}

done();

}

}]);

// Queue some html code directly without grabbing (mostly for tests)

c.queue([{

html: '<p>This is a <strong>test</strong></p>'

}]);

网站地址:http://nodecrawler.org

GitHub:https://github.com/bda-research/node-crawler

网站描述:一款最好的node.js爬虫工具

node-crawler

官方网站:http://nodecrawler.org

小编说

以上是编程之家为你收集整理的node-crawler全部内容。

如果觉得编程之家网站内容还不错,欢迎将编程之家推荐给好友。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


node-crawler,一款最好的node.js爬虫工具
consolidate.js,一个Node.js 模板引擎的集合
nodemon,一个node调试工具
rxdb,Web 实时数据库,支持Node.js等多个终端
axios,基于http客户端的promise,面向浏览器和nodejs
Agenda,基于 node 的一个轻量级任务调度类库
Nodal.js,一个可扩展的,以意见为依据的全服务框架
node-mongodb-native,用于连接操作mongodb的nodejs驱动
Koa,基于 Node.js 平台的下一代 web 开发框架
synaptic,用于 Node.js 和浏览器的自由结构神经网络库
node-postgres【pg】,在nodejs中用来连接PostgreSql数据库的模块
Lass.js,搭建基于 Node.js 的脚手架工具
bluebird,一个第三方Promise规范实现库
nlp.js,基于node自然语言处理的一个库
Feathers.js,一个非常高效灵活的,可以从零构建应用的框架
Cheerio.js,是nodejs特别为服务端定制的,能够快速灵活的对JQuery核心进行实现
Roarr,一个Node.js和浏览器的JSON logger
Kue,一款为 node.js 而构建,由 redis 支持的优先级队列
Mean.js,一种全栈 Javascript 开发架构
SuperAgent,一个轻量的,渐进式的ajax api