nutch-ajax 项目简介项目托管同步更新站点列表:主要特性扩展插件说明详细参考文档运行方式 Nutch 组件扩展

程序名称:nutch-ajax 项目简介项目托管同步更新站点列表:主要特性扩展插件说明详细参考文档运行方式

授权协议: GPL

操作系统: 跨平台

开发语言: Java

nutch-ajax 项目简介项目托管同步更新站点列表:主要特性扩展插件说明详细参考文档运行方式 介绍

Nutch AJAX page Fetch, Parse, Index Plugin

项目简介

基于Apache Nutch 2.3 和
Htmlunit,
Selenium WebDriver 等组件扩展,实现对于 AJAX
加载类型页面的完整页面内容抓取,以及特定数据项的解析和索引。

According to the implementation of Apache Nutch 2.X, we can’t get dynamic HTML
information from fetch pages including AJAX requests as it will ignore all
AJAX requests.

This plugin will use Htmlunit and Selenium WebDriver to fetch whole page
content with necessary dynamic AJAX requests.

It developed and tested with Apache Nutch 2.3, you can try it on other Nutch
2.X version or refactor the source codes as your design.

项目托管同步更新站点列表:

**https://github.com/xautlx/nutch-ajax**

**http://git.oschina.net/xautlx/ nutch-
ajax
**

主要特性

  • 常规的HTML页面抓取 : 对于常规的例如新闻类没有AJAX特性的页面可以直接用Nutch自带的protocol-http插件抓取。

  • 常规的AJAX页面抓取 : 对于绝大部分诸如jQuery ajax加载的页面,可以直接用htmlunit扩展插件抓取。

  • 特殊的AJAX请求页面抓取 : 诸如淘宝/天猫的页面采用了独特的Kissy Javascript组件,目前测试htmlunit无法正确解析,因此退而求其次采用效率低一些的Selenium WebDriver方式实现页面数据抓取。

  • 基于页面滚动的AJAX请求页面抓取 : 诸如淘宝/天猫的商品详情页面会基于页面滚动发起商品描述信息的加载,通过Htmlunit或Selenium WebDriver扩展处理可以实现此类页面数据抓取。

扩展插件说明

  • lib-pinyin : 用于parse或index插件转换中文到拼音提交solr;部署用于solr dataimporthandler组件进行拼音转换的transformer扩展插件

  • lib-htmlunit : 基于Htmlunit的多线程处理,缓存控制,请求正则控制等特性扩展插件

  • protocol-s2jh : 基于Htmlunit和Selenium WebDriver实现的AJAX页面Fetcher插件

  • parse-s2jh : 基于XPath解析页面元素内容; 持久化解析到的结构化数据,如MySQL,MongoDB等; 对于个别复杂类型AJAX页面定制判断页面加载完成的回调判断逻辑

  • index-s2jh : 追加设置需要额外传递给SOLR索引的属性数据; 设定不需要索引的页面规则;

详细参考文档

项目提供一份比较详细的“基于Nutch&Solr定向采集解析和索引搜索的整合技术指南文档”,可通过以下两种方式查看参考文档内容:

运行方式

整个项目基于官方的Apache Nutch
2.3源码基础之上添加插件代码和配置,运行方式和官方指南保持一致,具体请参考:http://wiki.apache.org/nutch/

同时工程代码中提交了Eclipse的工程配置文件,可以直接import
Eclipse中Run或Debug运行,Nutch工程以Ivy进行依赖管理,可采用ANT Build方式或建议在Eclipse IDE安装Apache
Ivy IDE插件进行工程编译运行。

nutch-ajax 项目简介项目托管同步更新站点列表:主要特性扩展插件说明详细参考文档运行方式 官网

http://git.oschina.net/xautlx/nutch-ajax

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


MuPlayer 是一款跨平台、轻量级的音频播放解决方案,是百度@音乐前端团队开发维护的浏览端音频播放内核,它基于HTML5
OS FLV 是一个 开源和可嵌入网页的flv播放器。 这个播放器拥有大量的选项可以通过嵌入代码进行设置.
DewPlayer音乐播放器,样式很简单,而且很实用.播放器可以根据自己的喜好改变颜色,也算比较个性化吧.但唯一的不足就是只支持MP3格式的音乐。
JW FLV MEDIA PLAYER是一个开源的在网页上使用的Flash视频、音频以及图片播放器,支持 Sliverlight
Speakker 是一个基于 Web 浏览器的音乐播放器,只提供很多高级播放功能包括播放列表管理和分享。
Player Framework 是一个开源的支持 HTML5 的视频播放器框架,同时也支持 Silverlight 和 Windows Phone
Sewise Player是一款专业的免费网页视频、流播放器,它功能强大,体积小,跨平台,使用方便简洁、随心所欲:
SoundManager 2 利用 HTML5 和 Flash 技术提供了稳定和阔平台的音乐播放功能,只有 10K 的 JS 包。
xPlayer v1.0 特性: 文件大小 9.78kb; 可以自定义皮肤; 3.支持 http 和 rtmp 视频; 4.音量调节,全屏播放,拖拽播放;
XPlayer 豆瓣音乐播放器 特点: 1.自动侦测Douban网页的歌曲 2.Douban网页关闭,歌曲能够继续播放
歌词 插件 最新更新,扩展性能稍微有点提升了, 不多说了,更多敬请查看首页http://luochunzong.sinaapp.com/?p=84
ABPlayerHTML5是一个在HTML5下的弹幕播放器(同步显示视频于评论)实现。类似功能的播放器可以参考基于Flash的MukioPlayer和PADPlayer。
AudioPlayer.js 是一个 jQuery 的插件,实现了 HTML5 的音乐播放器,无需任何图片,实现了响应式布局,支持触摸操作。
替换中国大陆主流视频网站的 Flash 播放器为 HTML5 播放器 使用 Mac 的同学都可能碰到过在线看视频引起机子风扇狂转、机身发烫等情况,这是因为 Flash 占用了过多系统资源的缘故。
AetherPlayer 是一个类CD的轻量HTML5播放器,特别适合博客及个人站点使用。它漂亮得不像……咳,这边吹牛的话就不说了。
专注、极致、智慧,国内外为数不多不依赖开源框架、跨平台(windows/android/iOS)、公网推送(支持rtmp)-播放(支持rtmp/rtsp)业界真正靠谱 的超低延迟。
node-kugou-client 是 Node.js 酷狗客户端。 安装 npm install node-kugou-client 使用 var kugou = require(\"node-kugou-client\");
Youku HTML5 播放器扩展 —— 告别 flash 和广告 关于官方内测 html5 播放器 Firefox ( xpi 直接安装) ( firefox 50.0+)
Chimee 由奇舞团研制的 h5 播放器,它支持 mp4、m3u8、flv 等多种格式。通过插件式开发,能满足业务方快速迭代、灰度发布等要求。让开发者能够轻松快捷地完成视频场景的开发。
OneVideo是一款基于OneBase+UniApp开发的小视频播放移动应用。