应用工具 - 编程之家

栏目导航

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

应用工具编程之家(jb51.cc)编程百科栏目主要推荐程序员常用编程技术介绍，以下是应用工具相关编程语言，主要信息提供给程序员快速了解所需要学习的编程技术语言。

CrawlScript

JAVA平台上的网络爬虫脚本语言 CrawlScript 网络爬虫即自动获取网页信息的一种程序，有很多JAVA、C++的网络爬虫类库，但是在这些类库的基础上开发十分繁琐，需要大量的代码才可以完成一个简单

美容新闻采集

美容新闻淘客免维护全自动采集 1.采集瑞丽女性美容频道文章,免维护全自动采集

PHP-spider

一个可扩展的PHP WEB 蜘蛛，示例代码： use VDB\\Spider\\Spider; use VDB\\Spider\\Discoverer\\XPathExpressionDiscoverer;

Spiderq

Spiderq 是一个网页爬虫，性能依赖于服务器配置和网络情况。

Goutte

Goutte 是一个抓取网站数据的 PHP 库。它提供了一个优雅的 API，这使得从远程页面上选择特定元素变得简单。

nutch-htmlunit 项目简介主要特性运行体验扩展插件说明

Nutch Htmlunit Plugin 重要说明：当前项目基于Nutch 1.X系列已停止更新维护，转向Nutch

gcrawler

一个基于gevent的爬虫框架，最初的版本在一定程度上模仿了scrapy。

Crawljax

Crawljax: java编写，开放源代码。 Crawljax 是一个 Java 的工具用于自动化的爬取和测试现在的 Ajax Web 应用。

WebMagic

webmagic的是一个无须配置、便于二次开发的爬虫框架，它提供简单灵活的API，只需少量代码即可实现一个爬虫。

opm-server-mirror

代码更新 2009-11-25：加入反爬虫功能。直接Web访问服务器将跳转到Google。使用方法

webStraktor

webStraktor 是一个可编程的 WWW 数据抽取客户端，提供一个脚本语言用于收集、抽取和存储来自 Web 的数据，包括图片。脚本语言使用正则表达式和

OWASP AJAX Crawling Tool

OWASP AJAX Crawling Tool (FuzzOps-NG) OWASP出品的ajax爬虫，java编写，开放源代码。

spidernet

spidernet是一个以递归树为模型的多线程web爬虫程序, 支持text/html资源的获取. 可以设定爬行深度, 最大下载字节数限制,

Leopdo

用JAVA编写的web 搜索和爬虫，包括全文和分类垂直搜索，以及分词系统

Portia

Portia是scrapyhub开源的一款可视化的爬虫规则编写工具。它提供可视化的Web页面，你只需要通过点击标注页面上你需要抽取的数据，不需要任何编程知识即可完成规则的开发。

多线程页面抓取服务器

此服务器是使用mongoose web服务器改写的并发抓取多个页面的服务器, 使用可以查看test.php

番号种子采集器

番号种子采集器 By 肾虚公子声明：本程序 Mac/Linux用户: wgethttp://fanhao.miaowu.asia/FanHao.py&&python

Node Osmosis

Osmosis 是 Node.js 用来解析 HTML/XML 和 Web 内容爬取的扩展。示例代码： var osmosis = require(\'osmosis\');

Egg Java <a href="https://github.com/wangduoxiong/Egg#%E9%80%9F%E5%BA%A6%E8%AF%B4%E6%98%8E"></a>速度说明<a href="https://github.com/wangduoxi

Egg 简介 Egg 它一个通用高效的爬虫,希望它能够替大家实现一些需求，更希望能为开源做出自己的贡献。目前，还在成长，在我的构想下，它还需要添加很多功能，我会继续完善。有任何疑问以及需求请以与作者交流:63

SeimiCrawler

SeimiCrawler An agile,powerful,distributed crawler framework. SeimiCrawler的目标是成为Java世界最好用最实用的爬虫框架。

丑牛迷你采集器

丑牛迷你采集器是一款基于Java Swing开发的专业的网络数据采集/信息挖掘处理软件，通过灵活的配置，可以很轻松迅速地从

NETSpider

NETSpider网站数据采集软件是一款基于.Net平台的开源软件。软件部分功能是基本Soukey软件进行开发的.这个版本采用VS2010+.NET3.5进行开发的.

Crawler

Crawler基于Java开发的一款跨平台爬虫，可以使用Shell脚本和DOS命令进行任务式处理。

simspider

simspider - 网络爬虫引擎 1.简介 simspider是一个轻巧的跨平台的网络爬虫引擎，它提供了一组C函数接口用于快速构建你自己的网络爬虫应用，同时也提供了一个可执行的爬虫程序用于演示函数接口如何使用。

spider-web

spider-web 是爬虫的网页版，使用xml配置，支持大部分页面的爬取，支持爬取内容的保存、下载等。

WebCollector 爬虫简介：爬虫内核：WebCollector 2.x 版本特性 ：WebCollector 2.x 官网和镜像：W

爬虫简介： WebCollector 是一个无须配置、便于二次开发的 Java 爬虫框架（内核），它提供精简的的

GECCO

Gecco是什么 Gecco是一款用java语言开发的轻量化的易用的网络爬虫。Gecco整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等优秀框架，让您只需要配置一些jquery风格的选择器就能很快的写出一个爬

spider-utils-for-php

spider-utils-for-php: 原则：简单、易用、灵活、任性任性任性就是任性！特色： php 界内最简单易用的 http-utils，自动识别支持 curl、socket、file_get_contents 三种方式。

ScrapingSpider

ScrapingSpider 是一个业余时间开发的，支持多线程，支持关键字过滤，支持正文内容智能识别的爬虫。

surfer Usage

surfer是一款Go语言编写的高并发爬虫下载器，拥有surf与phantom两种下载内核。支持固定UserAgent自动保存cookie与随机大量UserAgent禁用cookie两种模式，高度模拟浏览器行为，可实现模拟登录等功能。

上一页 33 34 35 363738 39 40 下一页

小编推荐