数据采集集成-网络数据采集一

(本次呢介绍一下网络数据采集的基础知识)(总结与分析在东软教育在线线上学习的学习心得。)如有错误,欢迎各位技术大牛斧正。

        网络爬虫(Web Crawler),又被称为网络蜘蛛、网络蚂蚁、网络机器人等,是一种按照一定的规则自动爬取万维网信息的程序或者脚本。它们被广泛的用于互联网搜索引擎或者其他网站。可以自动采集所有其能够访问到的页面内容。以高效、准确、自动地获取这些网站的内容,还可以对采集到的数据进行后续的挖掘和分析。目前,网络爬虫的应用主要体现在以下几个方面:

1、数据采集

        网络爬虫本质上是一段计算机程序或脚本,它按照一定的逻辑和算法规则,自动抓取和下载万维网的网页。eg:在一个固定周期内,搜索引擎从海量的互联网信息中进行爬取,抓取有效信息并实现收录。当用户在搜索引擎上检索对应关键词时,将对关键词进行分析处理,从收录的网页中找到相关网页,按照一定的排名规则进行排序,并将结果展现给用户。采用不同的算法,爬虫的运行效率也会不同,抓取的结果也会存在一些的差异。

        我认为,在学习爬虫时,不仅要了解爬虫如何实现,还需要知道一些常见爬虫的算法。

2、Web挖掘

        除了获取海量信息,实现数据存储之外。爬虫还经常应用于大数据分析或者数据挖掘中。Web挖掘是将传统的数据挖掘的思想和方法应用于Web当中,从Web资源和Web活动中爬取感兴趣的,潜在的,有用的模式和隐藏信息。挖掘出来的信息可以用于信息管理、决策支持、过程控制,还可以用于数据自身维护。在整个搜索与挖掘系统中,网络爬虫扮演着重要角色,它是网络的数据来源,决定着整个系统的内容,是否丰富,信息是否能够得到及时更新。目前主流的Web信息搜索的对象,仍然存在是大量存在的技术成熟的文本资源。我们把Web内容分析和Web链接分析结合起来,能够采集到包括:图像、声音、图片甚至视频片段等等多媒体信息资源在内的所有的Web数据。极大的提高了Web信息的挖掘质量,为整个搜索与挖掘系统,奠定坚实的基础。

3、舆情分析

        网络舆情是当前网民们针对热点社会事件和社会政治经济状况等内容反应出的态度总和,可以说网络舆情就是当前社会现状的放大镜。网络爬虫的本质,是能够实现自动爬取的代码程序。当前网络舆情监测,使用的面向主题网络爬虫程序,可以通过网页分析算法,对非设定主题链接进行排除过滤,从而提高搜索的精确性。当前,网络舆情检测中面向主题爬虫技术的主要研究对象是行业领域的搜索策略问题。

4、离线浏览   

        离线浏览允许用户设置若干个网站,将页面从服务器中下载到用户的硬盘中,从而可以在不连接互联网的前提下进行Web浏览。实现这种功能的是离线浏览器,它们的核心技术就是爬虫技术。在执行时离线浏览器需要限定目标,也就是需要爬取的网站列表,从而避免爬虫无限制地下载到其他不相关的网站页面。

网络爬虫的基本原理

        网络爬虫按照系统结构和实现技术,大致可以分为通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。实际的网络爬虫系统通常是几种爬虫技术相结合实现的。

1、通用网络爬虫

        通用网络爬虫又称全网爬虫。通用网络爬虫爬取的目标资源在全互联网中。通用网络爬虫所爬取的目标数据是巨大的,并且爬行的范围也是非常大的,由于其爬取的数据是海量的数据,爬取的性能要求非常高。主要应用于大型搜索引擎中,有非常高的应用价值。

        通用网络爬虫主要由初始URL集合、URL队列、网页爬行模块、页面分析模块、页面数据库、链接过滤模块等等构成。

2、聚焦网络爬虫

        聚焦网络爬虫也叫主题网络爬虫。聚焦网络爬虫是按照预先定义好的主题有选择地进行爬取网页的一种爬虫,将目标定位在与主题相关的页面当中,这样可以大大节省爬取时所需的带宽资源和服务器资源。聚焦网络爬虫主要应用在对特定信息的爬取中,主要为某一类特定的人群提供服务。

        聚焦网络爬虫主要由初始URL集合、URL队列、页面爬行模块、页面分析模块、页面数据库、链接过滤模块、内容评价模块、链接评价模块等构成。

3、增量式网络爬虫

        对已下载网页采取增量式更新和只爬行新产生的或者发生变化的网页爬虫,能够在一定程度上保证所爬行的页面是尽可能新的页面。增量式网络爬虫的体系结构包含爬行模块、排序模块、更新模块、本地页面模块、待爬行URL集本地页面URL集。

        和周期性和刷新页面的网络爬虫相比,增量式爬虫只会在需要时,爬行信产所或者发生更新的页面,并不重新下载没有发生变化的页面,可有效减少数据下载量,及时更新已爬行的网页。减少时间和空间上的耗费。但是增加了爬行算法的复杂度和实现难度。

        增量式网络爬虫有两个目标,保持本地页面集中存储的页面为最新页面和提高本地页面集中页面的质量。

4、深层网络爬虫

        深层网络爬虫可以爬取网站的深层页面。(深层页面:深层页面隐藏在表单之后,不能通过静态链接直接获取,是需要提交一定的关键词之后,才能够获取得到的页面。)在互联网中,深层页面的数量往往比表层页面的数量多,爬取深层页面,需要自动填写好对应的表单,因此深层网络爬虫最重要的部分就是表单的填写部分。深层网络爬虫主要由URL列表、LVS列表、爬行控制器、解析器、LVS控制器、表单分析器、表单处理器、响应分析器等构成。

总结:

本文旨在介绍网络数据的基础知识和基本原理,后续会深入更新,欢迎有兴趣的小伙伴学习,如有错误欢迎指正。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


学习编程是顺着互联网的发展潮流,是一件好事。新手如何学习编程?其实不难,不过在学习编程之前你得先了解你的目的是什么?这个很重要,因为目的决定你的发展方向、决定你的发展速度。
IT行业是什么工作做什么?IT行业的工作有:产品策划类、页面设计类、前端与移动、开发与测试、营销推广类、数据运营类、运营维护类、游戏相关类等,根据不同的分类下面有细分了不同的岗位。
女生学Java好就业吗?女生适合学Java编程吗?目前有不少女生学习Java开发,但要结合自身的情况,先了解自己适不适合去学习Java,不要盲目的选择不适合自己的Java培训班进行学习。只要肯下功夫钻研,多看、多想、多练
Can’t connect to local MySQL server through socket \'/var/lib/mysql/mysql.sock问题 1.进入mysql路径
oracle基本命令 一、登录操作 1.管理员登录 # 管理员登录 sqlplus / as sysdba 2.普通用户登录
一、背景 因为项目中需要通北京网络,所以需要连vpn,但是服务器有时候会断掉,所以写个shell脚本每五分钟去判断是否连接,于是就有下面的shell脚本。
BETWEEN 操作符选取介于两个值之间的数据范围内的值。这些值可以是数值、文本或者日期。
假如你已经使用过苹果开发者中心上架app,你肯定知道在苹果开发者中心的web界面,无法直接提交ipa文件,而是需要使用第三方工具,将ipa文件上传到构建版本,开...
下面的 SQL 语句指定了两个别名,一个是 name 列的别名,一个是 country 列的别名。**提示:**如果列名称包含空格,要求使用双引号或方括号:
在使用H5混合开发的app打包后,需要将ipa文件上传到appstore进行发布,就需要去苹果开发者中心进行发布。​
+----+--------------+---------------------------+-------+---------+
数组的声明并不是声明一个个单独的变量,比如 number0、number1、...、number99,而是声明一个数组变量,比如 numbers,然后使用 nu...
第一步:到appuploader官网下载辅助工具和iCloud驱动,使用前面创建的AppID登录。
如需删除表中的列,请使用下面的语法(请注意,某些数据库系统不允许这种在数据库表中删除列的方式):
前不久在制作win11pe,制作了一版,1.26GB,太大了,不满意,想再裁剪下,发现这次dism mount正常,commit或discard巨慢,以前都很快...
赛门铁克各个版本概览:https://knowledge.broadcom.com/external/article?legacyId=tech163829
实测Python 3.6.6用pip 21.3.1,再高就报错了,Python 3.10.7用pip 22.3.1是可以的
Broadcom Corporation (博通公司,股票代号AVGO)是全球领先的有线和无线通信半导体公司。其产品实现向家庭、 办公室和移动环境以及在这些环境...
发现个问题,server2016上安装了c4d这些版本,低版本的正常显示窗格,但红色圈出的高版本c4d打开后不显示窗格,
TAT:https://cloud.tencent.com/document/product/1340