结构化数据和非结构化数据的提取【Python篇】

时间：2022-12-20分类：Python作者：孤寒者

结构化数据和非结构化数据的提取【Python篇】

总结一下Pyhon提供的可以提取结构化数据以及非结构化数据的主流库。

1.常见数据的分类：

依据响应分类（附带对应的常用的解析方法~）：

结构化数据：
   ① json数据（高频出现）
        json模块
        jsonpath模块
    ②xml数据（低频出现）
        re 模块（正则语法）
        lxml模块（xpath语法）
非结构化数据：
	①html
   	    re模块（正则语法）
        lxml模块（xpath语法）
        beautifulsoup（xpath，正则，css选择器）
        pyquery（css选择器）

小知识点：

xml和html的区别
html :超文本标记语言，为了更好的显示数据，侧重于显示数据；
xml : 可扩展性标记语言，为了传输和存储数据，侧重点在于数据内容的本身。

2.爬虫世界数据的分类：

结构化数据：json，xml等
    处理方式：直接转化

原文地址：https://gu-han-zhe.blog.csdn.net" target="_blank" rel="noopener" title="孤寒者">孤寒者</a> <img class="article-time-img article-heard-img" src="https://csdnimg.cn/release/blogv2/dist/pc

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

相关推荐

Python中的函数（二）

Python中的函数（二）在上一篇文章中提到了Python中函数的定义和使用，在这篇文章里我们来讨论下关于函数的一些更深的话题。在学习C语言函数的时候，遇到的问题主要有形参实参的区别、参数的传递和改变、变量的作用域。同样在Python中，关于对函数的理解和使用也存在这些问题。下面来逐一讲解。一.函

Python中的字符串

Python中的字符串可能大多数人在学习C语言的时候，最先接触的数据类型就是字符串，因为大多教程都是以"Hello world"这个程序作为入门程序，这个程序中要打印的"Hello world"就是字符串。如果你做过自然语言处理方面的研究，并且用Python

Python 面向对象编程（一）

Python 面向对象编程（一）虽然Python是解释性语言，但是它是面向对象的，能够进行对象编程。下面就来了解一下如何在Python中进行对象编程。一.如何定义一个类在进行python面向对象编程之前，先来了解几个术语：类，类对象，实例对象，属性，函数和方法。类是对现实世界中一些事物的封装，

Python面向对象编程（二）

Python面向对象编程（二）在前面一篇文章中谈到了类的基本定义和使用方法，这只体现了面向对象编程的三大特点之一：封装。下面就来了解一下另外两大特征：继承和多态。在Python中，如果需要的话，可以让一个类去继承一个类，被继承的类称为父类或者超类、也可以称作基类，继承的类称为子类。并且Pytho

Python中的函数（一）

Python中的函数（一）接触过C语言的朋友对函数这个词肯定非常熟悉，无论在哪门编程语言当中，函数（当然在某些语言里称作方法，意义是相同的）都扮演着至关重要的角色。今天就来了解一下Python中的函数用法。一.函数的定义在某些编程语言当中，函数声明和函数定义是区分开的（在这些编程语言当中函数声明

在windows下如何快速搭建web.py开发框架

在windows下如何快速搭建web.py开发框架用Python进行web开发的话有很多框架供选择，比如最出名的Django，tornado等，除了这些框架之外，有一个轻量级的框架使用起来也是非常方便和顺手，就是web.py。它由一名黑客所创建，但是不幸的是这位创建者于2013年自杀了。据说现在由

将Sublime Text 2搭建成一个好用的IDE

将Sublime Text 2搭建成一个好用的IDE 说起编辑器，可能大部分人要推荐的是Vim和Emacs，本人用过Vim，功能确实强大，但是不是很习惯，之前一直有朋友推荐SUblime Text 2这款编辑器，然后这段时间就试了一下，就深深地喜欢上这款编辑器了...

Python中的模块

Python中的模块有过C语言编程经验的朋友都知道在C语言中如果要引用sqrt这个函数，必须用语句"#include<math.h>"引入math.h这个头文件，否则是无法正常进行调用的。那么在Python中，如果要引用一些内置的函数，该怎么处理呢？在Python中

Python的基础语法

Python的基础语法在对Python有了基础的认识之后，下面来了解一下Python的基础语法，看看它和C语言、java之间的基础语法差异。一.变量、表达式和语句 Python中的语句也称作命令，比如print "hello python"这就是一条语句。表达式，顾名思义，是

Eclipse+PyDev+Django+Mysql搭建Python web开发环境

Eclipse+PyDevʽjango+Mysql搭建Python web开发环境 Python的web框架有很多，目前主流的有Django、Tornado、Web.py等，最流行的要属Django了，也是被大家最看好的框架之一。下面就来讲讲如何搭建Django的开发环境。一.准备工作需要下载的

在windows下安装配置Ulipad

在windows下安装配置Ulipad 今天推荐一款轻便的文本编辑器Ulipad，用来写一些小的Python脚本非常方便。 Ulipad下载地址： https://github.com/limodou/ulipad http://files.cnblogs.com/dolphin0520/u...

Python中的函数（三）

Python中的函数（三）在前面两篇文章中已经探讨了函数的一些相关用法，下面一起来了解一下函数参数类型的问题。在C语言中，调用函数时必须依照函数定义时的参数个数以及类型来传递参数，否则将会发生错误，这个是严格进行规定的。然而在Python中函数参数定义和传递的方式相比而言就灵活多了。一.函数参数的

在Notepad++中搭配Python开发环境

在Notepad++中搭配Python开发环境 Python在最近几年一度成为最流行的语言之一，不仅仅是因为它简洁明了，更在于它的功能之强大。它不仅能够完成一般脚本语言所能做的事情，还能很方便快捷地进行大规模的项目开发。在学习Python之前我们来看一下Python的历史由来，"Pytho

Python中的条件选择和循环语句

Python中的条件选择和循环语句同C语言、Java一样，Python中也存在条件选择和循环语句，其风格和C语言、java的很类似，但是在写法和用法上还是有一些区别。今天就让我们一起来了解一下。一.条件选择语句 Python中条件选择语句的关键字为：if 、elif 、else这三个。其基本形式如

关于raw_input()和sys.stdin.readline()的区别

关于raw_input( )和sys.stdin.readline( )的区别之前一直认为用raw_input( )和sys.stdin.readline( )来获取输入的效果完全相同，但是最近在写程序时有类似这样一段代码：import sysline = sys.stdin.readline()

初识Python 跟学习所有的编程语言一样，首先得了解这门语言的编程风格和最基础的语法。下面就让我们一起来了解一下Python的编程风格。1.逻辑行与物理行在Python中有逻辑行和物理行这个概念，物理行是指在编辑器中实际看到的一行，逻辑行是指一条Python语句。在Python中提倡一个物理行只

retry重试常见场景及实现

当我们的代码是有访问网络相关的操作时,比如http请求或者访问远程数据库，经常可能会发生一些错误，有些错误可能重新去发送请求就会成功，本文分析常见可能需要重试的场景，并最后给出python代码实现。

python迭代器和生成器

1.经典迭代器 2.将Sentence中的__iter__改成生成器函数改成生成器后用法不变，但更加简洁。 3.惰性实现当列表比较大，占内存较大时，我们可以采用惰性实现，每次只读取一个元素到内存。或者使用更简洁的生成器表达式 4.yield from itertools模块含有大量生成器函数可

python-kafka源码解析之socketpair

本文介绍简单介绍socket的常用函数,并以python-kafka中的源码socketpair为例，来讲解python socket的运用

彻底弄懂python编码

python实践中经常出现编码相关的异常，大多网上找资料而没有理解原理，导致一次次重复错误。本文对常用Unicode、UTF-8、GB2312编码的原理进行介绍，接着介绍了python字符类型unicode和str以及常见编解码错误UnicodeEncodeError和UnicodeDEcodeEr

热门文章

最新文章