python 爬取网站Jpg图片的简单示例

时间：2019-12-16分类：Python作者：编程之家用户

感兴趣的小伙伴，下面一起跟随编程之家 jb51.cc的小编来看看吧。
主要实现一个简单的爬虫，从一个百度贴吧页面下载图片。下载图片的步骤如下：

获取网页html文本内容；
分析html中图片的html标签特征，用正则解析出所有的图片url链接列表；
根据图片的url链接列表将图片下载到本地文件夹中。

#  编程之家  (jb51.cc) 
import requests
import re
# 根据url获取网页html内容
def getHtmlContent(url):
    page = requests.get(url)
    return page.text
 
# 从html中解析出所有jpg图片的url
# html中jpg图片的url格式为：<img ... src="XXX.jpg" width=...>
def getJPGs(html):
    # 解析jpg图片url的正则
    jpgReg = re.compile(r'<img.+?src="(.+?\.jpg)" width')  # 注：这里最后加一个'width'是为了提高匹配精确度
    # 解析出jpg的url列表
    jpgs = re.findall(jpgReg,html)
    
    return jpgs
 
# 用图片url下载图片并保存成制定文件名
def downloadJPG(imgUrl,fileName):
    # 可自动关闭请求和响应的模块
    from contextlib import closing
    with closing(requests.get(imgUrl,stream = True)) as resp:
        with open(fileName,'wb') as f:
            for chunk in resp.iter_content(128):
                f.write(chunk)
    
# 批量下载图片，默认保存到指定目录文件下
def batchDownloadJPGs(imgUrls,path = 'C:/Users/Administrator/Desktop/picture/'):
    # 用于给图片命名
    count = 1
    for url in imgUrls:
        downloadJPG(url,''.join([path,'{0}.jpg'.format(count)]))
        print("下载中...请稍后...{0}.jpg".format(count))
        count = count + 1
        
# 封装：从网页下载图片
def download(url):
    html = getHtmlContent(url)
    jpgs = getJPGs(html)
    batchDownloadJPGs(jpgs)
    
def main():
    url = 'http://tieba.baidu.com/p/2256306796'
    download(url)
    print("================================")
    print("已完成下载...请到指定目录进行查看！！！")
    
if __name__ == '__main__':
    main()
#   End 5.1.2笔记-jb51.cc

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

相关推荐

Python中的函数（二）

Python中的函数（二）在上一篇文章中提到了Python中函数的定义和使用，在这篇文章里我们来讨论下关于函数的一些更深的话题。在学习C语言函数的时候，遇到的问题主要有形参实参的区别、参数的传递和改变、变量的作用域。同样在Python中，关于对函数的理解和使用也存在这些问题。下面来逐一讲解。一.函

Python中的字符串

Python中的字符串可能大多数人在学习C语言的时候，最先接触的数据类型就是字符串，因为大多教程都是以"Hello world"这个程序作为入门程序，这个程序中要打印的"Hello world"就是字符串。如果你做过自然语言处理方面的研究，并且用Python

Python 面向对象编程（一）

Python 面向对象编程（一）虽然Python是解释性语言，但是它是面向对象的，能够进行对象编程。下面就来了解一下如何在Python中进行对象编程。一.如何定义一个类在进行python面向对象编程之前，先来了解几个术语：类，类对象，实例对象，属性，函数和方法。类是对现实世界中一些事物的封装，

Python面向对象编程（二）

Python面向对象编程（二）在前面一篇文章中谈到了类的基本定义和使用方法，这只体现了面向对象编程的三大特点之一：封装。下面就来了解一下另外两大特征：继承和多态。在Python中，如果需要的话，可以让一个类去继承一个类，被继承的类称为父类或者超类、也可以称作基类，继承的类称为子类。并且Pytho

Python中的函数（一）

Python中的函数（一）接触过C语言的朋友对函数这个词肯定非常熟悉，无论在哪门编程语言当中，函数（当然在某些语言里称作方法，意义是相同的）都扮演着至关重要的角色。今天就来了解一下Python中的函数用法。一.函数的定义在某些编程语言当中，函数声明和函数定义是区分开的（在这些编程语言当中函数声明

在windows下如何快速搭建web.py开发框架

在windows下如何快速搭建web.py开发框架用Python进行web开发的话有很多框架供选择，比如最出名的Django，tornado等，除了这些框架之外，有一个轻量级的框架使用起来也是非常方便和顺手，就是web.py。它由一名黑客所创建，但是不幸的是这位创建者于2013年自杀了。据说现在由

将Sublime Text 2搭建成一个好用的IDE

将Sublime Text 2搭建成一个好用的IDE 说起编辑器，可能大部分人要推荐的是Vim和Emacs，本人用过Vim，功能确实强大，但是不是很习惯，之前一直有朋友推荐SUblime Text 2这款编辑器，然后这段时间就试了一下，就深深地喜欢上这款编辑器了...

Python中的模块

Python中的模块有过C语言编程经验的朋友都知道在C语言中如果要引用sqrt这个函数，必须用语句"#include<math.h>"引入math.h这个头文件，否则是无法正常进行调用的。那么在Python中，如果要引用一些内置的函数，该怎么处理呢？在Python中

Python的基础语法

Python的基础语法在对Python有了基础的认识之后，下面来了解一下Python的基础语法，看看它和C语言、java之间的基础语法差异。一.变量、表达式和语句 Python中的语句也称作命令，比如print "hello python"这就是一条语句。表达式，顾名思义，是

Eclipse+PyDev+Django+Mysql搭建Python web开发环境

Eclipse+PyDevʽjango+Mysql搭建Python web开发环境 Python的web框架有很多，目前主流的有Django、Tornado、Web.py等，最流行的要属Django了，也是被大家最看好的框架之一。下面就来讲讲如何搭建Django的开发环境。一.准备工作需要下载的

在windows下安装配置Ulipad

在windows下安装配置Ulipad 今天推荐一款轻便的文本编辑器Ulipad，用来写一些小的Python脚本非常方便。 Ulipad下载地址： https://github.com/limodou/ulipad http://files.cnblogs.com/dolphin0520/u...

Python中的函数（三）

Python中的函数（三）在前面两篇文章中已经探讨了函数的一些相关用法，下面一起来了解一下函数参数类型的问题。在C语言中，调用函数时必须依照函数定义时的参数个数以及类型来传递参数，否则将会发生错误，这个是严格进行规定的。然而在Python中函数参数定义和传递的方式相比而言就灵活多了。一.函数参数的

在Notepad++中搭配Python开发环境

在Notepad++中搭配Python开发环境 Python在最近几年一度成为最流行的语言之一，不仅仅是因为它简洁明了，更在于它的功能之强大。它不仅能够完成一般脚本语言所能做的事情，还能很方便快捷地进行大规模的项目开发。在学习Python之前我们来看一下Python的历史由来，"Pytho

Python中的条件选择和循环语句

Python中的条件选择和循环语句同C语言、Java一样，Python中也存在条件选择和循环语句，其风格和C语言、java的很类似，但是在写法和用法上还是有一些区别。今天就让我们一起来了解一下。一.条件选择语句 Python中条件选择语句的关键字为：if 、elif 、else这三个。其基本形式如

关于raw_input()和sys.stdin.readline()的区别

关于raw_input( )和sys.stdin.readline( )的区别之前一直认为用raw_input( )和sys.stdin.readline( )来获取输入的效果完全相同，但是最近在写程序时有类似这样一段代码：import sysline = sys.stdin.readline()

初识Python 跟学习所有的编程语言一样，首先得了解这门语言的编程风格和最基础的语法。下面就让我们一起来了解一下Python的编程风格。1.逻辑行与物理行在Python中有逻辑行和物理行这个概念，物理行是指在编辑器中实际看到的一行，逻辑行是指一条Python语句。在Python中提倡一个物理行只

retry重试常见场景及实现

当我们的代码是有访问网络相关的操作时,比如http请求或者访问远程数据库，经常可能会发生一些错误，有些错误可能重新去发送请求就会成功，本文分析常见可能需要重试的场景，并最后给出python代码实现。

python迭代器和生成器

1.经典迭代器 2.将Sentence中的__iter__改成生成器函数改成生成器后用法不变，但更加简洁。 3.惰性实现当列表比较大，占内存较大时，我们可以采用惰性实现，每次只读取一个元素到内存。或者使用更简洁的生成器表达式 4.yield from itertools模块含有大量生成器函数可

python-kafka源码解析之socketpair

本文介绍简单介绍socket的常用函数,并以python-kafka中的源码socketpair为例，来讲解python socket的运用

彻底弄懂python编码

python实践中经常出现编码相关的异常，大多网上找资料而没有理解原理，导致一次次重复错误。本文对常用Unicode、UTF-8、GB2312编码的原理进行介绍，接着介绍了python字符类型unicode和str以及常见编解码错误UnicodeEncodeError和UnicodeDEcodeEr

热门文章

最新文章