golang 采集图片

帮朋友忙去采集的,看他打开韩国网站 一个一个点开去保存看不下去了速度太慢了,原本想用PHP写的,刚好看了无闻大大的go采集,然后无耻的改了下就用了

package main

import ( "fmt" "io" "io/ioutil" "log" "net/http" "os" "path" "regexp" "strings" ) type NotFoundError struct { Message string } func (e NotFoundError) Error() string { return e.Message } type RemoteError struct { Host string Err error } func (e *RemoteError) Error() string { return e.Err.Error() } var UserAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/29.0.1541.0 Safari/537.36" // HttpGet gets the specified resource. ErrNotFound is returned if the // server responds with status 404. func HttpGet(client *http.Client,url string,header http.Header) (io.ReadCloser,error) { req,err := http.NewRequest("GET",url,nil) if err != nil { return nil,err } req.Header.Set("User-Agent",UserAgent) for k,vs := range header { req.Header[k] = vs } resp,err := client.Do(req) if err != nil { return nil,&RemoteError{req.URL.Host,err} } if resp.StatusCode == 200 { return resp.Body,nil } resp.Body.Close() if resp.StatusCode == 404 { // 403 can be rate limit error. || resp.StatusCode == 403 { err = NotFoundError{"Resource not found: " + url} } else { err = &RemoteError{req.URL.Host,fmt.Errorf("get %s -> %d",resp.StatusCode)} } return nil,err } // HttpGetBytes gets the specified resource. ErrNotFound is returned if the server // responds with status 404. func HttpGetBytes(client *http.Client,header http.Header) ([]byte,error) { rc,err := HttpGet(client,header) if err != nil { return nil,err } defer rc.Close() return ioutil.ReadAll(rc) } // HttpGetToFile gets the specified resource and writes to file. // ErrNotFound is returned if the server responds with status 404. func HttpGetToFile(client *http.Client,header http.Header,fileName string) error { rc,header) if err != nil { return err } defer rc.Close() os.MkdirAll(path.Dir(fileName),os.ModePerm) f,err := os.Create(fileName) if err != nil { return err } defer f.Close() _,err = io.Copy(f,rc) return err } var img = regexp.MustCompile(`href=\"javascript:goView\((\d+)`) var imgPattern = regexp.MustCompile(`id="mainImage" src=\"../upload(.*?).jpg`) var totalTask int func download(url string,num chan bool) { url = strings.TrimPrefix(url,`href="javascript:goView(`) page := "http://www.gdweb.co.kr/main/koreaWebView.asp?idx=%s&url=koreaWeb.asp" t,err := HttpGetBytes(&http.Client{},fmt.Sprintf(page,url),nil) if err != nil { log.Fatalf("获取页面失败:%v",err) } matches := imgPattern.FindAll(t,-1) for _,match := range matches { url = "http://www.gdweb.co.kr" + strings.TrimPrefix(string(match),`id="mainImage" src="..`) log.Printf("正在下载:%s",url) err := HttpGetToFile(&http.Client{},nil,"pics/"+path.Base(url)) if err != nil { log.Printf("图片下载失败(%s):%v",err) } } totalTask-- <-num } func main() { // 控制同时下载数量 num := make(chan bool,5) // 主线程爬取页面,子线程下载图片 //baseUrl := "http://nvmingxing.net/hotness/%d/" //abaseUrl := "http://www.gdweb.co.kr/main/koreaWebView.asp?idx=8200&url=koreaWeb.asp" baseUrl := "http://www.gdweb.co.kr/main/koreaWeb.asp?idx=&url=index.asp&lpage=124&page=%d" for i := 2; i < 124; i++ { log.Printf("抓取页面:%d",totalTask) data,fmt.Sprintf(baseUrl,i+1),nil) if err != nil { log.Fatalf("获取页面失败(%d):%v",i,err) } matches := img.FindAll(data,match := range matches { totalTask++ num <- true go download(string(match),num) } } }

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


类型转换 1、int转string 2、string转int 3、string转float 4、用户结构类型转换
package main import s &quot;strings&quot; import &quot;fmt&quot; var p = fmt.Println func main() { p(&quot;Contains: &quot;, s.Contains(&quot;test&quo
类使用:实现一个people中有一个sayhi的方法调用功能,代码如下: 接口使用:实现上面功能,代码如下:
html代码: beego代码:
1、读取文件信息: 2、读取文件夹下的所有文件: 3、写入文件信息 4、删除文件,成功返回true,失败返回false
配置环境:Windows7+推荐IDE:LiteIDEGO下载地址:http://www.golangtc.com/downloadBeego开发文档地址:http://beego.me/docs/intro/ 安装步骤: 一、GO环境安装 二、配置系统变量 三、Beego安装 一、GO环境安装 根
golang获取程序运行路径:
Golang的文档和社区资源:为什么它可以帮助开发人员快速上手?
Golang:AI 开发者的实用工具
Golang的标准库:为什么它可以大幅度提高开发效率?
Golang的部署和运维:如何将应用程序部署到生产环境中?
高性能AI开发:Golang的优势所在
本篇文章和大家了解一下go语言开发优雅得关闭协程的方法。有一定的参考价值,有需要的朋友可以参考一下,希望对大家有所帮助。1.简介本文将介绍首先为什么需要主...
这篇文章主要介绍了Go关闭goroutine协程的方法,具有一定借鉴价值,需要的朋友可以参考下。下面就和我一起来看看吧。1.简介本文将介绍首先为什么需要主动关闭gor...
本篇文章和大家了解一下go关闭GracefulShutdown服务的几种方法。有一定的参考价值,有需要的朋友可以参考一下,希望对大家有所帮助。目录Shutdown方法Regi...
这篇文章主要介绍了Go语言如何实现LRU算法的核心思想和实现过程,具有一定借鉴价值,需要的朋友可以参考下。下面就和我一起来看看吧。GO实现Redis的LRU例子常
今天小编给大家分享的是Go简单实现多租户数据库隔离的方法,相信很多人都不太了解,为了让大家更加了解,所以给大家总结了以下内容,一起往下看吧。一定会...
这篇“Linux系统中怎么安装NSQ的Go语言客户端”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希
本文小编为大家详细介绍“怎么在Go语言中实现锁机制”,内容详细,步骤清晰,细节处理妥当,希望这篇“怎么在Go语言中实现锁机制”文章能帮助大家解决疑惑,下面...
今天小编给大家分享一下Go语言中interface类型怎么使用的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考