一个Go语言实现的web爬虫

时间：2020-02-10分类：Go作者：编程之家用户

下面是编程之家 jb51.cc 通过网络收集整理的代码片段。

编程之家小编现在分享给大家，也给大家做个参考。

package main
 
import (
    "fmt"
)
 
type Fetcher interface {
        // Fetch 返回 URL 的 body 内容，并且将在这个页面上找到的 URL 放到一个 slice 中。
    Fetch(url string) (body string,urls []string,err error)
}
 
// Crawl 使用 fetcher 从某个 URL 开始递归的爬取页面，直到达到最大深度。
func Crawl(url string,depth int,fetcher Fetcher) {
        // TODO: 并行的抓取 URL。
        // TODO: 不重复抓取页面。
        // 下面并没有实现上面两种情况：
    if depth <= 0 {
        return
    }
    body,urls,err := fetcher.Fetch(url)
    if err != nil {
        fmt.Println(err)
        return
    }
    fmt.Printf("found: %s %q\n",url,body)
    for _,u := range urls {
        Crawl(u,depth-1,fetcher)
    }
    return
}
 
func main() {
    Crawl("http://golang.org/",4,fetcher)
}
 
 
// fakeFetcher 是返回若干结果的 Fetcher。
type fakeFetcher map[string]*fakeResult
 
type fakeResult struct {
    body string
    urls     []string
}
 
func (f *fakeFetcher) Fetch(url string) (string,[]string,error) {
    if res,ok := (*f)[url]; ok {
        return res.body,res.urls,nil
    }
    return "",nil,fmt.Errorf("not found: %s",url)
}
 
// fetcher 是填充后的 fakeFetcher。
var fetcher = &fakeFetcher{
    "http://golang.org/": &fakeResult{
        "The Go Programming Language",[]string{
            "http://golang.org/pkg/","http://golang.org/cmd/",},"http://golang.org/pkg/": &fakeResult{
        "Packages",[]string{
            "http://golang.org/","http://golang.org/pkg/fmt/","http://golang.org/pkg/os/","http://golang.org/pkg/fmt/": &fakeResult{
        "Package fmt","http://golang.org/pkg/","http://golang.org/pkg/os/": &fakeResult{
        "Package os",}

以上是编程之家(jb51.cc)为你收集整理的全部代码内容，希望文章能够帮你解决所遇到的程序开发问题。

如果觉得编程之家网站内容还不错，欢迎将编程之家网站推荐给程序员好友。

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

相关推荐

Golang类型转换

类型转换 1、int转string 2、string转int 3、string转float 4、用户结构类型转换

golang 字符串操作实例

package main import s "strings" import "fmt" var p = fmt.Println func main() { p("Contains: ", s.Contains("test&quo

golang中的类和接口的使用

类使用：实现一个people中有一个sayhi的方法调用功能，代码如下：接口使用：实现上面功能，代码如下：

beego上传文件

html代码： beego代码：

golang操作文件

1、读取文件信息： 2、读取文件夹下的所有文件： 3、写入文件信息 4、删除文件，成功返回true，失败返回false

golang开发环境配置及Beego框架安装

配置环境：Windows7+推荐IDE：LiteIDEGO下载地址：http://www.golangtc.com/downloadBeego开发文档地址：http://beego.me/docs/intro/ 安装步骤：一、GO环境安装二、配置系统变量三、Beego安装一、GO环境安装根

golang获取程序运行路径

golang获取程序运行路径：

Golang的文档和社区资源：为什么它可以帮助开发人员快速上手？

Golang的文档和社区资源：为什么它可以帮助开发人员快速上手？

Golang：AI 开发者的实用工具

Golang：AI 开发者的实用工具

Golang的标准库：为什么它可以大幅度提高开发效率？

Golang的标准库：为什么它可以大幅度提高开发效率？

Golang的部署和运维：如何将应用程序部署到生产环境中？

Golang的部署和运维：如何将应用程序部署到生产环境中？

高性能AI开发：Golang的优势所在

高性能AI开发：Golang的优势所在

go语言开发优雅得关闭协程的方法

本篇文章和大家了解一下go语言开发优雅得关闭协程的方法。有一定的参考价值，有需要的朋友可以参考一下，希望对大家有所帮助。1.简介本文将介绍首先为什么需要主...

Go关闭goroutine协程的方法

这篇文章主要介绍了Go关闭goroutine协程的方法，具有一定借鉴价值，需要的朋友可以参考下。下面就和我一起来看看吧。1.简介本文将介绍首先为什么需要主动关闭gor...

go关闭Graceful Shutdown服务的几种方法

本篇文章和大家了解一下go关闭GracefulShutdown服务的几种方法。有一定的参考价值，有需要的朋友可以参考一下，希望对大家有所帮助。目录Shutdown方法Regi...

Go语言如何实现LRU算法的核心思想和实现过程

这篇文章主要介绍了Go语言如何实现LRU算法的核心思想和实现过程，具有一定借鉴价值，需要的朋友可以参考下。下面就和我一起来看看吧。GO实现Redis的LRU例子常

Go 简单实现多租户数据库隔离的方法

今天小编给大家分享的是Go简单实现多租户数据库隔离的方法，相信很多人都不太了解，为了让大家更加了解，所以给大家总结了以下内容，一起往下看吧。一定会...

Linux系统中怎么安装NSQ的Go语言客户端

这篇“Linux系统中怎么安装NSQ的Go语言客户端”文章的知识点大部分人都不太理解，所以小编给大家总结了以下内容，内容详细，步骤清晰，具有一定的借鉴价值，希

怎么在Go语言中实现锁机制

本文小编为大家详细介绍“怎么在Go语言中实现锁机制”，内容详细，步骤清晰，细节处理妥当，希望这篇“怎么在Go语言中实现锁机制”文章能帮助大家解决疑惑，下面...

Go语言中interface类型怎么使用

今天小编给大家分享一下Go语言中interface类型怎么使用的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考

热门文章

最新文章