下面是编程之家 jb51.cc 通过网络收集整理的代码片段。
编程之家小编现在分享给大家,也给大家做个参考。
import Queue import threading import urllib2 import time from BeautifulSoup import BeautifulSoup hosts = ["http://yahoo.com","http://taobao.com","http://apple.com","http://ibm.com","http://www.amazon.cn"] queue = Queue.Queue()#存放网址的队列 out_queue = Queue.Queue()#存放网址页面的队列 class ThreadUrl(threading.Thread): def __init__(self,queue,out_queue): threading.Thread.__init__(self) self.queue = queue self.out_queue = out_queue def run(self): while True: host = self.queue.get() url = urllib2.urlopen(host) chunk = url.read() self.out_queue.put(chunk)#将hosts中的页面传给out_queue self.queue.task_done()#传入一个相当于完成一个任务 class DatamineThread(threading.Thread): def __init__(self,out_queue): threading.Thread.__init__(self) self.out_queue = out_queue def run(self): while True: chunk = self.out_queue.get() soup = BeautifulSoup(chunk)#从源代码中搜索title标签的内容 print soup.findAll(['title']) self.out_queue.task_done() start = time.time() def main(): for i in range(5): t = ThreadUrl(queue,out_queue)#线程任务就是将网址的源代码存放到out_queue队列中 t.setDaemon(True)#设置为守护线程 t.start() #将网址都存放到queue队列中 for host in hosts: queue.put(host) for i in range(5): dt = DatamineThread(out_queue)#线程任务就是从源代码中解析出<title>标签内的内容 dt.setDaemon(True) dt.start() queue.join()#线程依次执行,主线程最后执行 out_queue.join() main() print "Total time :%s"%(time.time()-start)
以上是编程之家(jb51.cc)为你收集整理的全部代码内容,希望文章能够帮你解决所遇到的程序开发问题。
如果觉得编程之家网站内容还不错,欢迎将编程之家网站推荐给程序员好友。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。