模仿主站模板 首页 内页想实现模板小偷

下面是编程之家 jb51.cc 通过网络收集整理的代码片段。

编程之家小编现在分享给大家,也给大家做个参考。

#!/usr/local/bin/python
#-*- coding: UTF-8 -*-
#模仿主站模板
#QQ29295842
##################################################
import threading
import httplib
import re
#import php_data
#import g
import sys
import base64
#import eval
#import list
import httplib,StringIO,gzip,urllib,re
import binascii
import chardet
import ConfigParser  #读取INI配置信息
import random   #打乱数组排序
import os
#import sc_html  #生成HTML
import urllib2
import time
import Queue
#import sitemap_xml   #生成站点地图
#import shell_links  #SHELLSEO
import list
import thread
sys.path.append('..')
reload(sys)
sys.setdefaultencoding("utf-8")

class www_mb(threading.Thread):
    def __init__(self):
        threading.Thread.__init__(self)
        self.url=""

    def www_index(self,url):
        self.url=url
        s1,s2=self.url_http_200(url)
        if s1==True:
            print "OK"
            utf_gbk,data = self.utf_8_G(s2)  #解码
            if data == "no":
                print u"读取或转换失败"
                return 0
            print "1111111"
            data=self.open_file_null(data)
            #self.th_re(data)
            print "2222"
            self.TXT_file_add("index.html",u"%s"%(data))
        else:
            print "NO"

    def www_index2(self,url):
        LS = list.Clist()  #初始化类
        LS.list_del()  #清空list列表
        self.url=url
        s1,data=self.url_http_200(url)
        if s1==True:
            print "OK"
            p = re.compile( r'<a.+?href=.+?>.+?</a>' )
            pname = re.compile( r'(?<=>).*?(?=</a>)' )
            phref = re.compile( r'(?<=href\=\").*?(?=\")')
            sarr = p.findall(data)#找出一条一条的<a></a>标签   #这添加到数组在过滤重复值减少mysql压力
            i=0
            for every in sarr:
                if i>=3000:
                    break
                else:
                    i+=1
                sname = pname.findall( every )
                if sname:
                    #sname = sname[0]
                    shref = phref.findall( every )
                if shref:
                    if (self.url in str(shref[0])):
                        if (len(shref[0])-len(url))>=2:
                            LS.liet_add(str(shref[0]))  #站内链接  全URL
                            #print "1111",str(shref[0])
                    else:
                        if not("http://" in str(shref[0]) or "https://" in str(shref[0])):
                            if len(shref[0])>=2:
                                LS.liet_add(url+"/"+str(shref[0]))  #指向目录
                            #print "2222",str(shref[0])
            LS.liet_lsqc() #数组列表去重复
            random.shuffle(LS.list_2)   #打算数组原有排序方式
            data2=""

            for i in range(len(LS.list_2)):
                print LS.list_2[i]
                s1,data=self.url_http_200(LS.list_2[i])
                if s1==True:
                    print "OK"
                    data2=data
                    break #跳出   整个循环

            utf_gbk,data = self.utf_8_G(data2)  #解码
            if data == u"no":
                print u"读取或转换失败"
                return 0
            data=self.open_file_null(data)
            self.TXT_file_add("index2.html",u"%s"%(data))


    def th_re(self,data):
        try:   #.+?
            try:
                #{time}  当前时间标签   (固定)
                p = re.compile( r'<title>[\s\S]*</title>')
                data= p.sub('<title>{time}</title>',data)
                #<title>【德尔顿官网】,热水器,电热水器,磁能热水器,安全健康热水器</title>
            except :
                pass

            try:
                #{time}  当前时间标签   (固定)
                p = re.compile( r'<a title="[\s\S]*" href="/">')
                data= p.sub('<a title="{time}" href="/">',data)
                #<a title="热水器十大品牌 电热水器哪个牌子好 磁能热水器-德尔顿" href="/">
            except :
                pass

            try:
                #{time}  当前时间标签   (固定)
                p = re.compile( r'<strong>[\s\S]*</strong>')
                data= p.sub('<strong>{time}</strong>',data)
                #<strong>磁能热水器行业德尔顿...</strong>
            except :
                pass

            try:
                #{tmkeyword2} 整个网站模板随机抽取1个关键字
                p = re.compile( r'>[\s\S]*</span>')
                data= p.sub('>{tmkeyword2}</span>',data)
                #>劳女士</span>
            except :
                pass

            try:
                #{tmkeyword2} 整个网站模板随机抽取1个关键字
                p = re.compile( r'<p[\s\S]*>[\s\S]*</p>')
                data= p.sub('<p>{tmkeyword2}</p>',data)
                #>看看离您最近的体验店在哪</p>
            except :
                pass

            try:
                #{tmkeyword} 主关键词标签 (固定)
                p = re.compile( r'<meta content="[\s\S]*" name="keywords">')
                data= p.sub('<meta content="{tmkeyword}" name="keywords">',data)
                #<meta content="热水器,即热式电热水器,磁能热水器" name="keywords">
            except :
                pass

            try:
                #{tmkeyword} 主关键词标签 (固定)
                p = re.compile( r'<meta name=".*?" content="[\s\S]*" />')
                data= p.sub('<meta name="keywords" content="{tmkeyword}" />',data)
            except :
                pass

            try:
                #{tmkeyword} 主关键词标签 (固定)
                #{tmkeyword2} 整个网站模板随机抽取1个关键字
                p = re.compile( r'<meta name=".*?" content="[\s\S]*">')
                data= p.sub('<meta name="description" content="{tmkeyword}{tmkeyword2}">',data)
                #<meta name="description" content="德尔顿中国健康热水器,不需防电墙、不需接地线,不生水垢,电磁热水器,安全热水器,家装群体首选健康速磁生活电热水器品牌,招商代理电话:400-888-1682。">
            except :
                pass

            try:
                #{link}  随机链接标签(内链) (随机)
                p = re.compile( r'<A.*?href="[\s\S]*</A>')
                sarr = p.findall(data)
                if len(sarr)>=1:
                    phref = re.compile( r'(?<=href\=\").*?(?=\")')
                    sarr = phref.findall(data)
                    if ("http://" in str(sarr[0]) or "https://" in str(sarr[0])):
                        if (url in str(shref[0])):
                            data= p.sub('{link}',data)  #替换成内链
                        else:
                            data= p.sub('{ylinks}',data)  #替换成外链
                    else:
                        if (".asp" in str(sarr[0]) or ".aspx" in str(sarr[0]) or ".php" in str(sarr[0]) or ".htm" in str(sarr[0]) or ".html" in str(sarr[0])):
                            data= p.sub('{link}',data)  #替换成内链
                        else:
                            data= p.sub('{newslist}',data)  #目录页目录链接 (随机)
                #<A href="/guanyu/shipin/">企业视频</A>
            except :
                pass

            try:
                #{link}  随机链接标签(内链) (随机)
                p = re.compile( r'<a.*?href="[\s\S]*</a>')
                sarr = p.findall(data)
                if len(sarr)>=1:
                    phref = re.compile( r'(?<=href\=\").*?(?=\")')
                    sarr = phref.findall(data)
                    if ("http://" in str(sarr[0]) or "https://" in str(sarr[0])):
                        if (url in str(shref[0])):
                            data= p.sub('{link}',data)  #目录页目录链接 (随机)
            except :
                pass

            try:
                #{link}  随机链接标签(内链) (随机)
                p = re.compile( r'<a.*?href="[\s\S]*</A>')
                sarr = p.findall(data)
                if len(sarr)>=1:
                    phref = re.compile( r'(?<=href\=\").*?(?=\")')
                    sarr = phref.findall(data)
                    if ("http://" in str(sarr[0]) or "https://" in str(sarr[0])):
                        if (url in str(shref[0])):
                            data= p.sub('{link}',data)  #目录页目录链接 (随机)
            except :
                pass

            try:
                #正文
                p = re.compile( r'>*.+?[\s\S]*</p>')
                sarr = p.findall(data)
                if len(sarr)>=1:
                    #print u"%s"%(sarr)
                    if len(sarr[0])>=150:
                        data= p.sub('>{skeyword}{content}{content}。{skeyword}{content}{content}。{skeyword}{content}{content}。{skeyword}{content}{content}。</p>',data)
                        #print sarr[0],"=====",data
                    if len(sarr[0])>=100:
                        data= p.sub('>{skeyword}{content}{content}。{skeyword}{content}{content}。</p>',data)
                    if len(sarr[0])>=50:
                        data= p.sub('>{skeyword}{content}{content}。</p>',data)
            except :
                pass

            return data
        except Exception,e:
            return data


#        sarr = p.findall(data)
#        for line in res:
#            print line
#        print len(sarr)
#        res = p.split(data)
#        for line in res:
#            print line


    def open_file_null(self,file_data):  #清除空行
        data=""
        try:
            p = re.compile( r'.+?\n')
            sarr = p.findall(file_data)
            for every in sarr:
                if ("//" in str(every) or "!" in str(every)):
                    data+=str(every)
                else:
                    #print self.th_re(str(every))
                    data+=self.th_re(str(every))
                #if every.split():
                    #data+=every
    #            if len(every)>1:
    #                data+=every
                    #data+=every.lstrip().rstrip().strip().rstrip('\n')
            return data
        except Exception,e:
            print u"zzzzzzzzzzzzz",e
            return data

    def TXT_file_add(self,file_nem,data):  #写入文本
        try:
            #file_nem=time.strftime('%Y.%m.%d')   #file_nem+".txt"
            file_object = open(file_nem,'w')
            #file_object.write(list_passwed[E])
            file_object.writelines(data)
            #file_object.writelines("\n")
            file_object.close()
        except Exception,e:
            print u"写入TXT失败",data,e
            return 0

    def utf_8_G(self,data):  #解码
        try:
            try:
                return "gbk",data.decode('gbk')
            except Exception,e:
                #print e
                pass
            try:
                return "utf-8",data.decode('utf-8')
            except Exception,e:
                #print e
                pass
            try:
                return "gb2312",data.decode('gb2312')
            except Exception,e:
                #print e
                pass
        except Exception,e:
            print "utf_8_G",e
            return "utf_8_G","no"
            pass

    def url_http_200(self,url):
        try:
            req = urllib2.Request(url)
            req.add_header('User-Agent',"Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)")
            s = urllib2.urlopen(req,timeout=10)  # 超时10秒   #s = urllib2.urlopen(r"http://www.163.com")
            int_url_read = s.read()
            if len(int_url_read)>=5000:
                return True,int_url_read
            else:
                return False,""
        except BaseException,e:
            #print "xxxxxxxxxxxx",(str(e))
            return False,""


if __name__=='__main__':
    m=www_mb()  #http://www.deerdun.com
    m.www_index("http://www.deerdun.com")  #http://www.ybfhcl.com
    m.www_index2("http://www.deerdun.com")



#    p = re.compile('(one|two|three)')
#    print p.sub('num','one word two words three words apple',2)


以上是编程之家(jb51.cc)为你收集整理的全部代码内容,希望文章能够帮你解决所遇到的程序开发问题。

如果觉得编程之家网站内容还不错,欢迎将编程之家网站推荐给程序员好友。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Python中的函数(二) 在上一篇文章中提到了Python中函数的定义和使用,在这篇文章里我们来讨论下关于函数的一些更深的话题。在学习C语言函数的时候,遇到的问题主要有形参实参的区别、参数的传递和改变、变量的作用域。同样在Python中,关于对函数的理解和使用也存在这些问题。下面来逐一讲解。一.函
Python中的字符串 可能大多数人在学习C语言的时候,最先接触的数据类型就是字符串,因为大多教程都是以&quot;Hello world&quot;这个程序作为入门程序,这个程序中要打印的&quot;Hello world&quot;就是字符串。如果你做过自然语言处理方面的研究,并且用Python
Python 面向对象编程(一) 虽然Python是解释性语言,但是它是面向对象的,能够进行对象编程。下面就来了解一下如何在Python中进行对象编程。一.如何定义一个类 在进行python面向对象编程之前,先来了解几个术语:类,类对象,实例对象,属性,函数和方法。 类是对现实世界中一些事物的封装,
Python面向对象编程(二) 在前面一篇文章中谈到了类的基本定义和使用方法,这只体现了面向对象编程的三大特点之一:封装。下面就来了解一下另外两大特征:继承和多态。 在Python中,如果需要的话,可以让一个类去继承一个类,被继承的类称为父类或者超类、也可以称作基类,继承的类称为子类。并且Pytho
Python中的函数(一) 接触过C语言的朋友对函数这个词肯定非常熟悉,无论在哪门编程语言当中,函数(当然在某些语言里称作方法,意义是相同的)都扮演着至关重要的角色。今天就来了解一下Python中的函数用法。一.函数的定义 在某些编程语言当中,函数声明和函数定义是区分开的(在这些编程语言当中函数声明
在windows下如何快速搭建web.py开发框架 用Python进行web开发的话有很多框架供选择,比如最出名的Django,tornado等,除了这些框架之外,有一个轻量级的框架使用起来也是非常方便和顺手,就是web.py。它由一名黑客所创建,但是不幸的是这位创建者于2013年自杀了。据说现在由
将Sublime Text 2搭建成一个好用的IDE 说起编辑器,可能大部分人要推荐的是Vim和Emacs,本人用过Vim,功能确实强大,但是不是很习惯,之前一直有朋友推荐SUblime Text 2这款编辑器,然后这段时间就试了一下,就深深地喜欢上这款编辑器了...
Python中的模块 有过C语言编程经验的朋友都知道在C语言中如果要引用sqrt这个函数,必须用语句&quot;#include&lt;math.h&gt;&quot;引入math.h这个头文件,否则是无法正常进行调用的。那么在Python中,如果要引用一些内置的函数,该怎么处理呢?在Python中
Python的基础语法 在对Python有了基础的认识之后,下面来了解一下Python的基础语法,看看它和C语言、java之间的基础语法差异。一.变量、表达式和语句 Python中的语句也称作命令,比如print &quot;hello python&quot;这就是一条语句。 表达式,顾名思义,是
Eclipse+PyDevʽjango+Mysql搭建Python web开发环境 Python的web框架有很多,目前主流的有Django、Tornado、Web.py等,最流行的要属Django了,也是被大家最看好的框架之一。下面就来讲讲如何搭建Django的开发环境。一.准备工作 需要下载的
在windows下安装配置Ulipad 今天推荐一款轻便的文本编辑器Ulipad,用来写一些小的Python脚本非常方便。 Ulipad下载地址: https://github.com/limodou/ulipad http://files.cnblogs.com/dolphin0520/u...
Python中的函数(三) 在前面两篇文章中已经探讨了函数的一些相关用法,下面一起来了解一下函数参数类型的问题。在C语言中,调用函数时必须依照函数定义时的参数个数以及类型来传递参数,否则将会发生错误,这个是严格进行规定的。然而在Python中函数参数定义和传递的方式相比而言就灵活多了。一.函数参数的
在Notepad++中搭配Python开发环境 Python在最近几年一度成为最流行的语言之一,不仅仅是因为它简洁明了,更在于它的功能之强大。它不仅能够完成一般脚本语言所能做的事情,还能很方便快捷地进行大规模的项目开发。在学习Python之前我们来看一下Python的历史由来,&quot;Pytho
Python中的条件选择和循环语句 同C语言、Java一样,Python中也存在条件选择和循环语句,其风格和C语言、java的很类似,但是在写法和用法上还是有一些区别。今天就让我们一起来了解一下。一.条件选择语句 Python中条件选择语句的关键字为:if 、elif 、else这三个。其基本形式如
关于raw_input( )和sys.stdin.readline( )的区别 之前一直认为用raw_input( )和sys.stdin.readline( )来获取输入的效果完全相同,但是最近在写程序时有类似这样一段代码:import sysline = sys.stdin.readline()
初识Python 跟学习所有的编程语言一样,首先得了解这门语言的编程风格和最基础的语法。下面就让我们一起来了解一下Python的编程风格。1.逻辑行与物理行 在Python中有逻辑行和物理行这个概念,物理行是指在编辑器中实际看到的一行,逻辑行是指一条Python语句。在Python中提倡一个物理行只
当我们的代码是有访问网络相关的操作时,比如http请求或者访问远程数据库,经常可能会发生一些错误,有些错误可能重新去发送请求就会成功,本文分析常见可能需要重试的场景,并最后给出python代码实现。
1.经典迭代器 2.将Sentence中的__iter__改成生成器函数 改成生成器后用法不变,但更加简洁。 3.惰性实现 当列表比较大,占内存较大时,我们可以采用惰性实现,每次只读取一个元素到内存。 或者使用更简洁的生成器表达式 4.yield from itertools模块含有大量生成器函数可
本文介绍简单介绍socket的常用函数,并以python-kafka中的源码socketpair为例,来讲解python socket的运用
python实践中经常出现编码相关的异常,大多网上找资料而没有理解原理,导致一次次重复错误。本文对常用Unicode、UTF-8、GB2312编码的原理进行介绍,接着介绍了python字符类型unicode和str以及常见编解码错误UnicodeEncodeError和UnicodeDEcodeEr