帝国cms分页采集正则及过滤技巧

老实说我并不主张网站采集,不过做为站长,网页采集实在是一大利器。拿帝国CMS来说,采集功能很强大。虽然帝国CMS采集方法简单易学,但还是有朋友为采集规则而绞尽脑汁。以下是我悼念的一些帝国CMS的采集正则。

从文章的源代码中获得的

第一种:

<p align='center'><b><font color='red'>[1]</font>&nbsp;<a href='/Eat/RMenu/200806/38611_2.html'>[2]</a>&nbsp;<a href='/Eat/RMenu/200806/38611_3.html'>[3]</a>&nbsp;<a href='/Eat/RMenu/200806/38611_4.html'>[4]</a>&nbsp;<a href='/Eat/RMenu/200806/38611_2.html'>下一页</a> </b></p>

编写的规则:

选全部列出式
区域正则:
<p align='center'><b><font color='red'>[!--smallpageallzz--]'>下一页
链接正则:
<a href='[!--pageallzz--]'>

--------------------------------------------------------------------------------


第二种

采集代码


<p align='center'><b><font color='red'>[1]</font>&nbsp;<a href='/lw/3/lw_31205_2.html'>[2]</a>&nbsp;<a href='/lw/3/lw_31205_2.html'>下一页</a> </b></p> <center>《

编写的规则:

选用上下导航式:
分页区域正则:<font color='red'>[!--smallpagezz--]下一页
分页链接正则:<a href='[!--pagezz--]'
新闻正文正则:
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script></td>
</tr>
</table>[!--newstext--]</td>
</tr>
<tr>
<td width=5></td>


过滤广告正则:
</p> <center>[!--ad--]</center>,</p><p align='center'>[!--ad--]</b>

例如:http://www.3edu.net/lw/3/lw_31205.html

--------------------------------------------------------------------------------


第三种

<p align="center"><img src="/bgy/Images_1/sy8.gif" border="0" align="absbottom"> <FONT style="COLOR: #ff0000">【1】</font> <a class=page href="094221656-2.html" target=_self>【2】</a> <a class=page href="094221656-3.html" target=_self>【3】</a> <a class=page href="094221656-4.html" target=_self>【4】</a> <a class=page href="094221656-5.html" target=_self>【5】</a> <a href="094221656-2.html"><img src="/gwy/Images1/xy.gif" border="0" align="absbottom"></a></p>

编写的规则:

"全部列出"式正则设置:

分页区域正则(无)
分页链接正则: <a class=page href="[!--pageallzz--]" target=_self>

--------------------------------------------------------------------------------


第四种:

<DIV class=pageContainer> <DIV class=pager><span class="nextprev">&lt;&lt; 前一页</span><span class="current">1</span><a href="0731_3493_686224_1.shtml" title="转到第2页">2</a><a href="0731_3493_686224_2.shtml" title="转到第3页">3</a><a href="0731_3493_686224_1.shtml" class="nextprev" title="后一页">后一页 &gt;&gt;</a></DIV></DIV></DIV>
</div>


选全部列出式

区域正则:
<DIV class=pageContainer> <DIV class=pager><span class="nextprev">[!--smallpageallzz--]" class="nextprev" title="后一页">

链接正则:
<a href="[!--pageallzz--]"


版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


http://shang.qq.com/widget/group.php
[e:loop={91,5,0,0}] <liclass="bj_<?=$bqno?>"><ahref="<?=$bqsr['titleurl']?>"target="_blank"><?=esub($bqr[title],30)?></a></li> [/e:loop] 其中91表示&nbs…
原文地址:帝国cms修改编辑器的预览功能作者:白头豕帝国CMS的投稿和录入界面没有专门的"预览"功能。fckeditor编辑器里倒是有一个预览,只是功能比较简陋,得到的预览页面没有特别的样式,与网站本身内容页的效果相差甚远。 解决这个问题其实很简单,只要修改fckeditor的两个js文件:fckeditor…
增加后台自定义编辑界面 当值后台界面的地址:D:EmpireServerwebeadminadminstyle 复制1变成3,然后更改页面 把不想客户用到的隐藏掉即可 然后回到后台新建立一个后台样式。 …
原文地址:帝国cms调用当前栏目下所有栏目名称和链接顶级栏目下的栏目调用作者:缘若秋风 这里要用要一个标签了,叫做循环栏目导航标签 [listshowclass]'selfinfo',9,0,0[/listshowclass] 上面的意思是: 'selfinfo'为当前栏目 使用编辑为9的标签模板 下面贴…
解决方法:http://bbs.phome.net/showthread-13-148886-0.html
灵动标签应用之“调用最新DIGG顶的最多的文章” [e:loop={'select*from[!db.pre!]ecms_newswherechecked=1orderbydiggtopdesc,iddesclimit8',10,24,0}] <li><ahr…
更新所有栏目的内容文章页 问题? 如果你把网站迁移成功,打开列表页,单击文章,缺打不开页面的话,怎么解决? 第一种解决方法: 第一步:登陆后台页面,打开【信息】页面,选中栏目名,单击【修改】,然后再点击保存。即可 备注:这样的方法比较麻烦,因为需要每条信息都重复这…
修改帝国默认的列表分页样式和伪静态页面留言版的分页样式。本来想在默认的模板标签上修改,看了看代码,和标签前后都多了空格,如果在现在的基础上改,简单改改也行,不过实在是受不了那么多空格符,而且如果用display:block的话,会出现一个阶梯状的样式,所以修改分页的样式势在必行…
在帝国CMS的模板数据调用里面,直接调用友情链接的是 [phomelink]每行显示数,显示总数,操作类型,分类id,是否显示原链接[/phomelink] 然而这种调用方式在页面生成以后是使用TABLE标签直接显示的,既不能很好的掌握其美观程度,也不符合标准。但是这个[phomelink]标签又没提供标签模…
更改后台登陆次数? 登陆ftp文件,打开E/CLASS/config.php文件,'loginnum'=>100,这个是更改登陆次数的单词。 查看后台登陆认证码? //后台安全设置 登陆ftp文件,打开E/CLASS/config.php文件,$do_loginauth=''; //登录认证码,…
灵动标签应用之“调用信息当天信息加New标志” 本功能实现调用信息时候如果是当天发布的最新信息显示New标志图片。 代码: <ul> [e:loop={栏目ID,显示条数,操作类型,只显示有标题图片}] <? $newimg=""; if(date("m-d",$bqr[truetime])==date("m…
http://jingyan.baidu.com/article/5d6edee228a88899eadeeca7.html
首先我们需要做的就是新建一个地图模板,模板-增加自定义页面模板。 我这里已经填写好了模板内容,代码我写出来: <!DOCTYPEhtmlPUBLIC"-//W3C//DTDXHTML1.0Transitional//EN""http://www.w3.org/TR/xhtml1/DTD/xhtml1-transi…
登陆数据库,http://losthost/phpmyadmin,找到phome_enewsuser数据表, 输入SELECT*FROM`phome_enewsuser` phome_enewsuser数据表的信息查询点击执行按钮,会查询出来用户名和密码是多少,由于密码是被md5加密…
==============判断新闻的样式【前面加图标【紧====热】】================== [e:loop={'7,39,46,50',10,0,0,'','onclickDESC'}] <? //print_r($bqr);die(); //echo$bqr; $good=""; &nb…
这个js模版不能使搜索引擎搜到,所以尽量不要用。 第一步:建立js模版。 点击【模版】―【js模版】―【管理js模版】,打开,新建【js模版】,按照列表模版的方式建立。 第二步:打开【栏目】_[管理自定义】新建【自定义js】, 第三步:调用js模版。打开公共模版,动态头…
在【系统】――【安全参数配置】――【后台登陆认证码】输入你想输入的认证码即可。
题描述: 如何更改 当前位置导航中的 【首页 】两字和【首页后面的大于号】 您当前的位置:首页 > 人才频道 > 招聘 如何搞成: 您当前的位置:沛县在线 > 人才频道 > 招聘 解决办法: 1,更改 首页 两个字 e/class/connect.php 搜索:$fun_r['in…
第一步:登陆后台页面,打开【系统】―【数据表与系统模版】―【管理系统模版】,然后点击【修改】按钮。 第二步:去掉你想不显示的一项,在他的后面把对勾去掉即可 第三步:分别选中(录入表单模板)和(前台投稿表单模板)两项,然后点击【提交】按钮。 …