织梦CMS - 轻松建站从此开始!

狂人采集器

当前位置: 首页 > 动态|问题 > 常见问题 >

采集规则截取代码详解及技巧,编写采集规则需知!

时间:2013-04-04 21:32来源:未知 作者:admin 点击:
注意:以下规则的代码均用小写,大写无效 1、常用代码解释 d000d 数字 为上一行,或下一行 (常用) 例:假设A为某关键字,A*d000d1 意思:关键字A的下一行 A*d000d-1意思关键字A的上一行。 d111d 数字 为前一字符,或后一字符 (常用) 例:假设A为某关键字,
注意:以下规则的代码均用小写,大写无效

1、常用代码解释

d000d数字 为上一行,或下一行    (常用)

例:假设A为某关键字,A*d000d1 意思:关键字A的下一行    A*d000d-1  意思关键字A的上一行。

d111d数字 为前一字符,或后一字符    (常用)

例:假设A为某关键字,A*d111d1   关键字A的后一个字符   A*d111d-1  关键字A的前一个字符

d222d关键字   放在标题截取开始处.为整个文本只保留关键字前的文本.后面的全不要

d666d   不换行   (常用)   如果你你在采集的时候发现采集的内容的第一段无法采集到,总是少开头的一段文字,那么在截取开始的代码后面加上代码     d666d


d333d   只截取当前一行   例: 标题截取开始为 A   截取结束为 d333d  意思就是标题截取从关键字开始截取,只截取一行。


2、关键字组合解释:

A、B、C分别代表3个关键字

如果内容的截取开始为  A*B*C  则这个代码的意思就是,内容截取从关键字A开始截取,如果A后面有B关键字,则从B开始截取,如果后面有关键字C,则从关键字C开始截取。


如果内容的截取结束为  A*B*C  则这个代码的意思就是,内容截取到关键字A就结束截取,如果A前面有B关键字,则到B结束截取,如果前面有关键字C,则到关键字C结束截取。

如 /top.gif*d000d-1*gline.gif*本帖最近*[ 本帖最  意思就是内容截取到 /top.gif 上一行结束,如果在他们前面有关键字 gline.gif、本帖最近  或者  [ 本帖最  则到这些关键字就结束了,谁里文章内容结尾最近就到谁处结束。


常用高级代码解释
========采集文章后两关键字之间内容替换
========文章原文件代码两关键字之间内容替换
========文章原文件代码规则截取用关键字生成
========文章列表原文件代码关键字替换
========文章列表原文件代码文章地址合成开始结束位置
========文章列表原文件代码两关键字之间内容替换
====无超链接规则====
========繁体转简体==========
========简体转繁体==========
========分页采集规则====================
分页文章原代码开始处         
分页文章原代码结束处         
分页列表贴子网址相同         
分页列表贴子网址不同         
分页标题截取截取开始         
分页标题截取截取结束         
分页内容截取截取开始         
分页内容截取截取结束         
分页回贴部分截取开始         
分页回贴部分截取结束         
分页文章采集最大数量         

注释:
A、B为两个假设关键词,格式是中间空10个空格,以下所说的代码均是指软件测试界面得出的代码

========采集文章后两关键字之间内容替换
A          B
解释:删除“专用规则代码”中从A到B的内容

========文章原文件代码两关键字之间内容替换
A          B
解释:删除“帖子原代码”中从A到B的内容

========文章原文件代码规则截取用关键字生成
A          B
解释:将“帖子原代码”中的A替换为B
一般是在原代码里面插入某个提取标记的时候用,需要注意的是插入或者替换的代码不能破坏源代码结

构,比如代码“<td class="t_f" id="postmessage_6671">”
替换时可以设置为
<td class="t_f" id="postmessage_         内容开始代码<td class="t_f" id="postmessage_
不能设置为
<td class="t_f" id="postmessage_             <td class="t_f" id="postmessage_内容开始代码
否则代码不生效,简言之,不在要原代码的两个符号"<"和“>”中间插入标记,否则无法生效甚至破坏代码

========文章列表原文件代码关键字替换
A          B
解释:将“列表原代码”中的A替换为B,一般是目标站列表页网址比较特殊的时候用

========文章列表原文件代码文章地址合成开始结束位置
A          B
解释:只采集“列表原代码”中从A开始到B结束区域内的帖子地址,一般用来过滤置顶帖或者侧边栏帖子链接

========文章列表原文件代码两关键字之间内容替换
A          B
解释:删除“列表原代码”中从A到B的内容

====无超链接规则====
解释:加此代码后,会自动屏蔽所有超链接(如需要过滤,编写规则时就要加此代码,规则编写完成后再

加此代码的话,需要重新设置规则的)

========繁体转简体==========
解释:加此代码后,会自动将采集的繁体文字转换成简体

========简体转繁体==========
解释:加此代码后,会自动将采集的简体文字转换成繁体



========分页采集规则====================
分页文章原代码开始处         
分页文章原代码结束处         
分页列表贴子网址相同         
分页列表贴子网址不同         
分页标题截取截取开始         
分页标题截取截取结束         
分页内容截取截取开始         
分页内容截取截取结束         
分页回贴部分截取开始         
分页回贴部分截取结束         
分页文章采集最大数量         

这是编写分页的时候用到的一个组合代码,10个空格后填写代码标记


========分页采集规则====================
分页文章原代码开始处          A(“帖子原代码”中分页部分的开始代码)
分页文章原代码结束处          B(“帖子原代码”中分页部分的结束代码)
分页列表贴子网址相同          C(需要采集的分页的网址共同点)
分页列表贴子网址不同          D(需排除的链接特征符,一般是用来排除分页第一页的)
分页标题截取截取开始          E(分页标题,可不填写)
分页标题截取截取结束          F(分页标题,可不填写)
分页内容截取截取开始          G(分页内容开始代码,一般用于文章或图片类网页,和下面的分页回帖不能同时使用)
分页内容截取截取结束          H(分页内容结束代码,一般用于文章或图片类网页)
分页回贴部分截取开始          I(回帖分页开始代码,用于论坛的分页回复,和上面的分页内容提取不能同时使用)
分页回贴部分截取结束          J(分页内容结束代码,一般用于文章或图片类网页)
分页文章采集最大数量          (直接填写数字,控制最大分页采集数量,特别是论坛有些回帖几十个几百个分页的,用这个代码控制,如不需要控制,请删除此代码,否则无法采集分页)
(责任编辑:admin)
顶一下
(1)
100%
踩一下
(0)
0%
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
验证码: 点击我更换图片
    狂人采集器下载
客服中心&购买咨询
客服QQ:511737878
(请务必加QQ好友后再发消息)
联系电话:18672556611
(服务时间:上午9:00——晚上9:00)
推荐内容