主页 > 知识库 > 雨哲防采集策略之列表篇

雨哲防采集策略之列表篇

热门标签:服务器配置 银行业务 Linux服务器 科大讯飞语音识别系统 团购网站 阿里云 Mysql连接数设置 电子围栏
在一般的链接地址形式如:  
复制代码 代码如下:

1、a class="链接样式" href="链接地址" title="链接说明" target="_blank">文章标题/a>  
2、a class='链接样式' href='链接地址' title='链接说明' target='_blank'>文章标题/a>  

       大家注意看上面两行代码,有一个区别就是第一个中间使用的是双引号,第二个使用的是单引号。一般来说,如果在文章列表页面都使用双引号或者使用单引号,很容易让采集者找到文章路径(开始代码:href=' ,结束代码:' )。 

      那如果我们混合着用,也就是有的使用单引号,有的使用双引号,那么就会给采集者带来一定的麻烦。至少他不能采集到所有文章(如果采集程序差一点的话可能一篇也采集不到)。 

在上面的基础上,更深入一步将A中间的参数进行随机排列:  
复制代码 代码如下:

a href="链接地址" title="链接说明" target="_blank" class="链接样式">  
a href="链接地址" class="链接样式" title="链接说明" target="_blank">  
a title="链接说明" href="链接地址" class="链接样式" target="_blank">  
       然后再在其中混用单双引号,在href=后面还可以不使用引号。那么采集者将不能正确获取列表页面中文章地址。 

       再深入一步,可以在列表中加入干扰码,如把链接部分重复加一次空白链接,(a href="链接地址" title="链接说明" target="_blank" class="链接样式">/a>),那么如果对方能够获取一部分文章地址,或者能够采集一部分文章,那么这部分文章也肯定是重复的。 

在进行以上修改后,我想大部分采集者都会知难退的哈。缺点就是代码不太标准。以上仅雨哲个人观点。 

标签:萍乡 江苏 大理 广元 蚌埠 枣庄 衢州 衡水

巨人网络通讯声明:本文标题《雨哲防采集策略之列表篇》,本文关键词  ;如发现本文内容存在版权问题,烦请提供相关信息告之我们,我们将及时沟通与处理。本站内容系统采集于网络,涉及言论、版权与本站无关。
  • 相关文章
  • 收缩
    • 微信客服
    • 微信二维码
    • 电话咨询

    • 400-1100-266