网站反爬虫策略-巨人网络通讯

主页 > 知识库 > 网站反爬虫策略

网站反爬虫策略

今天来谈谈关于反爬虫的东西。

随着大数据时代的来临，无论是个人还是企业，对于数据的需求都越来越大。这种需求也催生了如今异常热门的数据产业，也催生了日益完善的网络数据采集技术。

这种需求的扩大，同时让网络爬虫日益猖獗，猖獗到甚至影响到了网站和APP的正常运行。

高频的网络爬虫行为无异于DDOS（分布式拒绝服务）攻击，虽然法律可以治它，但是其过程之繁琐，还是不如先让网站自身充分地强大起来。

为了便于基础薄弱的同学理解，我们先看一个基本的网站访问链路图：

这其中包含了我们从个人电脑的浏览器上访问一个网页所涉及的所有部件。同时我们可以将其简化为下图：

一、为什么要反爬虫？

在设计反爬虫系统之前，我们先来看看爬虫会给网站带来什么问题？

本质上来说，互联网上可以供人们浏览、查看和使用的网站及其网站上的数据，都是公开和允许获取的，所以并不存在于所谓的“非法授权访问”问题。

爬虫程序访问网页和人访问网页没有本质区别，都是由客户端向网站服务器发起HTTP请求，网站服务器接收到请求之后将内容响应返回给客户端。

只要是发起请求，网站服务器必然要进行响应，要进行响应，必然要消耗服务器的资源。

网站的访问者与网站之间是互相互惠互利的关系，网站为访问者提供了自己所需要的必要的信息和服务，而访问者也为网站带来了流量、访客、活跃度。所以网站的所有者会愿意消耗服务器的带宽、磁盘、内存，为访问者提供服务。

而爬虫程序呢？无异于白嫖党。成倍地消耗网站服务器资源、占用服务器带宽，却不会为网站带来一丝的利益，甚至于，最后的结果是有损于网站本身的。

爬虫，可能算得上是互联网里的非洲鬣狗了，也难怪遭网站的所有者讨厌了。

二、识别爬虫

既然讨厌爬虫，所以要将爬虫拒之于网站的门外了。要拒绝爬虫的访问，首先当然要识别出网络访问者中的爬虫程序。如何识别呢？

1、HTTP请求头

这算是最基础的网络爬虫识别了，正常的网络访问者都是通过浏览器对网站进行访问的。而浏览器都会带上自己的请求头以表明自己的基础信息。而这也是最容易被爬虫程序突破的识别手段，因为HTTP请求头谁都可以进行修改和伪造。

2、Cookie值

Cookie通常用来标识网站访问者的身份，就像是手上的一张临时凭证。并凭着这个凭着与网站服务器进行身份的校对。很遗憾，Cookie是保存在客户端的数据，也可以被修改和伪造。

3、访问频率

如果一个访问者，每隔1秒请求一次网站的某个页面，或者一秒钟请求了几百次这个页面。这个访问者不是爬虫程序就有鬼了。试问人类中有谁能快速和频繁地点击鼠标访问一个页面？他是得了帕金森综合征还是八爪鱼转世？

通过访问频率来识别爬虫程序是可行的，但是爬虫程序也能通过使用大量的代理IP来实现一个IP地址只访问了一次的效果，也可以通过随机的请求时间间隔规避。

4、鼠标行为轨迹

正常人类访问者浏览网页势必不会像机器一样，机械地移动和点击鼠标。而鼠标的移动和点击，是可以通过JS脚本捕获到的，所以可以通过判断访问者的鼠标行为轨迹来判断访问者是否为爬虫程序。

5、token值

现在很多网站都是前后端分离开发的，数据通过后端接口返回给前端，前端拿到数据再结合页面进行渲染。所以很多爬虫程序都直接找数据接口，而不是傻傻地请求页面了。token就用在验证这些后端数据接口上。token一般通过网页上的某个密钥加上时间再加上某些数据组合加密而成。

还有更多地识别爬虫的手段在此就不一一进行介绍。很遗憾的是，上述任何一种识别爬虫的手段，都有可能被爬虫绕过和突破。

三、拒绝爬虫

就像没有一劳永逸的网站安全防护一样，十年前把3389端口一关，就能防止服务器成为肉鸡，如今各种防火墙、各种安全措施都加上了，还有可能因为某个0Day漏洞被勒索。

爬虫与反爬虫之间，也永远都在斗争和升级。所不同的是，网络攻防是放开手脚的无限制级格斗，而反爬虫则是带着拳套和头盔的奥运拳击。

网站为了运营，势必要对外开放内容，而开放的内容就像是飘忽在非洲大草原的腐肉和血腥味，直勾勾地吸引着鬣狗的到来。

在开放内容和避免沦为爬虫的数据矿池之间平衡，是一个难事。

1、内容上限制内容的开放

开放的内容是获取用户、流量的基础，所以内容必须是开放的。但是内容的开放并不是无限制的开放。非注册用户可以看到一篇内容、两篇内容，但是不能无限地一直看到内容。这个限制，可以是要求登录，可以是要求扫码验证，可以是接入谷歌验证码之类的点击验证机制。

现在已经有越来越多的网站采用了有限内容开放的机制，比如微博、知乎、淘宝等，你可以看到一页两页的内容，但是如果还想继续，对不起请登录。

2、行为上记录用户操作

需要访问者进行登录并不能解决问题，因为模拟登录一直是网络爬虫程序的一个热门发展分支，无论是图片验证码、拼图、滑块还是点选汉字，都会被突破。甚至于短信验证码都可以通过编写APP与爬虫程序和网站之间进行通信。

所以记录用户行为必不可少，用户的一切操作和访问行为都需要记录在案，这是分析和处理爬虫的基础。

3、控制上严厉打击高频行为

从实际上来看，也有很多爬虫程序的运行并非是为了往死里薅网站的数据和内容，仅仅是为了方便进行手工的收集和整理工作，这种类型的爬虫行为一般会比人工浏览的频次要高，但是又显著低于鬣狗般的高频爬虫，对这种类型的爬虫行为可以忽略掉。做人留一线，日后好相见。

但是对于影响网站服务器运行的高频爬虫行为，必须采取措施。结合用户和IP信息，对相关用户或IP进行处理。

4、协议里申明权利

网站的所有者必须在网站协议或用户协议里申明，允许正常的浏览、访问和数据获取，对于异常、高频、威胁网站服务器稳定的行为，将保留进一步处理的权利。

四、最后

没有一个城池是固若金汤的，也没有一个措施可以阻挡所有疯狂的爬虫。面对爬虫的行为，利用各种技术建立一个行之有效的识别、分级和处理机制，才能既保得网站的开放，有能获得网站的稳定。

以上就是网站反爬虫策略的详细内容，更多关于网站反爬虫的资料请关注脚本之家其它相关文章！

标签：鹰潭萍乡山西来宾那曲锡林郭勒盟辛集邢台

巨人网络通讯声明：本文标题《网站反爬虫策略》，本文关键词网站,反,爬虫,策略,网站,；如发现本文内容存在版权问题，烦请提供相关信息告之我们，我们将及时沟通与处理。本站内容系统采集于网络，涉及言论、版权与本站无关。

下面列出与本文章《网站反爬虫策略》相关的同类信息！

网站反爬虫策略

今天来谈谈关于反爬虫的东西。随着大数据时代的来临，无论是个人还是企业，对于数据的需求都越来越大。这种需求也催生了如今异常热门的数据产业，也催生了日益完善的网络数据...

10-16

淮安机器人外呼系统哪个好（淮安机器人培训哪个好）

本文目录一览： 1、机器人外呼哪个CRM好？2、AI智能外呼机器人好一点的有哪些？3、好一点的外呼智能机器人有那些?机器人...

11-28

长春房产外呼机器人在哪可以办理-终于明白

长春房产外呼机器人在哪可以办理客户关系管理系统里的客户管理功能模块有信息化集中管理客户的信息，客户标签可随时自...

05-17

10086佛山客服中心苏斌：酥饼带你满意度UP!UP!UP！

满意度这玩意其实一点都不难，虽然来在线第一个月惨不忍睹。可是酥饼从来没有放弃过提高满意度！满意度提高其实只有一...

10-19

400电话申请哪个代理商好正规企业选择400电话申请需要满足哪些条件？

为了找到一个性价比更高的价格，我们需要选择一个正规的代理商。目前建议巨人科技办理400手机。巨人科技是运营商直接...

01-13

客服呼叫中心岂能认命排班运营增其效

运营管理是企业呼叫中心发展的客观要求和必然产物。近年以来，以技术（设备）为核心的呼叫中心建设全面转向以人力资源...

10-22

laravel Model 执行事务的实现

1.官方手册是这样介绍的: 想要在一个数据库事务中运行一连串操作，可以使用DB门面的transaction方法，如果事务闭包中抛出异...

10-18

北海便宜电销机器人（电销机器人多少钱）

本文目次一览： 1、市道上的智能电销呆板人真的有说的那么好吗？ 2、电销呆板人几何钱？ 3、智能德律风发卖呆板人几何钱...

11-26

电销卡哪些怎么样

电销卡哪些怎么样如果三大运营商发行的手机卡被封号了，还会影响自己的个人征信问题，所以他们都会使用专门拨打电销...

12-16

湖北铁通为10050呼叫中心话务员订制专业“营养餐”

为切实加强客服呼叫中心10050台座席话务员队伍建设，进一步提高话务员业务素质，促进服务管理系统化、服务规范常态化、...

10-19

无人便当店成本悖论：风口还是陷阱？

文\腾讯科技孙宏超没有收银员，结账无需排队，全天候售货，无人便当店正在北京、上海、浙江等地成为现实。按照腾讯...

10-16

低话费电话机器人（打电话机器人收费标准）

今日给各位共享低话费电话机器人的常识，其间也会对打电话机器人收费规范进行解说，假如能可巧处理你现在面对的问题，...

11-07

电话做销售容易犯的错误

在决定是否遵从客户的要求时，要区别对待，是基于“需求”还是一个随意性的“需要”。需求是同客户的长远目标一致的，...

12-12

上海梦古电话机器人（上海电话机器人公司）

本篇文章给大家谈谈上海梦古电话机器人，以及上海电话机器人公司对应的知识点，希望对各位有所帮助，不要忘了收藏本站...

03-28

沃创云外呼系统是什么的简单介绍

今天给各位分享沃创云外呼系统是什么的知识，其中也会对进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，...

03-04

外呼系统展示（外呼系统联系方式）

今天给各位分享外呼系统展示的知识，其中也会对外呼系统联系方式进行解释，如果能碰巧解决你现在面临的问题，别忘了关...

11-06

苏州电话外呼系统推广（苏州呼叫中心）

本文目次一览： 1、网络德律风外呼体系哪个好？ 2、什么是网络德律风外呼体系？ 3、外呼体系哪家公司做得好？？？ 4、电...

11-25

如何保证系统异常后桌面内容?Windows桌面备份的3个妙招

许多人习惯于将最常用的文件和收到的资料顺手放在Windows桌面上。方便之外，也有很大的隐患。当系统奔溃或重装时容易因...

10-20

自测你的品牌商标

一、自测精神属性什么是品牌商标的精神属性? 品牌商标的精神需求即品牌无形的精神属性，它具有创造、整合功能，它既具...

10-23

电话智能语音外呼系统

3.人工成本高，工作效率低【电话智能语音外呼系统】 2、那么多家电话机器人有什么区别？【电话智能语音外呼系统】汇港...

10-30

400电话开通费用贵吗

【400电话开通费用贵吗】400电话开通流程是比较简单的，选择正规代理商开通即可，而400电话开通费用与多种因素有关，比如...

04-21

常熟专业电话呼叫软件多少钱,呼叫中心软件哪里有-信誉保证

常熟专业电话呼叫软件多少钱,呼叫中心软件哪里有近几年，随着人工技能的兴起，电销行业也加入了人工技能赛道。电话机...

12-17

删除win8.1系统登录界面电源按钮图文教程

当我们因为有事，需要离开电脑一段时间时，我们一般都会采取锁定电脑的方式，来保证自己的电脑不被他人使用，自己的资...

10-20

中国电信回应央视315曝光：已成立小组自查自纠

针对今晚央视3.15晚会曝光中国电信的多家分公司涉嫌为第三方公司发送垃圾短信提供便利通道和提供防阻拦方式一事，中国...

01-16

Win10预览版14279多国语言包官方下载地址汇总：32/64位俱全

微软今天向Insider用户推送了Win10预览版14279超快速版更新，已根据微软原版esd映像制作了ISO格式镜像方便用户直接安装。现在...

10-20

乌鲁木齐销售外呼系统（乌鲁木齐销售招聘同城）

本篇文章给咱们谈谈乌鲁木齐出售外呼体系，以及乌鲁木齐出售招聘同城对应的知识点，期望对各位有所协助，不要忘了保...

05-17

Lua脚本自动生成APK包

上次用了纯bat写了个脚本生成APK包，感觉bat扩展性和语法差的令人发指，这次用lua重写了一个脚本可以根据需要自行扩展了...

10-18

电销机器人有哪几个（电销机器人是一个怎么样的软件）

本篇文章给大家谈谈电销机器人有哪几个，以及电销机器人是一个怎么样的软件对应的知识点，希望对各位有所帮助，不要忘...

05-17

扬州专业电销线路办理服务商,呼叫中心系统-性价比之高

扬州专业电销线路办理服务商,呼叫中心系统格、工程周期等方面的咨询及售后服务等方面的诉求，一旦出现差错，就会降低...

12-16

天津电销猫机器人报价（旭猫电销机器人）

本篇文章给大家谈谈天津电销猫机器人报价，以及旭猫电销机器人对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔...

03-26

400电话与我们的生活密不可分

随着科学技术以及通信设备、技术等方面的迅猛发展，我恶魔女的生活已经逐渐的被各种高科技的通信设备所包围了。这些有...

05-15

呼叫中心需要数据分析师吗？

在软件日趋成熟，操作越来越简单的今天，还需要数据分析师吗？很多非专业人士不也可以对大部分数据进行简单的统计了吗...

10-22

电销机器人型号参数设置（电销机器人效果）

今天给各位分享电销机器人型号参数设置的知识，其中也会对电销机器人效果进行解释，如果能碰巧解决你现在面临的问题，...

05-17

徐州真人电销机器人招商（徐州特种机器人）

本文目次一览： 1、有没有哪种德律风呆板人可能做招商名目的啊？需要联结的合作方太多了，想要可能智能高效和客户相同...

11-26

中山正规外呼系统运营商的简单介绍

今天给各位分享中山正规外呼系统运营商的知识，其中也会对进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站...

05-16

Go语言实现猜数字小游戏

利用Go语言实现一个四位数字，而且不重复的猜数字游戏，解题思路是先利用rand随机函数产生一个四位数，然后通过切片进行...

10-18

山西电商外呼系统收费的简单介绍

本篇文章给大家谈谈山西电商外呼系统收费，以及对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。本文目录一...

11-06

东莞全自动外呼系统代理商（东莞饭堂承包公司）

本文目录一览： 1、外呼系统哪家公司做的好？2、服务比较全面的做外呼系统得公司有谁能推荐一些？3、现在外呼系统哪家...

11-28

国产统一操作系统UOS真的能代替window系统吗? UOS上手体验

近一段时间，Win10的更新搞得人心惶惶，新功能没见多少，问题却此起彼伏。常常是一个旧Bug搞定了，又带来一堆新Bug。近日...

10-19

物联卡，物联网卡，物联终端设备卡，51物联卡为你详细介绍

作为一个刚发展起来的新兴领域，什么是物联卡？物联卡有哪些用途？这一个个的疑问还是留存在人们心底疑问，今天搜卡之...

10-13

若是想办理400电话申请,该怎么操作呢400电话办理怎样选择号码？怎么选择套餐？

在很多人的印象中，如果一个企业有400服务电话，就会觉得这个公司可靠、正规、服务完善。一般中大公司都有自己的400电...

01-12

深圳商标转让公司哪家好？如何转让更可靠？

不少企业在购买商标之后，都表示购买商标过程真是快准狠，只要挑选了商标，通过合法途径进行交易转让，很快就能获得这...

10-23

红袖集团创始人李娜：客服外包服务事业的前缘今生

事业格局的瓶颈突破源自于对客户的价值贡献，这并非是舍弃掉”我”而去为客户效劳的计较权衡，反而是为了能够体会到“...

10-22

济南不封卡电销卡低资费

济南不封卡电销卡低资费投诉封号，这要看我们自己如何使用电话卡，因为，每个人打电话与客户沟通的方式不同，方式不...

11-14

星美电销专用卡-电销卡哪里买

星美电销专用卡-电销卡哪里买电销卡哪里买科技有限公司主营电销卡、防封电话卡、电销专用卡、高频不封外呼系统、电销...

02-04

智能外呼系统教育机构（培训机构）

本篇文章给咱们谈谈智能外呼体系教育组织，以及训练组织对应的知识点，期望对各位有所协助，不要忘了保藏本站喔。本...

11-06

关于促进杭州服务外包产业发展的若干意见

服务外包是现代高端服务业重要组成部分，对于转变外贸增长方式，优化利用外资结构具有重要意义。为抢抓先机，加快发展...

10-22

400电话在企业中比较常见

到目前为止，没有人不知道400电话，一听到400电话，就会被认为是销售，这也说明企业在人们心中的辨识度很高，另外，只有...

11-02

实例讲解通过PHP创建数据库

数据库是相互关联的数据的集合，我们可以从数据库中有效地检索，插入和删除数据，并以表格，视图，模式等形式组织数据...

10-18

文本机器人技术特点有哪些，企业应该如何使用?

现在各种各样的技术都处于一个飞速发展的过程，比如机器人技术、人工智能技术，随着机器人市场走过了炒作阶段，重新的...

07-13

常州企业电销卡哪里可以买到

常州企业电销卡哪里可以买到电销卡在哪里办？避免专业运营商，很多企业都会问到电销卡在哪里办？其实办理电销卡的时...

12-16

网站反爬虫策略

10-16

本页收集关于网站反爬虫策略的相关信息资讯供网民参考！

推荐文章

上一篇：14款好用开源的Web应用压力负载，性能测试工具推荐

下一篇：关于网站如何赚钱方法之广告-写给新站长

一起分享吧