Python爬虫基础之初次使用scrapy爬虫实例-巨人网络通讯

主页 > 知识库 > Python爬虫基础之初次使用scrapy爬虫实例

Python爬虫基础之初次使用scrapy爬虫实例

项目需求

在专门供爬虫初学者训练爬虫技术的网站（http://quotes.toscrape.com)上爬取名言警句。

创建项目

在开始爬取之前，必须创建一个新的Scrapy项目。进入您打算存储代码的目录中，运行下列命令:

(base) λ scrapy startproject quotes
New scrapy project 'quotes '， using template directory 'd: \anaconda3\lib\site-packages\scrapy\temp1ates\project ', created in:
    D:\XXX
You can start your first spider with :
    cd quotes
    scrapy genspider example example. com

首先切换到新建的爬虫项目目录下，也就是/quotes目录下。然后执行创建爬虫文件的命令:

D:\XXX(master)
(base) λ cd quotes\

  
D:\XXX\quotes (master)
(base) λ scrapy genspider quotes quotes.com
cannot create a spider with the same name as your project
 
D :\XXX\quotes (master)
(base) λ scrapy genspider quote quotes.com
created spider 'quote' using template 'basic' in module:quotes.spiders.quote

该命令将会创建包含下列内容的quotes目录:

robots.txt

robots协议也叫robots.txt(统一小写）是一种存放于网站根目录下的ASCII编码的文本文件，它通常告诉网络搜索引擎的网络蜘蛛，此网站中的哪些内容是不应被搜索引擎的爬虫获取的，哪些是可以被爬虫获取的。

robots协议并不是一个规范，而只是约定俗成的。

#filename : settings.py
#obey robots.txt rules
ROBOTSTXT__OBEY = False

分析页面

编写爬虫程序之前，首先需要对待爬取的页面进行分析，主流的浏览器中都带有分析页面的工具或插件，这里我们选用Chrome浏览器的开发者工具(Tools→Developer tools）分析页面。

数据信息

在Chrome浏览器中打开页面http://lquotes.toscrape.com，然后选择"Elements"，查看其HTML代码。

可以看到每一个标签都包裹在

编写spider

分析完页面后，接下来编写爬虫。在Scrapy中编写一个爬虫，在scrapy.Spider中编写代码Spider是用户编写用于从单个网站(或者-些网站)爬取数据的类。

其包含了-个用于下载的初始URL,如何跟进网页中的链接以及如何分析页面中的内容，提取生成item的方法。

为了创建一个Spider, 您必须继承scrapy.Spider类，且定义以下三个属性:

name:用于区别Spider。该名字必须是唯一-的, 您不可以为不同的Spider设定相同的名字。
start _urls:包含了Spider在启动时进行爬取的ur列表。因此，第一个被获取到的页面将是其中之一。后续的URL则从初始的URL获取到的数据中提取。
parse():是spider的一一个方法。被调用时，每个初始URL完成下载后生成的Response对象将会作为唯一的参数传递给该函数。该方法负责解析返回的数据(response data),提取数据(生成item)以及生成需要进一步处理的URL 的Request对象。

import scrapy
 
class QuoteSpi der(scrapy . Spider):
    name ='quote'
    allowed_ domains = [' quotes. com ']
    start_ urls = ['http://quotes . toscrape . com/']
    
    def parse(self， response) :
        pass

下面对quote的实现做简单说明。

scrapy.spider :爬虫基类，每个其他的spider必须继承自该类(包括Scrapy自带的其他spider以及您自己编写的spider)。
name是爬虫的名字，是在genspider的时候指定的。
allowed_domains是爬虫能抓取的域名，爬虫只能在这个域名下抓取网页，可以不写。
start_ur1s是Scrapy抓取的网站，是可迭代类型，当然如果有多个网页，列表中写入多个网址即可，常用列表推导式的形式。
parse称为回调函数，该方法中的response就是start_urls 网址发出请求后得到的响应。当然也可以指定其他函数来接收响应。一个页面解析函数通常需要完成以下两个任务:

1.提取页面中的数据(re、XPath、CSS选择器)
2.提取页面中的链接，并产生对链接页面的下载请求。
页面解析函数通常被实现成一个生成器函数，每一项从页面中提取的数据以及每一个对链接页面的下载请求都由yield语句提交给Scrapy引擎。

解析数据

import scrapy
 
def parse(se1f，response) :
    quotes = response.css('.quote ')
    for quote in quotes:
        text = quote.css( '.text: :text ' ).extract_first()
        auth = quote.css( '.author : :text ' ).extract_first()
        tages = quote.css('.tags a: :text' ).extract()
        yield dict(text=text，auth=auth，tages=tages)

重点：

response.css(直接使用css语法即可提取响应中的数据。
start_ur1s 中可以写多个网址，以列表格式分割开即可。
extract()是提取css对象中的数据，提取出来以后是列表，否则是个对象。并且对于
extract_first()是提取第一个

运行爬虫

在/quotes目录下运行scrapycrawlquotes即可运行爬虫项目。
运行爬虫之后发生了什么?

Scrapy为Spider的start_urls属性中的每个URL创建了scrapy.Request对象，并将parse方法作为回调函数(callback)赋值给了Request。

Request对象经过调度，执行生成scrapy.http.Response对象并送回给spider parse()方法进行处理。

完成代码后，运行爬虫爬取数据，在shell中执行scrapy crawl SPIDER_NAME>命令运行爬虫'quote',并将爬取的数据存储到csv文件中:

(base) λ scrapy craw1 quote -o quotes.csv
2021-06-19 20:48:44 [scrapy.utils.log] INF0: Scrapy 1.8.0 started (bot: quotes)

等待爬虫运行结束后，就会在当前目录下生成一个quotes.csv的文件，里面的数据已csv格式存放。

-o支持保存为多种格式。保存方式也非常简单，只要给上文件的后缀名就可以了。(csv、json、pickle等)

到此这篇关于Python爬虫基础之初次使用scrapy爬虫实例的文章就介绍到这了,更多相关Python scrapy框架内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python爬虫框架-scrapy的使用
python scrapy项目下spiders内多个爬虫同时运行的实现
python爬虫scrapy基本使用超详细教程
在python3.9下如何安装scrapy的方法
python实现scrapy爬虫每天定时抓取数据的示例代码
python Scrapy爬虫框架的使用

标签：宜昌上饶珠海盘锦西宁湖北潮州佳木斯

巨人网络通讯声明：本文标题《Python爬虫基础之初次使用scrapy爬虫实例》，本文关键词 Python,爬虫,基础,之,初次,；如发现本文内容存在版权问题，烦请提供相关信息告之我们，我们将及时沟通与处理。本站内容系统采集于网络，涉及言论、版权与本站无关。

下面列出与本文章《Python爬虫基础之初次使用scrapy爬虫实例》相关的同类信息！

Python爬虫基础之初次使用scrapy爬虫实例

项目需求在专门供爬虫初学者训练爬虫技术的网站（http://quotes.toscrape.com)上爬取名言警句。创建项目在开始爬取之前，必须创建一个新的Scrapy项目。进入您打算存储代码的目录中，运...

10-18

浦发银行电话机器人（浦发银行财智机器人）

本文目录一览： 1、浦发95528为什么转不了人工2、电话机器人最近很火，那么它到底有什么用？3、为什么上海浦发银行给我打...

11-27

徐州电话机器人怎么样用（徐州机器人教育机构）

本文目录一览： 1、电话机器人怎样操作？操作难吗？2、电话机器人怎样用？3、智能电话机器人,怎样正确的运用?电话机器人...

11-28

关于泉州回拨外呼系统哪家强的信息

今天给各位分享泉州回拨外呼系统哪家强的知识，其中也会对进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站...

02-06

企业电销机器人软件（企业电销机器人软件有哪些）

本篇文章给咱们谈谈企业电销机器人软件，以及企业电销机器人软件有哪些对应的常识点，期望对各位有所协助，不要忘了保...

05-17

固网宽带新生意经：网络电话运营商“捆绑”互

宽带，绝对是一门好生意！随着马路修的越来越宽，包括电信运营商、互联网企业等产业链上的每个阵营都希望在这条黄金马...

01-16

【注册400电话】常见的三个问题与解答

现在正规的企业的服务热线一般是400电话，特别是对于初创企业来说，越早办理，就能享受到400电话带来的长期收益，但注册...

05-09

湖南电销外呼系统怎么样（电销外呼软件手机版）

本文目录一览： 1、电销客外呼体系这个体系好用么？2、外呼体系怎么样？3、主动外呼体系好用吗？电销客外呼体系这个体...

04-23

申请400电话之前需要考虑哪些因素

申请400电话之前，我们应该正确的做好各个方面的了解，申请400电话要知道公司是否有这方面的需求。虽然是正规的公司电话...

05-15

400的电话怎样办理(400电话怎么申请流程)

400的电话怎样办理(400电话怎么申请流程) 400电话怎么申请流程办理申请公司400电话的步骤如下： 1. 登陆电信运营商官网：在...

08-14

长春抗封号防封号公司-终于知道

长春抗封号防封号公司好的话术源自于对智能电销机器人逻辑的树立，尤其是对机器人问题库的树立和设置等，决议了机器人...

01-15

贵州高频电销卡售后有保障（电销高频电话卡）

本文目录一览：1、电销卡有售后吗?2、电销卡有哪些优势?3、电销卡真的无限制高频吗?4、电销卡哪家费用和服务比较好,能推...

07-10

隆之源智能外呼系统（ai智能语音外呼系统）

本文目录一览： 1、什么是智能外呼营销系统？求详细解答2、什么是智能外呼？3、自动外呼系统是什么，使用自动外呼营销...

11-27

为什么在MySQL中不建议使用UTF-8

最近我遇到了一个 bug，我试着通过 Rails 在以“utf8”编码的 MariaDB 中保存一个 UTF-8 字符串，然后出现了一个离奇的错误： ...

10-18

为什么要建设呼叫中心?您需要的解决方案

1.什么是呼叫中心 1.1呼叫中心（Call Center），又称客户服务中心，是指综合利用先进的通信及计算机技术，对信息和物资流程...

10-22

Java数据库编程中的技巧

1、java数据库操作基本流程 2、几个常用的重要技巧：可滚动、更新的记录集批量更新事务处理 java数据库操作基本流程：取...

10-18

400电话在哪里申请办理流程详解

400电话在哪里申请办理流程详解随着科技的发展和企业的不断扩张，越来越多的企业开始使用400电话服务。而很多人对于如...

08-14

嘉兴知识产权电话销售系统在哪可以办理,群呼系统如何办理-优质服务！

嘉兴知识产权电话销售系统在哪可以办理,群呼系统如何办理例如，在夜间休息时间不可能停止外呼。在中国的研发、机器人...

12-16

台州不封号电销卡好用吗

台州不封号电销卡好用吗现在的房产行业竞争压力也是非常大的，因为现在市面上有很多中介公司，比如：贝壳找房，美满...

12-15

腾讯地图怎么添加公司名称地址？腾讯地图添加公司名称和地址

腾讯地图怎么添加商家地址？现在出行导航都少不了标注，标注地址的信息准确性直接影响到查找的效率，常用地图地位就...

11-26

聪慧的电销公司都是用智能语音机器人了！

2017年，深度学习大热，人工智能迎来了从科学到技术，从技术到运用，从运用再到产业化的飞速发展势态；推动了AI技术与产...

01-13

苏州ai电销机器人排名(ai电销机器人的市场哪里找)

昨天，在美国加州圣芭芭拉举办的创新峰会（The Innovation Summit）上，CB Insight 的CEO Anand Sanwal 揭晓苏州ai电销机器人排名了全球...

11-29

IDC称萨蒂扬财务丑闻或致印度外包失去优势

新浪科技讯 2月2日下午消息，针对印度第三大IT及业务流程外包服务商萨蒂扬(Satyam)爆发的财务丑闻，IDC亚太区服务研究总监...

10-22

SQL Server代理：理解SQL代理错误日志处理方法

SQL Server代理是所有实时数据库的核心。代理有很多不明显的用法，因此系统的知识，对于开发人员还是DBA都是有用的。这系...

10-18

商标权产生及取得制度变迁竞争政策内涵分析

实用主义财产理论认为,包括财产法在内的法律的目的是为了实现最多数人的福利,将这一理论运用于商标法中,可解释为商标权...

10-23

客户管理系统的功能

企业与客户关系的处理大部分在于销售管理，CRM 外呼系统能够多维度进行销售过程管理。八骏CRM系统中的公海池制度、客户...

10-26

《那年花开月正圆》即将开播，腾讯视频携手沙发管家抢先看

由著名导演丁黑执导，孙俪、陈晓、何润东、胡杏儿等主演的讲述陕商传奇故事的大剧《那年花开月正圆》将于腾讯视频TV版...

10-16

400电话要从哪些方面完善自己

在做事情的时候就要找到适合的方式和途径，只有当你自己找到了这个方向之后，无论是发展还是其他的方面都会真正有保障...

05-15

每年失踪儿童数据惊人，谁来管？这个创始人出一招，他说要管到底

神兔侠创始人李安前几天在网上看到一篇文章，文中提到，中国每年的失踪儿童不完全统计有20万，找回来的大概只占到...

10-16

抖音代运营有哪些抖音赚钱引流的方法？为什么企业要选择抖音代运营？

03-01

任城区智能外呼系统（任城区智能外呼系统招聘）

本文目录一览： 1、什么是智能外呼？2、什么是智能外呼营销系统？求详细解答3、自动外呼系统是什么4、自动外呼系统是什...

本篇文章给大家谈谈兰州人工外呼系统哪家强，以及甘肃外呼系统对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔...

11-06

PyTorch 多GPU下模型的保存与加载(踩坑笔记)

这几天在一机多卡的环境下，用pytorch训练模型，遇到很多问题。现总结一个实用的做实验方式：多GPU下训练，创建模型代码...

10-18

物联卡怎么开通（物联卡怎么开通流量业务）

物联网卡是三大运营商为公司机器设备连接网络所发布的一种上网卡，仅有数据信息连接网络作用，不可以打电话和发短信，...

11-07

所有地图上都没有我的店铺，为什么我的地图都没有定位？

如何在所有地图上标注我的店铺？ https://www.51dongshi.com/ebedfreeehh.html【摘要】如何在所有地图上标注我的店铺？【提问】 ht...

10-08

什么是400电话号码(400电话好不好)

400电话套餐价格_400电话收费标准_400电话是否免费_优音通信 400电话号码是一个10位数字的虚拟号码，针对企事业单位办理的，...

11-07

为英国公司注册中国商标的4个步骤

为英国企业注册中国商标所需的4个步骤：首先在英国提交雇用中国的商标律师提交商标申请（通过商标局或《马德里议定...

10-23

如何延长电销卡的使用时间?

电销卡虽然有高频防封机制，但也不是绝对不会被封号的，高频呼出或被投诉就会被封号，可能导致电销卡无法再使用。那么...

10-13

电话机器人常用话术（机器人话术通用的）

本篇文章给大家谈谈电话机器人常用话术，以及机器人话术通用的对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔...

11-06

广西桂林局电访呼叫中心全面升级受好评

烟草在线据BPO行业资讯网报道广西桂林烟草是继08年底广西柳州烟草呼叫中心全面升级试运营，取得重大成功后的全区13地市...

10-22

云南国际转观念推进电力营销

2015年03月19日讯为了更好地适应电力营销形势的变化，近日，云南国际成立营销工作领导小组，安排做好今年的电力营销工作...

10-19

电销团队外包第三方公司（电销外包服务）

本文目录一览： 1、电话销售客服外包公司,这个求告知2、济南金融外包电销公司有哪些3、电话销售外包也可以外包吗？？...

04-22

西藏外呼系统哪家不错（西藏电话）

今天给各位分享西藏外呼系统哪家不错的知识，其中也会对西藏电话进行解释，如果能碰巧解决你现在面临的问题，别忘了关...

05-17

无锡教育电话营销线路价格,电话系统办理-热点

无锡教育电话营销线路价格,电话系统办理传统行业展开中心就是树立商品品牌效应，找到合适的。现在的电销机器人的识别...

12-17

深圳稳定电话系统供应商,群呼线路怎么办理-意味深长!

深圳稳定电话系统供应商,群呼线路怎么办理机器人转人工无感知切换 AI加持快速锁定目标客户智能对话式群呼，...

12-16

我国共存协议下建立商标共存机制和监管建议

虽然我国已有商标共存协议判例，但《商标法》中对于商标共存、商标共存协议及其机制均还处于空白。为有效促进商标共存...

10-23

宁波联通群呼防封代理商-诚信经营

宁波联通群呼防封代理商然后直接把那些客户的信息反映到员工。这样一来就等于已经预先的排除掉了一批无意向的客户，还...

01-15

电话机器人首选门萨维（电话机器人厂家）

本文目录一览：1、新卓越电话营销机器人怎么样?2、电话机器人效果好吗?3、什么是智能电话机器人新卓越电话营销机器人怎...

06-20

ip对讲系统方案-ip网络对讲系统解决方案-巨☉人☉网☉络通信

ip对讲系统方案，是一种融合通信解决方案，可以实现语音对讲、寻呼、广播、调度等功能，广泛应用于医疗、学校、高速公...

12-14

400电话申请都有哪些途径，有什么区别吗？

400电话作为主被叫共同承担资费的电话业务，常被企业申请用来作为服务咨询电话或者售后服务电话，那么有哪些途径可以进...

04-03

Python爬虫基础之初次使用scrapy爬虫实例

10-18

本页收集关于Python爬虫基础之初次使用scrapy爬虫实例的相关信息资讯供网民参考！

推荐文章

上一篇：Python上下文管理器Content Manager

下一篇：Python爬虫基础之简单说一下scrapy的框架结构

一起分享吧