python常用request库与lxml库操作方法整理总结-巨人网络通讯

主页 > 知识库 > python常用request库与lxml库操作方法整理总结

python常用request库与lxml库操作方法整理总结

requests 库最常见的操作

请求参数以及请求方法

导入 requests 库之后，基本都在围绕 requests.get 做文章，这里重点要回顾的是 get 方法的参数，其中包含如下内容，下述内容在官方手册没有呈现清单，通过最新版源码分析。

除 url 参数外，其余都为可选参数，即非必选。

url：请求地址；
params：要发送的查询字符串，可以为字典，列表，元组，字节；
data：body 对象中要传递的参数，可以为字段，列表，元组，字节或者文件对象；
json：JSON 序列化对象；
headers：请求头，字典格式；
cookies：传递 cookie，字段或 CookieJar 类型；
files：最复杂的一个参数，一般出现在 POST 请求中，格式举例 "name":文件对象或者 {'name':文件对象}，还可以在一个请求中发送多个文件，不过一般爬虫场景不会用到；
auth：指定身份验证机制；
timeout：服务器等待响应时间，在源码中检索到可以为元组类型，这个之前没有使用过，即 (connect timeout, read timeout)；
allow_redirects：是否允许重定向；
proxies：代理；
verify：SSL 验证；
stream：流式请求，主要对接流式 API；
cert：证书。

以上内容就是 GET 请求中可以配置的参数，除了 GET 请求外，requests 还内置了其他的服务器请求方式，如下所示，这些方法需要的参数与上述清单一致。

GET, OPTIONS, HEAD, POST, PUT, PATCH, or DELETE

在 Python 爬虫的实战当中，主要以 GET 与 POST 为主，常用的参数为：

url，params，data，headers，cookies，timeout，proxies，verify。

响应对象的属性与方法

使用 requests 库请求之后，会得到一个 Response 对象，该对象最重要的内容就是属性与方法，通过 dir 函数可以获取 Response 对象的属性和方法。

    help(res)
    print(dir(res))

获取到的内容如下所示，其中有我们之前案例中常见的一些内容。

['__attrs__', '__bool__', '__class__', '__delattr__', '__dict__', '__dir__', '__doc__',
'__enter__', '__eq__', '__exit__', '__format__', '__ge__', '__getattribute__', '__getstate__',
'__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__',
'__module__', '__ne__', '__new__', '__nonzero__', '__reduce__', '__reduce_ex__', '__repr__',
'__setattr__', '__setstate__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__',
'_content', '_content_consumed', '_next', 'apparent_encoding', 'close', 'connection',
'content', 'cookies', 'elapsed', 'encoding', 'headers', 'history', 'is_permanent_redirect',
'is_redirect', 'iter_content', 'iter_lines', 'json', 'links', 'next', 'ok', 'raise_for_status',
'raw', 'reason', 'request', 'status_code', 'text', 'url']

如果只将 requests 库应用在爬虫采集领域，那上述属性与方法中，比较常用的有：

属性 property

ok：只要状态码 status_code 小于 400，都会返回 True；
is_redirect：重定向属性；
content：响应内容，字节类型；
text：响应内容，Unicode 类型；
status_code：响应状态码；
url：响应的最终 URL 位置；
encoding：当访问 r.text 时的编码；

方法

json：将响应结果序列化为 JSON；

会话对象

在本专栏前面的文章中，存在一个被忽略的 requests 高级特性，即会话对象

该对象能够在跨域请求的时候，保持住某些参数，尤其是 cookie

如果你想向同一主机发送多个请求，使用会话对象可以将底层的 TCP 连接进行重用，带来显著的性能提升。

会话对象使用非常简单，在发起 requests 对象之前，增加如下所示代码即可。

# 建立会话对象
s = requests.Session()
# 后续都使用会话对象进行进行，而不是直接使用 requests 对象
s.get('http://httpbin.org/cookies/set/sessioncookie/123456789')
r = s.get("http://httpbin.org/cookies")
print(r.text)

由于专栏前面并未涉及相关案例，故直接引入官方手册案例说明。

下述代码演示的是会话也可用来为请求方法提供缺省数据，顾名思义就是直接给会话对象增加的请求参数，在后续代码中默认可用。

import requests
s = requests.Session()
s.auth = ('user', 'pass')
s.headers.update({'x-test': 'true'})
# both 'x-test' and 'x-test2' are sent
r = s.get('http://httpbin.org/headers', headers={'x-test2': 'true'})
print(r.text)

接下来官网案例还展示了法级别的参数也不会被跨请求保持，即在 s.get() 方法中如果传递了 cookie，那不会被保持住，这两个案例，从正面与反面为我们核心展示的就是，如何使用会话对象保持参数

通过会话对象的属性设置的参数，能被保持，
而通过会话对象方法传递的参数，不能被保持。

SSL 证书验证，客户端证书，CA 证书

在爬虫采集数据的过程中，碰到 https 的网站在正常不过，requests 库使用过程中 SSL 验证是默认开启的，如果证书验证失败，即抛出 SSLError错误。

不过更多的时候，我们通过设置 verify = False ，忽略对 SSL 证书的验证，除非及其特殊的情况，必须增加相关证书逻辑。

代理

有的网站在采集过程中，会针对 IP 进行限制，此时就需要使用代理进行跳过操作，设置 proxies 参数即可，本部分内容比较简单，后续很多案例还会复用到。

除了 HTTP 代理外， requests 2.10 版本之后，增加了 SOCKS 代理，如果你需要使用，需要通过 pip 安装相应库。

pip install requests[socks]

安装完毕，出现新的第三方库 PySocks，使用方式与 HTTP 代理一致。

Cookie

爬虫采集过程会大量的与 cookie 打交道，

获取网站响应的 cookie，使用 response 对象的 cookies 属性即可。

如果希望向服务器传递 cookie，可以通过 cookies 参数，例如下述代码：

url = 'http://httpbin.org/cookies'
cookies = dict(cookies_are='working')
r = requests.get(url, cookies=cookies)

如果你希望对 cookie 有更加细致的操作，重点研究 requests.cookies.RequestsCookieJar 对象即可，简单的代码使用如下所示：

jar = requests.cookies.RequestsCookieJar()
jar.set('tasty_cookie', 'yum', domain='httpbin.org', path='/cookies')
jar.set('gross_cookie', 'blech', domain='httpbin.org', path='/elsewhere')
url = 'http://httpbin.org/cookies'
r = requests.get(url, cookies=jar)
print(r.text)

RequestsCookieJar 对象具备更加丰富的接口，适合跨域名跨路径使用，相关接口查询：

https://docs.python-requests.org/zh_CN/latest/api.html#requests.cookies.RequestsCookieJar

requests 非常适合作为 Python 爬虫入门阶段第一选择，其简单的接口与代码封装

能大幅度降低网络请求代码编写难度，让你专注与目标数据的提取，
更有基于高级请求的封装作为提高部分，该库完全可以贯穿你的整个爬虫工程师生涯。

lxml 库

lxml 库是一款 Python 数据解析库，参考重要文档在 https://lxml.de/，项目开源地址在：https://github.com/lxml/lxml，在一顿检索之后，发现 lxml 没有中文相关手册，不过好在英文文档阅读难度不大，我们可以直接进行学习。

lxml.etree

纵览之前的博客内容，出场率最高的就是 lxml.etree ，其次就是 Element 对象，我们在解析数据的时候，大量的代码都是基于 Element 对象的 API 实现。

在爬虫代码采集过程中，通过 etree.HTML 直接将字符串实例化为 element 对象。

import requests
from lxml import etree

res = requests.get("http://www.jsons.cn/zt/")

html = res.text

root_element = etree.HTML(html)

print(root_element)
print(root_element.tag)

上述代码输出内容如下所示：

Element html at 0x3310508>
html

其中需要注意的是 Element 后面的 html，该字符串表示对象的标签名为 html，如果使用下述代码：

print(root_element[1])

上述内容得到的是 Element body at 0x356e248>，即 body 标签，同样的操作可以使用子元素获取。

print("*"*100)
for child in root_element:
    print(child.tag)

上述代码输出的内容为：

head
body

该输出表示在 html 标签中，只包含head 与 body 标签，实际情况也确实如此，为了验证，你可以在循环中继续嵌套一层。

此时输出的内容就变得丰富了需求，如下图所示：

你也可以通过 etree.tostring(element对象) 直接将该对象转换为字符串进行输出。

for child in root_element:
    for item in child:
        print(item.tag)
        print(etree.tostring(item))

XPath

lxml 库可以配合其他的解析引擎进行工作，首次接触的就是 XPath，关于 XPath 相关的知识，我们后续会细化学习，本节课依旧从 lxml 的角度出发，为你介绍。

在爬虫代码编写中，直接使用 html.xpath("xpath表达式") 即可获取目标数据，例如获取网页 title。

print(root_element.xpath('//title'))

获取网页所有文本：

print(root_element.xpath('string()'))

获取到 element 对象之后，可调用 text 属性，获取对应文本，在使用的时候，需要注意使用 XPath 获取到的 element 对象，都是列表。

title_element = root_element.xpath('//title')
print(title_element[0].text)

在 lxml 中，还内置了一款简单的类似 XPath 的路径语言，称为 ElementPath，例如查询 title，需要从 head 开始检索，否则返回 None。

print(root_element[0].find("title"))

官方提供的方法如下：

iterfind()：返回查找到的数据，迭代器形式返回；
findall()：返回匹配到的列表；
find()：返回第一个匹配到的数据；
findtext()：返回匹配到的文本数据，第一个。

lxml 其他说明

lxml 除了可以配合 XPath 实现数据解析外，还可以与 cssselect ，BeautifulSoup，html5lib 配合使用，这部分在后续的案例中，将逐步进行展开。

lxml 在爬虫领域，更多的是在提取数据，因此较于该库本身，掌握 XPath 等解析表达式的写法更加重要。

鉴于该库手册没有被翻译，后期可以尝试将其翻译为中文。

到此这篇关于总结python常用request库与lxml库常用操作的文章就介绍到这了,更多相关python中request库与lxml库内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

python中requests库+xpath+lxml简单使用
Python使用lxml模块和Requests模块抓取HTML页面的教程
requests和lxml实现爬虫的方法
Python爬虫基础之XPath语法与lxml库的用法详解
Python lxml模块安装教程

标签：海南漯河盘锦宁夏南平林芝大同普洱

巨人网络通讯声明：本文标题《python常用request库与lxml库操作方法整理总结》，本文关键词 python,常用,request,库与,lxml,；如发现本文内容存在版权问题，烦请提供相关信息告之我们，我们将及时沟通与处理。本站内容系统采集于网络，涉及言论、版权与本站无关。

下面列出与本文章《python常用request库与lxml库操作方法整理总结》相关的同类信息！

python常用request库与lxml库操作方法整理总结

目录 requests 库最常见的操作请求参数以及请求方法响应对象的属性与方法属性 property 方法会话对象 SSL 证书验证，客户端证书，CA 证书代理 Cookie lxml 库 lxml.etree XPath lxml 其他说明...

10-18

MySQL之导出整个及单个表数据的操作

导出单个表 mysqldump -u user -p dbname tablename db.sql 导入单个表 mysqldrop tablename; mysql -u user -p dbname db.sql 导出整个表 mysqldump --opt ...

10-18

办理400电话的收费标准400电话申请容易吗？有什么优惠套餐？

现在市场上使用的400电话很火爆，企业之所以会放心办理400电话，是因为收费很合理，在使用过程中也很方便，大家可以看看...

01-12

鹤壁正规外呼系统代理商（鹤壁呼叫产业园干嘛的）

本篇文章给大家谈谈鹤壁正规外呼系统代理商，以及鹤壁呼叫产业园干嘛的对应的知识点，希望对各位有所帮助，不要忘了收...

05-17

温州移动电话营销线路服务商,电销系统-深入探讨

温州移动电话营销线路服务商,电销系统提升企业经济效益。电销效率提升的同时，企业无需再像以前一样雇佣太多电销人员...

12-17

电话机器人对公司有用吗（电话机器人公司哪家好）

本文目录一览：1、电销机器人真的有用吗?2、电话机器人使用效果怎么样3、用智能AI电话机器人效果好吗?4、电话机器人有什...

今日与咱们共享对于在SEO的操作中哪些会被搜索引擎认为是做弊的手法，请咱们要理解小编么的主题不是要教咱们怎么去做弊...

10-19

纽约岛民为新竞技场申请“ THE BANK”商标

纽约岛民提出了三项商标申请，这些商标与该团队正在建设的新竞技场有关。一个应用程序是短语“ THE BANK”，它似乎是竞...

10-23

400电话作用大吗400电话怎么收费的？400电话套餐推荐

企业将高度重视宣传内容，高度重视与消费者的沟通，这也是为了提高营销效率，提升外部形象。正因为如此，许多企业将...

01-13

售后软件

售后服务的质量直接影响到客户对品牌和产品的满意度，忠诚度。二次销售和口碑推荐，其实是对收入的助长。所以我们更应...

10-25

电销卡如何养卡（电销卡如何使用）

本文目录一览：1、电销卡是否真的不封号?卡总被停怎么办回拨真的不封吗?电销卡多少钱靠谱...2、电话销售,卡总是被停,怎么...

07-10

高精度高德地图标注公司地址让无人驾驶汽车“认路”

你出门都不认路，怎么写地图的稿子?当记者动笔时，身旁的友人这样问道。未来的无人驾驶汽车也面临同样的问题。虽然作...

04-14

美团订单出现支付故障官方称已陆续恢复

腾讯科技讯(相欣) 12 月 7 日，今日午间美团因技术原因导致平台部分订单出现支付故障，用户支付成功后显示页面出现延迟，...

10-15

电销机器人怎么销售（电销机器人销售话术）

本篇文章给大家谈谈电销机器人怎么销售，以及电销机器人销售话术对应的知识点，希望对各位有所帮助，不要忘了收藏本站...

02-24

如何办理抗封的话机通讯助手呢

之前我有一个朋友是做那种餐饮加盟的，就是给客户打电话邀约客户过来公司考察，然后让客户来加盟他们公司的项目，但是...

11-23

抖音代运营有哪些最好的抖音流量来源？

抖音的到来，改变了咱们对短视频的认识，跟着抖音的不断发展，抖音现已进入了千家万户，成为了咱们日子中不可缺失的一...

03-01

扁桃首播80万不雅观众围不雅观籽岷奇怪君等一众MC大佬助阵

若说当前《我的世界》最火主播是谁，莫非狂拽酷炫嘴炸天的扁桃是也， 9 亿多的全平台视频不雅观看。 9 月 2 日在触手直播...

10-16

品牌保护：加强法律意识

我国许多拥有传统名牌商标的企业，由于缺乏商标法律意识，给国内外一些“不义之徒”抢先注册，给他们带来巨大的损失。...

10-23

网络电话外呼系统带数据（互联网化外呼管理系统）

本文目录一览： 1、哪家的外呼系统好用？ 2、什么是网络电话外呼系统？ 3、网络电话外呼系统哪个好？哪家的外呼系统好...

11-26

“一带一路”对专利、商标申请人敞开“胸怀”

“亚洲之星农业产业合作区欢迎您！”在一天之内转机两次、历经七八个小时、飞越三个国家后，走出比什凯克玛纳斯国际机...

10-23

南通市7个县级呼叫中心平台服务万余名老人

目前，南通市已建成7个县级呼叫平台，为全市1万多名独居、空巢老年人提供相关服务。日前，市政协主席王德忠率市政协主...

10-19

esim物联网卡与普通esim卡的那些不解之谜

随着物联网技术的高速发展，现在国内越来越多的企业都在慢慢接受和使用它。不过随着物联网卡的大量使用，出现了各种各...

11-07

杭州有哪些好的网站代运营公司？

随着互联网技术的发展趋势，越来越多的传统公司刚刚开始做网络运营。但是对于大多数中小企业来说，自己组件的互联网销...

03-31

企业电话机器人功能（电话机器人厂商）

今天给各位分享企业电话机器人功能的知识，其中也会对电话机器人厂商进行解释，如果能碰巧解决你现在面临的问题，别忘...

05-17

四川电话系统有哪些

电销外呼系统批量自动外呼系统原理：电话批量自动外呼系统能够解决以下问题：把海量号码数据导入系统，由程序自动外呼...

10-25

潍坊市好用防封电话卡便宜

那么，分享通信面临当前困境，究竟是运营好用防封电话卡便宜状况不景气，还是因为之争所导致的呢？先从运营角度来看，...

03-01

巨人科技—巨人科技的新名字

00电话作为一个专业的标志，已经被各种大型企业接受。许多客户使用电话的时候，都会更容易倾向相信这样的号码。也许这...

05-15

深圳电话机器人电话机器人

4.电话作为联系客户最重要的方式，每天需要联系大量的客户。如果采用人工客服，必然需要大量的人工成本和设备成本，不...

10-24

搬运机器人如何实现更快的搬运物料

随着科技的快速发展，搬运机器人越来越受到大家的欢迎，那么搬运机器人怎么搬运物料更快呢？一、物料单位容量在自动搬...

10-30

400电话的优点和缺点400电话的特点有哪些

400本质上是一个智能虚拟号码，通过呼叫转移转移到企业指定或手机接收400是800电话业务升级版本，是基于智能网络语音增值...

01-13

互联时代下中译语通引领语音行业激流勇进

如今，移动互联网给传统语音行业带来了不小的冲击。风云变化中，如何处变不惊，奋力开辟新天地，这是许多行业企业都在...

10-21

办理400电话哪里办理流程（办理400电话需要什么手续）

办理400电话哪里办理流程（办理400电话需要什么手续）想要拥有一条专属于自己企业的400电话，不仅可以提升企业形象，还...

08-14

北京财税电话营销线路办理商家,电销机器人-终于明白

北京财税电话营销线路办理商家,电销机器人在工作质量方面还能达到更好的标准，因为电销机器人具有更为稳颜色定的系统...

12-17

文思海辉符山服务外包观察：印度外包重镇金奈洪水中我们的同理心

从今年十月开始，印度东南海岸地区遭受了百年一遇的强降雨，随之而来的洪水淹没了泰米尔纳德邦首府金奈。说淹没一点儿...

10-22

安宁移动外呼系统查询电话（中国移动安宁分公

本文目录一览：1、10085是什么？2、10085是什么电话？3、10085是什么号码4、中国移动的人工服务电话号码是多少5、10085是什么...

11-29

餐饮酒店类企业彩铃内容61

【餐饮酒店213】完美品质，追求卓越！南昌市达乐宾馆酒店用品有限公司欢迎您的来电，我们将专业订做台布、口布、椅套、...

11-27

苏州包月电销外呼线路开发-号外！

苏州包月电销外呼线路开发导出、修改等数据管理功能。电销机器人在智能客服领域应用，还会受到通信传输的影响。在电话...

01-16

苏州电销机器人招代理吗（苏州机器人代理商）

本文目录一览： 1、有没有哪种电话机器人能够做招商项意图啊？需求联络的合作方太多了，想要能够智能高效和客户交流的...

11-28

云南电话机器人效果怎么样

有意通过呼叫任务筛选的客户可以进行手动操作，也可以在事后由销售人员进行跟踪访问。我们可以根据呼叫场景进行不同...

10-31

特步申请“特不服”商标商标分类为服装鞋帽

来源：界面新闻近日，特步（中国）有限公司新增商标申请信息，商标名称为“特不服”，注册号为51006936，商标分类为25...

10-23

了解400电话就上信通网赢www.trust400.com

【了解400电话就上企号卡网】企号卡网网站(www.qihaoka.com)上面还可以找客服来解答对于400不懂的事情。所以说如果你对于400电...

11-07

运营商应当欢迎MVNO加入，但市场还有利可图吗

工信部一纸《移动通信转售业务试点方案》的通知，将移动虚拟网络运营商（简称MVNO）这个角色推到聚光灯下。在海外很多...

01-16

机器人语音对话app云呼ai_电话机器人

【机器人语音对话app】云呼：一个电话机器人的外呼次数约为1000/天，根据接话率和话术内容而变动【机器人语音对话app】...

10-31

莱芜自动电销机器人公司（销售电销机器人）

今天给各位分享莱芜自动电销机器人公司的知识，其中也会对销售电销机器人进行解释，如果能碰巧解决你现在面临的问题，...

05-16

赤峰市酒店地图，赤峰市金方大酒店地图

酒店怎么上高德地图？和高德地图联系，有一些要赞助费的，或者使用纠错功能自己注册，然后申请标注，填写资料，上传...

11-27

智能电销机器人开启人工智能共生时代。

深圳市数心科技有限公司历经多年的技术积累和研发实践，融合互联网、云计算及人工智能、通信、大数据等技术，研发推出...

10-24

联通物联卡虚拟运营商你了解吗？

你知道虚拟运营商吗?运营商你一定知道，国内来说就是三大运营商中国移动、联通、电信。那么虚拟运营商是什么呢?其实虚...

10-13

怎样在高德地图上留店名？高德地图留店名

怎么才能在高德地图上留上店名？增地点您可以在地图上找长按此位置2秒直至出现蓝色气泡内，然后点击右下角新增地容点...

11-26

pytorch显存一直变大的解决方案

在代码中添加以下两行可以解决： torch.backends.cudnn.enabled = Truetorch.backends.cudnn.benchmark = True 补充：pytorch训练过程显存一直增加...

10-18

易电销app高频不封号系统官方

易电销app 高频不封号系统官方适用于教育，房产，代理记账，装修，增值应有尽有，029，外显手机号等多种线路电话外呼系...

11-15

python常用request库与lxml库操作方法整理总结

10-18

本页收集关于python常用request库与lxml库操作方法整理总结的相关信息资讯供网民参考！

推荐文章

上一篇：Python调用易语言动态链接库实现验证码功能

下一篇：Python实现Socket通信建立TCP反向连接

一起分享吧