python 实现存储数据到txt和pdf文档及乱码问题的解决-巨人网络通讯

主页 > 知识库 > python 实现存储数据到txt和pdf文档及乱码问题的解决

python 实现存储数据到txt和pdf文档及乱码问题的解决

第一、几种常用方法

读取TXT文档：urlopen()

读取PDF文档：pdfminer3k

第二、乱码问题

(1)、

from urllib.request import urlopen
#访问wiki内容
html = urlopen("https://en.wikipedia.org/robots.txt")
print(html.read())

输出的结果中出现乱码原因：

计算机只能处理0和1两个数字，所以想要处理文本，必须把文本变成0和1这样的数字，最早的计算机使用八个0和1表示一个字节，所以最大能够表示整数是255=11111111.如果想要表示更大的数，必须使用更多的字节。

由于计算机是美国人发明的，所以最早只有127个字符被编写进计算机，即常见的阿拉伯数字，字母大小写，以及键盘上的符号。此编码被称为ASCII编码，比如大写字母A的ASCII编码是65,65再被转换二进制01000001，即是计算机处理的东西。

显然，ASCII不能表示中文，故中国制定了自己的GB2312编码，并且兼容ASCII编码。问题是：使用GB2312编码的慕课网三个字，假设编码为61,62,63.但在ASCII码表可能是其他字符。如下图示，日文中的616263编码成其他字符，打开后意思出错。

解决方法：

国际上的unicode编码，整合全世界所有编码。故unicode编码的内容在任一台计算机用unicode仍正常打开

又对于A,ASCII编码为01000001，Unicode编码：0000000001000001此时浪费空间

故出现UTF-8编码：01000001此时用两个八位存储中文。

(2)、记事本使用unicode编码，将记事本存到计算机时，将转化为utf-8储存。

在计算机中打开文本时，将转化为unicode编码

存储原因：使用utf-8储存节省空间，使用unicode打开保证最大的兼容

(3)、服务器读取uncode编码的文档，转化为utf-8格式传给浏览器。因为网络带宽昂贵，转化为了减少负担。

(4)、python3字符串默认使用Unicode编码，所以python3支持多种语言

以Unicode表示的str通过encode()方法可以编码为指定的bytes

如果bytes使用ASCII编码，遇到ASCII码表没有的字符会以\x##表示，此时只用‘\x##'.decode('utf-8')即可

(5)、解决方法

from urllib.request import urlopen
#访问wiki内容
html = urlopen("https://en.wikipedia.org/robots.txt")
print(html.read().decode("utf-8"))

第三、pdfminer3k安装

法一：

(1)、进入网址直接下载并解压：https://pypi.python.org/pypi/pdfminer3k/

(2)、以管理员身份运行命令行窗口，进入软件解压缩位置，运行python setup.py install

法二：

(3)、直接在pycharm中安装

(4)、读取pdf过程：首先创建一个分析器pdfparser和文档对象pdfdocument，并通过两个方法相互关联，然后调用文档对象的初始化方法（可以传参数），此时资源内容被加载到文档对象中。

创建资源管理器和参数分析器，然后创建聚合器(整合资源管理器和参数分析器)，通过聚合器创建解释器（对pdf文档进行编码，解释成python能识别的格式）

(5)、读取pdf文档：通过文档对象的get_pages()方法得到pdf每一页的内容，通过解释器的process_page()方法读取一页一页。

(6)、实例演示

from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
#获得文档对象,以二进制读方式打开
fp = open("naacl06-shinyama.pdf", "rb")
#创建一个与文档关联的分析器
parser = PDFParser(fp)
#创建一个pdf文档的对象
doc = PDFDocument()
#连接解释器与文档对象
parser.set_document(doc)
doc.set_parser(parser)
#初始化文档,如果文档有密码，写与此。
doc.initialize("")
#创建pdf资源管理器
resource = PDFResourceManager()
#参数分析器
laparam = LAParams()
#创建聚合器
device = PDFPageAggregator(resource, laparams=laparam)
#创建pdf页面解释器
interpreter = PDFPageInterpreter(resource, device)
#使用文档对象得到页面的集合
for page in doc.get_pages():
  #使用页面解释器读取
  interpreter.process_page(page)
  #使用聚合器来获得内容
  layout = device.get_result()
  for out in layout:
    if hasattr(out, "get_text"):
      print(out.get_text())

一下用于读取网站上pdf内容

fp = urlopen(http://www.tencent.com/zh-cn/articles/8003251479983154.pdf)

补充内容：

以上为个人经验，希望能给大家一个参考，也希望大家多多支持脚本之家。如有错误或未考虑完全的地方，望不吝赐教。

您可能感兴趣的文章:

Python爬虫爬取全球疫情数据并存储到mysql数据库的步骤
Python爬取腾讯疫情实时数据并存储到mysql数据库的示例代码
MySQL和Python交互的示例
配置python连接oracle读取excel数据写入数据库的操作流程
Python 对Excel求和、合并居中的操作
如何用python合并多个excel文件
python基于pyppeteer制作PDF文件
python操作mysql、excel、pdf的示例

标签：文山怀化昆明浙江梅州西宁锡林郭勒盟石家庄

巨人网络通讯声明：本文标题《python 实现存储数据到txt和pdf文档及乱码问题的解决》，本文关键词 python,实现,存储,数据,到,；如发现本文内容存在版权问题，烦请提供相关信息告之我们，我们将及时沟通与处理。本站内容系统采集于网络，涉及言论、版权与本站无关。

下面列出与本文章《python 实现存储数据到txt和pdf文档及乱码问题的解决》相关的同类信息！

python 实现存储数据到txt和pdf文档及乱码问题的解决

第一、几种常用方法读取TXT文档：urlopen() 读取PDF文档：pdfminer3k 第二、乱码问题 (1)、 from urllib.request import urlopen#访问wiki内容html = urlopen("https://en.wikipedia.org/robots.txt")print(html.read()) 输出...

10-18

上海抗封电话外呼线路一企嗨,呼叫系统商家-解读

一企嗨电话营销系统 1．当前的电销场景有哪些困扰？ 1）手机.卡频繁被封，电销业务难以启动； 2）销售人员号码被标注，...

12-17

河南营销电话机器人（智能营销电话机器人）

本文目录一览： 1、什么是电话机器人?2、最近听说电话机器人能帮助电话销售，谁知道怎么样？3、电话营销机器人如何打电...

11-27

企业内部的SEO培训如何才更有效果

对于一个组建不久的SEO团队来说，日常的公司内部培训自然少不了，然而有不少新人对这个行业了解甚少。再加上SEO工作的内...

10-19

厂址位置地图怎么申请？百度怎样申请厂址定位？

腾讯地图怎么申请自己的位置？您好，请说明详细地点名称，地址信息，联系电话(很重要)，标记准确位置并上传照片及相关...

11-26

ai机器人外呼系统代理加盟（ai外呼机器人不好用）

本文目录一览： 1、有没有哪种电话机器人可以做招商项目的啊？需求联络的合作方太多了，想要可以智能高效和客户沟通的...

04-22

电脑外呼系统没有录音（电脑外呼系统没有录音

本文目录一览：1、电脑没有录音设备怎么办。在线等，急求2、windows7体系电脑没有录音设备怎么办3、电销体系网络电话拨打...

11-29

除了比尔盖茨和贝索斯这些人也曾经成为全球首富

【腾讯编者按】比来，亚马逊创始人杰夫·贝索斯(Jeff Bezos)在《福布斯》实时富豪排行榜上一度超过比尔·盖茨(Bill Gates)成为...

10-16

小米电话自动机器人(小米电话自动机器人怎么关

未来| 展望前沿新技术5700 字 / 15 分钟本文首发于航通社小米电话自动机器人，原创文章未经授权请勿转载。航通社(ID:lifeis...

11-29

从奥运冠军名字频遭商标抢注说起

中国运动健儿在东京奥运会取得了许多优异成绩，可大家在欣喜之余发现，全红婵、杨倩、汪顺等多位奥运冠军的姓名被抢注...

10-23

广州防封网络电话怎么样？

与传统电话相比，广州防封网络电话对硬件设备和线路的要求低，可以明显降低企业电话安装与维修的成本。当企业的部署...

10-26

办理400客服电话400电话申请要选择什么样的服务商

400电话已成为企业的独家客户服务电话。它没有线路优势和多功能性，受到许多企业的青睐。目前，90%以上的企业将向在线...

01-13

工信部公示国家中小企业公共服务示范平台名单 174家平台入选

根据《国家中小企业公共服务示范平台认定管理办法》（工信部企业〔2017〕156号）、《关于推荐2017年度国家中小企业公共服...

10-13

WhatsApp成印度最受欢迎的安卓应用用户达到900万

【TechWeb报道】6月26日消息，据国外媒体报道，按照玛丽·米克尔（Mary Meeker）上月发布的年度互联网趋势陈诉，WhatsApp是印度...

10-16

泰州客服外呼系统开发（客服外呼系统南牛网络）

本文目录一览： 1、外呼体系若何措置赏罚？ 2、电销外呼体系哪个好了？市道上的太多了！有可能推荐的吗？ 3、外呼体系若...

11-26

企友通外呼系统服务（通信外呼系统）

本文目录一览： 1、企友通功用有哪些？2、企友通外呼体系报价多少？3、企友通怎么样，好用吗?4、企友通外呼体系包含哪些...

11-28

Oracle 18c新特性-PDB快照轮播(Snapshot Carousel)

Oracle 18c推出的一个新功能就是PDB快照轮播，最多可以创建8个pdb的快照，而这8个构成的一组快照就被称作快照轮播。当达到第...

10-18

外呼系统：更换成SSD后安装了系统，开机后总是出现下图中这个东西，谁懂？

关于这个问题，其实和外呼更换的SSD固态硬盘没有太大关系，而是您自己在进行系统重装时没有正确的进行系统版本设置，最...

12-14

智客电销机器人（电销智能机器人代理）

本篇文章给大家谈谈智客电销机器人，以及电销智能机器人代理对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。...

11-06

深圳防封电销机器人批发网,电话营销系统办理商家-信誉保障

深圳防封电销机器人批发网,电话营销系统办理商家外呼数据进行筛选;谁来呼是指，按照一定的规则将电话分配到某个坐席进...

12-17

品牌质量塑造是在品牌形成的全过程

品牌质量的优势似乎是在产品进入消费环节才显现出来的。但是品牌质量优势的塑造却在此之前早已经在设计．生产．销售．...

10-23

电话机器人轮胎漏气（2016机器人轮胎为什么不动）

*** 本文目录一览：1、轮胎经常漏气怎么回事?2、轮胎漏气怎么办3、今天连续接到好几个骚扰电话,一个机器人语音一直在说什...

07-15

邯郸三亚电销卡的简单介绍

本篇文章给大家谈谈邯郸三亚电销卡，以及对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。本文目录一览：1、...

08-28

路灯安装了物联网卡，从此不仅仅只是照明（基于物联网的智能路灯系统）

随着社会的不断发展，以及城市建设步伐的不断加快，城市面积和城市人口不断增加，这对于城市基础设施提出了更高的要求...

11-07

北京电话销售公司

5、客服在电话销售中会遇到这些困难：【北京电话销售公司】智能语音电话系统，可以主动外呼的电话机器人，可以自然人...

10-24

电销外呼系统uk（电销外呼系统怎么安装）

今天给各位分享电销外呼系统uk的知识，其中也会对电销外呼系统怎么安装进行解释，如果能碰巧解决你现在面临的问题，别...

08-28

雷石客服呼叫中心4007-766-667正式启用

8月4日报道 2011年8月1日起，雷石公司call centre客服呼叫中心（4007-766-667）正式启用！为了进一步节省客户的呼叫费用，打造从...

10-19

400电话办理流程是怎样的？给企业带来什么便利？

400电话现在已经得到了企业和客户的高度认同，因为400电话不仅方便企业改善服务流程，提高客户留存率。而且对于客户而言...

04-06

简单介绍Python虚拟环境及使用方法

目录一、为什么需要虚拟环境？二、virtualenv 三、venv 四、pipenv 一、为什么需要虚拟环境？这里的环境，指的就是 Python 代...

10-18

中科院：让创新的第一动力作用更加强劲

来源：人民日报创新是引领发展的第一动力。当前，新一轮科技革命和产业变革深入发展，我们必须坚持创新在我国现代化...

10-23

上海电销卡办理-三五电销卡价格

上海电销卡办理-三五电销卡价格巨人网络通讯主营电销卡、企业电销卡、不封号电话卡、电销系统、电销软件、高频防封软...

06-24

移动互联网环境下App商标商品类似的侵权认定

在移动互联网环境下，一款App所涉的商品类别较为广泛，其不再局限于传统行业商品或服务所指向的单一类别，而必然涉及有...

10-23

电销团队机制有哪些特点（电销团队架构）

本文目录一览： 1、团队的特色？2、怎么办理电销团队3、怎么做好电销团队建造4、什么是团队机制？5、电销团队建造与办理...

04-22

5G登陆世界舞台这么久，表现到底如何，来看看各国5G网络实测

韩国韩国一直是推广5G网络最为积极的国家之一，先前对于5G网络的基础设施的建设及也是在全球范围内寻求合作，华为的...

10-13

中国联通400电话官网联通400电话暂停的原因

由于中国联通的资费优势和受众群体相对全面，；电信的市场份额约为22%，因为资费相对昂贵。因此，相对而言，想要申请...

01-13

郑州不标记电话群呼软件特价-今日推荐

郑州不标记电话群呼软件特价了解客户，洞察市场，优化产品、服务、营销方式：电销机器人不仅拥有高效客户的资料整理，...

01-15

选择正规的400电话代理商400电话申请如何寻找正规代理商？这些方面要考虑!

一个好的400号码可以让你的客户和潜在客户更容易记住，让企业的品牌价值不流失，提升企业形象，让你的公司节省大量的宣...

01-13

网上营销方式

2.销售难找，离职率居高不下【网上营销方式】除此之外还有一些O2O服务类通知等，智能外呼也可以代替人工进行通知。【网...

10-24

400电话如何办理？全面解析办理步骤和常见问题

400电话已经成为了很多企业的必备通讯方式，通过一个以“400”开头的专属号码，可以方便快捷地实现企业与客户之间的沟通...

07-21

Docker部署springboot项目实例解析

这篇文章主要介绍了docker部署springboot项目实例解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参...

10-16

广州电话机器人效果（广州女性机器人体验店）

本文目录一览： 1、电话机器人有什么用?2、电话机器人效果好吗？3、电话机器人使用效果怎么样电话机器人有什么用? 电话...

11-27

信阳语音外呼系统供应商（中信银行电话）

本文目次一览： 1、智能德律风外呼体系哪家的对照好用？ 2、而今外呼体系哪家公司做的对照好？ 3、外呼体系靠不靠谱，哪...

11-25

襄阳全自动外呼系统运营商（襄阳全自动外呼系统运营商电话）

本篇文章给咱们谈谈襄阳全主动外呼体系运营商，以及襄阳全主动外呼体系运营商电话对应的知识点，期望对各位有所帮忙，...

11-06

400电话后台密码忘记了怎么办？

【400电话后台密码忘记了怎么办？】密码设置时间太久，或是修改太多次，导致400电话后台密码忘记，无法登入后台怎么办？...

11-07

四川防封电销卡购买

本公司经历多年的运营管理优化，秉持“服务锲而不舍，品质力臻卓越”的服务理念，为每一位客户提供专业、优质的服务。...

12-04

宁波外呼系统单价（外呼系统收费标准）

本篇文章给大家谈谈宁波外呼系统单价，以及外呼系统收费标准对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。...

11-07

400电话的申请流程及注意事项-400电话的申请

400电话的申请流程及注意事项-400电话的申请在商业领域，一个品牌能否为广大用户提供优质的售后服务，直接关系到其未来...

08-14

连云港ai电销机器人价格（ai电销机器人哪家好）

本文目录一览： 1、电销机器人多少钱？2、关于AI人工智能电销机器人怎样收费？3、电销机器人多少钱一台，详细是怎样收费...

04-23

室内空气污染也需要物联网技术

污染问题在外太空更严重，但在地球上也是相当糟糕。室内空气中无色无味的毒素和化学物质容易患病。美国过敏专家估计，...

10-13

新兴产业遇人才瓶颈外包“第一校”力补人才缺口

人才紧缺正成为新兴的服务外包产业发展的最大瓶颈。中国第一所专门的服务外包学院——园区软件与服务外包职业学院今年...

10-22

怎样安装400电话400电话怎样安装更便宜？怎样安装更方便？

400电话是一个虚拟号码，需要绑定手机或固定电话，所以不需要安装设备。如果广西企业想办理400电话，可以选择巨人科技...

01-12

python 实现存储数据到txt和pdf文档及乱码问题的解决

10-18

本页收集关于python 实现存储数据到txt和pdf文档及乱码问题的解决的相关信息资讯供网民参考！

推荐文章

上一篇：Python 制作词云的WordCloud参数用法说明

下一篇：python pdfkit 中文乱码问题的解决方案

一起分享吧