详解python中文编码问题-巨人网络通讯

主页 > 知识库 > 详解python中文编码问题

详解python中文编码问题

1. 在Python中使用中文

在Python中有两种默认的字符串：str和unicode。在Python中一定要注意区分“Unicode字符串”和“unicode对象”的区别。后面所有的“unicode字符串”指的都是python里的“unicode对象”。

事实上在Python中并没有“Unicode字符串”这样的东西，只有“unicode”对象。一个传统意义上的unicode字符串完全可以用str对象表示。只是这时候它仅仅是一个字节流，除非解码为unicode对象，没有任何实际的意义。

我们用“哈哈”在多个平台上测试，其中“哈”对应的不同编码是：

1． UNICODE (UTF8-16)， C854；

2． UTF-8， E59388；

3． GBK， B9FE。

1.1 Windows控制台

下面是在windows控制台的运行结果：

可以看出在控制台，中文字符的编码是GBK而不是UTF-16。将字符串s（GBK编码）使用decode进行解码后，可以得到同等的unicode对象。

注意：可以在控制台打印ss并不代表它可以直接被序列化，比如：

向文件直接输出ss会抛出同样的异常。在处理unicode中文字符串的时候，必须首先对它调用encode函数，转换成其它编码输出。这一点对各个环境都一样。

总结：在Python中，“str”对象就是一个字节数组，至于里面的内容是不是一个合法的字符串，以及这个字符串采用什么编码（gbk, utf-8, unicode）都不重要。这些内容需要用户自己记录和判断。这些的限制也同样适用于“unicode”对象。要记住“unicode”对象中的内容可绝对不一定就是合法的unicode字符串，我们很快就会看到这种情况。

总结：在windows的控制台上，支持gbk编码的str对象和unicode编码的unicode对象。

1.2 Windows IDLE（在Shell上运行）

在windows下的IDLE中，运行效果和windows控制台不完全一致：

可以看出，对于不使用“u”作标识的字符串，IDLE把其中的中文字符进行GBK编码。但是对于使用“u”的unicode字符串，IDLE居然一样是用了GBK编码，不同的是，这时候每一个字符都是unicode（对象）字符！！此时len(ss) = 4。

这样产生了一个神奇的问题，现在的ss无法在IDLE中正常显示。而且我也没有办法把ss转换成正常的编码！比如采用下面的方法：

这有可能是因为IDLE本地化做得不够好，对中文的支持有问题。建议在IDLE的SHELL中，不要使用u“中文”这种方式，因为这样得到的并不是你想要的东西。

这同时说明IDLE的Shell支持两种格式的中文字符串：GBK编码的“str”对象，和UNICODE编码的unicode对象。

1.3 在IDLE上运行代码

在IDLE的SHELL上运行文件，得到的又是不同的结果。文件的内容是：

直接运行的结果是：

毫无瑕疵，相当令人满意。我没有试过其它编码的文件是否能正常运行，但想来应该是不错的。

同样的代码在windows的控制台试演过，也没有任何问题。

1.4 Windows Eclipse

在Eclipse中处理中文更加困难，因为在Eclipse中，编写代码和运行代码属于不同的窗口，而且他们可以有不同的默认编码。对于如下代码：

#!/usr/bin/python
# -*- coding: utf-8 -*-
 
s = "哈哈"
ss = u'哈哈'
 
print repr(s)
print repr(ss)
 
print s.decode('utf-8').encode('gbk')
print ss.encode('gbk')
 
print s.decode('utf-8')
print ss

前四个print运行正常，最后两个print都会抛出异常：
'/xe5/x93/x88/xe5/x93/x88'
u'/u54c8/u54c8'
哈哈
哈哈
Traceback (most recent call last):
File "E:/Workspace/Eclipse/TestPython/Test/test_encoding_2.py", line 13, in module>
print s.decode('utf-8')
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

也就是说，GBK编码的str对象可以正常打印，但是不能打印UNICODE编码的unicode对象。在源文件上点击“Run as”“Run”，然后在弹出对话框中选择“Common”：

可以看出Eclipse控制台的缺省编码方式是GBK；所以不支持UNICODE也在情理之中。如果把文件中的coding修改成GBK，则可以直接打印GBK编码的str对象，比如s。

如果把源文件的编码设置成“UTF-8”，把控制台的编码也设置成“UTF-8”，按道理说打印的时候应该没有问题。但是实验表明，在打印UTF-8编码的str对象时，中文的最后一个字符会显示成乱码，无法正常阅读。不过我已经很满足了，至少人家没有抛异常不是:)

BTW: 使用的Eclipse版本是3.2.1。

1.5 从文件读取中文

在window下面用记事本编辑文件的时候，如果保存为UNICODE或UTF-8，分别会在文件的开头加上两个字节 “/xFF/xFE” 和三个字节“/xEF/xBB/xBF”。在读取的时候就可能会遇到问题，但是不同的环境对这几个多于字符的处理也不一样。

以windows下的控制台为例，用记事本保存三个不同版本的“哈哈”。

打开utf-8格式的文件并读取utf-8字符串后，解码变成unicode对象。但是会把附加的三个字符同样进行转换，变成一个unicode字符，字符的数据值为“/xFF/xFE”。这个字符不能被打印。编码的时候需要跳过这个字符。

打开unicode格式的文件后，得到的字符串正确。这时候适用utf-16解码，能得到正确的unicdoe对象，可以直接使用。多余的那个填充字符在进行转换时会被过滤掉。

打开ansi格式的文件后，没有填充字符，可以直接使用。
结论：读写使用python生成的文件没有任何问题，但是在处理由notepad生成的文本文件时，如果该文件可能是非ansi编码，需要考虑如何处理填充字符。

1.6 在数据库中使用中文

刚刚接触Python，我用的数据库是mysql。在执行插入、查找等操作时，如果运行环境使用的字符编码和mysql不一致，就可能导致运行时的错误。当然，和上面看到的情况一样，运行环境并不是关键因素，关键是查询语句的编码方式。如果在每次执行查询操作时都把查询字符串做一次编码转换，转变成mysql的默认字符编码，一样不会遇到问题。但是这样写代码也太痛苦了吧。

使用如下代码连接数据库：

self.conn = MySQLdb.connect(use_unicode = 1, charset='utf8', **server)

我不能理解的是既然数据库用的默认编码是UTF-8，我连接的时候也用的是UTF-8，为什么查询得到的文本内容却是UNICODE编码（unicode对象）？这是MySQLdb库的设置么？

1.7 在XML中使用中文

使用xml.dom.minidom和MySQLdb类似，对生成的dom对象调用toxml方法得到的是unicode对象。如果希望输出utf-8文本，有两种方法：

1．使用系统函数
在输出xml文档的时候进行编码，这是我觉得最好的方法。

xmldoc.toxml(encoding='utf-8')
xmldoc.writexml(outfile, encoding = ‘utf-8')

2．自己编码生成

在使用toxml之后可以调用encode方法对文档进行编码。但这种方法无法得到合适的xml declaration（xml文档第一行中的encoding部分）。
不要尝试通过xmldoc.createProcessingInstruction来创建一个processing instraction：

?xml version='1.0' encoding='utf-8'?>

xml declaration虽然看起来像是，但是事实上并不是一个processing instraction。可以通下面的方法得到一个满意的xml文件：

print >> outfile, “?xml version='1.0' encoding='utf-8'?>”
print >> outfile, xmldoc.toxml().encode(‘utf-8')[22:]

其中第二行需要过滤掉在调用xmldoc.toxml时生成的“?xml version='1.0' ?>”，它的长度是22。

相面是两种方法的用法比较：

另外，在IDLE的shell中，不要用 u'中文' 对属性进行赋值。上面讨论过，这样得到的unicode字符串不正确。

到此这篇关于python中文编码问题的文章就介绍到这了,更多相关中文编码内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

用基于python的appium爬取b站直播消费记录
女友半夜加班发自拍 python男友用30行代码发现惊天秘密
前女友发来加密的"520快乐.pdf",我用python破解开之后,却发现...
在前女友婚礼上用python把婚礼现场的WIFI名称改成了

标签：泉州岳阳长春安庆怒江清远洛阳吉林

巨人网络通讯声明：本文标题《详解python中文编码问题》，本文关键词详解,python,中文,编码,问题,；如发现本文内容存在版权问题，烦请提供相关信息告之我们，我们将及时沟通与处理。本站内容系统采集于网络，涉及言论、版权与本站无关。

下面列出与本文章《详解python中文编码问题》相关的同类信息！

详解python中文编码问题

目录 1. 在Python中使用中文 1.1 Windows控制台 1.2 Windows IDLE（在Shell上运行） 1.3 在IDLE上运行代码 1.4 Windows Eclipse 1.5 从文件读取中文 1.6 在数据库中使用中文 1.7 在XML中使用中文 1. 在Python中...

10-18

安装ghost win7系统时蓝屏提示错误代码0x0000007E的故障原因及解决方法

电脑蓝屏问题是Windows系统中常见的问题，安装系统时也不常会遇到系统蓝屏的问题。比如有一用户安装win7 纯净版系统出现蓝...

10-19

南江免费的电销外呼系统（电销外呼系统南牛网络）

本篇文章给咱们谈谈南江免费的电销外呼体系，以及电销外呼体系南牛网络对应的知识点，期望对各位有所协助，不要忘了...

05-17

400号码接听要钱吗400电话办理费用会受哪些因素影响

作为企业的专属客户服务电话，400电话采用主被称分享的方式。无论是用户打电话还是企业接听，都需要支付电话费，但双...

01-12

得到XML文档大小的方法

XML文档从格式到大小都是不是确定的。有的可能只有几行，而有的却有好几兆字节。你也许会怀疑是不是需要了解XML文档的大...

10-18

win8系统连网就蓝屏提示unexpected kernel mode trap错误怎么办?

win8一连上网，不久便蓝屏，显示unexpected kernel mode trap,怎么办呢？ 1、同时按下 win键和x键，呼出快捷菜单。 2、按下M键，启...

10-20

打电销不封号的手机卡

不封号的手机卡，电销不封卡，电销手机卡为什么要用电销卡？对于电销公司来说，电销封卡是给不容忽视的问题！如果没...

11-15

Linux使用文本浏览器lynx并显示中文的方法

使用Fedora，当然需要玩一些酷的东东，lynx是在文本环境下不错的网页浏览工具，在网速不好的时候使用lynx可以减少网页下载...

10-20

物联卡应用_远特通信卡盟不仅为合作伙伴赋能还可增强变现能....

2022年，物联网领域突破万亿市场，各种工业级和民用级智能设备层出不穷。物联网卡在物联网设备中起着重要作用，需求也...

11-07

巨人科技有很多400开头的电话供企业选择

05-15

400开头的电话能接吗400开头电话可以接听吗

(400开头的电话能接吗)(400开头电话可以接听吗)以下内容由巨人小编整理发布。 400电话只是一个转接来电的服务，没有线路，...

01-12

汕尾企业电销卡（汕尾企业电销卡怎么办理）

本文目录一览：1、电销卡如何避免封卡?2、电销卡是什么卡?3、电销卡为什么要留公司名4、电销卡是否真的不封号?卡总被停...

07-10

天润融通助力梵客家居优化呼叫中心体系

在当今社会，倾听用户的每一个声音，确保服务渠道的方便和顺畅，及时响应服务人员，是企业与用户进行良性沟通、建立信...

07-12

移动拨打400电话怎么收费移动，灵活，可扩展和可靠的400电话系统解决方案

目前，通信工具越来越发展，固定电话逐渐淡出人们的视野。人们越来越喜欢日常交流的移动通信工具。我们可以随时随地...

01-13

“叔同”商标被认无效申请人不服诉至法院

来源：中国法院网近日，北京知识产权法院受理了“叔同”商标无效宣告请求行政纠纷一案。诉争商标由牧马人公司于201...

10-23

最全Windows 10高清锁屏壁纸下载附网盘下载地址

为了增加Windows 10的美观性，微软为自己的新一代操作系统新增了一个锁屏壁纸更换功能Windows聚焦（Windows spotlight）。 Window...

10-20

抖音短视频代运营中有哪些流量池引荐规律？

抖音是一个关于夸姣的短视频APP，不同于快手的略微低俗的流量和受众，抖音是一个记载“夸姣”的产品，夸姣是什么？每个...

03-01

400电话语音导航内容内蒙古400电话有哪些功能

内蒙古赤峰400电话语音导航功能：通过语音提示选择按钮，将电话直接转到相关部门。 “欢迎致电***公司，咨询请按1，售后...

01-12

400电话办理的费用是多少呢400电话办理如何选择一家靠谱的服务商

说到客户服务电话的使用，我相信很多企业不会感到奇怪。随着科学技术的不断发展，也有许多高质量的工具可以使用，这...

01-13

在全球外包100名中，RR Donnelley是领先的外包服务提供商

R. R. Donnelley & Sons 公司今天宣布：在全球外包 100 名中，其全球外包服务已连续第四年被公众认可。全球外包 100 强名单，每年...

10-22

400电话是免费吗400电话的免费与不免费

400电话是代理400电话主要的分摊支付业务，也就是说需要支付一定的电话费，但是这个费用很低，只是一个本地的城市电话费...

01-12

使用电销卡是不是不会被封号？电销卡会被封号吗？

使用电销卡是不是不会被封号？电销卡会被封号吗？由于电销卡越来越容易出现封号的问题，所以不少的电销人员把目光...

10-26

服务外包行业上QQ开会

本报讯从区外经贸局了解到，萧山区服务外包第一次网络工作会议已于近日召开，全区有30多家服务外包企业在网上以QQ群聊...

10-22

多功能客服带动400电话办理

400电话从通常意义上来讲就是一种主被叫分摊业务，就是说主叫承担市话接入费，而被叫承担所有来电接听费用。400电话具有...

05-15

专利权限制的立法完善

专利权的内容立法始终关系专利权个人利益与国家、社会利益之间的平衡问题。在各国立法实践中。它们大都规定了专利权的...

10-23

丽水防封外呼机器人办理价格,外呼机器人-原来是这样

丽水防封外呼机器人办理价格,外呼机器人不变则亡”的抉择。据有关预测，在未来销售行业，越早接触人工智能的企业，就...

12-16

宜春外呼系统价格（外呼系统哪家线路比较好）

本篇文章给大家谈谈宜春外呼系统价格，以及外呼系统哪家线路比较好对应的知识点，希望对各位有所帮助，不要忘了收藏本...

05-17

电销卡办理难吗（办电销卡有什么影响）

本文目录一览： 1、电销卡在哪里处理多少钱2、平顶山电销卡怎样处理3、电信电销改套餐好做吗?4、本年电销卡真的太难了，...

04-22

湖州crm外呼系统多少钱（crm外呼工作的弊端）

本文目录一览： 1、外呼体系一个多少钱，有哪些功用？2、外呼体系多少钱一个月？3、外呼体系多少钱一套？怎样装置？4、...

04-22

《世界版权公约》

《世界版权公约》由联合国教科文组织发起签订，于1952年9月6日在瑞士日内瓦获得通过，1955年生效。1971年7月在巴黎曾作补充...

10-23

随时随地新浪网看病，东华互联网医院药品处方

尽管现在优先选择电话销售服务中心BizTalk的民营企业有许多，但也并非所有民营企业的电话销售服务中心都有必要BizTalk出去...

11-29

河北电话外呼系统有效果吗（电话外呼人员是干什么的）

今天给各位分享河北电话外呼系统有效果吗的知识，其中也会对电话外呼人员是干什么的进行解释，如果能碰巧解决你现在面...

06-09

阿朗或15亿美元出售企业电信设备部门正寻买家

4月14日消息，据国外媒体报道，知情人士称，阿尔卡特-朗讯正在探索出售其向企业销售电话和其它电信设备的业务部门。这...

10-19

青岛将认定技术先进型服务企业

人民网青岛视窗1月11日消息: 青岛将在今年开展技术先进型服务企业的认定工作,以促进企业技术创新和技术服务能力的提升。...

10-22

济南三网电销软件批发,电话销售系统办理-点击查看

济南三网电销软件批发,电话销售系统办理实际上，言通智能营销系统作为一站式智能营销解决方案服务平台，本质上就是为...

12-16

海航通信卡正规吗?（海航通信电话卡正规么）

近些年虚拟运营商慢慢走进大家的日常生活中，但是有很多人并不了解虚拟运营商，甚至对虚拟运营商存在误解，虚拟运营商...

09-19

呼叫中心职业生涯目标制订的基本步骤方法与目标制定的具体方法

(一) 呼叫中心职业生涯目标制订的基本步骤: 职业生涯目标的制订一般需要经过6个步骤。 (1)自我分析，认识自我，找出自己...

10-20

python 实现多线程的三种方法总结

1._thread.start_new_thread(了解) import threadingimport timeimport _threaddef job(): print("这是一个需要执行的任务。。。。。") print("当前线程...

10-18

移动400资费包括什么移动业务400是什么意思

移动400资费包括什么移动业务400是什么意思以下内容由巨人小编整理发布。座机拨打400电话是收费的按照市话费收取。手机...

02-07

徐州人工智能电话机器人（徐州人工智能电话机器人招聘）

本文目录一览： 1、人工智能电话机器人到底值不值得应用?2、人工智能电话营销机器人到底能做什么？3、人工智能电话机器...

11-28

电销客户软件使用介绍

导入编号【电销客户软件使用介绍】外呼模板【电销客户软件使用介绍】 4、设定编号说明规则【电销客户软件使用介绍】...

10-30

未来农业报告：物联网和新零售是主要力量

35斗对这份名为《食物革命：粮食的未来和我们面临的挑战》的报告进行了编译，将陆续刊出。这是该系列的第四篇文章，主...

10-13

菏泽市机器人电销外包招聘（菏泽市机器人电销

本文目录一览：1、有了电销机器人是不是就不需求招电销职工了？2、没有用的比较好的电销机器人啊？求介绍！现在的招...

11-29

长治自动电销卡大全（长治电信营业厅电话号码）

本文目录一览：1、有什么适合做电销的手机卡2、什么是电销卡3、哪些电销卡?4、智慧加油站系统公司找哪家比较好？5、防封...

07-10

宁波房产专用语音电销机器人多少一台-诚信优惠

宁波房产专用语音电销机器人多少一台机器人都要等到这通转接人工通话结束后才会进行下一通的呼出，这就降低了机器人的...

05-18

内蒙古电销机器人（电销机器人外呼）

今天给各位共享内蒙古电销机器人的常识，其间也会对电销机器人外呼进行解说，假如能可巧处理你现在面临的问题，别忘...

11-06

现代企业是否有必要开通400电话？

在发展竞争中，企业希望与潜在客户沟通，改善客户服务体验，优化品牌形象，提高竞争力。很难使用网络平台或其他社交软...

04-03

商标品牌俗称、简称、昵称法律保护的典型案例

来源：福建质量管理作者：纪翔 “索尼爱立信”是日本索尼公司和瑞典爱立信公司的合资企业，成立于2001年，在中国市场上...

10-23

上海ai外呼电话机器人哪家强（ai机器人运营商外呼线路）

本文目录一览：1、ai智能电话销售机器人哪家的靠谱?2、选择智能电话机器人的话,哪家的比较好?3、人工电话机器人选哪家实...

07-15

在线客服系统选择要点，用户满意度调查显示明确结果

企业发展需要挖掘和维护客户关系，找到适合的在线客服系统至关重要。选择在线客服系统关键点在于接入全渠道客户资源，...

07-12

兰州电销卡外呼系统线路

兰州电销卡外呼系统线路现在工信部对高频段呼出严打的环境下，电销公司只能依靠外呼系统线路来避免因高频外呼而封号...

11-15

详解python中文编码问题

10-18

本页收集关于详解python中文编码问题的相关信息资讯供网民参考！

推荐文章

上一篇：python异常的捕捉和补救实例详解

下一篇：这3个Python实时可视化工具包来帮你了解性能瓶颈

一起分享吧