彻底弄懂python编码

  在编写python程序的过程中,中英文混用经常会出现编码问题。围绕此问题,本文首先介绍编码的含义及常用编码,随后列举几个python经常遇到的编码异常及解决方法,接着列举笔者在实践中遇到的异常出现的情景及原因,最后针对编码问题提出最佳实践。

一 常见编码

1.1 unicode编码

  在文本文件中,看到的所有字符,包括中文,都需要在计算机中存储,而计算机只能存储0和1这样的二进制位,所以需要一种方法,将字符映射成数字,然后将数字转化为二进制位存储在计算机中。针对字符和数字的映射的问题,产生了unicode编码,unicode将世界上的所有字符映射为唯一的数字。unicode数字并不是直接就可以转化为二进制存储,比如假设中文字符‘中’映射为数字1(00000001),‘国’映射为数字2(00000010),由于汉字很多,单字节并不能表示完所有的汉字,故可能会有汉字的unicode数字为258(00000001 00000010),假设为‘京’,现在在字符串中碰到存储为00000001 00000010的二进制串,不能区分出其实际代表的是“中国”还是“京”。

  针对unicode数字和二进制的映射问题,有两种解决方法:一种是每个unicode数字用固定宽度的二进制位表示,比如都用两字节,由此产生了ASCII、GB2312、GBK编码;另一种是存储的二进制位除了表示数字之外,还表示每个unicode数字的长度,由此产生了utf-8编码。

1.2 ASCII编码

ASCII编码用单字节表示字符,最高位固定为0,故最多只能表示128个字符,当编程只涉及到英文字符或数字时,不涉及中文字符时,可以使用ASCII编码。

1.3 GB2312编码、GBK

  GB(GuoBiao)为国标,GBK(GuoBiao Kuozhan)表示国标扩展。GB2312兼容ASCII编码,对于ASCII可以表示的字符,如英文字符‘A’、‘B’等,在GB2312中的编码和ASCII编码一致,占一个字节,对于ASCII不能表示的字符,GB2312用两个字节表示,且最高位不为0,以防和ASCII字符冲突。例如:‘A’在GB2312中存储的字节十六进制为41,在ASCII中也是41,中文字符‘中’在GB2312中存储的两个字节十六进制为D6D0,最高位为1不为0。

  GB2312只有6763个汉字,而汉字特别多。GBK属于GB2312的扩展,增加了很多汉字,同时兼容GB2312,同样用两个字节表示非ASCII字符。

1.4 UTF-8编码

  和GB系列不同,UTF-8可以将全世界所有的unicode数字表示出来。UTF-8兼容ASCII编码,不兼容GB系列编码,因此,若文本中UTF-8和GB系列编码混用,会出现乱码问题。UTF-8对于每个字符的存储,用最高二进制位开始连续1的个数表示字的长度,最高位为0表示单字节,用来兼容ASCII字符,为110表示双字节,非字符首字节的字节都以10开始,如下表格所示。例如:字符‘中’的unicode编码为2D4E(00101101 01001110),用UTF-8存储的二进制为E4B8AD(11100100 10111000 10101101 ),存储在计算机中的首字节为1110开头,表示此字符占三个字节,去掉开始字节表示长度的1110和其余字节开头的10,可以得到01001110 00101101(4E2D),可以看到和unicode数字刚好相反,是因为是大端存储方式,高字节存储在内存中的低地址端,反过来即为unicode编码。

 

字节数 二进制编码格式
单字节 0XXXXXXX
双字节 110XXXXX 10XXXXXX
三字节 1110XXXX 10XXXXXX 10XXXXXX
四字节 11110XXX 10XXXXXX 10XXXXXX 10XXXXXX
五字节 111110XX 10XXXXXX 10XXXXXX 10XXXXXX 10XXXXXX
六字节 1111110X 10XXXXXX 10XXXXXX 10XXXXXX 10XXXXXX 10XXXXXX

二 python字符序列及编码问题

  上一节对几种常见的编码原理做出了介绍,以便理解python由于编码引起的异常,本节将对python中的字符串作出介绍,并在此基础上提出几种常见的编码异常,并提供解决方案。

2.1 python2和python3字符序列

   python2中字符序列有两种类型:unicode和str。unicode字符序列存储的元素为unicode字符。如图2.1所示,unicode_string代表unicode字符序列“中国”,其长度为2,恰好表示两个unicode字符。

   图2.1 unicode字符序列

  python2中的另一种字符序列是str类型,str类型的字符序列其实是unicode字符序列encode之后的值,用不同的编码类型encode,得出的值不一样。str字符序列的元素为字节,如图2.2所示,“中国” 的str字符序列长度为6,为UTF-8编码后所占字节长度。

图2.2 str字符序列

  与unicode字符串转化为str类型用encode相反,str类型的字符序列转化为unicode字符串,可以通过decode方法,如图2.3所示:

图2.3 str转化为unicode

   python3中的字符序列也有两种类型:bytes和str。python3中的bytes和python2中的str相似,str和python2中的unicode相似。这里要注意,str类型在python3和python2中都有,但含义完全变了。

图2.4 python3的str和bytes字符序列

2.2常见编码问题

2.2.1 UnicodeEncoderError

  将文本转化为字节序列时,若有字符在目标编码中没有定义,则会出现UnicodeEncoderError。如图2.5所示,由于中文字符在ascii编码中无定义,则会报出编码错误。对于此类问题,需选择合适的编码类型,比如含有中文字符,一般用UTF-8编码类型对unicode字符串编码。

图2.5 UnicodeEncodeError示例

 

2.2.2 UnicodeDecodeError

  把二进制序列转化为文本时,遇到无法转换的字节序列,则会发生此异常。比如用UTF-8编码后的二进制序列,用GB2312解码,由于两种编码不兼容,用GB2312不能识别字节序列,则会出现异常,如图2.6所示。

图2.6 UnicodeDecodeError示例

  碰到这种异常,是由于decode使用的编码和字节序列的编码不一致,可以用字符编码侦测包chardet检测字节序列的编码,然后再用此编码解码。如图2.7所示:

 

图2.7 编码检测

三 实践中常见编码异常场景

3.1 字符串连接

python代码

1 # -*- coding: utf-8 -*-
2 unicode_string=u'中国'
3 str_string='中国'
4 merge_string= str_string+unicode_string #UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)

python代码

1 # -*- coding: utf-8 -*-
2 unicode_string=u'中国'
3 str_string='中国'
4 "中国:%s" % str_string
5 #两种字符序列混用,相当于"中国:%s".decode('ascii')%unicode_string
6 "中国:%s" % unicode_string #UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)
7 u"中国:%s"%unicode_string
8 #两种字符序列混用,相当于u"中国:%s"%str_string.decode('ascii')
9 u"中国:%s"%str_string #UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)

  当str类型字符串和unicode类型字符串混合运算时,python默认会将str类型字符串转化为unicode字符串,由于不知道str类型字符串的编码格式,会使用 sys.getdefaultencoding() ,而默认的defaultencoding一般是ascii,故会出错。

3.2 print中文问题

 如图3.1,python打印变量时,操作系统会对变量进行相应的处理,若变量是str类型,则操作系统直接发送到终端显示,若变量是unicode类型,则操作系统会对变量用sys.stdout.encoding编码对变量encode,若变量中含有sys.stdout.encoding未定义字符,则会出现UnicodeEncodeError。编码后字节序列被发送给终端,假若终端设置的编码和str编码不一致,终端就会显示出乱码。

图3.1 print过程

四 最佳实践

  编写python程序时,为避免不同类型字符串混用出现编解码异常,要把编码和解码操作放在程序的最外围来做,程序的核心逻辑统一使用unicode字符类型。下面分别对python2和python3编写了外围编码转换工具类。

  

 1 #python2,unicode和utf-8类型的str互相转换
 2 #file:python2_endecode_helper.py
 3 
 4 # -*- coding: utf-8 -*-
 5 def to_unicode(unicode_or_str):
 6     if isinstance(unicode_or_str, str):
 7         value = unicode_or_str.decode('UTF-8')
 8     else:
 9         value = unicode_or_str
10     return value
11 
12 def to_str(unicode_or_str):
13     if isinstance(unicode_or_str, unicode):
14         value = unicode_or_str.encode('UTF-8')
15     else:
16         value = unicode_or_str
17     return value
18 
19 if __name__=='__main__':
20     unicode_string = u'中国'
21     value = to_str(unicode_string)
22     print type(value) #<type 'str'>
23     value = to_unicode(value)
24     print type(value) #<type 'unicode'>

 

#python3,str和bytes类型相互转换工具类
#file:python3_endecode_helper.py
def to_str(bytes_or_str):
    if isinstance(bytes_or_str,bytes):
        value = bytes_or_str.decode('UTF-8')
    else:
        value = bytes_or_str
    return value

def to_bytes(bytes_or_str):
    if isinstance(bytes_or_str,str):
        value = bytes_or_str.encode('UTF-8')
    else:
        value = bytes_or_str
    return value

if __name__=='__main__':
    str_string = u'中国'
    value = to_bytes(str_string)
    print(type(value)) #<class 'bytes'>
    value = to_str(value)
    print(type(value)) #<class 'str'>

 

参考文献 

[1] Brett Slatkin. Effective Python[M]. 北京: 机械工业出版社, 2016: 5-7
[2] Luciano Ramalho. Fluent Python[M]. 北京: 人民邮电出版社, 2017: 89- 91
[3] Jinhaolin. python2编码总结. https://www.cnblogs.com/jinhaolin/p/5128973.html
[4] In355hz. 也谈 Python 的中文编码处理. http://in355hz.iteye.com/blog/1860787
[5] 董公子. python中文编码问题:print打印中文异常及显示乱码问题分析与解决. https://blog.csdn.net/qq_26580757/article/details/79922043

 

 

 

 

 

 

 

 

 

 

 

 

  

原文地址:https://www.cnblogs.com/killianxu/p/9746545.html

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Python中的函数(二) 在上一篇文章中提到了Python中函数的定义和使用,在这篇文章里我们来讨论下关于函数的一些更深的话题。在学习C语言函数的时候,遇到的问题主要有形参实参的区别、参数的传递和改变、变量的作用域。同样在Python中,关于对函数的理解和使用也存在这些问题。下面来逐一讲解。一.函
Python中的字符串 可能大多数人在学习C语言的时候,最先接触的数据类型就是字符串,因为大多教程都是以&quot;Hello world&quot;这个程序作为入门程序,这个程序中要打印的&quot;Hello world&quot;就是字符串。如果你做过自然语言处理方面的研究,并且用Python
Python 面向对象编程(一) 虽然Python是解释性语言,但是它是面向对象的,能够进行对象编程。下面就来了解一下如何在Python中进行对象编程。一.如何定义一个类 在进行python面向对象编程之前,先来了解几个术语:类,类对象,实例对象,属性,函数和方法。 类是对现实世界中一些事物的封装,
Python面向对象编程(二) 在前面一篇文章中谈到了类的基本定义和使用方法,这只体现了面向对象编程的三大特点之一:封装。下面就来了解一下另外两大特征:继承和多态。 在Python中,如果需要的话,可以让一个类去继承一个类,被继承的类称为父类或者超类、也可以称作基类,继承的类称为子类。并且Pytho
Python中的函数(一) 接触过C语言的朋友对函数这个词肯定非常熟悉,无论在哪门编程语言当中,函数(当然在某些语言里称作方法,意义是相同的)都扮演着至关重要的角色。今天就来了解一下Python中的函数用法。一.函数的定义 在某些编程语言当中,函数声明和函数定义是区分开的(在这些编程语言当中函数声明
在windows下如何快速搭建web.py开发框架 用Python进行web开发的话有很多框架供选择,比如最出名的Django,tornado等,除了这些框架之外,有一个轻量级的框架使用起来也是非常方便和顺手,就是web.py。它由一名黑客所创建,但是不幸的是这位创建者于2013年自杀了。据说现在由
将Sublime Text 2搭建成一个好用的IDE 说起编辑器,可能大部分人要推荐的是Vim和Emacs,本人用过Vim,功能确实强大,但是不是很习惯,之前一直有朋友推荐SUblime Text 2这款编辑器,然后这段时间就试了一下,就深深地喜欢上这款编辑器了...
Python中的模块 有过C语言编程经验的朋友都知道在C语言中如果要引用sqrt这个函数,必须用语句&quot;#include&lt;math.h&gt;&quot;引入math.h这个头文件,否则是无法正常进行调用的。那么在Python中,如果要引用一些内置的函数,该怎么处理呢?在Python中
Python的基础语法 在对Python有了基础的认识之后,下面来了解一下Python的基础语法,看看它和C语言、java之间的基础语法差异。一.变量、表达式和语句 Python中的语句也称作命令,比如print &quot;hello python&quot;这就是一条语句。 表达式,顾名思义,是
Eclipse+PyDevʽjango+Mysql搭建Python web开发环境 Python的web框架有很多,目前主流的有Django、Tornado、Web.py等,最流行的要属Django了,也是被大家最看好的框架之一。下面就来讲讲如何搭建Django的开发环境。一.准备工作 需要下载的
在windows下安装配置Ulipad 今天推荐一款轻便的文本编辑器Ulipad,用来写一些小的Python脚本非常方便。 Ulipad下载地址: https://github.com/limodou/ulipad http://files.cnblogs.com/dolphin0520/u...
Python中的函数(三) 在前面两篇文章中已经探讨了函数的一些相关用法,下面一起来了解一下函数参数类型的问题。在C语言中,调用函数时必须依照函数定义时的参数个数以及类型来传递参数,否则将会发生错误,这个是严格进行规定的。然而在Python中函数参数定义和传递的方式相比而言就灵活多了。一.函数参数的
在Notepad++中搭配Python开发环境 Python在最近几年一度成为最流行的语言之一,不仅仅是因为它简洁明了,更在于它的功能之强大。它不仅能够完成一般脚本语言所能做的事情,还能很方便快捷地进行大规模的项目开发。在学习Python之前我们来看一下Python的历史由来,&quot;Pytho
Python中的条件选择和循环语句 同C语言、Java一样,Python中也存在条件选择和循环语句,其风格和C语言、java的很类似,但是在写法和用法上还是有一些区别。今天就让我们一起来了解一下。一.条件选择语句 Python中条件选择语句的关键字为:if 、elif 、else这三个。其基本形式如
关于raw_input( )和sys.stdin.readline( )的区别 之前一直认为用raw_input( )和sys.stdin.readline( )来获取输入的效果完全相同,但是最近在写程序时有类似这样一段代码:import sysline = sys.stdin.readline()
初识Python 跟学习所有的编程语言一样,首先得了解这门语言的编程风格和最基础的语法。下面就让我们一起来了解一下Python的编程风格。1.逻辑行与物理行 在Python中有逻辑行和物理行这个概念,物理行是指在编辑器中实际看到的一行,逻辑行是指一条Python语句。在Python中提倡一个物理行只
当我们的代码是有访问网络相关的操作时,比如http请求或者访问远程数据库,经常可能会发生一些错误,有些错误可能重新去发送请求就会成功,本文分析常见可能需要重试的场景,并最后给出python代码实现。
1.经典迭代器 2.将Sentence中的__iter__改成生成器函数 改成生成器后用法不变,但更加简洁。 3.惰性实现 当列表比较大,占内存较大时,我们可以采用惰性实现,每次只读取一个元素到内存。 或者使用更简洁的生成器表达式 4.yield from itertools模块含有大量生成器函数可
本文介绍简单介绍socket的常用函数,并以python-kafka中的源码socketpair为例,来讲解python socket的运用
python实践中经常出现编码相关的异常,大多网上找资料而没有理解原理,导致一次次重复错误。本文对常用Unicode、UTF-8、GB2312编码的原理进行介绍,接着介绍了python字符类型unicode和str以及常见编解码错误UnicodeEncodeError和UnicodeDEcodeEr