Python2编码问题

以下内容说的都是 python 2.x 版本

简介

  • 基本概念
  • Python “帮”你做的事情
  • 推荐姿势

1、基本概念

我们看到的输入输出都是‘字符’(characters),计算机(程序)并不能直接处理,需要转化成字节数据(bytes),因为程序只能处理 bytes 数据。
例如:文件、网络传输等,处理的都是 bytes 数据——二进制数字。

1.1 ASCII / Unicode

孤立的 byte 是毫无意义的,所以我们来赋予他们含义。就引入‘字符集’的概念,‘字符集’就是一个码位(code point)对应的一个字符的表。

该表用于赋予 byte 意义。还需要知道一个点:因为 ASCII 字符集支持的字符太少,不能表示各个国家语言中的字符。所以就发明了
Unicode ——万国码,该字符集包含了你能用到的所有的字符。

1.2 Encode / Decode

在 python 中字符串分为两个对象:strunicode

  • str: a sequence of bytes
  • unicode:a sequence of code point(码位——字符集中的数字)
unicode_obj.encode() ——> bytes ‘编码’(encode)
bytes_obj.decode() ——> unicode ‘解码’(decode)

UTF-8 是最流行的一种对 Unicode 进行传播和存储的编码方式。所以,多用它作为编码方式。

s = 'hello' # str

u = u'你好' # unicode

back_to_bytes = u.encode('utf-8')

back_to_utf8 = back_to_bytes.decode('utf-8') # 或 unicode(s,'utf-8')

1.3 声明编码

正如前面所说的,计算机只能操作 bytes,所以 Python 在编译原文件的时候,会先把源文件进行编码,默认以‘ASCII’进行编码。这就是为什么如果源文件中带有‘中文’,需要在源文件的起始行声明编码方式。

完成编码后,源码中的所有字符,都变成了 bytes 计算机就可以进行编译和处理了。编译过程:

  1. 读取文件
  2. 不同的文件,根据其声明的编码去解析为Unicode
  3. 转换为UTF-8字符串
  4. 针对UTF-8字符串,去分词
  5. 编译,创建Unicode对象(Python解释器处理)

根据这个过程,在自己的代码中也应该按照这个逻辑处理,意思是:

  1. 接收外部数据时,统一转化为Unicode
  2. 代码内部处理的都是Unicode
  3. 输出时统一转化为UTF-8(网络数据传输、文本输出)

参考:PEP 263 -- Defining Python Source Code Encodings

1.4 小结

  1. 程序中所有的输入和输出均为 byte
  2. 世界上的文本需要比 256 更多的符号来表现(ASCII是不够的)
  3. 你的程序必须能够处理 byte 和 unicode
  4. byte 流中不会包含编码信息(编码信息会在:文件的开头、协议中等地方声明)
    Content-Type:text/html; charset=UTF-8
    
  5. 指明的编码有可能是错误的(出现乱码)

2、python “帮”你做的事情

在 python 中处理编码问题,会出现很多问题,这里就不一一列举。

这些问题大都是使用了不匹配的编码方式进行解码、编码造成的。而 python 为了语法更加简介,在一些内置方法中,使用了一些隐性转换。这种隐形的转换带了的便捷的同时也会带来一些非预期的错误。下面就一一道来。

2.1 a = "abc" + u"bcd"

a = "abc" + u"bcd",Python 会如此转换 "abc".decode(sys.getdefaultencoding()) 然后将两个 Unicode 字符合并。

2.2 两个内建方法str()unicode()

  1. str:something.encode(sys.getdefaultencoding())
  2. unicode:something.decode(sys.getdefaultencoding())

sys.getdefaultencoding()默认为:ASCII,这就是为什么str(u'中文')unicode('中文')分别会报错:UnicodeEncodeError和UnicodeDecodeError。因为ASCII编码方式,编码/解码不了中文(支持的字符有限)。

2.3 print函数

print函数,会对输出的内容进行编码,这是因为:所谓的输出,也是从一个程序到另外一个程序。程序之间的交互都是都是传递 bytes。比方说print,就是把数据传递给 终端 ,终端也是个程序,所以print函数就把需要输出的内容编码成了 bytes,采用那种编码方式,就是
sys.stdout.encoding参数决定的。

在交互环境下(python、ipython)输入的数据的编码则由sys.stdin.encoding参数决定。参考:What does python print() function actually do?

2.4 默认编码方式

python 的默认编发方式为 ASCII。

如何改变python的默认编码方式?:

import sys
# sys.setdefaultencoding() does not exist,here!
reload(sys)  # Reload does the trick!
sys.setdefaultencoding('UTF8')

为什么要重载sys模块?

因为如果在编译.py文件的之前,改变默认编码,会影响Python的编译。
当编译完,再重载sys模块,它就是变成了第三方模块,可以随便更改,不回影响编译。setdefaultencoding()函数才可以调用。参考:Changing default encoding of Python?

3、推荐姿势

本片文章没有列举出常见的异常,因为如果看懂了上面所有的解释。再按照下面的姿势使用,那么 python2 中的编码问题,因该就不会再困扰你了。

  1. Unicode 三明治:尽可能的让你程序处理的文本都为 Unicode 。如下图:

  2. 了解你的字符串。你应该知道你的程序中,哪些是 unicode,哪些是 byte,对于这些 byte 串。你应该知道,他们的编码是什么。(详情见上述小结第 4 条)

  3. 测试 Unicode 支持。使用一些奇怪的符号来测试你是否已经做到了以上几点。(测试看看你的程序是否支持中文)

参考

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


使用OpenCV实现视频去抖 整体步骤: 设置输入输出视频 寻找帧之间的移动:使用opencv的特征检测器,检测前一帧的特征,并使用Lucas-Kanade光流算法在下一帧跟踪这些特征,根据两组点,将前一个坐标系映射到当前坐标系完成刚性(欧几里得)变换,最后使用数组纪录帧之间的运动。 计算帧之间的平
前言 对中文标题使用余弦相似度算法和编辑距离相似度分析进行相似度分析。 准备数据集part1 本次使用的数据集来源于前几年的硕士学位论文,可根据实际需要更换。结构如下所示: 学位论文题名 基于卷积神经网络的人脸识别研究 P2P流媒体视频点播系统设计和研究 校园网安全体系的设计与实现 无线传感器网络中
前言 之前尝试写过一个爬虫,那时对网页请求还不够熟练,用的原理是:爬取整个html文件,然后根据标签页筛选有效信息。 现在看来这种方式无疑是吃力不讨好,因此现在重新写了一个爬取天气的程序。 准备工作 网上能轻松找到的是 101010100 北京这种编号,而查看中国气象局URL,他们使用的是北京545
前言 本文使用Python实现了PCA算法,并使用ORL人脸数据集进行了测试并输出特征脸,简单实现了人脸识别的功能。 1. 准备 ORL人脸数据集共包含40个不同人的400张图像,是在1992年4月至1994年4月期间由英国剑桥的Olivetti研究实验室创建。此数据集包含40个类,每个类含10张图
前言 使用opencv对图像进行操作,要求:(1)定位银行票据的四条边,然后旋正。(2)根据版面分析,分割出小写金额区域。 图像校正 首先是对图像的校正 读取图片 对图片二值化 进行边缘检测 对边缘的进行霍夫曼变换 将变换结果从极坐标空间投影到笛卡尔坐标得到倾斜角 根据倾斜角对主体校正 import
天气预报API 功能 从中国天气网抓取数据返回1-7天的天气数据,包括: 日期 天气 温度 风力 风向 def get_weather(city): 入参: 城市名,type为字符串,如西安、北京,因为数据引用中国气象网,因此只支持中国城市 返回: 1、列表,包括1-7的天气数据,每一天的分别为一个
数据来源:House Prices - Advanced Regression Techniques 参考文献: Comprehensive data exploration with Python 1. 导入数据 import pandas as pd import warnings warnin
同步和异步 同步和异步是指程序的执行方式。在同步执行中,程序会按顺序一个接一个地执行任务,直到当前任务完成。而在异步执行中,程序会在等待当前任务完成的同时,执行其他任务。 同步执行意味着程序会阻塞,等待任务完成,而异步执行则意味着程序不会阻塞,可以同时执行多个任务。 同步和异步的选择取决于你的程序需
实现代码 import time import pydirectinput import keyboard if __name__ == '__main__': revolve = False while True: time.sleep(0.1) if keyboard.is_pr
本文从多个角度分析了vi编辑器保存退出命令。我们介绍了保存和退出vi编辑器的命令,以及如何撤销更改、移动光标、查找和替换文本等实用命令。希望这些技巧能帮助你更好地使用vi编辑器。
Python中的回车和换行是计算机中文本处理中的两个重要概念,它们在代码编写中扮演着非常重要的角色。本文从多个角度分析了Python中的回车和换行,包括回车和换行的概念、使用方法、使用场景和注意事项。通过本文的介绍,读者可以更好地理解和掌握Python中的回车和换行,从而编写出更加高效和规范的Python代码。
SQL Server启动不了错误1067是一种比较常见的故障,主要原因是数据库服务启动失败、权限不足和数据库文件损坏等。要解决这个问题,我们需要检查服务日志、重启服务器、检查文件权限和恢复数据库文件等。在日常的数据库运维工作中,我们应该时刻关注数据库的运行状况,及时发现并解决问题,以确保数据库的正常运行。
信息模块是一种可重复使用的、可编程的、可扩展的、可维护的、可测试的、可重构的软件组件。信息模块的端接需要从接口设计、数据格式、消息传递、函数调用等方面进行考虑。信息模块的端接需要满足高内聚、低耦合的原则,以保证系统的可扩展性和可维护性。
本文从电脑配置、PyCharm版本、Java版本、配置文件以及程序冲突等多个角度分析了Win10启动不了PyCharm的可能原因,并提供了解决方法。
本文主要从多个角度分析了安装SQL Server 2012时可能出现的错误,并提供了解决方法。
Pycharm是一款非常优秀的Python集成开发环境,它可以让Python开发者更加高效地进行代码编写、调试和测试。在Pycharm中设置解释器非常简单,我们可以通过创建新项目、修改项目解释器、设置全局解释器等多种方式进行设置。
Python中有多种方法可以将字符串转换为整数,包括使用int()函数、try-except语句、正则表达式、map()函数、ord()函数和reduce()函数。在实际应用中,应根据具体情况选择最合适的方法。
本文介绍了导入CSV文件的多种方法,包括使用Excel、Python和R等工具。同时,还介绍了导入CSV文件时需要注意的一些细节和问题。CSV文件是数据处理和分析中不可或缺的一部分,希望本文能够对读者有所帮助。
mongodb是一种新型的数据库,它采用了面向文档的数据模型,具有灵活性、高性能和高可用性等优势。但是,mongodb也存在数据结构混乱、安全性和学习成本高等问题。
当Python运行不了时,我们应该从代码、Python环境、操作系统和硬件设备等多个角度来排查问题,并采取相应的解决措施。