Python中文编码 - 360文档中心

python中文乱码问题深入分析

python中⽂乱码问题深⼊分析在本⽂中，以'哈'来解释作⽰例解释所有的问题，“哈”的各种编码如下：1. UNICODE (UTF8-16)，C854；2． UTF-8，E59388；3． GBK，B9FE。

⼀直以来，python中的中⽂编码就是⼀个极为头⼤的问题，经常抛出编码转换的异常，python中的str和unicode到底是⼀个什么东西呢？在python中提到unicode，⼀般指的是unicode对象，例如'哈哈'的unicode对象为u'\u54c8\u54c8'⽽str，是⼀个字节数组，这个字节数组表⽰的是对unicode对象编码(可以是utf-8、gbk、cp936、GB2312)后的存储的格式。

这⾥它仅仅是⼀个字节流，没有其它的含义，如果你想使这个字节流显⽰的内容有意义，就必须⽤正确的编码格式，解码显⽰。

例如：对于unicode对象哈哈进⾏编码，编码成⼀个utf-8编码的str－s_utf8,s_utf8就是是⼀个字节数组，存放的就是' e5 93 88 e5 93 88'，但是这仅仅是⼀个字节数组，如果你想将它通过print语句输出成哈哈，那你就失望了，为什么呢？因为print语句它的实现是将要输出的内容传送了操作系统，操作系统会根据系统的编码对输⼊的字节流进⾏编码，这就解释了为什么utf-8格式的字符串“哈哈”，输出的是“鍝堝搱”，因为 ' e5 93 88 e5 93 88'⽤GB2312去解释，其显⽰的出来就是“鍝堝搱”。

这⾥再强调⼀下，str记录的是字节数组，只是某种编码的存储格式，⾄于输出到⽂件或是打印出来是什么格式，完全取决于其解码的编码将它解码成什么样⼦。

这⾥再对print进⾏⼀点补充说明：当将⼀个unicode对象传给print时，在内部会将该unicode对象进⾏⼀次转换，转换成本地的默认编码（这仅是个⼈猜测）⼆、str和unicode对象的转换str和unicode对象的转换，通过encode和decode实现，具体使⽤如下：将GBK'哈哈'转换成unicode，然后再转换成UTF8三、Setdefaultencoding如上图的演⽰代码所⽰：当把s(gbk字符串)直接编码成utf-8的时候，将抛出异常，但是通过调⽤如下代码：import sysreload(sys)sys.setdefaultencoding('gbk')后就可以转换成功，为什么呢？在python中str和unicode在编码和解码过程中，如果将⼀个str直接编码成另⼀种编码，会先把str解码成unicode，采⽤的编码为默认编码，⼀般默认编码是anscii，所以在上⾯⽰例代码中第⼀次转换的时候会出错，当设定当前默认编码为'gbk'后，就不会出错了。

python-PEP8编码规范-中文简版

python-PEP8编码规范-中⽂简版
代码布局
缩进：每⼀⾏的缩进使⽤4个空格。

续⾏应该与其包裹的元素对齐，要么使⽤圆括号，⽅括号和花括号内的隐式⾏连接来垂直对齐，要么使⽤挂⾏缩进对齐。

当使⽤挂⾏缩进时，应该考虑到第⼀⾏不应该有参数，以及使⽤缩进以区分⾃⼰是续⾏。

推荐：
制表符还是空格？
空格是⾸选的缩进⽅式。

制表符追能⽤于同样使⽤制表符缩进的代码保持⼀致。

Python3不允许同时使⽤空格和制表符的缩进
混合使⽤制表符和空格的Python2代码应该统⼀转成空格。

当在命令中加⼊-t选项执⾏Python2时，它会发出关于⾮法混⽤制表符与空格的警告。

当使⽤-tt时，这些警告会变成错误，强烈建议使⽤这样的参数。

⾏的最⼤长度
所有⾏限制的最⼤字符数为79.
没有结构化限制的⼤块⽂本（⽂档字符或者注释），每⾏的最⼤字符数限制在72.
限制编辑器窗⼝宽度可以使多个⽂件并⾏打开，并且使⽤代码检查⼯具时⼯作的很好。

python 中文编解码

python 中文编解码
在Python中，如果需要将字符串进行编码或解码，可以使用内置函数`encode()`和`decode()`。

编码（encode）是将字符串转换为字节序列的过程，而解码（decode）则是将字节序列转换为字符串的过程。

下面是一些常用的编码和解码方法：- 将字符串编码为字节序列：使用字符串的`encode()`方法，可以指定要使用的编码格式。

例如，将字符串编码为UTF-8格式的字节序列可以使用以下方式：pythons = "中文"b = s.encode('utf-8')- 将字节序列解码为字符串：使用字节序列的`decode()`方法，也可以指定要使用的解码格式。

例如，将UTF-8格式的字节序列解码为字符串可以使用以下方式：pythonb =
b'\xe4\xb8\xad\xe6\x96\x87's = b.decode('utf-8')需要注意的是，编码和解码时要使用相同的编码格式，否则可能会导致解码错误或乱码。

通常情况下，UTF-8编码是一种常用且较为通用的选择。

同时，还可以使用`str.encode()`和`bytes.decode()`方法进行编码和解码，其用法与上述方法相同。

pythons = "中文"b = str.encode(s, 'utf-8')s = bytes.decode(b, 'utf-8')以上是在Python 中进行中文编解码的基本方法，需要根据具体使用场景和需求来选择合适的编码格式和方法。

python中unicode、utf8、gbk等编码问题

python中unicode、utf8、gbk等编码问题为什么会报错“UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)”？本⽂就来研究⼀下这个问题。

字符串在Python内部的表⽰是unicode编码，因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另⼀种编码。

decode的作⽤是将其他编码的字符串转换成unicode编码，如str1.decode('gb2312')，表⽰将gb2312编码的字符串str1转换成unicode编码。

encode的作⽤是将unicode编码转换成其他编码的字符串，如str2.encode('gb2312')，表⽰将unicode编码的字符串str2转换成gb2312编码。

因此，转码的时候⼀定要先搞明⽩，字符串str是什么编码，然后decode成unicode，然后再encode成其他编码代码中字符串的默认编码与代码⽂件本⾝的编码⼀致。

如：s='中⽂'如果是在utf8的⽂件中，该字符串就是utf8编码，如果是在gb2312的⽂件中，则其编码为gb2312。

这种情况下，要进⾏编码转换，都需要先⽤decode⽅法将其转换成unicode编码，再使⽤encode⽅法将其转换成其他编码。

通常，在没有指定特定的编码⽅式时，都是使⽤的系统默认编码创建的代码⽂件。

如果字符串是这样定义：s=u'中⽂'则该字符串的编码就被指定为unicode了，即python的内部编码，⽽与代码⽂件本⾝的编码⽆关。

因此，对于这种情况做编码转换，只需要直接使⽤encode⽅法将其转换成指定编码即可。

python查看字符编码的方法

python查看字符编码的方法Python是一种广泛使用的高级编程语言，许多人都使用它来完成各种任务。

在Python中，了解如何查看字符编码是非常重要的。

通过查看字符编码，您可以了解与文本编码相关的详细信息。

在本文中，我们将分步介绍如何使用Python来查看字符编码。

步骤一：使用Python检测编码方式Python提供了一种以通用的方式读写文件的方法，这种方法可以识别和处理各种文本编码。

在Python中，要读取文件并检测编码方式，我们可以使用codecs库。

codecs库可以以通用的方式读取文件并检测编码方式。

请按以下步骤操作：1.导入codecs库：import codecs2.打开文件并使用codecs库检测编码方式：with codecs.open('file.txt','r',encoding='utf-8') as f:content = f.read()print(content)在上面的代码中，我们使用codecs库的open函数打开文件，并指定编码方式。

在这种情况下，我们将编码方式设置为"utf-8"。

步骤二：使用Python的chardet库来检测编码方式Python还提供了一个称为"chardet"的库，可以帮助我们更好地识别编码方式。

要使用它，请按以下步骤操作：1.安装chardet库：使用以下命令在Windows上安装chardet库：pip install chardet使用以下命令在Linux和Mac上安装chardet库：sudo pip install chardet2.使用chardet库检测文件的编码方式：import chardetwith open('file.txt', 'rb') as f:result = chardet.detect(f.read())print(result['encoding'])在上面的代码中，我们使用chardet库分析文件内容的编码方式。

Python——关于encoding=ISO-8859-1和utf-8的介绍

Python——关于encoding=ISO-8859-1和utf-8的介绍Unicode、UTF－8 和 ISO8859-1和乱码问题在下⾯的描述中,将以"中⽂"两个字为例,经查表可以知道其GB2312编码是"d6d0 cec4",Unicode编码为"4e2d 6587",UTF编码就是"e4b8ade69687"。

注意,这两个字没有iso8859-1编码,但可以⽤iso8859-1编码来"表⽰"。

2. 编码基本知识最早的编码是iso8859-1,和ascii编码相似。

但为了⽅便表⽰各种各样的语⾔,逐渐出现了很多标准编码,重要的有如下⼏个。

2.1. iso8859-1属于单字节编码,最多能表⽰的字符范围是0-255,应⽤于英⽂系列。

⽐如,字母a的编码为0x61=97。

很明显,iso8859-1编码表⽰的字符范围很窄,⽆法表⽰中⽂字符。

但是,由于是单字节编码,和计算机最基础的表⽰单位⼀致,所以很多时候,仍旧使⽤ iso8859-1编码来表⽰。

⽽且在很多协议上,默认使⽤该编码。

⽐如,虽然"中⽂"两个字不存在iso8859-1编码,以gb2312编码为例,应该是"d6d0 cec4"两个字符,使⽤iso8859-1编码的时候则将它拆开为4个字节来表⽰:"d6 d0 ce c4"(事实上,在进⾏存储的时候,也是以字节为单位处理的)。

⽽如果是UTF编码,则是6个字节"e4 b8 ad e6 96 87"。

很明显,这种表⽰⽅法还需要以另⼀种编码为基础。

2.2. GB2312/GBK这就是汉⼦的国标码,专门⽤来表⽰汉字,是双字节编码,⽽英⽂字母和iso8859-1⼀致(兼容iso8859-1编码)。

其中gbk编码能够⽤来同时表⽰繁体字和简体字,⽽ gb2312只能表⽰简体字,gbk是兼容gb2312编码的。

【转】【Python】python中的编码问题报错asciicodeccantdecode。。。

【转】【Python】python中的编码问题报错asciicodeccantdecode。

1.unicode、gbk、gb2312、utf-8的关系2.python中的中⽂编码问题2.1 .py⽂件中的编码 Python 默认脚本⽂件都是 ANSCII 编码的，当⽂件中有⾮ ANSCII 编码范围内的字符的时候就要使⽤"编码指⽰"来修正。

⼀个module 的定义中，如果.py⽂件中包含中⽂字符（严格的说是含有⾮anscii字符），则需要在第⼀⾏或第⼆⾏指定编码声明：2.2 python中的编码与解码先说⼀下python中的字符串类型，在python中有两种字符串类型，分别是str和unicode，他们都是basestring的派⽣类；str类型是⼀个包含Characters represent (at least) 8-bit bytes的序列；unicode的每个unit是⼀个unicode obj;所以：len(u'中国')的值是2；len('ab')的值也是2；在str的⽂档中有这样的⼀句话：The string data type is also used to represent arrays of bytes, e.g., to hold data read from a file. 也就是说在读取⼀个⽂件的内容，或者从⽹络上读取到内容时，保持的对象为str类型；如果想把⼀个str转换成特定编码类型，需要把str转为Unicode,然后从unicode转为特定的编码类型如：utf-8、gb2312等；python中提供的转换函数：unicode转为 gb2312,utf-8等# -*- coding=UTF-8 -*-if __name__ == '__main__':s = u'中国's_gb = s.encode('gb2312')utf-8,GBK转换为unicode 使⽤函数unicode(s,encoding) 或者s.decode(encoding)# -*- coding=UTF-8 -*-if __name__ == '__main__':s = u'中国'#s为unicode先转为utf-8s_utf8 = s.encode('UTF-8')assert(s_utf8.decode('utf-8') == s)普通的str转为unicode# -*- coding=UTF-8 -*-if __name__ == '__main__':s = '中国'su = u'中国''#s为unicode先转为utf-8#因为s为所在的.py(# -*- coding=UTF-8 -*-)编码为utf-8s_unicode = s.decode('UTF-8')assert(s_unicode == su)#s转为gb2312,先转为unicode再转为gb2312s.decode('utf-8').encode('gb2312')#如果直接执⾏s.encode('gb2312')会发⽣什么？s.encode('gb2312')# -*- coding=UTF-8 -*-if __name__ == '__main__':s = '中国'#如果直接执⾏s.encode('gb2312')会发⽣什么？s.encode('gb2312')这⾥会发⽣⼀个异常：Python 会⾃动的先将 s 解码为 unicode ，然后再编码成 gb2312。

python 中文编码解码

在Python中，处理中文编码和解码通常使用`utf-8`编码。

`utf-8`是一种可变长度的Unicode编码，可以表示世界上几乎所有的字符。

以下是一些基本的编码和解码操作：
编码（将字符串转换为字节）：
```python
# 将字符串转换为utf-8 编码的字节
s = '中文'
bytes_s = s.encode('utf-8')
print(bytes_s) # 输出：b'\xe4\xbd\xa0\xe5\xa5\xbd'
```
解码（将字节转换为字符串）：
```python
# 将utf-8 编码的字节转换为字符串
bytes_s = b'\xe4\xbd\xa0\xe5\xa5\xbd'
s = bytes_s.decode('utf-8')
print(s) # 输出：中文
```
如果你需要处理的文本包含多种不同的字符集，可能需要使用更加复杂的编码方案，例如`base64`或者`quopri`等。

注意，Python 3 默认使用`utf-8` 编码，因此在大多数情况下，你不需要显式地指定编码。

但是，如果你需要处理一些特殊的字符集，或者与旧的API交互，那么显式地指定编码可能会很有用。