编码的秘密（python版）

编码（Python版）

最近在学习Python的过程中，被不同的编码搞得有点晕，于是看了前人的留下的文档，加上自己的理解，准备写下来，分享给正在为编码苦苦了挣扎的你。

编码的概念

编码就是将信息从一种格式转换成另一种格式，计算机只认识二进制，简单的理解，将我们眼睛看到的文字转换为计算机能够识别的二进制格式视为编码，而二进制以某种编码格式转换为我们能看的文字的过程可以看成是解码。既然计算机只能认识二进制0,1，那么我们用的字母、数字和文字等是怎样和他们对应的呢？那就请继续看吧！

Python中查看默认的编码规范是：

ASCⅡ码

我们都知道计算机是米国发明的，起初的时候也只有米国那些国家使用，而他们的语言仅仅只有26个字母组成，再加上一些符号，所以在一开始的时候，用的编码规则就是ASCⅡ码。ASCⅡ，中文名叫美国信息交换标准代码，因为名叫American Standard Code for Information Interchange，下面我们来看看ASCⅡ表：

ASCⅡ码用一个字节，也就是8位二进制组来标识一个字符，比如00100001就代表字符！，第一版的ASCⅡ没有用到最高的一个bit，所以取值范围为0-127，只能表示128字符。为了满足西欧等国家的字符要求，于是用上了最高位的bit，能表示的字符也从128增加到了256个。

在Python中使用函数ord()，可以字符转换为对应数值，使用函数chr可以将数值转换为对应字符：

GB2312和GBK

当计算机漂洋过海来到了中国，ASCⅡ已经不能满足我大天朝的需求了，常用的汉字大致都有2k-3k。所以中国国家标准总局在1980发布了《信息交换用汉字编码字符集》，也就是GB2313标准。GB2312一共收录了7445个字符（6763个汉字和682个其他符号），包括拉丁字母、希腊字母和日文平假名等，基本上满足了国人的需求。

在GB2312中每个汉字使用两个字节来表示，分为高字节和低字节，汉字区高字节从B0-F7，低字节从A1-FE，占用的码位是72*94=6768，其中有5个空位是D7FA-D7FE，规定第一个字节大于127的就代表这是一个汉字的开始（这一个字节和下一个字节就代表一个汉字），每个字节的最高位都位1。

但是对于人名、古汉语等方面出现的罕用字，GB2312不能处理，后来就出现了GBK。GBK向下兼容GB2312，其编码范围从8140到FEFE（不包括xx7F），共23940个码位，共收录了21003个汉字，这还是很厉害的了。现在我们使用的计算机默认的就是GBK编码。

Unicode和UTF-8

我们国家搞出了GBK，其他的国家也搞出了各种各样的编码，比如小日本的SJIJ，宝岛台湾的BIG5，国际组织一看，这不行啊，每个地方都各自搞各自的，那么在不同的国家之间就会出现不兼容，我用GBK编码格式写的软件，弄到你编码格式为SJIJ的计算机就不能执行了。所以就出现了Unicode，也称万国码。unicode是用2个字节来表示一个字符的，65536类个字符，这足以覆盖世界上所有的文字。

这样虽好，但是美国人民就不开心了，我一个字母，比如’a’就需要占用一个字节，现在需要占用两个字节，这样就大大的浪费了内存和硬盘的空间，所有后来就出现了UTF-32，UTF-16和UTF-8,前两个这里就不在敖述了，现在并不常用，我们这看看这个UTF-8，UTF-8是一种可变长的编码格式，存储英文字母只需要一个字节，存储汉字需要3个字节，但超大字符集中的更大多数汉字要占4个字节。我们在内存里面的数据是unicode，在传输数据和保存数据的时候适用UTF-8已节省空间和带宽。