彻底解决乱码问题(附一):简体中文编码中区位码、国标码、内码、外码、字形码的区别及关系[通俗易懂]

大家好，我是知秋君，一个会写博客吟诗的知秋码农。今天说一说彻底解决乱码问题(附一):简体中文编码中区位码、国标码、内码、外码、字形码的区别及关系[通俗易懂],希望能够帮助大家进步!!!

首先声明这篇博客的创作过程，大部分文本来自“笨笨阿林”的原创文章。我在看完后加入了部分自己的理解，有些地方做了略微调整，比如将有些不易理解的地方重新解释，多余的话删除等；也在最后加入了一个例子来证实了一下在GB2312编码下从区位码到实际在计算机中存储的二进制字节流的转换过程。因此我将这篇文章定为原创，望理解。

下面是正文。

GB2312等GB类汉字编码方案的具体实现方式是怎样的？区位码是什么？国标码是什么？内码、外码、字形码又是什么意思？它们是如何转换的，又为什么要这样转换？

下面以GB2312为例来加以说明(由于GBK、GB18030是以GB2312为基础扩展而来，因此编码实现方式与GB2312一样)。

一、区位码

整个GB2312字符集分成94个区，每区有94个位，每个区位上只有一个字符，即每区含有94个汉字或符号，用所在的区和位来对字符进行编码(实际上就是字符编号、码点编号)，因此称为区位码。
换言之，GB2312将包括汉字在内的所有字符编入一个94 * 94的二维表，行就是“区”、列就是“位”，每个字符由区、位唯一定位，其对应的区、位编号合并就是区位码。比如“中”字
在54区48位，所以“中”字的区位码是：5448（注意，GB类汉字编码为双字节编码，因此，45相当于高位字节，82相当于低位字节）。

（笨笨阿林原创文章，转载请注明出处）

二、国标码(交换码)

虽然GB2312为中文编码，我们也要使用到英文字母等字符，况且当时ASCII已经通用，所以要使GB2312能够兼容ASCII才行。so,为了兼容,GB2312在设计时避开了ASCII字符中的不可显示字符0000 0000 ~ 0001 1111(十六进制为0 ~ 1F，十进制为0 ~ 31)及空格字符0010 0000(十六进制为20，十进制为32)（为什么只避开ASCII中0~32的不可显示字符和空格字符，不避开其他字符呢？后面解释），国标码(又称为交换码)规定表示汉字的范围为(0010 0001，0010 0001) ~(0111 1110，0111 1110)，十六进制为(21，21) ~ (7E，7E)，十进制为(33，33) ~ (126，126)。

因此，必须将“区码”和“位码”分别加上(注意，一定是分别加上，因为区码和位码分别代表一个字节)20H(十六进制数，代表十进制中的32，H为十六进制数的后缀:Hexadecimal)，作为国标码。也就是说，国标码相当于将区位码向后偏移了32，以避免与ASCII字符中0~32的不可显示字符和空格字符相冲突。例如“中”字的区位码为5448，转为国标码的过程为，区码:(54+32)=86,位码:(48+32)=80，所以“中”字的国标码表示为：(86, 80)。十六进制为(56H, 50H)。

三、内码(机内码)

国标码还不能直接在计算机上使用，因为这样还是会和ASCII中的除控制字符外的其他字符冲突(冲突的结果就是导致乱码)。
拿“中”字举个例子，它的国标码中的高位字节为86，这会与ASCII中大写字母'V'冲突，低位字节为80，与'P'冲突。因此为避免这种情况，规定国标码中的每个字节的最高位都从0换成1，即相当于每个字节都再加上128(十六进制为80，即80H；二进制为1000 0000)，从而得到国标码的“机内码”表示，简称“内码”。由于ASCII码只用了一个字节中的低7位，利用这个特性，这个首位(最高位)上的“1”就可以作为识别汉字编码的标志，计算机在处理到首位是“1”的编码时就把它理解为汉字，在处理到首位是“0”的编码时就把它理解为ASCII字符。
“中”字从国标码转换为内码的过程为，高位字节:(86+128)=214,低位字节:(80+128)=208，所以“中”字的内码十进制表示为：(214,208)，十六进制表示为：(D6, D0)。
此时已经不再与ASCII冲突，完全兼容ASCII。因此，内码才是字符用GB2312编码后的在计算机中存储的形式。

总结一下：

从区位码(国家标准定义) ---> 区码和位码分别+32(即+20H)得到国标码 ---> 再分别+128(即+80H)得到机内码(与ACSII码不再冲突)。

四、为什么要加上20H和80H？

首先谈谈为什么要加上20H：
当时在制定GB2312时，决定对ASCII中的可打印字符，也就是英文字母、数字和符号部分(33~126，127为不可打印的DEL)重新编入GB2312中，以两个字节表示，称之为全角字符 (全角字符在屏幕上的显示宽度为ASCII字符的两倍，后来也因此而将对应的ASCII字符称之为半角字符)。而对于ASCII中前32个不可显示也不可打印的控制字符(ASCII码为0~31)，以及第33个可显示但不可打印的空格字符(ASCII码为32)等共33个不可打印字符的编码则直接沿用，不再重新编码。因为要保留这33个不可打印字符，就不能直接采用区位码作为计算机直接处理的机内码，需要将区位码向后偏移32以避开冲突(为什么是偏移32，而不是偏移33？因为区位码中的区码和位码都是从1开始计数的，不像ASCII码是从0开始计数的)。
（笨笨阿林原创文章，转载请注明出处）

再谈谈为什么要加上80H：
很显然，如果直接采用国标码作为计算机直接处理的机内码的话，还将会产生另一个弊端，即用ASCII码编码的英文字符在GB2312编码环境中无法打开，一打开就会乱码。
因为国标码虽然相较于区位码避开了ASCII码中0~32的前33个不可打印字符，但并没有避开ASCII码中的英文字母、数字和符号(33~126，共94个字符，127为不可打印的DEL)等可打印字符。也就是说，国标码并不是完全兼容ASCII码的。
为了解决这个弊端，考虑到ASCII码只使用了一个字节中的低7位，最高位(即首位)为0，于是决定将国标码每个字节的最高位设为1(国标码的两个字节中的最高位都恒为0，即国标码中的每个字节实际上也只用了一个字节中的低7位)，这就是GB2312的机内码(即内码)，简称GB2312码。这样一来就彻底区分开了ASCII码和GB2312码。这也是为什么国标码还要加上(80H，80H)才能得到机内码。

（笨笨阿林原创文章，转载请注明出处）

五、外码(输入码、输入法编码)

1.外码也叫输入码、输入法编码，是用来将汉字输入到计算机中的一组键盘符号，是作为汉字输入用的编码。
英文字母只有26个，可以把所有的字符都放到键盘上，而使用这种办法把所有的汉字都放到键盘上，是不可能的。所以汉字系统需要有自己的输入码体系，使汉字与键盘能建立对应关系。

2.目前常用的外码分为以下几类：
1）数字编码，比如区位码；
2）拼音编码，比如全拼、双拼、自然码等；

3）字形编码，比如五笔、表形码、郑码等。

六、字形码(字型码、字模码、输出码)

1.字形码，又称为字型码、字模码、输出码，属于点阵代码的一种。

为了将汉字在显示器或打印机上输出，把汉字按图形符号设计成点阵图，就得到了相应的点阵代码(字形码)。也就是用0、1表示汉字的字形，将汉字放入n行*n列的正方形(点阵)内，该正方形共有n^2个小方格，每个小方格用一位二进制表示，凡是笔划经过的方格值为1，未经过的值为0。

2.显示一个汉字一般采用16×16点阵或24×24点阵或48×48点阵。已知汉字点阵的大小，可以计算出存储一个汉字所需占用的字节空间。
比如，用16×16点阵表示一个汉字，就是将每个汉字用16行，每行16个点表示，一个点需要1位二进制代码，16个点需用16位二进制代码(即2个字节)，共16行，所以需要16行×2字节/行=32字节，即16×16点阵表示一个汉字，字形码需用32字节。

因此，字节数=点阵行数×(点阵列数/8)。

3.为了将汉字的字形显示输出或打印输出，汉字信息处理系统还需要配有汉字字形库，也称字模库，简称字库，它集中了汉字的字形信息。
字库按输出方式可分为显示字库和打印字库。用于显示输出的字库叫显示字库，工作时需调入内存。用于打印输出的字库叫打印字库，工作时无需调入内存。
字库按存储方式也可分为软字库和硬字库。软字库以文件的形式存放在硬盘上，现多用这种方式。硬字库则将字库固化在一个单独的存储芯片中，再和其它必要的器件组成接口卡，插接在计算机上，通常称为汉卡。这种方式现已淘汰。

七、小结