字符编码详解

合集下载

字符编码介绍

字符编码介绍字符编码是一种将字符集中的字符映射到数字代码的方法。

它是为了在计算机中存储和传输文本而设计的。

计算机内部只能处理数字，因此需要一种方式将字符映射到数字。

以下是一些常见的字符编码：1. ASCII（American Standard Code for Information Interchange）：- ASCII 是最早的字符编码，定义了128个字符，包括英文字母、数字、标点符号和一些控制字符。

- ASCII 使用7位二进制数（0-127）来表示字符。

2. ISO-8859：- ISO-8859 是ASCII 的扩展，定义了不同的字符集，支持多种语言。

-不同版本的ISO-8859 针对不同语言和地区，例如ISO-8859-1 用于西欧语言，ISO-8859-5 用于西里尔文。

3. Unicode：- Unicode 是一个更为全面的字符编码标准，旨在涵盖世界上所有的字符。

- Unicode 为每个字符分配了一个唯一的数字码点，可以使用不同的编码方案来表示这些码点，其中最常见的是UTF-8、UTF-16 和UTF-32。

- UTF-8 使用可变长度的编码，每个字符的长度从1到4个字节不等；UTF-16 使用16位或32位编码，取决于具体实现；UTF-32 使用32位固定长度的编码。

4. UTF-8（Unicode Transformation Format-8）：- UTF-8 是一种可变长度的Unicode 编码，它使用1到4个字节来表示字符。

- ASCII 字符在UTF-8 中仍然只使用一个字节，这使得UTF-8 向后兼容ASCII。

5. UTF-16：- UTF-16 是Unicode 的另一种编码方式，它使用16位或32位来表示字符。

-多数字符使用16位表示，辅助平面（Supplementary Planes）的字符使用32位表示。

6. UTF-32：- UTF-32 是Unicode 的一种编码，每个字符使用32位来表示，固定长度。

常用字符集编码详解：ASCII 、GB2312、GBK、GB18030、...

ASCIIASCII码是7位编码，编码范围是0x00-0x7F。

ASCII字符集包括英文字母、阿拉伯数字和标点符号等字符。

其中0x00-0x20和0x7F共33个控制字符。

只支持ASCII码的系统会忽略每个字节的最高位，只认为低7位是有效位。

HZ字符编码就是早期为了在只支持7位ASCII系统中传输中文而设计的编码。

早期很多邮件系统也只支持ASCII编码，为了传输中文邮件必须使用BASE64或者其他编码方式。

GB2312GB2312是基于区位码设计的，区位码把编码表分为94个区，每个区对应94个位，每个字符的区号和位号组合起来就是该汉字的区位码。

区位码一般用10进制数来表示，如1601就表示16区1位，对应的字符是“啊”。

在区位码的区号和位号上分别加上0xA0就得到了GB2312编码。

区位码中01-09区是符号、数字区，16-87区是汉字区，10-15和88-94是未定义的空白区。

它将收录的汉字分成两级：第一级是常用汉字计3755个，置于16-55区，按汉语拼音字母/笔形顺序排列；第二级汉字是次常用汉字计3008个，置于56-87区，按部首/笔画顺序排列。

一级汉字是按照拼音排序的，这个就可以得到某个拼音在一级汉字区位中的范围，很多根据汉字可以得到拼音的程序就是根据这个原理编写的。

GB2312字符集中除常用简体汉字字符外还包括希腊字母、日文平假名及片假名字母、俄语西里尔字母等字符，未收录繁体中文汉字和一些生僻字。

可以用繁体汉字测试某些系统是不是只支持GB2312编码。

GB2312的编码范围是0xA1A1-0x7E7E，去掉未定义的区域之后可以理解为实际编码范围是0xA1A1-0xF7FE。

EUC-CN可以理解为GB2312的别名，和GB2312完全相同。

区位码更应该认为是字符集的定义，定义了所收录的字符和字符位置，而GB2312及EUC-CN是实际计算机环境中支持这种字符集的编码。

HZ和ISO- 2022-CN是对应区位码字符集的另外两种编码，都是用7位编码空间来支持汉字。

字符的编码方法

字符的编码方法
字符的编码方法是指将字符映射成二进制数字的过程。

在计算机中，每个字符都对应着一个数字，这个数字就是字符的编码。

为了能够在不同的计算机之间传输和存储字符，需要确定一种标准的编码方式。

在计算机中，常见的字符编码方式有ASCII码、Unicode和UTF-8。

ASCII码是最早的字符编码方式，在ASCII码中，每个字符都占用一个字节，即8个比特位。

由于ASCII码只能表示128个字符，所以后来发展出了Unicode编码。

Unicode编码可以表示几乎所有的字符，包括世界上所有的语言文字，但是它的缺点是编码过于复杂，需要占用更多的存储空间。

为了解决这个问题，人们发展出了UTF-8编码方式。

UTF-8编码方式是一种变长编码方式，它可以根据不同的字符长度进行编码，可以表示世界上所有的字符，并且在存储空间上比Unicode更加节省。

UTF-8编码方式被广泛应用于各种操作系统和应用程序中。

在日常生活和计算机领域中，字符编码方式是一个非常重要的概念，它关系到计算机系统的数据传输和存储，以及各种通信协议和标准的制定。

因此，熟悉字符编码方式的基本原理和应用非常有必要。

- 1 -。

字符编码的介绍和特点

字符编码的介绍和特点
字符编码是一种将字符映射为二进制数字的方式，使得计算机能够识别和处理
文本数据。

在计算机系统中，每个字符都被赋予一个唯一的编码，以便在存储和传输中进行表示。

字符编码的主要特点如下：
1. 映射关系：字符编码通过建立字符与二进制数字之间的映射关系，将每个字
符都对应一个唯一的编码。

不同的字符编码方案采用不同的映射规则，例如ASCII 码、Unicode和UTF-8等。

2. 多样性：由于不同语言和字符集的存在，字符编码需要能够支持多种字符集，包括拉丁字母、汉字、特殊符号等。

Unicode就是一种支持全球多种字符集的编码
标准。

3. 兼容性：字符编码需要考虑与现有系统的兼容性，使得旧的字符编码方案能
够与新的编码方案共存。

例如，UTF-8就是一种兼容ASCII码的字符编码方式，可以在ASCII码范围内使用相同的编码。

4. 空间效率：字符编码需要保证在存储和传输时尽可能的节省空间。

一些编码
方案，如UTF-8，采用变长编码方式，根据字符的不同而改变编码字节的长度，从而实现更高的空间效率。

5. 可扩展性：随着新的字符集和字符需求的出现，字符编码需要具备可扩展性，即能够灵活地添加新的字符编码规则和映射关系，以应对新的需求。

总而言之，字符编码在计算机中起到了至关重要的作用，使得计算机能够对文
字进行处理和展示。

通过合适的字符编码方案，可以实现多语言文本的互通和兼容，从而促进了全球信息的交流与共享。

几种常见字符编码详解

编程综合blog.minidx./2021/10/22/1570.htmlblog.minidx./2021/11/06/1607.htmlblog.minidx./2021/12/06/1689.htmlblog.minidx./2021/12/09/1700.html摘录1：GBK范围：1st byte | 2nd byte0×81~0xfe | 0×40~0×7e and 0×80~0xfeBIG5范围：1st byte | 2nd byte0×81~0xfe | 0×40~0×7e and 0xa1~0xfe下面是来自libiconv的关于GBK〔cp936〕和BIG5〔cp950〕的两段代码，相信还是相当有用的。

摘录2：一预备知识1，字符：字符是抽象的最小文本单位。

它没有固定的形状〔可能是一个字形〕，而且没有值。

“A〞是一个字符，“€〞〔德国、法国和许多其他欧洲国家通用货币的标志〕也是一个字符。

“中〞“国〞这是两个汉字字符。

字符仅仅代表一个符号，没有任何实际值的意义。

2，字符集：字符集是字符的集合。

例如，汉字字符是中国人最先创造的字符，在中文、日文、韩文和越南文的书写中使用。

这也说明了字符和字符集之间的关系，字符组成字符集〔iso8859-1，GB2312/GBK，unicode〕。

3，代码点：字符集中的每个字符都被分配到一个“代码点〞。

每个代码点都有一个特定的唯一数值，称为标值。

该标量值通常用十六进制表示。

4，代码单元：在每种编码形式中，代码点被映射到一个或多个代码单元。

“代码单元〞是各个编码方式中的单个单元。

代码单元的大小等效于特定编码方式的位数：UTF-8 ：UTF-8 中的代码单元由 8 位组成；在 UTF-8 中，因为代码单元较小的缘故，每个代码点常常被映射到多个代码单元。

代码点将被映射到一个、两个、三个或四个代码单元；UTF-16 ：UTF-16 中的代码单元由 16 位组成；UTF-16 的代码单元大小是 8 位代码单元的两倍。

常用字符集编码详解：ASCII、GB2312、GBK、GB18030、...

ASCIIASCII 码是7位编码，编码范围是0x00-0x7F ASCII 字符集包括英文字母、阿拉伯数字和标点符号等字符。

其中 0x00-0x20和0x7F 共33个控制字符。

只支持ASCI 码的系统会忽略每个字节的最高位，只认为低 7位是有效位。

HZ 字符编码就是早期为了在只支持 7位ASCII 系统中传输中文而设计的编码。

早期很多邮件系统也只支持ASCII 编码，为了传输中文邮件必须使用 BASE64或者其他编码方式。

GB2312GB2312是基于区位码设计的，区位码把编码表分为 94个位，每个字符的区号和位号组合起来就是该汉字的区位码。

10进制数来表示，如 1601就表示 16区1 位，对应的字符是区号和位号上分别加上0xA0就得到了 GB2312编码。

区位码中 01-09区是符号、数字区， 16-87区是汉字区，未定义的空白区。

它将收录的汉字分成两级：第一级是常用汉字计 3755 个，置于 16-55 区，按汉语拼音字母 /笔形顺序排列；第二级汉字是次常用汉字计 3008 个，置于 56-87 区，按部首 /笔画顺序排列。

一级汉字是按照拼音排序的，这个就可以得到某个拼音在一级汉字区位中的范围，很多根据汉字可以得到拼音的程序就是根据这个原理编写的。

GB2312字符集中除常用简体汉字字符外还包括希腊字母、日文平假名及片假名字母、俄语西里尔字母等字符，未收录繁体中文汉字和一些生僻字。

可以用繁体汉字测试某些系统是不是只支持 GB2312编码。

GB2312的编码范围是0xA1-0x7E 去掉未定义的区域之后可以理解为实际编码范围是 0xA1-0xF7FE 。

EUC-CN 可以理解为GB2312的别名，和GB2312完全相同。

区位码更应该认为是字符集的定义，定义了所收录的字符和字符位置，而 94个区，每个区对应区位码一般用 “啊”。

在区位码的10-15和 88-94是GB2312及EUC-CN是实际计算机环境中支持这种字符集的编码。

字符和汉字编码

字符和汉字编码一、字符集编码字符集编码是指将字符集中的字符转换为计算机可识别的二进制编码。

常见的字符集编码包括ASCII编码、GB2312编码、GBK编码、UTF-8编码等。

1. ASCII编码：ASCII编码是最常用的字符集编码，它包含了128个字符，每个字符用一个字节的二进制数表示。

2. GB2312编码：GB2312编码是中国大陆使用的字符集编码，它包含了6763个汉字和一些其他的字符。

3. GBK编码：GBK编码是中国大陆使用的扩展字符集编码，它包含了20902个汉字和一些其他的字符。

4. UTF-8编码：UTF-8编码是一种可变长度的字符集编码，它包含了几乎所有的语言字符，包括汉字。

二、汉字编码汉字编码是指将汉字转换为计算机可识别的二进制编码。

常见的汉字编码包括GB2312编码、GBK编码、UTF-8编码等。

1. GB2312编码：GB2312编码是中国大陆使用的汉字编码，它包含了6763个汉字。

2. GBK编码：GBK编码是中国大陆使用的扩展汉字编码，它包含了20902个汉字。

3. UTF-8编码：UTF-8编码是一种可变长度的汉字编码，它包含了几乎所有的语言字符，包括汉字。

三、字符和汉字的输入方法字符和汉字的输入方法包括键盘输入、手写输入、语音输入等。

1. 键盘输入：通过键盘输入字符和汉字，是最常用的输入方法。

2. 手写输入：通过手写输入汉字，通常需要使用专门的识别软件。

3. 语音输入：通过语音输入汉字，通常需要使用语音识别软件。

四、字体和字形的表示字体和字形的表示包括矢量字体和点阵字体。

矢量字体是一种数学描述的字体，可以无损放大；点阵字体是一种像素点的集合，放大后会出现失真。

五、编码标准编码标准是指制定字符集编码和汉字编码的规范和标准。

中国制定了《信息交换用汉字编码字符集》等标准，国际上制定了ISO/IEC 10646等标准。

六、字符和汉字的输出方法字符和汉字的输出方法包括屏幕输出、打印机输出、文件输出等。

中文编码解析

中文编码解析中文编码解析是指将中文字符转换为计算机可识别的数字编码的过程。

常见的中文编码方式包括UTF-8、GBK、GB2312和BIG5等。

1. UTF-8（Unicode Transformation Format-8 bits）：UTF-8是一种可变长度的字符编码方式，可以表示任何Unicode标准中的字符。

UTF-8编码的字符以1到4个字节表示，最多可以表示21位的数字。

UTF-8编码是目前互联网上最常见的编码方式之一，因为它可以兼容ASCII 编码，并且支持全球范围内的语言文字。

2. GBK（GuóBǐng Kǎo）：GBK是一种双字节字符编码方式，用于简体中文。

它兼容GB2312编码，但支持更多的字符集。

GBK编码的字符以1到2个字节表示，最多可以表示16位的数字。

3. GB2312（GuóBǐng 2312）：GB2312是一种单字节字符编码方式，用于简体中文。

它支持6000多个常用汉字和一些标点符号、数字和字母。

GB2312编码的字符以1个字节表示，最多可以表示94位的数字。

4. BIG5（Bǐng Wén GuóTōng）：BIG5是一种双字节字符编码方式，用于繁体中文。

它兼容GB2312编码，但支持更多的字符集。

BIG5编码的字符以1到2个字节表示，最多可以表示16位的数字。

在进行中文编码解析时，需要先将中文字符转换为相应的编码方式，然后再进行传输或存储。

在接收或读取时，需要将编码方式还原为中文字符，以便正确显示或处理。

常见的中文编码解析工具包括iconv、libiconv等。

中文编码解析是指将中文字符转换为计算机可识别的数字编码的过程。

常见的中文编码方式包括UTF-8、GBK、GB2312和BIG5等。

1. UTF-8（Unicode Transformation Format-8 bits）：UTF-8是一种可变长度的字符编码方式，可以表示任何Unicode标准中的字符。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

字符编码详解每一个程序员都不可避免的遇到字符编码的问题，特别是做Web开发的程序员，“乱码问题”一直是让人头疼的问题，也许您已经很少遇到“乱码”问题，然而，对解决乱码的方法的内在原理，您是否明白？本人作为一个程序员，在字符编码方面同样遇到不少问题，而且一直对各种编码懵懵懂懂、不清不楚；在工作中也曾经遇到一个很烦人的编码问题。

这两天在网上收集了大量编码方面的资料，对字符编码算是理解的比较清楚了。

下面把我认为比较重要的知识点记录下来，一方面方便以后复习；另一方面也希望给跟我一样懵懵懂懂的人一个参考。

不对或不妥之处，请批评指正。

在此之前，先了解一些有用概念：“字符集”、“字符编码”和“内码”。

1、字符集与字符编码字符是各种文字和符号的总称，包括各个国家文字、标点符号、图形符号、数字等。

字符集是多个字符的集合，字符集种类较多，每个字符集包含的字符个数不同，常见字符集有：ASCII字符集、ISO 8859字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等。

计算机要准确的处理各种字符集文字，需要进行字符编码，以便计算机能够识别和存储各种文字。

编码(encoding)和字符集不同。

字符集只是字符的集合，不一定适合作网络传送、处理，有时须经编码(encode)后才能应用。

如Unicode可依不同需要以UTF-8、UTF-16、UTF-32等方式编码。

字符编码就是以二进制的数字来对应字符集的字符。

因此，对字符进行编码，是信息交流的技术基础。

使用哪些字符。

也就是说哪些汉字，字母和符号会被收入标准中。

所包含“字符”的集合就叫做“字符集”。

规定每个“字符”分别用一个字节还是多个字节存储，用哪些字节来存储，这个规定就叫做“编码”。

各个国家和地区在制定编码标准的时候，“字符的集合”和“编码”一般都是同时制定的。

因此，平常我们所说的“字符集”，比如：GB2312, GBK, JIS 等，除了有“字符的集合”这层含义外，同时也包含了“编码”的含义。

注意：Unicode字符集有多种编码方式，如UTF-8、UTF-16等；ASCII只有一种；大多数MBCS（包括GB2312）也只有一种。

2、什么是内码？2.1 维基百科的解释在计算机科学及相关领域当中，内码指的是“将资讯编码后，透过某种方式储存在特定记忆装置时，装置内部的编码形式”。

在不同的系统中，会有不同的内码。

在以往的英文系统中，内码为ASCII。

在繁体中文系统中，目前常用的内码为大五码（Big5）。

在简体中文系统中，内码则为国标码（国家标准代码：现在强制要求使用GB18030标准；较旧计算机仍然使用GB2312）。

而统一码（Unicode）则为另一常见内码。

2.2 百度百科的解释内码是指整机系统中使用的二进制字符编码，是沟通输入、输出与系统平台之间的交换码，通过内码可以达到通用和高效率传输文本的目的。

比如MS Word中所存储和调用的就是内码而非图形文字。

英文ASCII字符采用一个字节的内码表示，中文字符如国标字符集中，GB2312、GB12345、GB13000皆用双字节内码，GB18030（27,533汉字）双字节内码汉字为20,902个，其余6,631个汉字用四字节内码。

3、字符编码分类总结下面从计算机对多国语言支持的角度来总结字符编码。

3.1 ASCII编码以下来自“维基百科”：ASCII（American Standard Code for Information Interchange，美国信息互换标准代码）是基于拉丁字母的一套电脑编码系统。

它主要用于显示现代英语，而其扩展版本EASCII则可以勉强显示其他西欧语言。

它是现今最通用的单字节编码系统（但是有被UniCode追上的迹象），并等同于国际标准ISO/IEC 646。

ASCII第一次以规范标准的型态发表是在1967年，最后一次更新则是在1986年，至今为止共定义了128个字符；其中33个字符无法显示（这是以现今操作系统为依归，但在DOS 模式下可显示出一些诸如笑脸、扑克牌花式等8-bit符号），且这33个字符多数都已是陈废的控制字符。

控制字符的用途主要是用来操控已经处理过的文字。

在33个字符之外的是95个可显示的字符，包含用键盘敲下空白键所产生的空白字符也算1个可显示字符（显示为空白）。

ASCII表：见/zh-cn/ASCIIASCII缺点：ASCII的最大缺点是只能显示26个基本拉丁字母、阿拉伯数目字和英式标点符号，因此只能用于显示现代美国英语（而且在处理英语当中的外来词如na?ve、café、élite等等时，所有重音符号都不得不去掉，即使这样做会违反拼写规则）。

而EASCII虽然解决了部份西欧语言的显示问题，但对更多其他语言依然无能为力。

因此现在的苹果电脑已经抛弃ASCII而转用Unicode。

最早的英文DOS操作系统的系统内码是：ASCII。

计算机这时候只支持英语，其他语言不能够在计算机存储和显示。

在该阶段，单字节字符串使用一个字节存放一个字符（SBCS,Single Byte Character System）。

如："Bob123"占6个字节。

3.2 ANSI编码为使计算机支持更多语言，通常使用0x800~xFF范围的2个字节来表示1个字符。

比如：汉字'中' 在中文操作系统中，使用[0xD6,0xD0]这两个字节存储。

不同的国家和地区制定了不同的标准，由此产生了GB2312,BIG5,JIS等各自的编码标准。

这些使用2个字节来代表一个字符的各种汉字延伸编码方式，称为ANSI 编码。

在简体中文系统下，ANSI 编码代表GB2312 编码，在日文操作系统下，ANSI 编码代表JIS 编码。

不同ANSI 编码之间互不兼容，当信息在国际间交流时，无法将属于两种语言的文字，存储在同一段ANSI 编码的文本中。

中文DOS、中文/日文Windows 95/98时代系统内码使用的是ANSI编码（本地化）在使用ANSI编码支持多语言阶段，每个字符使用一个字节或多个字节来表示（MBCS，Multi-Byte Character System），因此，这种方式存放的字符也被称作多字节字符。

比如，"中文123" 在中文Windows 95 内存中为7个字节，每个汉字占2个字节，每个英文和数字字符占1个字节。

在非Unicode 环境下，由于不同国家和地区采用的字符集不一致，很可能出现无法正常显示所有字符的情况。

微软公司使用了代码页（Codepage）转换表的技术来过渡性的部分解决这一问题，即通过指定的转换表将非Unicode 的字符编码转换为同一字符对应的系统内部使用的Unicode 编码。

可以在“语言与区域设置”中选择一个代码页作为非Unicode 编码所采用的默认编码方式，如936为简体中文GBK，950为正体中文Big5（皆指PC上使用的）。

在这种情况下，一些非英语的欧洲语言编写的软件和文档很可能出现乱码。

而将代码页设置为相应语言中文处理又会出现问题，这一情况无法避免。

从根本上说，完全采用统一编码才是解决之道，但目前尚无法做到这一点。

代码页技术现在广泛为各种平台所采用。

UTF-7 的代码页是65000，UTF-8 的代码页是65001。

3.3 Unicode编码为了使国际间信息交流更加方便，国际组织制定了UNICODE 字符集，为各种语言中的每一个字符设定了统一并且唯一的数字编号，以满足跨语言、跨平台进行文本转换、处理的要求。

Unicode字符集可以简写为UCS（Unicode Character Set）。

早期的unicodeUnicode标准有UCS-2、UCS-4的说法。

UCS-2用两个字节编码，UCS-4用4个字节编码。

在UNICODE 被采用之后，计算机存放字符串时，改为存放每个字符在UNICODE 字符集中的序号。

目前计算机一般使用 2 个字节（16 位）来存放一个序号（DBCS,Double Byte Character System），因此，这种方式存放的字符也被称作宽字节字符。

比如，字符串"中文123" 在Windows 2000 下，内存中实际存放的是 5 个序号，一共10个字节。

Unicode字符集包含了各种语言中使用到的所有“字符”。

用来给UNICODE 字符集编码的标准有很多种，比如：UTF-8, UTF-7, UTF-16, UnicodeLittle, UnicodeBig 等。

4、常用编码规则4.1 单字节字符编码（1）编码标准：ISO-8859-1。

（2）说明：最简单的编码规则，每一个字节直接作为一个UNICODE 字符。

比如，[0xD6, 0xD0] 这两个字节，通过iso-8859-1 转化为字符串时，将直接得到[0x00D6, 0x00D0] 两个UNICODE 字符，即"?D"。

反之，将UNICODE 字符串通过iso-8859-1 转化为字节串时，只能正常转化0~255 范围的字符。

4.2 ANSI编码（1）GB2312, BIG5, Shift_JIS, ISO-8859-2。

（2）把UNICODE 字符串通过ANSI 编码转化为“字节串”时，根据各自编码的规定，一个UNICODE 字符可能转化成一个字节或多个字节。

反之，将字节串转化成字符串时，也可能多个字节转化成一个字符。

比如，[0xD6, 0xD0] 这两个字节，通过GB2312 转化为字符串时，将得到[0x4E2D] 一个字符，即'中' 字。

“ANSI 编码”的特点：（1）这些“ANSI 编码标准”都只能处理各自语言范围之内的UNICODE 字符。

（2）“UNICODE 字符”与“转换出来的字节”之间的关系是人为规定的。

4.3 UNICODE编码（1）编码标准：UTF-8, UTF-16, UnicodeBig。

（2）与“ANSI 编码”类似的，把字符串通过UNICODE 编码转化成“字节串”时，一个UNICODE 字符可能转化成一个字节或多个字节。

与“ANSI 编码”不同的是：（1）这些“UNICODE 编码”能够处理所有的UNICODE 字符。

（2）“UNICODE 字符”与“转换出来的字节”之间是可以通过计算得到的。

我们实际上没有必要去深究每一种编码具体把某一个字符编码成了哪几个字节，我们只需要知道“编码”的概念就是把“字符”转化成“字节”就可以了。

对于“UNICODE 编码”，由于它们是可以通过计算得到的，因此，在特殊的场合，我们可以去了解某一种“UNICODE 编码”是怎样的规则。