字符与字符编码

合集下载

常用的中文字符编码

常用的中文字符编码
常用的中文字符编码有以下几种：
1. GB2312：是中国国家标准简体中文字符集，共收录了6763个汉字。

GB2312是最早的汉字字符集，主要用于简体中文的编码。

2. GBK：是GB2312的扩展字符集，共收录了21886个汉字。

GBK 支持繁体中文字符和少数民族文字。

GBK是目前最常用的中文字符编码。

3. GB18030：是GB2312和GBK的升级版字符集，共收录了27533个汉字。

GB18030支持所有中国少数民族文字，并且还包含了Unicode
3.0的全部字符。

4. UTF-8：是一种以Unicode为基础的字符编码，采用可变长度的编码方式，支持全球范围内几乎所有的字符。

UTF-8是互联网上最常用的字符编码，也是目前推荐使用的中文字符编码。

除了上述字符编码，还有一些其他的字符编码，如Big5（主要用于繁体中文）、ISO-8859-1（用于西欧字符集）等，但在日常使用中较少见。

字符编码和字符集到底有什么区别？Unicode和UTF-8是什么关系？

字符编码和字符集到底有什么区别？Unicode和UTF-8是什么关系？前⾔想必⼤家编写代码时肯定和我⼀样，也遇到过汉字乱码的问题。

特别是，有时候和上下游对接接⼝，不能统⼀编码格式的话，⼀堆乱码问题，让⼈头⽪发⿇。

那么为什么会有这么多的乱码问题？什么是字符编码？什么是字符集？他们之间有什么区别和联系？什么是 Unicode ？ Unicode 和我们常说的 UTF-8 ⼜有什么关系？字符编码和解码要想搞清楚上⾯的问题，⾸先我们要知道，在计算机中，不管是⼀段⽂字、⼀张图⽚还是⼀段视频，最终都是以⼆进制的⽅式来存储。

也就是最终都会转化为0001 1011 0010 0110这样的格式。

换句话说，计算机只认识 0 和 1 这样的数字，并不能直接存储字符。

所以我们需要告诉它什么样的字符对应的是什么数字。

例如，我们的业务中有记录客户端的客户⾏为⽇志，然后导出⽂件来分析，字段间会以ESC来分隔。

我在编写代码的时候，就需要定义⼀下这个ESC字符应该对应什么数字，这样计算机才能识别并存储。

⽐如我把它定为0001 1011，这样计算机就把ESC这个字符存了下来。

等我下次需要查看的时候，根据对应关系把它解出来就可以了。

上边的两个过程就对应字符的编码和解码过程。

字符编码就是把字符按⼀定的规则，转换成数字。

字符解码是编码的逆过程，即把数字按规则转换成字符。

这样看来，貌似没有什么问题。

但是，这是我⾃⼰定义的编码规则，我同桌阿霄就不乐意了。

他⾮要认为ESC应该定义为1101 1000，好家伙正好和我定义的⼆进制数字顺序相反。

那结果肯定不⽤说了，我把0001 1011这串数字给他之后，按照他的编码规则来解，肯定是&$#!这样的东西。

所以，乱码问题说到底，就是编码和解码的规则对应不上导致的。

ASCII 码为了避免我和阿霄因为编码问题打起来，美国国家标准学会（AMERICAN NATIONAL STANDARDS INSTITUTE） ANSI 组织发话了。

字符和汉字编码

字符和汉字编码一、字符集编码字符集编码是指将字符集中的字符转换为计算机可识别的二进制编码。

常见的字符集编码包括ASCII编码、GB2312编码、GBK编码、UTF-8编码等。

1. ASCII编码：ASCII编码是最常用的字符集编码，它包含了128个字符，每个字符用一个字节的二进制数表示。

2. GB2312编码：GB2312编码是中国大陆使用的字符集编码，它包含了6763个汉字和一些其他的字符。

3. GBK编码：GBK编码是中国大陆使用的扩展字符集编码，它包含了20902个汉字和一些其他的字符。

4. UTF-8编码：UTF-8编码是一种可变长度的字符集编码，它包含了几乎所有的语言字符，包括汉字。

二、汉字编码汉字编码是指将汉字转换为计算机可识别的二进制编码。

常见的汉字编码包括GB2312编码、GBK编码、UTF-8编码等。

1. GB2312编码：GB2312编码是中国大陆使用的汉字编码，它包含了6763个汉字。

2. GBK编码：GBK编码是中国大陆使用的扩展汉字编码，它包含了20902个汉字。

3. UTF-8编码：UTF-8编码是一种可变长度的汉字编码，它包含了几乎所有的语言字符，包括汉字。

三、字符和汉字的输入方法字符和汉字的输入方法包括键盘输入、手写输入、语音输入等。

1. 键盘输入：通过键盘输入字符和汉字，是最常用的输入方法。

2. 手写输入：通过手写输入汉字，通常需要使用专门的识别软件。

3. 语音输入：通过语音输入汉字，通常需要使用语音识别软件。

四、字体和字形的表示字体和字形的表示包括矢量字体和点阵字体。

矢量字体是一种数学描述的字体，可以无损放大；点阵字体是一种像素点的集合，放大后会出现失真。

五、编码标准编码标准是指制定字符集编码和汉字编码的规范和标准。

中国制定了《信息交换用汉字编码字符集》等标准，国际上制定了ISO/IEC 10646等标准。

六、字符和汉字的输出方法字符和汉字的输出方法包括屏幕输出、打印机输出、文件输出等。

C语言中的字符串与字符集详解

C语⾔中的字符串与字符集详解字符集理论及应⽤详解⼀、字符集和字符编码1、定义字符集（Character Set/Charset）是⼀个系统⽀持的所有抽象字符的集合。

字符是各种⽂字和符号的总称，包括各国家⽂字、标点符号、图形符号、数字等。

简单来说，字符集就是⼀个表。

这个表有两列，⼀列是各种字符，另⼀列是每个字符锁对应的编号。

注意，字符集只是⼀个规则，或者说是标准。

它只定义每个字符对应的编对应关系，⽽不存储每个字符的图像。

存储字符图像的是字体⽂件。

可以这样理解：字码，建⽴字符和数字的对应关系体⽂件中存了很多张图⽚，每⼀张图⽚都是⼀个字符的样⼦，同时每个图⽚都有⾃⼰的名字（可能不⽌⼀个），这个名字就是图⽚中的字符在字符集中的编码。

图⽚可以看作是字体⽂件中的⼀个字符，名字可以看作是其对应的编码（这⾥是Unicode字符集指定的编码）字符编码（Character Encoding）是⼀套法则，使⽤该法则能够对⾃然语⾔的字符的⼀个集合（如字母表或⾳节表），与其他东西的⼀个集合（如号码或电脉冲）进⾏配对。

即在符号集合与数字系统之间建⽴对应关系，它是信息处理的⼀项基本技术。

通常⼈们⽤符号集合（⼀般情况下就是⽂字）来表达信息。

⽽以计算机为基础的信息处理系统则是利⽤元件（硬件）不同状态的组合来存储和处理信息的。

元件不同状态的组合能代表数字系统的数字，因此字符编码就是将符号转换为计算机可以接受的数字系统的数，称为数字代码。

简单来说，字符编码就是表⽰字符的⽅法。

例如，如何将字符集中字符⾃⼰的编号存在计算机中。

2、常见字符集常见字符集有两⼤类，分别是ANSI和Unicode。

其中ANSI⼜包含了很多具体的字符集，例如GB2312，BIG5，Shift-JIS等。

ANSI字符集：ANSI编码包含了⼀系列字符集，所以准确来讲，它并不能被叫做⼀个字符集。

但是由于技术原因（下⾯会讲），这⼀系列字符集同时只能使⽤⼀个，所以把整个ANSI编码称作ANSI字符集来讨论也没有什么⼤问题。

256 257 258字符编码

256 257 258字符编码一、什么是字符编码字符编码是计算机技术中的一个重要概念，它指的是将字符转换为计算机能够识别和处理的数据形式的过程。

计算机内部只能识别和处理数字，而字符编码就是将字符映射为对应的数字或者二进制形式，以便计算机能够正确地处理和显示文本信息。

二、常见的字符编码方案在计算机领域，常见的字符编码方案有ASCII、Unicode和UTF-8等。

这些字符编码方案分别具有不同的特点和适用范围。

1. ASCII编码ASCII编码是最早的字符编码方案，它规定了128个字符的编码，包括英文字母、数字和一些特殊字符。

由于ASCII编码只能表示128个字符，无法满足其他语种的需要，因此逐渐被Unicode和UTF-8所取代。

2. Unicode编码Unicode编码是一种全球通用的字符编码方案，它包含了世界上几乎所有的文字字符，可以表示多种语言的文字。

Unicode编码使用16位或32位来表示字符，能够满足不同语种的需求，是目前最为广泛应用的字符编码方案之一。

3. UTF-8编码UTF-8是一种可变长度的Unicode编码方案，它可以使用1~4个字节来表示一个字符，适合在互联网上传输和存储文本信息。

由于UTF-8编码具有良好的兼容性和节省空间的特点，因此在互联网应用中得到了广泛的应用。

三、字符编码的重要性字符编码在计算机领域具有非常重要的作用，它直接影响着计算机能否正确地显示和处理文本信息。

正确的字符编码方案可以保证不同语言的文字能够被准确地表达和显示，从而实现跨语言的信息交流和共享。

1. 多语言支持随着全球化的发展，不同国家和地区之间的交流日益频繁，多语言支持成为了计算机系统的基本需求。

而正确的字符编码方案可以实现在同一个系统中支持多种语言的显示和输入，为用户提供更加便捷的操作体验。

2. 数据传输在网络通信和数据传输过程中，字符编码的选择直接影响着数据的准确传输和解析。

采用合适的字符编码方案可以有效地避免因编码问题造成的数据丢失和信息不清晰的情况，保证数据的完整性和可靠性。

字符集和字符编码（CharsetEncoding）

字符集和字符编码（CharsetEncoding）——每个软件开发⼈员应该⽆条件掌握的知识！——Unicode伟⼤的创想！相信⼤家⼀定碰到过，打开某个⽹页，却显⽰⼀堆像乱码，如"бЇЯАзЪСЯ"、"�????????"？还记得HTTP中的Accept-Charset、Accept-Encoding、Accept-Language、Content-Encoding、Content-Language等消息头字段？这些就是接下来我们要探讨的。

⽬录：1.*础知识计算机中储存的信息都是⽤⼆进制数表⽰的；⽽我们在屏幕上看到的英⽂、汉字等字符是⼆进制数转换之后的结果。

通俗的说，按照何种规则将字符存储在计算机中，如'a'⽤什么表⽰，称为"编码"；反之，将存储在计算机中的⼆进制数解析显⽰出来，称为"解码"，如同密码学中的加密和解密。

在解码过程中，如果使⽤了错误的解码规则，则导致'a'解析成'b'或者乱码。

字符集（Charset）：是⼀个系统⽀持的所有抽象字符的集合。

字符是各种⽂字和符号的总称，包括各国家⽂字、标点符号、图形符号、数字等。

字符编码（Character Encoding）：是⼀套法则，使⽤该法则能够对⾃然语⾔的字符的⼀个集合（如字母表或⾳节表），与其他东西的⼀个集合（如号码或电脉冲）进⾏配对。

即在符号集合与数字系统之间建⽴对应关系，它是信息处理的⼀项*本技术。

通常⼈们⽤符号集合（⼀般情况下就是⽂字）来表达信息。

⽽以计算机为*础的信息处理系统则是利⽤元件（硬件）不同状态的组合来存储和处理信息的。

元件不同状态的组合能代表数字系统的数字，因此字符编码就是将符号转换为计算机可以接受的数字系统的数，称为数字代码。

2.常⽤字符集和字符编码常见字符集名称：ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等。

常用字符编码

常用字符编码
ASCII码是一种7位编码，共可以表示128个字符，包括大写字母、小写字母、数字、标点符号和一些特殊字符。

因为只有7位，所以ASCII码的字符集非常有限，只能表示英文字符，无法表示其他国家的文字。

Unicode码是一种全球通用的编码方式，共可以表示超过120万个字符，包括中文汉字、日文汉字、韩文汉字、拉丁文字符等。

Unicode 码采用32位编码，所以可以表示更多的字符。

UTF-8码是Unicode码的一种实现方式，它采用可变长度编码，可以根据字符的不同采用1至4个字节进行编码。

这种编码方式既能表示ASCII码的字符，又能表示Unicode码的字符，是目前最常用的字符编码方式之一。

在使用字符编码时需要注意一些问题，比如在不同的编码方式下，相同的字符可能会被编码成不同的二进制位，导致出现乱码等问题。

此外，在进行数据传输或存储时，也需要选择适合的字符编码方式，以确保数据的正确性和可读性。

- 1 -。

哈夫曼编码字符与编码对照表

哈夫曼编码（Huffman Coding）是一种用于无损数据压缩的熵编码算法。

它根据字符在文本中出现的频率来构建一棵哈夫曼树，然后用这棵树为每个字符生成一个唯一的二进制编码。

这些编码的长度是根据字符的频率动态生成的，频率越高的字符，其编码长度越短，从而达到压缩数据的目的。

哈夫曼编码的一个特点是，它生成的编码并不是唯一的。

也就是说，对于同一个文本，不同的哈夫曼编码算法可能会生成不同的编码结果。

这是因为哈夫曼树的构建过程可能受到多种因素的影响，比如字符频率的统计方式、树的构建算法等。

因此，要提供一个具体的字符与编码对照表，我们需要先明确字符的频率以及哈夫曼树的构建过程。

下面是一个简单的示例，假设我们有以下字符及其频率：
基于这些频率，我们可以构建一个哈夫曼树，并为每个字符生成一个唯一的二进制编码。

假设我们得到的编码如下：
请注意，这只是一个示例，实际的哈夫曼编码可能会因为字符频率和哈夫曼树构建算法的不同而有所差异。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

字符与编码
Outline
1.字符与编码的发展 2.字符，字节，字符串 3.字符集与编码 4.常用字符集介绍 5. MIME邮件的编码方式
2
1 字符与编码的发展
阶段一说明系统计算机刚开始只支持英语，其它语言不能够在计算机上存储和 ASCII 显示。英文 DOS 为使计算机支持更多语言，通常使用 0x80~0xFF 范围的 2 个字节来表示 1 个字符。比如：汉字 '中' 在中文操作系统 ANSI编码中，使用 [0xD6,0xD0] 这两个字节存储。（本地化）不同的国家和地区制定了不同的标准，由此产生了 GB2312, BIG5, JIS 等各自的编码标准。这些使用 2 个字节来代表一个字符的各种汉字延伸编码方式，称为 A N S I 编码。在简体中文系统下，ANSI 编码代表 GB2312 编码，在日文操作系统下，ANSI 编码代表 JIS 编码。中文 DOS，中文不同 ANSI 编码之间互不兼容，当信息在国际间交流时，无法 Windows 将属于两种语言的文字，存储在同一段 A N S I 编码的文本中 95/98，日文 Windows 95/98 。为了使国际间信息交流更加方便，国际组织制定了 U N I C O D E Windows 字符集，为各种语言中的每一个字符设定了统一并且唯一的数 NT/2000/XP， UNICODE 字编号，以满足跨语言、跨平台进行文本转换、处理的要求。 Linux，Java 系统内码
13
GBK
GBK是GB2312的扩展，是向上兼容的。它包含了20902个汉字。同时GBK收录了Unicode基本多文种平面中的所有CJK汉字。编码范围：0x8140 - 0xFEFE 。高字节范围是 0×81-0xFE，低字节范围是0x40-7E和0x800xFE 低字节是0x40-0x7E的GBK字符有一定特殊性，因为这些字符占用了ASCII码的位置，这样会给一些系统带来麻烦。
8
3 字符集与编码
各个国家和地区所制定的不同 ANSI 编码标准中，都只规定了各自语言所需的“字符”。比如：汉字标准（GB2312）中没有规定韩国语字符怎样存储。这些 ANSI 编码标准所规定的内容包含两层含义： 1. 使用哪些字符。也就是说哪些汉字，字母和符号会被收入标准中。所包含“字符”的集合就叫做“字符集”。 2. 规定每个“字符”分别用一个字节还是多个字节存储，用哪些字节来存储，这个规定就叫做“编码”。
17
UTF-16是UCS-2的超集，UTF-16编码的两字节编码方式完全和UCS-2相同，也就是说在BMP的框架内UCS-2完全等同与UTF-16。实际情况当中常常把UCS-16当作UCS-2的别名。
18
UCS-2和UTF-16在存储和传输时会使用两种不同的字节序，分别是big endian和little endian（大尾和小尾）。例如“啊”（U+554A）用big endian表示就是0x554A，用little endian表示就是0x4A55。UCS2和UTF-16默认的字节序是big endian方式。在传输过程中为了说明字节序需要在字节流前加上 BOM（Byte order Mark），0xFEFF表示是big endian，0xFFFE表示是little endian。UCS-2BE、 UCS-2LE是实际应用中使用的编码名称，对应着 big endian和little endian，UTF-16BE、UTF-16LE 也是如此。因为默认是BE字节序，所以可以把 UCS-2当做是UCS-2BE的别名。
16
UCS-2、UTF-16是UCS字符集（或者说是 Unicode字符集）实际应用中的具体编码方式。UCS-2是两个字节的等宽编码，因为只是使用了两个字节的编码空间，所以只能对 BMP中的字符做编码。 UTF-16是变长编码，用两个字节对BMP内的字符编码，用4个字节对超出BMP范围的辅助平面内的字符作编码。
D6 D0 CE C4 31 32 33 0 中文 1 2 3 \0
5
字符串在内存中的存放方法
在 UNICODE 被采用之后，计算机存放字符串时，改为存放每个字符在 UNICODE 字符集中的序号。目前计算机一般使用 2 个字节（16 位）来存放一个序号（DBCS），因此，这种方式存放的字符也被称作宽字节字符。比如，字符串 "中文123" 在 Windows 2000 下，内存中实际存放的是 5 个序号：一共占 10 个字节。
14
Big5
Big5是双字节编码，高字节编码范围是0x810xFE，低字节编码范围是0x40-0x7E和0xA10xFE。和GBK相比，少了低字节是0x80-0xA0的组合。 Big5收录的汉字只包括繁体汉字，不包括简体汉字，一些生僻的汉字也没有收录。因为Big5也占用了ASCII的编码空间（低字节所使用的0x40-0x7E），所以Big5编码在一些环境下存在和GBK编码相同的问题，即低字节范围为0x400x7E的字符有可能会被误处理。
19
UCS-2和UTF-16也可以理解为和ASCII兼容，在ASCII编码的每个字节前加上0x00，就得到相应字符的UCS-2编码。 UCS-2和UTF-16中会使用0x00作为某个字符编码的一部分，某些系统会把0x00当作字符串结束的标志，在处理UCS-2或UTF-16编码时会出现问题。
22
例如“啊”字的UCS-2编码是0x554A，对应的二进制是0101 0101 0100 1010，转成UTF-8编码之后的二进制是1110 0101 10 010101 10 001010，对应的十六进制是0xE5958A。 UCS-4也是一种UCS字符集的编码方式，是使用4 个字节的等宽编码，可以用UCS-4来表示BMP之外的辅助面字符。UCS-2中每两个字节前再加上 0x0000就得到了BMP字符的UCS-4编码。从UCS-4 到UTF-8也存在转换关系，根据这种转换关系， UTF-8最多可以使用六个字节来编码UCS-4。
23

UTF-8的特性
UTF-8完全和ASCII兼容，也就是说ASCII对应的字符在UTF-8中和ASCII编码完全一致。范围在 0x00-0x7F之内的字符一定是ASCII字符，不可能是其他字符的一部分。GBK和Big5都存在的缺陷在UTF-8中是不存在的。大于U+007F的UCS字符，在UTF-8编码中至少是两个字节。 GBK编码中的汉字字符都在UCS-2中的范围都在 U+0800 - U+FFFF之间，所以每个GBK编码中的汉字字符的UTF-8编码都是3个字节。
20
UTF-8
UTF-8是UCS字符集的另一种编码方式， UTF-16的每个单元是两个字节（16位），而 UTF-8的每个单元是一个字节（8位）。UTF16中用一个或两个双字节表示一个字符， UTF-8中用一个或几个单字节表示一个字符。
21
从UCS-2到UTF-8之间有以下转换关系：
UCS-2 UTF-8 U+0000 - U+007F 0xxxxxxx U+0080 - U+07FF 110xxxxx 10xxxxxx U+0800 - U+FFFF 1110xxxx 10xxxxxx 10xxxxxx
阶段二
阶段三
3
字符串在内存中的存放方法
在 ASCII 阶段，单字节字符串使用一个字节存放一个字符（SBCS）。比如，“Bob123” 在内存中为：
42 6F 62 31 32 33 0 B o b 1 2 3 \0
4
字符串在内存中的存放方法
在使用 ANSI 编码支持多种语言阶段，每个字符使用一个字节或多个字节来表示（MBCS），因此，这种方式存放的字符也被称作多字节字符。比如，"中文123" 在中文 Windows 95 内存中为7个字节，每个汉字占 2个字节，每个英文和数字字符占1个字节：
9
各个国家和地区在制定编码标准的时候，“字符的集合”和“编码”一般都是同时制定的。因此，平常我们所说的“字符集”，比如： GB2312, GBK, JIS 等，除了有“字符的集合” 这层含义外，同时也包含了“编码”的含义。
10
4 常用字符集介绍
ASCII码是7位编码，编码范围是0x000x7F。ASCII字符集包括英文字母、阿拉伯数字和标点符号等字符。其中0x00-0x20和 0x7F共33个控制字符。只支持ASCII码的系统会忽略每个字节的最高位，只认为低7位是有效位。HZ字符编码就是早期为了在只支持7位ASCII系统中传输中文而设计的编码。早期很多邮件系统也只支持ASCII编码，为了传输中文邮件必须使用 BASE64或者其他编码方式。
25
Unicode字符串，每个字符(汉字、英文字母)都占2 个字节，以2个连续的\0结尾，NT操作系统内核用的是这种字符串。 UTF-8是Unicode一种压缩形式，英文A在Unicode 中表示为0x0041，老外觉得这种存储方式浪费了 50%的空间，于是就把英文压缩成1个字节，成了 UTF-8编码，但是汉字在UTF-8中占3个字节，显然用做中文不如ANSI合算。这就是中国的网页用作 ANSI编码而老外的网页常用UTF-8的原因。 UTF-8在还游戏里运用的很广泛，比如WOW的lua 脚本等。
24
UTF-8中的每个字符编码的首字节总在0x00-0xFD 之间（不考虑UCS-4支持的情况，首字节在0x000xEF之间）。根据首字节就可以判断之后连续几个字节。在UTF-8的编码的传输过程中即使丢掉一个字节，根据编码规律也很容易定位丢掉的位置，不会影响到其他字符。在其他双字节编码中，一旦损失一个字节，就会影响到此字节之后的所有字符。从这点可以看出UTF-8编码非常适合作为传输编码。
15