常用字符集编码详解：ASCII、GB2312、GBK、GB18030、...

合集下载

GB2312GB_13000_GBKGB18030介绍讲解

1、GB2312、GB 13000、GBK、GB18030 介绍GB 2312：又称为GB 2312-80，是一个简体中文字符集的中国国家标准，于1980年由中国国家标准总局发布，1981年5月1日实施，全称为《信息交换用汉字编码字符集基本集》，规定了6763个汉字和682个非汉字图形。

GB 13000：为了便于多个文种的同时处理，国际标准化组织下属编码字符集工作组研制了新的编码字符集标准，ISO/IEC 10646。

该标准第一次颁布是在1993年，当时只颁布了其第一部分，即ISO/IEC 10646.1: 1993，我国相应的国家标准是GB 13000.1-93《信息技术通用多八位编码字符集(UCS) 第一部分：体系结构与基本多文种平面》。

制定这个标准的目的是对世界上的所有文字统一编码，以实现世界上所有文字在计算机上的统一处理。

GBK：随着信息技术在各行业应用的深入，GB 2312 收录汉字数量不足的缺点已经初步显露出来。

例如："镕"字现在是高频率使用字，而GB 2312 却没有为它编码，因而，政府、新闻、出版、印刷等行业和部门在使用中感到十分不便。

1995年，全世界大多数的PC 操作系统都实现了16/32 位。

GB 13000.1 的实现出现了一线曙光。

一方面为了对GB 2312 进行扩充，一方面顺应当时技术的发展向GB 13000.1 推进，同时兼顾当时最广泛采用GB 2312 内码系统。

原电子部和原国家技术监督局联合颁布了指导性技术文件《汉字内码扩展规范》1.0版，即GBK 。

在GBK的内码系统中，GB 2312 汉字所在码位保持不便，这样，保证了GBK 对GB 2312 的完全兼容。

同时，GBK 内码与GB 13000.1 代码一一对应，为GBK 向GB 13000.1 的转换提供了解决办法。

微软对GB 2312 的扩展，也就是CP936 字码表(Code Page 936)的扩展（原来的CP936 和GB 2312-80 一模一样），最初出现于Windows 95 简体中文版中。

GB2312、GB 13000、GBK、GB18030 介绍和说明文档

GB 13000：为了便于多个文种的同时处理，国际标准化组织下属编码字符集工作组研制了新的编码字符集标准，ISO/IEC 10646。

制定这个标准的目的是对世界上的所有文字统一编码，以实现世界上所有文字在计算机上的统一处理。

GBK：随着信息技术在各行业应用的深入，GB 2312 收录汉字数量不足的缺点已经初步显露出来。

例如："镕"字现在是高频率使用字，而GB 2312 却没有为它编码，因而，政府、新闻、出版、印刷等行业和部门在使用中感到十分不便。

1995年，全世界大多数的PC 操作系统都实现了16/32 位。

GB 13000.1 的实现出现了一线曙光。

一方面为了对GB 2312 进行扩充，一方面顺应当时技术的发展向GB 13000.1 推进，同时兼顾当时最广泛采用GB 2312 内码系统。

原电子部和原国家技术监督局联合颁布了指导性技术文件《汉字内码扩展规范》1.0版，即GBK 。

在GBK的内码系统中，GB 2312 汉字所在码位保持不便，这样，保证了GBK 对GB 2312 的完全兼容。

同时，GBK 内码与GB 13000.1 代码一一对应，为GBK 向GB 13000.1 的转换提供了解决办法。

微软对GB 2312 的扩展，也就是CP936 字码表(Code Page 936)的扩展（原来的CP936 和GB 2312-80 一模一样），最初出现于Windows 95 简体中文版中。

常用字符集编码详解：ASCII 、GB2312、GBK、GB18030、...

ASCIIASCII码是7位编码，编码范围是0x00-0x7F。

ASCII字符集包括英文字母、阿拉伯数字和标点符号等字符。

其中0x00-0x20和0x7F共33个控制字符。

只支持ASCII码的系统会忽略每个字节的最高位，只认为低7位是有效位。

HZ字符编码就是早期为了在只支持7位ASCII系统中传输中文而设计的编码。

早期很多邮件系统也只支持ASCII编码，为了传输中文邮件必须使用BASE64或者其他编码方式。

GB2312GB2312是基于区位码设计的，区位码把编码表分为94个区，每个区对应94个位，每个字符的区号和位号组合起来就是该汉字的区位码。

区位码一般用10进制数来表示，如1601就表示16区1位，对应的字符是“啊”。

在区位码的区号和位号上分别加上0xA0就得到了GB2312编码。

区位码中01-09区是符号、数字区，16-87区是汉字区，10-15和88-94是未定义的空白区。

它将收录的汉字分成两级：第一级是常用汉字计3755个，置于16-55区，按汉语拼音字母/笔形顺序排列；第二级汉字是次常用汉字计3008个，置于56-87区，按部首/笔画顺序排列。

一级汉字是按照拼音排序的，这个就可以得到某个拼音在一级汉字区位中的范围，很多根据汉字可以得到拼音的程序就是根据这个原理编写的。

GB2312字符集中除常用简体汉字字符外还包括希腊字母、日文平假名及片假名字母、俄语西里尔字母等字符，未收录繁体中文汉字和一些生僻字。

可以用繁体汉字测试某些系统是不是只支持GB2312编码。

GB2312的编码范围是0xA1A1-0x7E7E，去掉未定义的区域之后可以理解为实际编码范围是0xA1A1-0xF7FE。

EUC-CN可以理解为GB2312的别名，和GB2312完全相同。

区位码更应该认为是字符集的定义，定义了所收录的字符和字符位置，而GB2312及EUC-CN是实际计算机环境中支持这种字符集的编码。

HZ和ISO- 2022-CN是对应区位码字符集的另外两种编码，都是用7位编码空间来支持汉字。

mysql 常用编码格式

mysql 常用编码格式
MySQL 支持多种字符集，以下是常用的编码格式：
1. UTF-8：UTF-8 是一种 Unicode 编码，支持多种语言字符，是目前互联网上最常用的字符集。

MySQL 默认使用 UTF-8 编码。

2. latin1：latin1 是一种单字节编码，支持西欧语言字符。

3. gbk：gbk 是一种中文字符集编码，主要用于简体中文。

4. big5：big5 是一种繁体中文字符集编码。

5. gb2312：gb2312 是一种简体中文字符集编码。

在创建数据库或表时，可以使用 `CHARACTER SET` 关键字指定字符集，例如：
```sql
CREATE DATABASE mydb DEFAULT CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
```
在插入或更新数据时，也可以使用 `CHARACTER SET` 关键字指定字符集，例如：
```sql
INSERT INTO mytable (name) VALUES ('你好') CHARACTER SET utf8mb4;
```
注意，在使用不同编码格式时，要确保数据的一致性和兼容性。

编码标准：ASCII、GBK、Unicode（UTF8、UTF16、UTF32）

编码标准：ASCII、GBK、Unicode（UTF8、UTF16、UTF32）
英⽂编码（单字节字符集，码值范围0~127）：字节最⾼位是0
ASCII编码，⽤于英⽂字符。

中⽂编码（双字节字符集）：⾸字节（8位）的最⾼位是1。

可依据⾸字节最⾼位来判断中英⽂。

GB2312，旧版，6763个汉字。

GBK，中⽂字符升级版，21000多个汉字。

国际编码：Unicode编码，各国语⾔字符
不同编码⽅式，值不同，如“中”的GBK编码：0xD6D0，Unicode编码：0x4E2D
Unicode编码的3种实现⽅式：UTF8、UTF16、UTF32。

UTF8变长编码，智能分配1-4个字节。

UTF16定长编码，2个字节。

UTF32定长编码，4个字节。

UTF16编码，中英⽂字符都占2个字节。

其定义的类型称为宽字符类型wchar_t，使⽤⽅式如下
wchar_t d[] = L"中国"; //宽字符类型
wcout.imbue(locale("chs"));//Windows系统，语⾔设置为简体中⽂。

Unicode转GBK
wcout << d; //宽字符输出，中国。

GB2312,GBK,GB18030这几种字符集主要的区别是什么？

GB2312,GBK,GB18030这几种字符集主要的区别是什么？早期的计算机使用7位的ASCII编码，为了处理汉字，程序员设计了用于简体中文的GB2312和用于繁体中文的big5。

GB2312（1980年）：16位字符集，收录有6763个简体汉字，682个符号，共7445个字符；优点：适用于简体中文环境，属于中国国家标准，通行于大陆，新加坡等地也使用此编码；缺点：不兼容繁体中文，其汉字集合过少。

GBK（1995年）：16位字符集，收录有21003个汉字，883个符号，共21886个字符；优点：适用于简繁中文共存的环境，为简体Windows所使用（代码页cp936），向下完全兼容gb2312，向上支持 ISO-10646 国际标准；所有字符都可以一对一映射到unicode2.0上；缺点：不属于官方标准，和big5之间需要转换；很多搜索引擎都不能很好地支持GBK汉字。

GB18030（2000年）：32位字符集；收录了27484个汉字，同时收录了藏文、蒙文、维吾尔文等主要的少数民族文字。

优点：可以收录所有你能想到的文字和符号，属于中国最新的国家标准；缺点：目前支持它的软件较少。

补充：•现在的PC平台必须支持GB18030，对嵌入式产品暂不作要求。

所以手机、MP3一般只支持GB2312。

•从ASCII、GB2312、GBK到GB18030，这些编码方法是向下兼容的，即同一个字符在这些方案中总是有相同的编码，后面的标准支持更多的字符。

在这些编码中，英文和中文可以统一地处理。

区分中文编码的方法是高字节的最高位不为0。

GB2312、GBK到GB18030都属于双字节字符集 (DBCS)。

•GB18030是中国所有非手持/嵌入式计算机系统的强制实施标准。

各种文字编码简介+常见的编码都有介绍

各种文字编码简介ASCIIASCII码是7位编码，编码范围是0×00-0×7F。

ASCII字符集包括英文字母、阿拉伯数字和标点符号等字符。

其中0×00-0×20和0×7F共33个控制字符。

只支持ASCII码的系统会忽略每个字节的最高位，只认为低7位是有效位。

HZ字符编码就是早期为了在只支持7位ASCII系统中传输中文而设计的编码。

早期很多邮件系统也只支持ASCII编码，为了传输中文邮件必须使用BASE64或者其他编码方式。

GB2312GB2312是基于区位码设计的，区位码把编码表分为94个区，每个区对应94个位，每个字符的区号和位号组合起来就是该汉字的区位码。

区位码一般用10进制数来表示，如1601就表示16区1位，对应的字符是“啊”。

在区位码的区号和位号上分别加上0xA0就得到了GB2312编码。

区位码中01-09区是符号、数字区，16-87区是汉字区，10-15和88-94是未定义的空白区。

一级汉字是按照拼音排序的，这个就可以得到某个拼音在一级汉字区位中的范围，很多根据汉字可以得到拼音的程序就是根据这个原理编写的。

GB2312字符集中除常用简体汉字字符外还包括希腊字母、日文平假名及片假名字母、俄语西里尔字母等字符，未收录繁体中文汉字和一些生僻字。

可以用繁体汉字测试某些系统是不是只支持GB2312编码。

GB2312的编码范围是0xA1A1-0×7E7E，去掉未定义的区域之后可以理解为实际编码范围是0xA1A1-0xF7FE。

EUC-CN可以理解为GB2312的别名，和GB2312完全相同。

区位码更应该认为是字符集的定义，定义了所收录的字符和字符位置，而GB2312及EUC-CN是实际计算机环境中支持这种字符集的编码。

中文编码解析

中文编码解析中文编码解析是指将中文字符转换为计算机可识别的数字编码的过程。

常见的中文编码方式包括UTF-8、GBK、GB2312和BIG5等。

1. UTF-8（Unicode Transformation Format-8 bits）：UTF-8是一种可变长度的字符编码方式，可以表示任何Unicode标准中的字符。

UTF-8编码的字符以1到4个字节表示，最多可以表示21位的数字。

UTF-8编码是目前互联网上最常见的编码方式之一，因为它可以兼容ASCII 编码，并且支持全球范围内的语言文字。

2. GBK（GuóBǐng Kǎo）：GBK是一种双字节字符编码方式，用于简体中文。

它兼容GB2312编码，但支持更多的字符集。

GBK编码的字符以1到2个字节表示，最多可以表示16位的数字。

3. GB2312（GuóBǐng 2312）：GB2312是一种单字节字符编码方式，用于简体中文。

它支持6000多个常用汉字和一些标点符号、数字和字母。

GB2312编码的字符以1个字节表示，最多可以表示94位的数字。

4. BIG5（Bǐng Wén GuóTōng）：BIG5是一种双字节字符编码方式，用于繁体中文。

它兼容GB2312编码，但支持更多的字符集。

BIG5编码的字符以1到2个字节表示，最多可以表示16位的数字。

在进行中文编码解析时，需要先将中文字符转换为相应的编码方式，然后再进行传输或存储。

在接收或读取时，需要将编码方式还原为中文字符，以便正确显示或处理。

常见的中文编码解析工具包括iconv、libiconv等。

中文编码解析是指将中文字符转换为计算机可识别的数字编码的过程。

常见的中文编码方式包括UTF-8、GBK、GB2312和BIG5等。

1. UTF-8（Unicode Transformation Format-8 bits）：UTF-8是一种可变长度的字符编码方式，可以表示任何Unicode标准中的字符。

常见的文字编码格式

常见的文字编码格式
GB2312字符集
作用：国家简体中文字符集，兼容 ASCII。

位数：使用2个字节表示，能表示7445个符号，包括6763个汉字，几乎覆盖所有高频率汉字。

范围：高字节从A1-A7，低字节从A1到 FE 。

将高字节和低字节分别加上0xA0即可得到编码。

GBK 字符集
作用：它是GB2312的扩展，加入对繁体字的支持，兼容GB2312。

位数：使用2个字节表示，可表示21886个字符。

范围：高字节从81到 FE ，低字节从40到 FE。

GB18030字符集
作用：它解决了中文、日文、朝鲜语等的编码，兼容GBK。

位数：它采用变字节表示（1ASCII,2,4字节）。

可表示27484个文字。

范围：1字节从00到7F;2字节高字节从81到 FE，低字节从40到7E和80到 FE ;4字节第一三字节从81到 FE，第二四字节从30到39。

汉字字符集编码

汉字字符集编码
汉字字符集编码是指将汉字转换为计算机可以使用的编码方案,常用的汉字字符集编码方案有GBK、GB2312、UTF-8等。

以下是一些常见的汉字字符集编码及其用途:
1. GBK:GBK编码是将GB2312字符集扩展到5位,用于存储大部分中文汉字。

GBK编码在Windows和MacOS操作系统中广泛使用,也被许多中文应用(如网页、电子书等)所支持。

2. GB2312:GB2312编码是一种基于UTF-8的字符集编码方案,用于存储中文字符。

与UTF-8相比,GB2312在某些情况下可能会出现编码错误,但比UTF-8更稳定。

3. UTF-8:UTF-8是一种无符号多字节编码方案,可以表示任意汉字。

UTF-8编码在中文字符的存储和传输方面都是最好的选择,但在一些情况下可能会出现编码错误。

4. ASCII: ASCII编码是一种单字节编码方案,用于存储只有字符和符号。

虽然ASCII编码可以表示所有的中文字符,但在传输和存储时可能会出现编码错误。

在实际应用中,选择合适的汉字字符集编码方案取决于具体需求和设备。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

ASCII
ASCII 码是7位编码，编码范围是0x00-0x7F ASCII 字符集包括英文字母、阿拉伯数字和标点符号等字符。

其中 0x00-0x20和0x7F 共33个控制字符。

只支持ASCI 码的系统会忽略每个字节的最高位，只认为低 7位是有效位。

HZ 字符编码就是早期为了在只支持 7位ASCII 系统中传输中文而设计的编码。

早期很多邮件系统也只支持ASCII 编码，为了传输中文邮件必须使用 BASE64或者其他编码方式。

GB2312
GB2312是基于区位码设计的，区位码把编码表分为 94个位，每个字符的区号和位号组合起来就是该汉字的区位
码。

10进制数来表示，如 1601就表示 16区1 位，对应的字符是区号和位号上分别加上0xA0就得到了 GB2312编
码。

区位码中 01-09区是符号、数字区， 16-87区是汉字区，
未定义的空白区。

它将收录的汉字分成两级：
第一级是常用汉字计 3755 个，置于 16-55 区，按汉语拼音字母 /笔形顺序排列；第二级汉字是次常用汉字计 3008 个，置于 56-87 区，按部首 /笔画顺序排列。

一级汉字是按照拼音排序的，这个就可以得到某个拼音在一级汉字区位中的范围，很多根据汉字可以得到拼音的程序就是根据这个原理编写的。

GB2312字符集中除常用简体汉字字符外还包括希腊字母、日文平假名及片假名字母、俄语西里尔字母等字符，未收录繁体中文汉字和一些生僻字。

可以用繁体汉字测试某些系统是不是只支持 GB2312编码。

GB2312的编码范围是0xA1-0x7E 去掉未定义的区域之后可以理解为实际编码范围是 0xA1-0xF7FE 。

EUC-CN 可以理解为GB2312的别名，和GB2312完全相同。

区位码更应该认为是字符集的定义，定义了所收录的字符和字符位置，而 94个区，每个区对应区位码一般用 “啊”。

在区位码的
10-15和 88-94是
GB2312及EUC-CN是实际计算机环境中支持这种字符集的编码。

HZ和ISO-
2022-CN是对应区位码字符集的另外两种编码，都是用7位编码空间来支持汉
字。

区位码和GB2312编码的关系有点像Unicode和UTF-&
GBK
GBK编码是GB2312编码的超集，向下完全兼容GB2312,同时GBK收录了
Uni code基本多文种平面中的所有CJK汉字。

同GB2312 一样，GBK也支持希腊
字母、日文假名字母、俄语字母等字符，但不支持韩语中的表音字符（非汉字字符）。

GBK还收录了GB2312不包含的汉字部首符号、竖排标点符号等字符。

GBK的整体编码范围是为0x8140-0xFE不包括低字节是0X 7的组合。

高字节范围是0X81-0xFE低字节范围是0X40-7E和0x80-0xFE低字节是0x40- 0x7E的GBK字符有一定特殊性，因为这些字符占用了ASCI码的位置，这样会给一些系统带来麻烦。

有些系统中用0x40-0x7E中的字符（如“I）做特殊符号，在定位这些符号时又没有判断这些符号是不是属于某个GBK字符的低字节，这样就会造成错误判断。

在支持GB2312的环境下就不存在这个问题。

需要注意的是支持GBK的
环境中小于0x80的某个字节未必就是ASCII符号；另外就是最好选用小于0X 40 的ASCII符号做一些特殊符号，这样就可以快速定位，且不用担心是某个汉字的另一半。

Big5编码中也存在相应问题。

CP936和GBK的有些许差别，绝大多数情况下可以把CP936当作GBK的别名。

GB18030
GB18030编码向下兼容GBK和GB2312兼容的含义是不仅字符兼容，而且相同字符的编码也相同。

GB18030收录了所有Unicode
3.1中的字符，包括中国少数民族字符，GBK不支持的韩文字符等等，也可以说是世界大多民族的文字符号都被收录在内。

GBK和GB2312都是双字节等宽编码，如果算上和ASCI兼容所支持的单字节，也可以理解为是单字节和双字节混合的变长编码。

GB18030编码是变长编码，
有单字节、双字节和四字节三种方式。

GB18030的单字节编码范围是0x00-0x7F,完全等同与ASC；双字节编码的范围和GBK相同，高字节是0x81-0xFE低字节的编码范围是0x40-0x7E和0x80- FE四字节编码中第一、三字节的编码范围是0x81-0xFE二、四字节是0x30-
0x39。

Windows中CP936代码页使用0x80来表示欧元符号，而在GB18030编码中没有使用0x80编码位，用其他位置来表示欧元符号。

这可以理解为是GB18030
向下兼容性上的一点小问题；也可以理解为0x80是CP936对GBK的扩展，而
GB18030只是和GBK兼容良好。

unicode
每一种语言的不同的编码页，增加了那些需要支持不同语言的软件的复杂度。

因而人们制定了一个世界标准，叫做uni code。

uni code为每个字符提供了唯一的特定数值，不论在什么平台上、不论在什么软件中，也不论什么语言。

也就是说，它世界上使用的所有字符都列出来，并给每一个字符一个唯一特定数值。

Unicode 的最初目标，是用1 个16 位的编码来为超过65000字符提供映
射。

但这还不够，它不能覆盖全部历史上的文字，也不能解决传输的问题
(im pla ntati on head-ache's)，尤其在那些基于网络的应用中。

已有的软件必须做大量的工作来程序16 位的数据。

因此，Unicode 用一些基本的保留字符制定了三套编码方式。

它们分别是UTF-8,UTF-16和UTF-32正如名字所示，在UTF- 8中，字符是以8位序列来编码的，用一个或几个字节来表示一个字符。

这种方式的最大好处，是UTF—8 保留了ASCI字符的编码做为它的一部分，例如，在UTF-8和ASCI中, “A”编
码都是0x
41.
UTF—16和UTF— 32分别是Uni code的16位和32位编码方式。

考虑到最初的目的，通常说的Uni code就是指UTF-16在讨论Un icode时，搞清楚哪种编码方式非常重要。

UTF-8
Unicode Transformation Format-8bit，允许含BOM,但通常不含BOM。

是用以解决国际上字符的一种多字节编码，它对英文使用8 位（即一个字节），中文使用24为（三个字节）来编码。

UTF-8包含全世界所有国家需要用到的字符，是国际编码，通用性强。

UTF-8编码的文字可以在各国支持UTF8字符集的浏览器上显示。

如，如果是UTF8编码，则在外国人的英文IE上也能显示中文，他们无需下载IE的中文语言支持包。

GBK的文字编码是用双字节来表示的，即不论中、英文字符均使用双字节来表示，为了区分中文，将其最高位都设定成1。

GBK包含全部中文字符，是国家编码，通用性比UTF8差，不过UTF8占用的数据库比GBD大。

GBK GB2312等与UTF8之间都必须通过Uni code编码才能相互转换:
GBK、GB2312－－Unicode－－UTF8
UTF8－－Unicode－－GBK、GB2312
对于一个网站、论坛来说,如果英文字符较多,则建议使用UTF－8 节省空间。

不过现在很多论坛的插件一般只支持GBK。