GB 18030《信息交换用汉字编码字符集基本集的扩充》

合集下载

GB2312GB_13000_GBKGB18030介绍讲解

1、GB2312、GB 13000、GBK、GB18030 介绍GB 2312：又称为GB 2312-80，是一个简体中文字符集的中国国家标准，于1980年由中国国家标准总局发布，1981年5月1日实施，全称为《信息交换用汉字编码字符集基本集》，规定了6763个汉字和682个非汉字图形。

GB 13000：为了便于多个文种的同时处理，国际标准化组织下属编码字符集工作组研制了新的编码字符集标准，ISO/IEC 10646。

该标准第一次颁布是在1993年，当时只颁布了其第一部分，即ISO/IEC 10646.1: 1993，我国相应的国家标准是GB 13000.1-93《信息技术通用多八位编码字符集(UCS) 第一部分：体系结构与基本多文种平面》。

制定这个标准的目的是对世界上的所有文字统一编码，以实现世界上所有文字在计算机上的统一处理。

GBK：随着信息技术在各行业应用的深入，GB 2312 收录汉字数量不足的缺点已经初步显露出来。

例如："镕"字现在是高频率使用字，而GB 2312 却没有为它编码，因而，政府、新闻、出版、印刷等行业和部门在使用中感到十分不便。

1995年，全世界大多数的PC 操作系统都实现了16/32 位。

GB 13000.1 的实现出现了一线曙光。

一方面为了对GB 2312 进行扩充，一方面顺应当时技术的发展向GB 13000.1 推进，同时兼顾当时最广泛采用GB 2312 内码系统。

原电子部和原国家技术监督局联合颁布了指导性技术文件《汉字内码扩展规范》1.0版，即GBK 。

在GBK的内码系统中，GB 2312 汉字所在码位保持不便，这样，保证了GBK 对GB 2312 的完全兼容。

同时，GBK 内码与GB 13000.1 代码一一对应，为GBK 向GB 13000.1 的转换提供了解决办法。

微软对GB 2312 的扩展，也就是CP936 字码表(Code Page 936)的扩展（原来的CP936 和GB 2312-80 一模一样），最初出现于Windows 95 简体中文版中。

汉字信息在计算机内部的表示

专用字面：8226个，WG2不予规定，保留供使用者自行添加ISO10646 未收录的字符。包含00组的0F、10和E0-FF共计34个字面，以及组60-7F共8192 个字面。
当计算机系统只使用BMP的字符码时，可以省略组八位和面八位。因而将字符由32位降为16位。 ISO10646所有字面中，目前仅有第0、第1、第2字面真正收录了编码字符。ＷＧ２截至目前所收集、整理得非表意文字和符号部分，扣除已编入ＢＭＰ者，其余全部编入第１字面，而表意文字部分扣除已经编入BMP者，其余全部编入第2字面。 ISO10646的BMP编码如下：（1）0000-007F：基本拉丁字母区。（2）0080-00A0：控制符区。其中0080-009F为C1控制区，00A0为软回车。（3）00A1-1FFF：拼音文字区。收录各种拼音文字字符。（4）2000-28FF：符号区，收录各种符号，包括标点符号、上下标、钱币符号、数字、箭头、数学符号、工程符号等。
按照一组无歧义的规则而定义的汉字词汇的有序几个称为汉字编码字符集。其中每一个汉字和代码之间具有一一对应的关系。在信息处理中，汉字编码字符集用于汉字信息表示、交换、传输、处理、存储、输入及显示。
GB2312-80共收录7445个汉字及其他字符。
GB2312-80
1986年国家标准局颁布GB2312-80的更正和增补版，简称为GB6345.1-86
1
图形字符区
2
3
4
5
6
7
8
9
A
B
C
D
E
F
扩展ASCII码
由于ASCII码只能表示94个字符，因此若需要使计算机还能够处理其他西文（如德文、法文、西班牙文等），则必须对ASCII码进行扩充。

仿宋_gb2312

仿宋_GB2312是一种电脑字体，公文标准字体之一。

仿宋是字体名称，GB2312是字符编码名称，属简体中文编码的一种，简体中文自1980年代以来通常使用中华人民共和国国家标准总局公布的GB 2312，以及其后继的GBK和GB18030中文编码。

近年来随着Unicode跨语言编码集的出现，也被广泛使用，所以通常说的仿宋就基本上是仿宋_GB2312了。

一、名称简体中文系统环境支持国标 GB2312、GB18030 和 Unicode (UTF-8) 编码。

它们在系统中设置的locale（亦指语言别）名称为：1.国标 GB2312： zh_CNhp15CN2.国标 GB18030： zh_CNgb180303.Unicode (UTF-8)： zh_CNutf8二、编码字节1.国标 GB2312 编码 (zh_CNhp15CN)国标 GB2312 是基于 1980 年发布的《信息交换用汉字编码字符集基本集》，是中文信息处理的中国国家标准，是强制执行的中文编码。

国标码共收录 6763 个简体汉字、682 个符号，其中汉字部分：一级字 3755 个，以拼音排序，二级字 3008 个，以偏旁部首排序。

该标准的制定和应用为规范、推动中文信息化进程起了很大作用。

该标准用双字节表示一个汉字：高字节A1-F7（其中字符区 A1-F9，汉字区 B0-F7）低字节 A1-FE2.国标 GB18030 编码 (zh_CNgb18030)国标 GB18030 基于 2000 年 3 月发布的《信息技术信息交换用汉字编码字符集基本集的扩充》，是最新推出的中国国家强制执行中文信息处理标准编码。

该标准涵盖了单字节、双字节、四字节的字符和汉字，共计约 28,000 多个。

三、如何设置打开WORD文档，温截选中文档里的文字。

单击字体，倘段下拉选择仿宋GB2312，如果没有这种字体，可以从网上下载安装。

选中文字设置为仿宋GB2312字体。

国标码区位码等的区别

即GB国标码：中文内码之一，代表中文简化字，在中国大陆广泛使用，影响所及，使用量渐见普及。

“国家标准信息交换用汉字编码”（GB2312-80标准），简称国标码。

国标码是指1980年中国制定的用于不同的具有汉字处理功能的计算机系统间交换汉字信息时使用的编码。

国际码是二字节码, 用两个七位二进制数编码表示一个汉字。

目前国标码收入6763个汉字, 其中一级汉字（最常用）3755个, 二级汉字3008个, 另外还包括682个西文字符、图符。

例如“巧”字的代码是39H 41H, 在机内形式如下: 0 1 1 1 0 0 1 1 第一字节0 0 0 0 0 1第二字节在计算机内部，汉字编码和西文编码是共存的，如何区分它们是个很重要的问题，因为对不同的信息有不同的处理方式。

方法之一是对于二字节的国标码，将二个字节的最高位都置成“1”, 而ASCII码所用字节最高位保持“0”，然后由软件（或硬件）根据字节最高位来作出判断。

字符代码化是指用户从键盘上输入代表某个汉字的编码。

我们把采用不同的编码系统以代表汉字进行输入的方案（如数字码、拼音码和字形码），称为汉字的输入法，区位码、五笔字型码、拼音码、智能ABC、微软拼音输入法等都是其中的具体代表。

汉字通过编码输入计算机后，在其后的处理过程中，不同阶段使用不同的代码，首先通过键盘管理程序将接收到的输入编码转换为0和1构成的机内码，实现计算机的存储、加工和传输处理。

同样，存储在计算机内部的机内码也必须经转换后才能恢复汉字的“本来面目”。

这种转换通常是由计算机的输入/输出设备来实现的, 有时还需要软件来参与这种转换过程。

这个阶段的汉字代码称为字形码，用以显示和打印输出。

区位码：1980年，为了使每一个汉字有一个全国统一的代码，我国颁布了第一个汉字编码的国家标准：GB2312-80《信息交换用汉字编码字符集》基本集，这个字符集是我国中文信息处理技术的发展基础，也是目前国内所有汉字系统的统一标准。

专升本计算机基础知识

计算机基础知识一、选择题(1) 下列叙述中，错误的是A) 把数据从内存传输到硬盘叫写盘B) 把源程序转换为目标程序的过程叫编译C) 应用软件对操作系统没有任何要求D) 计算机内部对数据的传输、存储和处理都使用二进制(2) 通常所说的I/O设备指的是A) 输入输出设备B) 通信设备C) 网络设备D) 控制设备(3) 计算机的存储单元中存储的内容A) 只能是数据B) 只能是程序C) 可以是数据和指令D) 只能是指令(4) 在计算机领域中通常用MIPS来描述A) 计算机的可运行性B) 计算机的运算速度C) 计算机的可靠性D) 计算机的可扩充性(5) 下列关于存储器的叙述中正确的是A) CPU能直接访问存储在内存中的数据，也能直接访问存储在外存中的数据B) CPU不能直接访问存储在内存中的数据，能直接访问存储在外存中的数据C) CPU只能直接访问存储在内存中的数据，不能直接访问存储在外存中的数据D) CPU既不能直接访问存储在内存中的数据，也不能直接访问存储在外存中的数据(6) 在微型计算机中，应用最普遍的字符编码是A) ASCII码B) BCD码C) 汉字编码D) 补码(7) 下列叙述中，正确的是A) 激光打印机属于击打式打印机B) CAI软件属于系统软件C) 软磁盘驱动器是存储介质D) 计算机运算速度可以用MIPS来表示(8) 微型计算机的内存储器是A) 按二进制位编址B) 按字节编址C) 按字长编址D) 按十进制位编址(9) 操作系统的五大功能模块为A) 程序管理、文件管理、编译管理、设备管理、用户管理B) 硬盘管理、软件管理、存储器管理、文件管理、批处理管理C) 运算器管理、控制器管理、打印机管理、磁盘管理、分时管理D) 处理器管理、存储器管理、设备管理、文件管理、作业管理(10) 最大的10位无符号二进制整数转换成十进数是A) 511 B) 512 C) 1023 D) 1024(11) 下面有关计算机操作系统的叙述中，不正确的是A) 操作系统属于系统软件B) 操作系统只负责管理内存储器，而不管理外存储器C) UNIX是一种操作系统D) 计算机的处理器、内存等硬件资源也由操作系统管理(12) 大写字母“A”的ASCII码为十进制数65，ASCII 码为十进制数68的字母是A) B B) C C) D D) E(13) 下列存储器中存取速度最快的是A) 内存B) 硬盘C) 光盘D) 软盘14) 软盘不能写入只能读出的原因是A) 新盘未格式化B) 已使用过的软盘片C) 写保护D) 以上均不正确(15) 在16×16点阵字库中，存储一个汉字的字模信息需用的字节数是A) 8 B) 16 C) 32 D) 64(16) 下面有关计算机的叙述中,正确的是A) 计算机的主机只包括CPUB) 计算机程序必须装载到内存中才能执行C) 计算机必须具有硬盘才能工作D) 计算机键盘上字母键的排列方式是随机的(17) 用户用计算机高级语言编写的程序,通常称为A) 汇编程序B) 目标程序C) 源程序D) 二进制代码程序(18) 微型机使用Pentium Ⅲ800的芯片,其中的800是指A) 显示器的类型B) CPU的主频C) 内存容量D) 磁盘空间(19) 显示器显示图象的清晰程度,主要取决于显示器的A) 对比度B) 亮度C) 尺寸D) 分辨率(20)目前微型计算机中CPU进行算术运算和逻辑运算时，可以处理的二进制信息长度是A) 32位B) 16位C) 8位D) 以上三种都可以(21)微型计算机使用的键盘上的Alt键称为A) 控制键B) 上档键C) 退格键D) 交替换档键(22)与十六进制数(BC)等值的二进制数是A) 10111011B) 10111100C) 11001100D) 11001011(23)在操作系统中，存储管理主要是对A) 外存的管理B) 内存的管理C) 辅助存储器的管理D) 内存和外存的统一管理(24)16个二进制位可表示整数的范围是A) 0～65535 B) -32768～32767 C) -32768～32768D) -32768～32767或0～65535(25)下列设备中，多媒体计算机所特有的设备是A) 打印机B) 视频卡C) 鼠标器D) 键盘(26)下列四项中不属于微型计算机主要性能指标的是A) 字长B) 内存容量C) 重量D) 时钟脉冲(27)目前各部门广泛使用的人事档案管理、财务管理等软件，按计算机应用分类，应属于A) 实时控制B) 科学计算C) 计算机辅助工程D) 数据处理(28)下列关于计算机病毒的四条叙述中，有错误的一条是A) 计算机病毒是一个标记或一个命令B) 计算机病毒是人为制造的一种程序C) 计算机病毒是一种通过磁盘、网络等媒介传播、扩散，并能传染其它程序的程序D) 计算机病毒是能够实现自身复制，并借助一定的媒体存的具有潜伏性、传染性和破坏性的程序(29) 在计算机内存中，每个基本存储单元都被赋予一个唯一的序号，这个序号称为A. 字节B. 编号C. 编码D. 地址(30). 在微型计算机的系统总线中不包括A. 内部总线B. 地址总线C. 数据总线D. 控制总线(31) 计算机内的数有浮点和定点两种表示方法。

视频安防监控系统字符叠加基本命名规则

视频安防监控系统字符叠加基本命名规则1. 适用范围本要求规定了视频安防监控系统中叠加字符的命名规则。

安全技术防范系统基本适用。

2. 术语与定义2.1. 物理区域是指在同一个安全技术防范系统项目中涉及不同类型的需要用以区分描述的区域。

2.2. 监控部位是指在安全技术防范系统中需要设置视频监控的监控对象、区域或部位。

2.3. 时间标注是指图像或图片产生时的准确时间。

3. 基本要求视频安防监控系统中摄像机字符叠加应能明确区分摄像机监视的区域，一个视频监控系统中不能出现相同的监视区域字符。

标注时，一般不采用图片镶嵌方式标注，除个别确无法用中文标注的情况外，应采用16×16点阵简体中文汉字(字符集采用GB 18030-2000《信息技术信息交换用汉字编码字符集基本集的扩充》)和数字、字母、符号标注。

汉字要求字体为标准宋体，正方形，无空心、下划线、粗体等修饰，采用白色或能自动与背景图像颜色进行高对比反差，以清晰显示字符内容的颜色。

字符标注要求100%透明，即除了组成字符的点线图案外，字符空白处能正常显示原图像、图片的信息。

标注用汉字标准大小宜为图像或图片长和宽中较短边的1/15，要求误差不超过文字标准大小的1/20。

小号汉字大小为标准汉字大小的2/3。

半角符号高度与汉字一致，宽度为汉字的一半，字间距为0。

未特别注明时，标注内容均采用上述标准汉字尺寸。

字符叠加区域不应对图片、图像关注信息遮挡，如果有遮挡，应调整摄像机监视位置或有效画面。

4. 字符组成视频监控系统叠加字符应包含物理区域、监视部位、顺序编号以及其他必要描述等，要求能统一、简洁标明布点位置及监控目标。

完整字符格式为“（序号+物理区域）+（序号+监控部位）+摄像机编号+摄像机属性”4.1. 字符基本组成叠加字符一般为中文字符、英文字符及数字。

4.2. 名称格式名称一般由两部分组成，为“物理区域+监控部位”。

4.2.1. 标准配置表名称根据相应标准，名称选定优先依据配置表的表述。

信息技术信息交换用汉字编码字符集基本集的

ICS 35.040 L71
中华人民共和国国家标准
GB 18030— 2000
信息技术信息交换用汉字编码字符集基本集的扩充
Information technology — Chinese ideograms coded character set for information interchange — Extension for the basic set （报批稿）
1
2
3
4
GB 18030—2000
4.4
保留区 reserved zone 本标准中留作未来国际标准规定的区域。
5
字汇
本标准收录的字符分别以单字节、双字节和四字节编码。 5.1 单字节部分本标准中，单字节的部分收录了 GB 11383 的 0x00 到 0x7F 全部 128 个字符及单字节编码的欧元符号。 5.2 双字节部分本标准中，双字节的部分收录内容如下： GB 13000.1 的全部 CJK 统一汉字字符。 GB 13000.1 的 CJK 兼容区挑选出来的 21 个汉字。 GB 13000.1 中收录而 GB 2312 未收录的我国台湾地区使用的图形字符 139 个。 GB 13000.1 收录的其它字符 31 个。 GB 2312 中的非汉字符号。 GB 12345 的竖排标点符号 19 个。 GB 2312 未收录的 10 个小写罗马数字。 GB 2312 未收录的带音调的汉语拼音字母 5 个以及ɑ 和ɡ 。汉字数字“〇” 。表意文字描述符 13 个。增补汉字和部首/构件 80 个。双字节编码的欧元符号。 5.3 四字节部分本标准的四字节的部分，收录了上述双字节字符之外的，包括 CJK 统一汉字扩充 A 在内的 GB 13000.1 中的全部字符。总体结构本标准中，采用单字节、双字节和四字节三种方式对字符编码。本标准中的任何一个字节均由八位二进制位串组成，任何一个八位的值均由 0x00 至 0xFF 的十六进制记数法表示。单字节部分采用 GB 11383 的编码结构与规则，使用 0x00 至 0x80 码位。双字节部分采用两个八位二进制位串表示一个字符，其首字节码位从 0x81 至 0xFE，尾字节码位分别是 0x40 至 0x7E 和 0x80 至 0xFE。四字节部分采用 GB 11383 未采用的 0x30 到 0x39 作为对双字节编码扩充的后缀，这样扩充的四字节编码，其范围为 0x81308130 到 0xFE39FE39。见表 1 及图 1。 6

汉字字符集的概念

“计算机文化基础”教学辅导三Word 2000一、汉字字符集的概念1、国标GB2312-80《信息交换用汉字编码字符集》：该字符集收录了6763个常用汉字，其中一级汉字3755个，二级汉字3008个。

另外还收录了各种符号682个，合计7445个。

2、国标GB13000.1-1993（等同于国际标准ISO/IEC 10646.1-1993）《通用多八位编码字符集（UCS）第一部分：体系结构与基本多文种平面》：又称大字符集字库GBK，是《GB2312-80》、《GB12345-90》、《BIG5》等字符集标准的超集，一共收录了中、日、韩20902个汉字。

3、国标GB18030-2000《信息交换用汉字编码字符集基本集的扩充》是未来我国计算机系统必须遵循的基础性标准之一，收录了27564个汉字。

二、汉字信息的编码知识1、区位码：GB2312-80字符集，组成一个94*94的矩阵。

每一行称为一个“区”，每一列称为一个“位”。

一个汉字的区号和位号合在一起构成“区位码”，区位码的编码范围是：0101～9494。

2、国标码：国标码=（区位码的十六进制表示）+2020H，国标码的取值范围：2121H～7E7EH。

3、机内码：中文或西文信息在计算机系统中的代码表示称为机内码。

ASCII码是一种西文机内码，用一个字节表示。

汉字机内码用连续两个字节表示，每个字节的最高位是1。

机内码= 国标码+8080H =（区位码的十六进制表示）+A0A0H。

GB2312-80的机内码编码范围为：A1A1H～FEFEH。

4、输入码：汉字输入码是指直接从键盘输入的各种汉字输入方法的编码，属于外码。

主要分顺序码（无重码）、音码、形码和音形码或形音码四类。

5、字形码：（1）向量（矢量）法：将汉字分解成笔画，每种笔画使用一段段的直线（向量）近似地表示，这样每个字形都可以变成一连串的向量。

（2）点阵法（字模点阵码）：每一个汉字以点阵形式存储在记录介质上，有点的地方为“1”，空白的地方为“0”。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

《信息交换用汉字编码字符集基本集的扩充》(2001-09-24)
国家标准ＧＢ１８０３０－２０００《信息交换用汉字编码字符集基本集的扩充》是我国继ＧＢ２３１２－１９８０和ＧＢ１３０００－１９９３之后最重要的汉字编码标准，是未来我国计算机系统必须遵循的基础性标准之一。

为保证该标准顺利贯彻执行，国家质监总局从９月１日起首先对影响广泛的计算机操作系统进行执法检查，凡不符合该标准的产品，视为不合格产品。

为此，全国信息技术标准化技术委员会将根据有关标准和规范，组织对市场上主要的操作系统产品进行标准符合性检测。

检测要求及标准的制定
１．须经检测的产品范围
ＧＢ１８０３０是信息产品必须遵循的基础性标准，考虑到一些客观实际，采取从基础抓起，分步实施的策略。

本次对必须经检测产品的范围规定如下：
●个人计算机操作系统产品须经标准符合性测试，其他产品暂不做要求；
●凡是在ＧＢ１８０３０发布日期（２０００年３月１７日）前正式发布或出厂的产品，视为历史性产品，不在ＧＢ１８０３０的监督检查范围之内；
●在２０００年３月１７日后对历史性产品的更新版本或升级版本作为新产品对待；
●凡是在ＧＢ１８０３０实施过渡期间（即２０００年３月１７日至２００１年８月３１日）正式发布或出厂的产品，应符合ＧＢ１８０３０相关要求。

不符合标准要求的产品应采用补救措施，以达到符合标准的相关要求。

补救措施应得到全国信息技术标准化技术委员会的认可；
●凡是在ＧＢ１８０３０过渡期（即２００１年８月３１日）后正式发布或出厂的产品，必须符合ＧＢ１８０３０相关要求。

２．关于标准符合性测试
为了配合ＧＢ１８０３０的实施，信息处理产品标准符合性检测中心（设在信息产业部电子工业标准化研究所）开展了ＧＢ１８０３０各项测试的准备工作，并且对国内外多个产品进行了测试。

为了指导标准实现者沿着正确的方向尽快在产品上实现ＧＢ１８０３０，信息处理产品标准符合性检测中心于２０００年１１月提出了《ＧＢ１８０３０标准符合性检测规范》。

《检测规范》对检测使用的软件和硬件环境、测试要求、测试步骤、适用范围等做了明确而详细的规定。

检测一般要求如下：
●字汇完整性：产品的字汇范围应是国家标准ＧＢ１８０３０中所有给出字形的字符；
●体系正确性：产品必须能够正确识别和处理按照国家标准ＧＢ１８０３０进行编码的文本文件。

需要说明的是：检测范围不包括嵌入系统，如ＰＤＡ、手机；单字节货币符号的编码不在检测范围之内；操作系统为近期检查重点。

３．对少数民族文字的支持
●产品应具备支持ＧＢ１８０３０所规定我国少数民族文字编码空间的能力；
●销往我国少数民族地区的产品，鼓励安装当地少数民族字体和输入方法。

４．按国际惯例制定标准
ＧＢ１８０３０收录了２７４８４个汉字，总编码空间超过１５０万个码
位，为解决人名、地名用字问题提供了方案，为汉字研究、古籍整理等领域提供了统一的信息平台基础。

目前，我国大部分计算机系统仍然采用ＧＢ２３１２编码。

ＧＢ１８０３０与ＧＢ２３１２一脉相承，较好地解决了旧系统向新系统的转换问题，并且改造成本较小。

从我国信息技术和信息产业发展的角度出发，考虑到解决我国用户的需要及解决现有系统的兼容性和对多种操作系统的支持，采用ＧＢ１８０３０是我国目前较好的选择，而ＧＢ１３０００．１更适用于未来国际间的信息交换。

考虑到ＧＢ１８０３０和ＧＢ１３０００的兼容问题，标准起草组编制了ＧＢ１８０３０与ＧＢ１３０００．１的代码映射表，使得两个编码体系可以自由转换。

同时，还开发了ＧＢ１８０３０基本点阵字型库。

世界许多国家和地区从方便本国和民族应用的角度出发，制定了相应的编码标准和内码体系。

制定ＧＢ１８０３０同样符合国际惯例，它全面兼容ＧＢ２３１２，在字汇上兼容ＧＢ１３０００．１，可以充分利用已有资源，保证不同系统间的兼容性，最大限度地共享资源，为我国软件产业留有巨大的发展空间。

可以相信，ＧＢ１８０３０的实施将有利于国产软件的发展并形成规模，使我国的中文信息技术再上一个台阶。