汉字的编码

汉字的编码

1980年,为了使每一个汉字有一个全国统一的代码,我国颁布了第一个汉字编码的国家标准:GB2312-80《信息交换用汉字编码字符集》基本集,这个字符集是我国中文信息处理技术的发展基础,也是目前国内所有汉字系统的统一标准。

国标码是一个四位十六进制数,区位码是一个四位十进制数。每一个国标码或区位码都对应着一个唯一的汉字或字符。如:区位码'2901'代表“健”字;区位码“4582”代表“万”字。

区位码+20H=国标码

国标码+8080H=内码

汉字内码是为在计算机内部对汉字进行存储、处理的汉字代码,它应能满足存储、处理和传输的要求。当一个汉字输入到计算机后转换为内码,然后才能在机器内传输、处理。

汉字地址码是指汉字库(这里主要指整字形的点阵式字模库)中存储汉字字形信息的逻辑地址码。当需要向输出设备输出汉字时,必须通过地址码。汉字库中,字形信息都是按一定顺序(大多数按标准汉字交换码中汉字的排列顺序)连续存放在存储介质上,所以汉字地址码也大多是连续有序的,而且与汉字内码间有着简单的对应关系,以简化汉字内码到汉字地址码的转换。

汉字字形码:

经过计算机处理的汉字信息,如果要显示或打印出来阅读,则必须将汉字内码转换成人们可读的广块汉字。汉字字形码又称汉字字

模,用于汉字在显示屏或打印机输出。汉字字形码通常有两种表示方式:点阵和矢量方式。

其他汉字内码:

GB2312国标码只能表示和处理6773个汉字,为了统一地表示世界各地的文字,便于全球范围的信息交流,各级组织公布了各种汉字内码。

1、GBK码(扩充汉字内码规范)是我国制定的,对多达2万

余的简、繁汉字进行了编码,是GB码的扩充。

2、UCS码(通用多八位编码字符集)是国标标准化组织(ISO)

为各种语言字符制定的编码标准。

3、UNICODE码是另一个国际编码标准,采用双字节编码统一

地表示世界上主要的文字。目前,在网络、Windows系统

和很多大型软件中得到应用。

4、BIG5是目前中国台湾、香港地区普遍使用的一种繁体汉字

的编码标准。

相关文档
最新文档