汉字是如何编码的PPT课件
合集下载
第三章汉字编码原理

㈣标调拼音码
• 汉语是有声调的语言,汉语的声调是一 个重要的“音位”,具有重要的辨义功 能。有一种乐器叫做“雷琴”,可以只 用“音高”就能模拟汉语的句子。这个 例子足以说明汉语声调的重性。
• 拼音码为了降低重码率,采用标调的办法,这 样的拼音码,我们称之为“标调拼音码”。 • 汉语的音节是有数的:不加声调只有412个, 加声调则有1300个左右。 • 汉字共有6万个。收在《基本集》中的有67 63个。 • 不加声调平均每个音节约有15个重码,加上 重码分布的不平衡,个别的音节就有几十甚至 上百个; • 如果加上声调,平均每个音节只有不到4个重 码了。
拼音编码的瓶颈
• 同音字繁多,影响输入 • 《新华字典》中,读SHI音的字有72个, • 《汉语词典》中,读YI音的字有164个。
• • • • • • • •
同音词也影响编码输入 Shi-shi的词就有如下的24条: 失实、失时、诗史、失事、 失势、施事、实施、时时、 事事、时事、时势、时世、 时式、史诗、史实、试试、 誓师、事实、适时、事势、 逝世、世事、视事、实时
• 一般的编码方案多采用26个英文字母 作码元, • 也有的在这个基础上再增加10个数目 字,使码元数增加到36个的方案, • 还有的把字母键盘区的其它功能键也利 用上的。 • 这种需要增加码元数的方案多数是形码 方案。
3、确定编码规则
• 理想的规则是“字码意义对应” 、规则简单, 好学易记,没有复杂的条件限制或特例情况。 • 实际上最难做到。 • 比如按形排序,同笔画数的字很多,同笔画的 字当中,起笔相同的也不少,甚至笔顺相同的 也有。究竟谁先谁后,难以给出一个标准。 • 按音排序也有个同音字的先后问题。同音、同 调、同笔画数的汉字再按什么条件排先后,都 是难题。 • 人为地增加许多规定,势必增加用户的学习量。
《字符编码简介》课件

Unicode编码
Unicode是国际标准字符集,Unicode编码对世界上所有的字符进行了统一编码,支持全球范围内的语 言文字。
优势与特点
能够表示语言文字、符号和各种文本字符;向后兼容ASCII码。
表示方法
采用16位二进制数表示,最多可表示65536种字符。
UTF-8编码
UTF-8是一种变长编码方案,采用1~4个字节表示所有字符,能够适应不同的字符集大小需求。
未来随着全球化的发展和互联网技术的不断进步,字符编码将越来越重要,将会更加智能化、自动化、 简化化。
智能化
自定义编码方式智能推荐。
自动化
编码自动转换,文本智能识别。
简化化
统一编码格式,消除编码冲突。
字符编码简介
字符编码是计算机中文字的数字表示方式,可以实现文本在不同系统之间的 传输和共享。
ASCII编码
ASCII码用7位二进制数表示128个字符,适用于英文环境,但无法表示其他语言字符。为了解决这个问 题,ISO-8859编码应运而生。
使用范围
仅支持英文及少量欧洲语 言。
编码规则
采用8位二进制数表示256 个字符,并在ASCII基础 上扩充。
局限性
不适用于非欧洲语言文字, 如中文、日文、韩文等。
GB2312和GBK编码
GB2312是中国采用的汉字编码,GBK是在GB2312的基础上进行扩展,以解决汉字不足的问题。
GB2312编码表
共收录7445个汉字,包括6763个汉字和682个符 号及其他字符。
GBK编码表ห้องสมุดไป่ตู้
收录21003个汉字,包括汉字、符号、图形符号 等。
优势与特点
能够表示Unicode的所有字符;兼容ASCII码;节省空间。
高中信息技术《汉字的编码》课件

二、机内码(内码)
(1)国标码-GB2312汉字编码
《信息交换用汉字编码字符集· 基本集》
1981年5月1日实施。
•Байду номын сангаас
组成:
– 第一部分:字母、数字和各种符号,包括拉丁字母、俄文、日 文平假名与片假名、希腊字母、汉语拼音等共 682 个(统称为 GB2312图形符号) – 第二部分:一级常用汉字,共3755个, 按汉语拼音排列 所有 汉字 – 第三部分:二级常用字,共3008个, 字符 6763 7445 按偏旁部首排列
计算机存储器在存入ASCII码时,占用一个字节 1Byte=8bit(计算机在存放ASCII码时,只占用一个字节右7 位,最左位补0,形如0xxxxxxx)。如“a”的ASCII码
0
补位 1bit
1
1
0
0
0
0
1
三、输出码(字型码) :
• 用于输出汉字的编码:点阵和矢量 • 点阵方式:8*8,16*16, 32*32,64*64。以“中”字为例
• /collect/urllink/5518b0 def7405b14b48df6b8
加一个自己造的文字。然后添加到全拼输入法中, 在Word中输出来。 • 1、尝试使用所造字的“内码”进行出。 • 2、观察自己所造字的“输入码”、“机内码”、“ 输出码”。
四、汉字的处理过程:
1、从键盘用拼音输入法输入:“zhong” 2、从外码表中找出与之对应的汉字机内码, 3、按照“机内码”找到存放字型码的地址, 4、取出“字型码”在屏幕上输出。
学习重点和难点
• 汉字的三种编码及其在汉字处理过程中的作用。
电脑中要输入、存储、显示汉字,需要具 备哪些条件呢?
汉字编码类型(共10张PPT)

加简化的,还有的为了缩短码长而把声母和韵母都用单字母或单字键表示的“双
拼方案”或“双打方案”。如F键既表声母F,又表韵母ang,连击两下,便是
Fang“方”字。区分同音字的字形码也多种多样。除了大部分采用偏旁部首 的信息外,还有采用起末笔或采用语义类别的
文本编码方式
类型
上述各种编码法,各有短长。例如,字表法的特点是一字一格(键), 无重码,直观性好,操作简单。缺点是需特制键盘,速度较慢。字形 分解法的好处是按形取码,不涉及字音,因而不认识的字(包括生僻 字、古字)也同样可以编码输入;但汉字形体结构非常复杂,写法也 有许多差异,分解标准不易统一,因而不少方案规则较多。拼音输入 法(包括拼音-汉字转换法)的优点是操作简捷,可以“盲打”,不 受汉字简化、字形改变的影响,符合拼音化方向,并且还便于作进一 步信息处理;缺点是不认识的字无法输入;另外,如果不加字形码或 不用以词定字法或显式选择法,同音字较难处理。
例如,字表法的特点是一字一格(键)输,无入重非码拉,直丁观字性好母,的操文作简字单(。 包括汉字)便成了多年来人们研究的课题。 汉字
这这种种编 编码码法法与与字字形形分分解解法法的的不不同同在在于于还还信要要利利息用用处某某理些些字字系音音统信信息息一。。般包括编码、输入、存储、编辑、输出和传输。编码是关键。
如F键既表声母F,又表韵母ang,连击两下,便是Fang“方”字。
一汉缺般字点在 编 是拼码需音(特码C制h前键in面盘es或,e c后速ha面度ra再较ct添慢er加。en一co些d字in汉 码g形)字码。是。编由为码汉于字(电设C计子hi的n计e一se算种ch便机a于ra现输cte入有r 计e的n算co输机di的n入g代)键码是。盘为与汉英字文设打计字的机一键种盘便完于全输兼入容计。算因机而的如代何
拼方案”或“双打方案”。如F键既表声母F,又表韵母ang,连击两下,便是
Fang“方”字。区分同音字的字形码也多种多样。除了大部分采用偏旁部首 的信息外,还有采用起末笔或采用语义类别的
文本编码方式
类型
上述各种编码法,各有短长。例如,字表法的特点是一字一格(键), 无重码,直观性好,操作简单。缺点是需特制键盘,速度较慢。字形 分解法的好处是按形取码,不涉及字音,因而不认识的字(包括生僻 字、古字)也同样可以编码输入;但汉字形体结构非常复杂,写法也 有许多差异,分解标准不易统一,因而不少方案规则较多。拼音输入 法(包括拼音-汉字转换法)的优点是操作简捷,可以“盲打”,不 受汉字简化、字形改变的影响,符合拼音化方向,并且还便于作进一 步信息处理;缺点是不认识的字无法输入;另外,如果不加字形码或 不用以词定字法或显式选择法,同音字较难处理。
例如,字表法的特点是一字一格(键)输,无入重非码拉,直丁观字性好母,的操文作简字单(。 包括汉字)便成了多年来人们研究的课题。 汉字
这这种种编 编码码法法与与字字形形分分解解法法的的不不同同在在于于还还信要要利利息用用处某某理些些字字系音音统信信息息一。。般包括编码、输入、存储、编辑、输出和传输。编码是关键。
如F键既表声母F,又表韵母ang,连击两下,便是Fang“方”字。
一汉缺般字点在 编 是拼码需音(特码C制h前键in面盘es或,e c后速ha面度ra再较ct添慢er加。en一co些d字in汉 码g形)字码。是。编由为码汉于字(电设C计子hi的n计e一se算种ch便机a于ra现输cte入有r 计e的n算co输机di的n入g代)键码是。盘为与汉英字文设打计字的机一键种盘便完于全输兼入容计。算因机而的如代何
汉字是如何编码的PPT课件

汉字是如何编码的
以奇渠
.
1
存储和单位
01100001
位(bit)存储信息的最小单位
8个位组成一个字节(Byte,缩写位B)
字节是存储信息的基本单位
1B=8bit 1KB=1024B 1MB=1024KB
1GB=1024MB 1TB=1024GB
存储一个汉字需要两个字节。由于汉字有一万多个,
常用的也有六千多个,所以编码采用两字节的低7位
国标码=2020H+区位码
例:“学”的区位码为4907D 国标. 码=3107H+2020H=5127H
3
区位码表
01-09 区为特殊符号。 10-15 区未有编码。 16-55 区为一级汉字,按拼音排序。 56-87 区为二级汉字,按部首/笔画排序。 88-94 区则未有编码。
.
4
汉字编码——汉字机内码
通常汉字显示使用16×16点阵,而汉字打印可选用24×24点阵、32×32点阵、64×64点阵 等。汉字字形点阵中的每个点对应一个二进制位,1字节又等于8个二进制位,所以16×16 点阵字形的字要使用32个字节(16×16÷8字节=32字节)存储,64×64点阵的字形要使用 512个字节。
在16×16点阵字库中的每一个汉字以32个字节存放,存储一、二级汉字及符号共8836个, 需要282.5KB磁盘空间。而用户的文档假定有10万个汉字,却只需要200KB的磁盘空间, 这是因为用户文档中存储的只是每个汉字(符号)在汉字库中的地址(内码)
目前普遍使用的汉字字型码是用点阵方式表示的,称为“点阵字模码”。所谓“点阵字模 码”,就是将汉字像图像一样置于网状方格上,每格是存储器中的一个位,16×16点阵是 在纵向16点、横向16点的网状方格上写一个汉字,有笔画的格对应1,无笔画的格对应0。 这种用点阵形式存储的汉字字型信息的集合称为汉字字模库,简称汉字字库。
以奇渠
.
1
存储和单位
01100001
位(bit)存储信息的最小单位
8个位组成一个字节(Byte,缩写位B)
字节是存储信息的基本单位
1B=8bit 1KB=1024B 1MB=1024KB
1GB=1024MB 1TB=1024GB
存储一个汉字需要两个字节。由于汉字有一万多个,
常用的也有六千多个,所以编码采用两字节的低7位
国标码=2020H+区位码
例:“学”的区位码为4907D 国标. 码=3107H+2020H=5127H
3
区位码表
01-09 区为特殊符号。 10-15 区未有编码。 16-55 区为一级汉字,按拼音排序。 56-87 区为二级汉字,按部首/笔画排序。 88-94 区则未有编码。
.
4
汉字编码——汉字机内码
通常汉字显示使用16×16点阵,而汉字打印可选用24×24点阵、32×32点阵、64×64点阵 等。汉字字形点阵中的每个点对应一个二进制位,1字节又等于8个二进制位,所以16×16 点阵字形的字要使用32个字节(16×16÷8字节=32字节)存储,64×64点阵的字形要使用 512个字节。
在16×16点阵字库中的每一个汉字以32个字节存放,存储一、二级汉字及符号共8836个, 需要282.5KB磁盘空间。而用户的文档假定有10万个汉字,却只需要200KB的磁盘空间, 这是因为用户文档中存储的只是每个汉字(符号)在汉字库中的地址(内码)
目前普遍使用的汉字字型码是用点阵方式表示的,称为“点阵字模码”。所谓“点阵字模 码”,就是将汉字像图像一样置于网状方格上,每格是存储器中的一个位,16×16点阵是 在纵向16点、横向16点的网状方格上写一个汉字,有笔画的格对应1,无笔画的格对应0。 这种用点阵形式存储的汉字字型信息的集合称为汉字字模库,简称汉字字库。
汉字编码PPT课件

7位——国际通用
3
第3页/共24页
1.2.5 字符的编码
❖ 1.西文字符的编码 ASCII码对128个字符进行了编码,这其中包括大小写英文 字母、阿拉伯数字、标点符号以及控制字符等特殊字符。 ASCII码中共有34个非图形字符(控制字符),94个可打印 字符(图形字符)。 读表1-6可知,每个符号的ASCII编码为:高3位+低4位。
22
第22页/共24页
1.2.5 字符的编码
作业
P38 选择题 14、15、16
23
第23页/共24页
谢谢您的观看!
第24页/共24页
4
第4页/共24页
1.2.5 字符的编码
❖ 1.西文字符的编码 “a”字符加
“A”字符编码为1000001(65),BCDE…依次增加 “0”数字字符编码为0110000(48),1234依次增加 ■计 算 机 内 部 用 一 个 字 节 ( 8 个 二 进 制 位 ) 存 放 一 个 7 位 ASCII码,最高位置为0。
1.2.5 字符的编码
重点:汉字编码类型及编码方式 难点:ASCII码
1
第1页/共24页
1.2.5 字符的编码
字符
西文字符 中文字符
字母、数字、 各种符号
2
第2页/共24页
1.2.5 字符的编码
❖ 1.西文字符的编码 ■ 计算机中的数据都是用二进制编码表示的,用以表示 字符的二进制编码称为字符编码。 ■ 而,计算机最常用的就是ASCII。 ■ 美国信息交换标准码ASCII,7位码(128个字符) 扩展码ASCII,8位码(256个字符)
12
第12页/共24页
1.2.5 字符的编码
❖ 3.汉字的处理过程 ■ 汉字内码:是为在计算机内部对汉字进行存储、处理 的汉字编码。 ■ 不同汉字系统使用的机内码可能不同。汉字内码的形 式有多种。 ■ 对应国标码,一个汉字的内码用2个字节存储,每个汉 字的最高位置“1”作为汉字内码的标识。
3
第3页/共24页
1.2.5 字符的编码
❖ 1.西文字符的编码 ASCII码对128个字符进行了编码,这其中包括大小写英文 字母、阿拉伯数字、标点符号以及控制字符等特殊字符。 ASCII码中共有34个非图形字符(控制字符),94个可打印 字符(图形字符)。 读表1-6可知,每个符号的ASCII编码为:高3位+低4位。
22
第22页/共24页
1.2.5 字符的编码
作业
P38 选择题 14、15、16
23
第23页/共24页
谢谢您的观看!
第24页/共24页
4
第4页/共24页
1.2.5 字符的编码
❖ 1.西文字符的编码 “a”字符加
“A”字符编码为1000001(65),BCDE…依次增加 “0”数字字符编码为0110000(48),1234依次增加 ■计 算 机 内 部 用 一 个 字 节 ( 8 个 二 进 制 位 ) 存 放 一 个 7 位 ASCII码,最高位置为0。
1.2.5 字符的编码
重点:汉字编码类型及编码方式 难点:ASCII码
1
第1页/共24页
1.2.5 字符的编码
字符
西文字符 中文字符
字母、数字、 各种符号
2
第2页/共24页
1.2.5 字符的编码
❖ 1.西文字符的编码 ■ 计算机中的数据都是用二进制编码表示的,用以表示 字符的二进制编码称为字符编码。 ■ 而,计算机最常用的就是ASCII。 ■ 美国信息交换标准码ASCII,7位码(128个字符) 扩展码ASCII,8位码(256个字符)
12
第12页/共24页
1.2.5 字符的编码
❖ 3.汉字的处理过程 ■ 汉字内码:是为在计算机内部对汉字进行存储、处理 的汉字编码。 ■ 不同汉字系统使用的机内码可能不同。汉字内码的形 式有多种。 ■ 对应国标码,一个汉字的内码用2个字节存储,每个汉 字的最高位置“1”作为汉字内码的标识。
汉字编码课件.ppt

94:美标中形象码的总数,33--126 汉字区、位码各加上32,就会与美标形象码的
范围重合,称为该字的“国标码”,与其相对应 的两个美标符号,为该字的“国标符” 如何区分国标符与美标符:国标码的两个数字 各加上128,称“准国标”或“机内码” 机内码=(区位码)H + 8080H +2020H
..
15
BIG5码
针对繁体汉字的编码,在台湾、香港的 电脑系统中得到普遍应用
非汉字
一级汉字 二级汉字
第一字节 A1~A2 A3 C6 C7~C8 A4~C5 C6 C9~F8 81~A0
第二字节 40~7E/A1~FE 40~7E/A1~E0
A1~FE 40~7E/A1~FE 40~7E/A1~FE
每一组包含256个平面(plane),每一个平面包 含256行(row),每一行包含256个字位(cell), 又称为“列”,plane、row、cell的值范围都 是从00到FF全编码
整个编码字符集的每个字符都是由4个八位序 列表示,(按照组八位、面八位、行八位、列八 位的顺序)
可编码空间为:128X256X256X256=32KX64K
..
27
UTF-8
为满足面向字节、基于ASCII码系统的需要而 制定(主要用于数据传输、互联网)
用最多达4个字节的序列来表示每个字符,为 有效分析字符串,用第一个字节指明某个多字 节序列中的字节数
通常用于数据交换
Unicode 范围
Unicode 编码点和 UTF-8 编码字符之间的关系 UTF-8 编码的字节
的变形显现形式、特殊字符等均放在此区
..
23
ISO/IEC 10646空间分配现状
范围重合,称为该字的“国标码”,与其相对应 的两个美标符号,为该字的“国标符” 如何区分国标符与美标符:国标码的两个数字 各加上128,称“准国标”或“机内码” 机内码=(区位码)H + 8080H +2020H
..
15
BIG5码
针对繁体汉字的编码,在台湾、香港的 电脑系统中得到普遍应用
非汉字
一级汉字 二级汉字
第一字节 A1~A2 A3 C6 C7~C8 A4~C5 C6 C9~F8 81~A0
第二字节 40~7E/A1~FE 40~7E/A1~E0
A1~FE 40~7E/A1~FE 40~7E/A1~FE
每一组包含256个平面(plane),每一个平面包 含256行(row),每一行包含256个字位(cell), 又称为“列”,plane、row、cell的值范围都 是从00到FF全编码
整个编码字符集的每个字符都是由4个八位序 列表示,(按照组八位、面八位、行八位、列八 位的顺序)
可编码空间为:128X256X256X256=32KX64K
..
27
UTF-8
为满足面向字节、基于ASCII码系统的需要而 制定(主要用于数据传输、互联网)
用最多达4个字节的序列来表示每个字符,为 有效分析字符串,用第一个字节指明某个多字 节序列中的字节数
通常用于数据交换
Unicode 范围
Unicode 编码点和 UTF-8 编码字符之间的关系 UTF-8 编码的字节
的变形显现形式、特殊字符等均放在此区
..
23
ISO/IEC 10646空间分配现状
2.汉字编码PPT

国标码是计算机与其他系统或设备进行汉字信息交换的国家标准 (代号为GB2312-80),其编码原则为:汉字用两个字节表示,每个字 节只使用低7位(与ASCII码相同,最高位补0)
汉字编码
二 机内码
国标码按一定的规则(最常用的3755个为一级汉字,按 拼音排序;次常用的3008个二级汉字,按偏旁部首/笔画顺序 排序)将字符排列在一个二维表中。
用区位码就可以唯一地确定一个汉字或符号。区位码是一 种没有重码的编码方案。
区位码 + 2020H = 国标码 国标码 + 8080H = 机内码
汉字编码
三 汉字输出码
汉字输出码又称汉字字形码 或汉字字模,它是将汉字字形经 过数字化后形成的一串二进制数, 用于汉字的显示和打印。汉字字 型码通常有两种表示方式:点阵 和矢量表示。
一 输入码
汉字编码
输入码又称外码,按输入码编码的主要依据,大体可分为顺序 码、音码、形码、音形码四类。
常用的汉字输入ห้องสมุดไป่ตู้有全拼、双拼、区位码、快速码、自然码、 五笔字型、首尾码、电报码以及在这些输入法上发展出来的智能 ABC、极品五笔、QQ拼音等。
汉字编码
二 机内码
机内码是计算机内部存储和处理汉字时所用的代码,又称 内码。
汉字编码
二 机内码
国标码按一定的规则(最常用的3755个为一级汉字,按 拼音排序;次常用的3008个二级汉字,按偏旁部首/笔画顺序 排序)将字符排列在一个二维表中。
用区位码就可以唯一地确定一个汉字或符号。区位码是一 种没有重码的编码方案。
区位码 + 2020H = 国标码 国标码 + 8080H = 机内码
汉字编码
三 汉字输出码
汉字输出码又称汉字字形码 或汉字字模,它是将汉字字形经 过数字化后形成的一串二进制数, 用于汉字的显示和打印。汉字字 型码通常有两种表示方式:点阵 和矢量表示。
一 输入码
汉字编码
输入码又称外码,按输入码编码的主要依据,大体可分为顺序 码、音码、形码、音形码四类。
常用的汉字输入ห้องสมุดไป่ตู้有全拼、双拼、区位码、快速码、自然码、 五笔字型、首尾码、电报码以及在这些输入法上发展出来的智能 ABC、极品五笔、QQ拼音等。
汉字编码
二 机内码
机内码是计算机内部存储和处理汉字时所用的代码,又称 内码。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
汉字机内码:计算机系统内部标识汉字的编码。一个汉字由两个字节组 成,为了与ASCII码区别,最高位均为1。
机内码=区位码+A0A0H
机内码=国标码+8080H
例:“学”字的区位码为:3107H 国标码为:5127H
机内码 =3107H+A0A0H=D1A7H =5127H+8080H=D1A7H
8080H=10000000 10000000
目前普遍使用的汉字字型码是用点阵方式表示的,称为“点阵字模码”。所谓“点阵字模 码”,就是将汉字像图像一样置于网状方格上,每格是存储器中的一个位,16×16点阵是 在纵向16点、横向16点的网状方格上写一个汉字,有笔画的格对应1,无笔画的格对应0。 这种用点阵形式存储的汉字字型信息的集合称为汉字字模库,简称汉字字库。
汉字是如何编码的
以奇渠
.
1
存储和单位
01100001
位(bit)存储信息的最小单位
8个位组成一个字节(Byte,缩写位B)
字节是存储信息的基本单位
1B=8bit 1KB=1024B 1MB=1024KB
1GB=1024MB 1TB=1024GB
存储一个汉字需要两个字节。由于汉字有一万多个,
常用的也有六千多个,所以编码采用两字节的低7位
国标码=2020H+区位码
例:“学”的区位码为4907D 国标. 码=3107H+2020H=5127H
3
区位码表
01-09 区为特殊符号。 10-15 区未有编码。 16-55 区为一级汉字,按拼音排序。 56-87 区为二级汉字,按部首/笔画排序。 88-94 区则未有编码。
.
4
汉字编码——汉字机内码
.
5
汉字编码——汉字输入码
输入码(各种输入码是不同的)
如输入“学”;拼音输xue
键盘处理
交换码 国标码高位改1
国标码:双字节,高位为0 得到“学”的国标码:
01学的机内码:11010001 10100111
.
6
汉字编码——汉字字形码
汉字在显示和打印输出时,是以汉字字形信息表示的,即以点阵的方式形成汉字图形。汉 字字形码是指确定一个汉字字形点阵的代码(汉字字形码)。一般采用点阵字形表示字符。
.
7
谢谢观看!
. 窗棂趣分享 8
共14个二进制位来表示。一般汉字的编码方案要解
决4种编码问题。
.
2
汉字的编码——汉字交换码
汉字交换码主要是用作汉字信息交换的。以国家标准局1980年颁布的 《信息交换用汉字编码字符集基本集》(代号GB2312-80)规定汉字交 换码作为国家标准汉字编码,简称国标码。
国标GB2312-80规定,所有的国际汉字和符号组成一个94*94的矩阵。 在该矩阵中,每一行称为一个“区”,每一列称为一个“位”,这样就 形成了94个区号(01~94)和94个位号(01~94)的汉字字符集。国标 码中有6763个汉字和628个其他基本图形字符,共计7445个字符。其中 规定一级汉字3755个,二级汉字3008个,图形符号682个。一个汉字所 在的区号与位号简单地组合在一起就构成了该汉字的“区位码”。在汉 字区位码中,高两位为区号,低两位为位号。因此,区位码与汉字或图 形符号之间是一一对应的。一个汉字由两个字节代码表示。
通常汉字显示使用16×16点阵,而汉字打印可选用24×24点阵、32×32点阵、64×64点阵 等。汉字字形点阵中的每个点对应一个二进制位,1字节又等于8个二进制位,所以16×16 点阵字形的字要使用32个字节(16×16÷8字节=32字节)存储,64×64点阵的字形要使用 512个字节。
在16×16点阵字库中的每一个汉字以32个字节存放,存储一、二级汉字及符号共8836个, 需要282.5KB磁盘空间。而用户的文档假定有10万个汉字,却只需要200KB的磁盘空间, 这是因为用户文档中存储的只是每个汉字(符号)在汉字库中的地址(内码)