国标码 区位码等的区别
什么是国标码什么是区位码什么是内码国标码、区位码、 内码 的关系

整个编码字符集应被表达为包含128(一个字节的低七位即27=128)个组,其中每个组表示256(28=256)个平面。每一平面包含256行,每行有256个字位。四个字节共32位足以包容世界上所有的字符,同时也符合现代处理系统的体系结构。
第一个平面(00组中的00平面)称为基本多文种平面,它包含字母文字、音节文字及表意文字等。它分成四个区:
如汉字的“大”国标码是3473H,在UCS的编码为00005927H,即在00组,00面,59H行,第27H字位上。
4. 汉字字形码
汉字字形码是表示汉字字形的字模数据,通常用点阵、矢量函数等方式表示,用点阵表示字形时,汉字字形码一般指确定汉字字形的点阵代码。字形码也称字模码,它是汉字的输出形式,随着汉字字形点阵和格式的不同,汉字字形码也不同。常用的字形点阵有16×16点阵、24×24点阵、48×48点阵等等。
1. 输入码
汉字的字数繁多,字形复杂,常用的汉字有6000—7000个,比英文的26个字母要多得多。在计算机系统中使用汉字,首先遇到的问题就是如何把汉字输入到计算机内。为了能直接使用西文标准键盘进行输入,必须为汉字设计相应的编码方法。汉字编码方法主要分为三类:数字编码、拼音编码和字形编码。
⑵拼音编码
拼音编码是以汉语读音为基础的输入方法。由于汉字同音字太多,输入重码率很高,因此,按拼音输入后还必须进行同音字选择,影响了输入速度。
⑶字形编码
字形编码是以汉字的形状确定的编码。汉字总数虽多,但都是由一笔一划组成,全部汉字的部件和笔划是有限的。因此,把汉字的笔划部件用字母或数字进行编码,按笔划书写的顺序依次输入,就能表示一个汉字,五笔字型、表形码等便是这种编码法,这种方法得缺点也是需要记忆很多的编码。五笔字型编码是最有影响的字形编码方法之一。
国标码、机内码、区位码、ASCⅡ

国标码、机内码、区位码国家标准代码:国标码国家标准代码,简称国标码。
是中华人民共和国的中文常用汉字编码集,亦为新加坡采用。
国家标准强制标准冠以“GB”,推荐标准冠以“GB/T”,国标码是一个四位十六进制数。
现时中华人民共和国官方强制使用GB 18030标准,但较旧的计算机仍然使用GB 2312。
“GB”在计算机领域中常常表示GB 2312-80或GB 18030-2005。
两者是汉语编码系统的标准,在中国大陆和新加坡用于简体中文。
机内码:国标码是不可能在计算机内部直接采用的,于是,;汉字的机内码采用变形国标码,其变换方法为:将国标码的每个字节都加上128,即将两个字节的最高位由0改1,其余7位不变,如:由上面我们知道,“保”字的国标码为3123H,前字节为00110001B,后字节为00100011B,高位改1为10110001B和10100011B即为B1A3H,因此,“保”字的机内码就是B1A3H。
区位码1980年,为了使每一个汉字有一个全国统一的代码,我国颁布了第一个汉字编码的国家标准:GB2312-80《信息交换用汉字编码字符集》基本集,这个字符集是我国中文信息处理技术的发展基础,也是目前国内所有汉字系统的统一标准。
区位码是一个四位的十进制数,每个区位码都对应着一个唯一的汉字或符号,但因为十六进制数我们很少用到,所以大家常用的是区位码,它的前两位叫做区码,后两位叫做位码。
ASCⅡ目前计算机中用得最广泛的字符集及其编码,是由美国国家标准局(ANSI)制定的ASCII码(American Standard Code for Information Interchange,美国标准信息交换码),它已被国际标准化组织(ISO)定为国际标准,称为ISO 646标准。
区位码、国标码与机内码的转换

=国标码; (3)国标码+8080H=机内码
举例:以汉字“大”为例,“大”字的区
内码为2083 解:1、区号为20,位号为83 2、将区位号2083转换为十六进制表示为 1453H 3、1453H+2020H=3473H,得到国标码 3473H 4、3473H+8080H=B4F3H,得到机内码 为B4F3H
区码、国标码与机内码 的转换关系方法
国标码:所有汉字编码都应该遵循这一标准,汉字机内码的编码、汉 字字库的设计、汉字输入码的转换、输出设备的汉字地址码等,都以此 标准为基础。GB 2312—80就是国标码。该码规定:一个汉字用两个字 节表示,每个字节只有7位,与ASCII码相似。 区位码:将GB 2312—80的全部字符集组成一个94×94的方阵,每 一行称为一个“区”,编号为0l~94;每一列称为一个“位”,编号为 0l~94,这样得到GB 2312—80的区位图,用区位图的位置来表示的汉 字编码,称为区位码。
机内码:为了避免ASCII码和国标码同时使用时产生二义性问题,大
部分汉字系统都采用将国标码每个字节高位置1作为汉字机内码。这样既 解决了汉字机内码与西文机内码之间的二义性,又使汉字机内码与国标
码具有极简单的对应关系。
(1)区位码先转换成十六进制数表示 (2)(区位码的十六进制表示)+2020H
计算机编码知识区位码、国标码、机内码、输入码、字

计算机编码知识区位码、国标码、机内码、输入码、字计算机编码知识--区位码、国标码、机内码、输入码、字形码2010年07月12日星期一1748在计算机中各种信息都是以二进制编码的形式存在的也就是说不管是文字、图形、声音、动画还是电影等各种信息在计算机中都是以0和1组成的二进制代码表示的计算机之所以能区别这些信息的不同是因为它们采用的编码规则不同。
比如同样是文字英文字母与汉字的编码规则就不同英文字母用的是单字节的ASCII码汉字采用的是双字节的汉字内码但随着需求的变化这两种编码有被统一的UNICODE码由Unicode协会开发的能表示几乎世界上所有书写语言的字符编码标准所取代的趋势当然图形、声音等的编码就更复杂多样了。
这也就告诉我们信息在计算机中的二进制编码是一个不断发展的、高深的、跨学科的知识领域。
1、字符英文包括字母、数字、标点、运算符等编码字符的编码采用国际通用的ASCII码American Standard Code for Information Interchange美国信息交换标准代码每个ASCII码以1个字节Byte储存从0到数字127代表不同的常用符号例如大写A的ASCII码是65小写a则是97。
由于ASCII码只用了字节的七个位最高位并不使用所以后来又将最高的一个位也编入这套编码码中成为八个位的延伸ASCIIExtendedASCII码这套内码加上了许多外文和表格等特殊符号成为目前常用的编码。
基本的ASCII字符集共有128个字符其中有96个可打印字符包括常用的字母、数字、标点符号等另外还有32个控制字符。
标准ASCII码使用7个二进位对字符进行编码对应的ISO标准为ISO646标准。
下表展示了基本ASCII字符集及其编码字母和数字的ASCII码的记忆是非常简单的。
我们只要记住了一个字母或数字的ASCII码例如记住A为650的ASCII码为48知道相应的大小写字母之间差32就可以推算出其余字母、数字的ASCII码。
(好)汉字机内码、国标码和区位码定义区别

1.国家标准汉字代码体系汉字字数繁多,属性丰富,因而汉字代码体系也较复杂,包括:(1)汉字机内码。
它们是汉字在计算机汉字系统内部的表示方法,是计算机汉字系统的基础代码。
(2)汉字交换码。
它们是国标汉字(如机内码)进行信息交换的代码标准。
(3)汉字输入码。
它们是在计算机标准键盘上输入汉字用到的各种代码体系。
(4)汉字点阵码。
它们是在计算机屏幕上显示和在打印机上打印输出汉字的代码体系。
(5)汉字字形控制码。
为了打印各种风格的字体和字形所制定的代码。
这些代码系统有的必须有统一的国家标准,有的则不要求统一。
近年来我国已经制定系列汉字信息处理方面的国家标准,今后将继续完善,并与国际上求得统一。
2.国家标准汉字交换码(国标码)我国制定了“中华人民共和国国家标准信息交换汉字编码”,标准代号为GB2312—80,这种编码又称为国标码。
在国标码的字符集中共收录了一级汉字3755个,二级汉字3008 个,图形符号682个,三项字符总计7445个。
国标码是指1980年中国制定的用于不同的具有汉字处理功能的计算机系统间交换汉字信息时使用的编码。
国际码是二字节码, 用两个七位二进制数编码表示一个汉字。
目前国标码收入6763个汉字, 其中一级汉字(最常用)3755个, 二级汉字3008个, 另外还包括682个西文字符、图符。
一级汉字为常用字,按拼音顺序排列,二级汉字为次常用字,按部首排列。
国标码的范围是2121H—7E7EH。
3、区位码:国标码是一个四位十六进制数,区位码是一个四位的十进制数,每个国标码或区位码都对应着一个唯一的汉字或符号,但因为十六进制数我们很少用到,所以大家常用的是区位码,它的前两位叫做区码,后两位叫做位码在国标GB2312—80中规定,所有的国标汉字及符号分配在一个94行、94列的方阵中,方阵的每一行称为一个“区”,编号为01区到94区,每一列称为一个“位”,编号为01位到94位,方阵中的每一个汉字和符号所在的区号和位号组合在一起形成的四个阿拉伯数字就是它们的“区位码”。
国标码区位码等的区别

即:中文内码之一,代表中文,在广泛使用,影响所及,使用量渐见普及。
“国家标准信息交换用汉字编码”(GB2312-80标准),简称国标码。
国标码是指1980年中国制定的用于不同的具有处理功能的计算机系统间交换汉字信息时使用的编码。
国际码是二字节码, 用两个七位二进制数编码表示一个汉字。
目前国标码收入6763个汉字, 其中一级汉字(最常用)3755个, 二级汉字3008个, 另外还包括682个西文字符、图符。
例如“巧”字的代码是39H 41H, 在机内形式如下: 0 1 1 1 0 0 1 1 第一0 0 0 0 0 1第二字节在计算机内部,汉字编码和西文编码是共存的,如何区分它们是个很重要的问题,因为对不同的信息有不同的处理方式。
方法之一是对于二字节的国标码,将二个字节的最高位都置成“1”, 而码所用字节最高位保持“0”,然后由软件(或硬件)根据字节最高位来作出判断。
字符代码化是指用户从键盘上输入代表某个汉字的编码。
我们把采用不同的编码系统以代表汉字进行输入的方案(如数字码、拼音码和),称为汉字的输入法,、五笔字型码、拼音码、、拼音输入法等都是其中的具体代表。
汉字通过编码输入计算机后,在其后的处理过程中,不同阶段使用不同的代码,首先通过键盘管理程序将接收到的输入编码转换为0和1构成的机内码,实现计算机的存储、加工和传输处理。
同样,存储在计算机内部的机内码也必须经转换后才能恢复汉字的“本来面目”。
这种转换通常是由计算机的输入/输出设备来实现的, 有时还需要软件来参与这种转换过程。
这个阶段的汉字代码称为字形码,用以显示和打印输出。
区位码:1980年,为了使每一个汉字有一个全国统一的代码,我国颁布了第一个汉字编码的国家标准:GB2312-80《信息交换用汉字编码字符集》基本集,这个字符集是我国中文信息处理技术的发展基础,也是目前国内所有汉字系统的统一标准。
国标码是一个四位十六进制数,区位码是一个四位的十进制数,每个国标码或区位码都对应着一个唯一的汉字或符号,但因为十六进制数我们很少用到,所以大家常用的是区位码,它的前两位叫做区码,后两位叫做位码。
输入码、区位码、国标码与机内码

输入码、区位码、国标码与机内码国家标准局1980年颁布的《信息交换用汉字编码字符集"基本集》(代号为GB2312 80)规定的汉字交换码作为国家标准汉字编码。
GB2312 80中共有7445个字符符号:汉字符号6763个一级汉字3755个(按汉语拼音字母顺序排列)二级汉字3008个(按部首笔划顺序排列)非汉字符号682个GB2312 80规定,我们知道,键盘是当前微机的主要输入设备,;输入码就是使用英文键盘输入汉字时的编码。
目前,我国已推出的输入码有数百种,但用户使用较多的约为十几种,按输入码编码的主要依据,大体可分为顺序码、音码、形码、音形码四类,如“保”?字,用全拼,输入码为码为“BAO”,用区位码,输入码为“1703”,用五笔字型则为“WKS”。
计算机只识别由0、1组成的代码,ASCII码是英文信息处理的标准编码,汉字信息处理也必须有一个统一的标准编码。
汉字交换码(国标码)主要用于汉字信息交换,我国国家标准局于1981年5月颁布了《信息交换用汉字编码字符集——基本集》,代号为GB2312-80,共对6763个汉字和682个图形字符进行了编码。
GB2312-0其编码原则为:汉字用两个字节表示,原则上,两个字节可以表示256×256=65536 种不同的符号,作为汉字编码表示的基础是可行的。
但考虑到汉字编码与其它国际通用编码,如ASCII 西文字符编码的关系,我国国家标准局采用了加以修正的两字节汉字编码方案,只用了两个字节的低7位。
这个方案可以容纳128×128=16384 种不同的汉字,但为了与标准ASCII码兼容,每个字节中都不能再用32个控制功能码和码值为32的空格以及127的操作码。
所以每个字节只能有94个编码。
这样,双七位实际能够表示的字数是:94×94=8836个。
所有的国标码汉字及符号组成一个94行94列的二维代码表。
在此方阵中,每一行称为一个"区",每一列称为一个"位"。
区位码国标码机内码的转换公式

区位码国标码机内码的转换公式
区位码、国标码和机内码是用于汉字编码的三种不同方式。
每种方式
都有相应的转换公式。
1. 区位码(QW Code):
区位码是按照笔画的先后顺序给每个汉字编码的方式。
汉字的区位码
由两个数字组成,前一个数字表示汉字所在的汉字区的编码,后一个数字
表示汉字在该区的顺序编码。
转换公式如下:
区位码=(区码-16)*94+位码+161
2. 国标码(GB Code):
国标码是按照笔画的先后顺序给每个汉字编码的方式,与区位码相似。
汉字的国标码由两个数字组成,前一个数字表示汉字所在的编码区的编码,后一个数字表示汉字在该区的顺序编码。
转换公式如下:
国标码=(区码-16)*94+位码+161
3. 机内码(Internal Code):
机内码是计算机内部使用的编码方式,与区位码和国标码不同,它用
一个整数表示一个汉字。
机内码的转换公式如下:
机内码=(区码+128)*256+位码
需要注意的是,上述公式中的区码和位码应该是指汉字的区位码或国
标码的区码和位码,而不是指ASCII码或Unicode码。
这些转换公式可以用于不同编码间的转换。
例如,如果已知一个汉字
的区位码,可以通过区位码的转换公式将其转换为国标码或机内码。
同样
地,如果已知一个汉字的国标码或机内码,也可以通过相应的公式将其转换为区位码或其他编码。
总结:区位码国标码和机内码是用于汉字编码的三种不同方式,每种方式都有相应的转换公式。
在转换时需要根据公式将一个编码方式的值转换为另一种编码方式的值。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
即GB国标码:中文内码之一,代表中文简化字,在中国大陆广泛使用,影响所及,使用量渐见普及。
“国家标准信息交换用汉字编码”(GB2312-80标准),简称国标码。
国标码是指1980年中国制定的用于不同的具有汉字处理功能的计算机系统间交换汉字信息时使用的编码。
国际码是二字节码, 用两个七位二进制数编码表示一个汉字。
目前国标码收入6763个汉字, 其中一级汉字(最常用)3755个, 二级汉字3008个, 另外还包括682个西文字符、图符。
例如“巧”字的代码是39H 41H, 在机内形式如下: 0 1 1 1 0 0 1 1 第一字节0 0 0 0 0 1第二字节在计算机内部,汉字编码和西文编码是共存的,如何区分它们是个很重要的问题,因为对不同的信息有不同的处理方式。
方法之一是对于二字节的国标码,将二个字节的最高位都置成“1”, 而ASCII码所用字节最高位保持“0”,然后由软件(或硬件)根据字节最高位来作出判断。
字符代码化是指用户从键盘上输入代表某个汉字的编码。
我们把采用不同的编码系统以代表汉字进行输入的方案(如数字码、拼音码和字形码),称为汉字的输入法,区位码、五笔字型码、拼音码、智能ABC、微软拼音输入法等都是其中的具体代表。
汉字通过编码输入计算机后,在其后的处理过程中,不同阶段使用不同的代码,首先通过键盘管理程序将接收到的输入编码转换为0和1构成的机内码,实现计算机的存储、加工和传输处理。
同样,存储在计算机内部的机内码也必须经转换后才能恢复汉字的“本来面目”。
这种转换通常是由计算机的输入/输出设备来实现的, 有时还需要软件来参与这种转换过程。
这个阶段的汉字代码称为字形码,用以显示和打印输出。
区位码:1980年,为了使每一个汉字有一个全国统一的代码,我国颁布了第一个汉字编码的国家标准:GB2312-80《信息交换用汉字编码字符集》基本集,这个字符集是我国中文信息处理技术的发展基础,也是目前国内所有汉字系统的统一标准。
国标码是一个四位十六进制数,区位码是一个四位的十进制数,每个国标码或区位码都对应着一个唯一的汉字或符号,但因为十六进制数我们很少用到,所以大家常用的是区位码,它的前两位叫做区码,后两位叫做位码。
汉字库分布情况如下:一级汉字16-55区二级汉字56-87区三级汉字1-9区空闲未用10-15区通常,在DOS下的各汉字系统中,同时按Alt键和F1键即可调用区位码输入方法。
而在Windows中常用Ctrl+空格键和Ctrl+Shift键调出区位码。
如“2901”代表“健”字,“4582”代表“万”字,“8150”代表“楮”字,这些都是汉字,用区位码还可以很轻松地输入特殊符号,比如,“0189”代表“※”(符号),“0528”代表“ゼ”(日本语),“0711”代表“Й”(俄文),“0949”代表“┭”(制表符)。
在区位码中,01-09区为特殊字符,10-55区为一级汉字(3755个最常用的汉字,按拼音字母的次序排列),56-87区为二级汉字(3008个汉字,按部首次序排列),在区位码汉字输入方法中,汉字编码无重码,在熟练掌握汉字的区位码后,录入汉字的速度是很快的,但若想记忆住全部区位码是相当困难的,常使用于录入特殊符号,如制表符、希腊字母等,这里简单介绍几个区。
部分国际区位编码区号:01 【各类符号】0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 190100、。
· ˉ ˇ ¨ 〃々- ~‖ … ' ' " " 〔〕0120 〈〉《》「」『』〖〗【】± × ÷∶∧∨∑ ∏0140 ∪∩ ∈∷√ ⊥∥∠⌒⊙∫ ∮≡ ≌≈ ∽∝≠ ≮≯0160 ≤ ≥ ∞ ∵∴♂♀° ′ ″ ℃$¤¢£‰ § № ☆★0180 ○ ● ◎◇◆□ ■ △▲ ※→ ← ↑ ↓ 〓区号:02 【各类数字】0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 190200 ⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹ⒈⒉⒊0220 ⒋⒌⒍⒎⒏⒐⒑⒒⒓⒔⒕⒖⒗⒘⒙⒚⒛⑴⑵⑶0240 ⑷⑸⑹⑺⑻⑼⑽⑾⑿⒀⒁⒂⒃⒄⒅⒆⒇①②③0260 ④⑤⑥⑦⑧⑨⑩一二三四五六七八九十0280 ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅪⅫ区号:03 【符号、字母】0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 190300 !"#¥%&'()*+,-./01230320 456789:;<=>?@ABCDEFG0340 HIJKLMNOPQRSTUVWXYZ[0360 \]^_`abcdefghijklmno0380 pqrstuvwxyz{|} ̄区号:06 【罗马字母】0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 190600 Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ Ν Ξ Ο Π Ρ Σ Τ0620Υ Φ Χ Ψ Ω α β γ δ ε ζ η0640θ ι κ λ μ ν ξ ο π ρ σ τ υ φ χ ψ ω0660 0680区号:08 【汉语拼音】0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 190800 ā á ǎ à ē é ě è ī í ǐ ì ō ó ǒ ò ū ú ǔ0820 ù ǖ ǘ ǚ ǜ ü ê ㄅㄆㄇ0840 ㄈㄉㄊㄋㄌㄍㄎㄏㄐㄑㄒㄓㄔㄕㄖㄗㄘㄙㄚㄛ0860 ㄜㄝㄞㄟㄠㄡㄢㄣㄤㄥㄦㄧㄨㄩ0880区号:09 【制表字符】0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 190900 ─ ━│ ┃┄┅┆┈┉┉┊┋┌ ┍┎┏0920 ┐ ┑┒┓└ ┕┖┗┘ ┙┚┛├ ┝┞┟┠┡┢┣0940 ┤ ┥┦┧┨┩┪┫┬ ┭┮┯┰┱┲┳┴ ┵┶┷0960 ┸┹┺┻┼ ┽┾┿╀╁┃╃╄╅╆╇╈╉╊╋0980以国家标准局1980年颁布的《信息交换用汉字编码字符集》基本集(代号为GB2312-80)规定的汉字交换码作为国家标准汉字编码。
GB2312-80中共有7445个字符符号:汉字符号6763个,一级汉字3755个(按汉语拼音字母顺序排列),二级汉字3008个(按部首笔划顺序排列),非汉字符号682个。
GB2312-80规定,所有的国标码汉字及符号组成一个94×94的方阵。
在此方阵中,每一行称为一个“区”,每一列称为一个“位”。
这个方阵实际上组成一个有94个区(编号由01到94),每个区有94个位(编号由01到94)的汉字字符集。
一个汉字所在的区号和位号的组合就构成了该汉字的“区位码”。
其中,高两位为区号,低两位为位号。
这样区位码可以惟一地确定某一汉字或字符;反之,任何一个汉字或符号都对应一个惟一的区位码,没有重码。
区位码分布情况如下:由上可以看出,所有汉字与符号的94个区,可以分为四个组:①1-15区:为图形符号区。
其中1-9区为标准符号区;10-15区为自定义符号区。
②16-55区:为一级汉字区,包含3755个汉字。
这些区中的汉字按汉语拼音顺序排序,同音字按笔画顺序列出。
③56-87区:为二级汉字区,包含3008个汉字。
这些区中的汉字是按部首笔划顺序排序的。
④88-94区:为自定义汉字区。
国标码规定,每个汉字(包括非汉字的一些符号)由2字节代码表示。
每个字节的最高位为0,只使用低7位,而低7位的编码中又有34个是用于控制的,这样每个字节只有27 - 34 = 94个编码用于汉字。
2个字节就有94×94=8836个汉字编码。
在表示一个汉字的2个字节中,高字节对应编码表中的行号,称为区号;低字节对应编码表中的列号,称为位号。
汉字国标码的范围用二进制表示是:00100001 00100001 01111110 01111110(1+32)10 (1+32)10 (94+32)10 (94+32)10 7位ASCII码是128个字符组成的字符集。
其中编码值0 31(00000000 00011111)不对应任何印刷字符,通常称为控制符,用于计算机通信中的通信控制或对计算机设备的功能控制。
编码值32(00100000)是空格字符SP。
编码值127(1111111)是删除字符DEL。
汉字国标码的起始二进制位置选择00100001即(33)10是为了跳过ASCII码的32个控制字符和空格字符。
所以,汉字国标码的高位和低位分别比对应的区位码大(32)10或(00100000)2或(20)H,即:国标码高位= 区码+ 20H (H表示十六进制),国标码低位= 位码+ 20H。
汉字是一种象形文字,无法直接用标准西文键盘输入,必须经过转换间接输入;汉字的字数也较多,不能用单字节的ASCⅡ(256个字符)来表示。
因此,按照不同的目的和需要,产生了多种汉字编码系统与汉字输入方法。
目前采用两个字节(可以表示64K字符)的汉字编码方案。
由于汉字的应用范围较广(东南亚国家),汉字的编码字符集不相同,中国大陆常用GB / GBK码,台湾BIG5。
汉字处理过程汉字系统对每个汉字预先规定输入计算机中的代码,即汉字的外部码(例如拼音输入码)。
计算机为了识别汉字,要把汉字的外部码转换成内部码(二进制代码)进行存储和处理。
输出时,还将汉字的内部码转换成汉字的字形码。
计算机处理汉字的总过程如下:键盘管理程序汉字处理程序外部(输入)码→ 机内码→ 字形(输出)码(键盘) (计算机存储、传输) (计算机输出汉字)↑ ↓↑ ↓汉字信息交换码(国标码) 汉字信息↓ ↑其它系统代码交换码用于计算机与其他系统或设备之间进行汉字代码信息交换的标准汉字代码,目前最常使用的是国标码1981年的GB2312-80, 7445; 2000的GB18030-2000,27000特点每个汉字(图形符号)用两个字节表示,每个字节只用低7位,即最高位为0的二进制码。
在128种编码表示中,有94种用来表示汉字的编码。
此标准的汉字编码表有94行、94列,分别为区号和位号。
汉字编码使用的高字节称为区码,低字节称为位码。
汉字分为两级:一级为使用频度高的常用汉字;二级为次常用的汉字;内部码也称汉字内码或汉字机内码,是计算机对汉字进行存储、运算、传码的实际代码。
特点是由0和1组成的二进制代码。
一个汉字对应一个机内码,即汉字数目=机内码数目;一般用两个字节表示一个汉字的内码且每个字节最高位为1。