汉字的机内码、国标码和机内码关系

合集下载

计算机组成原理实验报告-汉字编码与校验设计实验

实验一汉字编码与校验设计实验一、实验目的本实训将帮助同学们巩固对计算机中数据表示方法的理解，要求能设计汉字国标码与区位码之间的转换电路，能批量获取汉字机内码并用点阵形式进行显示。

通过设计16 位数据的海明编解码电路，16 位数据的CRC 并行编解码电路，帮助同学们理解校验码传输过程。

通过校验码流水传输实验帮助大家提前建立流水线的基本概念二、实验原理、内容与步骤实验原理、实验内容参考：1、汉字编码原理1)机内码与区位码区位码转换为十六进制+2020H得到国标码，国标码+8080H得到机内码。

区位码（十六进制）+A0A0H=机内码机内码-A0A0H=区位码（十六进制）2)存储器数据编辑使用实验里附带的十六进制编辑器，在使用ASCII码保存的记事本编辑，记得得到。

2、汉字编码电路设计国标转区位码汉字显示3、海明编码原理与设计1）编码原理若有效消息b1b2b3b4=1011，则先将它分别填入第3，5，6，7位，再分组进行奇偶统计，分别填入校验位P1，P2，P3的值。

这里分组采用偶校验，因此，要保证3组校验位的取值都满足偶校验规则。

各校验码的取值如下：P1=H3⊕H5⊕H7=b1⊕b2⊕b4=1⊕0⊕1=0P2=H3⊕H6⊕H7=b1⊕b3⊕b4=1⊕1⊕1=1P3=H5⊕H6⊕H7=b2⊕b3⊕b4=0⊕1⊕1=0这样就得到了海明码2）分组原理在海明码H1~Hn中，位号数（1，2，3，。

，n）为2的权值的那些位，即1（20），2，4，。

，2r-1位，作为奇偶校验码，并记作P1，P2，P3，。

，P r,余下各位则为有效信息位。

与N=11,k=7,r=4相应海明码可示意为位号 1 2 3 4 5 6 7 8 9 10 11P i占位P1P2 b1 P3 b2 b3 b4 P4 b5 b6 b7其中，b i均为有效信息。

3）校验位逻辑与电路设计海明编码4、海明解码原理与设计1)检错码原理与作用海明编码在解码过程中，被分作3组校验，每组可产生一个检错消息，3组共3个检错消息便可构成一个指错字，由G3 G2 G1组成，其中G3=P3⊕b2⊕b3⊕b4,G2=P2⊕b1⊕b3⊕b4,G1=P3⊕b1⊕b2⊕b4,3个指错字共表示8种状态，在没有出错的情况下，G3 G2 G1=000.由于在分组时就确定了每组校验位参与校验的组别，所以，指错字能准别地知错错误所在位2)错误逻辑原理与设计当目的部件接收到一-组海明码后,送人电路进行分组并检测，得到检错字信息G,G2G，这组信息通过译码电路译码,给出出错(或无错)的信号,这个信号就是纠错的依据。

区位码、国标码与机内码的转换

＝国标码；（3）国标码＋8080H＝机内码
举例：以汉字“大”为例，“大”字的区
内码为2083 解：1、区号为20，位号为83 2、将区位号2083转换为十六进制表示为 1453H 3、1453H＋2020H＝3473H，得到国标码 3473H 4、3473H＋8080H＝B4F3H，得到机内码为B4F3H
区码、国标码与机内码的转换关系方法
国标码：所有汉字编码都应该遵循这一标准，汉字机内码的编码、汉字字库的设计、汉字输入码的转换、输出设备的汉字地址码等，都以此标准为基础。GB 2312—80就是国标码。该码规定：一个汉字用两个字节表示，每个字节只有7位，与ASCII码相似。区位码：将GB 2312—80的全部字符集组成一个94×94的方阵，每一行称为一个“区”，编号为0l～94；每一列称为一个“位”，编号为 0l～94，这样得到GB 2312—80的区位图，用区位图的位置来表示的汉字编码，称为区位码。
机内码：为了避免ASCII码和国标码同时使用时产生二义性问题，大
部分汉字系统都采用将国标码每个字节高位置1作为汉字机内码。这样既解决了汉字机内码与西文机内码之间的二义性，又使汉字机内码与国标
码具有极简单的对应关系。
（1）区位码先转换成十六进制数表示（2）（区位码的十六进制表示）＋2020H

国标码转换为机内码的规则

国标码转换为机内码的规则
国标码是一种常用的汉字编码方式，但由于计算机内部使用的是机内码，因此需要将国标码转换为机内码。

转换的规则如下：
1. 对于ASCII码范围内的字符，直接使用ASCII码的对应值作为机内码。

2. 对于GB2312编码中的汉字，先将汉字的国标码分成高8位和低8位两部分，分别减去0xA0得到对应的数值，然后将这两个数值分别加上0x80和0x00，得到机内码的高8位和低8位。

3. 对于GBK编码中的汉字，采用类似的处理方式，先将汉字的国标码分成高8位和低8位两部分，分别减去0x81和0x40得到对应的数值，然后将这两个数值分别加上0x81和0x40，得到机内码的高8位和低8位。

4. 对于其他编码，可以根据具体的规则进行转换。

以上就是将国标码转换为机内码的规则，可以使得计算机正常处理中文字符，实现中文输入、显示和编辑等功能。

- 1 -。

(好)汉字机内码、国标码和区位码定义区别

1．国家标准汉字代码体系汉字字数繁多，属性丰富，因而汉字代码体系也较复杂，包括：(1)汉字机内码。

它们是汉字在计算机汉字系统内部的表示方法，是计算机汉字系统的基础代码。

(2)汉字交换码。

它们是国标汉字(如机内码)进行信息交换的代码标准。

(3)汉字输入码。

它们是在计算机标准键盘上输入汉字用到的各种代码体系。

(4)汉字点阵码。

它们是在计算机屏幕上显示和在打印机上打印输出汉字的代码体系。

(5)汉字字形控制码。

为了打印各种风格的字体和字形所制定的代码。

这些代码系统有的必须有统一的国家标准，有的则不要求统一。

近年来我国已经制定系列汉字信息处理方面的国家标准，今后将继续完善，并与国际上求得统一。

2．国家标准汉字交换码（国标码）我国制定了“中华人民共和国国家标准信息交换汉字编码”，标准代号为GB2312—80，这种编码又称为国标码。

在国标码的字符集中共收录了一级汉字3755个，二级汉字3008 个，图形符号682个，三项字符总计7445个。

国标码是指1980年中国制定的用于不同的具有汉字处理功能的计算机系统间交换汉字信息时使用的编码。

国际码是二字节码, 用两个七位二进制数编码表示一个汉字。

目前国标码收入6763个汉字, 其中一级汉字（最常用）3755个, 二级汉字3008个, 另外还包括682个西文字符、图符。

一级汉字为常用字，按拼音顺序排列，二级汉字为次常用字，按部首排列。

国标码的范围是2121H—7E7EH。

3、区位码：国标码是一个四位十六进制数，区位码是一个四位的十进制数，每个国标码或区位码都对应着一个唯一的汉字或符号，但因为十六进制数我们很少用到，所以大家常用的是区位码，它的前两位叫做区码，后两位叫做位码在国标GB2312—80中规定，所有的国标汉字及符号分配在一个94行、94列的方阵中，方阵的每一行称为一个“区”，编号为01区到94区，每一列称为一个“位”，编号为01位到94位，方阵中的每一个汉字和符号所在的区号和位号组合在一起形成的四个阿拉伯数字就是它们的“区位码”。

汉字区位码、国标码(交换码)和机内码转换方法

汉字区位码、国标码（交换码）和机内码转换方法一般换算全部用十六进制。

机内码、国际码是十六进制的，区位码是十进制的。

具体换算步骤：（H表示十六进制，D表示十进制）1.将四位区号分为两部分，两位数为一组。

2.把这两个数字转换成十六进制，用公式计算。

国际码=区位码（十六进制）+2020H机内码=国际码+8080H例如：某汉字的区位码是2534。

则25D=19H，34D=22H则国际码=1922H+2020H=3952H，机内码=3952H+8080H=B9D2H 1、转换关系：【设转为十六进制的区位码为区位码I；转换原因在第3点】•区位码I=区位码的区码(前两位)和位码(后两位)分别转十六进制再按原顺序组合起来•国标码•=区位码I+2020H 【2020H不拆分】•机内码=国标码+8080H【8080H不拆分】•机内码=区位码I+A0A0H【A0A0H不拆分】注意：区位码是十进制表示，由区(行)和位(列)组成一个二维结构，所以转换过程需要将区位码拆分后分别转十六进制。

2、例子：•将“江”的区位码2913转为机内码【末尾D代表十进制，末尾H代表十六进制】：1、2913D中区和位分别转十六进制：29D=1DH，13D=DH2、国标码=区位码+2020H=1D0DH+2020H=3D2DH3、机内码=国标码+8080H=3D2DH+8080H=BDADHor 机内码=区位码+A0A0H=1D0DH+A0A0H=BDADH3、扩展【扩展内容主要与为什么要加2020H或8080H这些有关】：区位码：每个汉字都有唯一的定位码，定位码一个字节，定位码一个字节，总共占用两个字节。

国标码：。

共7445个字符，其中一级3755个，二级3008个，图形符号682个【一级汉字按拼音排序，二级用部首排序】，全部国家标准代码被放置在94个区域中，每个区域中有94个矩阵。

每个字节占用8位，主要使用7位编码(高位为0)。

- 为啥要将区位码转为国标码？汉字编码之前，已经有了标准的ASCII，开发者只沿用了ASCII中32个控制字符其他ASCII被覆盖。

汉字编码关系

输入码、区位码、国标码与机内码我们知道，键盘是当前微机的主要输入设备，输入码就是使用英文键盘输入汉字时的编码。

目前，我国已推出的输入码有数百种，但用户使用较多的约为十几种，按输入码编码的主要依据，大体可分为顺序码、音码、形码、音形码四类，如“保”字，用全拼，输入码为码为“BAO”，用区位码，输入码为“1703”，用五笔字型则输入码为“WKS”。

计算机只识别由0、1组成的代码，ASCII码是英文信息处理的标准编码，汉字信息处理也必须有一个统一的标准编码。

我国国家标准局于1981年5月颁布了《信息交换用汉字编码字符集──基本集》，代号为GB2312-80，共对6763个汉字和682个图形字符进行了编码，其编码原则为：汉字用两个字节表示，每个字节用七位码（高位为0），国家标准将汉字和图形符号排列在一个94行94列的二维代码表中，每两个字节分别用两位十进制编码，前字节的编码称为区码，后字节的编码称为位码，此即区位码，如在二维代码表中处于17区第3位，区位码即为“1703 ”。

（教材附页可找到）国标码并不等于区位码，它是由区位码稍作转换得到，其转换方法为：先将十进制区码和位码转换为十六进制的区码和位码，这样就得了一个与国标码有一个相对位置差的代码，再将这个代码的第一个字节和第二个字节分别加上20H，就得到国标码，相当于如果不转换的话，在两个字节上分别加上32即可。

如：“保”字的国标码为3123Ｈ，它是经过下面的转换得到的：1703D－>1103H->+20H－>3123H。

国标码是汉字信息交换的标准编码，但因其前后字节的最高位为0，与ASCII码发生冲突，如“保”字，国标码为31H和23H，而西文字符“1”和“#”的SCII也为31H和23H，现假如内存中有两个字节为31H和23H，这到底是一个汉字，还是两个西文字符“1”和“#”？于是就出现了二义性，显然，国标码是不可能在计算机内部直接采用的，于是，汉字的机内码采用变形国标码，其变换方法为：将国标码的每个字节都加上128，即将两个字节的最高位由0改1，其余7位不变，也就是如果国标码是16进制的，直接加上8080H即可。

计算机基础知识

计算机基础知识请记住下面的知识点：1）汉字国标码用两个字节，每字节用7位表示，最高位位0；汉字机内码为了和ASIIC码区别，将国标码的两个字节的最高位都置为1，因此，国标码和汉字内码之间的关系为：汉字的内码=汉字的国标码+8080H。

2)汉字的输入区位码和其国标码之间的转换方法为：将一个汉字的十进制区号和十进制位号分别转换成十六进制；然后再分别加上20H，就成为此汉字的国标码。

3)汉字的输入区位码和其机内码之间的转换方法为：将一个汉字的十进制区号和十进制位号分别转换成十六进制；然后再分别加上A0H，就成为此汉字的机内码。

1、全拼或简拼汉字输入法的编码属于______。

A、区位码B、音码C、形声码D、形码答案：(B )评析：汉字编码已有四五百种之多，主要可分为形码，声码和形声码。

五笔字型是形码，它把汉字分解为若干字根，分别由字母代表；声码则是根据汉语拼音制作的编码，如双拼双音输入法；形声码是形码和声码的特点结合起来，将字根转换成拼音进行编码，兼有两者的优长。

2、当前流行的Pentium 4 CPU的字长是______。

A、32bitsB、64bitsC、8bitsD、16bits答案：( A)评析：CPU的"字长"，是CPU一次能处理的二进制数据的位数，它决定着CPU内部寄存器、ALU和数据总线的位数，字长是CPU断代的重要特征。

如果CPU的字长为8位，则它每执行一条指令可以处理8位二进制数据，如果要处理更多位数的数据，就需要执行多条指令。

当前流行的Pentium 4 CPU的字长是32位，它执行一条指令可以处理32位数据。

3、调制解调器（Modem）的主要技术指标是数据传输速率，它的度量单位是______。

A、dpiB、KBC、MIPSD、Mbps答案：(D )评析：调制解调器的主要技术指标是它的数据传输速率。

现有14.4kbps、28.8kbps、33.6kbps、56kbps几种，数值越高，传输速度越快。

国标码、机内码、区位码、ASCⅡ

国标码、机内码、区位码国家标准代码：国标码国家标准代码，简称国标码。

是中华人民共和国的中文常用汉字编码集，亦为新加坡采用。

国家标准强制标准冠以“GB”，推荐标准冠以“GB/T”，国标码是一个四位十六进制数。

现时中华人民共和国官方强制使用GB 18030标准，但较旧的计算机仍然使用GB 2312。

“GB”在计算机领域中常常表示GB 2312-80或GB 18030-2005。

两者是汉语编码系统的标准，在中国大陆和新加坡用于简体中文。

机内码：国标码是不可能在计算机内部直接采用的，于是，;汉字的机内码采用变形国标码，其变换方法为：将国标码的每个字节都加上128，即将两个字节的最高位由0改1，其余7位不变，如：由上面我们知道，“保”字的国标码为3123H，前字节为00110001B，后字节为00100011B，高位改1为10110001B和10100011B 即为B1A3H，因此，“保”字的机内码就是B1A3H。

区位码1980年，为了使每一个汉字有一个全国统一的代码，我国颁布了第一个汉字编码的国家标准：GB2312-80《信息交换用汉字编码字符集》基本集，这个字符集是我国中文信息处理技术的发展基础，也是目前国内所有汉字系统的统一标准。

区位码是一个四位的十进制数，每个区位码都对应着一个唯一的汉字或符号，但因为十六进制数我们很少用到，所以大家常用的是区位码，它的前两位叫做区码，后两位叫做位码。

ASCⅡ目前计算机中用得最广泛的字符集及其编码，是由美国国家标准局(ANSI)制定的ASCII 码（American Standard Code for Information Interchange，美国标准信息交换码），它已被国际标准化组织（ISO）定为国际标准，称为ISO 646标准。

适用于所有拉丁文字字母，ASCII码有7位码和8位码两种形式。

简介因为1位二进制数可以表示（2^1）2种状态：0、1；而2位二进制数可以表示（2^2）4种状态：00、01、10、11；依次类推，7位二进制数可以表示（2^7）128种状态，每种状态都唯一地编为一个7位的二进制码，对应一个字符（或控制码），这些码可以排列成一个十进制序号0～127。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

汉字的机内码
机内码是内部存储、处理汉字时使用的编码，用两个字节表示一个汉字；
将国标码的两个字节高位置1，避免与ASCII码冲突；
区位码、国标码和机内码关系：区位码是一种基于GB2312-80字符集(94行×94列)的输入码，使用十进制表示其区码(范围01~94)和位码(范围01~94)，各占两位，故每个汉字对应4位十进制数码(范围0101~9494)。

国标码则用16进制表示两个字节，其每字节编码范围21h~7Eh(即十进制33~126二进制00100001~01111110)，前后字节分别对应区位码的区码(加上32或20h)和位码(加上32或20h)，故汉字国标码编码范围2121h~7E7Eh。

机内码也用16进制表示两个字节，将国标码的前后两个字节最高位置1(即各加80h)就变成机内码，其每字节编码范围A1h~FEh(即二进制10100001~11111110)，故汉字机内码编码范围为A1A1h~FEFEh。

例: 汉字区位码国标码机内码沪270600011011 00000110
+ 00100000 00100000
00111011 00100110 =3B2610111011 10100110=BBA6久303500011110 00100011
+ 00100000 00100000
00111110 01000011 =3E4310111110 11000011=BEC3区位码区码位码各加上32或20h国标码两个字节最高位置1(即各加128或80h)机内码
A1A1~FEFE
(十进制) (十六进制) (十六进制)
0101~5E5E
(十六进制)
沪: 2706
(十进制) 3B26 (十六进制)BBA6 (十六进制) 1B06 (十六进制)
久: 3035
(十进制) 3E43 (十六进制)BEC3 (十六进制) 1E23 (十六进制)。