汉字编码原理

合集下载

汉字最基本的编码

汉字最基本的编码汉字最基本的编码是指汉字的字符编码方式，它是将汉字字符映射到计算机内部存储单元的一种方式。

汉字编码是计算机处理汉字信息的基础，它使计算机能够正确地显示、输入和处理汉字。

下面将介绍几种常见的汉字编码方式。

1. ASCII编码（American Standard Code for Information Interchange，美国信息交换标准代码）ASCII编码是最早用于汉字编码的一种方式，它采用7位二进制数表示字符，共计128个字符，包括英文字母、数字和一些常用符号。

然而，ASCII编码只能表示拉丁字母和一些常用字符，对于汉字来说是不够的。

2. GB2312编码（Guojia Biaozhun 2312，国家标准2312）GB2312编码是中国国家标准局于1980年发布的一种简体中文字符集编码方式。

它采用两个字节表示一个汉字，其中第一个字节的范围是0xB0-0xF7，第二个字节的范围是0xA1-0xFE。

GB2312编码共收录了6763个常用汉字和682个非汉字字符。

3. GBK编码（Guojia Biaozhun Kuozhan，国家标准扩展）GBK编码是在GB2312编码基础上的扩展，增加了更多的汉字字符。

它使用两个字节表示一个汉字，其中第一个字节的范围仍是0xB0-0xF7，而第二个字节的范围扩展到0xA1-0xFE以及0x40-0x7E、0x80-0xFE。

GBK编码共收录了21886个汉字和682个非汉字字符。

4. Unicode编码（统一码）Unicode编码是国际上通用的字符编码标准，它为世界上几乎所有的字符都指定了一个唯一的编号。

Unicode编码使用两个字节表示一个字符，可以覆盖包括汉字在内的几乎所有字符。

最早的Unicode编码是UCS-2（Universal Character Set，通用字符集）编码，采用两个字节表示一个字符，范围为0x0000-0xFFFF。

QR码编码原理三(日本汉字和中文编码) .

一、日本汉字(KANJI)是两个字节表示的字符码，编码的方式是将其转换为13字节的二进制码制。

转换步骤为：
1、对于JIS值为8140(hex) 到9FFC(hex)之间字符：
a)将待转换的JIS值减去8140(hex)；
b)将高位字节乘以C0(hex);
c）将b)步骤生成的数据加上低位字节;
d)将结果转换为13位二进制串。

2、对于JIS值为E040(hex)到EBBF(hex)之间的字符：
a)将待转换的JIS值减去C140(hex);
b)将高位字节乘以C0(hex);
c)将b)步骤生成的数据加上低位字节;
d)将结果转换为13位二进制串。

二、中文汉字的与日文汉字转换步骤相似：
1、对于第一字节为0xA1~0xAA之间,第二字节在0xA1~0xFE之间字符：
a)第一字节减去0xA1；
b)上一步结果乘以0x60;
c）第二字节减去0xA1;
d)将b)步骤的结果加上c步骤的结果;
e)将结果转换为13位二进制串。

1、对于第一字节为0xB0~0xFA之间,第二字节在0xA1~0xFE之间字符：
a)第一字节减去0xA6；
b)上一步结果乘以0x60;
c）第二字节减去0xA1;
d)将b)步骤的结果加上c步骤的结果;
e)将结果转换为13位二进制串。

汉字字符区位码

汉字字符区位码汉字字符区位码是一种标识汉字的编码系统。

在计算机领域，使用字符编码是非常常见的，用来将字符映射为数字，这样计算机可以对字符进行处理和存储。

汉字字符区位码的作用就是将汉字映射为相应的数字编码。

汉字字符区位码采用了一种简化的编码方式，即根据汉字的部首和笔画来确定编码。

每个汉字都由部首和笔画两个部分组成，部首是汉字的首字母或者包含关键信息的部分，而笔画是指书写汉字所需的画笔的次数。

通过部首和笔画的组合，可以确定汉字的区位码。

汉字字符区位码编码的方式是按照汉字Unicode编码的范围进行划分。

Unicode 是一种国际标准，用来统一表示世界上所有的字符，包括汉字。

每个汉字都有一个唯一的Unicode码。

在Unicode编码中，汉字的编码范围是从0x4E00到0x9FA5，这些Unicode码被称为"中日韩统一表意文字"。

汉字字符区位码的编码规则如下：1. 区位码的第一位表示部首，范围是0到30，分别用0到9和A到U表示十个数字和21个字母。

2. 区位码的后两位表示笔画，范围是1到99，用两个数字来表示。

举个例子来说，如果要编码汉字"中"，首先找到这个字的部首，它的部首是"丨"，在区位码表中，"丨"的编码是"2"，然后确定它的笔画数，"中"字的笔画数是4。

所以它的区位码就是"24"。

汉字字符区位码的编码方式虽然相对简单，但仍然可以准确地表示汉字。

这种编码方式的好处是存储和处理汉字时比较高效，不需要大量的存储空间和计算资源。

而且根据区位码的规则，可以通过计算得到汉字的部首和笔画数，从而实现查找和排序等操作。

在计算机系统中，汉字字符区位码被广泛应用于中文输入法、字典和汉字排序等领域。

在输入法中，用户可以根据汉字的区位码输入中文字符，输入法根据用户的输入进行匹配。

汉字的编码方式

汉字的编码方式
汉字的编码方式是汉语书写系统中使用的最重要的一部分，它是把汉字转换成电子信号并存储在计算机中的一种方法。

随着计算机技术的不断发展，汉字编码方式也在发生着长足的变化。

汉字编码方式可以分为四大类：基本汉字编码方式、补充汉字编码方式、兼容汉字编码方式和 Unicode字编码方式。

基本汉字编码方式是最先采用的汉字编码方式，它采用了国标码的原理，将每个汉字用 5 位二进制数表示，可以表示 6 万个汉字，是目前编码方式中使用最普遍的。

但是由于早期使用的汉字编码资源太少，无法满足现代电脑的要求。

补充汉字编码方式是为了克服国标码的不足，允许用多于国标码所要求的位数，以便扩充汉字编码库，使汉字编码更加丰富，可以表示更多的汉字，但是由于字节数量太多，从而导致数据处理速度较慢。

兼容汉字编码方式是在国标码和补充汉字编码方式之间取得了平衡，以较少的位数表示更多汉字，有效地增加了汉字编码的多样性，从而节省了空间和提高了数据处理的速度，可以满足现代计算机的需求。

Unicode字编码方式是最新采用的汉字编码方式，它采用了 16 位的编码方式，可以表示 65536 个汉字，但由于编码库采用了相同的编码，从而使得汉字编码变得更加统一，而且由于编码资源丰富，它既可以表示中文字符，又可以表示其他语言的字符，使得汉
字编码更加丰富多样，从而更好地满足各种应用要求。

总之，不同的汉字编码方式都具有不同的特点，也各有所长，因此，在实际应用中，应该根据实际情况充分选择以上四种汉字编码方式中的合适方式，从而使汉字编码方式更加完善，得到更好的应用效果。

汉字字库的存储原理

汉字字库的存储原理
汉字字库的存储原理主要涉及两个方面：编码方式和存储结构。

一、编码方式：
汉字的编码方式有很多种，包括ASCII码、GB2312码、GBK码、GB18030码、Unicode码等。

其中，GB2312码是中国国家标准，GBK码是GB2312的扩展，GB18030是GBK的进一步扩展，而Unicode码则是国际通用的字符编码标准。

不同的编码方式对应不同的字符集和编码规则，其目的是为了能够表示和存储所有的汉字以及其他字符。

二、存储结构：
汉字字库的存储结构多样，常见的有平面码和压缩码两种。

1. 平面码：
平面码指的是将每个汉字固定占用一个字节或两个字节的存储空间，如GB2312和GBK码就采用了这种方式。

这种存储方式的优点是简单、直观，适合于对存储空间要求不高的场景。

但缺点是存储空间浪费，因为一个汉字可能占用多个字节的存储空间。

2. 压缩码：
压缩码指的是将汉字的存储空间进行优化压缩，减少存储空间的占用。

常见的压缩码有Huffman码和字典树码。

Huffman码是一种变长编码方式，将高频汉
字用较短的编码表示，低频汉字用较长的编码表示，以达到最佳的压缩效果。

字典树码则是一种多叉树结构，每个节点代表一个汉字，节点上存储了该汉字的编码以及其他相关信息。

这种存储方式的优点是存储空间利用率高，但缺点是编码和解码的复杂度较高。

总之，汉字字库的存储原理是通过合适的编码方式将每个汉字映射到相应的编码，然后将这些编码按照一定的存储结构进行存储，以实现对汉字的高效管理和使用。

不同的编码方式和存储结构有各自的优缺点，可以根据具体需求选择适合的方式进行存储。

汉字点阵字库原理详解+例程

汉字点阵字库原理一、汉字编码1. 区位码在国标GD2312—80 中规定，所有的国标汉字及符号分配在一个94 行、94 列的方阵中，方阵的每一行称为一个“区”，编号为01 区到94 区，每一列称为一个“位”，编号为01 位到94位，方阵中的每一个汉字和符号所在的区号和位号组合在一起形成的四个阿拉伯数字就是它们的“区位码”。

区位码的前两位是它的区号，后两位是它的位号。

用区位码就可以唯一地确定一个汉字或符号，反过来说，任何一个汉字或符号也都对应着一个唯一的区位码。

汉字“母”字的区位码是3624，表明它在方阵的36 区24 位，问号“?”的区位码为0331，则它在03区3l位。

一级汉字16-55区二级汉字56-87区三级汉字1-9区空闲未用10-15区2. 机内码汉字机内码，又称“汉字ASCII码”，简称“内码”，汉字的机内码是指在计算机中表示一个汉字的编码。

机内码与区位码稍有区别。

如上所述，汉字区位码的区码和位码的取值均在1~94 之间，如直接用区位码作为机内码，就会与基本ASCII码混淆。

为了避免机内码与基本ASCII码的冲突，需要避开基本ASCII码中的控制码(00H~1FH)，还需与基本ASCII码中的字符相区别。

为了实现这两点，可以先在区码和位码分别加上20H，在此基础上再加80H(此处“H”表示前两位数字为十六进制数)。

经过这些处理，用机内码表示一个汉字需要占两个字节，分别称为高位字节和低位字节，这两位字节的机内码按如下规则表示：高位字节= 区码+ 20H + 80H(或区码+ A0H)低位字节= 位码+ 20H + 80H(或位码+ AOH)由于汉字的区码与位码的取值范围的十六进制数均为01H~5EH(即十进制的01~94)，所以汉字的高位字节与低位字节的取值范围则为A1H~FEH(即十进制的161~254)。

例如，汉字“啊”的区位码为1601，区码和位码分别用十六进制表示即为1001H，它的机内码的高位字节为B0H，低位字节为A1H，机内码就是B0A1H。

汉字的编码方式

汉字的编码方式
汉字的编码方式是中国传统文化的重要组成部分。

汉字的编码方式是中国人用来记录和传达言语的一种独特的技术形式。

汉字的编码技术是以汉字简码、拼音码、五笔码和笔划码为主要编码方式。

汉字简码是利用一个汉字中不同部件的不同组合。

拼音码是把汉字当做音节来编码。

五笔码是把汉字当作笔画来编码，而笔划码是把汉字按照不同的笔画来编码。

汉字简码是中国汉字编码的基础，它利用一个汉字中不同部件的不同组合，构成汉字的编码方式，比如“人”是“r-e-n”，“叶”是“y-e”。

这种方式是使用最广泛的汉字编码方式，但它有一个明显的缺点，就是当一个汉字组成的词有多种写法的时候，会出现重复的编码，例如“叶”和“也”的编码都是“y-e”。

拼音码是另一种比较常用的汉字编码方式，它是把汉字当做音节来编码。

比如“人”是“n”，“叶”是“yè”。

这种方式不容易出现重复编码的情况，但它有一个显著的缺点，就是拼音码中很多汉字具有多音性，例如“草”可以表示为“cǎo”或“cào”，这会导致拼音码的准确性较低。

五笔码是把汉字当作笔画来编码，它的好处是编码的容易、准确、快速，但相对于其他方式来说，五笔码具有更大的规则性，容易引起记忆困难。

笔划码是把汉字按照不同的笔画来编码，它和五笔码有一些相似之处，但是笔划码更加复杂，更加灵活，并且更易于辨认汉字不同的笔画结构。

汉字的编码方式多种多样，每种编码方式都有各自的优点和缺点，没有一种方式是完美的。

了解汉字的编码方式，有助于我们在计算机上使用汉字，实现汉字的检索,保护中国传统文化的传承。

2.2信息的表示(编码)

1.2.2 常见的信息编码
计算机中信息的存储单位: 计算机中信息的存储单位: bit）度量数据的最小单位，表示一位二进制数码0 ① 位（bit）度量数据的最小单位，表示一位二进制数码0 1,如11001110一共有8bit。一共有8bit 或1,如11001110一共有8bit。字节（byte） bit,常用的单位有常用的单位有： ② 字节（byte） B 1B = 8 bit,常用的单位有： KB １KB=1024 Byte MB １MB=1024 KB GB １GB=1024 MB TB １TB=1024 GB Word） ③ 字（Word）在计算机内进数据处理时，一次处理的数据长度称为一个字，在计算机内进数据处理时，一次处理的数据长度称为一个字，一个字一般由若干字节组成。计算机一次能处理的二进制位数的一个字一般由若干字节组成。多少称为计算机的字长字长。多少称为计算机的字长。
两个标点符号。两个标点符号。
1.2.2 常见的信息编码
(3) 字型码汉字字型码是汉字字库中存储汉字字形点阵的代它是经过点阵数字化后的一串二进制数，码，它是经过点阵数字化后的一串二进制数，用于汉字的显示和打印。字的显示和打印。通常汉字显示用16 16点阵打印可选24 24、 16× 点阵， 24× 通常汉字显示用16×16点阵，打印可选24×24、 32×32、48×48点阵点阵。 32×32、48×48点阵。汉字采用双字节来编码。一个16 16的汉字点阵 16× 汉字采用双字节来编码。一个16×16的汉字点阵占用空间16 16/8＝ 16× 占用空间16×16/8＝32B
“中”（54区48位，国标码8680）区号+32和位号+32=国标码汉字国标码（一级3735+二级3008=6763）

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1、汉字编码原理到底怎么办到随机生成汉字的呢？汉字从哪里来的呢？是不是有个后台数据表，其中存放了所需要的所有汉字，使用程序随机取出几个汉字组合就行了呢？使用后台数据库先将所有汉字存起来使用时随机取出，这也是一种办法，但是中文汉字有这么多，怎么来制作呢？其实可以不使用任何后台数据库，使用程序就能做到这一切。要知道如何生成汉字，就得先了解中文汉字的编码原理。 1980年，为了使每一个汉字有一个全国统一的代码，我国颁布了第一个汉字编码的国家标准： GB2312-80《信息交换用汉字编码字符集》基本集，简称GB2312，这个字符集是我国中文信息处理技术的发展基础，也是国内所有汉字系统的统一标准。到了后来又公布了国家标准GB18030-2000《信息交换用汉字编码字符集基本集的扩充》，简称GB18030，编程时如果涉及到编码和本地化的朋友应该对GB18030很熟悉。这是是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标准，同时也是未来我国计算机系统必须遵循的基础性标准之一。目前在中文WINDOWS操作系统中，.Net编程中默认的的代码页就是GB18030简体中文。但是事实上如果生成中文汉字验证码只须要使用GB2312字符集就已经足够了。字符集中除了我们平时大家都认识的汉字外，也包含了很多我们不认识平时也很少见到的汉字。如果生成中文汉字验证码中有很多我们不认识的汉字让我们输入，对于使用拼音输入法的朋友来说可不是好事，五笔使用者还能勉强根据汉字的长相打出来，呵呵！所以对于GB2312字符集中的汉字我们也不是全都要用。中文汉字字符可以使用区位码来表示，见汉字区位码表 http://navicy2005.home4u.china.com/resource/gb2312tbl.htm

汉字区位码代码表 http://navicy2005.home4u.china.com/resource/gb2312tbm.htm

如果链接不上可以搜一下汉字区码表. 其实这两个表是同一回事，只不过一个使用十六进制分区表示，一个使用区位所在的数字位置表示。例如“好”字的十六进制区位码是ba c3，前两位是区域，后两位代表位置，ba处在第26区，“好”处在此区汉字的第35位也就是c3位置，所以数字代码就是2635。这就是GB2312汉字区位原理。根据《汉字区位码表》我们可以发现第15区也就是AF区以前都没有汉字，只有少量符号，汉字都从第16区B0开始，这就是为什么GB2312字符集都是从16区开始的。 2、.Net程序处理汉字编码原理分析在.Net中可以使用System.Text来处理所有语言的编码。在System.Text命名空间中包含众多编码的类，可供进行操作及转换。其中的Encoding类就是重点处理汉字编码的类。通过在.Net文档中查询Encoding类的方法我们可以发现所有和文字编码有关的都是字节数组，其中有两个很好用的方法： Encoding.GetBytes ()方法将指定的 String 或字符数组的全部或部分内容编码为字节数组 Encoding.GetString ()方法将指定字节数组解码为字符串。没错我们可以通过这两个方法将汉字字符编码为字节数组，同样知道了汉字GB2312的字节数组编码也就可以将字节数组解码为汉字字符。通过对“好”字进行编码为字节数组后

Encoding gb=System.Text.Encoding.GetEncoding("gb2312"); object[] bytes=gb.Encoding.GetBytes ("好")；

发现得到了一个长度为2的字节数组bytes，使用 string lowCode = System.Convert.ToString(bytes[0], 16); //取出元素1编码内容（两位16进制） string hightCode = System.Convert.ToString(bytes[1], 16);//取出元素2编码内容（两位16进制）

之后发现字节数组bytes16进制变码后内容竟然是{ba,c3}，刚好是“好”字的十六进制区位码（见区位码表）。因此我们就可以随机生成一个长度为2的十六进制字节数组，使用GetString ()方法对其进行解码就可以得到汉字字符了。不过对于生成中文汉字验证码来说，因为第15区也就是AF区以前都没有汉字，只有少量符号，汉字都从第16区B0开始，并且从区位D7开始以后的汉字都是和很难见到的繁杂汉字，所以这些都要排出掉。所以随机生成的汉字十六进制区位码第1位范围在B、C、D之间，如果第1位是D的话，第2位区位码就不能是7以后的十六进制数。在来看看区位码表发现每区的第一个位置和最后一个位置都是空的，没有汉字，因此随机生成的区位码第3位如果是A的话，第4位就不能是0；第3位如果是F的话，第4位就不能是F。好了，知道了原理，随机生成中文汉字的程序也就出来了，以下就是生成4个随机汉字的C#控制台代码：

3、程序代码： using System; using System.Text;

namespace ConsoleApplication { class ChineseCode { public static void Main() { //获取GB2312编码页（表） Encoding gb=Encoding.GetEncoding("gb2312"); //调用函数产生4个随机中文汉字编码 object[] bytes=CreateRegionCode(4);

//根据汉字编码的字节数组解码出中文汉字 string str1=gb.GetString((byte[])Convert.ChangeType(bytes[0], typeof(byte[]))); string str2=gb.GetString((byte[])Convert.ChangeType(bytes[1], typeof(byte[]))); string str3=gb.GetString((byte[])Convert.ChangeType(bytes[2], typeof(byte[]))); string str4=gb.GetString((byte[])Convert.ChangeType(bytes[3], typeof(byte[])));

//输出的控制台 Console.WriteLine(str1 + str2 +str3 +str4); }

/**//* 此函数在汉字编码范围内随机创建含两个元素的十六进制字节数组，每个字节数组代表一个汉字，并将四个字节数组存储在object数组中。参数：strlength，代表需要产生的汉字个数 */ public static object[] CreateRegionCode(int strlength) { //定义一个字符串数组储存汉字编码的组成元素 string[] rBase=new String [16]{"0","1","2","3","4","5","6","7","8","9","a","b","c","d","e","f"};

Random rnd=new Random(); //定义一个object数组用来 object[] bytes=new object[strlength];

/**//*每循环一次产生一个含两个元素的十六进制字节数组，并将其放入bject数组中每个汉字有四个区位码组成区位码第1位和区位码第2位作为字节数组第一个元素区位码第3位和区位码第4位作为字节数组第二个元素 */ for(int i=0;i { //区位码第1位 int r1=rnd.Next(11,14); string str_r1=rBase[r1].Trim();

//区位码第2位 rnd=new Random(r1*unchecked((int)DateTime.Now.Ticks)+i);//更换随机数发生器的

种子避免产生重复值 int r2; if (r1==13) { r2=rnd.Next(0,7); } else { r2=rnd.Next(0,16); } string str_r2=rBase[r2].Trim();

//区位码第3位 rnd=new Random(r2*unchecked((int)DateTime.Now.Ticks)+i); int r3=rnd.Next(10,16); string str_r3=rBase[r3].Trim();

//区位码第4位 rnd=new Random(r3*unchecked((int)DateTime.Now.Ticks)+i); int r4; if (r3==10) { r4=rnd.Next(1,16); } else if (r3==15) { r4=rnd.Next(0,15); } else { r4=rnd.Next(0,16); } string str_r4=rBase[r4].Trim();

//定义两个字节变量存储产生的随机汉字区位码 byte byte1=Convert.ToByte(str_r1 + str_r2,16); byte byte2=Convert.ToByte(str_r3 + str_r4,16); //将两个字节变量存储在字节数组中 byte[] str_r=new byte[]{byte1,byte2};

//将产生的一个汉字的字节数组放入object数组中 bytes.SetValue(str_r,i);

} return bytes; } }

} 实现了随机生成汉字后，就可以使用.Net GDI来绘制自己需要的验证码图形了。具体的怎样生成验证码图片，以及改变其中字符的长和宽等效果网上已经有很多相关的文章，这里由于篇幅就不再介绍了。不过有一点要说明的是以上代