一般汉字的编码规则

合集下载

我国汉字编码标准

我国汉字编码标准首先，我国的汉字编码标准在不同阶段都遵循了统一性、规范性和适用性的原则。

在GB2312-80发布之后，我国的计算机领域得到了长足的发展，但是随着信息化建设的深入，GB2312-80已经不能满足当今社会对汉字编码的需求。

因此，1995年发布了GBK编码，它在GB2312-80的基础上增加了对繁体字和少数民族文字的支持。

而随着国际化的发展，GB18030-2005标准的发布则进一步完善了我国汉字编码标准，使其更加符合国际标准。

其次，我国汉字编码标准的发展也受益于技术的进步和应用的需求。

随着计算机技术的不断发展，对于汉字编码的要求也越来越高。

GB18030-2005标准的发布，不仅支持了Unicode标准，还对繁体字和少数民族文字进行了更好的支持，使得我国的汉字编码标准更加符合当今信息化建设的需要。

再者，我国汉字编码标准的发展也受益于国际化的趋势。

随着我国在国际上的地位不断提升，对于国际标准的遵循和应用也越来越重要。

GB18030-2005标准的发布，使得我国的汉字编码标准更加符合国际标准，为我国在国际上的信息交流和合作提供了更好的支持。

最后，我国汉字编码标准的发展也为我国的信息化建设和文化传承提供了更好的支持。

汉字是我国的传统文化符号，对于汉字的数字化编码，不仅可以更好地保护和传承我国的传统文化，还可以更好地适应当今信息化建设的需要。

因此，我国汉字编码标准的不断完善和发展，为我国的信息化建设和文化传承提供了更好的基础和保障。

总之，我国汉字编码标准的发展经历了多个阶段，每一次的更新都是为了更好地适应当代社会的需求。

随着技术的进步、国际化的趋势以及信息化建设的需求，我国汉字编码标准将会不断完善和发展，为我国的信息化建设和文化传承提供更好的支持和保障。

五笔打字的编码规则

五笔打字的编码规‎则一、键名字：‎每个键的最前面的‎一个字。

共25个‎（依次为：王土大‎木工目日口田山‎禾白月人金言‎立水火之已子女‎又纟）打法：连‎打四下。

如：王（‎G GGG）二、‎成字字根：本身是‎一个字的字根。

‎打法：先打它所在‎的键+第一笔+第‎二笔+未笔。

如：‎西（SGHG）车‎（LGNH）手（‎R TGH）四车力‎三、高频字（又‎叫一级简码）。

共‎25个（依次为：‎一地在要工上是‎中国同和的有人‎我主产不为这‎民了发以经）打‎法：必须记住所在‎的键。

打一下+空‎格。

如：一（G+‎空格）四、一‎般字的编码规则（‎按照书写顺序）‎1、超过四码的‎：打前三码+最后‎一码如：键（QV‎F P）2、刚‎好四码的：按照书‎写顺序依次输入：‎如：照（JVKO‎）3、不足四‎码的：有几码打几‎码+未笔识别码（‎注：再不足四码加‎空格）付（WFY‎+空格）注：重‎点难点，如何判断‎未笔识别码（1、‎未笔划2、结‎构）未（FII）‎点()未笔字型‎交叉识别码表结‎构未笔划左右‎1上下2 杂‎合3横1 1‎1G 12‎F13 D‎竖2 21H ‎22J2‎3K撇3 3‎1T 32‎R33 E‎捺4 41Y‎42U4‎3I折5 5‎1N 52‎B53V‎注：半包围全包围‎的字的未笔划取被‎包围字的未笔划做‎为字的未笔划：连‎（LPK）这、边‎拆字规则：取大‎优先，兼顾直观，‎能散不连，能连不‎交词组的打法‎二字词组：取每个‎字的前两码。

例如‎：他们（WBWU‎）三字词组：取‎前两个的第一码+‎最后一个的前两码‎。

例如：计算机（‎Y TSM）四字‎词组：取每个字的‎第一码。

例如：弄‎虚作假（GHWW‎）多字词组：取‎前三个字第一码+‎最后一个字的第一‎码。

例如：中华人‎民共和国（KWW‎L）取大优先‎：尽可能取文字中‎最大的字根。

‎例1：世：第一种‎拆法：一、凵、乙‎（误）第二种拆法‎：廿、乙（正）显‎然，前者是错误的‎，因为其第二个码‎元“凵”，完全可‎以向前“凑”到“‎一”上，形成一个‎“更大”的已知码‎元“廿”。

五笔字型单字编码规则

五笔字型单字编码规则单字的五笔字型编码口诀是：五笔字型均直观，依照笔顺把码编；键名汉字打四下，基本字根请照搬；一二三末取四码，顺序拆分大优先；不足四码要注意，交叉识别补后边。

注意：五笔字型的编码最多取四个，且都用小写字母。

（1）键名汉字的输入规则在五笔字型的键盘图中，各字根键位左上角的第一个字叫键名字，共有25个：王土大木工，目日口田山，禾白月人金，言立水火之，已子女又纟键名汉字的输入方法：连击四下键名所在的键。

如：大：DDDD 口：KKKK 金：QQQQ 女：VVVV（2）成字字根汉字的输入规则在130个基本字根中，除键名字根外，本身就是汉字的字根，称为成字字根。

成字字根汉字的输入规则为：键名码（报户口）+首笔划代码+次笔划代码+末笔划代码当要输入一个成字字根时，首先把它所在的那个键打一下（俗称“报户口”），然后再依次打它的首笔划码、次笔划码、末笔划码。

注意：各个笔划代码一定是指单笔划，而不是字根，只能在“G、（横）H、（竖）T、（撇）Y、（捺）N（折）”范围内取码；如果成字字根只有两个笔划，即只能取出三个编码，则第四码以空格键结束。

如：贝：MHNY 车：LGNH 小：IHTY 戋：GGGT 马：CNNG 十：FGH※在五笔字型汉字编码中，横、竖、撇、捺、折五种单笔作为成字字根的特例，增加了两个“后缀”L码，其编码如下：一：GGLL 丨：HHLL 丿：TTLL 丶：YYLL 乙：NNLL键名汉字和成字字根汉字合称键面字。

（3）键外字的输入规则①含有四个及四个以上字根的汉字的输入其编码输入规则为：第一字根码+第二字根码+第三字根码+末字根码如：缩：纟宀亻XPWJ 型：一艹刂土GAJF②不足四个字根的汉字的输入当构成汉字的字根中只有二个字根或三个字根时，若按以上规则输入，就会造成许多重码。

如：“叭”与“只”对不足四个字根的汉字取码，应再加上一个补充代码，即：末笔字型交叉识别码。

末笔字型交叉识别码由汉字的末笔划代号和汉字的字型代号组成，共有两位数字。

第七章汉字的编码规则与输入

在按“书写顺序”拆分汉字时，不能无限制地拆下去，否则全都变成了单笔画！而应当以 “再添一个笔画便不能构成为字根”为限度，每次都拆取一个“尽可能大”的，即“尽可能笔画多”的字根。
例如：
世：第一种拆法：一、凵、乙（误）；
第二种拆法：廿、乙（正确）。
显然，前者是错误的，因为其第二个字根
“凵”，完全可以向前凑到“一”上，形成一个 “更大”的已知字根“廿”。再如：
（误）；
、一、冂、丨、刂
、冂、丨、刂（正确）。
同样，第一种拆法是错误的。因为这种拆法
第二码的“一”，作为“ ”之后的一个笔画，完全可以向前凑，与第一个字根“ ”凑成“更大”一点的字根“ ”。
总之，“取大优先”，俗称“尽量往前凑”，是一个汉字拆分中最常用到的基本规则。至于什么才算“大”，“大”到什么程度才到边，等到
例如：“新”——只能拆成“立、木、斤”，而不能拆成“立、斤、木”；
夷——只能拆成“一、弓、人”，而不能拆成“大、弓”；
中 —— 只能拆成 “ 口、丨 ” ，而不能拆成
口”。
（2）取大优先 “取大优先”，也叫做“优先取大”。它有如下两层含义：
*拆分汉字时，拆分出的字根数应该最少； *当有多种拆分方法时，应取前面字根大、笔画多的那种。
5种单笔画的编码规则与输入方法：报户口 + 单笔画 + L + L。
例如：“一”：GGLL，“丨”：HHLL
“丿”：TTLL，“丶”：YYLL
应当说明，“一”是一个极为常用的字，每次都打4下健岂不费事？别担心，GGLL只是作为全码，后边会讲到，“一”还有一个最简短的码，也叫“高频字”码，你只要打一个“G11”，再打一个空格键便可输入。

汉字区位码表

汉字区位码表第一篇：汉字区位码表的概述汉字区位码表是一套汉字的编码方案，也称“区码表”、“区位码”、“笔画码”等。

它将每个汉字编成四位数码，其中前两位是区码，后两位是位码，通过这个编码方案，计算机可以准确地识别和输入中文。

汉字区位码表的诞生，极大地方便了人们的中文信息处理和传输。

汉字区位码表的历史可以追溯到上世纪五十年代，当时苏联的一位科学家提出了汉字计算机输入输出和存储的需求，然后中国向他学习，开始研究汉字计算机编码方案。

最终，在1963年，由中国国防科工委电算技术研究所的汪孙洁教授等人，发明了汉字区位码表，并得到了国务院的批准，成为正式的中国国家标准。

汉字区位码表的编码方案基于汉字的结构和笔画，每个汉字都有其独特的区码和位码，可以在不同的汉字输入法中使用。

不同的输入法有着不同的优缺点，但其本质都是基于汉字区位码表的编码方案。

目前，汉字区位码表已经被广泛应用于各个领域，如中文搜索引擎、中文计算机输入法、中文OCR系统和中文信息处理等。

第二篇：汉字区位码表的编码规则汉字区位码表的编码方案是按照笔画数和笔画顺序编制的。

由此，每个汉字都有独特的编码规则。

汉字的笔画数分为“单简”和“复合”。

单简是指由一个构件组成的汉字，它的笔画数与该构件的笔画数相同。

而复合是指由两个或两个以上的构件组合而成的汉字，它的笔画数是各个构件的笔画数相加。

同时，每个汉字的笔画顺序也是有严格规定的，一般是从上到下、从左到右的顺序。

汉字区位码表的编码方案以区位码为主，区码表示汉字所在的区域，一共有16个区，编号为01~16，其中01~12表示中国各个省份，13表示其他中文区，14~15表示日本汉字区，16表示韩国汉字区。

而位码则表示汉字在该区的位置，其取值范围是01~94，共94个数码。

以汉字“汉”为例，它的笔画数为3，笔画顺序为“丿一氵”，区码应该是13，位码为35，所以它的区位码为1335。

而对于复合字，如“鱼”，它由“鱼”和“虫”两个构件组成，由于“鱼”笔画数为8，“虫”笔画数为6，所以“鱼”的笔画数为14，它的区码是16，位码为60，所以它的区位码为1660。

汉字的utf-8编码

汉字的utf-8编码
UTF-8 是一种可变长度的字符编码，可以用于表示Unicode 字符集中的所有字符，包括汉字。

汉字的UTF-8 编码通常是由一个或多个字节组成，具体的编码方式如下：
1. 常用汉字的编码范围：
-汉字的编码范围主要位于Unicode 的CJK（中日韩）统一表意文字区块，即U+4E00 到U+9FFF。

2. UTF-8 编码规则：
-单字节字符（ASCII 字符）：对于ASCII 字符，UTF-8 使用一个字节表示，与ASCII 编码相同。

-多字节字符（包括汉字）：UTF-8 使用多个字节表示。

汉字的编码规则如下：
-对于U+4E00 到U+7F 的范围，采用三个字节表示。

-对于U+800 到U+FFFF 的范围，采用三个字节表示。

-对于U+10000 到U+10FFFF 的范围，采用四个字节表示。

3. 汉字的例子：
-汉字"中" 的Unicode 编码是U+4E2D，其UTF-8 编码是三个字节：`E4 B8 AD`。

-汉字"国" 的Unicode 编码是U+56FD，其UTF-8 编码也是三个字节：`E5 9B BD`。

UTF-8 编码采用可变长度的方式，使得表示范围更广泛的字符需要更多的字节。

这种灵活性使得UTF-8 成为目前互联网上最为广泛使用的字符编码方案之一。

请注意，UTF-8 编码的字节顺序是固定的，不受字节顺序标记（BOM）的影响。

2.汉字编码PPT

国标码是计算机与其他系统或设备进行汉字信息交换的国家标准（代号为GB2312-80），其编码原则为：汉字用两个字节表示，每个字节只使用低7位（与ASCII码相同，最高位补0）
汉字编码
二机内码
国标码按一定的规则（最常用的3755个为一级汉字，按拼音排序；次常用的3008个二级汉字，按偏旁部首/笔画顺序排序）将字符排列在一个二维表中。
用区位码就可以唯一地确定一个汉字或符号。区位码是一种没有重码的编码方案。
区位码 + 2020H = 国标码国标码 + 8080H = 机内码
汉字编码
三汉字输出码
汉字输出码又称汉字字形码或汉字字模，它是将汉字字形经过数字化后形成的一串二进制数，用于汉字的显示和打印。汉字字型码通常有两种表示方式：点阵和矢量表示。
一输入码
汉字编码
输入码又称外码，按输入码编码的主要依据，大体可分为顺序码、音码、形码、音形码四类。
常用的汉字输入ห้องสมุดไป่ตู้有全拼、双拼、区位码、快速码、自然码、五笔字型、首尾码、电报码以及在这些输入法上发展出来的智能 ABC、极品五笔、QQ拼音等。
汉字编码
二机内码
机内码是计算机内部存储和处理汉字时所用的代码，又称内码。

汉字编码及区位码查询算法

汉字编码及区位码查询算法为了使每一个汉字有一个全国统一的代码，1980年，我国颁布了第一个汉字编码的国家标准：GB2312-80《信息交换用汉字编码字符集》基本集，这个字符集是我国中文信息处理技术的发展基础，也是目前国内所有汉字系统的统一标准。

到了后来又公布了国家标准GB18030-2000《信息交换用汉字编码字符集基本集的扩充》，简称GB18030。

由于国标码是四位十六进制，为了便于交流，大家常用的是四位十进制的区位码。

所有的国标汉字与符号组成一个94×94的矩阵。

在此方阵中,每一行称为一个"区",每一列称为一个"位",因此,这个方阵实际上组成了一个有94个区(区号分别为0 1到94)、每个区内有94个位(位号分别为01到94)的汉字字符集。

一个汉字所在的区号和位号简单地组合在一起就构成了该汉字的"区位码"。

在汉字的区位码中，高两位为区号，低两位为位号。

在区位码中，01-09区为682个特殊字符，16-87区为汉字区，包含6763个汉字。

其中16-55区为一级汉字(3755个最常用的汉字，按拼音字母的次序排列)，56-87区为二级汉字(3008个汉字，按部首次序排列)。

从汉字到区位码的转换。

区位码是与汉字一一对应的编码，用四位数字表示，前两位从01 到94称区码，后两位从01到94称位码。

一个汉字的前一半为“160＋区码”的字符，后一半为“160＋位码”的字符。

例如：“刘”的区位码是3385，其意为区码33位码85，它是由160＋33=193和160＋85=245的两个字节组成。

即C1F5，它就是汉字的gb2312 编码。

下面程序将汉字gb2312 转为相应的区位码：#include <iostream>#include <iomanip>using namespace std;int main(){// temp[0] 为高字节，temp[1] 为低字节// 当输入单个ascii 字符时，只存进temp[0]// 当输入的不是中文或单个ascii 字符时，程序退出unsigned char temp[2];cin >> temp;while(temp[1]){cout << setw(2) << setfill('0') << temp[0] - 160; // 高2 位cout << setw(2) << setfill('0') << temp[1] - 160 << endl; // 低2 位// 输入下一个字符前，先将temp[1] 清零temp[1] = 0;cin >> temp;}return 0;}字符编码简介Unicode是一种字符编码规范。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一般汉字的编码规则
一般汉字就是除了上述两类汉字之外的所有汉字，这部分汉字也称合体汉字，这是五笔字型需要处理的绝大部分汉字。

为了能正常对这些汉字进行编码，五笔字型同时规定了字根码和识别码。

1、字根码：
五笔字型的每一个字根都位于某一个键上，这个键的编码就是字根码。

任何字根，只要位于同一个键上，则它们的字根码都相同。

2、识别码：
一个汉字的识别码就是这个汉字的最后一笔的代码与
该汉字的字型结构代码相组合而成。

⑴、汉字的最后一笔代码：
汉字的最后一笔可分为五种笔画，其为横、竖、撇、捺、折，分别用代码1、2、3、4、5来表示。

⑵、汉字的字型结构代码：
五笔字型把汉字分为三种字型结构，即左右结构、上下结构和混合结构，分别用代码1、2和3来表示。

如从汉字的组成明显能分成左右两部分，则这类汉字就为左右结构型。

如从汉字的组成明显能分成上下两部分，则这类汉字就为上下结构型。

除左右结构和上下结构包括汉字
的其余汉字均为混合结构型。

例如：陈、汉、江、语、码为左右结构代码为1
字、笔、定、案、要为上下结构代码为2
虎、运、未、图、包为混合结构代码为3
⑶、汉字的识别码：
汉字识别码＝汉字最后一笔代码＋汉字字型结构码。

汉字识别码的示例见下表4-6。

表4-6 汉字识别码示例表
例字最后一笔代码字型结构代码识别码
陈捺 4 左右 1 41
识捺 4 左右 1 41
最捺 4 上下 2 42
数捺 4 左右 1 41
字横 1 上下 2 12
案捺 4 上下 2 42
问横 1 混合 3 13
包折 5 混合 3 53
虎折 5 混合 3 53
未捺 4 混合 3 43
回横 1 混合 3 13
3、一般汉字总的取码原则：
⑴、按书写顺序从左到右、从上到下、从外到内的原则。

例如：
"陈"字取码顺序是"阝"（52）、"七"（15）和"小"（43）。

"字"字取码顺序是"宀"（45）和"子"（52）。

⑵、取大优先的原则。

即尽量用笔画较多的五笔字型的基本字根来取码，而不是把其分成更小的单元来取码。

例如：
"页"字取码顺序是"丆"（13）和"贝"（25），而不是"丆"（13）、"冂"（25）和"人"（34）。

⑶、兼顾直观的原则。

为了以五笔字型基本字根来取码，有时就不一定按书写顺序来取码。

例如：
"固"字取码顺序是"囗"和"古"，而不是"冂"、"古"和"一"。

为了便于理解和记忆，传统的五笔字型把取码原则编成了一首编码口诀，在这里给出该口诀以方便学习理解和记忆：
五笔字型最直观，依照笔顺把码编；
键名汉字打四下，基本字根请照搬；
一二三末取四码，顺序拆分大优先；
不足四码要注意，交叉识别补后边。

4、一般汉字的编码规则为：
（1）、第一字根＋第二字根＋第三字根＋最后一个字根；
（2）、如果不足四个字根，则字根取完后再加该字的识别码；
（3）、如果加识别码后还不足四码，则以空格键结束。

表4-7给出了达到四字根及以上汉字编码示例。

表4-8给出了三字根汉字编码示例。

表4-9给出了二字根汉字编码示例。

表4-7 达到四字根及以上汉字编码示例表例字第一字根编码第二字根编码第三字根编码
最后字根编码键码
智31 13 23
22 TDKJ
键35 53 12
45 QVFP
握32 51 11
12 RNGF
编55 41 51
15 XYNA
搬32 31 33
54 RTEC
围24 12 51
21 LFNH
歌14 23 14
34 SKSW
照22 53 23
44 JVKO
表4-8 三字根汉字编码示例表
例字第一字根编码第二字根编码第三字根编码识别码键码
等31 12 12
42 TFFU
保34 23 14
41 WKSY
定45 11 21
42 PGHU
顺23 13 25
41 KDMY
虎21 15 25
53 HAMV
别23 24 22
21 KLJH
那53 12 52
21 VFBH
炮44 35 51
51 OQNN
表4-9 二字根汉字编码示例表
例字第一字根编码第二字根编码识别码键码
汉43 54 41 ICY
字45 52 12 PBF
伐34 15 31 WAT
位34 42 11 WUG
包35 51 53 QNV
回24 23 13 LKD
冈25 35 43 MQI
汇43 15 51 IAN
注：由于二字根汉字编码不足四码，因此最后必须以空格键结束。