第七章 汉字的编码规则与输入

合集下载

计算机汉字编码

计算机汉字编码

计算机汉字编码(最新版)目录一、计算机汉字编码的概述二、汉字编码的方式三、常用的汉字编码系统四、汉字编码的应用五、汉字编码的发展趋势正文一、计算机汉字编码的概述计算机汉字编码是一种将汉字转换成计算机可以识别和处理的二进制编码的方法。

汉字作为中华文化的重要组成部分,拥有丰富的内涵和表达能力,是中文信息处理的基础。

然而,计算机内部处理的是二进制数据,因此需要将汉字转换成二进制编码,以便在计算机内部进行存储和传输。

二、汉字编码的方式汉字编码的方式主要有两种:内码和外码。

内码是指计算机内部存储和处理汉字时所采用的编码方式,常见的内码有 GBK、UTF-16、UTF-32 等。

外码则是指在输入和输出时所采用的编码方式,如 GB2312、GBK、Unicode 等。

三、常用的汉字编码系统1.GB2312:是我国最早制定的汉字编码系统,包含了 6763 个汉字,主要应用于简体中文环境。

2.GBK:是在 GB2312 基础上扩展的汉字编码系统,包含了 21003 个汉字,主要应用于繁体中文环境。

3.Unicode:是一种全球性的字符编码系统,包含了世界上所有语言的字符,包括汉字。

Unicode 有多种实现方式,如 UTF-16、UTF-32 等。

四、汉字编码的应用汉字编码广泛应用于各种中文信息处理系统中,如文本编辑器、浏览器、操作系统等。

通过汉字编码,我们可以在计算机中存储、传输和处理汉字信息。

同时,汉字编码也为汉字的输入和输出提供了方便,如拼音输入法、五笔输入法等。

五、汉字编码的发展趋势随着计算机技术的发展,汉字编码也在不断演进。

未来的汉字编码将会更加简洁、高效,以适应计算机处理速度和存储容量的需求。

汉字编码

汉字编码

(4)汉字字形码:为了汉子的输出显示和打印,需要描述汉字的 字形,汉子的字形通常有两种表示方式:点阵方式和矢量方式。
(3)
那么,想要看到二者的不同,其实很简单,在C:\WINDOWS\Fonts, 里面有多种字体,其中扩展名为TTF的是矢量字库,扩展名为FON的, 是点阵字库,可以看到,基本上都是矢量字库。
二进制: 0 0 1 1 0 0 0 0 机内码: 1 0 1 1 0 0 0 0
0 0 1 0 0 0 0 1
1 0 1 0 0 0 0 1
“啊”的机内码:(B0A1)16
2.3.3 汉字编码_汉字字形码
汉字显示的时候是以字形码显示的,字形码有两种,点阵和矢量。 点阵就是有笔画的地方有黑点,没笔画的地方有白点,原理类似于位图, 因此放大后,会有小方块出现。而矢量方式显示的汉字则不会变模糊, 还是那么圆滑,类似于矢量图。
2.3.3 非数值信息编码_汉字编码
汉字的特点
图形文字; 常用汉字多;
形状和笔画差异很大;
决定了汉字字符的编码方案必须完全不同于
西文的编码方案; 必须解决汉字的输入编码、存储编码、显示 和打印字符的编码问题。
2.3.3 汉字编码_汉字字库
汉字 输入码 “Xi”
集· 基本集》作为国家标准GB2312-80编码字符集, 称为区位码
每个汉字采用两个字节表示。分别表示其所在的
区号(两位十进制)和位号(两位十进制)。
GB2312-80规定,所有的国标汉字和符号组成一个
94*94的矩阵,该矩阵中的每一行称为一个“区”, 每一列称为一个“位”。
2.3.3 汉字编码_国际码
2.3.3 汉字编码_处理码
(3) 处理码(机内码): 计算机系统内部存储、处理和传输汉字所使用

汉字编码

汉字编码
信息的编码
——汉字的编码 汉字的编码
汉字有多少? 汉字有多少?
• • • • • • • • • • 《说文解字》(公元100年)收9353字; 说文解字》 公元100年 100 9353字 声类》 227-239年 11520字 《声类》(227-239年)收11520字; 玉篇》 543年 22726字 《玉篇》(543年)收22726字; 唐韵》 751年 26194字 《唐韵》(751年)收26194字; 类篇》 1066年 31319字 《类篇》(1066年)收31319字; 字汇》 1615年 33179字 《字汇》(1615年)收33179字; 《康熙字典》(1716年)收47035字; 康熙字典》 1716年 47035字 中华大字典》 1915年 48000字 《中华大字典》(1915年)收48000字; 中文大字典》 1968年 49905字 《中文大字典》(1968年)收49905字; 汉语大字典》 1986年 56000字 《汉语大字典》(1986年)收56000字。
汉 字 编 码
2、汉字信息的交换 、
交换码— 交换码—区位码
为了方便数字系统之间汉字 信息通信交换的需要, 信息通信交换的需要,1981年, 年 国家颁布了编号为GB2312—80 国家颁布了编号为 标准《 标准《信息交换用汉字编码及字 符集》 符集》,这种汉字交换用的代码 又称区位码。 又称区位码。
汉 字 编 码
输入码( 输入码 外码) 1、汉字输入 ——输入码(外码)
输 自动识别方式 入 汉 字 有 两 种 方 将汉字编码输入 法: 输入码(外码) 输入码(外码) 汉字字型自动识别 汉字语音自动识别
拼音码) 音码 (拼音码) (五笔字型码) 形码 五笔字型码) 形音码

汉字的编码

汉字的编码

1.两个字根的汉字编码输入规则为: 1.两个字根的汉字编码 两个字根的汉字编码输入规则为:
第一字根码+第二字根码+末笔字型交叉识别码+ 第一字根码+第二字根码+末笔字型交叉识别码+空格
2.三个字根的汉字编码输入规则为: 2.三个字根的汉字编码 三个字根的汉字编码输入规则为:
第一字根码+第二字根码+第三字根码+ 第一字根码+第二字根码+第三字根码+末笔字型交叉识别码
二。含有四个及四个以上字根的汉字的输入
第一字根码+第二字根码+第三字根码+ 第一字根码+第二字根码+第三字根码+末字根码 如:四根字
照:日 刀 口 灬 型:一艹 刂 土 多字根 戆:立 早 夂 心
JVKO GAJF UJTN
z键的使用
z键称为“万能学习键”。可以通过z键 键称为“万能学习键” 可以通过z 提供帮助,一切未知的编码都可以用z 提供帮助,一切未知的编码都可以用z键来 表示。它有两个主要的作用: 表示。它有两个主要的作用:①代替未知 的识别码。 的识别码。②代替模糊不清或分解不准的 字根。 字根。
学生上机练习
字 字根 字根编码 末笔 字形 识别码 整字码
相: 木 目 S H 一1 左右型1 11 G S HG 朴: 木 卜 S H 丶4 左右型1 41 Y S HY 音: 立 日 U J 一1 上下型2 12 F UJF 丨2 上下型2 22 J UJJ 章: 立 早 U J 丨2 杂合型3 23 K FMK 击: 二 山 F M 丶4 杂合型3 43 I GOI 灭: 一 火 G O 丨2 左右型1 21 H S RH 析: 木 斤 S R 加识别码的目的是为了减少重码,加快选字,

汉字编码基础

汉字编码基础

汉字编码基础
一.在汉字的录入方面,音码很够解决许多速度 要求不高的录入问题,并且取得了很好的效果, 但再好的音码很难解决重码问题.
如:当双拼输入法的词语编码不断增加时,重码现象便会越 来越严得,而且随着新词的不断推出,重码现象还会加得重. 对于录入速度要求高的速记,排版和专业工作人员,重码会 限制其录入速度.自然地,另外一条出路便是形码.
五笔字型的拆字原则
• 在分析汉字的字型结构时,是把各个基本字根组成汉字,而在录入时要把已 有的汉字拆分成若干个基本字根.即”组字”的逆过程-“拆字”。拆字 的原则可归结为这样几点: • 1.取在优先:在拆分时,本着”再加一笔,便不再是最大笔划字根’的原则, 每次均选择拆出最大的、笔划数最多的字根。如:天(GD)而不是 (FW). • 2.兼顾直观:拆字的目的是为方便地输入汉字,如果拆分出的字根有较 好的直观性,可能牺牲“书写顺序”和“取大优先”的原则。而形成 “例外处理”情况。 • 3.能连不交:单体结构能按“连”关系拆分时的,则不要按“交”关系 拆分。因为“连”更能显示码元笔晓的结构特征。如:天(GD)而不是 (FW,否则二者相交)。 • 4.能散不连:如果一个单体结构可以视为几个基本字根的“散”关系, 则汪要视为“连”关系。有时候,治字的几个字根之间的关系在“散” 和“连”之间,难于确定,遇到这种情况时,处理的原则“只要不是单 笔划,则均按散关系处理”。如:占,都不是单笔划,应视为上下关系) 严(GOD),(后两笔非单笔划,应视为上下关系)而不是拆为“一横” 加上“业”再加上“厂”。
汉字的三种字型
• • • • • • • • 以用字根组成汉字,根据字要有之间在汉字中所处的位置关系,可把成千 上万的汉字分为三种类型,即左右型、上下型、杂合型,分别赋予代号1、 2、3。 左右型:包括双合字和三合字。 双合字:两个部分分列左右,整个汉字中有着明显的界线,字根间有距 离。如:灶、明、现、但、咽等。 三合字:整个字的三个部分从左至右排弄,或者单独占据一边的部分与 另外两部分按左右型式排列。如:例、别、说等。 上下型:也也括双合字和三合字。 双合字:上下型双合字中,两个部的按上下排列,并有着明显的界线, 各部分间有距离。如:军、字、晋等。 三合字:三合字中,三个部分也按上下排列,或同层的部分上下排列。 如:意、想、花等。 杂合型:指汉字的各个字根交叠在一起,不能明显地分成上下或左右部 分。这类字中多为单体、内外、包围等字型。如:司、周、区、天、飞、 本等。

计算机基础知识:汉字编码

计算机基础知识:汉字编码

计算机基础知识:汉字编码本篇文章来源于:/xinjiang/中公新疆事业单位招聘考试网【导语】在事业单位考试中,计算机专业知识的复习向来是考生复习备考阶段的一大重点,其中中公事业单位考试网为计算机基础知识的复习为考生提供知识点梳理,帮助考生备考!一、《信息交换用汉字编码字符集·基本集》GB2312-80中规定了信息交换用的6763个汉字和682个非汉字图形符号的代码。

在此标准中,每个汉字(图形符号)采用2个字节表示。

此标准的汉字编码表有94行、94列。

其行号称为区号,列号称为位号。

双字节中,用高字节表示区号,低字节表示位号。

二、汉字的机内码汉字的机内码是供计算机系统内部进行存储、加工处理、传输统一使用的代码。

目前使用最广泛的是一种两个字节的机内码,即,存储一个汉字要占用两个字节。

三、汉字的输入码的分类(一)以汉字发音进行编码的音码;(二)按汉字书写的形式进行编码的形码;(三)音形结合的编码;(四)序号码,又叫流水码。

四、汉字的输出码汉字的输出码实际上是汉字的字型码,由汉字的字模信息组成的。

汉字是一种象形文字,每个汉字都可以看成一个特定的图形。

由于图形可以用点阵、向量等方式表示,汉字也有这两种方式表示字形。

点阵方式,就是将汉字分解成由若干个点组成的点阵字型,将此点阵字型置于网状方格上,每个方格是点阵中的一个“点”。

汉字字形点阵中每个点的信息要用一位二进制码来表示。

在汉字的点阵字库中,每个字节的每个位都代表一个汉字的一个点,每个汉字都是由一个矩形的点阵组成,0代表没有,1代表有点,将0和1分别用不同颜色画出,就形成了一个汉字。

矢量方式,是以数学的向量方式来描述记录汉字图像内容,在显示、来打印这一类字库时,要经过一系列的数学运算才能输出结果,但是这一类字库保存的汉字理论上可以被无限地放大,笔划轮廓仍然能保持圆滑,打印时使用的字库多为此类字库。

五、汉字字库是汉字字形数字化后,以二进制文件形式存储在存储器中而形成的汉字字模库。

汉字编码系统汉字编码

汉字编码系统汉字编码

为了最终显示和打印汉字,还要由汉字的机内码来换取汉字的字形码。实际上,每一个汉字的机内码也就是指向该汉字字形码的地址。
(4)汉字输出码
输出码概念:汉字输出码又称汉字字形码或汉字字模,它是将汉字字形经过点阵数字化后形成的一串二进制数,用于汉字的显示和打印。
点阵字型编码是一种最常见的字型编码,它用一位二进制码对应屏幕上的一个像素点,字形笔划所经过处的亮点用1表示,没有笔划的暗点用0表示。
采用两个字节对每个汉字进行编码,每个字节各取七位,这样可对128×128=16384个字符进行编码。
③区位码: 国家标准码先把汉字排列在一个94行×94行的方阵(二维表格)中,在此正方形矩阵中,每一行称为“区”,每一列称为“位”,这样组成了一个共有94区,每个区有94位的字符集。由这个字符集矩阵表,引出了表示汉字的两种编码,一种称这区位码,另一种被称为国标码。这两种编码都是由两个字节组成,高字节表示“区”的代码,低字节表示“位”的代码。
常见的字库:由于输出的需要,人们设计了不同字体的字形,相应也有不同的字库。有宋体字库、楷体字库、隶书字库等。
2、汉字的输入
(1)汉字输入方法概述
目前常用的汉字输入方式有:键盘输入方式、语音输入方式、手写输入方式以及扫描识别方式等。
语音输入方式:是指人们对着话筒讲话,计算机自动在屏幕上显示出对应的语句。
种类:
流水码:根据汉字的排列顺序形成汉字编码,如区位码、国标码、电报码等。
音码:根据汉字的“音”形成汉字编码,如全拼码、双拼码、简拼码等。
形码:根据汉字的“形”形成汉字编码,如王码五笔、郑码、大众码等。
音形码:根据汉字的“音”和“形”形成汉字编码,如表形码、钱码、智能ABC等。

汉字最基本的编码

汉字最基本的编码

汉字最基本的编码汉字的编码是指将汉字转换为计算机能够认识和处理的数字代码,也就是将汉字字符映射为二进制数据。

汉字的编码方式有很多种,常见的有Unicode、GBK、GB2312、UTF-8等编码方式。

接下来将逐一介绍这些编码方式并对比它们的特点。

1. Unicode编码:Unicode是一种字符编码标准,它为世界上所有的字符分配了一个唯一的编号,包括汉字在内。

Unicode编码使用两个字节(16位)表示一个字符,范围从U+0000到U+FFFF,共65536个码位。

但是由于汉字数量众多,Unicode编码的存储空间并不够高效。

2. GBK编码:GBK编码是中国国家标准GB2312-1980的扩展,它兼容GB2312编码,并且能够表示更多的字符。

GBK编码使用两个字节(16位)表示一个字符,范围从0x8140到0xFEFE之间的字符。

由于GBK编码支持繁体汉字和部分生僻字,因此它比GB2312编码更具扩展性。

3. GB2312编码:GB2312编码是中国国家标准,是为了满足基本汉字的编码需要而制定的,它使用两个字节(16位)表示一个字符,范围为0xA1A1到0xFEFE之间的字符。

GB2312编码包含了6763个字符,其中包括6763个常用汉字和非汉字字符。

4. UTF-8编码:UTF-8编码是一种在网络上通用的编码方式,它不仅可以表示全世界范围内的字符,而且与ASCII编码兼容。

UTF-8编码使用1到4个字节表示一个字符,通过变长编码,能够节省存储空间。

对于汉字来说,UTF-8编码使用3个字节表示一个字符,范围从0xE4B880到0xFBBFFF之间的字符。

以上是汉字最基本的编码方式,每种编码方式都有其特点和应用场景。

Unicode编码是一种通用性较强的编码方式,可以表示全世界范围内的字符,但存储空间较大。

GBK和GB2312编码是为了满足汉字编码需要而制定的,前者兼容后者并支持更多字符。

UTF-8编码是在网络上通用的编码方式,具有变长编码和与ASCII编码兼容的优点。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在按“书写顺序”拆分汉字时,不能无限制 地拆下去,否则全都变成了单笔画!而应当以 “再添一个笔画便不能构成为字根”为限度,每 次都拆取一个“尽可能大”的,即“尽可能笔画 多”的字根。
例如:
世:第一种拆法:一、凵、乙(误);
第二种拆法:廿、乙(正确)。
显然,前者是错误的,因为其第二个字根
“凵”,完全可以向前凑到“一”上,形成一个 “更大”的已知字根“廿”。再如:
(误);
、一、冂、丨、刂
、冂、丨、刂(正确)。
同样,第一种拆法是错误的。因为这种拆法
第二码的“一”,作为“ ”之后的一个笔画, 完全可以向前凑,与第一个字根“ ”凑成“更 大”一点的字根“ ”。
总之,“取大优先”,俗称“尽量往前凑”, 是一个汉字拆分中最常用到的基本规则。至于什 么才算“大”,“大”到什么程度才到边,等到
例如:“新”——只能拆成“立、木、斤”, 而不能拆成“立、斤、木”;
夷——只能拆成“一、弓、人”,而不能拆 成“大、弓”;
中 —— 只 能 拆 成 “ 口 、 丨 ” , 而 不 能 拆 成
口”。
(2)取大优先 “取大优先”,也叫做“优先取大”。它有 如下两层含义:
*拆分汉字时,拆分出的字根数应该最少; *当有多种拆分方法时,应取前面字根大、笔 画多的那种。
5种单笔画的编码规则与输入方法:报户口 + 单笔画 + L + L。
例如:“一”:GGLL,“丨”:HHLL
“丿”:TTLL,“丶”:YYLL
应当说明,“一”是一个极为常用的字,每 次都打4下健岂不费事?别担心,GGLL只是作为 全码,后边会讲到,“一”还有一个最简短的码, 也叫“高频字”码,你只要打一个“G11”,再打 一个空格键便可输入。
例如:攀——木、 、 、手(14、35、35、 32——SQQR);
戆——立、早、夂、心 (42、22、31、
爨——亻、二、冂、火 44——WFMO);
(34、12、25、
齄——丿、目、田、一 11—— THLG);
丶、乙”,在国家标准字符集中,都是作为“汉 字”来对待的。在王码五笔字型中,照理说,它 们应当按照“成字字根”的方法输入。但是,除 “一”之外,其它几个都不常用,如按照“成字 字根”的打法,它们的编码只有2码,这么简短的 “码”用于如此不常用的“字”,真是太可惜了! 于是,我们将五个单笔画的简短的编码,“让位” 给更常用的字,却人为地在其正常码的后边,加 两个肯定不会引起重码又好打的“L”作为5个单笔 画的编码。
输入到计算机中,首先应该对这个汉字进行拆分, 将其分解为一个唯一的字根序列——即汉字拆成 字根。
1.合体字的拆分原则
将合体字拆分成一个个字根,并且依次在键盘 上敲击其相应的代码,最终录入一个汉字。这对 于刚开始学习五笔字型输入法的人来说,不是一 件很容易的事,往往会出现不知从何处下手的情 形。拆分时,如果一个合体字不按正确的书写顺 序来拆分,或者将其无限制地拆分,都是不行的, 且拆分的同时还要碰到一些特殊情况。
值得注意的是,有时候一个汉字被拆成的几 个部分都是“复笔”字根(不是单笔画),它们 之间的关系,常常在“散”和“连”之间模棱两 可。
严:一、 、厂,后两个字根如果按“连” 处理,“严”便是杂合型(3型);后两个字根如 果按“散”处理,“严”便是上下型(2型、正 确)。
当遇到这种既能“散”,又能“连”的情况 时,我们规定:只要不是单笔画,一律按“能散 不连”判别之。因此,以上两例中的“占”和 “严”,都被认为是“上下型”字(2型)。
礻、土,因为礻不是基本字根。
(3)按一、二、三、末4个字根,最多只取4 码;
例如:“微”由彳T、山M、一G、几M、攵T 等5个字根组成,只取第一、二、三及最末一个字
即:彳T、山M、一G、攵T。 (4)单体字拆分,取大优先; 例如:“未”应拆成二、小,而不能拆成一、 木。
(5)字根数不满4个时,再取末笔字型交叉识 别码。
可是,看看以下情况,你就会发现问题:
攀——拆成:木、 、 、木、大、手;
齄——拆成:丿、目、田、一、 、木、日、 一;
麝——拆成:广、 、 、 、匕、丿、冂、 三、丿、寸。
输入这么多字根,是不是太多、太慢了?况 且,字根数有多有少,长短不齐,全部输入有无 必要呢?
经过研究发现,不管多么复杂的字,不管拆
三、合体字(键外字)的编码规则与输入
凡是五笔字型“字根总表”上没有的汉字, 即键外字,都可以认为是由表内的字根拼合而成 的,这类字我们称之为“合体字”。
除了键名汉字、成字字根和5种单笔画字根以 外的汉字统称为合体字或键外字,而汉字的输入 法编码主要是针对这些合体字的。与键名汉字或 成字根的编码不同,合体字是以字根来编码的, 而不是以单笔画来编码的。因此,要将一个汉字
键名字中有的是一级简码或二级简码,例如: 工A、人W、大DD、水II、立UU、之PP、子BB, 击键一次或二次就能输入;有的是三级简码,如: 王GGG、田LLL、山MMM、禾TTT、白RRR、月 EEE、言YYY、火OOO、女VVV、又CCC,只需 击键3 次,加空格键。
值得注意的是,不少人对于键名汉字不能下 意识地反应,常常被一些键名字的输入所困惑, 输不进类似“禾”、“金”、“山”等一类键名 汉字。
(1)二级成字字根有23个(输入规则:报户 口 + 第一单笔 ):
(2)三级成字字根有15个(输入规则:报户 口 + 第一单笔 + 第二单笔):
(3)四级成字字根有18个(输入规则:报户 口 + 第一单笔 + 第二单笔 + 最后一单笔):
4.5种单笔画的编码规则与输入
许多人不太注意,其实5种单笔画“一、丨、 丿、
出来多少个字根,我们只要输入它的4个字根,就 能够得到一个唯一性很强的“编码”。为此,我 们对拆分结果作出规定:凡是超过4个字根的,就 截;凡是不足4个字根的,就补,叫做“取长补 短”。
(1)“多根字”的编码规则——截
将汉字按照规定拆分之后,字根总数多于4个 的,叫做“多根字”。对于“多根字”,不管实 际上可以拆出几个字根,我们只按拆分顺序,取 其第一、二、三及最末一个字根,俗称“一、二、 三、末”共4个码,其余的字根全部截去。
例如:“村”由木S、寸F两个字根组成,其 信息量不够,需加末笔字型交叉识别码51Y。
在汉字五笔字型输入法中,根据汉字的结构 特点、使用频率和字根结构,把汉字分为键面字 (包括键名字根、成字字根和单笔画字根)和键 外字(又称合体字),其编码方案有所不同。
二、键面字的编码规则与输入
1.键名字根的编码规则与输入
先打一下该字根本身所在的键(称之为报户口), 再根据“字根拆成单笔画”原则,按书写该成字 字根的单笔画顺序,依次打它的第一个单笔画、 第二个单笔画以及最后一个单笔画,不足4码时, 再加打一次空格键(注意:成字根不足四码者不 再加识别码,而以空格键结束输入)。现举例如 下:
例字 报户口 第一单笔 第二单笔 最末单笔
合体字的拆分必须遵循以下五项“基本原 则”:
(1)书写顺序
每一个有知识的中国人既有的良好习惯。因此, 一种优秀的汉字编码方法,其拆分汉字为字根的 顺序,一定要符合正确的书写习惯,大众才愿意 接受。
书写汉字的顺序是:先左后右,先上后下, 先横后竖,先撇后捺,先内后外,先中间后两边 等。“五笔字型”从一开始,就规定:拆分“合 体字”时一定要按照正确的书写顺序进行。先写 的先拆,后写的后拆。
击键数。在对汉字进行编码时还必须遵守一定的 规则,这些规则是根据书写汉字时所熟悉的汉字 输入必须遵循的如下一些原则制定的。
(1)按书写顺序从左到右,从上到下,从外 到内取码;
例如:“树”的取码顺序为木S、又C、寸F; “会”的取码顺序是人W、二F、厶C。
(2)以基本字根为单位取码;
例如:“社”
、丶、土,而不是
文文


41
41
11
41
Hale Waihona Puke YY厂厂一
G
Y
丿
空格键
13
11
31
空格键
这样的输入方法,我们可以把它写成一个公 式:
键名代码(报户口) + 首笔代码 + 次笔代码 + 末笔代码
成字字根的编码方法,体现了汉字分解的一 个基本规则:遇到字根,报完户口,就拆成单笔 画。
3.成字字根的分类
为了便于学习和记忆,我们把常用的56个成 字字根分为二级成字字根、三级成字字根、四级 成字字根(见下表)。
作出以上这些规定,可能与文字结构学上的 认识不相一致,这里仅仅是为了保证编码体系的 严密和完整(即拆分的科学性和编码的唯一性)。 实际上,用得上后3条规定的字只是极少数,用得 最多的是前两项。
2.合体字的编码规则与输入
外字或合体字),按照前面讲的“五项基本原则” 一律拆成单个字根之后,按理,可以在键盘上找 到这些字根,依次按键,把字拼起来,从而完成 “输入”了。
第七章 汉字的编码规则与输入
通过前面几章的学习,大家对汉字有了一个 结构上的认识,并且对于标准西文键盘与汉字之 间的联系也有了一些了解,可以说是“水到渠 成”,但是要进一步深入水底,还须学习汉字的 编码规则。
一、汉字编码的一般原则
五笔字型汉字输入法是一种拼形输入法,当 录入人员看到一个汉字时,很快地就能根据汉字 的各部分字根写出一个汉字编码,如“树”字的 编码为“木S、又C和寸F”。为了提高汉字输入速 度,必须减少汉字输入的重码率以及单个汉字输
五笔字型编码方案中,利用标准键盘上的A~ Y共二十五个键上的每一个键位,设置一个中文键 名字,即各个键上的第一个字根,也就是“助记 词”中打头的那个字根,我们称之为“键名字 根”,简称为“键名”。其特征是组字频度高, 而形体上又有一定代表性的字根;除X键位的“纟” 以外,它们本身就是一个汉字。这个作为“键名” 的汉字,其编码规则或输入方法是:把所在的键 连打四下(不再打空格键)。
相关文档
最新文档