一种用于汉字识别的字形编码系统设计与实现

现代电子技术Modern Electronics Technique 2017年1月15日第40卷第2期Jan.2017Vol.40No.2

doi :10.16652/j.issn.1004?373x.2017.02.0140引言随着计算机的逐渐发展,人们希望计算机能够独立识别印刷在纸上或人写在纸上的文字[1?3]。因此,设计一种有效的字形编码系统具有重要意义,已经成为相关学者研究的重点课题,受到越来越广泛的关注[4?6]。目前,有关字形编码的研究有很多,相关研究也取得了一定的成果,其中,文献[7]将汉字字形当成一种随机的二维点阵,将受到的干扰看作是加性的随机噪声,

通过二维点阵对汉字字形进行编码,该方法形式简单,

但未充分体现汉字字形的结构特点,编码性能不高。

文献[8]将汉字字形划分成部件与单字两个层次,将

笔画看作基元,用笔画的交结点与相对位置对字形进行

编码,同时提出优先属性关系,构建汉字的优先属性关

系图,准确完成字形编码,但由于很难准确提取笔画,大

大影响了编码结果。

文献[9]提出一种基于句法结构的字形编码方法,该

方法通过训练阶段与识别阶段共同实现,训练阶段将已

知结构信息的字形看作训练样本,对基元及其之间的连一种用于汉字识别的字形编码系统设计与实现

田喜平1,赵红丹2

(1.安阳师范学院软件学院,河南安阳

455000;2.安阳师范学院计算机与信息工程学院,河南安阳455000)摘要:汉字字形变化多种多样,印刷体字符具有字体差异,手写字体更是没有统一的规则,识别难度非常大,当前用于汉字识别的字形编码方法大多依据字符,无法区分笔画相近的汉字。为此设计一种新的用于汉字识别的字形编码系统,介绍了汉字字形编码的原理,并给出了字形设计方案,依据编码原则,按照汉字被拆分的部件个数对汉字字形编码方案进行设计。详细介绍了汉字输入编辑器IME 的结构,通过IME 实现汉字的输入。依据汉字的使用频率与分布特性,通过数理统计工具设计含有汉字活动字库的操作系统,主要包括CC ?DOS 和MPC ?DOS 操作系统。实验结果表明,采用所设计系统对汉字进行识别精度较高且编码时间少、能耗低。

关键词:汉字识别;字形编码;印刷体字符;汉字输入编辑器

中图分类号:TN911?34;TP391文献标识码:A 文章编号:1004?373X (2017)02?0060?04Design and implementation of a font coding system for Chinese characters identification

TIAN Xiping 1,ZHAO Hongdan 2

(1.School of Software Engineering ,Anyang Normal University ,Anyang 455000,China ;

2.School of Computer and Information Engineering ,Anyang Normal University ,Anyang 455000,China )Abstract :As Chinese character glyph changes variously ,the printed characters have the font difference ,and the rules of handwriting fonts have not been unified ,the identification difficulty is very big.The current font coding method for Chinese characters identification is based on characters ,and unable to distinguish between similar strokes of Chinese characters ,so a new glyph coding system used for Chinese character recognition is designed.The principle of Chinese character glyph coding is introduced and a glyph design scheme is given in this paper.Chinese glyph coding scheme is designed according to the princi ?ples of coding and the quantity of the dismantled parts of Chinese characters.The structure of the input method editor (IME )for Chinese characters is introduced in detail.The input of Chinese characters is achieved by IME.According to the use frequency and distribution characteristics of Chinese characters ,the operating system with Chinese character activity font library was de ?signed by means of the mathematical statistics tools ,in which the CC ?DOS and MPC ?DOS operating systems are included.The experimental results show that the designed system ′s the identification accuracy for Chinese characters is high ,its encoding time

is less ,and its energy consumption is low.Keywords :Chinese character recognition ;font encoding ;character in printing form ;editor for Chinese character input 收稿日期:2016?05?09基金项目:国家自然科学基金资助项目(60875081);河南

省高等学校重点科研项目(16A520079)

60万方数据

汉字编码

编码定义 用预先规定的方法将文字、数字或其他对象编成数码,或将信息、数据转换成规定的电脉冲信号。编码在电子计算机、电视、遥控和通讯等方面广泛使用。 编码是根据一定的协议或格式把模拟信息转换成比特流的过程。 在计算机硬件中,编码(coding)是在一个主题或单元上为数据存储,管理和分析的目的而转换信息为编码值(典型地如数字)的过程。在软件中,编码意味着逻辑地使用一个特定的语言如C或C++来执行一个程序。在密码学中,编码是指在编码或密码中写的行为。 将数据转换为代码或编码字符,并能译为原数据形式。是计算机书写指令的过程,程序设计中的一部分。在地图自动制图中,按一定规则用数字与字母表示地图内容的过程,通过编码,使计算机能识别地图的各地理要素。 n位二进制数可以组合成2的n次方个不同的信息,给每个信息规定一个具体码组,这种过程也叫编码。数字系统中常用的编码有两类,一类是二进制编码,另一类是二—十进制编码。 为什么要进行汉字编码 汉字编码Chinese character encoding为汉字设计的一种便于输入计算机的代码。由于电子计算机现有的输入键盘与英文打字机键盘完全兼容。因而如何输入非拉丁字母的文字(包括汉字)便成了多年来人们研究的课题。汉字信息处理系统一般包括编码、输入、存储、编辑、输出和传输。编码是关键。不解决这个问题,汉字就不能进入计算机。中国人本来是用一只手执笔杆,一笔一画写字的,现在却要统统改为用两只手十个指头击键写字。键符越过笔画,代表部件写字,在键盘上使用编码检出汉字,就是用编码写字,键盘就成为我们的笔杆了。这种以检字来使用汉字,提高信息交换速度,对中华民族的汉字来说,这是几千年来前所未有的一次翻天覆地的大变革。回顾汉字发展的历史,从甲骨文、金文、大篆、小篆、隶书,到现代汉字,它的变革,都只是笔势上的变革,而没有牵涉到它的结构。而这一次,却牵涉到它的结构——把汉字拆分为部件。因此,这次变革,不仅给我国人民将带来巨大的好处,还将使蒙辱一百多年的、背上“落后”黑锅的汉字,重新展现它的光辉。 途径 汉字进入计算机的三种途径分别为:

Unicode汉字编码表

Unicode汉字编码表 1 unicode编码表 Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个字符, 比如汉字"经"的编码是0x7ECF,注意字符编码一般用十六进制来表示,为了与十进制区分,十六进制以0x开头,0x7ECF转换成十进制就是32463,UCS-2用两个字节来编码字符,两个字节就是16位二进制, 2的16次方等于65536,所以UCS-2最多能编码65536个字符。 编码从0到127的字符与ASCII编码的字符一样,比如字母"a"的Unicode 编码是0x0061,十进制是97,而"a"的ASCII编码是0x61,十进制也是97, 对于汉字的编码,事实上Unicode 对汉字支持不怎么好,这也是没办法的, 简体和繁体总共有六七万个汉字,而UCS-2最多能表示65536个,才六万多个,所以Unicode只能排除一些几乎不用的汉字,好在常用的简体汉字也不过七千多个,为了能表示所有汉字,Unicode也有UCS-4规范,就是用4个字节来编码字符,不过现在普遍采用的还是UCS-2,只用两个字节来编码,看一下Unicode对汉字的编码: ------------------------------------------------------------------------ 2 汉字编码表 U+ 0 1 2 3 4 5 6 7 8 9 A B C D E F ----------------------------------------------------- 4e00 一丁丂七丄丅丆万丈三上下丌不与丏 4e10 丐丑丒专且丕世丗丘丙业丛东丝丞丟 4e20 丠両丢丣两严並丧丨丩个丫丬中丮丯

汉字编码

汉字编码 上海市洋泾中学沈文艳 一、教学目标: 1.知识与技能: (1)理解汉字字形码、机内码及输入码的作用及特点 (2)了解计算机处理汉字的一般过程 2.过程与方法: (1)通过ViewChr软件观察汉字点阵图,探究汉字在屏幕上的显示方式,认识字形码。(2)通过WinHex软件观察汉字内码,探究汉字在计算机内部的存储方式,认识机内码。3.情感、态度与价值观: 通过简介我国科学家王选及汉字全息编码发明少年杜冰蟾的事例,弘扬爱国主义精神及民族自豪感,激发创新意识。认识取得成功必须要有坚韧不拔的毅力和科学严谨的治学态度。 二、教学重点难点 教学重点:汉字输入码、机内码及字形码的作用及特点 教学难点: (1)对汉字三种编码作用及相互关系的理解 (2)汉字字形码存储容量的计算方法。 三、教学过程:

《汉字编码》导学案 班级:姓名:学号: 【学习目标】 1.学习目标 (1)理解汉字字形码、机内码及输入码的作用及特点 (2)了解计算机处理汉字的一般过程 2.重点难点 (1)对汉字三种编码作用及相互关系的理解 (2)汉字字形码存储容量的计算方法。 【活动探究】 活动1:汉字在屏幕上是怎样显示的 步骤: (1)打开ViewChr软件,输入不同的汉字,观察汉字的显示方式, 通过观察,可以很容易地看出,每个汉字是通过一些点的组合来显示的。汉字中有笔画的部分,点是_____(有/无)颜色的,没笔画的部分,点是_____(有/无)颜色的。也就是说屏幕上的每个点既可以有颜色,也可以无颜色,所以,每个点在颜色的显示上最多有_____种状态。 (2)在ViewChr软件中输入汉字“上”,你能否根据软件的显示结果,在下面的16×16的方格图内用二进制数码来描述这个汉字 因为每一个点有两种颜色状态,又因为一个二进制位 可以表示_____种信息,所以,要表示图中的每一个点需要

全国计算机一级考试汉字编码选择题复习

汉字编码选择题复习 1、一个汉字的内码长度为2个字节,其每个字节的最高二进制位的值依次分别是________。 A)0,0 B)0,1 C)1,0 D)1,1 【解析】国标码是汉字信息交换的标准编码,但因其前后字节的最高位为0,与ASCII码发生冲突,于是,汉字的机内码采用变形国标码,其变换方法为:将国标码的每个字节都加上128,即将两个字节的最高位由0改1,其余7位不变,因此机内码前后字节最高位都为1。 2、、一个汉字的16×16点阵字形码长度的字节数是________。 A)16 B)24 C)32 D)40 【解析】每个点阵用一个0或1代替,需要16*16个0或1,因为8位为一字节,换算成字节就是16*16/8. 3、根据汉字国标GB2312-80的规定,一个汉字的内码码长为________。 A)8bit B)12bit C)16bit D)24bit 【解析】一个汉字是两个字节,一字节是8bit,所以就是16bit。 4、下列4个4位十进制数中,属于正确的汉字区位码的是________。 A)5601 B)9596 C)9678 D)8799 【解析】区位码:94×94阵列,区号范围:1~94,位号范围:1~94。 5、存储1024个24×24点阵的汉字字形码需要的字节数是________。 A)720B B)72KB C)7000B D)7200B 【解析】在24×24的网格中描绘一个汉字,整个网格分为24行24列,每个小格用1位二进制编码表示,每一行需要24个二进制位,占3个字节,24行共占24×3=72个字节。1024个需要1024×72=73728字节。 6、在计算机中,对汉字进行传输、处理和存储时使用汉字的________。 A)字形码 B)国标码 C)输入码D)机内码 【解析】显示或打印汉字时使用汉字的字形码,在计算机内部时使用汉字的机内码。 7、区位码输入法的最大优点是________。 A)只用数码输入,方法简单、容易记忆 B)易记易用 C)一字一码,无重码 D)编码有规律,不易忘记 【解析】区位码输入是利用国标码作为汉字编码,每个国标码对应一个汉字或一个符号,没有重码。 8、下列关于汉字编码的叙述中,错误的是________。 A)BIG5码是通行于香港和台湾地区的繁体汉字编码 B)一个汉字的区位码就是它的国标码

Unicode汉字编码表

Unicode汉字编码表 1 Unicode编码表 Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个字符, 比如汉字"经"的编码是0x7ECF,注意字符编码一般用十六进制来 表示,为了与十进制区分,十六进制以0x开头,0x7ECF转换成十进制 就是32463,UCS-2用两个字节来编码字符,两个字节就是16位二进制, 2的16次方等于65536,所以UCS-2最多能编码65536个字符。 编码从0到127的字符与ASCII编码的字符一样,比如字母"a"的Unicode 编码是0x0061,十进制是97,而"a"的ASCII编码是0x61,十进制也是97, 对于汉字的编码,事实上Unicode对汉字支持不怎么好,这也是没办法的, 简体和繁体总共有六七万个汉字,而UCS-2最多能表示65536个,才六万 多个,所以Unicode只能排除一些几乎不用的汉字,好在常用的简体汉字 也不过七千多个,为了能表示所有汉字,Unicode也有UCS-4规范,就是用 4个字节来编码字符,不过现在普遍采用的还是UCS-2,只用两个字节来 编码,看一下Unicode对汉字的编码:

------------------------------------------------------------------------ 2 汉字编码表 U+ 0 1 2 3 4 5 6 7 8 9 A B C D E F ----------------------------------------------------- 4e00 一丁丂七丄丅丆万丈三上下丌不与丏 4e10 丐丑丒专且丕世丗丘丙业丛东丝丞丟 4e20 丠両丢丣两严並丧丨丩个丫丬中丮丯 4e30 丰丱串丳临丵丶丷丸丹为主丼丽举丿 4e40 乀乁乂乃乄久乆乇么义乊之乌乍乎乏 4e50 乐乑乒乓乔乕乖乗乘乙乚乛乜九乞也 4e60 习乡乢乣乤乥书乧乨乩乪乫乬乭乮乯 4e70 买乱乲乳乴乵乶乷乸乹乺乻乼乽乾乿 4e80 亀亁亂亃亄亅了亇予争亊事二亍于亏 4e90 亐云互亓五井亖亗亘亙亚些亜亝亞亟 4ea0 亠亡亢亣交亥亦产亨亩亪享京亭亮亯 4eb0 亰亱亲亳亴亵亶亷亸亹人亻亼亽亾亿 4ec0 什仁仂仃仄仅仆仇仈仉今介仌仍从仏 4ed0 仐仑仒仓仔仕他仗付仙仚仛仜仝仞仟 4ee0 仠仡仢代令以仦仧仨仩仪仫们仭仮仯 4ef0 仰仱仲仳仴仵件价仸仹仺任仼份仾仿 4f00 伀企伂伃伄伅伆伇伈伉伊伋伌伍伎伏 4f10 伐休伒伓伔伕伖众优伙会伛伜伝伞伟 4f20 传伡伢伣伤伥伦伧伨伩伪伫伬伭伮伯

(国内标准)国标(GB)汉字编码对照表

汉字编码简明对照表 说明: 1、下列汉字取自国标(GB 2312-80)中的分级与排列内容;包含所有的第一级汉字和第二级汉字中的常用部分。 2、第一级汉字(16—55区的汉字)以拼音字母为序进行排列,同音字以笔形顺序横、竖、撇、捺、折为序,起笔相同的按第二笔,依次类推;第二级汉字(56-87区的汉字)按部首为序进行排列。 3、对于多音字,仅在表中出现一次。如:柏,音(bai,bo),表中仅出现在“bai”中。 4、汉字区位码用阿拉伯数字表示,每个汉字对应4个数字。 5、本汉字代码表摘自《字符集和信息编码国家标准汇编》,(中国标准出版社,1998年编)。 a 啊 1601 阿 1602 吖 6325 嗄 6436 腌 7571 锕 7925 ai 埃 1603 挨 1604 哎 1605 唉 1606 哀 1607 皑 1608 癌 1609 蔼 1610 矮 1611 艾 1612 碍 1613 爱 1614 隘 1615 捱 6263 嗳 6440 嗌 6441 嫒 7040 瑷 7208 暧 7451 砹 7733 锿 7945 霭 8616 an 鞍 1616 氨 1617 安 1618 俺 1619 按 1620 暗 1621 岸 1622 胺 1623 案 1624 谙 5847 埯 5991 揞 6278 犴 6577 庵 6654 桉 7281 铵 7907 鹌 8038 黯 8786 ang 肮 1625 昂 1626 盎 1627 ao

凹 1628 敖 1629 熬 1630 翱 1631 袄 1632 傲 1633 奥 1634 懊 1635 澳 1636 坳 5974 拗 6254 嗷 6427 岙 6514 廒 6658 遨 6959 媪 7033 骜 7081 獒 7365 聱 8190 螯 8292 鏊 8643 鳌 8701 鏖 8773 ba 芭 1637 捌 1638 扒 1639 叭 1640 吧 1641 笆 1642 八 1643 疤 1644 巴 1645 拔 1646 跋 1647 靶 1648 把 1649 耙 1650 坝 1651 霸 1652 罢 1653 爸 1654 茇 6056 菝 6135 岜 6517 灞 6917 钯 7857 粑 8446 鲅 8649 魃 8741 bai 白 1655 柏 1656 百 1657 摆 1658 佰 1659 败 1660 拜 1661 稗 1662 捭 6267 呗 6334 掰 7494 ban 斑 1663 班 1664 搬 1665 扳 1666 般 1667 颁 1668 板 1669 版 1670 扮 1671 拌 1672 伴 1673 瓣 1674 半 1675 办 1676 绊 1677 阪 5870 坂 5964 钣 7851 瘢 8103 癍 8113 舨 8418 bang 邦 1678 帮 1679 梆 1680 榜 1681 膀 1682 绑 1683 棒 1684 磅 1685 蚌 1686 镑 1687 傍 1688 谤 1689 蒡 6182 浜 6826 bao 苞 1690 胞 1691 包 1692 褒 1693 剥 1694 薄 1701 雹 1702 保 1703 堡 1704 饱 1705 宝 1706 抱 1707 报 1708 暴 1709 豹 1710 鲍 1711 爆 1712 葆 6165 孢 7063 煲 7650 鸨 8017 褓 8157 趵 8532 龅 8621 bei 杯 1713 碑 1714 悲 1715 卑 1716 北 1717 辈 1718 背 1719 贝 1720 钡 1721 倍 1722 狈 1723 备 1724 惫 1725 焙 1726 被 1727 孛 5635 陂 5873 邶 5893 蓓 6177 悖 6703 碚 7753 鹎 8039 褙 8156 鐾 8645 鞴 8725 ben 奔 1728 苯 1729 本 1730 笨 1731 畚 5946 坌 5948 贲 7458 锛 7928 beng 崩 1732 绷 1733 甭 1734 泵 1735 蹦 1736 迸 1737 嘣 6452 甏 7420 bi

汉字信息编码标准

1.国家标准汉字代码体系 ??汉字字数繁多,属性丰富,因而汉字代码体系也较复杂,包括: ??(1)汉字机内码。它们是汉字在计算机汉字系统内部的表示方法,是计算机汉字系统 的基础代码。 ??(2)汉字交换码。它们是国标汉字(如机内码)进行信息交换的代码标准。 ??(3)汉字输入码。它们是在计算机标准键盘上输入汉字用到的各种代码体系。 ??(4)汉字点阵码。它们是在计算机屏幕上显示和在打印机上打印输出汉字的代码体系。??(5)汉字字形控制码。为了打印各种风格的字体和字形所制定的代码。 ??这些代码系统有的必须有统一的国家标准,有的则不要求统一。近年来我国已经制定 系列汉字信息处理方面的国家标准,今后将继续完善,并与国际上求得统一。 2. 国家标准汉字交换码 ??我国制定了“中华人民共和国国家标准信息交换汉字编码”,标准代号为GB2312—80,这种编码又称为国标码。在国标码的字符集中共收录了一级汉字3755个,二级汉字3008 个,图形符号682个,三项字符总计7445个。 ??在国标GD2312—80中规定,所有的国标汉字及符号分配在一个94行、94列的方阵中,方阵的每一行称为一个“区”,编号为01区到94区,每一列称为一个“位”,编号为01 位到94位,方阵中的每一个汉字和符号所在的区号和位号组合在一起形成的四个阿拉伯数字就是它们的“区位码”。区位码的前两位是它的区号,后两位是它的位号。用区位码就可以唯一地确定一个汉字或符号,反过来说,任何一个汉字或符号也都对应着一个唯一的区位码。汉字“母”字的区位码是3624,表明它在方阵的36区24位,问号“?”的区位码为0331,则它在03区3l位。 ??所有的汉字和符号所在的区分为以下四个组: ? ? (1)01区到15区。图形符号区,其中01区到09区为标准符号区,10区到15区为 自定义符号区。 ??01区到09区的具体内容如下; ??1)01区。一般符号202个,如间隔符、标点、运算符、单位符号及制表符; ??2)02区。序号60个,如1.~20.、(1)~(20)、①~⑩及(一)~(十); ??3)03区。数字22个,如0—9及X一XII,英文字母52个,其中大写A—Z、小写 a—z各26个; ??4)04区。日文平假名83个; ??5)05区。日文片假名86个; ??6)06区。希腊字母48个; ??7)07区。俄文字母66个; ??8)08区。汉语拼音符号a—z26个; ??9)09区。汉语拼音字母37个。 ? ? (2)16区到55区。一级常用汉字区,包括了3755个一统汉字。这40个区中的汉字是按汉语拼音排序的,同音字按笔划顺序排序。其中55区的90一94位未定义汉字。 ? ? (3)56区到87区。二级汉字区,包括了3008个二级汉字,按部首排序。 ? ? (4)88区到94区。自定义汉字区。 ? ? 第10区到第15区的自定义符号区和第88区到第94区的自定义汉字区可由用户自行??定义国标码中未定义的符号和汉字。 3. 国家标准汉字机内码

字符编码之间的相互转换 UTF8与GBK

字符编码之间的相互转换UTF8与GBK C++ UTF8编码转换CChineseCode 一预备知识 1,字符:字符是抽象的最小文本单位。它没有固定的形状(可能是一个字形),而且没有值。“A”是一个字符,“€”(德国、法国和许多其他欧洲国家通用货币的标志)也是一个字符。“中”“国”这是两个汉字字符。字符仅仅代表一个符号,没有任何实际值的意义。 2,字符集:字符集是字符的集合。例如,汉字字符是中国人最先发明的字符,在中文、日文、韩文和越南文的书写中使用。这也说明了字符和字符集之间的关系,字符组成字符集(iso8859-1,GB2312/GBK,unicode)。 3,代码点:字符集中的每个字符都被分配到一个“代码点”。每个代码点都有一个特定的唯一数值,称为标值。该标量值通常用十六进制表示。 4,代码单元:在每种编码形式中,代码点被映射到一个或多个代码单元。“代码单元”是各个编码方式中的单个单元。代码单元的大小等效于特定编码方式的位数:UTF-8 :UTF-8 中的代码单元由8 位组成;在UTF-8 中,因为代码单元较小的缘故,每个代码点常常被映射到多个代码单元。代码点将被映射到一个、两个、三个或四个代码单元;UTF-16 :UTF-16 中的代码单元由16 位组成;UTF-16 的代码单元大小是8 位代码单元的两倍。所以,标量值小于U+10000 的代码点被编码到单个代码单元中;UTF-32:UTF-32 中的代码单元由32 位组成;UTF-32 中使用的32 位代码单元足够大,每个代码点都可编码为单个代码单元;GB18030:GB18030 中的代码单元由8 位组成;在GB18030 中,因为代码单元较小的缘故,每个代码点常常被映射到多个代码单元。代码点将被映射到一个、两个或四个代码单元。 5,举例:“中国北京香蕉是个大笨蛋”这是我定义的aka字符集; 各字符对应代码点为: 北00000001 京00000010 香10000001 蕉10000010 是10000100 个10001000 大10010000 笨10100000 蛋11000000 中00000100 国00001000 下面是我定义的zixia 编码方案(8位),可以看到它的编码中表示了aka字符集的所有字符对应的代码单元; 北10000001 京10000010 香00000001 蕉00000010 是00000100 个00001000 大00010000 笨00100000 蛋01000000 中10000100 国10001000 所谓文本文件就是我们按一定编码方式将二进制数据表示为对应的文本如00000001000000100000010000001000000100000010000001000000这样的文件。我用一个支持zixia编码和aka字符集的记事本打开,它就按照编码方案显示为“香蕉是个大笨蛋” 如果我把这些字符按照GBK 另存一个文件,那么则肯定不是这个,而是1100111111100011 1011110110110110 1100101011000111 1011100011110110 1011010011110011 1011000110111111 1011010110110000 110100001010 二,字符集

中文字符集、编码

前言
由于工作的需要,参考了好多资料整理出来一份计算机汉字处理报告,不敢独享,希 望与大家共享。Ziggler 现代计算机技术虽然先进, 但大多数人只知录入 GB-2313 字符集内的 6763 个简体汉字, 对包含 21003 个简繁体汉字的 GBK 字符集的文字录入、字体 显示就已不甚了解(市面上 绝大多数所谓的繁体字体,其实采用的是 GB2313 字符集简体字的编码,用字体显示为繁体 字,而不是直接用 GBK 字符集中繁体字 的编码,错误百出) 。而汉字总数至少有近 10 万 个,目前计算机能处理的,也有 70244 个,已非一般人所能知能用了。 由于汉字总数非常庞大。 汉字总共有多少字?到目前为止, 恐怕没人能够答得上来精确 的数字。据估计,汉字数量达到 11 万左右。 这里所说的七万多汉字, 是指 UNICODE 超大字集全部七万多中日韩汉字。 (注: Unicode 是指用两个字节表示每个字符的字符编码方案。 ) 那一般计算机能够显示多少个汉字呢?比如大陆这边普遍安装简体 Windows 系统,而 简体 windows 以宋体为系统字型,宋体支持 GBK 编码,所以能显示 20902 个汉字。 要显示 71564 个汉字, 可以采取多种方案, 如: 宋体-方正超大字符集+新细明体 EXTB、 宋体-方正超大字符集+中易宋体 EXTB、宋体 GB18030+新细明体 ExtB、宋体 18030+宋体 ExtB 等等。
中文字符集、编码
字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。字符 集是多个字符的集合,字符集 种类较多,每个字符集包含的字符个数不同。 计算机要准确的处理各种字符集文字, 需要进行字符编码, 以便计算机能够识别和存储 各种文字。 中文文字数目大, 而且还分为简体中文和繁体中文两种不同书写规则的文字, 而计算机 最初是按英语单字节字符设计的, 因此, 对中文字符进行编码, 是中文信息交流的技术基础。 以下是常见的一些字符集介绍,部分字符集中包括编码介绍。
GB2312 字符集
1.名称的由来 GB2312 又称为 GB2312-80 字符集,全称为《信息交换用汉字编码字符集·基本集》 ,由原中 国国家标准总局发布,1981 年 5 月 1 日实施。 2.特点 GB2312 是中国国家标准的简体中文字符集。它所收录的汉字已经覆盖 99.75%的使用频率,

6汉字的编码

汉字的编码学习任务单 【知识和技能】 1、能够列举常见的几种输入码,能有选择地应用目前主流的汉字输入码来提高自己的输入能力; 2、了解汉字机内码的作用,能说出机内码GB和GBK的区别; 3、了解汉字字型码的作用,能计算汉字点阵需占的字节数,并能认识到字型码和字库的联系; 4、能表述汉字输入码、内码、字型码(输出码)之间的关系; 5、能初步使用TrueType造字程序。 【过程和方法】 1、教师提出问题或实践任务引导学生开展讨论,逐步解决; 2、学生自主或小组协作探索实践; 3、学生在实践中发现问题、思考问题、解决问题。 【情感态度与价值观】 1、通过任务的驱动提高学生分析、解决问题的能力; 2、学生通过协作学习,提高交流、合作能力; 3、通过对实际问题的解决,让学生认识到信息技术的重要性,激发他们对信息技术强烈的求知欲。 复习回顾 ASCII码的编码特点:用()位二进制数表示,存储一个ASCII码要占用()个字节,最高位是()。 汉字在计算机内部的存储 任务1.体验活动:观察字符、汉字在计算机内部的编码 安装ultraedit内码查看工具,查看下列字符(探究1中的字符)的内码,填表,并思考:西文字符和中文字符占用的存储空间分别是多少

操作提示:安装完成后,双击桌面快捷方式,运行软件。打开软件后,单击左上角的UE图标,从下拉菜单中选择“打开”,打开资料包中的“探究1.txt”,就看到了要查看的字符。然后单击“编辑”菜单,选择“十六进制模式”(如图中红圈),即可显示字符的编码,右边选中符号,左边选中的即是其十六进制编码。 结论:计算机存储1个英文字母或英文标点占用()个字节,存储1个汉字或中文标点占用()个字节。 任务2.微视频学习:GB2312-80汉字编码方案思考完成下列题目(1)根据GB2312-80编码方案,把汉字放入94*94的表中,用行标、列标表示即可得到汉字的()码,将十进制行标、列标分别加32,将得到汉字的()码。 (2)区码、位码最大是(),分别加上32后是(),将其转换成二进制是一个()位二进制数。国标码的每个字节首位是()。西文字符的编码(ASCII编码)首位也是(),所以国标码不能直接做汉字在计算机内部的编码。 (3)由国标码怎样得到汉字的机内码? 如:汉字“包”的区位码是1692,用16进制表示就是105C H ,经过(下图所示)变换,得到其机内码每个字节首位是(),共()个字节。

输入码国标码机内码字型码

输入码、国标码、机内码、字型码 西文是拼音文字,基本符号比较少,编码比较容易,因此,在一个计算机系统中,输入、内部处理、存储和输出都可以使用同一代码。汉字种类繁多,编码比拼音文字困难,因此在不同的场合要使用不同的编码。通常有4种类型的编码,即输入码、国标码、内码、字形码。 ①输入码 输入码所解决的问题是如何使用西文标准键盘把汉字输入到计算机内。有各种不同的输入码,主要可以分为三类:数字编码、拼音编码和字编型码。 ●数字编码。就是用数字串代表一个汉字,常用的是国标区位码。它将国家标准局公布的6763个两级汉字分成94个区,每个区分94位。实际上是把汉字表示成二维数组,区码、位码各用两位十进制数表示,输入一个汉字需要按4次键。数字编码是惟一的,但很难记住。比如“中”字,它的区位码以十进制表示为5448(54是区码,48是位码),以十六进制表示为3630(36是区码,30是位码)。以十六进制表示的区位码不是用来输入汉字的。 ●拼音编码。是以汉字读音为基础的输入方法。由于汉字同音字太多,输入后一般要进行选择,影响了输入速度。 ●字型编码。是以汉字的形状确定的编码,即按汉字的笔画部件用字母或数字进行编码。如五笔字型、表形码,便属此类编码,其难点在于如何拆分一个汉字。 ②国标码 又称为汉字交换码,在计算机之间交换信息用。用两个字节来表示,每个字节的最高位均为0,因此可以表示的汉字数为214=16384个。将汉字区位码的高位字节、低位字节各加十进制数32(即十六进制数的20),便得到国标码。例如“中”字的国标码为8680(十进制)或7468(十六进制)。这就是国家标准局规定的GB2312—80信息交换用汉字编码集。 ③内码 汉字内码是在设备和信息处理系统内部存储、处理、传输汉字用的代码。无论使用何种输入码,进入计算机后就立即被转换为机内码。规则是将国标码的高位字节、低位字节各自加上128 为了统一表示世界各国的文字,1993年国际标准化组织公布了“通用多八位编码字符集”的国际标准ISO/IEC 10646,简称UCS(Universal Code Set),它为包括汉字在内的各种正在使用的文字规定了统一的编码方法。该标准使用4个字节来表示一个字符。其中,一个字节用来编码组,因为最高位不用,故总共表示128个组。一个字节编码平面,总共有256个平面,这样,每一组都包含256个平面。在一个平面内,用一个字节来编码行,因而总共有256行。再用一个字节

计算机一级b选择题6(ascii码与汉字编码) (2)

ASCII码与汉字编码 1)下列关于ASCII编码的叙述中,正确的是B A)一个字符的标准ASCII码占一个字节,其最高二进制位总为1 B)所有大写英文字母的ASCII码值都小于小写英文字母‘a’的ASCII码值 C)所有大写英文字母的ASCII码值都小于小写英文字母‘a’的ASCII码值 D)标准ASCII码表有256个不同的字符编码 2)在下列字符中,其ASCII码值最大的一个是C A)9 B)Z C)d D) X 3)在一列字符中,其ASCII码值最小的一个是A A) 空格字符B)0 C)A D)a 4) 已知英文字母m的ASCII码值为6DH,那么字母q的ASCII码值是B A)70H B)71H C)72H D)6FH 5)已知英文字母m的ASCII码值为109,那么字母p的ASCII码值是A A)112 B)113 C)111 D)114 6)字符比较大小实际是比较它们的ASCII码值,正确的比较是B A)’A’比’B’大B)’H’比’h’小 C) ’F’比’D’小D) ’9’比’D’大 7)一个字符的标准ASCII码码长是B A)8bits B)7bits C)16bits D)6bits 8)在微机中,西文字符所采用的编码是B A)EBCDIC码B)ASCII码C)国标码D)BCD码 9)已知英文字母m的ASCII码值为6DH,那么ASCII码值为70H的英文字母是C

A)P B)Q C)p d)j 10)在标准ASCII码表中,已知英文字母D的ASCII码是01000100,英文字母A的ASCII 码是A A)01000001 B)01000010 C)01000011 D)01000000 11)在标准ASCII码表中,已知英文字母A的ASCII码是01000001,英文字母F的ASCII 码是D A)01000011 B)01000100 C)01000101 D)01000110 12)A的ASCII码是01000001,则英文字母E的ASCII码是C A)01000011 B)01000100 C)01000101 D)01000010 13)在标准的ASCII码表中,已知英文字母A的ASCII码是01000001, 英文字母D的ASCII码是B A)01000011 B)01000100 C)01000101 D)01000110 14)计算机的存储器中,组成一个字节(Byte)的二进制位(bit)个数是B A)4 B)8 C)16 D)32 15)标准ASCII码用7位二进制位表示一个字符的编码,其不同的编码共有B A)127个B)128个C)256个D)254个 16)已知三个字符为:a、X和5,按它们的ASCII码值升序排序,结果是D A)5.a.X B)a.5.X C)X.a.5 D)5.X.a 17)在标准ASCII编码表中,数字码、小写英文字母和大写英文字母的前后次序是C A)数字、小写英文字母、大写英文字母 B)小写英文字母、大写英文字母、数字 C)数字、大写英文字母、小写英文字母 D)大写英文字母、小写英文字母、数字

相关文档
最新文档