西文字符编码与汉字编码16页PPT

合集下载

2.3.2--汉字信息的编码与交换

2.3.2--汉字信息的编码与交换

第二讲计算机信息数字化基础☐汉字信息的编码与交换●字数多。

共6万左右,需要的编码多。

●字形复杂。

20画以上需要字模点阵多。

●同音字多。

需要输入方法灵活。

计算机对于汉字的处理实际上就是对各种汉字代码进行转换。

汉字的特点⏹字符信息编码与标准交换☐西文字符的编码与标准交换☐汉字信息的编码与交换☐通用字符编码集UCS汉字信息处理☐汉字信息的编码与交换输入码●zhong 中种终全拼●zh中这找真智能拼音●汉字输入码●汉字国标码●汉字机内码●汉字字形码汉字编码☐汉字信息的编码与交换国标码:也称汉字信息交换码,用区编码和位编码对汉字进行编码。

国标码分为以下几类:●GB 2312-80●GB 12345-90●GBK编码●GB 18030-2000●BIG5 编码●汉字输入码●汉字国标码●汉字机内码●汉字字形码汉字编码汉字信息的编码与交换编码21H ……………... 7EH位码01D ……………… 94D区码01D15D 16D55D 56D87D 88D94D 15×94=1410 40×94=3760 32×94=3008 7×94=658数字、图形符号、希腊、俄日等字符(682个)一级汉字(3755个),按汉语拼音排列二级汉字(3008个)按部首排列空啊-区位码:1601D 国标码:3021H☐汉字信息的编码与交换机内码:为了在计算机内部对汉字进行存储、处理的汉字代码。

由2字节组成。

内码用于计算机内部处理、存储和传输汉字。

由国标码演化而来。

●汉字输入码●汉字国标码●汉字机内码●汉字字形码汉字编码☐汉字信息的编码与交换机内码编码编码原则:码长短、有序且连续、与交换码对应中西文兼容编码方式:多种,常用的是:将交换码的两个7位变为两个字节,两个字节的最高位为1汉字“啊”●交换码3021H--00110000 00100001●内码B0A1H--10110000 10100001●汉字输入码●汉字国标码●汉字机内码●汉字字形码汉字编码☐汉字信息的编码与交换字形码:按汉字字形得到的编码,又称字模。

字符编码

字符编码

23
GB码区位示例
01区
78位
24
GB码区位示例(续)
16 区 1 2 3 4 5 6 7 8 9 0 啊 阿 埃 挨 哎 唉 哀 皑 癌 1 蔼 矮 艾 碍 爱 隘 鞍 氨 安 俺 2 按 暗 岸 胺 案 肮 昂 盎 凹 敖 3 熬 翱 袄 傲 奥 懊 澳 芭 捌 扒 4 叭 吧 笆 八 疤 巴 拔 跋 靶 把 5 耙 坝 霸 罢 爸 白 柏 百 摆 佰 6 败 拜 稗 斑 班 搬 扳 般 颁 板 7 版 扮 拌 伴 瓣 半 办 绊 邦 帮 8 梆 榜 膀 绑 棒 磅 蚌 镑 傍 谤 9 苞 胞 包 褒 剥 17 区 1 2 3 4 5 6 7 8 9 0 薄 雹 保 堡 饱 宝 抱 报 暴 1 豹 鲍 爆 杯 碑 悲 卑 北 辈 背 2 贝 钡 倍 狈 备 惫 焙 被 奔 苯 3 本 笨 崩 绷 甭 泵 蹦 迸 逼 鼻 4 比 鄙 笔 彼 碧 蓖 蔽 毕 毙 毖 5 币 庇 痹 闭 敝 弊 必 辟 壁 臂 6 避 陛 鞭 边 编 贬 扁 便 变 卞 7 辨 辩 辫 遍 标 彪 膘 表 鳖 憋 8 别 瘪 彬 斌 濒 滨 宾 摈 兵 冰 9 柄 丙 秉 饼 炳
19
二、计算机中中文字符的表示 汉字交换码
国家标准将每个汉字和图形符号的两个字节分 别用两位的十进制编码(不足补0),前字节的编 码称为区码,后字节的编码称为位码,排列在一个 94行94列的二维代码表中,形成区位码表。 如“保”字在二维代码表中处于17区第03位 ,区位码即为1703D 。 把区位码按一定的规则转换成的二进制代码叫 做信息交换码(简称国标码)。
字 符 编 码
1


一 计算机中字符的表示(ASCII码) 二 计算机中中文字符的表示
2
概 述

第3讲_信息编码

第3讲_信息编码

计算机基础知识 2013-9-15 7
1.2.2
d6d5d4 d3d2d1d0 0000 0001 0010 0011 0100 0101 0110 0111 1000 1001 1010 1011 1100 1101 1110 计算机基础知识 1111
000 NUL SOH STX EXT EOT ENQ ACK BEL BS HT LF VT FF CR SO SI 2013-9-15
计算机基础知识 2013-9-15 23
1.2.2
输入码
信息编码
交换码(国标码) 机内码 字形码
⑸ 汉字编码之间的关系
例如,我们通过键盘输入一个汉字“计”,并在屏幕上显示, 其编码的转换过程如下: ① 通过键盘输入输入码:ji(拼音输入法)。 ② 通过输入法控制程序,依据交换码(国标码00111100 01000110),把输入码(ji)转换成机内码(10111100 11000110),并保存在计算机内。 ③ 汉字显示驱动程序根据机内码计算出“计”的字形码所在 字库的地址,通过相应的地址把字库中的字形码取出,存入到相 应的显示内存单元中。 ④ 在显示驱动程序的控制下,根据显示内存中的字形码,在 屏幕的相应位置显示汉字“计”的字形。
8
1.2.2
信息编码
通常计算机中用一个字节(8位二进制码)来 表示一个字符,右边七位对应字符的ASCII码, 最左边的一位通常用作奇偶校验,用来发现错误。 所谓“奇校验”是指在校验位上设置0或1,以保 证一个字节中“1”的个数为奇数。
奇偶校验码是一种最简单的校验码,如果数码 在存储、传送过程中,由于某种原因使得字符编 码的某一位发生变化(由1变为0或由0变为1), 在接收到的字节中,“1”的个数不是原规定的 偶(或奇)数,于是就能发现错误。

汉字编码课件.ppt

汉字编码课件.ppt
94:美标中形象码的总数,33--126 汉字区、位码各加上32,就会与美标形象码的
范围重合,称为该字的“国标码”,与其相对应 的两个美标符号,为该字的“国标符” 如何区分国标符与美标符:国标码的两个数字 各加上128,称“准国标”或“机内码” 机内码=(区位码)H + 8080H +2020H
..
15
BIG5码
针对繁体汉字的编码,在台湾、香港的 电脑系统中得到普遍应用
非汉字
一级汉字 二级汉字
第一字节 A1~A2 A3 C6 C7~C8 A4~C5 C6 C9~F8 81~A0
第二字节 40~7E/A1~FE 40~7E/A1~E0
A1~FE 40~7E/A1~FE 40~7E/A1~FE
每一组包含256个平面(plane),每一个平面包 含256行(row),每一行包含256个字位(cell), 又称为“列”,plane、row、cell的值范围都 是从00到FF全编码
整个编码字符集的每个字符都是由4个八位序 列表示,(按照组八位、面八位、行八位、列八 位的顺序)
可编码空间为:128X256X256X256=32KX64K
..
27
UTF-8
为满足面向字节、基于ASCII码系统的需要而 制定(主要用于数据传输、互联网)
用最多达4个字节的序列来表示每个字符,为 有效分析字符串,用第一个字节指明某个多字 节序列中的字节数
通常用于数据交换
Unicode 范围
Unicode 编码点和 UTF-8 编码字符之间的关系 UTF-8 编码的字节
的变形显现形式、特殊字符等均放在此区
..
23
ISO/IEC 10646空间分配现状

第二章 汉字信息在计算机内部的表示

第二章 汉字信息在计算机内部的表示

0
1
2
3
4
5
6
7
ASCII码字符标准中用7 ASCII码字符标准中用7位 码字符标准中用 二进制数定义了128个字符, 128个字符 二进制数定义了128个字符, 其中94个为图形字符, 94个为图形字符 其中94个为图形字符,32 个为控制字符, 个为控制字符,1个为空格 字符和一个Del Del键 字符和一个Del键。 ASCII的编码空间如图所示, ASCII的编码空间如图所示, 的编码空间如图所示 图中把7位二进制数分为高 图中把7位二进制数分为高 位作为列号, 3位作为列号,低4位作为 行号,并用十六进制表示, 行号,并用十六进制表示, 从而组成了一个ASCII编码 从而组成了一个ASCII编码 ASCII 空间。 空间。
7.代码页 代码页 不同国家的人使用着不同语言的操作系统。然而, 不同国家的人使用着不同语言的操作系统。然而,操 作系统厂商若要根据各个国家和地区使用不同语言文字的 人开发不同的操作系统,在成本、 人开发不同的操作系统,在成本、系统维护与升级等方面 的开销太大。为此,微软公司在开发MS DOS和 MS的开销太大。为此,微软公司在开发MS-DOS和Windows3.1 的各种产品时, 的各种产品时,进一步将依赖于各具体平台的各文种的字 符集加以整理,并对各个具体的代码页都赋予一个代号, 符集加以整理,并对各个具体的代码页都赋予一个代号, 称作“代码页ID ID”。 称作“代码页ID 。
0 0 1 2 3 4 5 6 7 8 9 A B C D E F
1
2
3
4
5
6
7
8
9
A
B
C
D
E
Fቤተ መጻሕፍቲ ባይዱ
C0控制 字符区

数制与编码资料PPT课件

数制与编码资料PPT课件
但是,二进制的明显缺点是:数字冗长, 书写麻烦且容易出错,不便阅读,所以, 在计算机的书写中,常采用十六进制。
二、十和十六进制数
三种计数制之间的对应表示
二进制
0000 0001 0010 0011 0100
十进制
0 1 2 3 4
十六进制
0 1 2 3 4
二、十和十六进制数
二进制 0101 0110 0111 1000 1001
二进制 十六进制 方法:从小数点开始,分别向左向右出 发,四位一组,不足四位补零,四位划 一位。 例: 1011010.00101B=5A.28H
二、十和十六进制数
十六进制 二进制 方法:一位划四位。 例: 5A.28H=1011010.00101B
二、十和十六进制数
十进制 十六进制 方法一:先将十进制转换为二进制,再 将二进制转换为十六进制。 例: 97D=110 0001B=61H
二、十和十六进制数
二进制 加法规则“逢二进一” 二进制的特点: 1)简单可行,容易实现。 因为二进制只有两个数码0、1,可以用 两种不同的稳定状态来表示,如有磁和 无磁,高电位与低电位。 2) 运算规则简单。以加法为例,二进制 加法仅有四条:即0+0=0;1+0=1;
二、十和十六进制数
0+1=1;1+1=10。 3) 适合逻辑运算。二进制中的0和1正好 分别表示逻辑代数中的假值(False)和真 值(True)。二进制代表逻辑值容易实现逻 辑运算。
数制的基本概念
76.2Q=7X81+6X80+2X8-1 256.12D=2X102+5X101+6X100
+1X10-1+2X10-2 A2B.FH=10X162+2X161+11X160

信息的编码.ppt

信息的编码.ppt


每种信息编码都有相应的国家标准,目前 国际上普遍采用ASCII码
ASCII码
1) 美国信息交换标准代码 ( American Standard Code for Information Interchange, ASCII ) 2) 用于计算机在相互通信时用作共同遵 守的西文字符编码标准


阿 雹

(3)在计算机内部怎样处理汉字—— 机内码
已知:一个区位码占用两个字节,每个字节最高位为0;英 文字符的机 内码是7位ASCII,最高位也是0.[思考]两者如何区分呢?
为了在计算机中能区分二者,将区位码最高位置的0改 设置为1(故ascii码小于128,机内码大于128)并将区 号和位号各增加一个适当的常数,构成了汉字的机内 码。
声音的量化与编码(P10图)

采样-----就是采集声音模拟信号的样本,
量化-----再转换成数字信号 . 电脑中的声音文件是用数字0和1来表示的。所 以在电脑上录音的本质就是把模拟声音信号转 换成数字信号。反之,在播放时则是把数字信 号还原成模拟声音信号输出。



总结: 计算机只能理解用二进制表示的信息。 所以不管采用什么编码方式表示信息, 最终都要转化为二进制代码才能够被机 器执行 。
3.在计算机内部,信息的存储和处理都采 用二进制,最主要的原因是( D ) A.便于存储 B.数据输入方便 C.可以增大计算机存储容量 D.易于用电 子元件实现
图像编码
由矢量图和位图组成
矢量图-----用直线和曲线描述图形. 数据量 小, 图形放大和缩小不会失真. 但色彩不丰富. 位图-----图形是由许多像素点组成的. 数据 量大, 图形放大会失真. 但色彩丰富, 用于对图象要求很高的领域.

西文字符的编码

西文字符的编码
优点:编码空间极大,能容纳足够多的各种字符集(13亿字符)
缺点:4字节的字符编码使存储空间浪费严重
5.文字与文本
1)文本(text):文字信息在计算机中的表示形式,组成文本的基本元素是字符,字符在计算机中采用二进制编码表示。
2)文本处理过程
文本在计算机中的处理过程:文本的准备(例如汉字的输入),文本编辑,文本处理,文本存储与传输、文本展现等,根据应用的不同,各个处理环节的内容和要求可能有很大的差别。
汉字编码例
国标码=区位码+2020H
机内码=国标码+8080H
机内码=区位码+A0A0H
例如:“啊”
区位码:16 01 => 10 01H 0001 0000 0000 0001
国标码:30 21H <= 10 01H
+20 20H 0011 0000 0010 0001
机内码:B0 A1H <= 30 21H
B.第二部分:一级常用汉字,共3755个,按汉语拼音排列
C.第三部分:二级常用字,共3008个,按偏旁部首排列
区位码:GB2312国标字符集构成一个二维平面,它分成94行、94列,行号称为区号,列号称为位号。每一个汉字或符号在码表中都有各自的位置,字符的位置用它所在的区号(行号)及位号(列号)来表示。每个汉字的区号和位号分别用1个字节来表示{如:“大”字的区号20,位号83,区位码是20 83
D.像素深度,即像素的所有颜色分量的位数之和,它决定了不同颜色(亮度)的最大数目
3)图像的压缩编码
一幅图像的数据量可按下面的公式进行计算(以字节为单位):图像数据量=图像水平分辨率×图像垂直分辨率×像素深度/8
数据压缩类型
A.无损压缩:压缩以后的数据进行图像还原(也称为解压缩)时,重建的图像与原始图像完全相同
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关文档
最新文档