第5章数字媒体及应用

合集下载

第5章-数字媒体及应用

第5章-数字媒体及应用

第5章数字媒体及应用一、选择题[1].中文Word是一个功能丰富的文字处理软件,下面的叙述中错误的是___B___。

A.在文本编辑过程中,它能做到“所见即所得”B.在文本编辑过程中,操作错误不能“回退”(Undo)C.它可以编辑制作超文本D.它不但能进行编辑操作,而且能自动生成文本的“摘要”[2].下列关于计算机合成图像(计算机图形)的应用中,错误的是___C___。

A.可以用来设计电路图B.可以用来生成天气图C.计算机只能生成实际存在的具体景物的图像,不能生产虚拟景物的图像D.可以制作计算机动画[3].在未压缩情况下,图像文件大小与下列因素无关的是___A___。

A.图像内容B.水平分辨率C.垂直分辨率D.像素深度[4].图像处理软件有很多功能,以下___D___不是通用图像处理软件的基本功能。

A.图像的缩放显示B.调整图像的亮度、对比度C.在图片上制作文字,并与图像融为一体D.设计制作石油开采地形图[5].数字视频的一些特性提示我们可对其进行大幅度数据压缩,这些特性中不包含___A___。

A.数字视频的数据量大得惊人B.视频信息中各画面内部有很强的信息相关性C.一些视频细节人眼无法感知D.视频信息中相邻画面的内容有高度的连贯性[6].下列关于数字图像的叙述中正确的是___B___。

A.一幅彩色图像的数据量计算公式为:图像数据量=图像水平分辨率×图像垂直分辨率/8 B.黑白图像或灰度图像的每个取样点只有一个亮度值C.对模拟图像进行量化的过程也就是对取样点的每个分量进行D/A转换D.取样图像在计算机中用矩阵来表示,矩阵的行数称为水平分辨率,矩阵的列数称为图像的垂直分辨率[7].文字处理软件输出汉字时,首先根据汉字的机内码在字库中进行查找,找到后,即可显示(打印)汉字,在字库中找到的是该汉字的___D___。

A.外部码B.交换码C.机内码D.字形描述信息[8].数字摄像头采用的光传感器器件是___D___。

5.1 文本与文本处理.ppt

5.1 文本与文本处理.ppt
四字节:非常用CJK汉字
应用:Windows,Mac,Java,···
2020/11/9
22
UCS/Unicode的优缺点
优点:编码空间极大,能容纳足够多的各种字符 集(13亿字符)
缺点:4字节的字符编码使存储空间浪费严重 克 服 : 在 UCS/Unicode 编 码 空 间 中 , 把 第 1 和 第 2
2020/11/9
7
文本处理
文本处理
文本准备
文本编辑
文本处理软件
电子 文本
(编辑器)
格式化的 电子文本
文本展现
其他 媒体
(阅读器)
网 络 传 输
2020/11/9
8
组成文本的基本元素是字符 (character) ,字符与数值信息一 样,在计算机中也采用二进位编码 表示。
2020/11/9
9
5.1.1 字符的编码
16
GB2312汉字的编码
每一个GB2312汉字使用16位(2个字节)表示 为了与ASCII字符相区别,每个字节的最高位均为“1”
1 X XX X XX X 1 X XX X XX X
第1字节
第2字节
例如:
“南”字的代码是11000100 11001111 (用十六进制表示为C4CF)
2020/11/9
编码方 法
双字节存储和 表示,每个字 节的最高位均 为“1”
双字节存储和 表示,第1个 字节的最高位 必为“1”
部分双字节、 部分4字节表 示,双字节表 示方案与GBK 相同
(1) UTF-8采用单字 节可变长编码
(2) UTF-16采用双 字节可变长编码
兼容性
编码保持向下兼容
编码 不兼容!

《数字媒体技术》教案

《数字媒体技术》教案

《数字媒体技术》教案一、第一章:数字媒体技术概述1. 教学目标让学生了解数字媒体技术的概念、发展历程和应用领域。

2. 教学内容数字媒体技术的定义、发展阶段、关键技术、应用领域。

3. 教学方法讲授法、案例分析法。

4. 教学步骤(1)介绍数字媒体技术的定义和发展历程。

(2)讲解数字媒体技术的关键技术和应用领域。

(3)分析典型案例,让学生了解数字媒体技术在实际中的应用。

二、第二章:数字媒体基本元素1. 教学目标让学生掌握数字媒体的基本元素,包括文本、图像、音频、视频等。

2. 教学内容文本、图像、音频、视频等基本元素的特点和应用。

3. 教学方法讲授法、实践操作法。

4. 教学步骤(1)讲解文本、图像、音频、视频等基本元素的概念和特点。

(2)通过实践操作,让学生了解基本元素的应用方法。

三、第三章:数字媒体创作工具1. 教学目标让学生熟悉常见的数字媒体创作工具,如Photoshop、Premiere、Flash等。

2. 教学内容Photoshop、Premiere、Flash等创作工具的基本功能和操作。

3. 教学方法讲授法、实践操作法。

4. 教学步骤(1)介绍Photoshop、Premiere、Flash等创作工具的基本功能。

(2)通过实践操作,让学生掌握创作工具的基本操作方法。

四、第四章:数字媒体项目管理1. 教学目标让学生了解数字媒体项目管理的流程和方法,提高项目实施效率。

2. 教学内容数字媒体项目策划、实施、监控、评价等环节。

3. 教学方法讲授法、案例分析法。

4. 教学步骤(1)讲解数字媒体项目策划的方法和技巧。

(2)介绍项目实施和监控的关键环节。

(3)分析典型案例,让学生了解项目评价的标准和指标。

五、第五章:数字媒体技术在实践中的应用1. 教学目标让学生了解数字媒体技术在实际中的应用,提高学生的实践能力。

2. 教学内容数字媒体技术在广告、游戏、影视等领域的应用案例。

3. 教学方法讲授法、案例分析法。

江苏省计算机等级考试一级历年真题(06-12)第五章数字媒体及应用附答案资料

江苏省计算机等级考试一级历年真题(06-12)第五章数字媒体及应用附答案资料

第五章数字媒体及应用一、判断题l. GBl8030汉字编码标准收录了27484个汉字,完全兼容GBK、GB2312标准。

2. GBl8030汉字编码标准中收录的汉字在GBK编码标准中也能找到。

3. GBl8030是一种既保持与GB2312、GBK兼容,又有利于向UCS/Unicode过渡的汉字编码标准。

4. GB2312国标字符集构成一个二维平面,它分为94行、94列,共有6700多个简体汉字。

5.GB2312国标字符集由三部分组成:第一部分是字母、数字和各种符号;第二部分为一级常用汉字:第三部分为二级常用汉字。

6. GB2312国标字符集中的3000多个一级常用汉字是按汉语拼音排列的。

7. GBK是我国继GB2312后发布的又一汉字编码标准,它不仅与GB2312标准保持兼容,而且还增加了包括繁体字在内的许多汉字和符号。

8. HTML文件是一种使用超文本标记语言进行描述的文本文件,因此使用Windows中的记事本也可以编辑HTML文件。

9. UCS/Unicode中的汉字编码与GB2312、GBK标准以及GBl8030标准都兼容。

10. Windows、Unix和Linux操作系统都开始支持UCS/Unicode编码。

11. Windows操作系统中的“帮助”文件(hlp文件)是一种丰富格式文本。

12.超文本中的超链可以指向文字,也可以指向图形、图像、声音或动画节点。

13. 光学字符识别,即OCR是将纸介质上的印刷体文字符号自动输入计算机并转换成编码文本的一种技术。

14. 汉字输入的编码方法大体分成四类:数字编码、字音编码、字形编殂、形音编码,但使用不同的输入编码方法向计算机输入的同一个汉字,它们的内码是相同的。

15.几乎所有支持丰富格式文本的文本处理软件都能处理RTF格式的文档。

16. 虽然标准ASCII码是7位的编码,但由于字节是计算机中最基本的处理单位,故一般仍以一个字节来存放一个ASCII字符编码,每个字节中多余出来的一位(最高位),在计算机内部通常保持为0。

第5章 数字媒体及应用 例题及答案分析

第5章 数字媒体及应用 例题及答案分析

第 5 章数字媒体及应用★典型例题及考题分析一、选择题分析【例1】英文字母“C ”的十进制ASCII 码值为67 ,则英文字母“G ”的十六进制ASCll 码值为____。

( A ) ( 0 1 1 1 1000 )2( B ) ( 01000111 ) 2( C ) ( 01011000 )2 ( D ) ( 01000011 ) 2分析:数字、大写字母、小写字母的ASCII 码值都是按照它们的自然顺序进行排列,所以" G ”的ASCII 码值为67 + 4 = 71 ,转化为二进制为01000111 。

答案:B【例 2 】对于汉字的编码,下列说法中正确的是____。

①国标码,又称汉字交换码②GB2312 汉字编码为每个字符规定了标准代码③GB2312 国际字符集由三部分组成。

第一部分是字母、数字和各种符号;第二部分为一级用汉字;第三部分为繁体字和很多生僻的汉字。

④高位均为1 的双字节(16 位)汉字编码就称为GB2312 汉字的“机内码”,又称内码。

①GBK 编码标准包含繁体字和很多生僻的汉字②GB18030 编码标准所包含的汉字数目超过3 万( A ) ①②③④⑤(B )①②④⑤( C ) ①④⑤(D )③④⑤分析:GB2312 国际字符集由三部分组成。

第一部分是字母、数字和各种符号,包括拉丁文字母、俄文、日文平假名、希腊字母、汉语拼音等共682 个(统称为GB2312 图形符号); 第二部分为一级常用汉字,共3755 个,按汉语拼音排列;第三部分为二级常用字,共3008 个,因不太常用,所以按偏旁部首排列。

GB18030 编码标准所包含的汉字数目为27000 多个。

答案:B【例 3 】文本编辑的目的是使文本正确、清晰、美观,下列____操作不属于文本处理而属于文本编辑功能。

( A ) 定义超链(B )词语错误检测( C ) 关键词提取(D )词性标注分析:文本编辑的主要功能包括:( 1 ) 对字、词、句、段落进行添加、删除、修改等操作;( 2 ) 字的处理:设置字体、字号、字的排列方向、间距、颜色、效果等;( 3 ) 段落的处理:设置行距、段间距、段缩进、对称方式等;( 4 ) 表格制作和绘图;( 5 ) 定义超链;( 6 ) 页面布局(排版):设置页边距、每页行列数、分栏、页眉、页脚、插图位置等。

第五章习题集

第五章习题集

第五章数字媒体及应用测试题一、判断题1.Adobe Acrobat是一种流行的数字视频编辑器。

(____)提示:Acrobat是Adobe公司推出的面向电子出版的最流行的软件,它使用PDF文件格式把文字、图形、图像、超文本链接、声音、视频等信息封装在一起;而该公司出产的Premiere才是数字视频编辑器。

2.ASF文件是由微软公司开发的一种流媒体,主要用于互联网上视频直播、视频点播和视频会议等。

(____)提示:为适应在网络上对视频流的实时播放,微软开发了ASF(Advanced Stream Format)文件格式,音频压缩和视频压缩分别采用了WM Audio8和WM Video8流媒体技术,以满足因特网上视频传输的需要。

3.DVD与VCD相比其图像和声音的质量、容量均有了较大提高,DVD所采用的视频压缩编码标准是MPEG-2。

(____)提示:CD(Compact Disc),每张CD唱片650MB左右,存放1小时的立体声高保真音乐;VCD(Video CD在CD上存储视频和音频信息),采用MPEG-1标准压缩,650MB 存放74分钟VHS质量的(352*240)的视频图像。

DVD(Digital Versatile Disc)单面单层DVD容量达4.7GB,能存放133分钟的广播级图像质量的整部电影,采用MPEG- 2标准压缩视频图像,画面品质比VCD明显提高。

4.GB18030是一种既保持与GB2312、GBK兼容,又有利于向UCS/Unicode过渡的汉字编码标准。

(____)提示:GB18030既与现有汉字编码标准保持向下兼容,又与国际标准UCS/Unicode接轨,目前已在许多计算机系统中使用。

5.GB2312国标字符集构成一个二维平面,它分为94行、94列,共有不到6000个简体汉字。

(____)提示:GB2312所有字符分布在一个94行×94列的二维平面内,行号称为区号,列号称为位号,包含字母、数字和各种符号682个,一级常用汉字3755个(按拼音排序),二级汉字3008个(按偏旁部首排序)。

zzb05.数字媒体及应用

第5章数字媒体及应用5.1 文本与文本处理1.(2008年)在ASCII编码中,字母A的ASCII编码为41H,那么字母f的ASCII编码为___。

A.46HB.66HC.67HD.78H2.(2005)在下列字符中,其ASCII码值最大的一个是______。

A.XB.6 C.5 D.Y3.美国标准信息交换码(ASCII码)中,共有128个字符,包括__个可打印字符和32个控制字符。

A.52B.96C.116D.1014.在下列字符中,其ASCII码值最大的一个是()。

A)Z B)9 C)空格字符D)a5.(2005)传输率为9600b/s,意味着每分钟最多可传送______个ASCII码字符。

6.西文字符在计算机中通常采用ASCII码表示,每个字节存放1个字符。

7.虽然标准ASCII码是7位的编码,但由于字节是计算机中最基本的处理单位,故一般仍以一个字节来存放一个ASCII字符编码,每个字节中多余出来的一位(最高位),在计算机内部通常保持为0。

8.下面是关于我国汉字编码标准的叙述,其中正确的是:()A.在最新的汉字编码国家标准中,同一个汉字的不同字形(如简体和繁体)在计算机中的内码不同。

B.同一个汉字的不同造型(如宋体、楷体等)在计算机中的内码不同。

C.我国最新发布的也是收字最多的汉字编码国家标准是Unicode。

D.3种标准保持向下兼容,并与我国台湾地区发布和使用的BIG-5兼容。

9.下面是关于我国汉字编码标准的叙述,其中正确的是__。

A.在GB18030汉字编码国家标准中,共有2万多个汉字。

B.同一个汉字的不同造型(如宋体、楷体等)在计算机中的内码不同。

C.Unicode是我国最新发布的也是收字最多的汉字编码国家标准。

D.GB18030与GB2312和GBK汉字编码标准不兼容。

10.在采用GB2312国标汉字微机系统中,“大”字的机内码为B4F3H,它的国标码为___。

11.,需要占用__个字节的内存。

数字媒体

19
5.1 文本与文本处理
丰富格式文本
• 有字体字号等属性变化、设置了段落和页面排版格式的文本称为“丰富 格式文本” • 丰富格式文本中,除了正文内容之外,还使用了许多“标记”来描述字 符的属性和格式的设置。 • 举例:下面标题的格式为:中文用黑体,西文用Arial Black体,居中
本书由南京大学出版社(Publishing House of Nanjing University)出版
颜色空间的类型,指彩色图像所使用的颜色描述方法,如:
• 没有字体、字号的变化,不能插入图片、表格,也不能建立超 链接,其文件后缀名是 .txt • 由一串用于表达正文内容的字符编码所组成,几乎不包含任何 其他的格式信息和结构信息 文 • 举例: 本 本 书 由 南 京 大 学 出 文 在 B1 BE CA E9 D3 C9 C4 CF BE A9 B4 F3 D1 A7 B3 F6 本 计 版 社 ( P u b l i s h i n g 的 B0 E6 C9 E7 28 50 75 62 6C 69 73 68 69 6E 67 算 内 机 H o u s e o f N a n j i n 容 20 48 6F 75 73 65 20 6F 66 20 4E 61 6E 6A 69 6E 中 的 g U n i v e r s i t y ) 出 版 表 67 20 55 6E 69 76 65 72 73 69 74 79 29 B3 F6 B0 E6 示
B b2 b1 F
C c1 c2 G g1
D d1 H h1
超链是有向的,起点位置 称为链源,它可以是文本 块中的一个标题、一句句 子、一个关键词、一幅画、 一个图标等
21
“超链”实际上就是 一个指针,用于指向 其他文本块,也可以 指向同一文本块中的 其他部分

第五章 数字媒体技术应用A

第五章数字媒体技术应用A您的姓名: [填空题] *_________________________________一、单项选择题1. 下列属于传输媒体的是。

[单选题] *A. U盘B. 打印机C. 无线耳机D. 电缆(正确答案)2. 数字媒体技术的关键技术不包括。

[单选题] *A. 云计算技术(正确答案)B. 通信技术C. 流媒体技术D. 数据压缩技术3. 下列关于矢量图与位图的说法,正确的是。

[单选题] *A. 矢量图放大后会失真B. 位图的基本元素是图元C. 矢量图是使用直线和曲线来描述图形(正确答案)D. 位图的存储容量小4. 把视频中相邻帧之间的相同内容进行压缩,压缩的是信息。

[单选题] *A. 视觉冗余B. 听觉冗余C. 时间冗余(正确答案)D. 空间冗余5. 关于数据压缩的说法,错误的是。

[单选题] *A. 数据压缩技术的前提条件是数据存在冗余B. 数据压缩技术是数字媒体技术的核心技术C. 数据压缩技术只能用于音频、视频文件(正确答案)D. 经过数据压缩后的文件,存储空间会大大减小6. 高清晰度电视的压缩格式是。

[单选题] *A. MPEG-1B. MPEG-2(正确答案)C. MPEG-3D. MPEG-47. 下列方法不能直接获取声音素材。

[单选题] *A. 通过录音软件以及麦克风录制声音B. 把CD光盘中的内容直接复制到电脑上(正确答案)C. 使用GoldWave软件以及麦克风来录制声音D. 直接从网上下载声音素材8. 我国的电视制式同于欧洲国家为PAL制,其帧频为。

[单选题] *A. 每秒10帧B. 每秒15帧C. 每秒25帧(正确答案)D. 每秒30帧9. 不属于色彩的三要素之一。

[单选题] *A. 色相B. 对比度(正确答案)C. 纯度D. 明度10. 下列关于色彩模式的叙述正确的是。

[单选题] *A. RGB色彩模式是一种应用在印刷工业和打印机领域的色彩模式B. RGB、CMYK、Lab三种色彩模式下的色域空间关系是:Lab>RGB>CMYK(正确答案)C. Lab色彩模式是一种基于色光的颜色模式D. CMYK色彩模式即色相、纯度、明度模式11. 以下软件中,不是图像加工工具的是。

扬州职业大学非计算机专业计算机信息技术教案


教学内容及时间安排
5.1.1 字符的编码 (45 分钟)
1. 1. 西文字符的编码
2. 2. 汉字的编码
3. 3. UCS/Unicode 与 GB18030 汉字编码标准
5.1.2 文本准备
(17 分钟)
1. 1. 汉字键盘输入
2. 2. 非击键方式的汉字输入方法,
5.1.3 文本的分类与表示(18 分钟)
文本在计算机中的处理过程包括文本准备(例如汉字的输人)、文本编辑、文本处理、 文本存储与传输、文本展现等
-4-
文本准备
电子 文本
文本处理
文本编辑 (编辑器)
(文本处理软件)
格式化的 电子文本
文本存储 与传输
文本 展现
(阅读器)
5.1.l 字符的编码 字符是组成文本的基本元素,一组字符的集合叫做“字符集”。字符集中的每个字符在
计算机中均采用二进位表示,称为该字符的编码。字符的编码各不相同,构成了该字符集的 代码表,简称码表。
1.西文字符的编码 人们经常使用的字符集有两大类——西文字符集和中文字符集。西文字符集由丁字母、 数字、标点符号及一些特殊符号组成;中文字符集则包含数以千计的汉字,同时也包含多种 字母、数字、标点符号和特殊符号。 标准 ASCII 字符集只有 128 个不同的字符,在很多应用中不够使用。为此国际标准化 组织又规定了将 ASCII 字符集扩充为 8 位代码的统一方法,陆续制定了一批适用于不同地 区的扩充 ASCll 字符集。 2.汉字的编码 中文文本的基本组成单位是汉字。 (l)GB2312 汉字编码 1981 年 我 国 颁 布 了 第 一 个 国 家 标 准 — — 信 息 交 换 用 汉 字 编 码 字 符 集 · 基 本 集 ) (Gll2312)。该标准选出 6763 个常用汉字和 682 个非汉字字符,为每个字符规定了标准代 码,以便在不同计算机系统之间进行汉字文本的交换。 (2)GBK 汉字内码扩充规范 GBK 是我国 1995 年发布的又一个汉字编码标准,全称为《汉字内码扩展规范)。它一 共有 21003 个汉字和 883 个图形符号,与 GB2312 国标汉字字符集及其内码保持兼容, 3.UCS/Unicode 与 GB18030 汉字编码标准 GB2312 中的每个字符在 GBK 和 GB18030 中也存在,且它们在计算机中的代码(内码) 完全相同,而 GB18030 中的某些字符在 GBK 和 GB2312 中却不一定存在。 上面的编码字符集仅以一个国家(地区)的文字符号为主,主要供本国(地区)使用。 教材中还介绍了一种通用编码字符集 UCS/Unicode,它的目标是在同一个字符集中对世界 各国和地区所有不同的文字符号进行统一编码。目前在许多计算机中使用的 Unicode(3.0 版)就是它的一个子集。Unicode(3.0 版)包含了世界各国和地区当前使用的拉丁字母文 字、音节文字和汉字中的常用字以及各种符号和数字共 49194 个。需要注意的是,其中所含 的汉字虽然与我国的 GB18030 标准相同,但它们的编码却并不一致。 5.1.2 文本准备 文本在计算机中从制作到使用有一个生命周期,即:文本准备一文本编辑—文本处理一 文本的存储与传输一文本展现,每个阶段均有其特定的任务和处理方法。 文本制作就是向计算机输人该文本所包含的字符信息,然后进行编辑和排版处理。将字 符输人计算机的方法有两类:人工输人和自动识别输人。人工输人指的是用户通过键盘、手 写笔或口述(语音)方式向计算机逐个输人字符,这种方式速度较慢、成本也高,不太适合
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

23
5.1.2. 文本的获取
24
1、文本信息的输入
字符信息的输入
人工输入
自动识别输入
键盘输入
(1)数字编码, 如电报码、区位码等, (2)字音编码, 如智能ABC等 (3)字形编码,如五笔字形和表形码等, (4)形音编码 发展趋势:基于统计和学习功能的以词语(短语)或句子作为输入单 位的输入方法
音乐
图像 ···
其中,文字信息处理是涉及面最广的一种计算机 应用,几乎与任何领域任何人都有关。
3
传统的文字处理过程
写作 写作
编辑
印刷
排版
发行
4
计算机文字处理过程
文字信息在计算机中称为“文本”(text),文本是计算机中最 常用的一种数字媒体 文本由一系列 “字符”(character)组成,每个字符均使用二 进制编码表示 文本在计算机中的处理过程是:
共有21003个汉字和883个图形符号,如“計算機”、冃、冄、 円、冇等繁体字和生僻字
与GB8312保持向下兼容,也使用双字节表示,第1字节最高位 必须为“1”:
1
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
第1字节
19
第2字节
GB18030汉字编码标准
背景:无论是Unicode的UTF-8还是UTF-16,其CJK汉字字符集虽然 覆盖了我国已使用多年的GB2312和GBK标准中的汉字,但它们的编 码并不相同 为了既能与UCS/Unicode编码标准接轨,又能保护我国已有的大量 汉字信息资源,我国在2000年和2005年两次发布GB18030汉字编码 国家标准。 GB18030实质上是UCS/Unicode字符集的另一种编码方案:
允许有若干不同的编码方案, 例如:
Unicode:UTF-8 单字节可变长编码
单字节:ASCII字符 双字节:拉丁、希腊、阿拉伯,· · · 三字节:CJK汉字 四字节:其他
Unicode:UTF-16双字节可变长编码
双字节: ASCII字符、拉丁、希腊、 阿 拉伯,常用CJK汉字,· · · 四字节:非常用CJK汉字
标准名称
GB2312
6763个汉字(简 体字)
GBK
21003个汉字 (包括GB2312 汉字在内)
GB 18030
近3万汉字 (包括GBK汉字 和CJK及其扩 充中的汉字)
UCS-2 (Unicode)
包含10万多字符,其 中的汉字与GB18030 相同
字符集
编码方法 双字节存储和 表示,每个字 节的最高位均 为“1”
字符信息的输入
人工输入
自动识别输入
键盘输入
联机手写输入
语音输入
印刷体识别
手写体识别
– 技术上非常困难,还无法实用 –目前准备先突破工整的楷书手写体的识别!
29
汉字的键盘输入
汉字与键盘上的键无法一一对应,因此必须使用 几个键来表示一个汉字,这就称为汉字的“键盘输 入编码” 优秀的汉字键盘输入编码应具有的特点:
双字节存储和表 示,第1个字节 的最高位必为 “1”
(1) UTF-8采用单字节 部分双字节、 部分4字节表示, 可变长编码 双字节表示方 案与GBK相同 (2) UTF-16采用双字
节可变长编码
兼容性
编码保持向下兼容
21
编码 不兼容!
例: IE浏览网页时文字编码的选择
22
繁体汉字的编码标准
BIG5编码是目前台湾、香港地区普遍使用的一种 繁体汉字的编码标准 BIG5包括440个符号,一级汉字5401个,二级汉 字7652个,共计13060个汉字 香港增补字符集HKSCS是香港政府订立的BIG5扩 展标准
不同的字符集包含的字符数目与内容不同,如:
中文字符集、西文字符集、日文字符集等
字符的编码:
字符集中每个字符的二进位表示,称为该字符的编码或代码 (code)
不同的字符其编码各不相同
字符集中所有字符的编码的一览表,称为该字符集的码表
7
1、 ASCII码——西文字符的编码
西文是表音文字(拼音文字),它由拉丁字母、数字、标点符号 以及一些特殊符号所组成 美国标准信息交换码(ASCII码):
第5章 数字媒体及应用
5.1 文本及文本处理 5.2 数字声音及应用
5.3 图像与图形
5.5 数字视频及应用
5.1 文本与文本处理
5.1.1 字符的编码
5.1.2 文本的获取 5.1.3 文本的常见格式
2
文字处理是计算机应用的基础
计算机应用=使用计算机进行信息处理
文字
数值 语言
信息的形态有多种
易学习、易记忆
效率高(平均击键次数较少) 重码少 容量大(可输入的汉字字数多)
30
汉字键盘输入方法的比较
类型
数字 编码 字音 编码
原理
举例
优点
仅使用10个数 字键 简单易学,适 合于非专业人 员
缺点
难记忆 重码多,需增加选择操 作,不会汉语拼音或不 知道读音时无法使用
使用一串数字来表示汉 电报码 字 区位码 把汉语的拼音作为汉字 智能ABC 的输入编码 紫光 微软拼音输入
25
1、文本信息的输入
字符信息的输入
人工输入
自动识别输入
键盘输入
联机手写输入
•优点:
–自然,流畅 –小型化,适合移动计算
•不足:
–识别速度和正确性还需提高 –书写要求还要降低
26
1、文本信息的输入
字符信息的输入
人工输入
自动识别输入
键盘输入
联机手写输入
语音输入
•优点: •自然,方便,适合移动计算 •不足: •对说话人、说话方式、说话内容的适应能力要大 大增强 •识别速度和正确性还需大大提高
1
X X X X X X X
1
X
X
X
X
X
X
X
第1字节
第2字节
例如:
“南”字的代码是11000100 11001111
(用十六进制表示为C4CF)
13
区位码、国标码和机内码
区位码:字符的代码表为94×94的表,行号(0~93) 为区号,列号(0~93)为位号。 该字符所在的区号 (行号)及位号(列号)的二进制代码(7位区号 在左,7位位号在右,共14位)即为区位码。 每个 汉字在码表中的位置编码,称为区位码。 国标码:由于信息传输的原因,汉字的区号和位号 必须加上32所得的二进制代码才是其对应的国标 码。 国标码=(区码+32,位码+32) 机内码:在计算机内部,汉字以两个字节来表示一 个汉字,为和ASCII码区别,其最高位为1。该码 称为汉字的机内码,又称内码。
应用:Linux,Web网页,电子邮件
18
应用:Windows,Mac,Java,· · ·
GBK汉字内码扩充规范
GB2312的不足:
汉字字数太少,缺少繁体字,无法满足人名、地名、古籍整理、 古典文献研究等应用的需要;与ASCII码不兼容
GBK汉字内码扩充规范(1995):
在GB2312基础上,增加了1万多汉字(包括繁体字)和符号
ASCII字符集包含96个可打印字符和32个控制字符
采用7个二进位进行编码
计算机中使用1个字节存储1个ASCII 字符
0
存在问题:
X
X
X
X
X
X
X
字符集太小(只有128个字符) 不同国家和地区使用不同的字符集及其编码,互不兼容
东亚地区使用的大字符集无法编码
8
2、扩充ASCII字符集
27
1、文本信息的输入
字符信息的输入
•识别率已达到98% •功能:
– 简、繁体字混合识别 – 中文、西文混合识别 自动识别输入 – 文字、表格混合识别 – 智能校对功能
人工输入
键盘输入
联机手写输入
语音输入
印刷体识别纸介质 文本Fra bibliotek扫描仪
文本的 映象 (image)
OCR
数字 文本
28
1、文本信息的输入
17
UCS/Unicode多文种大字符集
背景:为了实现全球数以千计的不同语言文字的统一编码
方案:ISO将全球所有文字字母和符号集中在一个字符集中进行统一 编码(目前共收集了17x216=1,114,112 个) ,称为UCS/Unicode UCS/Unicode的编码方案: 先实现部分字符的编码(共107,361个字符) 尽量与已有编码标准兼容 其中包含有中、日、韩统一整理出来的近3万汉字(称CJK汉字)
(3)
文本处理 文本准备 (文字与图表 的输入) 文本编辑 与排版 (文本处理软件)
文本存储 文本 电子 (文本编辑器) 格式化的 展现 与传输 文本 电子文本 (存档/通信软件) (文本阅读器)
(1)
5
(2)
(4)
(5)
5.1.1. 字符编码
6
字符、字符集及其编码表
文字的基本元素是字母和符号,统称为“字符” (character),它包括:字母、数字、标点、符号等 字符集:一组抽象字符的集合,是常用字符的集合
ISO陆续制定了一批适用于不同地区的扩充ASCII字符集, 每个扩充ASCII字符集分别可以扩充128个字符,这些扩 充字符的编码均是高位为1的8位代码(十进制数128~ 255),称为扩展ASCII码。
9
3、汉字的编码
汉字是记录汉语(国语,华语)的文字,属于表意 文字,它用符号直接表达词或词素,有多个国家和 地区使用(中、日、韩、新、马···) ···
相关文档
最新文档