第5章5.1 文本与文本处理
合集下载
5.1 文本与文本处理.ppt

四字节:非常用CJK汉字
应用:Windows,Mac,Java,···
2020/11/9
22
UCS/Unicode的优缺点
优点:编码空间极大,能容纳足够多的各种字符 集(13亿字符)
缺点:4字节的字符编码使存储空间浪费严重 克 服 : 在 UCS/Unicode 编 码 空 间 中 , 把 第 1 和 第 2
2020/11/9
7
文本处理
文本处理
文本准备
文本编辑
文本处理软件
电子 文本
(编辑器)
格式化的 电子文本
文本展现
其他 媒体
(阅读器)
网 络 传 输
2020/11/9
8
组成文本的基本元素是字符 (character) ,字符与数值信息一 样,在计算机中也采用二进位编码 表示。
2020/11/9
9
5.1.1 字符的编码
16
GB2312汉字的编码
每一个GB2312汉字使用16位(2个字节)表示 为了与ASCII字符相区别,每个字节的最高位均为“1”
1 X XX X XX X 1 X XX X XX X
第1字节
第2字节
例如:
“南”字的代码是11000100 11001111 (用十六进制表示为C4CF)
2020/11/9
编码方 法
双字节存储和 表示,每个字 节的最高位均 为“1”
双字节存储和 表示,第1个 字节的最高位 必为“1”
部分双字节、 部分4字节表 示,双字节表 示方案与GBK 相同
(1) UTF-8采用单字 节可变长编码
(2) UTF-16采用双 字节可变长编码
兼容性
编码保持向下兼容
编码 不兼容!
应用:Windows,Mac,Java,···
2020/11/9
22
UCS/Unicode的优缺点
优点:编码空间极大,能容纳足够多的各种字符 集(13亿字符)
缺点:4字节的字符编码使存储空间浪费严重 克 服 : 在 UCS/Unicode 编 码 空 间 中 , 把 第 1 和 第 2
2020/11/9
7
文本处理
文本处理
文本准备
文本编辑
文本处理软件
电子 文本
(编辑器)
格式化的 电子文本
文本展现
其他 媒体
(阅读器)
网 络 传 输
2020/11/9
8
组成文本的基本元素是字符 (character) ,字符与数值信息一 样,在计算机中也采用二进位编码 表示。
2020/11/9
9
5.1.1 字符的编码
16
GB2312汉字的编码
每一个GB2312汉字使用16位(2个字节)表示 为了与ASCII字符相区别,每个字节的最高位均为“1”
1 X XX X XX X 1 X XX X XX X
第1字节
第2字节
例如:
“南”字的代码是11000100 11001111 (用十六进制表示为C4CF)
2020/11/9
编码方 法
双字节存储和 表示,每个字 节的最高位均 为“1”
双字节存储和 表示,第1个 字节的最高位 必为“1”
部分双字节、 部分4字节表 示,双字节表 示方案与GBK 相同
(1) UTF-8采用单字 节可变长编码
(2) UTF-16采用双 字节可变长编码
兼容性
编码保持向下兼容
编码 不兼容!
第5章5.1文本与文本处理ppt课件

每一个GB2312汉字使用16位(2个字节)表示
每个字节的最高位均为“1”
在16位代码空间中的码位分布:
00 00
第 2字节
7E A1
FE
16位的代 码空间共 有216 = 65536个 码位
第 1 81 字 节 A1
FE
22
GB2312 图形符号
B0
汉字代码空间
(6763个汉字)
F7
5.1 文本与文本处理
6
5.1 文本与文本处理
汉字的键盘输入
汉字与键盘上的键无法一一对应,因此必须使用 几个键来表示一个汉字,这就称为汉字的“键盘输 入编码” 优秀的汉字键盘输入编码应具有的特点:
➢易学习、易记忆 ➢效率高(平均击键次数较少) ➢重码少 ➢容量大(可输入的汉字字数多)
7
5.1 文本与文本处理
汉字键盘输入方法的比较
类型
原理
举例
数字 编码
使用一串数字来表示汉 电报码
字
区位码
字音 编码
把汉语的拼音作为汉字 智能ABC
的输入编码
紫光
微软拼音输入
字形 编码
把汉字的部件或笔画作 五笔字形 为码元,按照汉字结构 表形码
及其切分规则作为编码 郑码
依据,确定每个汉字的
输入代码
音形 编码 (或形音 编码)
采用字音及字形两种属 粤音输入法 性作为码元的汉字编码 输入方法
GB2312汉字编码的不足之处
GB2312-80汉字字数太少,无法满足一些特殊应用的需要: ➢ 人名、地名; ➢ 古籍整理、古典文献研究。 ➢ 没有繁体字(1990年制定了繁体字的编码标准GB12345-90 《信息交换用汉字编码字符集第一辅助集》)
CoreDRAW X6中文版应用教程_第5章 文本的处理

居中
图5-5 文本对齐按钮
全部对齐
强制调整
图5-6 不同对齐方式的效果比较
2. 美术字文本对齐
设置美术字文本对齐的具体操作步骤如下: 1)利用工具箱中的 (文字工具),在工作区中输入美术字文本。 2)利用工具箱中的 (选择工具),选择输入的美术字文本对象。然 后执行菜单中的“排列|对齐和分布”命令进行对齐 。
1)利用工具箱中的 (文本工具),在工作区 中输入美术字文本。
2)利用工具箱中的 (选择工具),选择要设 置格式的文本对象。
3)执行菜单中的“文本|文本属性”命令,打开 “文本属性”泊坞窗,然后展开“字符”选项组,如 图5-3所示。
4)在“文本属性”泊坞窗中的字体列表中选择 一种字体,然后分别对字号、字间距和字符位移等参 数进行设置,还可以设置上画线、下画线及删除线等 字符效果。
设置段落文本对齐的具体操作步骤如下: 1)利用工具箱中的 (文本工具),在工作区中输入一段段落文本。 2)利用工具箱中的 (选择工具),选择输入的段落文本对象。然后 单击文本属性栏中的 按钮,从弹出的如图5-5所示的按钮中选择一种对齐 方式。图5-6所示为居中、全部对齐和强制调整三种对齐方式的效果比较。
5.1 添加文本
在CorelDRAW X6中,文本分为美术字和段落文字两种类型。下 面就来具体讲解这两种文本的添加方法。
5.1.1 添加美术字文本
添加美术字文本的具体操作步骤如下: 1)选择工具箱中的 (文本工具)(快捷键〈F8〉),然后将鼠标移 至工作区,此时光标变为 形状。 2)在工作区中要输入美术字文本的位置单击鼠标左键,该位置会出 现一个闪烁的文字光标“”,然后输入文本即可。 3)输入完毕后,单击工具箱中的 (选择工具),再在文本区外单击 鼠标左键,即可结束美术字文本的输入,如图5-1所示。
图5-5 文本对齐按钮
全部对齐
强制调整
图5-6 不同对齐方式的效果比较
2. 美术字文本对齐
设置美术字文本对齐的具体操作步骤如下: 1)利用工具箱中的 (文字工具),在工作区中输入美术字文本。 2)利用工具箱中的 (选择工具),选择输入的美术字文本对象。然 后执行菜单中的“排列|对齐和分布”命令进行对齐 。
1)利用工具箱中的 (文本工具),在工作区 中输入美术字文本。
2)利用工具箱中的 (选择工具),选择要设 置格式的文本对象。
3)执行菜单中的“文本|文本属性”命令,打开 “文本属性”泊坞窗,然后展开“字符”选项组,如 图5-3所示。
4)在“文本属性”泊坞窗中的字体列表中选择 一种字体,然后分别对字号、字间距和字符位移等参 数进行设置,还可以设置上画线、下画线及删除线等 字符效果。
设置段落文本对齐的具体操作步骤如下: 1)利用工具箱中的 (文本工具),在工作区中输入一段段落文本。 2)利用工具箱中的 (选择工具),选择输入的段落文本对象。然后 单击文本属性栏中的 按钮,从弹出的如图5-5所示的按钮中选择一种对齐 方式。图5-6所示为居中、全部对齐和强制调整三种对齐方式的效果比较。
5.1 添加文本
在CorelDRAW X6中,文本分为美术字和段落文字两种类型。下 面就来具体讲解这两种文本的添加方法。
5.1.1 添加美术字文本
添加美术字文本的具体操作步骤如下: 1)选择工具箱中的 (文本工具)(快捷键〈F8〉),然后将鼠标移 至工作区,此时光标变为 形状。 2)在工作区中要输入美术字文本的位置单击鼠标左键,该位置会出 现一个闪烁的文字光标“”,然后输入文本即可。 3)输入完毕后,单击工具箱中的 (选择工具),再在文本区外单击 鼠标左键,即可结束美术字文本的输入,如图5-1所示。
扬州职业大学非计算机专业计算机信息技术教案

教学内容及时间安排
5.1.1 字符的编码 (45 分钟)
1. 1. 西文字符的编码
2. 2. 汉字的编码
3. 3. UCS/Unicode 与 GB18030 汉字编码标准
5.1.2 文本准备
(17 分钟)
1. 1. 汉字键盘输入
2. 2. 非击键方式的汉字输入方法,
5.1.3 文本的分类与表示(18 分钟)
文本在计算机中的处理过程包括文本准备(例如汉字的输人)、文本编辑、文本处理、 文本存储与传输、文本展现等
-4-
文本准备
电子 文本
文本处理
文本编辑 (编辑器)
(文本处理软件)
格式化的 电子文本
文本存储 与传输
文本 展现
(阅读器)
5.1.l 字符的编码 字符是组成文本的基本元素,一组字符的集合叫做“字符集”。字符集中的每个字符在
计算机中均采用二进位表示,称为该字符的编码。字符的编码各不相同,构成了该字符集的 代码表,简称码表。
1.西文字符的编码 人们经常使用的字符集有两大类——西文字符集和中文字符集。西文字符集由丁字母、 数字、标点符号及一些特殊符号组成;中文字符集则包含数以千计的汉字,同时也包含多种 字母、数字、标点符号和特殊符号。 标准 ASCII 字符集只有 128 个不同的字符,在很多应用中不够使用。为此国际标准化 组织又规定了将 ASCII 字符集扩充为 8 位代码的统一方法,陆续制定了一批适用于不同地 区的扩充 ASCll 字符集。 2.汉字的编码 中文文本的基本组成单位是汉字。 (l)GB2312 汉字编码 1981 年 我 国 颁 布 了 第 一 个 国 家 标 准 — — 信 息 交 换 用 汉 字 编 码 字 符 集 · 基 本 集 ) (Gll2312)。该标准选出 6763 个常用汉字和 682 个非汉字字符,为每个字符规定了标准代 码,以便在不同计算机系统之间进行汉字文本的交换。 (2)GBK 汉字内码扩充规范 GBK 是我国 1995 年发布的又一个汉字编码标准,全称为《汉字内码扩展规范)。它一 共有 21003 个汉字和 883 个图形符号,与 GB2312 国标汉字字符集及其内码保持兼容, 3.UCS/Unicode 与 GB18030 汉字编码标准 GB2312 中的每个字符在 GBK 和 GB18030 中也存在,且它们在计算机中的代码(内码) 完全相同,而 GB18030 中的某些字符在 GBK 和 GB2312 中却不一定存在。 上面的编码字符集仅以一个国家(地区)的文字符号为主,主要供本国(地区)使用。 教材中还介绍了一种通用编码字符集 UCS/Unicode,它的目标是在同一个字符集中对世界 各国和地区所有不同的文字符号进行统一编码。目前在许多计算机中使用的 Unicode(3.0 版)就是它的一个子集。Unicode(3.0 版)包含了世界各国和地区当前使用的拉丁字母文 字、音节文字和汉字中的常用字以及各种符号和数字共 49194 个。需要注意的是,其中所含 的汉字虽然与我国的 GB18030 标准相同,但它们的编码却并不一致。 5.1.2 文本准备 文本在计算机中从制作到使用有一个生命周期,即:文本准备一文本编辑—文本处理一 文本的存储与传输一文本展现,每个阶段均有其特定的任务和处理方法。 文本制作就是向计算机输人该文本所包含的字符信息,然后进行编辑和排版处理。将字 符输人计算机的方法有两类:人工输人和自动识别输人。人工输人指的是用户通过键盘、手 写笔或口述(语音)方式向计算机逐个输人字符,这种方式速度较慢、成本也高,不太适合
lesson05-文字处理

页面布局 - 页面设置
课堂练习:段落排版练习.doc
实验一 文字、段落排版
四 插入选项卡及图文混排
1 插入表格 2 插入图片(图文混排) 3 插入形状
4 插入公式、符号
5 插入文本框和艺术字
6 边框和底纹
7 样p9): 实验一,文件名为:w1_学号.docx 实验二,表格文件名为:w2_学号.docx 图文混排文件名为:w3_学号.docx • 理论教材:p142-4,5,6(不需提交)
2015-3-31
18
大学计算机基础
第五章 数据处理
主讲:王亚杰
复旦大学
第5章 数据处理
本章主要内容:
5.1 5.2 5.3 5.4
引言 电子文档 电子表格 不同格式电子文档的转换(自主学习)
5.1 引言
1.什么是数据处理
对数据的采集、存储、检索、加工、变
换和传输。
2.数据处理的目的
从大量的数据中抽取并推导出对于某些
5.2 电子文档
电子文档:指人们在社会活动中形成的, 以计算机盘片、磁盘和光盘等化学磁性材料为 载体的文字材料。 本章主要介绍:
Word字处理软件
Excel电子表格
PowerPoint演示文稿。
Word2010
Word2010与Word2003区别: 1. 界面和操作 用选项卡、功能区取代菜单栏和工具栏。 2. 文件扩展名
特定的人们来说是有价值、有意义的信息。
5.1 引言
3.数据处理软件
通用应用软件:解决面广量大的通用数据处理。 如:常用的办公软件等。
专用数据处理软件: 根据不同用途、不同单位需要,利
用程序设计语言、数据库系统等开发的
专用数据处理软件。
ID软件教学

创建路径文字的方 法,可参考视频V54.avi
制作特殊效果文字, 可参考视频V55.avi
5.1.3 编辑与修改文字
1.选取文字 要选取文字,先选择文字工具 ,然后执行如下任一操作: 在要选择的文字前或后单击并拖动鼠标,待文字呈高亮反 白显示时,即可选中文字, 默认状态下,在行的任意位置连续单击3次鼠标左键,可 以选择整行。 默认状态下,如果在段落的任意位置连续单击4次鼠标左 键,可以选择整个段落。 如果在段落的任意位置连续单击5次鼠标左键,或者选择 “编辑”>“全选”菜单,可以选中整篇文章。
2.导入文本
在InDesign,可以使用置入或复制/粘贴的方式将系统以外的 文本放置到页面中进行编辑。粘贴或置入文本时,InDesgin系 统会自动创建一个文本框架,用户不需预先创建文本框架。
具体操作可 参考视频 V5-2.avi
3.排文
InDesign支持的排文方式主要有:手动排文、半自动排文和自 动排文三种。 手动排文:该方式可以将文本放置到不连续的页面中,但是 只能一次一个框架地添加文本,如果要继续排文必须重新载入 文本图标 。 半自动排文:利用该方式排文时,当文本到达框架或页面末 尾时自动停止排列,如文本尚未完全显示,系统会自动显示载 入的文本图标 ,此时,用户可根据需要将剩余文本置入到其 他页面中。 自动排文:该方式可以将导入的文本按页面顺序自动排列, 直到所有文本完全显示。
5.4.3 对齐小数点
利用“定位符”调板可以使数字以小数点或其它符号对齐, 具体的操作方法,可参考视频V5-11.avi。
5.4.4 添加前导符
前导符是定位符和后续文本之间的一种重复性字符模式, 如一连串的点或虚线,经常用于制作目录。添加前导符的 操作方法,可参考视频V5-12.avi。
VB教程 使用文本框和标签输入输出文字信息

第五章 使用文本框和标签输入输出文字信息
5.2 使用标签控件显示字符信息
用于显示文本(输出)信息,不能作为输入信息的界面。 1.基本属性 Name、Height、Width、Top、Left、Enabled、Visible、 Font、ForeColor、BackColor等与窗体的使用相同。 2.常用属性 1)Caption属性 Caption属性用来改变Label控件中显示的文本。Caption属 性允许文本的长度最多为1024字节。缺省情况下,当文本超过控 件宽度时,文本会自动换行,而当文本超过控件高度时,超出部 分将被裁剪掉。
第五章 使用文本框和标签输入输出文字信息
5.1.2 文本框的属性、事件和方法 1.Change事件
改变文本框的Text属性时会引发该事件。当输入一 个字符,就会触发一次Change事件。
第五章 使用文本框和标签输入输出文字信息
例2 当程序运行时,用户在第一个文本框中输入一行文字时,在另外 两个文本框中同时显示出相同的内容,但显示的字体大小不同。
个字符就会触发一次change事件第五章使用文本框和标签输入输出文字信息例2当程序运行时用户在第一个文本框中输入一行文字时在另外两个文本框中同时显示出相同的内容但显示的字体大小不同
第五章 使用文本框和标签输入输出文字信息
5.1 使用文本框处理字符信息 5.1.1 文本框的简单使用 例1
第五章 使用文本框和标签输入输出文字信息
Private Sub Command2_Click() End End Sub
第五章 使用文本框和标签输入输出文字信息
校验密码按钮的click代码
Private Sub Command2_Click() pass$ = Text1.Text If pass$ = "password" Then Text2.Text = "密码正确,继续进行" Else Text2.Text = "密码错误,重新输入" End If End Sub
第5章 文本的编辑处理

②接着【段落后】设定为200%,即可将选择段落的下一段向下移动一段距 离,效果如图5-37所示。
③接着在第一段的位置单击,使光标位于该段,如图5-38所示,表示己经
选择该段,再设定【行】为“200%",即将选择段落的行间距加宽,效果如 图5-39所示。
④用同样的方法,设置第二段和最后一段的行距为“150%”。效果如图540所示。这时,文本框下面出现的【文字溢出】图标,表示文本框单的文 本己经溢出,没有全部显示,只需将指针移到该按钮上,呈双箭头时向下
5.2
来操作,下面将进行详细的讲解。
文本操作
对文本的操作可以通过属性栏来操作,也可以运用【格式化】泊坞窗
5.2.1 选择文本
选择文本可以用【挑选工具】 ,或者【文本工具】 。 1.使用【挑选工具】。选择【挑选工具】,单击美术字文本或段落文本, 使之处于选择状态,就可编辑,如图5-5所示。 2.使用【文本工具】。选择【文本工具】,将指针移到要选择的文本前 或者后指针呈 时,按下鼠标左键向选择的文本拖动,即可选择部分文字,
第5章 文本的编辑处理
5.1
5.2 5.3 5.4
输入文本
文本操作 文本特殊效果 实例操作
5.1
输入文本
文本工具的用法 美术字文本和段落文本的创建与编辑 【字符格式化】及【段落格式化】泊坞窗的基本功能和用法 文本绕图用法
下一页
返回
5.1
输入文本
在实际设计过程中,对文本的编辑和处理非常重要。Core1DRAW具有强
可输入文本。对于在其他的文字处理软件中已经编辑好的文本,只需要将 其复制到Windows的剪贴板中,然后在Core1DRAW X3的绘图页面中插入光标 或段落文本框,按下CtrI+V组合键(粘贴)即可复制文本。 注意:选择【文字工具】单击页面,输入文字得到美术字文本,选择 【文字工具】单击页面并向下拖出文本框,输入文字得到段落文本。 上一页 返回
③接着在第一段的位置单击,使光标位于该段,如图5-38所示,表示己经
选择该段,再设定【行】为“200%",即将选择段落的行间距加宽,效果如 图5-39所示。
④用同样的方法,设置第二段和最后一段的行距为“150%”。效果如图540所示。这时,文本框下面出现的【文字溢出】图标,表示文本框单的文 本己经溢出,没有全部显示,只需将指针移到该按钮上,呈双箭头时向下
5.2
来操作,下面将进行详细的讲解。
文本操作
对文本的操作可以通过属性栏来操作,也可以运用【格式化】泊坞窗
5.2.1 选择文本
选择文本可以用【挑选工具】 ,或者【文本工具】 。 1.使用【挑选工具】。选择【挑选工具】,单击美术字文本或段落文本, 使之处于选择状态,就可编辑,如图5-5所示。 2.使用【文本工具】。选择【文本工具】,将指针移到要选择的文本前 或者后指针呈 时,按下鼠标左键向选择的文本拖动,即可选择部分文字,
第5章 文本的编辑处理
5.1
5.2 5.3 5.4
输入文本
文本操作 文本特殊效果 实例操作
5.1
输入文本
文本工具的用法 美术字文本和段落文本的创建与编辑 【字符格式化】及【段落格式化】泊坞窗的基本功能和用法 文本绕图用法
下一页
返回
5.1
输入文本
在实际设计过程中,对文本的编辑和处理非常重要。Core1DRAW具有强
可输入文本。对于在其他的文字处理软件中已经编辑好的文本,只需要将 其复制到Windows的剪贴板中,然后在Core1DRAW X3的绘图页面中插入光标 或段落文本框,按下CtrI+V组合键(粘贴)即可复制文本。 注意:选择【文字工具】单击页面,输入文字得到美术字文本,选择 【文字工具】单击页面并向下拖出文本框,输入文字得到段落文本。 上一页 返回
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计算机应用=使用计算机进行信息处理
文字 数值
信息的形态有多种 语言
音乐 图像 ···
其中,文字处理是涉及面最广的一种计算机应用, 几乎与任何领域任何人都有关。
3
5.1 文本与文本处理
传统的文字处理过程
写作写作
编辑
排版 4
印刷
发行
5.1 文本与文本处理
计算机文字处理过程
文字信息在计算机中称为“文本”(text),文本是计算机中最 常用的一种数字媒体
下兼容,GBK不再使用 四字节编码(约158万个)用于表示 UCS/Unicode中的其他字符
GB18030目前已在我国信息处理产品中强制贯彻执行。
15
5.1 文本与文本处理
小结:几种汉字编码的对比
标准名称 GB2312
GBK
字符集
6763个汉字(简 21003个汉字
体字)
(包括GB2312
汉字在内)
应用:Linux,Web网页,电子邮件
Unicode:UTF-16双字节可变长编码
双字节: ASCII字符、拉丁、希腊、 阿 拉伯,常用CJKV汉字,···
四字节:非常用CJKV汉字
应用:Windows,Mac,Java,···
14
5.1 文本与文本处理
GB18030汉字编码标准
背景:无论是Unicode的UTF-8还是UTF-16,其CJK汉字字符集虽然 覆盖了我国已使用多年的GB2312和GBK标准中的汉字,但它们的编 码并不相同
数量大;字形复杂,同音字多,异体字多
如何编码?
确定收入多少字、哪些字? 在字符集中如何排列? 使用多少个二进位进行编码?
9
5.1 文本与文本处理
常用的汉字编码字符集
国家标准GB2312-1980 汉字扩充规范 GBK (已被GB 18030取代) 国家标准GB18030-2005 港澳台使用的汉字编码字符集CNS 11643 (BIG
23
5.1 文本与文本处理
汉字的键盘输入
汉字与键盘上的键无法一一对应,因此必须使用 几个键来表示一个汉字,这就称为汉字的“键盘输 入编码” 优秀的汉字键盘输入编码应具有的特点:
易学习、易记忆 效率高(平均击键次数较少) 重码少 容量大(可输入的汉字字数多)
24
5.1 文本与文本处理
选讲:
条形码
节可变长编码
兼容性
编码保持向下兼容
编码 不兼容!
16
5.1 文本与文本处理
小结:不同标准,不同的表示!
由于采用不同的编码标准,相同文字在计算机中可以有不同 的二进制代码表示。
例如: “南京大学1234ABCD”的3种表示:
GB
C4 CF BE A9 B4 F3 D1 A7 31 32 33 34 41 42 43 44
5,俗称“大五码”) UCS/Unicode多文种大字符集
Unicode的UTF-8 Unicode的UTF-16
10
5.1 文本与文本处理
GB2312汉字编码字符集
1980年颁布《信息交换用汉字编码字符集·基本 集》——GB2312-1980
GB2312字符集由三个部分构成:
拉丁字母、俄 文、日文平假 名与片假名、 希腊字母、汉 语拼音等共682 个
26
5.1 文本与文本处理
选讲: 常用自动识别输入技术的比较
一维 条形码
二维 条形码
磁卡
接触式IC卡
非接触式IC卡 /RFID
信息量
小
较小
较小
大
大
读/写
只读
只读 可读/可写 可读/可写
可读/可写
标识 成本
很低
低
较低
中等
较低
识读 成本
优点
低
低
较低
中等
中等
成本低,抗 磁力抗静电
成本低, 抗磁力抗
静电
成本较低, 成本适中,可 可读写 读写,安全
满足清晰、美观、便 于使用等要求
文档存盘、打印或发送
29
5.1 文本与文本处理
文本编辑(text editing)
目的:确保文本内容正确无误
操作:对字、词、句和段落进行添加、删除、修 改等操作
– 智能校对功能
联机手写输入 语音输入 光学字符识别
纸介质 文本
22
扫描仪
文本的 映象
(image)
OCR
数字 文本
5.1 文本与文本处理
文字符号输入计算机的方法
字符信息的输入
人工输入
自动识别输入
键盘输入 联机手写输入 语音输入
光学字符识别 条形码、磁卡、
IC卡、RFID识别
– 预先进行标识 – 扫描识别输入
位号
1 2 3 ……………… 94 1 字母、数字和各种符号 9
16
一级汉字
…… ……
(3755个)
区
(按汉语拼音排列)
号 55 56
二级汉字
(3008个)
87
(按偏旁部首排列) (扩充使用)
94
共6763个汉字和 682个符号,每个 汉字和符号都有一 个确定位置
11
5.1 文本与文本处理
GB2312汉字的编码
(商品条码)
定位标志
数据区
(QR条码) 25
• 一维条形码将宽度不等的黑条和白 条按一定的编码规则排列成平行线 图案,用以对物品进行标识
•只在一个方向表达信息,信息量有 限(几十个字符),只能包含字母、 数字和一些特殊符号
• 二维条形码在平面(二维方向)上以黑白相 间的图形记录文字和符号信息,信息容量大
0 X XX X XX X
存在问题:
字符集太小(只有128个字符) 不同国家和地区使用不同的字符集及其编码,互不兼容
8
5.1 文本与文本处理
汉字如何编码?
汉字是记录汉语(国语,华语)的文字,属于表意 文字,它用符号直接表达词或词素,有多个国家和 地区使用(中、日、韩、新、马······)
汉字的特点
须为“1”:
1 X XX X XX XX X XX X XX X
第1字节
第2字节
13
5.1 文本与文本处理
UCS/Unicode多文种大字符集
背景:为了实现全球数以千计的不同语言文字的统一编码
方案:ISO将全球所有文字字母和符号集中在一个字符集中进行统一 编码(目前共收集了17x216=1,114,112 个) ,称为UCS/Unicode
19
5.1 文本与文本处理
文字符号输入计算机的方法
字符信息的输入
人工输入
自动识别输入
键盘输入 联机手写输入 20
•优点:
–自然,流畅 –小型化,适合移动计算
•不足:
–识别速度和正确性还需提高 –书写要求还要降低
5.1 文本与文本处理
文字符号输入计算机的方法
字符信息的输入
人工输入
自动识别输入
键盘输入 联机手写输入 语音输入
17
5.1 文本与文本处理
5.1.2. 文本准备
——文稿如何输入计算机
18
5.1 文本与文本处理
文字符号输入计算机的方法
字符信息的输入
人工输入
自动识别输入
键盘输入
(1)数字编码, 如电报码、区位码等, (2)字音编码, 如智能ABC等 (3)字形编码,如五笔字形和表形码等, (4)形音编码 发展趋势:基于统计和学习功能的以词语(短语)或句子作为输入单 位的输入方法
•优点:
•自然,方便,适合移动计算
•不足:
•对说话人、说话方式、说话内容的适应能力要大
大增强
•识别速度和正确性还需大大提高
21
5.1 文本与文本处理
文字符号输入计算机的方法
键盘输入
人工输入
字符信息的输入
•识别率已达到98%
•功能:
– 简、繁体字混合识别 自动识– 别中输文入、西文混合识别
– 文字、表格混合识别
UCS/Unicode的编码方案:
先实现部分字符的编码(近11万个字符)
尽量与已有编码标准兼容
包含有中、日、韩、越统一整理出来的约7万汉字(称CJKV汉字)
允许有若干不同的编码方案, 常用的两种是:
Unicode:UTF-8 单字节可变长编码
单字节:ASCII字符 双字节:拉丁、希腊、阿拉伯,··· 三字节:CJKV汉字 四字节:其他
GB2312的不足:
汉字字数太少,缺少繁体字,无法满足人名、地名、古籍整理、 古典文献研究等应用的需要;与ASCII码不兼容
GBK汉字内码扩充规范(1995):
在GB2312基础上,增加了1万多汉字(包括繁体字)和符号 共有21003个汉字和883个图形符号,如“計算機”、冃、冄、円、
冇等繁体字和生僻字 与GB8312保持向下兼容,也使用双字节表示,第1字节最高位必
字符的编码:
字符集中每个字符的二进位表示,称为该字符的编码或代码 (code)
不同的字符其编码各不相同
7
5.1 文本与文本处理
复习:西文字符的编码——ASCII码
西文是表音文字(拼音文字),它由拉息交换标准码(ASCII码):
ASCII字符集包含96个可打印字符和32个控制字符 采用7个二进位进行编码 计算机中使用1个字节存储1个ASCII 字符
信息量大,可读 写,安全方便
缺点
信息量小
信息量 较小
安全性 需接触式识读 一般
成本较高
27
5.1 文本与文本处理
5.1.4 文本的编辑与排版
28
5.1 文本与文本处理
复习:使用Word的操作流程
创建新文档或打开老文档
文字 数值
信息的形态有多种 语言
音乐 图像 ···
其中,文字处理是涉及面最广的一种计算机应用, 几乎与任何领域任何人都有关。
3
5.1 文本与文本处理
传统的文字处理过程
写作写作
编辑
排版 4
印刷
发行
5.1 文本与文本处理
计算机文字处理过程
文字信息在计算机中称为“文本”(text),文本是计算机中最 常用的一种数字媒体
下兼容,GBK不再使用 四字节编码(约158万个)用于表示 UCS/Unicode中的其他字符
GB18030目前已在我国信息处理产品中强制贯彻执行。
15
5.1 文本与文本处理
小结:几种汉字编码的对比
标准名称 GB2312
GBK
字符集
6763个汉字(简 21003个汉字
体字)
(包括GB2312
汉字在内)
应用:Linux,Web网页,电子邮件
Unicode:UTF-16双字节可变长编码
双字节: ASCII字符、拉丁、希腊、 阿 拉伯,常用CJKV汉字,···
四字节:非常用CJKV汉字
应用:Windows,Mac,Java,···
14
5.1 文本与文本处理
GB18030汉字编码标准
背景:无论是Unicode的UTF-8还是UTF-16,其CJK汉字字符集虽然 覆盖了我国已使用多年的GB2312和GBK标准中的汉字,但它们的编 码并不相同
数量大;字形复杂,同音字多,异体字多
如何编码?
确定收入多少字、哪些字? 在字符集中如何排列? 使用多少个二进位进行编码?
9
5.1 文本与文本处理
常用的汉字编码字符集
国家标准GB2312-1980 汉字扩充规范 GBK (已被GB 18030取代) 国家标准GB18030-2005 港澳台使用的汉字编码字符集CNS 11643 (BIG
23
5.1 文本与文本处理
汉字的键盘输入
汉字与键盘上的键无法一一对应,因此必须使用 几个键来表示一个汉字,这就称为汉字的“键盘输 入编码” 优秀的汉字键盘输入编码应具有的特点:
易学习、易记忆 效率高(平均击键次数较少) 重码少 容量大(可输入的汉字字数多)
24
5.1 文本与文本处理
选讲:
条形码
节可变长编码
兼容性
编码保持向下兼容
编码 不兼容!
16
5.1 文本与文本处理
小结:不同标准,不同的表示!
由于采用不同的编码标准,相同文字在计算机中可以有不同 的二进制代码表示。
例如: “南京大学1234ABCD”的3种表示:
GB
C4 CF BE A9 B4 F3 D1 A7 31 32 33 34 41 42 43 44
5,俗称“大五码”) UCS/Unicode多文种大字符集
Unicode的UTF-8 Unicode的UTF-16
10
5.1 文本与文本处理
GB2312汉字编码字符集
1980年颁布《信息交换用汉字编码字符集·基本 集》——GB2312-1980
GB2312字符集由三个部分构成:
拉丁字母、俄 文、日文平假 名与片假名、 希腊字母、汉 语拼音等共682 个
26
5.1 文本与文本处理
选讲: 常用自动识别输入技术的比较
一维 条形码
二维 条形码
磁卡
接触式IC卡
非接触式IC卡 /RFID
信息量
小
较小
较小
大
大
读/写
只读
只读 可读/可写 可读/可写
可读/可写
标识 成本
很低
低
较低
中等
较低
识读 成本
优点
低
低
较低
中等
中等
成本低,抗 磁力抗静电
成本低, 抗磁力抗
静电
成本较低, 成本适中,可 可读写 读写,安全
满足清晰、美观、便 于使用等要求
文档存盘、打印或发送
29
5.1 文本与文本处理
文本编辑(text editing)
目的:确保文本内容正确无误
操作:对字、词、句和段落进行添加、删除、修 改等操作
– 智能校对功能
联机手写输入 语音输入 光学字符识别
纸介质 文本
22
扫描仪
文本的 映象
(image)
OCR
数字 文本
5.1 文本与文本处理
文字符号输入计算机的方法
字符信息的输入
人工输入
自动识别输入
键盘输入 联机手写输入 语音输入
光学字符识别 条形码、磁卡、
IC卡、RFID识别
– 预先进行标识 – 扫描识别输入
位号
1 2 3 ……………… 94 1 字母、数字和各种符号 9
16
一级汉字
…… ……
(3755个)
区
(按汉语拼音排列)
号 55 56
二级汉字
(3008个)
87
(按偏旁部首排列) (扩充使用)
94
共6763个汉字和 682个符号,每个 汉字和符号都有一 个确定位置
11
5.1 文本与文本处理
GB2312汉字的编码
(商品条码)
定位标志
数据区
(QR条码) 25
• 一维条形码将宽度不等的黑条和白 条按一定的编码规则排列成平行线 图案,用以对物品进行标识
•只在一个方向表达信息,信息量有 限(几十个字符),只能包含字母、 数字和一些特殊符号
• 二维条形码在平面(二维方向)上以黑白相 间的图形记录文字和符号信息,信息容量大
0 X XX X XX X
存在问题:
字符集太小(只有128个字符) 不同国家和地区使用不同的字符集及其编码,互不兼容
8
5.1 文本与文本处理
汉字如何编码?
汉字是记录汉语(国语,华语)的文字,属于表意 文字,它用符号直接表达词或词素,有多个国家和 地区使用(中、日、韩、新、马······)
汉字的特点
须为“1”:
1 X XX X XX XX X XX X XX X
第1字节
第2字节
13
5.1 文本与文本处理
UCS/Unicode多文种大字符集
背景:为了实现全球数以千计的不同语言文字的统一编码
方案:ISO将全球所有文字字母和符号集中在一个字符集中进行统一 编码(目前共收集了17x216=1,114,112 个) ,称为UCS/Unicode
19
5.1 文本与文本处理
文字符号输入计算机的方法
字符信息的输入
人工输入
自动识别输入
键盘输入 联机手写输入 20
•优点:
–自然,流畅 –小型化,适合移动计算
•不足:
–识别速度和正确性还需提高 –书写要求还要降低
5.1 文本与文本处理
文字符号输入计算机的方法
字符信息的输入
人工输入
自动识别输入
键盘输入 联机手写输入 语音输入
17
5.1 文本与文本处理
5.1.2. 文本准备
——文稿如何输入计算机
18
5.1 文本与文本处理
文字符号输入计算机的方法
字符信息的输入
人工输入
自动识别输入
键盘输入
(1)数字编码, 如电报码、区位码等, (2)字音编码, 如智能ABC等 (3)字形编码,如五笔字形和表形码等, (4)形音编码 发展趋势:基于统计和学习功能的以词语(短语)或句子作为输入单 位的输入方法
•优点:
•自然,方便,适合移动计算
•不足:
•对说话人、说话方式、说话内容的适应能力要大
大增强
•识别速度和正确性还需大大提高
21
5.1 文本与文本处理
文字符号输入计算机的方法
键盘输入
人工输入
字符信息的输入
•识别率已达到98%
•功能:
– 简、繁体字混合识别 自动识– 别中输文入、西文混合识别
– 文字、表格混合识别
UCS/Unicode的编码方案:
先实现部分字符的编码(近11万个字符)
尽量与已有编码标准兼容
包含有中、日、韩、越统一整理出来的约7万汉字(称CJKV汉字)
允许有若干不同的编码方案, 常用的两种是:
Unicode:UTF-8 单字节可变长编码
单字节:ASCII字符 双字节:拉丁、希腊、阿拉伯,··· 三字节:CJKV汉字 四字节:其他
GB2312的不足:
汉字字数太少,缺少繁体字,无法满足人名、地名、古籍整理、 古典文献研究等应用的需要;与ASCII码不兼容
GBK汉字内码扩充规范(1995):
在GB2312基础上,增加了1万多汉字(包括繁体字)和符号 共有21003个汉字和883个图形符号,如“計算機”、冃、冄、円、
冇等繁体字和生僻字 与GB8312保持向下兼容,也使用双字节表示,第1字节最高位必
字符的编码:
字符集中每个字符的二进位表示,称为该字符的编码或代码 (code)
不同的字符其编码各不相同
7
5.1 文本与文本处理
复习:西文字符的编码——ASCII码
西文是表音文字(拼音文字),它由拉息交换标准码(ASCII码):
ASCII字符集包含96个可打印字符和32个控制字符 采用7个二进位进行编码 计算机中使用1个字节存储1个ASCII 字符
信息量大,可读 写,安全方便
缺点
信息量小
信息量 较小
安全性 需接触式识读 一般
成本较高
27
5.1 文本与文本处理
5.1.4 文本的编辑与排版
28
5.1 文本与文本处理
复习:使用Word的操作流程
创建新文档或打开老文档