文本获取与处理
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
10
图2-7 格式文本
11
3、超文本文件 超文本文件是建立在非线性的超文本概念基础上的, 超文本文件是建立在非线性的超文本概念基础上的,它 将文本内容按其内容含义分割成不同的文本块, 将文本内容按其内容含义分割成不同的文本块,再按其固有 的逻辑关系通过超链接组织成非线性的网状结构, 的逻辑关系通过超链接组织成非线性的网状结构,从而提供了 一种符合人们思维习惯的联想式阅读方式。 一种符合人们思维习惯的联想式阅读方式。纯粹的超文本文 件是由超文本标 记语言(HTML) 记语言(HTML) 和被分割的不同 文本块按照HTML 文本块按照HTML 规定的格式要求 组成的。 组成的。
4
2.1.1 西文字符
西文字符是指由ASCII码表所规定的字符集,包括字母、 西文字符是指由ASCII码表所规定的字符集,包括字母、 ASCII码表所规定的字符集 数字、特殊符号等。ASCII是英文 是英文American 数字、特殊符号等。ASCII是英文American Standard Code Interchange的缩写 意为“ 的缩写, for Information Interchange的缩写,意为“美国信息交 换标准代码” 换标准代码”。 字符编码(ASCII码):用 位二进制数表示, 1、字符编码(ASCII码):用7位二进制数表示,共能 表示2 =256个不同的字符 个不同的字符, 表示27=256个不同的字符,包括了计算机处理信息常用的 26个英文大写字母 个英文大写字母A 26个英文小写字母 个英文小写字母a 26个英文大写字母A~Z、26个英文小写字母a~z,数字符 算术与逻辑运算符号、标点符号等。 号0~9、算术与逻辑运算符号、标点符号等。 在计算机中,每一个西文字符均对应一个ASCII ASCII码 在计算机中,每一个西文字符均对应一个ASCII码,例 字母A ASCII码值为十进制数65,小写字母a 码值为十进制数65 如,字母A的ASCII码值为十进制数65,小写字母a的ASCII 码为十进制数97 97。 码为十进制数97。
读出点阵
字符点阵库 按点阵还原出 字符外形
要显示字符的 ASCII码 ASCII码
查找
图2-2 字符显示过程
8
2.1.2 中文字符
中文字符(即汉字)是指由汉字信息交换码所规定的中 中文字符(即汉字) 文字符集,全称为“信息交换用汉字编码字符集” 文字符集,全称为“信息交换用汉字编码字符集”,是我国 国家标准总局于1981 1981年 日颁发的,也称为国标码集, 国家标准总局于1981年5月1日颁发的,也称为国标码集,标 准名简写为GB2312 80,共收入了6763个汉字,682个数字和 GB23126763个汉字 准名简写为GB2312-80,共收入了6763个汉字,682个数字和 图形符号,并规定一个汉字的编码用两个字节表示, 图形符号,并规定一个汉字的编码用两个字节表示,称此编 码为汉字内码。国标GB18030-2000,收录了27000个汉字。 码为汉字内码。国标GB18030-2000,收录了27000个汉字。 GB18030 收录了27000个汉字 中文字符处理的过程: 中文字符处理的过程:首先将所有的汉字在给定的方格 内绘制出点阵图像,然后按照0 矩阵形成字节编码, 内绘制出点阵图像,然后按照0、1矩阵形成字节编码,再将 所有汉字的点阵字节编码按照其在汉字码表中的位置顺序存 形成汉字点阵字库。 放,形成汉字点阵字库。
(a)大写字母A的方格矩阵 大写字母A
(b)字符点阵及十六进制编码 )
7
3、字符显示过程 将所有字符的点阵编码按照其在ASCII码表中的位置 将所有字符的点阵编码按照其在ASCII码表中的位置 ASCII 顺序存放,就形成了一个字符点阵库。 ASCII码转换成 顺序存放,就形成了一个字符点阵库。从ASCII码转换成 字符点阵的功能称为字符发生器。 字符点阵的功能称为字符发生器。通过字符发生器完成字 符的显示过程。 符的显示过程。
.doc .wps .asp .aspx .php .js .css
用于保存Web Web静态网页等 .htm/.html 静态超文本文件 用于保存Web静态网页等 用于保存支持asp asp功能的动态网页 动态超文本文件 用于保存支持asp功能的动态网页 用于保存支持 功能的动态网页 动态超文本文件 用于保存支持功能的动态网页 用于保存支持php php功能的动态网页 动态超文本文件 用于保存支持php功能的动态网页 用于保存javascripts javascripts脚本文件 脚本超文本文件 用于保存javascripts脚本文件 超文本样式文件 用于以超文本格式保存网页样式定义
2.1 文本的基本知识
在计算机中,文字和数值都是用二进制编码表示的, 在计算机中,文字和数值都是用二进制编码表示的, 文字信息、数值信息、符号信息统称为文本信息。 文字信息、数值信息、符号信息统称为文本信息。 对于具备中英文处理能力的计算机来说, 对于具备中英文处理能力的计算机来说,文本信息则 主要由ASCII码表所规定的字符集(包括字母、数字、 ASCII码表所规定的字符集 主要由ASCII码表所规定的字符集(包括字母、数字、特 殊符号等) 殊符号等)和汉字信息交换码所规定的中文字符集中的字 符组合而成,习惯上把前者称为西文字符, 符组合而成,习惯上把前者称为西文字符,而把后者称为 中文字符。计算机处理文字信息主要包括输入、编辑、 中文字符。计算机处理文字信息主要包括输入、编辑、存 输出等。 储、输出等。
15
文本的获取技术
1. 输入法的分类: 输入法的分类:
包括键盘输入法、 包括键盘输入法、手写输入法和语音输入法等。
2.键盘输入法按编码原理可分为: 键盘输入法按编码原理可分为: 键盘输入法按编码原理可分为
音码输入法,如全拼、智能 音码输入法,如全拼、智能ABC、拼音加加、智能狂拼、谷歌输入法、 、拼音加加、智能狂拼、谷歌输入法、 搜狗输入法、 输入法等; 搜狗输入法、QQ输入法等; 输入法等 形码输入法,如五笔、郑码等; 形码输入法,如五笔、郑码等; 音形码输入法,如二笔、自然码、一笔等; 音形码输入法,如二笔、自然码、一笔等;
13
2.1.6 常用文本文件存储类型
表2-2 常用文本文件存储类型说明表
文件类型 .txt .rtf 说 明 纯文本文件 用式文字文档的文件类型, 跨平台格式文本 用于在应用程序间传输带格式文字文档的文件类型, 即使应用程序运行在不同的平台( 即使应用程序运行在不同的平台(如 IBM 和 Macintosh) 也可以实现文件交换。 Macintosh)上,也可以实现文件交换。 MS Word文件 Word文件 WPS文件 金山 WPS文件 用于保存Windows平台的Word文件 用于保存Windows平台的Word文件 Windows平台的Word 用于保存Windows平台的WPS文件 用于保存Windows平台的WPS文件 Windows平台的WPS
5
6
2、字符外观及存储: 字符外观及存储: 每一个字符的外形可被绘制在一个M 每一个字符的外形可被绘制在一个M N的方格矩阵中 如又图( 的方格矩阵中, 所示。 x N的方格矩阵中,如又图(a)所示。 在图中,笔画经过的方格有点用1 在图中,笔画经过的方格有点用1表 未经过的方格无点用0表示, 示,未经过的方格无点用0表示,这样 形成的0 矩阵成为字符点阵。 形成的0、1矩阵成为字符点阵。若 M=N=8, M=N=8,可依水平方向按从左到右的顺 序将0 代码组成字节信息, 序将0、1代码组成字节信息,每行一个 字节,从上到下共形成8个字节, 字节,从上到下共形成8个字节,如右 所示。 图(b)所示。这就是字符外观的点阵 编码,用点阵编码存储字符外观。 编码,用点阵编码存储字符外观。
14
2.2 文本信息的采集方法
1、键盘输入:主要的输入方法。通过键盘,英文信息可 主要的输入方法。通过键盘, 主要的输入方法 直接输入;中文信息则通过不同的中文输入编码来完成。 直接输入;中文信息则通过不同的中文输入编码来完成。 2、手写输入:一种非常人性化的中英文输入法,适合于 手写输入:一种非常人性化的中英文输入法, 不习惯键盘操作的人群和没有标准英文键盘的场合 3、语音输入:语音输入是通过计算机中的音频处理系统 语音输入: (主要包括声卡和麦克风),采集处理人的语音信息,再经 主要包括声卡和麦克风),采集处理人的语音信息, ),采集处理人的语音信息 过语音识别处理,将说话内容转换成对应的文字完成输入。 过语音识别处理,将说话内容转换成对应的文字完成输入。 4、OCR输入:是指用扫描仪将印刷文字以图像的方式扫描 OCR输入: 输入 到计算机中,再用 到计算机中,再用OCR文字识别软件将图像中的文字识别出 文字识别软件将图像中的文字识别出 来,并转换为文本格式的文件,完成文本信息的输入。 并转换为文本格式的文件,完成文本信息的输入。
9
2.1.5 文本与超文本文件
3种类型的文本文件: 种类型的文本文件: 1、无格式文本文件 只存储文字信息本身,文字以固定大小和风格输出, 只存储文字信息本身,文字以固定大小和风格输出,因 而也称为纯文本,,通常保存为.txt类型的文件。 ,,通常保存为.txt类型的文件 而也称为纯文本,,通常保存为.txt类型的文件。 2、格式文本文件 不仅包含文字信息,还包括文字的字号、颜色、 不仅包含文字信息,还包括文字的字号、颜色、字体以 编辑这类文件, 及其他用于规定输出格式的排版信息 。编辑这类文件,可 设置文本的字体、字号、颜色、字形(正常、加粗、斜体、 设置文本的字体、字号、颜色、字形(正常、加粗、斜体、 下划线、上标、下标等)、字间距、行间距和段间距等。 )、字间距 下划线、上标、下标等)、字间距、行间距和段间距等。格 式文本要用功能较强的字处理软件来编辑, Word和金 式文本要用功能较强的字处理软件来编辑,如MS Word和金 WPS等 山WPS等。
图2-8 超文本文件的逻辑结构定义
12
图2 - 9
(a) 超文本文件实例
(b) 浏览效果
用超文本描述语言定义的超文本文件需要用相应的浏览器浏览才能按 照其非线性组织方式阅读内容。 照其非线性组织方式阅读内容。图2-9给出了一个具体的超文本文件实例和 浏览效果。 浏览效果。 当超文本文件中的内容不仅包含文本块,而且还包含图片、声音、 当超文本文件中的内容不仅包含文本块,而且还包含图片、声音、视 动画等多种媒体信息, 频、动画等多种媒体信息,且通过超级链接实现各种媒体信息的组合使用 这种超文本文件就又被称为超媒体或超媒体文件。 时,这种超文本文件就又被称为超媒体或超媒体文件。
第2章 文本获取与处理 章
主讲教师 胡永斌
本章主要内容 2.1 2.2 2.3 2.4 2.5 文本的基本知识 文本信息的采集方法 文本信息处理 超文本标记语言 文本处理工具软件
2
数据单位
计算机存储数据时的最小单位是位 计算机存储数据时的最小单位是位(bit),一个 可 ,一个bit可 以存储一个二进制数。存储数据的基本单位是字节 字节(Byte) 以存储一个二进制数。存储数据的基本单位是字节 简记为B。规定一个字节等于8个位 个位, ,简记为 。规定一个字节等于 个位,即1Byte=8bit。 。 一个字节可以保存一个英文字符, 一个字节可以保存一个英文字符,一个汉字要占用两个字 节。 计算机的存储器是以字节为单位, 计算机的存储器是以字节为单位,每个字节都有一个 地址编码,通过地址找到某个字节来存取数据。由于二进 地址编码,通过地址找到某个字节来存取数据。 制的原因,存储容量的倍数用"千 表示 千 等于 表示, 等于1024。 制的原因,存储容量的倍数用 千"表示,"千"等于 。 1KB=1024B;1MB=1024KB;1GB=1024MB; ; ; ; 1TB=1024GB。 。