第二讲文本素材的采集与处理

合集下载

第二节采集素材

第二节采集素材学习目标掌握素材采集的基本方法。

学习内容：1、文字素材的采集；2、图像素材的采集；3、声音素材的采集；教学重点：怎样从网上或从其它地方收集素材；教学难点：怎样收集声音素材。

教学过程：一、文字素材的采集：一般而言，文字素材比较容易采集，我们可以通过书籍、报纸、网络等多种途径查阅到需要的文字资料，再利用文字处理软件对文字素材进行预处理。

诗的内容输入，并处理成如图1—2—所示效果。

试试看二、图像素材的采集图像素材的采集可以通过外部采集和计算机内容采集的方法获得。

外部采集是利用扫描仪或数码相机等从外部采集图像数据；内部采集是利用抓图工具软件从计算机屏幕上显示的图像中抓取图像，也包括从网络上、素材光盘上间接取得图像素材。

对于采集到的图像，还可以通过图像处理软件，如Photoshop 、画图等进行处理。

在/yxzduiyue.asp 中下载如图1-2-2所示图片。

三、声音素材的采集有了声音的多媒体采集有了声音的多媒体作品，会更加具有吸引力。

声音素材既可以从网络、素材光盘上进行获取，也可以使用Windows 中的“录音机”进行采集及预处理，“录音机”窗口如图1-2-3所示。

采集时，首先应将麦克风正确连接与设置，然后依次单击“开始”→“程序” →“附件” →“娱乐” →“录音机”，打开“录音机”程序，再试试看单击按钮开始录制，单击按钮结束录制。

最后，依次单击“文件”→“保存”，将录制内容保存下来。

请用Windows 提供的“录音机”程序录制《水调歌头·明月几时有》的录音。

动画及影像素材如何采集？下面两个网址提供与课文相关的素材： /art/wenxue/enjoy/poem/200207/120704801158.html .tw/shenghg/pg-ci0360-drkaskmon.htm 小结1、文字素材的采集方法主要有网上下载、查找素材为、录入等。

2、图像素材的采集方法主要有外部采集和计算机内部采集。

第2章课件素材的采集与处理

3. 图像的参数
数字图像有3个基本参数：分辨率、大小和颜色。
图像分辨率：指图像沿宽度和高度方向单位长度内所包含的像素数。以 “像素／英寸”或“像素／厘米”为单位。对于同一幅图像，分辨率越高，对图像的描述就越精细，需要的数据量就越大；分辨率越低，图像越粗糙，数据量越小。多媒体图像素材的图像分辨率通常采用72dpi。图像大小：指整幅图像所包含的总像素数，用宽度方向像素数与高度方向像素数的乘积表示。多媒体图像素材的大小，通常不超过作品演示窗口的大小。多媒体作品演示窗口大小最常采用640X480或者800X600，如果是追求视觉效果的作品，也可采用1024X768的。图像颜色：图像中所包含的颜色的多少，与描述颜色所使用的位数 (bits)有关。前者称为色深度，后者称为位深度。它们之间的关系是色深度=2位深度。图像的位深度越低，数据量越小，显示质量越低；位深度越高，数据量越大，显示质量越高。
1.录入文字在具有文字功能的软件中，通过某种输入方式，可将头脑中的思想或纸张上的文稿输入计算机，生成数字化文字，这就是录入文字。录入文字有三种方式。 (1)键盘录入：最常用的方式。 (2)手写录入：需要配置手写板和相应的软件。 (3)语音录入：需要配置麦克风和相应的软件。
2.1.1 文字素材的概述
4.擦除多余信息
(3)按键盘上的↑键，使选择区域向上移动到文字“反射光线”处。 (4)按下Ctrl+V组合键，将步骤(2)复制的矩形区域粘贴到当前位置。 (5)在工具箱中选择“橡皮擦工具”，在“背景”图层下将文字“法线” 擦除。 (6)使用“矩形选框工具”框选图像区域，并将其复制粘贴在图层的任意位置。 (7)使用“选择工具”拖动粘贴在图层中的区域，将其放置在如图2-63 所示的位置。 (8)参照步骤(5)～(7)，将文字“入射光线”擦除，并修复擦除后的入射光线。

2020年高考浙江版高考信息技术第1节文本素材的采集与处理

重难突破
多媒体作品中文本的呈现方式
1.Word中的文字模式 (1)文本。 (2)艺术字:Word中的艺术字本质是图片,如图所示,该艺术字具有和图片同样的布局菜单,包括位置、文字环绕和大小。
另外,艺术字的文本可编辑,双击艺术字,可修改、编辑文本内容,如图所示:
2.Photoshop中的文字模式 (1)文本:通过“文字”工具输入文字,输入文字时,可以设置文字方向(横
教
一文本的呈现方式
材
二文本素材的采集方式
研读
三文本的图像表示方法
重
难
突破多媒体作品中文本的呈现方式
突
破
教材研读
一、文本的呈现方式
多媒体作品中文本的呈现方式主要表现为文本方式和图形方式两种。
二、文本素材的采集方式文本素材的采集方式主要有:键盘输入、网络下载、光电输入(OCR字
符识别)、语音输入及手写录入等。用OCR软件识别字符的步骤:扫描印刷件获取图像→用OCR软件打开扫描得到的图像文件→对图像进行旋转或倾斜校正→划分识别区域→单击识别按钮→校对文字→保存文字。
(2)导入字幕文件:用记事本编辑并另存为.utf格式(即会声会影字幕文件的格式),然后在会声会影中导入。
例某文章的标题采用艺术字的形式来表示,这种文本呈现方式属于 (C) A.文本方式 B.文字方式 C.图形方式 D.纯文本方式解析艺术字的本质是图形。
4.以下四种素材中,不属于文本素材的是 ( C ) A.一张转化为图形的表格 B.一个纯文本文件 C.一段文字录音 D.一份艺术字标题解析本题考查对文本的呈现方式的理解。多媒体作品中文本的呈现方式主要表现为文本方式和图形方式两种。转化为图形的表格、艺术字标题均为文本的图形方式。文字录音是音频格式。

第二章-多媒体课件素材处理1

三、图像素材的处理
2、选区的填充 ①用菜单来填充，选择“编辑” /“填充”
命令来填充
②用油漆桶工具来填充，填充的是前景色。
③利用快捷键填充按Alt+Delete填充前景色，按Ctrl+
+Delete填充背景色
三、图像素材的处理
四、图像的修饰与绘制 1、画笔工具的使用 2、图像修复工具 ①污点修复画笔工具（举例：取痣） ②修复画笔工具（儿童去污点） ③修补工具（修补区域） 3、图章工具仿制图章工具（花）
及方向来保存图像的代数方程
(一)常见图像文件格式
(1)BMP——是Windows 的基本图像文件格式。未经压缩，图像质量高，支持真彩色。文件太大。
(2)JPEG (jpg)——常用的压缩格式，文件较小，图像质量也较高。压缩比2：1 到40：1。
(一)常见图像文件格式
(3)GIF——文件压缩比较高，文件较小，支持256种颜色。静态GIF表示图片，动态GIF支持动画。
(一) 音频
（1）音频——语音（解说）、音乐(背景）和音效（音响）。
（2）音频——波形和MIDI。
(一) 音频
1. 波形（WAVE）声音：直接保存声音采样数据，不经过压缩。
2. MIDI是乐器数字化接口(Musical Instrument Digital Interface）的缩写。 ——MIDI并不是真正的数字化声音，而是一堆乐器符号，记录的是在某个时间的使用音色及声音的长短。播放MIDI音乐，就是命令电脑将乐谱演奏出来，而演奏过程就是电脑将各种预先设计的声音元素按乐谱合成为一首音乐。
——TXT、DOC、RTF（Word文档）、WPS等
（一）文本素材的采集

第02章文字和图像素材的采集与处理

调整色彩
修复图像创建Alpha通道渲染效果光照效果
图像的光照效果
下面左图为原始图像的效果，右图为添加光照后图像效果。
录入文字扫描文字截取文字创作文字Fra bibliotek文字的处理
通过各种方法采集的文字素材需要对其进行适当处理后，才能用于多媒体CAI课件中。使用文字软件和图像软件都可以对文字进行相关处理。
使用Word处理文本文字使用Word处理图形文字使用Photoshop处理文字使用Cool 3D处理动画文字实现资源共享
图像的采集
采集多媒体图像素材有许多途径，例如选择图像、截取图像、拍摄图像、扫描图像等。选择图像截取图像通过其他方法采集图像
图像的处理
通过下载、截取、拍摄、扫描等途径采集的图像，通过需要一定的处理加工，例如调整图像大小和格式、色彩、矫正歪斜、修复图像、创建Alpha通道、添加素描效果和渲染效果等，才能在多媒体CAI课件中应用。使用Photoshop等软件可以完成此类任务。调整大小和格式矫正歪斜
第02章文字和图像素材的采集与处理
一个高质量的教学课件，必须要有充足合适的素材。通常多媒体课件是由文字、图像、声音、动画、视频等多媒体元素组成，通过这些素材不仅可以有声有色地把作品内容表达出来，而且可以达到最佳的效果。其中，文字是多媒体不可缺少的素材形式；图像是多媒体最常使用的素材形式。
文字和图像素材的概述
在多媒体CAI课件中，文字和图像是多媒体中重要的素材形式。对于不适合使用图像和视频等媒体表现的内容，可以使用文字媒体表现；而图像则具体地表现了事物的原貌。
文字素材的概述图像素材的概述
文字的采集
采集多媒体文字素材有许多途径。录入文字、扫描文字、截取文字和创作文字都是采集文字的途径。

第二讲_文本素材的采集与处理

第二讲文本素材的采集与处理本讲目标：1．明确文本素材的五种获取方法。

2．掌握扫描仪的使用方法，会用扫描仪获取大量文本，并能利用文字识别软件对获取的文本进行修改编辑。

重点：获取文本素材的方法。

难点：大量文本的采集—扫描仪扫描文字识别法。

一、五种文本素材的获取方法文本素材的获取有直接获取与间接获取两种方式，直接获取是指通过多媒体教学制作工具软件的文字工具或在文字编辑处理软件中用键盘直接输入或复制，一般在文本内容不多的场合下使用该方式。

间接获取是指用扫描仪或其他输入设备输入文本素材，常用于大量文本的获取。

文本素材的获取方法如下：（1）键盘输入方法键盘输入方法是文本输入的主要方法，使用计算机输入汉字，需要对汉字进行编码，根据汉字的某种规律将汉字用数字或英文字符编码，然后由计算机键盘输入。

汉字有音、形、义三个要素，根据汉字读音的编码叫音码，根据汉字字形的编码叫形码，兼顾汉字读音和字形的编码叫音形码或形音码。

在常用的多媒体教学制作软件中，都带有文字工具，在文本内容不多的情况下，可以直接输入文字，对输入的文字可进行直接编辑处理。

（2）手写输入方法使用“输入笔”设备，在写字板上书写文字，来完成文本输入。

利用手写输入法获取文本的方式，类似于平时我们在纸上写字，但对在写字板上书写的文字要经选择。

手写输入方法使用的输入笔有两种：一种是与写字板相连的有线笔，另一种是无线笔。

无线笔携带和使用均很方便，是手写输入笔的发展方向。

写字板也有两种，一种是电阻式，另一种是感应式。

（3）语音输入方法将要输入的文字内容用规范的语音朗读出来，通过麦克风等输入设备送到计算机中，计算机的语音识别系统对语音进行识别，将语音转换为相应的文字，完成文字的输入。

语音输入方法目前开始使用，但识别率还不是很高，对发音的准确性要求比较高。

（4）扫描仪输入法将印刷品中的文字以图像的方式扫描到计算机中，再用光学识别器（OCR）软件将图像中的文字识别出来，并转换为文本格式的文件。

文字素材采集方法

文字素材采集方法
采集文字素材的方法有很多,以下是其中几种常见的方法:
1. 搜索网络:利用搜索引擎搜索关键词来寻找相关的文本素材,比如使用Google搜索“相关文章”、“新闻”、“图片”等。

2. 阅读书籍和杂志:阅读经典文学作品和流行的杂志、报纸、博客等,收集其中的文字内容作为素材。

3. 利用新闻嗅觉:关注时事热点,敏锐的新闻嗅觉能够帮助你快速找到各种文本素材。

4. 参考书籍和文献:寻找相关的书籍和文献,比如学术论文、专业书籍、历史书籍等,收集其中的文字内容作为素材。

5. 观察生活:在生活中观察、记录、思考,收集其中的文字素材。

例如,写一篇文章描述当天的天气,或者记录下自己的想法和感受。

6. 利用社交媒体:利用社交媒体平台,如Twitter、Facebook等,收集用户发布的文字内容。

7. 利用采访和问卷调查:通过采访相关的人或组织,收集他们的意见和建议,或者通过问卷调查收集用户的反应和反馈。

以上是一些常见的采集文字素材的方法,每种方法都有不同的特点和适用场景,需要根据自己的需求和情况进行选择。

人教版初中七年级上册信息技术：第二章活动二获取与处理文字素材

①把文章放到扫描面板上后，在OCR软件中单击扫描的按钮。 ②把色彩模式设为文本增强，输出分辨率设为 300dpi，先预览图像，然后在预览图中选择需要的区域再扫描。 ③执行识别操作。 ④在文稿校对窗口查对扫描结果。
获取文字素材
要点提示——把印刷资料拍摄成照片并识别其中的文字。
①用数码照相机把印刷责料中的文章拍摄成黑白照片。 ②把拍摄到的照片导入计算机。 ③启动OCR软件，执行菜单命令，打开拍摄到的照片。 ④选定文字，执行识别操作。
获取文字素材
要点提示——保存整个网页。
①打开要保存的网页，然后执行 “另存为”命令。 ②把网页保存到素材库中。
获取文字素材
用数字图像中识别
报刊、杂志等印刷材料中的文章，除了用键盘把它们输入到计算机中外，还可以用扫描仪扫描或用数码照相机拍摄成数字图像，再用OCR软件从图像中识别出文字，然后用“写字板”“金山文字”或Word等字处理软件编辑加工并保存。
获取文字素材
语音输入
利用语音识别技术，可以把录入计算机的声音信息转换为电子文档。首先，保证计算机配备了能录音的相关硬件和软件，然后调试好传声器，对着传声器用普通话朗读，朗读的内容就被输入计算机了。如果普通话不标准，只要用系统提供的语音训练程序，进行一段时间的训练，让计算机熟悉朗读者的发音习惯，就可以提高语音识别的准确率。
编辑加工文字素材
为了便于人们之间的文件交流，有时还需要把文章另存为其他格式。常用的几种文档格式如下表所示。
格式 TXT RTF
DOC WPS PDF
功能通用的文本格式，不包括排版格式信息。
英文Rich Text Format的缩写，意思是“丰富的文本格式”，很多字处理软件都支持这种格式。 Word字处理软件的默认存储格式。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第二讲文本素材的采集与处理
本讲目标：
1．明确文本素材的五种获取方法。

2．掌握扫描仪的使用方法，会用扫描仪获取大量文本，并能利用文字识别软件对获取的文本进行修改编辑。

重点：获取文本素材的方法。

难点：大量文本的采集—扫描仪扫描文字识别法。

一、五种文本素材的获取方法
文本素材的获取有直接获取与间接获取两种方式，直接获取是指通过多媒体教学制作工具软件的文字工具或在文字编辑处理软件中用键盘直接输入或复制，一般在文本内容不多的场合下使用该方式。

间接获取是指用扫描仪或其他输入设备输入文本素材，常用于大量文本的获取。

文本素材的获取方法如下：
（1）键盘输入方法
键盘输入方法是文本输入的主要方法，使用计算机输入汉字，需要对汉字进行编码，根据汉字的某种规律将汉字用数字或英文字符编码，然后由计算机键盘输入。

汉字有音、形、义三个要素，根据汉字读音的编码叫音码，根据汉字字形的编码叫形码，兼顾汉字读音和字形的编码叫音形码或形音码。

在常用的多媒体教学制作软件中，都带有文字工具，在文本内容不多的情况下，可以直接输入文字，对输入的文字可进行直接编辑处理。

（2）手写输入方法
使用“输入笔”设备，在写字板上书写文字，来完成文本输入，利用手写输入法获取文本的方式，类似于平时我们在纸上写字，但对在写字板上书写的文字要经选择。

手写输入方法使用的输入笔有两种：一种是与写字板相连的有线笔，另一种是无线笔。

无线笔携带和使用均很方便，是手写输入笔的发展方向。

写字板也有两种，一种是电阻式，另一种是感应式。

（3）语音输入方法
将要输入的文字内容用规范的语音朗读出来，通过麦克风等输入设备送到计算机中，计算机的语音识别系统对语音进行识别，将语音转换为相应的文字，完成文字的输入。

语音输入方法目前开始使用，但识别率还不是很高，对发音的准确性要求比较高。

（4）扫描仪输入法
将印刷品中的文字以图像的方式扫描到计算机中，再用光学识别器（OCR）软件将图像中的文字识别出来，并转换为文本格式的文件。

目前，OCR的英文识别率可达90%以上，中文识别率可达85%以上。

（5）从互联网上获取文本
从互联网上可以搜索到许多有用的文本素材，在不侵犯版权的情况下，可以从互联网上获取有用的文字。

从互联网的html页面上获取部分文本的方法是：首先拖动鼠标选取有用的文本，或单击鼠标右键，在弹出的快捷菜单中，选择“全选”命令，将整个页面上文字全部选中，然后选择“复制”命令，打开文字处理软件（如Word），选择“编辑”/“粘贴”命令，就可以将复制的文字在文字处理软件中进行编辑处理了。

如果将互联网上其他格式的文本文件（如：.pdf，.caj）格式的文件进行保存，然后使用部分有用文本，常用的方法是：选择“文件”菜单中的“另存为”命令，将文本文件进行保存，
然后在打开的阅读器中，选择工具栏上的“文字选择工具”选取文字后，选择“复制”
命令，然后在文字处理软件中选择“粘贴”命令。

（注意：对有些.pdf，.caj格式的文件，处于版权的考虑，不允许选取复制）
对于大量印刷品中的文本素材，常用扫描仪以图像方式扫描到计算机中，再通过文字识别软件，将文字图像进行版面分析，文字识别后转化成文本文件，对识别不正确的文本进行编辑修改。

下面具体介绍用扫描仪扫描文字的方法。

二、扫描仪的主要性能指标与使用方法
扫描仪是一种光电一体化的计算机输入设备，有手持式（价格便宜、携带方便、但精度低、使用不便，目前较少使用）、平板式（目前使用较普遍）和滚筒式（可扫描较大的画面，主要用于工程设计）。

1．扫描仪的主要性能指标
（1）分辨率。

分辨率是指扫描时每英寸获取的像素点数，单位为像素/秒。

它分为水平分辨率和垂直分辨率。

分辨率越高，扫描出的图像越清晰，但生成的文件也
越大。

常见的扫描仪分辨率为600*1200和1200*2400。

（2）灰度等级。

扫描时，对图像的亮度从最黑到最白进行划分的等级用灰度等级表示。

级数越高，图像的亮度变化范围越大，图像的层次越丰富。

目前，扫描仪
的灰度等级有8bit（有28 =256个灰度等级）、10bit（有210=1024个灰度等级）
和12bit（有212=4096个灰度等级）等。

（3）色彩数量。

用来表示扫描仪在扫描时可以识别的最大色彩数目。

通常用每个像素点颜色的位数来表示。

如：24位可描述的色彩个数最多为224=1677216。

色
彩数量越大，图像色彩越丰富，但生成的文件相对也越大。

目前扫描仪的色彩
数量大多在32位以上。

（4）扫描速度。

扫描速度指扫描一个文件时间的长短，主要决定于扫描仪的接口模式、扫描仪步进电机的速率和扫描仪设定的分辨率。

分辨率越高，扫描速度越
慢。

一幅A4幅面、300像素/秒分辨率的图像，大约需要扫描30—60秒。

（5）扫描幅面。

它是扫描仪可以扫描的画面的最大尺寸。

常见的扫描仪的扫描幅面有A4、A4加长和A3等。

2．扫描仪的使用方法
下面以MiraScan为例，介绍用扫描仪扫描文字图像和将文字图像转换为文本文件
的方法。

（1）按照扫描仪的说明书，将扫描仪和计算机连接好，并安装相应的软件和图像编辑软件（如照片编辑器、Ulead PhotoImpact 或Phtoshop等）。

然后接通扫描仪的电源，运行图像编辑软件。

（2）打开扫描仪的上盖，将要扫描的图像正面朝下放入扫描仪中，并将图像的位置放正，合上盖子。

（3）启动扫描仪运行程序后，单击“文件”/“扫描图像”菜单命令，调出“MiraScan”对话框。

然后，对扫描图像的参数进行设置，如设置扫描模式为“彩色”、
扫描来源为“反射稿”、图像解析度为“72”，然后选择“去网花”等。

（4）单击“PreScan”（预扫）按钮，进行预扫，预览扫描范围是否得当。

若不得当，进一步进行调整图像的位置或设置参数。

（5）单击“Scan”按钮开始扫描，出现扫描进度提示，此时扫描仪的指示灯不断闪烁。

（6）扫描完成后，单击“结束”按钮，然后保存图像即可。

3．对扫描的文字图像进行识别
用扫描仪扫描的文字图像，不能对个别文字进行编辑修改，在教学中，需要利用文字识别软件，将文字图像进行识别，将图像格式转化成文本格式，常见的文字识别软件有很多，主要功能基本相同，在此以ScanMaker 4850ii随机附送的尚书七号为例，介绍用文字识别软件对扫描仪扫描的文字图像进行识别的正确使用方法。

用尚书七号对文字图像识别转化的过程，利用其主菜单：“文件”、“编辑”、“识别”、“输出”可以很方便地完成。

具体步骤为：
步骤1：获取文字图像文件。

选择“文件”菜单下的“扫描”或“打开图像”（将已经扫描好的图像文件打开）命令，打开图像文件。

如果连接了多台扫描仪，可以选择“文件”菜单下的“选择扫描仪”命令，调用扫描仪。

步骤2：对扫描的图像页进行调整
选择“编辑”菜单下“图像页面的处理”子菜单下的“图像页的倾斜校正”（提供自动和手动实现方法）及“旋转”等命令，将扫描的图像页进行调整。

步骤3：版面分析与文字识别转化
版面分析，选择识别范围，在进行文字识别前要选择识别范围，识别过程的核心是“版面分析”。

尚书七号的自动版面分析功能很强，对报纸杂志等复杂的版面，也能保持很高的分析正确率。

设置好后，直接点击“开始识别”的按钮就可以进行文字识别了。

步骤4：校对修改
自动识别完毕，识别结果的“文本窗口”会弹出，这个窗口能够提供识别结果的校对，为了校对方便，尚书七号增加了光标跟随显示原图像行的校对方法（如图3出现的黄色提示行的出现）。

提供的校对方法，一眼就能够看到图像原文和识别出文本的差别，如果发现识别有误，可以进行修改。

步骤5：输出
如果检查修改后确认无误，选择识别结果的“输出”菜单，输出的文件格式有：RTF、HTML、XLS、TXT，可以根据自己的需要选择对应的格式。

如果用户想得到类似原文的识别结果，请选择RTF格式。

把RTF格式输出的文件用WORD打开后，会发现几乎保留了原文的所有痕迹，包括原来页面中的彩色图像，都已经保留在WORD 中了。

第二讲 文本素材的采集与处理

第二节 采集素材

第2章 课件素材的采集与处理

2020年高考浙江版高考信息技术 第1节 文本素材的采集与处理