中文信息处理技术简介资料

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
90年代中期,最为普及的计算机操作系统由 DOS升级到Windows平台。微软公司从中文版 Windows 3.2开始,在操作系统里集成了汉字处理 技术,使传统中文信息处理产品迅速失去了市场。 中文信息处理进入一个低谷,原先做中文信息处理 的公司纷纷转行。Windows 2000及以上版本,无 论采用何种文字,均已支持中文处理。
句输入法所对应的软件叫做“拼音文本转 换系统”, 它不仅是一种输入软件, 而且在我们 后面将要介绍的语音识别中又是一种不可缺少 的软件工具。
3.2汉字字形
今年来,字形技术在国际上取得了突 破性进展,形成字形信息产业。那字由 于字形复杂,字数繁多,采用国际新技 术时,存在着其特有的难点。字形技术 主要包括字形数据的产生合压缩以及字 形的还原技术。
中文信息处理
中文信息处理是用计算机对汉语的音、形、义 等语言文字信息进行的加工和操作,包括对字、 词、短语、句、篇章的输入、输出、识别、转 换、压缩、存储、检索、分析、理解和生成等 各方面的处理技术。
《计算机科学技术百科全书》 清华大学出版社,1998
计算机中文信息处理主要研究对象
❖ 汉字键盘输入技术 ❖ 汉字输出技术 ❖ 软件汉化技术 ❖ 汉字字形识别技术 ❖ 汉语语音识别技术 ❖ 激光照排技术 ❖ 中文平台 ❖ 文本分类 ❖ 信息检索
信息既不是物质也不是能量,是人类在适应外部世界时 以及在感知外部世界时而作出协调时与外部环境交换内 容的总和。
❖ 信息论奠基者(香农 Clause Shannon)
信息就是能够用来消除不确定性的东西,是一个事件发 生概率的对数的负值
❖ Robert M. Losee
信息可以被定义为一个处理过程的特征,这些特征就是 输入和处理过程中产生的信息
2、中文信息处理发展历史
重文信息处理至今经历了两次高潮: (1)80年代中期到90年代中期之前,核心 内容是汉字的计算机处理问题; (2)经过几年的发展低潮之后,90年代末, 中文信息处理的重点转向语音识别、语音合 成和语义处理方面。
2.1汉字之难——被打字机抛弃的时代
在二十世纪上半页,英文打字机的普及极大的 提高了文字资料的录入速度。而由于汉字的复杂性, 使中文打字机迟迟未能设计出来,再加之基础汉字 的学习难度大、时间长,连鲁迅都喊出“汉字不灭, 中国必亡”。之后,虽然设计出中文打字机,但要 配备数千个铅字组成的大字盘,昂贵的机器成本和 复杂的使用技术决定它不能普及到大众使用。毛泽 东对此也深感无奈,发出了中文“要走世界共同的 拼音文字道路”的慨叹。这些局限于历史条件所限 而做出的言论,在中文信息处理技术发展后期仍然 被经常(断章取义的)提及。
1、中文信息处理概念wk.baidu.com
是指用计算机对中文的音、形、义等信息进 行处理和加工。中文信息处理是自然语言信 息处理的一个分支,是一门与计算机科学、 语言学、数学、信息学、声学等多种学科相 关联的综合性学科。信息处理技术在现代有 广泛的应用 。从80年代开始,中文信息处理 进入了快速发展阶段,并极大地提高了中文 社会的信息处理效率。
2.3互联网时代的中文处理
互联网时代对中文信息处理产生了新需求: 互联网上的海量数据为中文信息检索提出了新的
课题; 其次,外文信息已经多到不能人工完翻译的程度,
机器翻译的重要性被提到了空前的高度; 第三,手机、PDA等移动设备将信息处理需求变
成无处不在,非标准键盘的汉字输入需要有新的方 案。大量新的课题出现,重新启动了中文信息工作 的热情。
2.4汉语信息处理阶段
❖ 数字图书馆 ❖ 与此同时,为方便使国内各民族电脑化的步
伐加快,政府作出一连串行动去使这些民族 的语言更便于“计算机化”。
3、中文信息处理技术研究现状
中文信息处理包含多个分支,以下的介 绍只能比较粗浅地把所了解的一些情况跟大 家交流一下。
3.1键盘输入
汉字键盘输入技术是中文输入技术的主 流。汉字键盘输入方法通常是指一个编码方 案配有相应的软件系统实现在计算机上输入 汉字。
中文信息处理技术简介
中文信息处理技术简介
❖ 0、预备知识 ❖ 1、中文信息处理概念 ❖ 2、中文信息处理发展历史 ❖ 3、中文信息处理技术研究现状
0、中文信息处理概念
❖信息 ❖信息分类 ❖信息处理 ❖中文信息处理 ❖计算机中文信息处理主要研究对象
信息
❖ 控制论创始人(维纳 Norbert Wiener)
❖ 1984年的《参考消息》有这样的记载:“法 新社洛杉矶8月5日电 新华社派了22名记者, 4名摄影记者和4名技术人员在奥运会采访和 工作。在全世界报道奥运会的7000名记者中, 只有中国人用手写他们的报道”……此时的 中国人,只有中国人仍然用手写从事着创作。
❖ 汉字成了被打字机抛弃的“落后文明”, 直到二十世纪八十年代PC技术推广下,中文 PC系统问世,中文信息输入的问题,才有了 初步解决
信息的分类
❖ 按照计算机处理的信息形式
文本信息 多媒体信息 超媒体信息
❖ 按照信息的结构化程度
结构化信息 半结构化信息 非结构化信息
❖ 按照信息的保密程度
公开信息 一般保密信息 绝密信息
信息处理
❖ 信息处理就是对信息的接收、存储、转化、传送和 发布
信息的接收:包括信息的感知、信息的测量、信息的识 别、信息的获取以及信息的输入等;
信息的存储:把接收到的信息或转换、传送或发布中间 的信息通过存储设备进行缓冲、保存、备份等处理;
信息的转化:把信息根据人们的特定需要进行分类、计 算、分析、检索、管理和综合等处理;
信息的传送:把信息通过计算机内部的指令或者计算机 之间构成的网络从一地传送到另外一地;
信息的发布:把信息通过各种表示形式展示出来。
2.2汉字信息处理阶段
硬件:联想、巨人、四通等公司的汉卡, 浪 潮、紫金的中文电脑,四通中文打字机, 大 洋字幕机
软件: 输入法: 企业:联想、方正、四通等一批靠中文处 理产品起家的企业。
标准、基础研究:中文信息处理界基本上完成了 词频统计、多种字体显示/打印字库、汉字显示/打 印技术、输入法、内码标准、字符集标准等与字相 关的所有基础工作。倪院士说,到2000年,中国已 制定了70个与中文信息处理相关的国家标准。 (学 术理论)
相关文档
最新文档