第六章 中文信息处理概述.ppt
合集下载
中文信息处理概述-PPT课件

对外经贸大学中文学院.对外汉语
释名
• Chinese Information Processing(CIP) 中文信息处理 ——Chinese character Information Processing 汉字信息处理 • CIP Chinese character (IT) = Chinese ideograph (Sinology) ——Chinese language Information Processing 汉语信息处理 • Language Information Processing 语言信息处理 (1) NLP/ CIP (2) Chinese-centered Multi-lingual Information Processing 以汉语为核心的多语言信息处理
对外经贸大学中文学院.对外汉语
ቤተ መጻሕፍቲ ባይዱ
汉语信息处理的主攻方向—两个实例
实例二 关于“沙漠化”的文章 “几年前由于种植籽瓜有利可图,使大批的种植 者就到过渡带来开垦,……。在这样的绿洲和沙漠过 渡带开垦,极易造成风蚀。” ——<今日民航>2019年9月号 就/ 到/ 就到/ 到/ 到过/ 过/ 过渡/ 带/ 来/ 带来/
对外经贸大学中文学院.对外汉语
中文信息处理的研究内容
• 研究对象:文字和语音 • 语言单位和层面:字-词-句-篇 • 基础研究 基础理论:语言学 基础方法 人工智能:知识工程,机器学习,模式识别,神经计算 数学: 模型理论,形式化理论,数理统计 基础技术 基础资源 基础系统/平台 • 应用研究 应用技术 应用资源 应用系统/平台
• 词
– 汉语分词
• 句篇
– 中文信息检索 – 中文信息抽取 – 中文文本分类技术
对外经贸大学中文学院.对外汉语
释名
• Chinese Information Processing(CIP) 中文信息处理 ——Chinese character Information Processing 汉字信息处理 • CIP Chinese character (IT) = Chinese ideograph (Sinology) ——Chinese language Information Processing 汉语信息处理 • Language Information Processing 语言信息处理 (1) NLP/ CIP (2) Chinese-centered Multi-lingual Information Processing 以汉语为核心的多语言信息处理
对外经贸大学中文学院.对外汉语
ቤተ መጻሕፍቲ ባይዱ
汉语信息处理的主攻方向—两个实例
实例二 关于“沙漠化”的文章 “几年前由于种植籽瓜有利可图,使大批的种植 者就到过渡带来开垦,……。在这样的绿洲和沙漠过 渡带开垦,极易造成风蚀。” ——<今日民航>2019年9月号 就/ 到/ 就到/ 到/ 到过/ 过/ 过渡/ 带/ 来/ 带来/
对外经贸大学中文学院.对外汉语
中文信息处理的研究内容
• 研究对象:文字和语音 • 语言单位和层面:字-词-句-篇 • 基础研究 基础理论:语言学 基础方法 人工智能:知识工程,机器学习,模式识别,神经计算 数学: 模型理论,形式化理论,数理统计 基础技术 基础资源 基础系统/平台 • 应用研究 应用技术 应用资源 应用系统/平台
• 词
– 汉语分词
• 句篇
– 中文信息检索 – 中文信息抽取 – 中文文本分类技术
对外经贸大学中文学院.对外汉语
中文电脑基础-主要是介绍中文信息处理技术的相关知识45页PPT

42、只有在人群中间,才能认识自 己。——德国
43、重复别人所说的话,只需要教育; 而要挑战别人所说的话,则需要头脑。—— 玛丽·佩蒂博恩·普尔
44、卓越的人一大优点是:在不利与艰 难的遭遇里百折不饶。——贝多芬
45、自己的饭量自己知道。——苏联
中文电脑基础-主要是介绍中文信息处理 技术的相关知识
•
46、寓形宇内复几时
48、啸傲东轩下,聊复得此生。
•
49、勤学如春起之苗,不见其增,日 有所长 。
•
50、环堵萧然,不蔽风日;短褐穿结 ,箪瓢 屡空, 晏如也 。
41、学问是异常珍贵的东西,从任何源泉吸 收都不可耻。——阿卜·日·法拉兹
43、重复别人所说的话,只需要教育; 而要挑战别人所说的话,则需要头脑。—— 玛丽·佩蒂博恩·普尔
44、卓越的人一大优点是:在不利与艰 难的遭遇里百折不饶。——贝多芬
45、自己的饭量自己知道。——苏联
中文电脑基础-主要是介绍中文信息处理 技术的相关知识
•
46、寓形宇内复几时
48、啸傲东轩下,聊复得此生。
•
49、勤学如春起之苗,不见其增,日 有所长 。
•
50、环堵萧然,不蔽风日;短褐穿结 ,箪瓢 屡空, 晏如也 。
41、学问是异常珍贵的东西,从任何源泉吸 收都不可耻。——阿卜·日·法拉兹
中文信息处理课件

THANK YOU
汇报人:
基于知识图谱的方法:通过构建知识图谱,分析文本中的实体和关系,进行情感分类
中文情感分析技术应用场景
电商评论情感分析:帮助商家了解消费者对产品的评价和满意度
社交媒体情感分析:帮助企业了解消费者对品牌的态度和口碑
客户服务情感分析:帮助企业了解客户对服务的满意度和需求 情感机器人:通过情感分析技术,让机器人更好地理解和回应人类的情 感需求
义的词组
常见的中文分 词方法有基于 词典的分词、 基于统计的分 词和基于深度
学习的分词
中文分词技术 在搜索引擎、 机器翻译、情 感分析等领域 有着广泛的应
用
中文分词算法分类
基于词典的分词算法
基于统计的分词算法
基于规则的分词算法
基于深度学习的分词算 法
中文分词技术应用场景
搜索引擎:提高搜索结果的准确性和效率 自然语言处理:用于文本分析、情感分析、机器翻译等 社交媒体:用于文本分析、情感分析、用户画像等 电子商务:用于商品推荐、用户行为分析等
05
中文句法分析技术
中文句法分析技术简介
什么是中文句法分析:对中文 句子进行结构分析,提取句子 中的语法成分和结构关系
句法分析的方法:基于规则的 句法分析、基于统计的句法分 析、基于深度学习的句法分析
添加标题
添加标题
添加标题
添加标题
句法分析的作用:帮助理解句 子的含义,提高自然语言处理 系统的性能
句法分析的应用:机器翻译、 信息检索、问答系统、情感分 析等
中文句法分析算法分类
基于规则的句法分析算法:通过定义规则来识别句子结构 基于统计的句法分析算法:通过统计方法学习句子结构 基于深度学习的句法分析算法:使用深度学习技术识别句子结构 基于语法树的句法分析算法:通过构建语法树来识别句子结构
中文信息处理概述

才 能 为 人所 认 识 和 理 解
。
。
前 一 阶段
,
人 工 智能 的主 攻 方 向没在 语 言方 面
。
,
这 是 同计 算机 的水 平 不 够高有关 的 言处 理 尚处 于方 兴 未艾 阶段 弄清 汉 字信 息 处 理
、 。
第 五 代 计 算 机 要 解 决 这 个 间题 了
、
从 这 个角度 上 说
。
自然 语 言 处 理 又是 人 工 智能 容
。
( 即 用 计 算 机 模 拟 人 的智能 活 动 ) 这个 极 为 广 阔的领域 的 主 要 内
,
信息 有 多 种 其 中 语 言 信 息 是 人 类社 会 中最 主 要 的 信 息 任何 一 种 物质 或 任何 一 种精 神 存 在
,
只 有 转换 成 语 言 信 息
( 汉语 )
,
这 四 个词
,
才能 进 行 翻 译
因此
。
词
”
是 翻 译的 基 本单位
。
中文
是 许 多 自然 语 言中的 一种
中 文信 息 处 理 又 是 自然 语 言 处 理 的 一 部 分
。
我 国有几 十 种 少 数 民 族
,
他们 的语 言 文字信 息 处理 也 是 自然 语 言 处 理 的 一 部 分
,
为 不 同 目的 服 务 的各种 应 用 软件 计 可 说是 个 例外
切分 出
“
。
它 的 另 一 特点 是 一 般都 以词 作 为 加 工 的 基 本单 位 ( 汉 字频 率统
“
)
。
比如说
”
,
要把
我 想 学 习 英语
中文信息处理概述-PPT课件

对外经贸大学中文学院.对外汉语
中文信息处理的研究内容
• 研究对象:文字和语音 • 语言单位和层面:字-词-句-篇 • 基础研究 基础理论:语言学 基础方法 人工智能:知识工程,机器学习,模式识别,神经计算 数学: 模型理论,形式化理论,数理统计 基础技术 基础资源 基础系统/平台 • 应用研究 应用技术 应用资源 应用系统/平台
• 词
– 汉语分词
• 句篇
– 中文信息检索 – 中文信息抽取 – 中文文本分类技术
对外经贸大学中文学院.对外汉语
汉语信息处理的主攻方向—两个实例
• 两个实例 实例一 关于自动升降晾衣架的对话 妻子:“嘿,过了一年才坏。” 丈夫:“什么呀,才一年就坏了。” 丈夫理解了妻子的意思吗?
——虚词词义:才(数量词前后,意义不同) ——背景知识:保修期 ——知识激活机制?
对外经贸大学中文学院.对外汉语
汉语信息处理的主攻方向
• 短语结构歧义
m + q + n + “的” + n 三个大学的老师三/m 个/q 大学/n 的/u 老师/n
——[ [ 三/m 个/q 大学/n ] 的/u 老师/n ] ——[ 三/m 个/q [ 大学/n 的/u 老师/n ] ]
三所大学的老师—[ [ 三/m 所/q 大学/n ] 的/u 老师/n ] 三位大学的老师—[ 三/m 位/q [ 大学/n 的/u 老师/n ] ] 小王和小李的妹妹 李娜和郑洁的老公都是教练。
——未登录词的识别 ——知识背景 ——认知机制
对外经贸大学中文学院.对外汉语
汉语信息处理的主攻方向—歧义消解
白天鹅/--白/ 天鹅/--白天/ 鹅/--白/ 天/ 鹅/
•
词的切分 白天鹅 计算机程序可以按某种算法实现这种切分, 给出一种或多种结果。对否?
中文信息处理-复习提纲概要81页PPT

ห้องสมุดไป่ตู้END
中文信息处理-复习提纲概要
36、如果我们国家的法律中只有某种 神灵, 而不是 殚精竭 虑将神 灵揉进 宪法, 总体上 来说, 法律就 会更好 。—— 马克·吐 温 37、纲纪废弃之日,便是暴政兴起之 时。— —威·皮 物特
38、若是没有公众舆论的支持,法律 是丝毫 没有力 量的。 ——菲 力普斯 39、一个判例造出另一个判例,它们 迅速累 聚,进 而变成 法律。 ——朱 尼厄斯
40、人类法律,事物有规律,这是不 容忽视 的。— —爱献 生
16、业余生活要有意义,不要越轨。——华盛顿 17、一个人即使已登上顶峰,也仍要自强不息。——罗素·贝克 18、最大的挑战和突破在于用人,而用人最大的突破在于信任人。——马云 19、自己活着,就是为了使别人过得更美好。——雷锋 20、要掌握书,莫被书掌握;要为生而读,莫为读而生。——布尔沃
概论ppt - 广东外语外贸大学中文首页.
办公自动化的六种主要技术
1、数据处理 2、文字处理 3、语音处理 4、图像处理 5、网络通信技术 6、人机工程
我国办公自动化发展的阶段
第一阶段:纸质文档电子化。 第二阶段:局域网共享。 第三阶段:互联网共享。 第四阶段:无线移动。
发展的趋势
1、办公环境网络化 2、办公操作无纸化 3、办公服务无人化 4、办公业务集成化 5、办公设备移动化 6、办公思想协同化 7、办公信息多媒体化 8、办公管理知识化 9、办公系统智能化
课程考核
课程考核方式:课程作业 课堂纪律:爱护设备,听从老师安排开关电脑,连接 互联网。
中文信息处理和办公自动化
绪论
广东外语外贸大学 魏慧斌
2010年9月6日
什么是中文信息处理?
中文信息处理,Chinese Information Processing 是指用计算机对中文的音、形、义等信息进行处理和 加工。中文信息处理是自然语言信息处理的一个分支, 是一门与计算机科学、语言学、数学、信息学、声学 等多种学科相关联的综合性学科。 包括基础研究、输入技术、输出技术、储存技术、转 换技术、信息处理等方面。
办公自动化模式-事务型
办公事务处理的主要内容是执行例行性的日常办公事 务,它涉及大量的基础性工作,包括文字处理、电子 排版、电子表格处理、文件收发登录、电子文档管理、 办公日程管理、人事管理、财务统计、报表处理、个 人数据库管理等。
管理型MIS
管理型办公自动化系统是把事务型办公系统和综合信 息紧密结合的一体化的办公信息处理系统。它由事务 型办公系统支持,以管理控制活动为主,除了具备事 务型办公系统的全部功能外,主要还增加了信息管理 功能。根据不同的应用可将其分为政府机关型、市场 经济型、生产管理型、财务管理型、人事管理型等。
中文信息处理课件
基于深度学习的分类算法
通过人工制定规则对文本进行分类, 具有简单直观的优点,但需要大量的 人力物力。
利用神经网络对文本进行分类,具有 较高的分类精度和泛化能力,但需要 大量的计算资源和训练时间。
基于统计的分类算法
利用统计学方法对文本进行分类,具 有较高的准确率,但需要大量的训练 数据。
情感分析技术
有特定意义的实体,如人 名、地名、组织名等的过程。
关键技术包括:基于规则的方 法、基于模板的方法和基于机 器学习的方法等。
命名实体识别技术广泛应用于 信息提取、智能问答、信息推 荐等领域。
05
中文信息处理面临的挑战与解决方案
语言特性的挑战与解决方案
情感词典构建
手工构建
通过人工方式对词汇进行情感极 性标注,构建情感词典。优点是 准确度高,但工作量大,耗时耗 力。
自动构建
利用机器学习算法对大量语料进 行学习,自动构建情感词典。优 点是速度快,但准确度相对较低 。
04
信息抽取与关系抽取
信息抽取技术
信息抽取是从非结构 化的文本中提取结构 化的信息的过程。
基于统计的分词方法
HMM(隐马尔可夫模型)
通过训练大量文本,计算出各个状态之间的转移概率和观测概率,从而确定最 佳的分词结果。
CRF(条件随机场)
基于序列标注的方法,通过训练数据学习标签序列的概率分布,从而对未标注 的文本进行分词。
深度学习在中文分词中的应用
RNN(循环神经网络)
01
利用RNN捕捉句子中的上下文信息,结合分词任务的特点,对
由于中文词汇量庞大且语言使用的特殊性,很多词汇在语料 库中出现的频率很低,这使得模型训练时面临数据稀疏的问 题。为了解决这一问题,可以采用数据增强技术、预训练语 言模型以及迁移学习等方法。
全信息理论与中文信息处理ppt课件
3,灵活性 整体框架是语言学风格,包含语法分析、语义分析和语 用分析;实际分析深度可依问题需求而有所不同。 模块实现可以是规则的、统计的、规则统计交互补足的。
4,开放性: 模型能够适应各种“理解”应用;能够随着信息表示与处 理方法的进步而不断改进自己的性能。
关于灵活性的一个说明
规则分析 统计分析
N
自然语言 “理解” 与人工智能
1,智能的核心是思维;语言是思维的表达;因此语 言也是智能的表达。
2,理解(认知),是智能的内核;因此自然语言理 解是人工智能的基本研究方向。
3,自然语言理解本质上是人工智能、信息科学、 认 知科学和语言学的交叉科学。
4,自然语言理解系统本质上是一类智能系统。
智能系统的核心机制:信息-知识-智能转换
Form Content
Thinking
Value
The Mechanism of Understanding Form Value Content
全信息与语言理解的层次
对于自然语言的理解,存在三个相依的层次:
(1)了解它的语法信息 (2)了解它的语义信息 (3)了解它的语用信息
浅层理解 中层理解 深层理解
中文信息(自然语言)处理的核心目标
表面上看,“中文信息处理”研究工作的着眼点和落 脚点应是中文信息的“处理” – 如词语切分,词形标注, 语句分析,专名识别,词语消岐,等等。
实质上看,研究工作的目标是“使机器能够在一定 程度上理解中文信息”,或对中文信息实现一定认知。
无论从 “人际通信” 还是 “人机合作” 的需求来看, 处理都是手段,理解(认知)才是目的。
即使是人(更不要说机器)对自然语言的理解也需 要经过长时间的训练和学习,需要在大量“记忆+模仿” 实践的基础上才能逐渐生长出“自主理解”的能力。
4,开放性: 模型能够适应各种“理解”应用;能够随着信息表示与处 理方法的进步而不断改进自己的性能。
关于灵活性的一个说明
规则分析 统计分析
N
自然语言 “理解” 与人工智能
1,智能的核心是思维;语言是思维的表达;因此语 言也是智能的表达。
2,理解(认知),是智能的内核;因此自然语言理 解是人工智能的基本研究方向。
3,自然语言理解本质上是人工智能、信息科学、 认 知科学和语言学的交叉科学。
4,自然语言理解系统本质上是一类智能系统。
智能系统的核心机制:信息-知识-智能转换
Form Content
Thinking
Value
The Mechanism of Understanding Form Value Content
全信息与语言理解的层次
对于自然语言的理解,存在三个相依的层次:
(1)了解它的语法信息 (2)了解它的语义信息 (3)了解它的语用信息
浅层理解 中层理解 深层理解
中文信息(自然语言)处理的核心目标
表面上看,“中文信息处理”研究工作的着眼点和落 脚点应是中文信息的“处理” – 如词语切分,词形标注, 语句分析,专名识别,词语消岐,等等。
实质上看,研究工作的目标是“使机器能够在一定 程度上理解中文信息”,或对中文信息实现一定认知。
无论从 “人际通信” 还是 “人机合作” 的需求来看, 处理都是手段,理解(认知)才是目的。
即使是人(更不要说机器)对自然语言的理解也需 要经过长时间的训练和学习,需要在大量“记忆+模仿” 实践的基础上才能逐渐生长出“自主理解”的能力。
中文信息处理
. . . .... .... .... . . . . .... .... .... . .
. .. . . ..
具体内容安排:应用
▶ 篇章理解 ▶ 自动文摘 ▶ 机器翻译 ** ▶ 问答技术 ▶ 文本分类、聚类 ▶ 文本检索(信息检索)* ▶ 文本生成(语言生成、Language Generation) ▶ 产品评论分析(打标签)* ▶ ...
. .. . . ..
哈工大语言技术平台
. . . .... .... .... . . . . .... .... .... . .
. .. . . ..
哈工大语言技术平台
. . . .... .... .... . . . . .... .... .... . .
. .. . . ..
课程目标
. . . .... .... .... . . . . .... .... .... . .
. .. . . ..
师生相处之道
▶ 互相理解、尊重 ▶ 互相学习、提高 ▶ 随时有问题,随时打断 ▶ 发现我的错误,及时反馈(有奖励!)
▶ 《计算机程序设计艺术》高纳德(Donald Ervin Knuth)
. .. . . ..
具体内容安排:句子内分析
▶ 汉语分词(最大匹配分词、评价;分词规范不一致检测;分词 数据标注)***
▶ 词性标注(HMM;EM 算法及相关评价;CRF)** ▶ 命名实体识别(人名、地名、机构名等)* ▶ 词义分析 * ▶ 句法分析(基于图的方法;基于转移的方法)** ▶ 语义分析 *
▶ 问题:分类问题(结构化分类)、聚类问题、回归拟合问题...
▶ 监督学习、无监督学习、半监督学习 ▶ 方法
▶ 线性分类器 ** ▶ 决策树 ▶ 逻辑回归(logistic regression) ▶ 最大熵(词性标注为例)** ▶ CRF(词性标注为例)** ▶ EM 算法 **(无监督)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2019-8-17
感谢你的观看
5
符号层的信息处理
汉字输入
自动输入
键盘输入
字形识别
声音识别
4
手写体识别
5
在线手写
整字键盘
6
脱机手写
7 印刷体识别
2019-8-17
感谢你的观看
主辅式 感应式
通用键盘
8
形码 1
音码 2 9
形音结合码
3
6
内容层的信息处理
原文
译文
原文输入 1 译前编辑 2
词法分析 3 句法分析 4 语义分析 5 语境分析 6
• 国标码是汉字编码的国家标准。在GB 2312-80代码表中,纵向分为 0~93,共94行;横向也是0~93,共94列。行与列分别用七位二进制码
表示,第一字节表示行,第二字节表示列。其值都从0100001到 1111110。这正是ASCII 码的可打印字符的编码。其范围为十六进制 的21~7E。汉字国标码是将第一字节和第二字节连写而得到的。由于 二进制形式太长,通常用十六进制表示。
• 为便于查找,一级汉字按汉语拼音顺序排列;二级汉字一般不易熟 记它们的发音,故按部首和笔画排列。另外还包括常用符号、序号、 GB 1988图形字符集、日文假名、希腊字母、俄文字母、汉语拼音、 注音字符、制表符号等。
2019-8-17
感谢你的观看
15
汉字编码标准
• 累计使用频度不足0.001%的汉字数量接近1万个。为了满足计算机实 际应用的需要,我国在GB 2312-80的基础上扩大收字的范围,制定了 “汉字内码规范”GBK,包含了20 902个汉字,又称为扩展的国标码。 在Windows 95/98和其后的Windows 2000中,装入了GBK的全部汉字和 符合GBK和GB 2312-80的输入法。
• 在计算机内部处理文字信息时,就像处理数据一样对待。 处理完毕后,再把替代的数码还原成相应的字母或文字。 利用计算机能够调整处理数据的性能,使文字信息处理也 能够分享计算机技术的这一独特优点,从而实现文字信息 处理的高效化。
2019-8-17
感本问题
• 英文字符的编码标准是ASCII码,即美国信息交换标准代 码。这是七位的二进制代码,它是美国国家标准学会 (ANSI)为计算机的信息交换提出的标准,后来由国际标 准组织(ISO)确定为国际标准字符编码。
– 中文信息处理分为汉字信息处理与汉语信息处理两部分
• 中文信息处理是自然语言信息处理的一个分支,是一门与 计算机科学、语言学、数学、信息学、声学等多种学科相 关联的综合性学科。
2019-8-17
感谢你的观看
2
2019-8-17
感谢你的观看
3
中文信息处理
• 中文信息处理分为汉字信息处理与汉语信息处理两部分
• 外字处理:动态组字、造字、电子书等。 • 存储技术:汉字库标准中文、字符编码等。 • 转换技术:繁简转换等
2019-8-17
感谢你的观看
13
三、中文信息处理主要研究对象
• 信息处理:中文情报检索、中文文本校对、机器翻译、自 然语言理解、中文人机界面、语义网、电子字典、电脑辅 助翻译等
• 中文化:软件的国际化(internationalization)和本土 化(localization)。
2019-8-17
感谢你的观看
12
三、中文信息处理主要研究对象
• 基础研究:汉字字频统计、词频统计、汉语自动分词、句 法属性研究、汉字编码字符集、通用汉字样本库、汉字属 性字典、语料库等
• 输入技术:中文输入法、中文手写输入、中文语音输入、 光学字符识别等。
• 输出技术:汉字字模技术(字体库)、汉字激光照排、汉 语语音合成、动态组字等。
2019-8-17
感谢你的观看
20
机内码
• 目前,多数微机汉字系统的机内码是以国标GB 2312-80 规定的双七位代码为依据,经一定转换后用两个字节表 示一个汉字。每个字节的最高位均为1,以此作为汉字 的标记,以便于与ASCII码编码的符号相区别。
• 由国标码转换为机内码的规则是:将十六进制的国标码 加上8080H,就得到对应的机内码。
• 信息的两个层次: 符号层 —— 中文 / 汉语 / 汉字 内容层 —— 符号所承载的意义
• 中文信息处理的两个层次: 字符处理(输入、存储、输出等) 内容处理(词语切分,词性标注,结构分析,意义理解, 推理,翻译……等等)
2019-8-17
感谢你的观看
4
符号层的信息处理
• 拼音文字:小字符集 —— 比较容易 • 非拼音文字:大字符集 —— 难度很大
• 区位码与国标码之间有一定的对应关系: • 将区位码的区号和位号分别由十进制转换成对应的十六进
制数,然后加上十六进制数2020H(H表示2020为十六进制 数码),就得到对应的国标码。例如,“啊”字的区位码 是1601,分别将区号和位号转换成对应的十六进制数得 1001H,再加上2020H就得到“啊”字的国标码为3021H。
FF
20902 汉字
FF
27484 汉字
23
六、中文信息在计算机内的表示
• 在计算机内表示中文信息的最早在IBM、富士通、日立等计算机生产厂 家的计算机中开始,但采用的编码形式互不兼容。
2019-8-17
感谢你的观看
21
五、汉字编码字符集
• 按照一组无歧义的规则而定义的汉字字汇的有序集合。 其中每一个汉字与它的代码表示之间具有一一对应关 系。
• 在信息处理技术中汉字编码字符集用于汉字信息的表 示、交换、传输、处理、存储、输入及显示。
• 在国际标准化组织ISO的定义中,“无歧义的规则” 很重要,制定这些规则的目的是为了确保编码的唯一 性,避免重码。
• 如“大”字的区位码为2083,国标码为3473H,机内码为 3473H+8080H=B4F3H。将B4F3H 化为二进制数得: 1011010011110011,这就是在计算机中实际使用的机内 码的二进制形式。
• 8080H等于二进制的1000000010000000,国标码加上
8080H,可以保证机内码每个字节首位均为1。
• 中文编程:目前有两种发展,一种是英文coding直接翻译, 以降低开发人员的语言学习成本;一种是根据中文特点, 发展出融合中国人思维模式的新的计算机语言。
2019-8-17
感谢你的观看
14
四、汉字编码标准
• 为了用0、1代码串表示汉字,在汉字系统或通信系统之间交换信息, 必须给每个汉字规定一个统一的代码。这就是汉字的交换码。
• 为了和国际标准兼容,我国根据它制定了英文字符编码国 家标准,即GB1988。其中除了将货币符号置换为人民币符 号外,其他都与ASCII码相同。
2019-8-17
感谢你的观看
11
汉字信息处理的基本问题
• 计算机的键盘原本就是为英文输入设计的,只要按照字母击键, 就可以输入英文。键盘的译码电路按照所击的键产生英文字符 的ASCII码,输入到计算机的内存中。
• 经过编辑的文本仍然以ASCII码表示。输出时,这些代码必须 转换成字符字形的点阵,以便显示或打印。因此,计算机必须 存储每个英文字符、数码以及标点符号的点阵信息。这些点阵 信息构成了所谓“字模库”。字模库的点阵以有点或无点来表 示文字和符号。
• 汉字信息的计算机处理过程与英文信息处理过程是类似的。不 过,由于汉字信息的特点,以及要考虑与英文信息处理系统兼 容等问题,处理的难度更大。我国经过多年的研究,汉字处理 的基本问题已经解决。
第六章 中文信息处理
概述
2019-8-17
感谢你的观看
1
一、中文信息处理
• 《计算机科学技术百科全书》(清华大学出版社,1998)
– 中文信息处理是用计算机对汉语的音、形、义等语言文字信息进 行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、 识别、转换、压缩、存储、检索、分析、理解和生成等各方面的 处理技术。
2019-8-17
感谢你的观看
8
二、文字信息处理的基本问题
• 文字信息的计算机处理过程
– 要用计算机来处理文字,必须解决如何把文字输入计算机并在计 算机中存储起来,进行适当处理之后再输出文字等问题。
文字信息的输入 文字信息的处理 文字信息的输出
2019-8-17
感谢你的观看
9
二、文字信息处理的基本问题
• 例如:
• 汉字
第一字节
第二字节 十六进制
区位码
•
啊
0110000
0100001
3021
1601
•
保
0110001
0100011
3123
1703
•
播
0110010
0100101
3225
1805
2019-8-17
感谢你的观看
17
区位码
• 国标码还可以表示成区位码的形式。在GB2312-80代码表 中,将行号称为区号,列号称为位号,分别有94个区和 94个位。将汉字置于其中,由区号与位号标识出汉字在 代码表中的位置。
• 由于汉字的字符多,一个字节八位二进制代码不足以表示所有的常用 的汉字。为了不与西文的ASCII 码混淆,在微型机汉字系统中,国标 码的每个符号都用两个字节(十六位)代码来表示,并作为转换为机 内码或其他汉字处理代码的依据。
2019-8-17
感谢你的观看
16
国标码
• 汉字国标码就是GB 2312-80为汉字规定的代码,也称为交换码。
• 1981年5月,我国国家标准总局颁布《信息交换用汉字编码字符集》 (GB 2312-80),作为汉字交换码编码的国家标准,简称国家标准汉 字编码,或国标码。