《中文信息处理》复习提纲

《中文信息处理》复习提纲第一章汉字信息处理

一、填空：

汉字的属性信息包括字量、字频、字序、字形、字音。

二、现代汉语用字排列的顺序

1、义序法

2、音序法

3、形序法

三、GB2312－80：中国《信息交换用汉字编码字符集·基本集》

四、什么是汉字字形识别输入？

也称汉字自动识别。即利用光学扫描方法将汉字的图形信息直接输入计算机，也就是用计算机自动辨别印刷或书写在纸（或其他介质）上的汉字。它属于模式识别和人工智能的范畴，是新一代计算机智能接口的一个重要组成部分，在应用上它是汉字信息处理系统告诉自动输入的手段和根本出路，是汉字中文信息处理的一种好办法。五、自动字形识别输入的类型。

汉字识别的类型主要分三大类：联机手写汉字识别、印刷体汉字识别和手写汉字识别。

1、汉字手写汉字识别，又称实时手写汉字识别，人用笔在图形输入板上写字，机器隔着认。

2、印刷体汉字识别包括单体印刷体汉字识别和多体印刷体汉字识别两小类。

（1）单体印刷体汉字识别是识别印刷在纸上的一种印刷体汉字。

（2）多体印刷体汉字识别是同时识别印刷在纸上的宋、仿宋、楷、黑等多种字体的印刷体汉字。

3、手写汉字识别，又称通用手写汉字识别，是识别人写在至上的规整汉字。一般限制为楷书，笔画数要正确，要写于方格中。

六、汉字识别的基本思想与步骤。

1、汉字识别的基本思想是匹配识别。

2、步骤：

第一步把需要识别的汉字集合中每一个汉字字符的字形特征存贮在机器中，形成已知的汉字库。

第二步用图形输入板或光电设备（如图文扫描、光导摄像管扫描、激光扫描等装置）扫描输入一个未知的需要识别的汉字字符，抽取它的特征。

第三步将抽取到的代表未知汉字模式本质的表达形式（即各种特征）和预先存贮在机器中的所有汉字特征一个一个地匹配，匹配用一定的准则进行。最后在机器存贮的标准汉字模式表达形式的集合中，找出最接近汉字输入特征的那一个，该特征所对应的汉字就是识别结果，最后用相应的内部码来表示它。

七、汉字语音识别输入的定义。

汉字语音识别输入就是通过“说”和“听”来和计算机交换信息，即利用声音识别技术，抽取汉字的语言特征，实现对汉语语音的自动识别。其目的是让计算机“听懂”用汉语语音所表示的汉字信息，以便通过口授将包含有汉字的程序、数据、命令、文稿等送入计算机。

八、语音识别的类型

1、按使用人分类，有特定人语音识别和非特定人语音识别

（1）特定人语音识别指使用前由使用者对系统进行训练，让系统记住事先选好的字或词的发音特征，识别时由这个使用者将字或词读进系统。

（2）非特定人语音识别是供许多人使用的系统，使用者不用对系统进行训练。系统要能听懂任何人说的话，就必须让系统获取许多人说话的共性特征，并在处理中进行强化，是许多人说的同一语音的特征有极高的稳定性，对不同的语音有极大的区别度。

2、按词汇量分类，有小词汇量语音识别、中词汇量语音识别和大词汇量语音识别。

小词汇量指几十个字或词，中词汇量指几百个字或词，大词汇量指几千甚至上万的字或词。

3、按发音方式分类，有孤立词语音识别和连续语音识别。（1）孤立词语音识别指识别时将字或词孤立地读进系统。（2）连续语言识别指语言识别时将整个句子连续读进系统。要求系统既具备处理连续造成地同化、异位、脱落、换位等音变问题的能力，又具有通过语义、语法知识分析得出正确识别效果的能力。

另外，还有使用环境优劣的区分，也就是指噪声轻重情况。目前噪声下的语音识别还只是在初步研究阶段。通常所说的语音识别都是有较好的使用环境。

九、汉字编码的类型。

拼音编码、字形编码、音形编码。

十、汉字编码的原则

1、社会学原则

汉字编码研究的目的之一时为了信息处理技术的普进，这一普及首先要面向教育。汉字输入系统进入中小学课堂是培养跨世纪人才的根本大计，教学的规范化相应地要求汉字编码研究的规范化。在规范化的前提下，将中小学的“识字、定字、查字、打字”教学统一起来。

汉字是我国悠久历史文化的一个特征，研究汉字的分解原则，必须联系我国社会的文化背景。人们称说汉字的习惯有着深厚的群众基础，之所以能相沿习用，必有其合理的一面。现在，中文信息处理在拆分汉字，设计汉字编码方案时，就要充分考虑到这种文化传统和社会基础。2、汉字学原则

汉字编码作为汉字的计算机语言或代码，必须准确而简洁地反映和体现汉字地特点和规律。在实际过程中，容

易记牢的不是代码，而是字的结构规律，电脑容易识别的不是字的结构规律，而是代码。这两者虽有不同，但应统一。如果认为可以考虑汉字的特点，不遵循汉字的客观规律而任意拆分汉字，进行汉字编码设计，则是极片面的作法。

对于汉字编码来讲，汉字的特点和规律中，尤其要考虑现代汉字的构形特点和规律，所以汉字的分解一定要以形为主，兼顾音义，二要以现代字形为主，兼顾历史。

3、工程学原则

汉字编码是一项涉及多种因素的复杂工作，所以，应将汉字编码当作一项系统工程来抓。首先，要根据批率统计来确定字根的数量。其次要正确处理字根和偏旁部首的关系。

十一、汉字输出方式有显示、打印、语音合成和通信传输4种。

十二、建立《汉字义类信息库》的基本思想。

1、以目前现代汉语及汉语信息处理研究的权威理论及成果为指导，博采众长，描述“国标GB－2312”的6763个常用汉字语音、义项、同音、同形、语义类、词性、成词与否等信息，建立信息库。

2、人机两用的全新研究理念。

《汉字义类信息库》的建立不仅要满足人的学习、研究汉字的某些需要，而且要满足计算机进行汉字、汉语信息处理的某些需要，因此汉字义类信息库的建立不仅要适合于人读，而且要适合于机读，在信息库的收字立条、结构的设计、属性的确定、属性的描述及信息的存储等方面充分考虑到“人机”两用的特点。

3、以“字位”为描述的基点。

“字位”的概念是仿语音学的“音位”，词汇语义学的“义位”而确立的，是指特定的形、特定的义相结合的形音义一体化的汉字。

第二章汉语词语的信息处理

一、每个词语在一定语料中出现的次数叫做这个词的频度。每个词的频度与总频度和之比，叫频率。

二、词频统计的意义。

词频统计对语言教学、语言信息处理、语言工程都具有重要意义。

（1）是语言教学中的语文编制的基本依据。

（2）在语言信息处理中为词语的分级，词表、词库的建立提供一个基本依据。

（3）为一定的语言工程奠定初步的基础。

三、词表一般分为通用词表和专业词表。

四、汉语统计的三大难题

1、字形信息与语音信息有不同处理技术要求。

2、词的划分问题。

3、如何区分同音词。

五、名词解释：

1、电子词典：全称《现代汉语语法信息词典》，是供计算机使用的，与供人使用的词典相比较，收词原则应有所区别：该词典又是一部面向中文信息处理各个领域的通用性词典，它不依赖于任何特定的语言处理模型及算法。

2、汉语自动分词：自动分词是从汉语信息处理需要出发，按照特定的规范，由计算机将输入的文本（一个句子、一篇文章、一部著作）按分词单位进行划分，并打上分词标记的过程。

3、最大概率法：是基于统计的分词方法，其基本思路为一个字串有多种切分方式，即对应于多个词串时，可以通过计算从中挑选出一个概率最大的词串作为切分结果。六、电子词典的类型。

从用途分：标注词典、知识词典、综合词典。

从内容分：语法词典、语义词典、百科知识词典。

七、自动分词的方法：

1、机械匹配法；

2、基于统计方法；

3、基于理解方法。

八、分词规范体现的原则。

语义原则、语法原则、语音原则（实用原则、数字原则）

九、汉语切分的错误：1、交集型歧义。2、组合型奇异。

3、未登录词语――新词语。

十、自动分词方法

1、最大匹配法：MM法。机械匹配法中最基本类型。（例：研究生‘命‘本质）

2、逆向最大匹配法：RMM法。（例：研究‘生命‘本质）十一、词性标注的意义。

1、确定词的语法功能，为句法分析打基础。

2、便于在词性标注语料库中检索句法结构。

3、为同音字标注、多音字标注和词义标注提供支持。

十二、词性标注的方法（了解）

词性标注的基本方法有两种。一种是基于规则的方法，其特点是定型描述上下文条件。给出确定性的标注结果。另一种是基于统计的方法，其特点是定量描述上下文条件，所给出的标注结果是概率意义上的最优，是不确定的。

另有基于规则与基于统计相结合的方法。

十三、语料库的定义

语料库，英文为Corpus，就是指存储语言材料的仓库。现代的语料库是指存放在计算机里的原始语料文本或经过加工后带有语言学信息标注的语料文本。

十四、语料库语言学的理论意义

1、语料库方法将改编传统研究方法。

2、语料库语言学的产生将改变语言研究的观念――由理性主义转向经验主义。

3、语料库语言学的兴起，使得词库在整个语法理论中的

地位变得越来越重要，这说明当前国际上语法研究的动向不是所谓的“从微观走向宏观”，而是从宏观到微观的回归。

十五、语料库的设计原则

1、通用性原则。

以一般语料为主，吸收部分专业语料。以普通话语料为主，一般不收方言的语料。以书面语料为主，以口头语料为辅。

2、描述性原则。

就是指从汉语使用的实际情况出发，客观地选取语料，尽量避免主观干预。

3、实用性原则。

为了使有限地语料反映现代汉语面貌的主要特征，必须从使用的原则出发对语料进行不等密度处理。

4、抽样原则

任何一种语言的语料都是无限多的，在开发建设语料库时不可能将所有的语料都放在语料库中，应坚持抽样原则，选取真正有价值的原则。

十六、语料的选样原则。

1、入库的语料必须具有广泛性，有足够的覆盖面。

2、入库的语料必须具有代表性，能够反映语料覆盖行业、领域中语言的基本面貌。

3、入库的各种语料的比例应该合理。

4、入库的语料必须具有规范性。

5、所选取的文本应该具备完整性。

十七、自动分词的基本标准

结构、音节、语义、频度

第三章汉语句子和篇章的信息处理一、汉语句子的自动句法分析（接右）

1、依据：按照短语结构、句法理论进行分析。

（1）完全句法分析：

A、语法分析＋语义分析。

B、分析到每个词。

困难：A、形态贫乏，分析时缺少形式标记。

B、词类多功能，组合可能性指数增长。

C、缺乏可利用的词语知识和语义知识。

D、缺乏可利用的大规模书库。

（2）不完全句法分析（部分分析）

只作语法分析，不一定分析到每个词，可行性较强。

只要求分析句子的主干成分。

二、什么是自然语言理解？

自然语言理解，又叫人机对话，研究如何让计算机理解和运用人类的自然语言，使得计算机懂得自然语言的含义，并对人给计算机提出的问题，通过对话的方式，用自然语言进行回答。

三、什么是机器翻译？

机器翻译就是使用计算机代替人做翻译的工作。翻译是指把一种语言记述的表达式（不妨将词语、句子、文章统称为表达式）转换为用另一种表达记述的表达式，但要保证不改变记述的内容。

四、机器翻译的分类

1、从涉及语种的角度分类：（1）一对一的系统，又可细分为单向的和双向的。（2）多语种系统。

2、按自动化的程度分类：（1）自动翻译系统。（2）翻译支援系统。

3、按处理方式分类：（1）直接翻译。（2）间接翻译。

五、机器翻译的步骤。（图）

原文译文原文输入（1）译文输出（12）译前翻译（2）

词法分析（3）译后编辑（11）句法分析（4）词形变化（10）

语义分析（5）句子生成（9）

语境分析（6）译词生成（8）

内部表示转换（7）

六、要进行基于实例的机器翻译需要研究如下问题

1、正确地进行双语自动对齐。

2、建立有效的实例匹配检索机制。

3、根据检索到的实例生成与源语言句子相对应的译文。第四章中文信息处理的应用

一、计算机情报检索

情报检索是指按特定方式和特定需要贮存和查找知识信息的过程，采用计算机实现这一过程就叫计算机情报检索。计算机情报检索系统是建立在计算机技术、缩微存贮技术和高速通信技术基础上的。

二、计算机辅助教学的定义

计算机辅助教学也叫程序教学，简称CAI，是一种现代化教学手段，指采用计算机协助教学活动，即由计算机充当教师，向学生提问，分析学生的作业，肯定学生的成绩，纠正学生的错误，以帮助学生自学。CAI是计算机技术与语言信息技术在教育领域的具体结合与发展，是在新科技革命浪潮中出现的一门新兴教育技术。

三、计算机辅助教学的基本理论

1、行为主义理论。

这种理论认为人类学习的起源是人对外界刺激会产生反映加强这种刺激，就会使记忆深刻，因此只要控制行为和预测行为，就能控制和预测学习的效果。

2、认知理论

这种理论认为，外界的刺激固然重要，但不能说明行为的原因，环境提供的信息只有通过支配外部行为的各种认识过程才能被编码、储存、加工和操作，因此，人的认识不是由外部刺激直接给予的，而是由外部刺激和认知主体内部心理过程相互作用的结果。

3、语言教学理论

早期的语言教学理论是以结构主义为基础的，它以句子为语言描写与语言训练的最高层次，其典型体现就是巨星操作法。

四、计算机辅助教学的优点

1、切实做到因材施教。

2、减轻学生的心理负担。

3、能吸收多位专家的经验。

4、信息反馈及时，交互性灵活多样。

5、容量大、速度快、科学性强。

第五章中文信息处理的学科理论

一、短语结构语法的乔姆斯基分类。（乔姆斯基层级）

1、无约束短语结构语法。

2、上下文有关语法。

3、上下文无关语法。

4、正则语法。二、短语结构语法句法分析的基本思想。

句子是由短语结构组成的，从整体句子开始，到句子符号序列的产生，可以通过短语结构规则一步步推导出来，所以用短语结构语法来对句子进行句法分析，就意味着是寻找一个从起始符到该句子的推导，这个推导通常表现为一个句法树。如果句子是歧义的，也就是说它存在几种推导，那么它就会给出所有可能的句法树。

三、格语法理论

1、格语法是一种新的、面向语义的语法理论，是一种着重探讨结构与语义之间关系的新的语法理论，同时也是一种新的语义理论。

2、命题指体词和谓词之间的及物关系，即句子的核心谓词与周围体词的关系，即格关系。

3、菲尔墨的语义格是句子中与谓词有及物性关系的体词或体词性关系，其形式标志是语序或介词。

4、研究汉语格关系的语言工程有三个特色：

（1）划分为三个层次。

（2）根据格关系将汉语动词划分为6个层次类：他动词、自动词、外动词、内动词、领属动词和系属动词

（3）格语法的一套基本原理是：表层句法各异的一些句子，只要他们包含同一个述语动词的义条，而且拥有共同的格关系，他们的格框架表示应是唯一的。因此对每个动词的义条来说，大都含有一个基本句式和若干同义句式（或变换句式）。

绪论

一、名词解释

1、语言信息处理（language information processing）：是指用计算机对自然语音的音、形、义等信息进行处理。即对字、词、句篇章的输入、输出、识别、分析、理解、生成等的操作与加工。

2、中文信息处理（Chinese information processing）：是用计算机对汉语的音、形、义等信息进行处理，也称“汉语信息处理”。

二、中文信息处理的特点。（简答、论述）

答：1、汉字本身的特殊性。

2、书面汉语的特殊性。

3、汉语语音的特殊性。

4、汉语语法的特殊性。