算法的基本概念

算法的基本概念
算法的基本概念

第1章概论

1.1 信息处理

中文信息处理技术作为计算机技术与中国语言文字相结合的一门交叉学科,随着信息处理技术的发展,近年来得到了快速的发展。语言文字信息处理作为计算机应用技术的一个重要分支,伴随着计算语言学、心理学、数学以及计算机科学的发展,已经成为新世纪信息技术中的一个重要研究领域。无论是中文信息处理还是语言文字信息处理,都离不开“信息”的概念。

信息(information)既是一种抽象的概念,又是一个无处不在的实际事件。控制论创始人维纳(Norbert Wiener)认为,信息既不是物质也不是能量,是人类在适应外部世界时以及在感知外部世界时而作出协调时与外部环境交换内容的总称。因此,可以认为,信息是人与外界的一种交互通信的信号量。

信息论奠基者Clause Shannon认为,信息就是能够用来消除不确定性的东西,是一个事件发生概率的对数的负值。该论述第一次阐明了信息的功能和用途,表明了信息是一个可以度量的概念,且指出了信息的度量方法可以依据相应的事件发生的概率进行确定大小。这样,不同概率实践就包含了不同的影响度(或称信息量)。

Robert M. Losee在1998年11月的《美国社会信息科学学报》上发表了“独立于学科的信息定义”论文,给出的信息定义是“Information may be defined as the characteristics of the output of a process,these being informative about the process and the input”。即信息可以被定义为一个处理过程的特征,这些特征就是输入和处理过程中产生的信息。换句话说,信息可以理解为由过程所生产的特征值或变量。该特征值或变量是代表了输入和过程的信息。

信息处理就是对信息的接收、存储、转化、传送和发布等。随着计算机科学的不断发展,计算机已经从初期的以“计算”为主的一种计算工具,发展成为以信息处理为主的、集计算和信息处理于一体的、与人们的工作、学习和生活密不可分的一个工具。

上述概念或许过于抽象。其实信息在日常生活中无处不在。例如,在计算机信息处理领域,从计算机能处理的信息形式看,信息可以分为文本信息、多媒体信息和超媒体信息;从信息的结构化程度看,信息可以分为结构化信息、半结构化信息和非结构化信息。在信息安全领域,信息有公开的信息、一般保密信息和绝密信息等。因此,信息与我们的日常工作密不可分。

进一步分析计算机信息处理的过程,可以看到,信息的接收包括信息的感知、信息的测量、信息的识别、信息的获取以及信息的输入等;信息的存储就是把接收到的信息或转换、传送或发布中间的信息通过存储设备进行缓冲、保存、备份等处理;信息转化就是把信息根据人们的特定需要进行分类、计算、分析、检索、管理和综合等处理;信息的传送把信息通过计算机内部的指令或计算机之间构成的网络从一地传送到另外一地;信息的发布就是把信息通过各种表示形式展示出来。

计算机信息处理的过程实际上与人类信息处理的过程一致。人们对信息处理也是先通过感觉器官获得的,通过大脑和神经系统对信息进行传递与存储,最后通过言、行或其他形式发布信息。

1.2 中文信息处理

中文信息处理,从广义来说,由我们祖先创立中文开始,就一直在进行;从狭义来说,从第一部中文字典产生以来,就一直在进行中文信息的分析和综合处理(赵伯璋.计算机中文信息处理.北京:中国宇航出版社,1987)。按照《计算机科学技术百科全书》(清华大学出版社,1998)中对计算机中文信息处理的定义为:用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。它是在语言文字学、计算机应用技术、人工智能、认知心理学和数学等相关学科的基础上形成的一门边缘学科。汉字学和汉语语言学中的词法学、句法学、语义学和语用学给中文信息处理的各个层面提供了可靠的理论依据,而人工智能的知识工程、机器学习、模式识别和神经计算,数学中的模型理论、形式化理论和数理统计等构成了中文信息处理的方法论基础。简单地说,中文信息处理就是利用计算理论和计算技术处理中国语言文字信息的一门学科,是计算机科学与语言文字学的交叉学科。

汉字是目前世界上仅存的为数不多的几种象形文字之一,也是使用人口最多的一种文字之一。从文字的创建到文字的发展和演化,这一过程本身也是文字信息处理的过程。自从有了字典,人们开始对创建的汉字进行音、形、义和用等方面的描述和规范,并根据汉字本身的属性,提出了按字的笔画、部首和读音等多种分类与查找方法,这些分类本身也是中文信息处理的一个部分。

自从第一台电子计算机的诞生,人们一直不断地在尝试着如何利用计算机本身具有的计算速度快、计算精确度高、具有一定的逻辑推理能力等特点,把语言文字的自动识别、语言翻译、语言理解和语言的生成等工作让计算机进行分担。然而,由于计算机是由西方人发明的,而西文和中文在文字、语言和语用等多个方面存在着很大的差异。英文中的所有字(word)可以只用26个字母(character或称字符)组成,因此,英文是一种拼音文字。英文中的句子由一组字组成,字与字之间通过空格(space)进行分隔。而汉语中汉字是一种象形文字。汉语中用词(word或phrase)的概念与英文中的字相对应,一个词至少包含一个汉字字符(ideogram)。为了区分象形文字中的字符和拼音文字中的字符,在英文中分别用ideogram(或ideograph)和character表示。在拼音文字中,一个字符(或字母)称为一个character,一个单字成为word;但在象形文字中,一个单字或字母是很难区分的,因此当该字表示字母或字符时,通常用ideograph表示,当它作为一个有含义的字时,通常用character或word表示。例如,当“漢”作为一个象形文字的字母或字符时,就把它称为一个ideograph,因为在日语、韩语、越南语中都有该字符,它仅仅是一个符号,而一旦把它作为汉语中的一个字时,则就称为一个character。在汉语中,句子是由词构成,但在表面上看,也可以认为是直接由一串汉字字符组成,因为无论是汉字字符之间还是汉字字词之间都不存在空格。

从上述这些简单的中、英文的组织结构的比较中可以看出,语言本身的特点,加上语言

·2·

的组成和理解方式的不同,导致了用计算机在处理中文信息时,遇到了前所未有的困难。在信息输入方面,英文的26个字母可以安排在一个QWERT键盘上,而汉字的数量则数以万计,要让计算机能够处理汉字信息,首要任务就是要解决汉字如何进入计算机的问题。在信息处理过程中,英文字符由于其数量少,因此在存储、处理和传送等方面要占的计算机存储空间和CPU运算时间要少,而汉字恰恰相反。在信息输出过程,同样由于英文字符数量少以及每个字符所占用的显示或打印空间要比汉字少等的原因,使得输出设备简单,输出速度快,而汉语由于字形复杂,笔画繁琐,字汇量大,导致信息的输出过程复杂。

然而,汉语信息处理的复杂性并不意味着计算机就无法处理它。我国的语言文字专家和计算机学界紧密合作,从20世纪50年代开始,就从事计算机中文信息处理的理论与技术的研究,特别自20世纪70年代中期开始,我国在计算机信息处理方面投入了大量的研究开发工作。从汉字的属性分析研究、汉字键盘输入技术、汉字字模技术、汉字输出技术、汉字编码技术、汉字存储、检索和软件汉化到中文篇章识别、汉语语音识别、手写汉字识别、篇章理解与处理、机器翻译、电子照排、中文平台等多方面,取得了一系列的重大成果,为中文信息处理技术的发展奠定了坚实的基础。

由于受计算机本身的运算过度和存储空间等限制,为了使汉字顺利进入计算机,首先要解决的是如何从成千上万个汉字中挑选出一批常用汉字,通过制定相关的字符编码标准,使其能为计算机所处理。《信息交换用汉字编码字符集——基本集》GB2312-80是国内第一个汉字字符集标准。其中共收录汉字6763个,其他图形符号682个。在GB2312-80标准中,把汉字分为常用字(共3755个汉字)和次常用字(共3008个汉字)。常用汉字按照拼音次序排列,次常用字按照部首笔画排列。GB2312-80标准实际上给出了在中文信息处理时,计算机所能处理的基本汉字词汇数量以及每个汉字在计算机内部的编码。

汉字的字符编码只有与汉字形信息库对应后,才能在计算机的显示设备和打印设备上输出。汉字的字形包括宋体、仿宋体、楷体等多种字型。书刊报纸上使用最多的是宋体字型。为此,国家质量技术监督局于1985年发布了与GB2312-80相对应的《信息交换用汉字15?16点阵字模集》GB/T 5199.1-85和《信息交换用汉字15?16点阵字模数据集》GB/T 5199.2-85,规定了GB2312-80中图形字符的16点阵字型。汉字字型采用宋体,主要用于汉字信息的显示输出。同时,国家质量技术监督局还发布了与GB2312-80相对应的《信息交换用汉字24?24点阵字模集》GB/T 5007.1-85和《信息交换用汉字24?24点阵字模数据集》GB/T 5007.2-85,规定了GB2312-80中图形字符的24点阵字型,汉字字型采用宋体。上述16点阵字型和24点阵字型标准于2001年修订,新标准的名称分别为《信息技术汉字编码字符集(基本集)16点阵字型》和《信息技术汉字编码字符集(基本集)24点阵字型》,标准号分别为GB 5199-2001(代替原来的标准号GB/T 5199.1~5199.2-1985)和GB 5007.1-2001(代替原来的标准号GB/T 5007.1~5007.2-1985)。有了这些基本的字符编码集和图形符号集,计算机处理中文信息就显得容易了。

1.3 计算机中文信息处理主要研究对象

计算机中文信息处理包含了多个研究层次。在计算机操作系统方面,需要解决中文信息在计算机内部的表示,中文信息的输入和输出以及中文信息在Internet上的传输等问题,从而

·3·

使中文信息在计算机中的处理变得可行。在语言文字方面,需要解决选择(或规范)多少汉字进入计算机,汉字的字形、字型信息的描述等问题。在应用方面,需要解决包括机器学习、自然语言处理、计算机翻译等一系列与语言信息处理相关的问题。

·4·

1.汉字键盘输入技术

汉字键盘输入技术是一种通过键盘使汉字进入计算机的技术。早期的汉字键盘输入采用模仿西文键盘输入技术,即通过一个大键盘,用大键盘上的一个键对应一个或几个汉字。由于这种输入技术的汉字输入速度慢,可扩充性差,因此目前基本被淘汰。取而代之的是汉字的编码输入。

汉字的编码输入就是用西文键盘上的字符、数字等符号对汉字进行编码。用户通过输入汉字的编码,然后编码通过计算机内部的汉字键盘输入程序把它转换成机器内部代码,从而达到输入汉字的目的。汉字编码最早可以追溯到通信领域的电报码。电报码采用4位十进制数把常用的汉字用“0”~“9”十个数字按次序进行逐个编码。这样,每个汉字就有惟一的代码。电报码是一种无理编码,用户使用十分不便,只有专业人员才会使用。王永武先生发明的四角码虽然是一种汉字检字方法,实际上它就是一种汉字的编码方法。由于四角码是采用“0”~“9”十个数字键对汉字的四个角的形状进行编码,因此这种编码也称“字形码”。汉语拼音是在汉字注音的基础上发展成的一种用西文字母对汉字进行注音的方法。即按照每个汉字的读音,对其进行编码,因此这种编码也称为“音码”。由于学习汉语拼音有利于推广普通话,推广普通话又是我国的国策。因此,在全国的中小学中,汉语拼音输入法成为了一种最普及的汉字输入法,在所有的键盘输入法中占有率在90%以上。汉字编码专家在对汉字编码研究后,还提出了可以采用汉字的字音、字形的一部分属性组合成一种或几种编码,这样构成的汉字编码有的称为“音形码”,也有的称为“形音码”。

汉字键盘输入程序把汉字编码通过计算、查表或映射等方式对应到相应的汉字内码。由于汉字的字数特别大,因此它不能像西文字符一样用一个ASCII码(7位)来表示。一般情况下,用2字节、3字节或4字节来表示一个汉字的机器内部码(简称“机内码”)。为了实现中文与西文及其他文字在机器内部表示的相互统一,国际上成立了相关的组织或联盟专门对世界各国文字在的机器内部的表示进行研究。例如,国际标准化组织(ISO)、Unicode联盟以及IEEE下属的专门委员会等都有相应的机构研究制定字符编码标准。这些组织定期会公布最新的同一文字编码方案,提供给各个国家和各个计算机生产厂商参考。有了文字的统一机内码,信息交换就变得容易。

2.汉字输出技术

汉字的输出是指把存储在计算机内的汉字字形信息转换成符合显示或打印需要的形式,并送输出设备输出。因此汉字的输出技术往往与汉字字模(字形)技术紧密结合在一起。由于汉字是图形字符,汉字信息的存储和输出过程与西文字符有很大的不同。在汉字字库信息的描述方面,有点阵描述法,这样构成的汉字库就称为“点阵字库”(例如,GB5199.1-2001和GB 5007-2001就是典型的16点阵和24点阵字库)。对字形的描述还可以采用矢量的方法,每个汉字信息用一组矢量进行描述,这种形式构成的汉字库就称为“矢量字库”。若对汉字的字形线段采用数学函数(二次函数、B-样条、Besier函数等)描述,则构成的汉字库就称为曲线字库。有了汉字库,汉字输出程序就能把汉字机内码对应的字形信息进行处理(包括还原、放大、缩小等),然后再根据具体的输出设备进行输出。“所见即所得”是一种典型的输出技术。它把用户在屏幕上编辑得到的文本、数据及其图形等格式,直接转换成打印设备上一致的输出格式。

在计算机系统中,外部设备(或称周遍设备)的种类日趋繁多。每一种显示和打印输出的外部设备上,一般都带有不同的处理器。为此,各个生产厂商在推出每一种不同型号的显

·5·

示设备或打印设备时,都配备相应的驱动程序。驱动程序是连接操作系统和设备之间的桥梁,也有的操作系统已经把设备驱动程序作为其重要的一个组成部分。为了实现汉字信息输出,驱动程序必须支持中西文混合输出。

3.软件汉化技术

软件汉化是把西文软件直接改造成中文软件的一种技术。分为系统层和应用层两个方面。系统层的汉化通常是指西文操作系统汉化成中文操作系统,使得系统能够处理中文信息。应用层的汉化通常是指使西文的应用软件经过汉化后能够具备处理中文的能力。操作系统的汉化又可以分为内核汉化和外挂汉化两种。内核汉化就是直接修改操作系统的底层内核模块,使得中文信息能够在操作系统中不受屏蔽地处理。这种方法一般要先取得操作系统的源代码,静态地修改操作系统的源码,通过编译、连接后,重新生成一个操作系统,因此汉化比较方便,也比较彻底。外挂汉化通常是在无法获得操作系统的源代码情况下,在操作系统启动后,通过中文补丁程序,动态地修改操作系统中有关信息处理部分的代码。因此,一般需要对操作系统本身非常熟悉,对操作系统的I/O管理部分在内存中的位置或代码非常了解,需要较高的技术才能完成。这种方法的汉化比较困难,有时也会出现汉化不彻底的情况。

应用程序的汉化也分为两个方面。一是用户界面的汉化。用户界面的汉化较为简单,只要把相应的西文界面信息翻译成中文。另外一个是应用程序中中文的通行(有时也称“程序汉化”)。由于在大多数西文应用程序中包含了对诸如非法字符的检测、过滤等,系统层提供的中文信息会被这些程序检测为非法字符,从而被过滤,导致中文信息无法通行。这方面的汉化需要专门的技术才能完成。

4.汉字字形识别技术

汉字字形识别技术是在对英文、数字识别的基础上,在20世纪60年代首先由日本学者开始研究,70年代有了初步的研究成果,80年代中期,日本的东芝、松下等公司形成了汉字字形识别系统的产品。我国自20世纪70年末开始对汉字识别进行研究。目前在印刷体汉字识别、联机手写汉字识别、手写规整汉字识别和特定人手写汉字识别方面都取得了丰硕的成果。相关产品(例如,汉王系列产品)也打入了美国、新加坡以及我国香港和台湾等地区。

汉字字形识别技术是利用计算机技术对汉字静态(印刷体、手写规整体等)图形和动态(联机手写、特定人手写等)汉字信息进行特征提取,与预先存储在计算机内的标准汉字特征信息进行匹配,并选择符合特征的汉字作为所需识别的汉字内码。汉字的识别大致可以分为联机识别和脱机识别两类。所谓联机识别,是指用户一边用书写笔(相当于普通笔)在书写板(相当于纸)上写字,机器一边辨别出用户书写的是什么字。所谓脱机识别,是指机器所要识别的汉字已经在纸上了,计算机为了识别出纸上的汉字,先要把汉字通过扫描装置扫成图像,然后计算机再对图像进行分析处理,最后辨别出纸上的汉字。汉字字形识别技术包含了人工智能、机器学习、统计学和认知科学等多个领域。字形的识别过程既是一个学习过程,又是一个理解过程。

简单地分,汉字字形识别的过程一般包括三个阶段:第一阶段为汉字识别前处理,第二阶段是汉字分类和判别,第三阶段是汉字识别后处理。汉字识别前处理也称预处理。它指从扫描一页汉字图形形成灰度值图像数字信号到单字识别之前的全部过程。脱机识别的前处理通常包括二值化、行切分、字切分、规范化、细化(或抽取轮廓)等。联机识别的前处理包括区分书写的哪些笔画是同一文字的笔画(字切分)、平滑、去噪声、空间采样、规范化等步骤。前处理为单字识别创造条件,其质量直接影响到单字识别的正确率。

·6·

汉字字形识别的第二阶段是汉字分类和判别。在汉字分类和判别之前,首先在识别系统中要有对照的汉字识别特征。汉字识别特征是为识别汉字而对汉字字形进行分析,所提取的表示汉字字形结构特征规律的且是关键性的、稳定的结构、参数或其相关的数学表示形式。汉字识别特征的选择和抽取是汉字识别技术的关键,是取决汉字识别方法的核心,是一个汉字识别系统成败的主要因素。和一般模式特征类似,汉字识别特征可以分为统计形式、结构形式和数学形式三种。汉字识别所抽取的汉字特征主要有:粗外围特征、错网格特征、复杂指数和四边码、笔画密度特征、汉字特征点、短笔段特征、边框和局部特征、部件模板、笔画方向和轮廓特征等。这些特征在识别汉字时各有特色,互有优势,可用于粗分类和细分类中。

由于汉字数量大,汉字模式样本多,为了提高汉字识别速度,汉字识别通常采用多级分类识别方法。其中最后一级分类(即通过该分类就能够识别出汉字)称为细分类,前面的若干级分类称为粗分类。

应用模式识别原理对输入计算机内的汉字进行自动识别的基本方法有统计决策法和句法结构方法。统计决策方法是提取待识别汉字的一组统计特征,形成该模式的多维特征向量,再依据一定准则决定的决策函数,和已存在计算机内的一批标准识别模式(例如6763个汉字)的多维特征向量集合匹配判别,找出其特征向量最接近的输入模式的标准模式。该标准模式就作为未知输入汉字的输入模式。句法结构方法根据汉字的二维图形包含的丰富结构信息特征,把被识别的汉字模式看成是由若干个较简单的子模式按照一定规律构成的集合,这些子模式又可继续按照一定规律分解为更简单的子模式,直到最后分解为基元为止。基元是组成一个模式的最简单的且不可再分割的子模式。这种方法和一个句子的分解一样。因此称为句法结构方法。

汉字字形识别的第三阶段,即后处理是指从辨别出汉字单字代码到汉字识别系统输出正确的文本之间的全过程。后处理主要利用实际汉字文本的语言知识(通常是上下文关系)对识别结果的代码文件作进一步加工,自动纠正或发现单字是否错误。对系统拒认、误认字进行人工修改和文本编辑也是使用汉字识别系统后处理的一项任务。

存储在计算机内的标准汉字模式表的集合称为汉字识别字典。在应用统计决策方法识别汉字时,该字典为标准汉字平均特征集合;在应用句法结构方法识别汉字时,该字典为标准句法规则集合。标准汉字模式是一个汉字样本的统计平均值。汉字识别字典包括粗分类字典和细分类字典。

5.汉语语音识别技术

语音识别技术是自然语言处理的一个重要组成部分。它包括语音的识别、处理和合成等。语音识别技术也是语音信号处理的一个重要研究方向,是模式识别研究领域的一个分支,它涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等可帮助对方理解的行为动作)等。

语音识别的研究工作大约开始于20世纪50年代,当时AT& T Bell实验室实现了第一个可识别十个英文数字的语音识别系统——Audry系统。20世纪60年代,计算机的应用推动了语音识别的发展。该时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好地解决了语音信号产生模型的问题,对语音识别的发展产生了深远影响。20世纪70年代,语音识别领域进一步取得了突破。在理论上,LP技术得到进一步发展,动态时间归正技术(DTW)基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上,实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。20世纪

·7·

80年代,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于AT&T Bell实验室Rabiner等科学

家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而易于更多研究者了解和认识。

ANN和HMM模型建立的语音识别系统,性能相当。20世纪90年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。许多发达国家如美国、日本、韩国以及IBM、

Apple、AT&T、NTT等著名公司都为语音识别系统的实用化开发研究投以巨资。

语音识别技术根据对说话人说话方式的要求,可以分为孤立字(词)语音识别系统,连

接字语音识别系统以及连续语音识别

为特定人和非特定人语音识别系统;根

据词汇量大小,可以分为小词汇量、中

等词汇量、大词汇量以及无限词汇量语

音识别系统。不同的语音识别系统,虽

然具体实现细节有所不同,但所采用的

基本技术相似,一个典型语音识别系统的实现过程如图1.1所示。

语音识别技术与字形识别技术类似,主要包括特征提取技术、模式匹配准则及模型训练

技术三个方面。此外,还涉及到语音识别单元的选取。

(1)语音识别单元的选取

选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,

具体选择哪一种,由具体的研究任务决定。单词(句)单元广泛应用于中小词汇语音识别系

统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,

难以满足实时性要求。音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,

而英语是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,

数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是

可行的。音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系

统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28

个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化

声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,

音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。

(2)特征参数提取技术

语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征参数提

取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,

获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多地反映

语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度

讲,这是信息压缩的过程。

(3)模式匹配及模型训练技术

模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,

而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。语音识

别中,语音单元被识别后产生合理语句的规则集合,然后按语言模型利用语言学和语法知识

从识别的语音中(可能有几个候选音,它们有不同的概率)挑选出正确的字或词来,使语音

·8·

输入的句子变成正确意义的文字。用语言模型可大大减少识别搜索运算量,提高识别率。

目前,语音识别的研究工作进展缓慢,主要表现在理论上一直没有突破。虽然各种新的修正方法不断涌现,但其普遍适用性不够。其主要表现在以下五个方面:第一,语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。第二,高噪声环境下语音识别进展困难,因为此时人的发音变化很大,如声音变高,语速变慢,音调及共振峰变化等,这就是所谓Lombard效应,必须寻找新的信号分析处理方法。第三,语言学、生理学、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。第四,我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;此外,把这方面的现有成果用于语音识别,还有一个艰难的过程。第五,语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术(即从连续语音中去除诸如“啊”、“唉”等语音,获得真正待识别的语音部分)等技术细节要解决。由此可见,语音识别技术将是中文信息处理领域的一个新兴的具有广阔前景的研究方向。

6.激光照排技术

所谓激光照排,实际上是电子排版系统的大众化简称。目前发展为电子排版系统。它是利用计算机技术把传统的排版技术电子化,实现编辑、排版和印刷的信息化,电子排版系统的诞生,给出版印刷行业带来了一次革命化的变革。在此之前,无论是出书还是办报,主要依靠的是铅字排版印刷。这种技术虽为人类文明、文化的发展作出了巨大贡献,但也存在着许多弊病:如工人劳动强度大、污染环境、版面缺乏变化、效率较低等。而电子排版系统以崭新的面貌为出版界、新闻界、印刷行业为带来了蓬勃生机。它以效率高、周期短、版面灵活、字库齐全等优势将逐渐取代陈旧的铅排技术,成为出版印刷行业的技术中的主力军。

由于汉字的自身特点,汉字信息的电子排版系统在20世纪80年代以前是十分落后的。西方学者把活字印刷称为“文明之母”,直到20世纪80年代,中国大多数印刷厂采用的铅字印刷技术,与1000多年前的活字印刷没有本质区别。与电子计算机出现和发展同步,印刷技术的变革也悄然萌动。1946年,美国人发明了手动光学照相排版机,印刷界称为一代机;几年后,光学机械式照排二代机又在美国出现;20世纪60年代,德国人制造出了“阴极射线管”式照排三代机;1975年英国人在实验室开始了激光照排的研究。1974年8月,经周恩来总理批准,国家确立了“汉字信息处理系统工程”研究项目,人们把它俗称为“748工程”。这是一个大型科研项目,下设3个子项目,分别是汉字通信、汉字情报检索和汉字精密照排。北京大学承担了汉字精密照排项目,最终,以王选教授领导的课题组经过多年的努力,克服了种种困难,顺利完成了该项目。从而使汉字激光照排系统在国内外得到了广泛应用。

汉字激光照排系统是一个十分复杂的系统,涉及计算数学、计算机芯片设计、计算机软件程序设计、汉字的数字化处理、激光的应用、机械原理等。激光照排系统中与汉字信息处理相关的有两个重大的根本性难题,一是汉字的储存,二是汉字字形信息的还原输出。

汉字的基本笔画不如西文多,通常有“点、横、撇、捺、竖、弯、钩、折、提”而已。但汉字的结构却比西文复杂得多。汉字的数量也很庞大。1990年版《新华字典》收集的汉字单字,总计大约1.1万多个,而《康熙字典》收集的汉字则多达4.5万个以上。除此以外,汉字在印刷中还有字号、字形、字体的各种变化。因此,汉字字形信息在计算机中占据很大的

·9·

存储空间。

在汉字激光照排系统起步的时候,还只能使用国产计算机,条件十分简陋:内存是磁心存储器,最大容量为64KB;没有硬盘,只有一个512KB的磁鼓和一条磁带,汉字字形信息的存储和输出成为当时的技术难关。

我国科学家提出了运用“轮廓描述和参数描述”结合的方法解决汉字信息压缩。这种方法是将汉字的横、竖、折等规则笔画,用一系列参数精确表示,将曲线形式的不规则笔画用轮廓参数表示,不仅实现了汉字信息的压缩比率达到了1∶500,而且保证了汉字无论是变倍增大还是缩小都不会走形,并保持笔画的匀称一致,实现了汉字的高质量输出。

为了在制版过程中实现压缩后的字形信息快速复原成点阵,并以适应激光逐行扫描的方式形成版面点阵供激光输出。当时的计算机运算速度很慢,用还原软件还原汉字,每个字平均要用一秒钟。为此,我国科学家提出了一种可以通过硬件实现的汉字字形高速还原的算法,使汉字还原速度达到每秒250字。此后,把该算法做成超大规模专用芯片,实现了高速和高保真的汉字字形复原和变倍、变形,还原速度达每秒710个字。通常,这种专用的控制器称为光栅图像处理器,即Raster Image Processor,简称“RIP”。现在,RIP已经变成软件,直接放进了计算机。因此,今天的汉字激光照排系统,从外表上看,就只有计算机和激光照排机。

7.中文平台

中文平台是指处理中文信息的软件系统的集合,包括支持中文的系统软件、支撑软件和应用软件。按“九五”规划中的提法,中文平台的含义为:(1)汉化平台:西文系统上“外挂”一层软件,使系统可以接收和输出汉字,如“中文之星”。(2)API平台:除了“汉化”外,还要求操作系统提供有关中文信息处理所需要的一套API接口。为避免不同API平台开发商提供的API不一致而导致应用软件无法移植,API需要规范化。(3)中文平台:在API 平台基础上再增加一些典型的与中文(文章)信息处理有关的应用软件工具或产品。例如,排序、勘校、文本分类、受限汉语辅助写作工具、OCR与语音识别软件、语音合成、文本朗读等。

在20世纪80年代,随着微型计算机在国内的快速发展与应用需求的不断增长,中文信息处理技术也获得了极大的发展。中文平台就是在西文的操作系统上增加(或增强)处理中文的能力而已。然而,进入90年代,Windows从95版本开始直接在操作系统层面上支持中文,导致中文平台软件的快速衰落。伴随着Linux的推广应用,在Linux操作系统上的中文平台又一次得到了发展的机遇。由于Linux是一个开发源码的操作系统,且是一个内核只支持单字节的操作系统,因此,Linux在处理中文信息时遇到了障碍。为了推广Linux,国内外已经推出了多个Linux中文平台,支持Linux操作系统下的中文信息处理,例如:红旗Linux、Turbo-Linux、蓝点Linux等。

8.文本分类

文本分类是一种确定文章所属类别的情报分析方法。文本自动分类(Automatic Text categorization)就是利用计算机对文本集(或其他实体或对象)按照一定的分类体系或标准进行自动分类。属于同一类别的文本被标上相同的类别标记,为文本信息的检索提供系统化的解决方案。

按文本语料的性质和应用需求的不同。文本自动分类可分为基于分类体系的自动分类和基于信息过滤和用户兴趣的自动分类。基于分类体系的分类一般要经过抽取主题词,计算权值,根据分类体系对主题词分析定类几个步骤。目前国内对自动分类的研究多数是基于分类

·10·

体系的系统。

自动分类方法总的来讲分为两种:自动聚类和自动归类。自动聚类方法有很多种。常见的有:系统聚类法、逐步聚类法(动态聚类法)、模糊等价聚类法、类种限定的最佳分类(又称硬划分,即二值逻辑)、软划分、单链聚类法、最小生成数法、引文聚类法等。自动归类一般考察被分类对象的特征,使之与各种类别中的对象所具有的共同特征(或一定的分类标淮、分类参数)进行比较,然后将对象划归为特征最接近的一类(或最符合标难参数的一类),并赋予相应的分类号。对于文本自动归类而言,按照文本表示方法可将现有的自动归类方法分为三类。

基于词的归类技术(Word-based)。从理论上讲,文本自动处理是以概念为基本单元,而词是概念的基本组成部分,是信息的载体,因此,这种方法是根据那些可以代表文章主题内容的词汇对文章进行类别判定的一种泛泛方法。

基于知识的归类技术(Knowledge-based):基于知识的文本自动分类方法主要依赖于一个明确的知识库。知识的表示方法主要有规则库、语义模型或格框架等。基于知识的分类技术的显著特点是需要手工建造的知识库,且建造的知识库领域性极强,移植困难。最近的研究工作表明,在一定的领域内,基于知识的系统能够进行快速难确认的分类。

基于信息的归类技术(information-based):基于信息的归类技术是一种介于词的技术和基于知识的技术之间的方法。该方法对上下文敏感,是一种有选择的概念抽取。用于文本自动分类中,只抽取那些对文本分类有用的信息。它抽取短语及短语周围的文本和潜在的语义信息进行文本类别的确定。这种方法可以用来处理没有关键词或关键短语的文章,并且避免了基于词的技术在处理同义词、一词多义、短语、局部文本以至全文文本时的局限性,能够达到较高的正确率。

随着Internet技术的发展,Web上的大量信息需要分类。汉语文本自动分类技术将会有一个很大的发展机遇。

9.信息检索

信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索已成为图书馆独立的工具和用户服务项目。随着计算机技术的发展,计算机技术在信息检索领域得到了广泛的应用,并与信息检索理论紧密结合起来;脱机批量情报检索系统、联机实时情报检索系统相继研制成功并商业化,20世纪60~80年代,在信息处理技术、通信技术、计算机和数据库技术的推动下,信息检索在教育、军事和商业等各领域高速发展,得到了广泛的应用。信息检索技术已经从早期的基于文本信息的检索,发展到了基于多媒体、超媒体的信息检索。

文本信息检索包括了文本信息的存储、组织、表现、查询及存取等各个方面,其核心为文本信息的索引和检索。信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。

传统的全文检索技术是基于关键词匹配进行的检索,往往存在查不全、查不准、检索质量不高的现象,特别是在网络信息时代,利用关键词匹配很难满足人们检索的要求。智能检索利用分词词典、同义词典,同音词典改善检索效果,比如用户查询“计算机”,与“电脑”相关的信息也能检索出来;进一步还可在知识层面或者说概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典,形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果,比如用户可以进一步缩小查询范围至“微机”、“服务

·11·

器”或扩大查询至“信息技术”或查询相关的“电子技术”、“软件”、“计算机应用”等范畴。另外,智能检索还包括歧义信息和检索处理,如“苹果”,究竟是指水果还是计算机品牌,“华人”与“中华人民共和国”的区分,将通过歧义知识描述库、全文索引、用户检索上下文分析以及用户相关性反馈等技术结合处理,高效、准确地反馈给用户最需要的信息。

文本的自动分类、自动文摘、主题词抽取等将有助于提高文本检索的效率。所谓自动文摘就是利用计算机自动地从原始文献中提取文摘。在信息检索中,自动文摘有助于用户快速评价检索结果的相关程度,在信息服务中,自动文摘有助于多种形式的内容分发,如发往PDA、手机等。相似性检索技术基于文档内容特征检索与其相似或相关的文档,是实现用户个性化相关反馈的基础,也可用于去重分析。自动分类可基于统计或规则,经过机器学习形成预定义分类树,再根据文档的内容特征将其归类;自动聚类则是根据文档内容的相关程度进行分组归并。自动分类(聚类)在信息组织、导航方面非常有用。

在信息检索分布化和网络化的趋势下,信息检索系统的开放性和集成性要求越来越高,需要能够检索、整合不同来源和结构的信息,这是异构信息检索技术发展的基点,包括支持各种格式化文件,如TEXT、HTML、XML、RTF、MS Office、PDF、PS2/PS、MARC、ISO2709等处理和检索;支持多语种信息的检索;支持结构化数据、半结构化数据及非结构化数据的统一处理;和关系数据库检索的无缝集成以及其他开放检索接口的集成等。所谓“全息检索”的概念就是支持一切格式和方式的检索,从目前实践来讲,发展到异构信息整合检索的层面,基于自然语言理解的人机交互以及多媒体信息检索整合等方面尚有待取得进一步突破。

随着互联网的普及和电子商务的发展,企业和个人可获取、需处理的信息量呈爆发式增长,而且其中绝大部分都是非结构化和半结构化数据。内容管理的重要性日益凸现,而信息检索作为内容管理的核心支撑技术,随着内容管理的发展和普及,亦将应用到各个领域,成为人们日常工作生活的密切伙伴。

互联网的发展明显地促进了信息检索技术的发展和应用,一大批搜索引擎产品诞生,为网民提供了很好的快速信息获取和网络信息导航工具,但是将信息检索等同于使用搜索引擎就陷入了误区。搜索引擎技术中也普遍采用了全文信息检索技术,但互联网信息搜索和企业信息搜索是不同的。一是数据量。传统信息检索系统一般索引库规模多在GB级,但互联网网页搜索需要处理几千万、上亿的网页,搜索引擎的基本策略都是采用检索服务器群集,对大多数企业应用是不合适和不必要的,并不适用于企业应用。二是内容相关性。信息太多,查准和排序就特别重要,Google等搜索引擎发展了网页链接分析技术,根据互联网上网页被连接次数作为重要性评判的依据。但企业网站内部的网页链接由网站内容采编发布系统决定,其链接次数存在偶然因素,不能作为判别重要性的依据。真正的企业应用的检索要求基于内容的相关性排序,就是说,和检索要求最相关的信息排在检索结果的前面,链接分析技术此种排序基本不起作用。三是实时性。搜索引擎的索引生成和检索服务是分开的,周期性更新和同步数据,大的搜索引擎的更新周期需要以周乃至月度量;而企业信息检索需要实时反映内外信息变化,搜索引擎系统机制并不能适应企业中动态性数据增长和修改的要求。四是安全性。互联网搜索引擎都基于文件系统,但企业应用中内容一般均会安全和集中地存放在数据仓库中以保证数据安全和管理的要求。五是个性化和智能化。由于搜索引擎数据和客户规模的限制,相关反馈、知识检索、知识挖掘等计算密集的智能技术很难应用,而专门针对企业的信息检索应用能在智能化和个性走得更远。

·12·

1.4 现代汉语的特点

语言是人类社会的发展产物。它随着社会的产生而产生,随着社会的发展而发展。汉语作为一种汉民族的语言,与其他语言一样有着语言本身所具有的一切属性。从结构上看,汉语是一种形音义集合的符号系统。从功能上看,汉语是人们交流和思维的一种工具。现代汉语是以北京语音为标准,以北方话为基础,以典范的现代白话文著作为语法规范的普通话。

GB2312-80标准以及以后出台的一些新的信息交换用汉字编码字符标准,都是根据现代汉语的特点而制定的。因此考查一下现代汉语的特点将有助于深入了解计算机中文信息处理的所面临的困难和在新世纪随着计算机及相关技术的发展而带来的巨大的发展机遇。

1.语音

现代汉语中音节界限分明,乐音较多,加上声调高低的变化和语调的抑扬顿挫,因而具有音乐性强的特点。

汉字是一种象形文字,为了标记汉字的读音,从古至今人们发明了三种方法对汉字的拼音进行标注:直音、反切和注音字符。直音法是用一个汉字给另一个汉字注音,例如,“厶,音司”。反切法是用两个汉字给另外一个汉字注音,如“鲁,郎古切”,“郎”是反切上字,与被注音字“鲁”的声母相同,“古”是反切下字,与被注音字“鲁”的韵母和声调相同。直音法和反切法要求人们预先要认识一定数量的汉字,通过音同或音近的字进行注音。当一个字有多音时,直音法和反切法就要用多个不同的汉字为其标注了。注音字符包括了注音符号和拼音符号。注音符号创建于“五四运动”前后,它对汉字注音和推广国语起到很好的作用。汉字注音法也有多种,包括威妥玛式方案、国语罗马字拼音法、北方话拉丁化新文字和《汉语拼音方案》等。《汉语拼音方案》是20世纪50年代制定出来的一个汉字标音系统。它用26个西文字母作为拼音字母,用21个声母、35个韵母、4声调以及1个隔音符来记录汉语和标注汉字。

音节是语言结构的基本单位,一个音节可以是一个音素,也可以由几个音素合成。音素可以分为辅音和元音两类。在汉语中,一个音节内,无论开头或结尾,都没有两个或两个以上相连在一起的现象,因此汉语音节界限分明,音节的结构形式比较整齐。而且,一般来说,一个汉字表示一个音节。

汉语音节中可以没有辅音,但不能没有元音。一个音节可以只有一个单元音或一个复元音构成。同时,由复元音构成的音节也比较多。因为元音是乐音,所以汉语中语音乐音成分比例大。

汉语中的每个音节都有一个声调。声调可以使音节和音节之间界限分明,又富于高低升降的变化,于是形成了汉语音乐性强的特殊风格。

对汉语语音的研究不仅是研究汉语语言识别的基础,也是研究汉字键盘编码的一个重要基础。

2.字形

文字是记录语言的书写符号系统。人类有了文字,就突破了语言在时间和空间上的限制,扩大了语言的交际功能。汉字的一个最大特点是它是表意体系文字。它不是用几十个字母记录语素和词中几十个音素和几百个音节,而是用成千上万个符号去表示或区别不同的语素和

·13·

·14· 词的意义;它不是直接表示音素或音节的字母,而是用不同笔画构成的大量表意符号来记录汉语的单音节语素,从而代表了语素的声音。

汉字在历史上出现过甲骨文、金文、篆书、隶书、楷书5种正式字体和草书、行书等辅助字体。现行汉字经常使用的是楷书、行书,在文物古迹、印章、对联、匾额以及文章标题等特殊场合,有时也用草书、隶书、篆书或金文、甲骨文等。

从字形结构看,汉字的结构由笔画和部件两级体系构成。笔画是构成汉字字形最小连笔单位。从落笔到起笔所写的点和线叫作一笔或一画或称为一个笔画。1965年文化部和中文文字改革委员会发布的《印刷通用汉字字形表》和1988年国家语言文字工作委员会、中华人民共和国新闻出版署发布的《现代汉语通用字表》规定了5种基本笔画:横(一)、竖(|

)、撇( )、点(、)、折()。复合笔画是指由两种或两种以上笔画连接而成的笔画。在《现代汉字笔画表》中定义了24种复合笔画。汉字的笔画数目在汉字教学、字典编排和索引中都是十分有用的。据《现代汉语通用字表》的统计,7000个现行汉字的总笔画数为75 290画,平均每个汉字10.75画,最少的是1画,最多的是36画。除了笔画外,为了帮助人们学习汉字,可以把汉字的上边、下边、左边、右边、周围以及中间等部分称为偏旁。偏旁也称为汉字的部件。根据国家语言文字工作委员会1997年12月1日发布、1998年5月1日实施的《信息处理用 GB13000.1 字符集汉字部件规范》,收录于GB13000.1中的20 902个汉字共有单一部件560个,分成393个组,每组1个主部件,其余是附形部件。例如,“竹”是主形部件,“”是附形部件。

部首是具有字形归类作用的部件,是字典、语典根据汉字形体偏旁所分的门类。采用部首给汉字归类,始于东汉许慎的《说文解字》。其中,把汉字归为540部。明代梅膺祚的《字汇》合并为214个。其后《康熙字典》、《中华大字典》、《辞源》均为214个部首。由商务印书馆出版的《新华字典》把部首改为189个,新《辞海》中的部首为250个,《汉语大词典》和《汉语大字典》中的部首为200个,《现代汉语常用字表》中的部首为201个。

汉字在发展过程中,还有一个重要的特点就是简化字。1956年,国务院公布了《汉字简化方案》,并于1964年总结、归纳成《简化字总表》,1986年重新公布时对个别字作了调整。这些被调整的字为“叠、覆、像、囉”不再作“迭、复、象、罗”的繁体字处理,“囉”类推简化为“啰”;“瞭”读“liào ”(瞭望)时不简作“了”;对“余(馀)”的脚注作了修改,对第三表“”下偏旁类推字“雠”加了脚注。《简化字总表》应用简化部件,类推简化了一批繁体字,使简化字的总数增加到2235个。

汉字除了存在繁简字之外,还存在着许多异体字。所谓异体字是音同、义同而形不同的汉字,如“并(倂、幷、並、竝)、冰(氷)、柏(栢),厨(廚)”等。1955年12月,文化部和中国文字改革委员会公布了《第一批异体字整理表》,其中列出了810组异体字,共1865个。根据从俗从简原则,每组选定一种形态作规范字,这样1055个字作为异体字。《第一批异体字整理表》共经过4次调整,以1997年语文出版社出版的《语言文字规范手册》为准,调整后的异体字为795组,其中规范字795个,共淘汰异体字1025个。

不同时期,对汉字的认识也不同。可以从表1-1中看出,随着信息技术的不断发展,人们在整理、编写字书中收录的汉字数在不断增加。

表1.1 历代字书收字数

由此可见,中文信息处理在字汇一级所遇到的问题与西文系统相比要复杂得多。计算机中文信息处理究竟需要多少汉字?计算机中文信息处理应根据处理的对象和应用的平台进行选择相应的信息处理用字符集编码标准。从20世纪50年代开始,通用汉字数量的研究就开始。1952年,教育部公布了《常用字表》,其中收录了汉字2000个(包括500个补充用字);1955年,中国文字改革委员会公布了《通用字表(初稿)》,收录汉字5709个;1965年修订后的《印刷通用汉字字形表》,收录汉字6196个,1975年,中国文字改革委员会公布了《4500字表》,收录了4444个汉字,1979年又公布了《增订2500字表》,1985年,北京语言学院语言教学研究室编制的《汉字频率表》,收录汉字4574个。1988年公布的《现代汉语通用字表》收录汉字7000个,其中常用字2500个,次常用字1000个。对300万字语料的检测结果:2500个常用字的覆盖率为97.97%,1000个常用字的覆盖率为1.51%,3500字合计覆盖率达到99.48%。这些字汇的研究,为计算机汉字信息处理中,确定计算机内部表示、处理的字汇起到了十分重要的作用。

汉字的另一个属性就是字序。汉字的字序在信息处理中也十分重要。通常有三种排序方法:义序、音序和形序。义序就是按照汉字的字义进行分类排列。然而,按照意义排序很难确定一致的标准,因此,该方法在信息处理中很少采用。

音序就是根据汉字的字音对汉字进行排列。《汉语词典》、《同音字典》和《第一批异体字整理表》都是按照注音字母的顺序排列的。1958年《汉语拼音方案》公布后,《新华字典》、《现代汉语词典》的正文都是按照汉语拼音字母的顺序排列。由于汉字的同音字多,在音序排列中也常常同时采用形序。《现代汉语常用字表》中对同音字汉字的排列采用了先按照笔画数(由小到多)排列,同笔画数的汉字则按照笔顺排列。笔数和起笔都相同的则按照第二笔的笔顺排列,依此类推。

形序法就是按照汉字的字形进行排列顺序,主要有笔画法、部首法和号码法。笔画法排列汉字是根据汉字的笔画数和笔顺次序进行的。一般是按照笔画数由少到多,同笔画的汉字按照笔形顺序排列,起笔笔形相同的,再按照第二笔的笔形顺序排列。笔形的顺序有多种,但常用的还是1964年汉字查字法工作组推荐的“札”字法[横(一)、竖(|)、撇( )、点(、)、折()]。目前,《印刷通用汉字字形表》、《现代汉语常用字表》、《现代汉语通用字表》和《新华字典》内的《部首检字表》等都是采用这种笔形顺序。在计算机中文信息处理中,大字符集(GB13000-2000)汉字信息处理时,汉字的字汇为20 902个,因此存在着同笔画数、同笔形顺序字较多的情况。国家语言文字工作委员会1999年10月1日公布的《GB13000.1字符集汉字字序(笔画序)规范》对同笔画数、同笔形顺序字的排序规则如下:

·15·

(1)主笔形先于附笔形,例如:“子孑”、“干于”、“夕久”;折点数少的先于折点数多的,例如:“刀乃”、“么凡”;折点数相同时,按折笔起笔的笔形顺序定序,例如:“久么”;折点数、起笔数相同时,按折笔后的笔形顺序排列,例如:“丸及”。(2)按照笔画组合关系定序:相离先于相接,相接先于相交,例如:“八人”、“凡丸”;另外,还有先短后长等定序,例如:“未末”、“土士”。(3)按结构方式定序:左右结构先于上下结构,上下结构先于包围结构,字形比例小的先于字形比例大的,例如:“旮旭”、“ 口”、“旻旼”。部首排序法就是按照部首编排汉字的次序。同部首的汉字,则按照笔画和笔形顺序排列。然而,部首的数量、内容和部首所对应的汉字在现行的多部字书中存在差异。目前国内以201个部首为现代汉语部首的推荐规范。国际上,习惯用《康熙字典》214个部首。确定汉字部首的方法,一般采用字的上、下、左、右、外等部位作部首,其次是中间和左上角。按照以上七种部位都无从确定部首的,列入余类。在信息处理中,为了提高检索的命中率,有的汉字可以有一个以上部首,比如“粥”字,可以有“弓”和“米”两个部首。在汉字排序时,如果部首是排序的因素,则入部必须惟一。号码法也是一种汉字的定序方法。最通行的号码法是四角号码。它按汉字的四角笔形确定数码。四角的顺序是先取左上到右上,后取左下到右下。

3.词汇

词汇是语言中所有的词和短语的总和。词是由语素构成,是句子中最小的能够独立运用的语言单位。汉语的语素绝大多数是单音节的。单音节语素在书面上用单个的汉字书写。古汉语中由一个单音节语素构成的词占绝对优势,所以表达中,基本上一个汉字也就是一个词(只有极少数连绵词例外)。这就形成了汉字连篇书写的传统。20世纪20年代开始,文章开始分段,并使用新式标点符号,不再连篇书写,基本上为按句连写。但现代汉语中合成词特别是双音节合成词占优势,从按句连写的书面形式中确认其中的一个个词仍然有困难。短语是词和词的语法组合,它和词都表示一定的意义,也是造句成分。

汉语中的词也有词根和词缀。词根是指意义实在、在合成内的位置不固定的粘着语素和自由语素;词缀是指意义不实在、在合成词内位置固定在前或后的粘着语素。例如,“筷子”中的“筷”是词根语素,“子”是词缀语素。所谓“自由语素”则是指能够独立成词的语素,例如,“水、木、金、心、火”等。自由语素能够单独成词,也可以与其他语素组合成词。粘着语素是指不能单独构成词的语素,例如,“民、伟、丰、型”等。粘着语素必须跟别的语素组成词。

汉语中由一个语素构成的词叫做单纯词,由两个或两个以上语素构成的词称为合成词。单纯词除了包含一个语素构成的词(例如,“人、走、红、天”等)外,还有双音节连绵词(例如,“鸳鸯、垃圾、葡萄、琳琅、吩咐”等)、音译词(例如,“沙发、咖啡、巧克力、巴黎、逻辑”等)、译自少数民族的地名(例如,“哈尔滨、呼和浩特、吐鲁番”等)。合成词包括三类:重叠、附加和复合。重叠式的词是由两个相同的词根相叠构成的词,例如,哥哥、姐姐、刚刚、星星、整整齐齐等;附加式的词是由词根和词缀构成。词缀在词根之前称为前缀,在词根之后则称后缀。例如,前加式(前缀+词根):老虎、老乡,阿姨、阿毛,微处理器、微笑等;后加式(词根+后缀):刀子、饼子、胖子、桌子,石头、木头、苦头,作者、读者、科技工作者、唯物主义者,芦花、规范化、现代化等。复合式词是由两个或两个以上词根成分组成的附加式合成词。汉语复合词的内部结构基本上是和句法结构一致的,有主谓、述宾、补充、偏正、联合等。例如,年轻、民主、自动,司机、站岗、美容,提供、

·16·

推广、改进,气功、腾飞、火红,体制、开关、质量等。

语境是语言单位出现时的环境。一般分为上下文语境和情景语境。词、短语、句子等在文本中出现时,它前面或后面出现的其他语言单位都是该单位的上下文语境。“上下文”是一个宽泛的概念,在一段话或一篇文章中凡出现在某语言单位之前的词、短语、句子等都是该语言单位的上文,出现在其后的都是其下文。对语境的研究将有助于正确理解词和短语在篇章中的含义。

在自然语言处理中,词是一个十分重要的理解单元。为了能让计算机完成诸如中英—英中文自动翻译、自动文摘、信息抽取、自动问答等应用,正确地分词是一个首要的前提。由于汉语分词中存在歧异切分,导致分词系统始终难以做到十全十美,从而导致上述应用不能得到广泛的应用。

4.句子

句子是能够表达一个相对完整意思的并且有一个特定语调的语言单位。在连续的谈话中,句子的末尾通常有较明显的停顿;书面上则用句号、问号或感叹号等符号表示。汉语中句子的结构并非完全像西文中的句子一样,都是“句=NP + VP”(名词短语+动词短语)。汉语中,常常把句子描述为“句:举其纲,文意断”。说话时,往往先提出一个话头,然后围绕这个话头,进行叙述、描写、说明或评判,直到所要表达的意思完结为止;而用来当话头的,不仅仅是NP,叙述、描写、说明或评判的不全是VP;这样,汉语的句子就不是“NP + VP”可以概括殆尽的。在“举其纲”和“文意断”这两个方面中,“文意断”是矛盾的主要方面,即“举其纲”之“纲”,在一定的语境、情景和交际双方背景知识的帮助下可以隐含,甚至不能出现。于是汉语句子的句法结构呈现一种多样化的景象和多元化的格局。

对于汉语句子来说,“句子是能够表达一个相对完整意思的并且具有一个特定语调的语言单位”这一定义的几个关键词语中,最重要的是“具有一个特定语调”。所谓“具有一个特定语调”,就是已获得特定的语气,或陈述、或疑问、或祈使、或感叹,任何结构能够用来陈述、疑问、祈使或感叹,就获得了充当句子的资格,因为它已具备句子的表意功能。

总之,汉语句子是“意义为本”的,其生成的第一要素是语义。任何结构只要能够获得句子的表意功能就是句子,而不论它是否为主谓短语。这就是汉语中的句子有别于西文中的句子。

源于西方语法学的“NP + VP”格式及其“汉化”的“主谓二分”模式,由于其“递归式”的“形合型”的文化属性,难于在句子层面上简洁地、完备地解析、归纳、描述汉语句子的;即使在句法层面上也难于将汉语的句法结构概括殆尽。因为“NP + VP”格式本质上只是西方语言句子的一种归纳与抽象,而且其文化属性与汉语句子是存在着文化矛盾的。

由此可见,由于汉语句子的形式化描述的复杂性,让计算机要理解一个汉语的句子,要比让计算机理解一个英文的句子难得多。

5.字频

字频就是一个汉字的相对使用频率,也就是一个汉字使用次数与所统计的材料的总字数的比例,一般用百分比表示,这样可以比较直接地看出一个汉字覆盖面。例如我们说一篇两千字的文章,其中“的”用了78次,那么“的”的频率就是:78/2000×100%=3.9%。3.9%的概念就是指在100个字中,就有3.9个是汉字“的”,可见“的”的使用频率是相对高的。摸清楚一个字的使用频率,意义非常重要,编制教材,编写字词典,计算机信息处理等,都要参照有关汉字的使用频率分析,依此作为依据。

1975—1976年,北京新华印刷厂等19个单位发动了1500名中学生对出版物中的2162万

·17·

字的材料进行统计,编成《汉字频率表》。这是我国利用手工查频规模最大的一次字频统计。

1976年12月,中国“748”工程查频组首次利用计算机对汉字的频度进行统计,根据对2100余万字的语料的统计结果,得出《现代汉字综合使用频度表》,其中包含常用字4152个,为中文信息处理的国家标准GB2312-80《信息交换用汉字编码字符集——基本集》提供了科学的基础数据。

1976年,武汉大学语言自动处理研究组在RD-11计算机上,也曾对《骆驼祥子》进行字频统计,计算出该书总字数为107306个,单字为2413个,在一定程度上揭示了该书用字的特点。

1982年11月,国家标准局给北京航空航天大学等10个单位下达了“现代汉语词频统计工程”的任务,后来,北航又受中国文字改革委员会的委托,利用HP-3000计算机,从3亿汉字的素材中抽取了1108万字的样本进行统计,1985年3月,工程完成,通过了国家鉴定。统计结果编成《现代汉语用字频度表》,其中包括以下十种用字频度表:文体生活、历史哲学、政治经济、新闻报道、文学艺术、建筑运输、农林牧渔、轻工业、重工业、基础知识用字频度频度表。这是我国规模最大、分科最多的一次字频统计工作,并首次进行了多音字统计。

在此基础上,1988年,国家语言文字工作委员会汉字处制定了《现代汉语常用字表》,它把汉字的使用频率与该字在各个学科中的分布情况综合起来考虑,从1928—1986年的不同学科的语料中,选取使用频度高、学科分布广、构词能力强的2500字作为常用字,频率及使用度次之的1000个字则定为次常用字。山西大学计算机系通过抽样统计200万字的语料对该字表进行检测,发现这2500个常用字覆盖率可达到97.97%,1000个次常用字覆盖率达1.51%,合计(3500字)覆盖率达99.48%,效果令人满意。

在汉字信息处理中,对汉字字频的研究,掌握汉字的字频,对汉字信息处理中的键盘编码、编码的键位排列、汉字信息的处理和输出等都有重要意义。在汉字键盘输入中,引入高频字输入,把高频字用较短的编码,这样就可以大大提高汉字输入的速度;在汉字信息的存储中,把高频汉字的字形信息存储在计算机的内存,把不常用的汉字字形信息存储在外存,这样有利于提高计算机内存的利用率;同样,在汉字的输出中,根据汉字使用的频率,把不常用的汉字信息存储在外存,常用字的字形信息存储在内存,可以解决汉字打印字形存储量大和打印输出速度快之间的矛盾。

6.词频

由于书面汉语不是按词分写的,而是以汉字为单位逐个书写的,词与词之间的界限以及词和语素、词组的划分,都缺少明显的依据。词的定义成为长期以来困扰着汉语词汇学界的一道难题。因此,汉语大规模的统计研究多年来一直停留在以字为单位的阶段上。比起常用字来,常用词的统计起步晚,难度更大。直到20世纪80年代以后,随着汉语词汇研究的深入和中文信息处理技术的进步,我国在词频统计方面才开始大规模地开展工作。

进行词频统计,首先要从连续的汉字串中把词切分出来。切词的方式有人工切词和计算机自动切词两种。在现有的词频统计中,大多数采用人工切词,凭借人的词汇、语法知识和对上下文的理解,使词与词只间留出空白。

从1979年末至1986年,北京语言学院语言教学研究所把“现代汉语词汇统计研究”列为重点项目,对不同体裁的200万字语料进行了人工切词和抽样统计,不仅对词频进行统计,而且同时兼顾字频、组词能力和词长的统计分析。统计结果分别列成:

(1)按音节排列的频率词表。

(2)使用度最高的前8000词词表。

·18·

(3)频率最高的前8000词词表。

(4)使用度最低的词语单位表。

(5)按报刊政论、科普书刊、日常口语、文学作品分别列出的频率最高的4000词表(4个表)。

(6)按递降顺序排列的汉字频率表。

(7)汉字在词首、词间和词末的构词能力分析。

(8)其他附表。

该项目的成果编成《现代汉语频率词典》一书出版。这是我国最早的一部字词统计兼顾的频率辞典。统计结果具有很高的客观性、准确性。

此外,该项目组成员还与中国社会科学院语言研究所合作,统计了全国中小学统一使用的十年制语文课本,出版了《汉语词汇的统计与分析》。他们发现,总字520934个字的课本中共包含不同的词为18177个,平均词长为1.98个汉字。频率最高的1000词,共出现278448次,占全部语料词次总数的74%。这些词由731个汉字组成,其中频率最高的前10个是“的、一、了、我、是、在、不、们、人、有”,它们占全部语料总字数的14.9%,前100个汉字占全部语料总字数的41.1%,731个汉字全部语料总字数的63.9%,其常用程度和重要性显而易见。基于这些数据,课题组对731个汉字的构词能力进行了进一步的研究。他们还根据不同音节的词的数量与覆盖率的对比提出:在静态的环境中,单音节词占的比例较小,但在使用语言的动态过程中,单音节词所占的比例则比双音节的比例大得多。这为汉语词汇教学和研究提供了有价值的基础资料。

北京师范大学现代化教育技术研究所,也利用计算机进行了中小学教材的词频统计工作。在对106.8万的语料人工切词的基础上,建立了一个含有39601个词的频度词表。在704841个总词次中,单音节词占52.7%,双音节词占43.8%,三音节词占2.6%,四音节以上的词占0.9%。可见,在语言使用过程中,单音节词仍比双音节词占优势。

这一阶段中,规模最大的汉语词频统计应是1982年国家标准局下达的“现代汉语词频统计工程”项目,由北航等10家单位联合攻关,从1919—1982年的社会科学和自然科学的3亿汉字的材料中抽样2500万字的语料,分时期、分学科地进行词频统计。统计结果为汉语自动切词、汉语标准词库、电子辞典等一系列语言工程奠定了重要基础。

总之,20世纪80年代可以说是我国的字频统计由小到大、词频从无到有、并取得辉煌成就的时代。“汉语词汇统计研究所得出的各种成果,不仅为编制基本词库、通用词库、专用词库等提供科学、可靠的语料基础,而且因相关影响而带动的语音、口语、句法、文字等方面的统计研究成果也将为编出相应的正音词典、正字词典、口语词典、句法词典等工具书创造了可能性……从而推动语言学理论研究和词典学研究的深入发展。”

1.5 中文信息处理的国际化和本地化

1.国际化与本地化

随着全球信息交互的日益频繁、互相文化的渗透、技术的发展,中文信息处理的系统层(即中文操作系统)的设计和实现已经是归属到软件的国际化和本地化的问题中来。

国际化是把原来只为英文设计的计算机系统或应用软件改写为同时支持多种语言和文化

·19·

习俗的过程。具体来说,是指一个计算机软件能够适应不同的语言、文化习俗和编码集。在系统层就提供一种多国语言的支持机制。它解决的问题是如何透明地处理各种文字语言的问题,使软件在架构和机制上支持多语言的扩展特性,在不需要对应用程序作改动的前提下,能够正确显示、输入、处理各种语言。

本地化是指把计算机系统软件或应用软件转为使用并兼容某种特定语言的过程。例如,把原来只为英文设计的软件改写为支持中文的软件。本地化后了软件必须保证用户能够正确地利用当地语言输入和屏幕显示,且所有地窗口信息(菜单、提示等)都要转换成当地的语言和习俗。

在国际化的软件中包含了一个locale的环境变量,使用该变量可以设置不同国家、地区所使用的计算机内部的语言环境。

在国际化的软件中,只处理语言的部分成为“多语言化”。例如,一个软件可以同时支持英文、中文、日文、韩文等。因此,这里的“语言”可以简单地理解为计算机内部的编码字符集。

在英文中,国际化(Internationalization)被缩写为I18N,即只取首尾两个字母,中间的字母为18个。同样,本地化(Localization)也被缩写为L10N,多语言化(Multilingualizaiton)缩写为M17N。

可见国际化是一个机制,是使软件在支持一个新语言的时候不需要修改源代码,而只需要翻译与语言习惯的数据,如果一个软件已经达到国际化的要求,那么对该软件的本地化通常只是一个照章办事的过程了。

2.国际化标准组织

国际化标准是国际化标准组织或一些相关组织制定的一些标准,而且这些标准也会随时间不同而经常更新。国际化标准涉及到字符集、编码、字体处理、打印、文本绘制、用户界面、语言输入方法、数据交换、文化习俗等方方面面。例如,ANSI/ISO 制定了使用C编程语言编写国际化软件的通用接口,ISO 制定了字符集标准和其他影响locale名字的标准,IEEE 提供了一些国际化的通用库函数和设置管理不同locale的用户命令,Li18nux 是一个专门从事Linux上的软件国际化规范制定的组织。

国际化,特别是国际化中制定的标准,是当今开发国际化软件所必须的。它也是软件开发的必然趋势。遵循国际化标准,可以更高效地开发和调试软件和移植软件,降低软件的开发费用,使用户更方便地使用软件。从国际环境来看,新开发的基本的库函数都会支持国际化标准,基于这些函数库所开发的应用软件理所当然地支持国际化标准。

3.ISO 10646中汉字的认同规则

在ISO 10646-2000标准中,汉字已是一个具有广泛意义的汉字了。因为在该标准中,字符已经按文字(script)编码,而不是按语言、国度、地域和专业编码。在汉字文化圈内,汉字经历了许多世纪的字形演变和字义漂移,它们原来的形状和含义都已经发生了变化,但是,它们在字形、字音和基本含义方面仍然存在着相似性,它们事实上就是一种超越语言的“广义汉字”,因此,统一编码时不考虑语言、国度、地域和专业的不同。这种广义的汉字可以用一个简单的模型表示,即汉字的XYZ模型(XYZ mode for Ideograph)。其中,X表示字义,Y表示字形(抽象字形),Z表示字型(具体造型),如图1.2所示。图中,以艺术的“艺”字为例。如果按字义认同,即向X轴投影,则其简体形式“艺”、繁体形式“藝”、异体形式“兿”、日文略字形式“芸”都具有相同的数值(X1);而作为“芸香”、“运薹”、“芸芸”众多意义的“芸”,则具有其他的数值(X2,X3,…)。如果按抽象字形认同,则无论它们

·20·

1-1-1 算法的概念

一、选择题 1.以下关于算法的说法正确的是() A.描述算法可以有不同的方式,可用形式语言也可用其它语言 B.算法可以看成按照要求设计好的有限的确切的计算序列,并且这样的步骤或序列只能解决当前问题 C.算法过程要一步一步执行,每一步执行的操作必须确切,不能含混不清,而且经过有限步或无限步后能得出结果 D.算法要求按部就班地做,每一步可以有不同的结果 [答案] A [解析]算法可以看成按照要求设计好的有限的确切的计算序列,并且这样的步骤或计算序列能够解决一类问题.算法过程要求一步一步执行,每一步执行的操作,必须确切,只能有惟一结果,而且经过有限步后,必须有结果输出后终止,描述算法可以有不同的语言形式,如自然语言、框图语言及形式语言等. 2.使用计算机解题的步骤由以下几部分构成 ①寻找解题方法②调试运行 ③设计正确算法④正确理解题意 ⑤编写程序 正确的顺序为() A.④①③②⑤B.④①③⑤② C.④③②①⑤D.④①②③⑤ [答案] B 3.下列叙述能称为算法的个数为()

①植树需要运苗、挖坑、栽苗、浇水这些步骤; ②顺序进行下列运算:1+1=2,2+1=3,3+1=4,…,99+1=100; ③从枣庄乘火车到徐州,从徐州乘飞机到广州. ④3x >x +1; ⑤求所有能被3整除的正数,即3,6,9,12,…. A .2 B .3 C .4 D .5 [答案] B [解析] ①②③是算法,④⑤不是,故选B. 4.下列各式中S 值不可以用算法求解的是( ) A .S =1+2+3+4 B .S =12+22+32+…+1002 C .S =1+12+…+110000 D .S =1+2+3+4+… [答案] D [解析] 由算法的有限性知,D 不正确,而A 、B 、C 都可以通过有限步骤操作,输出确定结果,故选D. 5.结合下面的算法: 第一步,输入x . 第二步,判断x 是否小于0,若是,则输出x +2,否则执行第三步. 第三步,输出x -1. 当输入的x 的值为-1,0,1时,输出的结果分别为( ) A .-1,0,1 B .-1,1,0 C .1,-1,0 D .0,-1,1 [答案] C

第四章 力 法

第四章力法 一、是非题(“是”打√,“非”打) 1、图(a)所示超静定结构,力法求解时,所有副系数全为零的基本结构如图(b)所示(除BC杆EI=∞外,其余各杆EI=C)。() 2、图(a)所示超静定结构,AC杆端剪力可由图(b)所示脱离体 用静力平衡条件直接求出。() 3、图(a)所示超静定梁M图与图(b)所示静定梁M图相同。() 4、图(a)所示超静定梁在均布荷载作用下的M图与图(b)所示静定梁M图图乘的结果不等于其与图(c)所示静定梁的M图的图乘结果。()

5、图示结构中,去掉其中任意两根支座链杆后余下部分都可作为力法计算的基本体系。() 6、图示结构中,去掉其中任意两根支座链杆后余下部分都可作为力法计算的基本体系。() 7、图示两结构,对应点内力相同。 8、图示两结构,对应点内力相同。 9、图示两结构,对应点内力相同。()

10、图示结构,其力法典型方程的自由项,。() 11、图(a)所示结构,用力法求解时,可取图(b)做基本系。() 12、图(a)所示结构,用力法求解时可取图(b)做基本系。() 13、超静定结构在支座移动作用下一定会有内力产生。() 14、图示结构在支座C垂直向下移动时结构的内力全为零。()

15、对于超静定桁架,如果在结构外荷载及结构材料不变的情况下增加某些杆件的截面积,则指定处所的位移一定会减小()。 16、某超静定梁,截面的高度为h,线膨胀系数为α,EA=常数,EI=常数。图(a)中梁上、下面的温度均升高50℃,图(b)中梁上面的温升为30℃,梁下面的温升为70℃。两种情况下梁的内力一样()。 17、图(a)与图(b)所示结构在支座C处的反力关系为不超过。 ( ) 18、图(a)所示结构(不计杆长变化)用力法求解时可采用图(b)所示结构进行计算。() 19、图示对称结构受对称荷载(不计杆长变化),则B支座的约束反力 0。( )

算法的概念的教学设计说明

算法的概念的教学设计 杭二中分校海玲 一.容和容解析 算法是规则系统一种循序渐进解决问题的过程,尤指一种为在有限步骤解决问题而建立的可重复应用的计算过程。(概念的涵广义) 在数学中,算法通常是指按照一定规则解决某一类问题的明确和有限的步骤。现在,算法通常可以编成计算机程序,让计算机执行并解决问题。(概念的涵狭义) 算法概念这一节,立足于用自然语言描述解决问题过程中的明确顺序,是实现用程序框图、程序语言的表示方式的基础。(容及在本章的地位) 算法的思想方法几乎贯穿整个高中数学课程的所有章节,如解三角形、数学归纳法、数学建模等.本节的容能为以后学习本章程序框图、基本算法语句以及选修1-2第四章“框图”容奠定基础.由于程序框图体现的是算法的思想,故其思想方法可运用到数学的各个领域之中.(在学科中地位)算法也是数学及其应用的重要组成部分,算法是连接人和计算机的纽带。是计算机科学的基础,利用计算机解决问题需要算法。首先研究解决问题的算法的自然语言表达,再把算法转化为程序,所以本节课学习用自然语言进行算法设计是使用计算机解决具体问题的一个极为重要的环节。(体现其应用性) 二.目标和目标解析 本节课通过对解决具体问题的过程与步骤的分析,让学生体会算法的思想,了解算法的含义。具体目标为: 1.要求学生了解算法的含义,体会算法的思想。 2.在分析实例的基础上了解算法的基本特征。 3.能够用自然语言描述一些具体问题的算法。 本节课教学重点通过实例让学生体会算法思想,会用自然语言表达一些具体问题的算法.三.教学问题诊断 本节算法对学生来说并不陌生。生活中很多问题是按照指定的要求一步步解决的;小学的四则混合运算所遵循的先乘除、后加减的规则,括号的处理规则等,都是学生最初接触到的算法实例。初中学习的方程组的解法等,也是算法的典型体现。高中学习的必修1中求函数零点的二分法的解题步骤、必修5中线性规划的解题规律等更成了算法的经典问题。还有数列的求和、质数的判定、最大公约数和最小公倍数的求法等,都涉及到算法。同时,在其他学科、甚至生活中也离不开算法。 算法的实质是将人的思维过程处理成计算机能够一步一步执行的步骤,进而转化为一步一步执行的程序。这种处理问题的方式,学生以往有一些经验,如教师对某些题型总结的较为固定的解题步骤。不过这种经验并没有得到应有的升华。只有在完整地学习了算法后,学生才能把这些知识提升到新的高度来认识。算法是对解题方案的准确而完整的构造性的描述。算法并不是容易理解和掌握的容。教学难点是对算法概念的理解和对算法的描述,尤其是对循环问题的递归语言表达,由于学生初次接触,更加难以掌握。 教师可以首先通过实际生活中的生动有趣的例子帮助学生了解算法的含义,明白算法是规则系统一种循序渐进解决问题的过程。在此基础上通过引导学生在具体情境之下回顾特殊的二元一次方程组的求解,自然展示求解的“步骤”,从而帮助学生进一步明白算法是在有限步骤解决问题而建立的可重复应用的计算过程,并能够编成计算机可以执行的程序让计算机执行并解决问题的。 在建立了算法的概念以后,教师可以通过进一步介绍学生熟悉的例子,并尝试着让学生自己举算法的例子,帮助学生进一步领会算法的思想。 接着通过例1和例2设计算法,帮助学生学会用自然语言描述算法,质数的判断是学生小学就

统计学基本概念

基本概念 1、统计的含义:统计工作、统计资料、统计学 2、社会经济统计学的特点:数量性、社会性、综合性 3、统计工作的职能:统计信息职能、统计咨询职能、统计监督职能 4、统计工作过程:统计调查、统计整理、统计分析 5、统计调查的质量要求:准确性、全面性、及时性、有效性 6、专门调查的方法:普查、重点调查、典型调查、抽样调查 7、统计调查的方法:直接观察法、报告法、采访法、通讯法、实验调查法、网上调查法 8、次数分布的主要类型:钟型分布、U型分布、J型分布 9、统计表的结构,从组成要素看,由总标题、横行与纵栏标题、指标数值等三部分组成 10、统计表的结构,从内容上看,由主词、宾词两部分构成 11、统计分析方法:综合指标、动态数列、统计指数、相关回归、抽样推断 12、综合指标从它的作用和方法特点的角度可概括为三类:总量指标、相对指标、平均指标 13、相对指标的种类:计划完成相对指标、结构相对指标、比例相对指标、比较相对指标、强度相对指标、动态相对指标 14、平均指标的种类:算术平均数、调和平均数、几何平均数、众数、中位数 15、测定标志变动度的主要方法:全距、四分位差、平均差、标准差、离散系数 16、动态数列按构成其指标数值的性质不同分为:绝对数动态数列、相对数动态数列、平均数动态数列

17、动态数列的水平分析指标:发展水平、平均发展水平、增长量、平均增长量 18、动态数列的速度分析指标:发展速度、增长速度、平均发展速度、平均增长速度 19、测定长期趋势常用的主要方法:间隔扩大法、移动平均法、最小平方法 20、指数按其反映指标性质不同分为:数量指标指数和质量指标指数 21、指数按其表现形式不同分为:综合指数、平均指数、平均指标对比指数 22、相关关系按其方向不同分为:正相关和负相关 23、相关关系按其涉及因素多少分为:单相关和复相关 24、相关关系按其形式不同分为:直线相关和曲线相关 25、抽样调查的组织形式:简单随机抽样、类型抽样、等距抽样、整群抽样、多阶段抽样 26、总体参数的抽样估计方法为点估计和区间估计。 统计分析 1.某市某“五年计划”规定计划期最末一年甲产品产量应达到75万吨,假定每天产量相等,实际生产情况如下表所示(单位:万吨)。试计算该市甲产品产量五年计划完成程度和提前完成计划的时间。 第一年第二年第三年 56 58 62 第四年一季二季三季四季 16 17 18 18 第五年一季二季三季四季 19 19 20 23

力法的基本概念

力法的基本概念 一、超静定结构和超静定次数 1.超静定结构的概念 ①几何构造方面:有多余约束的几何不变体系。 ②力学解答方面:方程的个数少于未知力的个数。 2.超静定次数的确定 去掉多余约束使超静定结构成为静定结构,所去掉的多余约束数目,就是超静定次数。 一般地, *切断链杆(或支杆)是去掉了一个约束,相应一个约束力; *拆开一个铰(或固定铰支座)是去掉了两个约束,相应两个约束力;*切端刚结点(或固定支座)是去掉了三个约束,相应三个约束力;*刚结点变为铰结点,是去掉了一个约束,相应一个约束力; ① ②③

二、力法的基本结构和多余未知力 1.超静定结构经过去掉多余约束后,变为静定结构,这个静定结构称为力法的基本结构。去掉的多余约束所对应的约束力,称为力法的多余约束力。基本结构、荷载与多余未知力合称基本体系。 2.基本结构的形式不唯一。 一般地,基本结构和多余未知力同时产生。选取时,应使计算简单为前提。 前例题与练习中,给出了每个结构的部分基本结构和相应的多余未知力。 三、力法原理 1.基本假设:弹性小变形 2.确定超静定次数,选取恰当的基本体系 3.位移协调条件的确定(即,补充方程的建立) 4.计算柔度系数(单位未知力产生的位移),建立力法方程 5.结构内力的叠加公式 6.作内力图

示例1 P P L X L 基本体系 解:1)一次超静定结构,取基本体系如图所示。 2)基本思路 超静定结构用平面三个平衡方程是不够的。注意到原结构在荷载作用下的内力和变形是唯一确定的,特别地,支座反力也是确定的。因此,如果设X是支座反力,则原结构的内力与变形就与基本体系(其结构是静定的)在荷载P和支座反力X共同作用下的内力与变形等价。这样,原超静定结构的计算就转化为静定结构的计算。 问题是,X是未知的。需要考虑位移协调条件,即,补充方程。显然,基本体系中,B端是自由端;而原超静定结构中却是有支座的。要保证是等价关系,就必须保证基本体系在P和X共同作用下,在B 端的竖向位移是零。其办法是: 在基本结构中,按叠加法把P和X的共同作用分别作用在基本结构上, ①荷载P作用下,在B端产生的竖向位移的计算 P P L P=1 PL M P图L M 图

刑法基本概念整理

刑法基本概念整理 第一章:刑法的绪论 1.刑法:即一个国家规定犯罪、刑事责任和刑罚的法律。 具体些说,刑法是掌握政权的阶级即统治阶级,为了维护本阶级政治上的统治和经济上的利益,根据自己的意志,规定哪些行为是犯罪和应负刑事责任,并给犯罪人以何种刑罚处罚的法律。 2.广义刑法:一切规定犯罪、刑事责任和刑罚的法律规范总称,包括刑法典、单行刑事法律和非刑事法律中的刑事责任条款(附属刑法规范)。 3.狭义刑法:系统规定犯罪、刑事责任和刑罚的刑法典。 4.刑法的渊源:刑法典、单行刑法、附属刑法 5.刑法典:是以国家名义颁布的、系统规定犯罪及刑法的法律,是刑法的最主要存在形式。 6.单行刑法:国家以决定、规定、补充说明、条例等名称颁布的,规定某一类犯罪及刑罚或者刑法的某一事项的法律。 7.刑法的性质:内容上——(1)调整范围的广泛性,从国家安全、公共安全、经济秩序到公民个人的人身权利、财产权利都有所涉及 (2)调整对象的特定性:针对最严重的违法行为 (3)调整手段的严厉性:刑罚是国家最严厉的强制方法 形式上——(1)刑法是基本法(2)刑法是实体法(3)刑法是公法 8.刑法的目的:就在于惩罚犯罪,保护人民。保护法益 9.刑法的任务:就是用刑罚同一切犯罪行为作斗争,保护人民,打击敌人,为社会主义建设事业服务。 10.刑法的机能:就是刑法在社会生活中应当具备的作用,它是实现刑法目的和任务的手段。(1)保护法益机能(2)保障人权机能(3)规制行为机能 11.谦抑思想:就是不应当将所有的违法行为都作为刑法的处罚对象,作为刑法处罚对象的只能是那些不得不予以刑罚处罚的行为。 12.刑法规范:是以禁止、处罚犯罪行为为内容的罪刑规范。(包括行为规范和裁判规范)如刑法规定有盗窃罪、遗弃罪,其中所蕴含的规范就是:不得盗窃、义务者必须抚养没有独立生活能力的人。 13.刑法的体系:是指刑法典的组成和结构。我国刑法是采用编、章、节、条、款、项的结构来编排的。我国刑法典分为①总则②分则③附则。 14.刑法解释:是对刑法规定用语的意义进行说明,是赋予刑法规范特定含义的思维或者实践过程。 分类:(1)主体不同 立法解释——全国人大代表大会及其常务委员会对刑法规定所做的解释 司法解释——由最高人民法院和最高人民检察院就审判和检查工作中具体应用的法律解释(2)方法不同 文理解释——亦称文意解释或者文法解释,是根据刑法条文的文词字句进行的字面解释。论理解释——指参酌立法背景、目的、沿革及其他相关事项,对刑法规定做逻辑分析,阐明刑法用语真实含义的解释方法。 (当然解释)——指刑法没有明文规定的事项,但依事物属性、处罚目的以及当然的道理,推论刑法所没有明文规定的事项,但要在刑法规定适用范围之内。 (扩大解释)(限定解释)

法的概念、本质和基本特征

第六部分法律——第二十六章法的一般原理 第六部分法律 第二十六章法的一般原理 本章知识点 【知识点一】法的概念、本质和基本特征 【知识点二】法律规则的逻辑构成和分类 【知识点三】法的制定和法律解释 【知识点四】法的功能和效力 【知识点一】法的概念、本质和基本特征 建议关注法的类型、本质、基本特征。 (一)法的概念 1.法是由一定物质生活条件决定的,体现统治阶级意志,由国家制定或认可并由国家强制力保证实施的,以维护、巩固和发展一定的社会关系和社会秩序为目的的具有普遍效力的行为规范体系。 2.法的类型 (二)法的本质 1.法的阶级性:法反映的是整个统治阶级的整体利益和共同意志。 2.法的国家意志性:只有通过合法的程序,上升为国家意志的那部分统治阶级意志才能成为法。 3.法的物质制约性:法最终决定于构成物质关系的社会物质生活条件。 (三)法的基本特征 1.法是一种特殊的社会规范:特殊强制性。 2.法由国家制定或认可。 3.法以权利和义务为内容。 4.法由国家强制力保证实施:是法区别于其他社会规范的重要标志。 5.法在国家权利管辖范围内普遍有效,具有普遍性。 6.法是具有严格程序规定的规范。 【经典例题】 【例题·单选题】(2016年)根据马克思主义的观点,法的本质可以概括为阶级性、国家意志性和物质制约性等多个方面,但作为一种上层建筑,法最终决定于()。 A.社会物质生活条件

B.统治阶层的意志 C.国家的意志 D.多数公民的意志 『正确答案』A 『答案解析』本题考查法的本质。法最终决定于构成物质关系的社会物质生活条件。 【知识点二】法律规则的逻辑构成和分类 建议关注法律规则和法律条文的区别、法律规则的分类。 (一)法律规则的逻辑构成 【例如】酒类经营者不得向未成年人销售酒类商品,并应在经营场所显著位置予以明示,违反规定的,给予警告,责令改正;情节严重的,处两千元以下罚款。 2.法律规则与法律条文的区别 (1)法律规则是法律条文的内容,法律条文是法律规则的表现形式。 (2)并不是所有的法律条文都直接规定法律规则。 (3)不是每一个法律条文都完整地表述一个规则或只表述一个法律规则。 【例如】当事人协商一致,可以变更合同。 (二)法律规则的分类

结构力学-第7章 位移法

第7章位移法 一. 教学目的 掌握位移法的基本概念; 正确的判断位移法基本未知量的个数; 熟悉等截面杆件的转角位移方程; 熟练掌握用位移法计算荷载作用下的刚架的方法 了解位移法基本体系与典型方程的物理概念和解法。 二. 主要章节 §7-1 位移法的基本概念 §7-2 杆件单元的形常数和载常数—位移法的前期工作 §7-3 位移法解无侧移刚架 §7-4 位移法解有侧移刚架 §7-5 位移法的基本体系 §7-6 对称结构的计算 *§7-7支座位移和温度改变时的位移法分析(选学内容) §7-8小结 §7-9思考与讨论 三. 学习指导 位移法解超静定结构的基础是确定结构的基本未知量以及各个杆件的转角位移方程,它不仅可以解超静定结构,同时还可以求解静定结构,另外,要注意杆端弯矩的正负号有新规定。 四. 参考资料 《结构力学(Ⅰ)-基本教程第3版》P224~P257 第六章我们学习了力法,力法和位移法是计算超静定结构的两个基本方法,力法发展较早,位移法稍晚一些。力法把结构的多余力作为基本未知量,将超静定结构转变为将定结构,按照位移条件建立力法方程求解的;而我们今天开始学的这一章位移法则是以结构的某些位

移作为未知量,先设法求出他们,在据以求出结构的内力和其他位移。由位移法的基本原理可以衍生出其他几种在工程实际中应用十分普遍的计算方法,例如力矩分配法和迭代法等。因此学习本章内容,不仅为了掌握位移法的基本原理,还未以后学习其他的计算方法打下良好的基础。此外,应用微机计算所用的直接刚度法也是由位移法而来的,所以本章的内容也是学习电算应用的一个基础。 本章讨论位移法的原理和应用位移法计算刚架,取刚架的结点位移做为基本未知量,由结点的平衡条件建立位移法方程。位移法方程有两种表现形式:①直接写平衡返程的形式(便于了解和计算)②基本体系典型方程的形式(利于与力法及后面的计算机计算为基础的矩阵位移法相对比,加深理解) §7-1位移法的基本概念 1.关于位移法的简例 为了具体的了解位移法的基本思路,我们先看一个简单的桁架的例子:课本P225。图7-1和图7-2所示。 (a)(a) (b) (b)

法律 -法律的基本概念

第一节法律的基本概念 一、法律的基本概念 (一)法或法律的定义: 法的定义:法是反映统治阶级意志的,由国家制定或认可并以国家强制力保证实施的行为规范总和。 “法律”,通常那广义和狭义两种含义以上使用。 广义的“法律”通“法”同义。 狭义的法律,是指拥有立法权的国家机关依照法定程序和颁布的规范性文件。 在我国,由全国人大和全国人大常委会制定和颁布的规范性文件,称为法律。 (二)法的特征 法的特征:指区别于其他社会规范所持有的属性。 特征:1、法是由国家制定或认可的规范。制定或认可是国家创造法的两种形式。 2、法是有国家强制力保证实施的规范。 3、法是制定人们权利和义务的规范。 4、法具有普遍约束力的规范。 (三)法的本质 法的本质:指法的质的规定性,是法的内在、基本的物质精神因素的总和,是法存在的基础和发展变化的决定力量。

要点:1、法是统治阶级意志的体现。 2、法的内容是统治阶级的物质生活条件所决定的。经济基础对法具有决定作用。 二、法律价值和法律理念 (一)法律的价值 首先:法具有服务性价值,它确认和保护、发展对统治阶级有利的社会关系和社会秩序,它确立规则,使资源得到合理的分配。其次:法本身还具有权利和义务相一致的价值、相对稳定相的价值、是国家权力运用公开化的价值等。只有当法律符合或能够满足人们的需要时,法律才有价值可言。 (二)法律的理念 法律的理念是对法律的本质、精神、基本原则和运行机制的理性认识和价值取向上的意识形态,它基于某种基本的法律制度而产生。 依法治国是社会主义法治的核心内容,执法为民是社会主义法治的本质要求,公平公正是社会主义法治的价值追求,服务大局是社会主义法治的重要使命。 三、法律的形式和体系 (一)法律的形式 国家机关制定的各种规范性文件是法律的主要形式。 规范性文件:国家机关在其权限范围内,按照法定程序制定和颁

统计学基本概念

日志吕品吕品的日志当前日志返回日志首页? 较新一篇/ 较旧一篇 分享 1. 统计学:收集处理分析解释数据并从数据中得出结论的科学。 2. 描述统计:研究数据收集处理汇总图表描述概括与分析等统计方法。 3. 推断统计:研究如何利用样本数据来推断总体特征的统计方法。 4. 分类数据:只能归于某一类别的非数字型数据。 5. 顺序数... 如果你也考统计学~~~~~网上搜索到的统计学基本概念~~~~~ 2011-05-28 12:06 | (分类:默认分类) 1. 统计学:收集处理分析解释数据并从数据中得出结论的科学。 2. 描述统计:研究数据收集处理汇总图表描述概括与分析等统计方法。 3. 推断统计:研究如何利用样本数据来推断总体特征的统计方法。 4. 分类数据:只能归于某一类别的非数字型数据。

5. 顺序数据:只能归于某一有序类别的非数字型数据。 6. 数值型数据:按数字尺度测量的观察值。 7. 观测数据:通过调查或观测而收集到的数据。 8. 实验数据:在实验中控制实验对象而收集到的数据。 9. 截面数据:在相同或近似相同的时间点上收集的数据。 10. 时间序列数据:在不同时间上收集到的数据,这类数据按时间顺序收集到的。 11. 抽样调查:从总体中随机抽取一部分单位作为样本进行调查,根据样本调查结果来推断总体特征的数据收集方法。

12. 普查:为特定目的而专门组织的全面调查。 13. 总体:包含所研究的全部个体(数据)的集合。 14. 样本:从总体中抽取的一部分元素的集合。 15. 样本容量:也称样本量,是构成样本的元素数目。 16. 参数:用来描述总体特征的概括性数字度量。 17. 统计量:用来描述样本特征的概括性数字度量。 18. 变量:说明现象某种特征的概念。 19. 分类变量:说明事物类别的一个名称。 20. 顺序变量:说明事物有序类别的一个名称。

法律的基本概念 (1)汇总

法律的基本概念 (1) 一、绪论 研究法学的方法和研究别种科学是一样的。先把那根本上的原理彻底悟会了,其他的枝叶问题就可不劳思索,迎刃而解。比方代数、几何、物理、化学都有确定的公式和定例;学者根据那种公式和定例就可解释各种变化无定的问题。要是没有那种公式和定例,就要觉得头绪纷纭,顿时无从着手,怎能造出一种科学的统系呢?但其间有一异点就是代数、几何、物理、化学都属于自然科学;那自然境界上的现象如影随形,都有定理可以推测。法律学并非自然科学,乃是一种精神界的科学,??乃是社会科学之一部分。精神是一样活动的东西,吾人难以捉摸,其变化亦复神妙非常,与天然现象大不相同。要在精神界的科学上作个公式下个定例,那个公式和定例断乎不能如八八六十四和H2 O=H2O的呆板且绝对。何以故呢?因为人的精神是自由的,海阔天空没有人可以捉摸得到,想做什么就要做什么。那“想做什么”是个因,那“就要做什么”是个果;因既活动,果亦不免随了活动。所以自然界只有现象,精神界则有事业。自然科学的问题是“究是怎样?”其答案是个发明,其所证明的是“有因必有果”;精神界科学的问题是“应是怎样”?其答案是个创作,其所奉为信条的是“有志就成”。万物的进化是在天演;人事的进化是在猛进。宇宙间惟有人心是最灵活,既难束缚又难察量。那自然的“光”“热”“电”虽然奇妙,然还可以用各种科学艺器来确定他的度数;人心的 “光”“热”“电”(知、情、意)那是更属奇妙了,没有什么科学仪器可以用了来察量其度数。照这样说,那人的心理果为一种不可研究的东西吗?人心既不能研究,精神界上的科学就没有什么公式和定例之可言了!那又不然的。人心虽不能用有形的仪器来推察,却可用无形的仪器考查他一下。在精神界上的科学,我们所用以察量短长,评判是非的仪器都是无形的;虽然无形,其真确和稳妥倒不让那有形的仪器。法律学既是精神界科学之一部,自然亦有一种无形仪器??即是标准。标准拿定了,就不难再造公式和定例。 二、法律的标准 从前孔子曾经说过:“礼云礼云!玉帛云乎哉?乐云乐云!钟鼓云乎哉?”现在我也要依样葫芦说句话:“法云法云!条文云乎哉?”玉帛是礼的用,非礼的体;钟鼓是乐的器,非乐的本;条文是法的骸,非法的魂。所谓“体”所谓“本”所谓“魂”,都是标准之别名。礼的标准可以用一“敬”来代表他;乐的标准可以用一“和”字来代表他;法的标准却用个“理”字来代表他。所以“敬”、“和”、“理”是治礼、乐、法的人所用以察量短长,评判是非的利器;靠了那种利器,善恶真假即可一辨而知。天下固有不敬的礼,不和的乐,不合理的法。但便是礼其所礼,乐其所乐,法其所法,并不是我心目中的礼、乐、法了。这种礼乐法,即使能够冒着礼乐法的名横行一世,那也不过是暂时的。以历史的眼光看来,却是无足重轻,在不足挂齿之例。现在休论礼乐,且先以法学讲来并与海内外学者讨论一下。 方才不说法的标准是个“理”字吗?这个理字先要讲得明明白白才可免得有隔靴搔痒的毛病。中国宋明诸儒为了这个理字,质难辩论,曾用了一番苦工。但其结果真理愈弄愈涩,门户之见亦愈弄愈多,说来亦觉可怜得很。清代诸儒以为前车可鉴就起了一个大反动!这个反动在中国思想界至今尚占势力。欧美十八、九世纪诸法家亦想专恃一个理字来解决一切法学上问题。现在

第1章算法的基本概念

第1章算法的基本概念 计算机系统中的任何软件,都是由大大小小的各种程序模块组成,它们按照特定的算法来实现,算法的好坏直接决定了所实现软件性能的优劣。用什么方法来设计算法,所设计算法需要什么样的资源,需要多少运行时间、多少存储空间,如何判定一个算法的好坏……在实现一个软件时,这些都是必须予以解决的。计算机系统中的操作系统、语言编译系统、数据库管理系统以及各种各样的计算机应用系统中的软件,都必须用一个个的具体算法来实现。因此,算法设计与分析是计算机科学与技术的一个核心问题。 1.1 引言 “算法”这一术语是从Algorithm翻译而来的,但直到1957年,西方著名的《韦伯斯特新世界词典》也未将其收录其中。据西方数学史家的考证,古代阿拉伯的一位学者写了一部名著——《Kitāb al-jabr Wa’lmuqāb J la》(《复原和化简的规则》),作者的署名是Abū‘Abd Allāh Muhammad ibn Mūsa al-Khwārizmī。从字面上看,其含义是“穆罕默德(Muhammad)的父亲,摩西(Moses)的儿子,Khwārizm地方的人”。后来,这部著作流传到了西方,结果从作品名称中的al-jabr派生出Algebra(代数)一词;从作者署名中的al-Khwārizmī派生出Algorithm一词。随着时间的推移,Algorithm这个词的含义已变得面目全非了,成了本书要讨论的内容——算法。 1.1.1 算法的定义和特征 欧几里得曾在他的著作中描述过求两个数的最大公因子的过程。20世纪50年代,欧几里得所描述的这个过程被称为Euclides Algorithm for gcd,国内将其翻译为“求最大公因子的欧几里得算法”,Algorithm(算法)这一术语在学术上具有了现在的含义。下面通过一个例子来认识一下该算法。 算法1.1欧几里得算法 输入:正整数m,n 输出:m,n的最大公因子 1. int euclid(int m,int n) 2. { 3. int r; 4. do {

2014基本法的概念

法律基本概念 本套试卷满分为:56您的得分是:0 1、2008年10月全国人大常委会对《消防法》进行了修订,2009年4月,某省人 大常委会通过《实施〈中华人民共和国消防法〉办法》,对实施《消防法》作 出了具体规定。关于该办法,下列说法正确的是()。 A.该办法属于对《消防法》的立法解释 B.该办法属于《消防法》的下位法,按照法律高于法规的原则其效力较低 C.该办法属于对《消防法》的变通或补充规定 D.该办法对《消防法》进行了体系解释 【正确答案:】B【答题结果:】未答【您的得分:】0 2、马克思曾说:“社会不是以法律为基础,那是法学家的幻想。相反,法律 应该以社会为基础。法律应该是社会共同的,由一定的物质生产方式所产生的 利益需要的表现,而不是单个人的恣意横行。”根据这段话所表达的马克思主 义法学原理,下列说法正确的是()。 A.强调法律以社会为基础,这是马克思主义法学与其他派别法学的根本区别 B.法律在本质上是社会共同体意志的体现 C.在任何社会,利益需要实际上都是法律内容的决定性因素 D.特定时空下的特定国家的法律都是由一定的社会物质生活条件所决定的 【正确答案:】D【答题结果:】未答【您的得分:】0 3、剥夺公民政治权利只能由()规定。 A.地方性法规 B.法律 C.行政法规 D.部门规章 【正确答案:】B【答题结果:】未答【您的得分:】0

4、下列有关法律后果、法律责任、法律制裁和法律条文等问题的表述正确的是()。 A.任何法律责任的设定都必定是正义的实现 B.法律后果不一定是法律制裁 C.承担法律责任即意味着接受法律制裁 D.不是每个法律条文都有法律责任的规定 【正确答案:】D【答题结果:】未答【您的得分:】0 5、下列关于法律责任的说法不正确的是()。 A.法律责任的归结讲求责任法定原则、公正原则、效益原则 B.法律责任的免除即无责任 C.法律责任体现了国家的强制力 D.法律责任产生的主要原因是违法与违约 【正确答案:】B【答题结果:】未答【您的得分:】0 6、把法律划分为根本法和普通法的主要依据是()。 A.适用范围不同 B.制定和表达的方式不同 C.制定和实施的主体不同 D.规定的内容、法律地位和制定的程序不同 【正确答案:】D【答题结果:】未答【您的得分:】0 7、下列由全国人大常委会裁决的法律冲突是()。 A.同一机关制定的法律,新的规定与旧的规定不一致的 B.法律之间对同一事项的新的一般规定与旧的特别规定不一致的 C.同一机关制定的法律,特别规定与一般规定不一致的 D.行政法规之间对同一事项的新的一般规定与旧的特别规定不一致的 【正确答案:】B【答题结果:】未答【您的得分:】0 8、我国《立法法》规定行使国家立法权的机关是()。 A.全国人大和地方人大 B.全国人大和国务院 C.全国人大及其常委会 D.全国人大及其常委会、国务院及其各部委 【正确答案:】C【答题结果:】未答【您的得分:】0 9、根据马克思主义法学的基本观点,下列表述正确的是()。 A.法在本质上是社会成员公共意志的体现 B.法既执行政治职能,也执行社会公共职能 C.法最终决定于历史传统、风俗习惯、国家结构、国际环境等条件 D.法不受客观规律的影响 【正确答案:】B【答题结果:】未答【您的得分:】0 10、下列有关行政法规和规章的说法正确的是

第一章算法的基本概念

第一章算法的基本概念 1.1 引言 算法设计与分析在计算机科学与技术中的地位 算法(Algorithm)一词的由来。 1.1.1 算法的定义和特征 欧几里德算法: 算法1.1欧几里德算法 输入:正整数m,n 输出:m,n的最大公因子 1. int euclid(int m,int n) 2. { 3. int r; 4. do { 5. r = m % n; 6. m = n; 7. n = r; 8. } while(r) 9. return m; 10. } 一、算法的定义: 定义1.1算法是解某一特定问题的一组有穷规则的集合。 二、算法的特征: 1.有限性。算法在执行有限步之后必须终止。 2.确定性。算法的每一个步骤,都有精确的定义。要执行的每一个动作都是清晰的、无歧义的。 3.输入。一个算法有0个或多个输入,它是由外部提供的,作为算法开始执行前的初始值,或初始状态。算法的输入是从特定的对象集合中抽取的。 4.输出。一个算法有一个或多个输出,这些输出,和输入有特定的关系,实际上是输入的某种函数。不同取值的输入,产生不同结果的输出。 1

5.能行性。算法的能行性指的是算法中有待实现的运算,都是基本的运算。原则上可以由人们用纸和笔,在有限的时间里精确地完成。 1.1.2 算法设计的例子,穷举法 一、穷举法,是从有限集合中,逐一列举集合的所有元素,对每一个元素逐一判断和处理,从而找出问题的解。 二、例 例1.1百鸡问题。 “鸡翁一,值钱五;鸡母一,值钱三;鸡雏三,值钱一。百钱买百鸡,问鸡翁、母、雏各几何?” a:公鸡只数,b:母鸡只数,c:小鸡只数。约束方程: b +c a(1.1.1) + 100 = b a(1.1.2) + +c 5= 100 3/ 3 c(1.1.3) %= 3 1。第一种解法: a、b、c的可能取值范围:0 ~ 100,对在此范围内的,a、b、c的所有组合进行测试,凡是满足上述三个约束方程的组合,都是问题的解。 把问题转化为用n元钱买n只鸡,n为任意正整数,则方程(1.1.1)、(1.1.2)变成:+(1.1.4) n a= + c b 3 +3/ 5(1.1.5) + c n b a= 算法1.2百鸡问题 输入:所购买的三种鸡的总数目n 输出:满足问题的解的数目k,公鸡,母鸡,小鸡的只数g[],m[],s[] 1. void chicken_question(int n,int &k,int g[],int m[],int s[]) 2. { 3. int a,b,c; 4. k = 0; 5. for (a=0;a<=n;a++) 6. for (b=0;b<=n;b++) 7. for (c=0;c<=n;c++) { 8. if ((a+b+c==n)&&(5*a+3*b+c/3==n)&&(c%3==0)) { 9. g[k] = a; 10. m[k] = b; 11. s[k] = c; 12. k++; 13. } 2

什么叫算法简述算法基本特性。

1.什么叫算法?简述算法的基本特性。 2.如何评价一个算法?简述空间复杂性和时间复杂性的概念。 3.试分析下列各程序段的时间复杂性。 (1)i=1; (2) for(i=1; i<=m; i++) (3) x=n; /*n>1*/ k=0; for(j=1; j<=n; j++) y=0; n=100; A[i][j] = i * j; while(x>=(y+1)*(y+1)) do{k = k + 10 * i; y = y + 1; i++; }while(i ! 100); 4.简述下列概念:数据、数据元素、数据类型、数据结构; 5.简述数据的逻辑结构、数据的存储结构和数据运算的概念。 6.线性表可用顺序表和单链表作为存储结构。试问: (1) 两种存储表示各有哪些主要优缺点? (2) 如果有n 个表同时并存,且处理过程中个表的长度会动态发生变化,表的 总数也可能自动变化,在此情况下应选用哪种存储表示?为什么? (3) 若表的总数基本稳定,且很少进行插入和删除,但要求以最快速度存取表 中元素,这时应采用哪种存储表示?为什么? 7.设ha 和hb 分别是两个带表头结点的升序单链表的表头指针。试设计一个算法将这两个链表合并成为一个降序单链表。要求结果链表仍使用原来两个链表的结点空间而不另开辟其他存储空间,表中允许出现重复数据。 8.设有一个线性表12(,,,)n L a a a = ,试分别在顺序表和单链表两种存储表示方式下,各设计一个将线性表L 逆置的算法,要求不重新开辟存储空间。所谓逆置是指将线性表中的元素次序颠倒过来,即成为11(,,,)n n L a a a -'= 。 9. 设有一个栈,元素的进栈次序依次为A, B, C, D, E. 试问能否得到下面的出栈序列?若能请写出操作序列,若不能请说明原因。 (1) C, E, A, B, D (2) C, B, A, D, E (3) D, C, A, B, E (4) A, C, B, E, D (5) A, B, C, D, E (6) E, A, B, C, D 10. 何谓队列的上溢现象?解决它有哪些方法?分别简述其工作原理。 11.试写一个算法,它借助栈逆置一个单链表。 12.已知一棵树边的集合为{,,,,,,,,,,,,},请画出这棵树,并回答下列问题:(1)哪个结点是根结点?(2)哪些是叶子结点?(3)哪个是结点g 的双亲?(4)哪些是结点g 的祖先?(5)哪些是结点g 的孩子?(6)哪些是结点e 的子孙?(7)哪些是结点e 的兄弟?哪些是结点f 的兄弟?(8)结点b 和n 的层次号分别是什么?(9)树的深度是多少?树的度是多少?(10)以结点c 为根的子树深度是多少? 13 试分别画出具有3个结点的树和3个结点的二叉树的所有不同形态。 14 已知一棵度为k 树中有1n 个度为1的结点,有2n 个度为2的结点, ,有k n 个度为k 的结点,问:树中有多少个叶子结点?

结构力学第23次课 第7章位移法基本概念 杆件的刚度方程2012-5-29

love的含义:“L”代表Listen(倾听)“O”代表Obligate(感恩)“V”代表 Valued(尊重)“E”代表Excuse(宽恕),我们都想要一份长久的爱,所以要 永远学会-倾听对方,感谢对方,尊重对方,宽恕对方。 2012-5-29 《结构力学》第23次课第7章位移法7-1 位移法基本概念 (续上次课内容)7-1 位移法基本概念 1.2位移法的基本未知量和基本结构 (1)位移法的基本未知量 位移法的基本未知量是结点位移独立结点角位移 独立结点线位移 基本未知量=独立结点角位移数+独立结点线位移数(不包括静定部分) 独立结点角位移数=结构刚结点数 独立结点线位移数的确定:简单结构用观察法; 复杂结构作铰结图。 作铰结体系图: ①将原结构所有刚结点(包括固定端)和固定支座均改为铰结,即作铰结体系图。注意:原结构的链杆支座、铰支座、及两平行链杆与杆轴平行的滑动支座不予改变,而两平行链杆与杆轴垂直(或斜交)的滑动支座,只保留一根链杆。 ②进行几何组成分析,若体系几何不变,无结点线位移;若几何可变或瞬变,看最少添加几根支座链杆才能保证几何不变,所添加的最少链杆数就是原结构的独立结点线位移数。 一般的如何确定位移法的基本未知量,主要有: 一个刚结点有一个角位移; 一层有一个独立结点线位移-----独立结点线位移的数目等于刚架的层数 3个基本未知量--2个角位移、1个独立结点线位移6个基本未知量---4个角位移、2个独立结点线位 移 (2)位移法的基本结构 位移法的基本结构是单跨超静定梁的组合体 假想地: 1)、在刚结点上加“附加刚臂”阻止结点转动 2)、在刚结点(或铰结点)沿线位移方向加“附加链杆”阻止结点移动。

统计学基本概念和步骤

统计学基本概念和步骤一、统计学中的几个基本概念 总体根据研究目的确定的、同质的全部研究对象(严格地讲,是某项观察值的集合)如研究2008年中国60岁以上的老人血清总胆固醇含量,测定值的全部构成了一个总体 样本随机化的原则从总体中抽出的有代表性的观察单位组成的子集称作样本,如DM患者中随机抽取有代表性一组患者构成样本 抽样误 差 由于随机抽样所造成的某变量值的统计量和总体参数之间存在的差异 变量数值变 量 变量值是定量的,表现为数值大小的变化,有度量衡单位。(计量 资料)如:身高(cm)、体重(kg) 分类变 量 变量值是定性的,表现为互不相容的类别或属性。(计数资料) 如:性别分男女两类 有序数 据 半定量数据或等级资料,临床疗效可分为治愈、显效、好转、无效 四级,尿糖(-、+、++、+++) 概率描述随机事件(如发病)发生可能性大小的度量为概率,常用P表示。在0和1之间,P≤0.05的随机事件,通常称作小概率事件,即事件发生的可能性很小 同质和变异同质除了实验因素外,影响被研究指标的非实验因素相同变异是在同质的基础上被观察个体之间的差异 参数和统计 量 总体的统计指标称为参数,样本的统计指标称为统计量统计设计统计工作最关键的一步,整个研究工作的基础 数据整理对数据质量进行的检查,考虑数据分布及变量转换,检查异常值和数据是否符合特定的统计分析方法要求等

统计描述描述及总结一组数据的重要特征,其目的是使实验或观察得到的数据表达清楚并便于分析 统计推断由样本数据的特征推断总体特征的方法 A.等级资料 B.计数资料 C.计量资料 D.分别变量 E.参数因素 在统计学中,数值变量构成 在统计学中,分类变量构成 在统计学中,有序数据构成 『正确答案』C;B;A 下列不属于计量资料的是 A.体重(kg) B.血型(A、B、O、AB型) C.身高(cm) D.每天吸烟量(1-5支) E.白细胞(个/L) 『正确答案』B 定量资料的统计描述 (一)考什么? (1)集中趋势指标 (2)离散趋势指标 (3)正态分布的特点与面积分布规律 (二)最重点是什么? 正态分布的集中趋势和离散趋势的指标 (三)最难点的是什么? 概念和正态分布的特点与面积分布规律

法律基本概念

法律基本概念 1. 民警张某因工作失职被处以警告处分,张某所受的制裁是()。【单选题】 [单选题] * A.刑事制裁 B.民事制裁 C.经济制裁 D.行政制裁(正确答案) 2. 下列关于法律效力的表述正确的是()。单选题 [单选题] * A.法律一经公布,即产生法律效力 B.一切法律的效力级别高低和范围大小都是由刑法、民法等基本法律所规定的C.法律原则上没有溯及力(正确答案) D.为了保证法律的权威性,可以选择在特定范围内公布法律 3. 2015年12月27日通过的《反恐怖主义法》于2016年1月1日起正式实施。从法律效力的角度看,这是指法的()。【单选题】 [单选题] * A.时间效力(正确答案) B.空间效力 C.对人的效力 D.溯及力 4. 下列情形中,属于法律制裁的是()。【单选题】 [单选题] * A.王某(私企职员)因经常旷工被单位开除 B.林某因闯红灯被罚款200元(正确答案) C.常某被学校依据校规予以警告

D.钟某因生活作风问题被开除党籍 5. 张某的父亲死后,其母翟某将张家住宅独自占用。张某对此深为不满,拒绝向翟某提供生活费。翟某将张某告上法庭,法官审理后判决张某每月向翟某提供生活费300元。下列说法正确的是()。【单选题】 [单选题] * A.该事件表明,子女对父母只承担法律义务,不享有法律权利 B.法官作出判决本身是一个法律事实(正确答案) C.法官的判决在原告、被告之间不形成法律权利与法律义务关系 D.子女赡养父母主要是道德问题,不应由法律调整 6. 下列关于法律有关概念的说法正确的是()。【单选题】 [单选题] * A.法的执行主体是中国共产党和国家政权机关及其工作人员 B.在我国,人民法院是代表国家行使司法权的唯一的专门机关 C.司法活动的对象是案件,主要内容是裁决涉及法律问题的纠纷和争议及对有关案件进行处理(正确答案) D.法律效力,即法律的约束力,是指人们在实际生活中由于行为或按照法律规定而应承受的某种不利法律后果 7. 下列属于司法行为的是()。【单选题】 [单选题] * A.公安机关对陈某与刘某予以治安调解 B.公安机关对蒋某给予治安管理处罚 C.公安机关根据群众检举对某人的抢劫行为进行侦查(正确答案) D.公安民警在下班途中发现两个人发生口角,对其进行劝解 8. 下列事项中,除了制定法律,可以通过其他法律形式进行规范的是()。【单选题】 [单选题] * A.武警战士为抓捕恐怖分子征用群众的手机用于通信联系 B.民警在实行现场管制时对拒不服从的人员强行带离 C.公民在异地补领居民身份证(正确答案)

相关文档
最新文档