语义成分分析方法及其应用

语义成分分析方法及其应用
语义成分分析方法及其应用

语义成分分析方法及其应用

重庆大学外语学院

余渭深

提要: 本文着重介绍Katz等人的语义成分分析方法的理论与实践。探讨了语义成分分析法在词汇理解、动词意义结构和句法语义接口等语法分析、语义合成模式、概念结构等研究领域的应用。以期向读者介绍以语义成分分析为核心的语义学理论系统。

关键词:成分分析,词汇,语法,意义合成模式,概念结构

Abstract: This paper attempts to introduce some new semantic theories and practices based on semantic component analysis put forward by Katz and other contemporary linguists. The paper makes a detailed discussion on the application of the component analysis in the word meanings; grammatical analysis of the verb structures and the interface of syntax and semantics; semantic conflation; conceptual structure. The discussion provides readers with some insights on the system of new semantic theories.

Key words: component analysis, words, grammar, conflation, conceptual structure

引言

语义学作为语言学的一门分相学科研究属于对语言本体的研究。语义学的发展经历了几个主要的时期,形成了几种主要的语义研究模式,如解释语义学、生成语义学、逻辑数理语义学、格语法、齐夫语法等。这些模式的一个共同的宗旨就是用尽量客观的科学方法揭示语义的生成。尽管在探讨语义问题与句法关系的研究中,这些理论作出了不可估量的作用,但它们各自也存在不少的问题,对一些语言现象也显得无能为力。基于此,又有语言学家提出“成分分析”方法。该方法的初衷主要是研究词汇的语义含义。但如果把Katz、Talmy和Jackendoff 等人的理论做一系统的运用便不难发现,语义成分分析不仅可以运用于词汇的分析同样可以用于词组和句子,甚至篇章的分析。

语言学家普遍认为词汇不是语义构成的最小单位,而是由一些更小的语义单位组成的具有不同意义的单位;为此他们提出了语义成分分析理论与方法。

语义成分(semantic components / semantic primitives)分析法最早应用于词汇成分分析。如man[human] [adult] [male], woman [human] [adult] [female]。这一方法的广泛使用增加了语义学研究的科学性和可衡量性。语义成分分析之所以受到语义学家的重视有如下三方面的原因:

1.如上例的man 与woman的区别性特征只在[male, female]之间对立;成分分析方法

为揭示词汇语义关系提供了最为简便的方法;

2.它的运用不仅局限于词汇的语义关系的分析,而且能用于词汇层面的语言单位的

语义分析;

3.为概念结构的分析提供了新的方法。

1.语义成分分析与词汇理解

词汇的意义分析历来在语义学理论中占有不可忽视的地位。它是分析和理解大于词汇层面的语义生成的基础;忽略了词汇意义的理解就谈不上对语义的把握。

语义学研究中的解释语义学,专门致力于词汇的内在语义特征的研究。而其中的核心部分便是Katz 的语义理论框架。Katz的语义研究建立在生成语法的基础之上,弥补了Chomsky的生成语法不谈语义的缺陷,并最终导致了Chomsky对转换生成语法的修订。Katz

与Fodor于1963年合著了《语义理论结构》(The Structure of a Semantic Theory),提出了语义理论的基本框架,后来经Katz (1972)以及Postal(1964)等人的共同修正和补充才形成了较为成熟的理论模式。

这一理论结合了句法学与语义研究的基本观点,为语义研究的深入发展拓宽了视野。区分语义标示(semantic marker)和辨义成分(semantic distinguisher)构成了Katz词典的重要理论框架。根据这一区分,并结合投射原则,Katz为意义的生成给出了恰当的解释。

Katz等人认为1)语义规律具有递归性,它能确保句子的无限生成;2)句子与它所表达的意义之间的关系不是任意和单一的,句法和词汇共同参与了意义的构建。因而相同的词汇在不同的语法结构中其意思可能不一样,即使在同一的句法结构中,它们所处的位置不同也可能影响到意义的不同。换句话说,意义是通过各种方式合成的(compositional)。比如:

A. John killed Fred.

s v o

(agent) (patient)

B. Fred killed John.

s v o

(agent) (patient)

这两句所表达的意义刚好相反因为John和Fred在两句话中的格完全不同。也就是说,词构成词组,以及词组构成句子的不同方式是决定句子意义的关键因素之一。

但区分最小的语义成分的意义何在呢?深受转换生成语法学派的影响,Katz 等人认为语义学研究的形式也必须做到元语言化,这样才能适用于多种语言的语义成分分析。语义研究的内容包括语义成分的描述和语义成分的组合构建规律。Katz的研究提出了有语义标示(semantic markers)的词典(即Katz词典)以及一套语义生成构建的投射规则。两者结合不仅能对词汇意义做出正确的描述,而且还能对词组意义、句子意义的生成做出正确的解释。

下面我们以“She is a bachelor”为例来看看这一理论是如何运作的。要了解这句话的意义,首先要在一定的语境中让说话双方都清楚“she”是指谁,确定“she”的性别没有歧义,即自然的性别;然后再到Katz词典中查找bachelor的意义并借助投射原则就可以理解这句话的意义。我们看到bachelor有如下的义项:

bachelor {N}

a.(human)(male)[one who has never married]

b.(human)(male)[young knight serving under the standard of another knight]

c.(human)[one who has the first or lowest academic degree]

d.(animal)(male)[young fur seal without a mate in the breeding season]

由于已经确定了she的所指对象,因而运用投射规则的原理我们可以排除义项中的a,b,d,只有c是唯一的选择。假如she的界定有特殊的用法,那么bachelor的选择义项就有可能不同,也就产生不同的意义。这也就是投射规则的选择限制制约的结果。Katz运用于这一理论中的投射规则与Chomsky的投射原理是一致的,主要借助树形图反映意义的合成过程。那么这句话可以标示为:

在该图中单个词汇是根据投射原则逐步达到最终的意义的。Katz 这一理论说明 词汇语义成

分的内在结构决定了意义的选择。

意义的合成性(compositional),即意义是由不同的词、词组的不同排列方式而产生的

是Katz 理论的基础。在这一基础上他们热衷于描述词汇最小的语义成分。通过对词汇语义

成分的描述,企望揭示元语言,并用于对句子中各种语义成分的搭配关系和意义,对词汇的

搭配规律做出解释。但他们做这一尝试的目的是为了建立一套语义研究的元语言,而这套元

语言的建立有赖于对句子意义的逐个分解研究。因而词汇的语义成分分析(decomposition )

是Katz 等人的语义学理论的核心。同时,他们还把语义成分分析理论广泛用于词汇学研究

中的一些传统领域,如词汇的上下义、同义、反义、对立、包含等关系,同样取得了令人瞩

目的成就。为词汇学研究开辟了新的方法。

2. 语义成分分析与语法研究

很多语言学家都宣称语法学与语义学不能截然分开,语义成分分析可以用于描述语法过

程,也就是说,某些语法意义是包含在不同的词汇语义中的。只有把语言的结构形式和意义

关系两种分析结合起来才能对各种复杂的语言现象做出正确的解释。目前语义成分分析理论

已经受到语言学家的关注,并广泛运用到动词的语义分类、句法语义的接口研究中。

2.1 动词的语义分类

动词的语义分类很早就受到语言学家的关注。只有对动词的语义成分做出正确的描述,

才能对动词的句法特征做出正确的解释。

Beth Levin (1993) 通过对cut, break, hit, touch 四个动词的语法规律的研究指出了它们的

基本语义特征,并在此基础上分解出动词的共同语义成分。首先 Levin 研究了这四个动词

与三个不同的结构之间的搭配使用情况:

1)中动动词结构: 即句法上的主语是动作的承受者。

a. The bread cuts easily.

b. Crystal vases break easily.

c. *Cats touch easily.

d. *Door frames hit easily.

S4

NP1

VP3

Det N V NP2

Det N

0 she is a bachelor

可以看出touch 和hit 不出现在这样的结构中。

2) 意动动词结构:动词后可接“at”这样的介词,而全句意义不变。如:

a.Margaret cut at the bread.

b.*Janet broke at the vase.

c.*Terry touched at the cat.

d.Carla hit at the door.

同样,break 和touch 也不出现在这类结构中。

3) 身体部分上移的动词结构:即动作的承受者可以分为承受者本人和动作的具体承受部位相结合的结构。如:

a.Margaret cut Bill's arm. = Margaret cut Bill on the arm.

b.Janet broke Bill's finger. *Janet broke Bill on the finger.

c.Terry touched Bill's shoulder. = Terry touched Bill on the shoulder.

d.Carla hit Bill's back. = Carla hit Bill on the back.

显然,break 不适用这类结构。

在这种研究的基础上并通过分解归纳出动词的共同语义成分,即CHANGE, MOTION, CONTACT, CAUSE。再以cut,break,touch,hit 四个动词为例:

Cut: CAUSE, CHANGE, MOTION, CONTACT

Break: CAUSE, CHANGE

Touch: CONTACT

Hit: CONTACT, MOTION

拥有不同的语义成分决定了不同的句法结构。比如由于cut具备四个语义成分,因而上述三种结构它都可以出现。也就是说,把握动词的语义类别是对一些较特殊动词的句法结构的分析关键。

2.2 句法与语义的接口

自菲尔墨提出格语法以来,许多语言学理论都致力于句法与语义的接口研究。题元理论就是其中一个成果丰硕的研究领域。它把研究的重点放在名词上,认为“动作的中心是经历了位置移动或转变的物体,称为主体(theme)(徐烈炯1995)。它们强调一种语言理论对这些主题的解释不仅仅指示它的句法作用即主语或者宾语等,更重要的是需要同步揭示它抽象的语义内涵。在他们眼里名词是具有句法功能和语义内容的题元角色(thematic roles)或题元。它们能表示主体、来源、目标、处所、施为等题元关系。

他们的研究领域为成功地揭示句法结构的语义概念,为句法与语义接口研究奠定了发展基础。

但题元理论对名词的语义分类较为肤浅和简单化,对一些较为特使的句法结构的分析仍然显得一筹莫展,比如题元理论对“方位变化的动词”(locative alternation verbs) 的分析就缺乏对语义的完整解释:

a.He loaded newspaper onto the van.

b.He loaded the van with newspaper.

a.She sprayed pesticide onto the roses.

b.She sprayed the roses with pesticide.

根据题元理论我们不难确立句法上的直接宾语在a 句中为物体 (theme), 而b句中的则为目标(goal),但这种匹配分析不能揭示a, b句之间的语义差别。细细品味,不难发现b句在语义上突出“满”(装满,涂满等)。 a,b句的对照翻译如下:

1. a. 他把报纸装上车。

b.他把车上装满报纸。

2. a. 她把杀虫剂喷撒在玫瑰上。

b. 她把玫瑰上喷满杀虫剂。

对运动方位动词(movement-to-location verbs)分析,题元理论也显得十分苍白无力,如:

Adele poured oil into the pan.

*Adele poured the pan with oil.

Adele filled the pan with oil.

Adele filled the oil into the pan.

Adele brushed oil onto the pan.

Adele brushed the pan with oil.

题元理论不能揭示为何pour, fill, brush同为运动方位动词,但pour却不能接受”目标”作为直接宾语。

由此看来题元理论作为句法语义的接口理论也有其自身的局限性。人们需要把这种接口理论建立在更为准确的语义分析的基础之上。Levin(1985),Pinker(1989)提出在句法语义接口分析中引入动词语义成分的解构分析(decomposition)。

在对动词语义进行系统的研究后,他们总结了以下几种动词的语义成分,以及与之相应的题元角色。

1)移动物体动词:X causes Y to move into/onto Z.

这类动词包括简单动作动词,如put, push等;和强调方式的动作动词,如:pour, drip, slosh 等。

2)产生状态改变的动词:X causes Z to change state by means of moving Y into/onto it.

这类动词包括fill, coat, cover等,它们不允许目标作为动词的直接宾语。

3)强调移动目标的动词:X causes Y to move into/onto Z,动词的焦点是Z。

这类动词有spray, paint, brush等。

同样,运用动词语义成分的结构分析方法,我们还能对其它语义类别的题元结构作出较为完整的语义解释。比如对“移出方位(locative verbs describing removal),如clear, wipe, remove 等动词的结构变化仅靠大致的题元解释是无能为力的。如:

Robert cleared the bar of dishes.

B ?Christy wiped the glasses of lipstick.

?Olivia removed the crate of eruptions.

以上两组句子看出,同为移出方位动词,有的可以隐去物体(theme) 如clear, wipe, 有的则不能隐去,如remove, 有的可以用of 结构引出物体,如clear, 有的则不能,如wipe, remove.

为了解决这类问题,Levin and Rapport Hovav 1991 对这类动词的语义特征进行了归纳,分为三类:

1)一般方位移出结构:X causes Y to go away from Z 如remove, take

2)强调移出方式的结构:X causes Y to go away from Z but includes specification of the means of removal

这种结构又可分为两类:

a)强调移出方式(manner), wipe(擦去), rub, scrub.

b) 强调移出工具(instrument), brush(刷), hose, move

3) 强调移出变化状态的结构X causes Z to change by removing Y,如clear (清除), empty (排

空), drain (放干)。

这三类移出动词内在的语义特征决定了它们的题元结构关系。如强调状态和方式的移出动词可以隐去物体(theme),用来源(source) 动词的直接宾语,而一般移出动词则不能接受这种结构。强调移出状态的动词可以接受在直接宾语的”来源“后由of引导的物体(theme), 另两类结构排斥这种由of 引导的物体(theme)。

从以上的分析可以看出句法与语义的接口研究必须充分考虑动词语义的内在结构,把握内在的语义构成成分。只有这样我们才能对题元结构做出符合语言直觉意义的解释,才能对动词的意义,题元结构,以及题元结构变化作出科学的解释。

3. 语义成分的合成模式

除用于讨论语法结构之间的差异外, 语义对比研究的另一个重点是不同语言中语义的实现方式。在这样的研究当中语义成分的研究又成为研究中的重点。

语义成分的合成模式是当前语义学研究的另一个热点领域。从句法功能角度的分析,句子包括Figure, Motion, Path,Manner和ground等语义成分。Figure指的是与另一个物体(目标)相对而言运动的或是处于某一位置的物体。它的参照目标被称作Ground。Motion则指该事件中的动作本身;Path指作为Figure的物体运动的路径或所处的位置;Manner则指运动的方式。这些成分并不是和语言中的词汇一一对应的,多个语义成分可以合成在某一词汇和语法结构之中。Talmy(1985)在研究动词的语义时,提出了三种常见的复合模式:

1. 运动与方式合二为一

Conflation with Motion with Manner (Talmy 1985:62)

Figure Motion Path Ground Manner/cause

Move

Beloved

如:He ran out of the house.

Figure: he Motion with Manner: ran Path: out of Ground: the house 他从房间里跑出。

Figure:他Motion with Manner:跑出Path: 从…里Ground:房间

2. 运动与路径合二为一

Conflation with Motion with Path(Talmy 1985:69)

Figure Motion Path Ground Manner/cause

Move

Be located

如:Subio las ecaleras corriendo.

(Went-up the stairs running)

西班牙语主要表现为这种类型。

3. 运动与主体合二为一

Conflation with Motion with Figure(Talmy 1985:73)

Figure Motion Path Ground Manner/cause

Move

Be located

这类模式的重点与前面两种不同在于它注重的是什么在移动,也就是说Figure 与动作是不可分的。

根据这几种语义成分在各种语言中的分布情况和出现频率,Talmy把世界语

言分为如下几种:

1. Path+fact-of-Motion 路径+运动事实

2. Manner/Cause + fact-of-Motion 方式+运动事实

3. Figure +fact-of-Motion 事物+运动事实

Talmy 的语义合成模式研究为跨文化研究拓展了一个崭新的领域..

4. 语义成分分析与概念结构

语义成分分析得到了许多认知心理学家的赞成和支持。他们认为语义分解理论具有心理现实(psychological reality),语言的意义是由语义成分组成的概念意义。以Jackendoff 为首的心理语义学家认为意义的解释就是对心理表现(mental representations)的描述过程。他的理论首先建立在“心理假设”(mental postulate) 的基础上。也就是说,人的大脑中存在一种模式,这种模式为意义的产生和解释提供了可能和基础:Meaning in natural language is an information structure that is mentally encoded by human being. (Jackendoff 1987:122; Saeed 1997:249)

词汇、句子的意义虽然千差万别,但语义的概念结构却呈现高度的稳定性和概括性。正是这种稳定的、概括的概念结构为人们理解复杂的语言提供了可靠的工具。比如在传统的语义学中,人们研究句子的蕴涵关系常用下列表述:

X killed Y entails Y died.

X lifted Y entails Y rose.

X gave Z to Y entails Y received Z.

X persuaded Y that P entails Y came to believe that P.

Jackendoff 认为这种描述只停留在词汇水平上,忽略了这些动词中存在的一个共同的语义成分,即CAUSE。这些句子可以抽象概括成一个简单的概念结构:X causes E to occur entails E occurs.

这种概念结构不仅存在于词汇语义的理解中,同时也存在于句子语义的理解中。心理语义学家认为人们对句子的理解同样是建立在一些抽象的概念结构的基础之上。Jackendoff 在研究中提出了一些适用于任何语言的句子概念结构。它们是事件(Event)、状态(State)、事物(Material thing or Object)、路径(Path)、地点(Place) 和性质(Property) 。他认为,句子都是建立在这几种语义关系的基础上的,都是由这几种语义关系构成的概念结构。而其中,事件和状态是最基本的结构。比如:“Bill went into the house.” 就是一个“事件结构”。作为一个概念结构,这句话的概念结构描述与句法描述有所不同。

句法描述:[s[NP Bill][VP[v Go][p P[into] [NP [the house]]]]

概念结构描述:[Event Go([Thing Bill][Path To ([Place IN ([Thing House] )] )] )] 这种概念结构还可以用树型图表示(Pinker 1985):

事件(Event)

动词事物路径

地点

go Bill to

in 事物

house

而“The car is in the garage”则属状态结构,图式如下:

状态

动词事物地点

Be car in 事物

garage

对be 动词,Jackendoff区分了几个类别,分别表示“所处位置”,“是…”,“时间”,“所有”等。但它们都有同一的结构,如:

This book belongs to John.

状态

动词事物地点

Be (poss.) book at 事物

John

复杂句子的概念结构则是由一个个简单的事件或状态结构不停递归而产生的。如“The pool emptied.”就是一个事件和一个状态结构的组合。首先这个句子表现为一个事件,这个事件就是pool变成现在empty的状态。用他的图式即是:[Event Inch([State BE Ident(([thing Pool],[place A T([Property EMPTY])])])]. 这也就是为什么他说事件和状态结构是语言中最基本的概念结构。

除了词汇语义、句子语义的概念结构之外,Jackendoff等人还对语法意义的概念结构进行了深入的讨论,比如名词的单复数、动词的时态、复合名词等,丰富了语义语法学接口的研究理论和领域。他们从原始语义成分(semantic primitives) 入手,揭示了支配人们言语理解的概念结构。

5. 结束语

语义成分分析法为客观、准确地揭示语义的本质,提供了可靠的手段。语义成分的理解是人们掌握词汇意义、语法意义以及篇章语义的基础。它的运用非常广泛,能用于分析各种不同的语义关系。它不仅可以用于研究词汇的语义关系、语句间的语义关系,还可以用于研究语法意义和认知心理意义,甚至还可以用于跨文化的语言对比研究。正确地认识这些成分,有助于构建正确的语义研究理论和方法,推动语义学研究向纵深发展。

主要参考文献

Saeed, J.I.(1997) Semantics. Oxford: Blackwell Publishers.

Jackendoff, R.(1987).Consciousness and the Computational Mind. Cambridge, MA:MIT Press.

里奇(1981)《语义学》李瑞华等译上海外语教育出版社。

Levin, Beth &Malka Rapport Hovav (1991). Wiping the slate clean: a lexical semantic

exploration. In Beth Levin and Steven Pinker (eds) “Lexical and Conceptual Semantics”.

P123-51. Oxford: Blackwell.

Lyons, J.(1981). Language, Meaning and Context. London:Fontana.

Pinker, S.(1989) Learnability and Cognition: The Acquisition of Argument Structure. Cambridge, MA: MIT Press.

Talmy, L. (1985) Lexicalization patterns: semantic structures in lexical forms. In Timothy shopen (ed) Language Typology and Syntactic Description, V ol.3. Cambridge University Press

潘文国(1997)《汉英语对比纲要》北京语言文化大学出版社。

伍谦光(1997)《语义学导论》湖南教育出版社。

徐烈炯,沈阳(1998)《题元理论与汉语配价问题》《当代语言学》98年第三期

徐烈炯(1988)《生成语法理论》上海外语教育出版社。

徐烈炯(1995) 《语义学》语文出版社

(联系地址:400044,重庆大学外语学院)

语义分析

语义分析 1.语义分析? 机器机和人不一样的地方是人可以直接理解词的意思,文章的意思,机器机不能理解。 人看到苹果这两个字就知道指的是那个圆圆的,挺好吃的东西,搜索引擎却不能从感性上理解。但搜索引擎可以掌握词之间的关系,这就牵扯到语义分析。 可参考:https://www.360docs.net/doc/fd3359527.html,/dispbbs.asp?boardID=2&ID=74541 2.为什么要使用语义分析? 我国中文自然语言处理普遍采用西基于拉丁语系的“关键词”技术,以此来分析理解中文。然而,中文本身的特点决定它与西语之间巨大的区别,所以从汉语信息处理的需要看,当前急迫需要突破的是语义问题。 可参考: https://www.360docs.net/doc/fd3359527.html,/dicksong2008/blog/item/88fb751e9ac9501a4134 17f4.html 2.1中文与西语不同决定我们无法采用西语的架构体系来处理中文,具体区别在于: 西语词间有间隔,汉语词间无间隔。众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。 例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。 “我是一个学生”,分词的结果是:“我是一个学生”。中文分词就成了计算机处理的难题。 汉语形态不发达,句尾没有形态标记。英语动词、名词很清楚,加上词尾可以是副词;西语有时态,过去式、现在式等等非常清楚,中文则依靠词语或者依靠自己的判断来确定时态。 同音字多增加了机器识别的难度。 汉语语义灵活,由于形态不发达,所以语序无规律。在一次学术会议上,一位著名的人工智能专家说:“按…主-谓-宾?或…名-动-名?这一规则,计算机可显出…牛吃草?,也可显出…草吃牛?。从语法格式上看,…草吃牛?也不错,但这句话是说不通的。 人依靠自己的经验可以判断,机器如何来判断呢?

语义学笔记整理

第一章作为语言学一个分支的语义学 语义学的建立以法国学者米歇尔·布勒阿尔1897年7月出版《语义学探索》为标记。 该书1900年翻译为英文“语义学:意义科学的研究(Semantics:Studies in the Science of Meaning)”。 这本专著材料丰富,生动有趣,重点在词义的历史发展方面,兼顾词汇意义和语法意义。 全书共三编:1,讲词义变化的定律,介绍变异、扩散、类推等概念;2,讲如何确定词义,介绍释义、比喻、多义、命名等;3,讲词类、词序、组合规则等,涉及语法意义。 除了语言学的语义学,还有逻辑学的语义学,哲学的语义学,还有心理学家对语义的研究。 a,逻辑学的语义学是对逻辑形式系统中符号解释的研究,又称“纯语义学”,对象并非自然语言的语义。 b,哲学的语义学围绕语义的本质展开涉及世界观的讨论。“语义学”或“语义哲学”又是本世纪前半叶盛行于西方的至今仍有影响的一个哲学流派的名称。 c,心理学家研究语义,主要是想了解人们在信息的发出和接收中的心理过程。 d,语言学的语义学把语义作为语言(乃至言语)的一个组成部分、一个方面进行研究,研究它的性质,内部结构及其变异和发展,语义间的关系等等。 布勒阿尔的书给语义的发展以重要地位,声称研究语义的变化构成了语义学。同时它把语义限制在“词语”的意义上,主要是词义上。这两个特点一直贯穿在他以后半个多世纪的若干代表性著作里。 继布勒阿尔之后,一部有世界影响的语义学专著是两位英国学者奥格登和理查兹合写,1923年出版的《意义的意义》(The Meaning of Meaning)。这两位学者还曾共同创制了后来遭到各种非议的“基本英语”(Basic English).

主成分分析法运用

统计学简介及在实践中的应用 --以主成分分析法分析影响房价因素为例 姓名:阳飞 学号:2111601015 学院:经济管理学院 指导教师:吴东武 时间:二〇一七年一月六日

1 简介 统计语源最早出现于中世界拉丁语的Status,意思指各种现象的状态和状况。后来由这一语根组成意大利语Stato,有表示“国家”的概念,也含有国家结构和 国情知识的意思。根据这一语根,最早作为学名使用的“统计”的是在十八世纪德国政治学教授亨瓦尔(G.Achenwall)。他在1749年所著《近代欧洲各国国家学纲要》一书的绪言中,就把国家学名定义为“Statistika”(统计)这个词。原意是 指“国家显著事项的比较和记述”或“国势学”,认为统计是关于国家应注意事项的学问。自此以后,各国就相继沿用“统计”这个词,更把这个词译成各国的文字,其中,法国译为Statistique;意大利译为Statistica;英国译为Statistics;日本最初译为“政表”、“政算”、“国势”、“形势”等,直到1880年在太政官中设立了统计院,这个时候才确定以“统计”二字正名。 在我国近代史上首次出现是在1903年(清光绪廿九年)由钮永建、林卓南等翻译了四本由横山雅南所著的《统计讲义录》一书,这个时候才把“统计”这个词从日本传到我国。1907年(清光绪卅三年),由彭祖植编写的《统计学》在日本出版,同时在国内发行。这本书是我国最早的一本“统计学”书籍。自此以后“统计”一词就成了记述国家和社会状况的数量关系的总称。 关于“统计”这个词,后来又引申到了各种各样的组合,包括:统计工作、统计资料、统计科学。 统计工作是指利用科学的方法搜集、整理、分析和提供关于社会经济现象数量资料的工作的总称,它是统计的基础,也称统计实践或统计活动。是在一定统计理论指导下,采用科学的方法,搜集、整理、分析统计资料的一系列活动过程。

SPSS进行主成分分析的步骤(图文)精编版

主成分分析的操作过程 原始数据如下(部分) 调用因子分析模块(Analyze―Dimension Reduction―Factor),将需要参与分析的各个原始变量放入变量框,如下图所示:

单击Descriptives按钮,打开Descriptives次对话框,勾选KMO and Bartlett’s test of sphericity选项(Initial solution选项为系统默认勾选的,保持默认即可),如下图所示,然后点击Continue按钮,回到主对话框: 其他的次对话框都保持不变(此时在Extract次对话框中,SPSS已经默认将提取公因子的方法设置为主成分分析法),在主对话框中点OK按钮,执行因子分析,得到的主要结果如下面几张表。 ①KMO和Bartlett球形检验结果:

KMO为0.635>0.6,说明数据适合做因子分析;Bartlett球形检验的显著性P值为 0.000<0.05,亦说明数据适合做因子分析。 ②公因子方差表,其展示了变量的共同度,Extraction下面各个共同度的值都大于0.5,说明提取的主成分对于原始变量的解释程度比较高。本表在主成分分析中用处不大,此处列出来仅供参考。 ③总方差分解表如下表。由下表可以看出,提取了特征值大于1的两个主成分,两个主成分的方差贡献率分别是55.449%和29.771%,累积方差贡献率是85.220%;两个特征值分别是3.327和1.786。 ④因子截荷矩阵如下:

根据数理统计的相关知识,主成分分析的变换矩阵亦即主成分载荷矩阵U 与因子载荷矩阵A 以及特征值λ的数学关系如下面这个公式: λi i i A U = 故可以由这二者通过计算变量来求得主成分载荷矩阵U 。 新建一个SPSS 数据文件,将因子载荷矩阵中的各个载荷值复制进去,如下图所示: 计算变量(Transform-Compute Variables )的公式分别如下二张图所示:

主成分分析法的原理应用及计算步骤..

一、概述 在处理信息时,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠,例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。 为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。 主成分分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,通常综合指标(主成分)有以下几个特点: ↓主成分个数远远少于原有变量的个数 原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。 ↓主成分能够反映原有变量的绝大部分信息 因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。 ↓主成分之间应该互不相关 通过主成分分析得出的新的综合指标(主成分)之间互不相关,因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。 ↓主成分具有命名解释性 总之,主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法。 二、基本原理 主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标X1,X2,…,XP (比如p 个指标),重新组合成一组较少个数的互不相关的综合指标Fm 来代替原来指标。那么综合指标应该如何去提取,使其既能最大程度的反映原变量Xp 所代表的信息,又能保证新指标之间保持相互无关(信息不重叠)。 设F1表示原变量的第一个线性组合所形成的主成分指标,即 11112121...p p F a X a X a X =+++,由数学知识可知,每一个主成分所提取的信息量可 用其方差来度量,其方差Var(F1)越大,表示F1包含的信息越多。常常希望第一主成分F1所含的信息量最大,因此在所有的线性组合中选取的F1应该是X1,X2,…,XP 的所有线性组合中方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p 个指标的信息,再考虑选取第二个主成分指标F2,为有效地反映原信息,F1已有的信息就不需要再出现在F2中,即F2与F1要保持独立、不相关,用数学语言表达就是其协方差Cov(F1, F2)=0,所以F2是与F1不

语义成分分析法解析

龙源期刊网 https://www.360docs.net/doc/fd3359527.html, 语义成分分析法解析 作者:王凌之崔艳嫣 来源:《外语学法教法研究》2014年第04期 【中图分类号】H313 【文献标识码】A 【文章编号】2095-3089(2014)04-0087-01 成分分析(componential analysis)是一种语义微观分析的理论和方法。欧美学者在对词或者语素作微观分析的时候旨在从语言符号的内容平面分析出最小的、不可再分的单位,即具有区别性特征的最小语义单位。这种语义单位叫做“义子”或“语义成分”。在语言学范畴的语义研究中最早提出成分分析的是叶尔姆斯列夫。 一、成分分析的基本原理和特点 成分分析的基础是语义对比,根据对比特征的组合描述词义。特点之一是对词的所指进行逻辑分析,把单个词的所指分割成最小组成单位,从而对词义结构作微观描写的方法。二是采用元语言表示语义成分,用语义成分公式解释词义,如:[HUMAN]、[ADULT]、[MALE]等。元语言实际上不属于任何一种自然语言,但它可以用来描述任何一种自然语言。三是二元对立是语义成分的基本特征之一。通常情况下 , 语义成分表现为成对的意义相反的语义单位, 例如human nonhuman, male female,adult non?鄄adult, etc。利用此类语义成分,词义可以表示为该词所包含的基本义素,例如:从英语单词rooster中可以抽出下列语义成分[CHICKEN, ADULT, MALE]。语义成分在很多情况下都反映某种对立关系,对于如何进行表示也须界定。词汇可 分为“无标记的(unmarked)和有标记的(marked)”两种情况,在语义对立的两个词中无标记的那 个词通常可以涵盖有标记的词,反之则不成立。 二、成分分析的理论价值和实际应用 1.便于较精确而简便地描述词义和说明与语义关系。使用成分分析法,我们就能用数量不多的语义成分给许多词下定义,如ram(公羊) [+SHEEP][+MALE][+ADULT]等等。也便于在对比中辨析异同,从而较精确地描述词义。基于人类语言在“认知结构”方面的共性,从词汇中分解出带有普遍性的语义成分,这样做的优越性在于使得语义成分适用于分析任何自然语言。例如:在英语中“man”可以分解为[HUMAN, ADULT, MALE],而在汉语中“男人”同样可以分 解为[人,成年,男性]。如果采用一套既定的符号元语言表示,英语中的“man”和汉语中的“男人”乃至其他任何语言中具有相同含义的词都可以表示成同一种形式。这样不仅便于语言学家在进行研究时描写不同的语言对象,更能体现出人类在认知方面的外在相似性和内在一致性。 2.为语言学各分支学科研究与语义相关的一些问题提供了有用的工具。首先语义成分分析法可用于确定一定的语法结构形式是否合理,亦即它在语义上的可接受性。例如:A.小孩踢足球。B.足球踢小孩。两个句子的句法结构形式相同,都是名词+动词+名词,为什么A合理而B 不合理?原因就在于一个句子是否成立,不仅要看它在句法上是否合理,还要看它在语义上是

现代汉语语法的五种分析方法

现代汉语语法的五种分析方法

现代汉语语法的五种分析方法 很有用,请好好学习之。 北语之声论坛专业精华转贴 现代汉语语法的五种分析方法是语法学基础里 很重要的一个内容,老师上课也会讲到,我在这 里把最简略的内容写在下面,希望能对本科生的专业课学习有所帮助 详细阐释中心词分析法、层次分析、变换分析法、语义特征分析法和语义指向分析的具体内涵:一. 中心词分析法: 分析要点: 1.分析的对象是单句; 2.认为句子又六大成分组成——主语、谓语(或述语)、宾语、补足语、形容词附加语(即定语)和副词性附加语(即状语和补语)。 这六种成分分为三个级别:主语、谓语(或述语)是主要成分,宾语、补足语是连 带成分,形容词附加语和副词性附加语是附加成分; 3.作为句子成分的只能是词; 4.分析时,先找出全句的中心词作为主语和谓

语,让其他成分分别依附于它们; 5.分析步骤是,先分清句子的主要成分,再决定有无连带成分,最后指出附加成分。 标记: 一般用║来分隔主语部分和谓语部分,用══标注主语,用——标注谓语,用~~~~~~标注宾语,用()标注定语,用[ ]标注状语,用< >标注补语。 作用: 因其清晰明了得显示了句子的主干,可以一下子把握住一个句子的脉络,适合于中小学语文教学,对于推动汉语教学语法的发展作出了很大贡献。 还可以分化一些歧义句式。比如:我们五个人一组。 (1)我们║五个人一组。(2)我们五个人║一组。 总结:中心词分析法可以分化一些由于某些词或词组在句子中可以做不同的句子成分而造成的歧义关系。 局限性: 1.在一个层面上分析句子,

层次性不强; 2.对于一些否定句和带有修饰成分的句子,往往难以划分; 如:我们不走。≠我们走。 封建思想必须清除。≠思想清除。 3. 一些由于句子的层次关系 不同而造成的歧义句子无法分析; 如:照片放大了一点儿。咬死了猎人的狗。 二. 层次分析: 含义: 在分析一个句子或句法结构时,将句法构造的层次性考虑进来,并按其构造层次逐层进行分析,在分析时,指出每一层面的直接组成成分,这种分析就叫层次分析。 朱德熙先生认为,层次分析不能简单地将其看作是一种分析方法,而是应当看做一种分析原则,是必须遵守的。(可以说说为什么) 层次分析实际包含两部分内容:一是切分,一是定性。切分,是解决一个结构的直接组成成分到底是哪些;而定性,是解决切分所得的直接组成成分之间在句法上是什么关系。

主成分分析计算方法和步骤

主成分分析计算方法和步骤: 在对某一事物或现象进行实证研究时,为了充分反映被研究对象个体之间的差异, 研究者往往要考虑增加测量指标,这样就会增加研究问题的负载程度。但由于各指标都是对同一问题的反映,会造成信息的重叠,引起变量之间的共线性,因此,在多指标的数据分析中,如何压缩指标个数、压缩后的指标能否充分反映个体之间的差异,成为研究者关心的问题。而主成分分析法可以很好地解决这一问题。 主成分分析的应用目的可以简单地归结为: 数据的压缩、数据的解释。它常被用来寻找和判断某种事物或现象的综合指标,并且对综合指标所包含的信息给予适当的解释, 从而更加深刻地揭示事物的内在规律。 主成分分析的基本步骤分为: ①对原始指标进行标准化,以消除变量在数量极或量纲上的影响;②根据标准化后的数据矩阵求出相关系数矩阵 R; ③求出 R 矩阵的特征根和特征向量; ④确定主成分,结合专业知识对各主成分所蕴含的信息给予适当的解释;⑤合成主成分,得到综合评价值。 结合数据进行分析 本题分析的是全国各个省市高校绩效评价,利用全国2014年的相关统计数据(见附录),从相关的指标数据我们无法直接评价我国各省市的高等教育绩效,而通过表5-6的相关系数矩阵,可以看到许多的变量之间的相关性很高。如:招生人数与教职工人数之间具有较强的相关性,教育投入经费和招生人数也具有较强的相关性,教工人数与本科院校数之间的相关系数最高,到达了0.963,而各组成成分之间的相关性都很高,这也充分说明了主成分分析的必要性。 表5-6 相关系数矩阵 本科院校 数招生人数教育经费投入 相关性师生比0.279 0.329 0.252 重点高校数0.345 0.204 0.310 教工人数0.963 0.954 0.896 本科院校数 1.000 0.938 0.881 招生人数0.938 1.000 0.893

主成分分析法的步骤和原理

(一)主成分分析法的基本思想 主成分分析(Principal Component Analysis)是利用降维的思想,将多个变量转化为少数几个综合变量(即主成分),其中每个主成分都是原始变量的线性组合,各主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信息,且所含的信息互不重叠。[2] 采用这种方法可以克服单一的财务指标不能真实反映公司的财务情况的缺点,引进多方面的财务指标,但又将复杂因素归结为几个主成分,使得复杂问题得以简化,同时得到更为科学、准确的财务信息。 (二)主成分分析法代数模型 假设用p个变量来描述研究对象,分别用X1,X2…X p来表示,这p个变量构成的p维随机向量为X=(X1,X2…X p)t。设随机向量X的均值为μ,协方差矩阵为Σ。对X进行线性变化,考虑原始变量的线性组合: Z=μX+μX+…μX Z=μX+μX+…μX ……………… Z=μX+μX+…μX 主成分是不相关的线性组合Z1,Z2……Z p,并且Z1是X,X…X的线性组合中方差最大者,Z2是与Z1不相关的线性组合中方差最大者,…,Z是与Z1,Z2……Z p-1都不相关的线性组合中方差最大者。 (三)主成分分析法基本步骤 第一步:设估计样本数为n,选取的财务指标数为p,则由估计样本的原始数据可得矩阵X=(x ij)m×p,其中x ij表示第i家上市公司的第j项财务指标数据。 第二步:为了消除各项财务指标之间在量纲化和数量级上的差别,对指标数据进行标准化,得到标准化矩阵(系统自动生成)。 第三步:根据标准化数据矩阵建立协方差矩阵R,是反映标准化后的数据之间相关关系密切程度的统计指标,值越大,说明有必要对数据进行主成分分析。其中,R ij(i,j=1,2,…,p)为原始变量X i与X j的相关系数。R为实对称矩阵

主成分分析法及其在SPSS中的操作

一、主成分分析基本原理 概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术。 思路:一个研究对象,往往是多要素的复杂系统。变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。 原理:假定有n 个样本,每个样本共有p 个变量,构成一个n ×p 阶的数据矩阵, 记原变量指标为x 1,x 2,…,x p ,设它们降维处理后的综合指标,即新变量为 z 1,z 2,z 3,… ,z m (m ≤p),则 系数l ij 的确定原则: ①z i 与z j (i ≠j ;i ,j=1,2,…,m )相互无关; ②z 1是x 1,x 2,…,x P 的一切线性组合中方差最大者,z 2是与z 1不相关的x 1,x 2,…,x P 的所有线性组合中方差最大者; z m 是与z 1,z 2,……,z m -1都不相关的x 1,x 2,…x P , 的所有线性组合中方差最大者。 新变量指标z 1,z 2,…,z m 分别称为原变量指标x 1,x 2,…,x P 的第1,第2,…,第m 主成分。 从以上的分析可以看出,主成分分析的实质就是确定原来变量x j (j=1,2 ,…, p )在诸主成分z i (i=1,2,…,m )上的荷载 l ij ( i=1,2,…,m ; j=1,2 ,…,p )。 ?????? ? ???????=np n n p p x x x x x x x x x X 2 1 2222111211 ?? ??? ? ?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111............

主成分分析法概念及例题

主成分分析法 [ 编辑 ] 什么是主成分分析法 主成分分析也称 主分量分析 ,旨在利用降维的思想,把多 指标 转化为少数几个综合指标。 在 统计学 中,主成分分析( principal components analysis,PCA )是一种简化数据集的技 术。它是一个线性变换。 这个变换把数据变换到一个新的坐标系统中, 使得任何数据投影的第一 大方差 在第一个坐标 (称为第一主成分 )上,第二大方差在第二个坐标 (第二主成分 )上,依次类推。 主成分分析经常用减少数据集的维数, 同时保持数据集的对 方差 贡献最大的特征。 这是通过保留 低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是, 这也不是一定的,要视具体应用而定。 [ 编辑 ] , PCA ) 又称: 主分量分析,主成分回归分析法 主成分分析( principal components analysis

主成分分析的基本思想 在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。 同样,在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。如上所述,主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。上述想法可进一步概述为:设某科普效果评估要素涉及个指标,这指标构成的维随机向量为。对作正交变换,令,其中为正交阵,的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过对主分量的重点分析,达到对原始变量进行分析的目的。的各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。 例如,在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。 [ 编辑] 主成分分析法的基本原理 主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。 [ 编辑] 主成分分析的主要作用

义素分析法分析“看的方式”语义场

义素分析法分析“看的方式”语义场 摘要:“看的方式”的语义场可以归为同义语义场。通过义素分析的方法,并写出 每个词的基本义的义素表达式,来分析该语义场内的词之间的异同。词不仅有理 性意义还有感性意义,通过感性意义能更好的区别和运用同义词。 关键字:义素分析法,同义词辨析,看的方式 一、义素分析法在同义词辨析中的运用 同义词辨析一直以来都是语言研究的重要方面,不仅是在语言研究,还是在 语言运用中,甚至在语言的教学中都具有特殊的意义。义素分析法是准确描写和 掌握词义的有效方法。词义并不是一个整体,而是有若干层次的结构,义素是构 成词义的最小意义单位。将义素分析法引入对外汉语词汇教学,可以对词义的微 观层面进行准确有效的分析,把词义分割成若干个义素的组合,不仅有利于准确 掌握同义词之间的大同小异,还能提高人们对语言的运用能力,有利于第二语言 学习者在语言学习中理解两个及两个以上抽象的同义词,加深对汉语词汇的理解 和运用。 本文主要通过义素分析法来分析比较“看的方式”的语义场,来说明义素分析 法在同义词比较中的运用。运用义素分析法的表达式来研究“看的意义相同或相近的词”。本文研究的看的方式词有:看、望、顾、瞪、瞥、瞅、盯、窥、伺、瞟、瞰。 二、“看的方式”的语义场义素分析的方法和步骤 1.确立语义场 语义场是通过不同词之间的对比,根据它们词义的共同特点或关系划分出来 的类。同义语义场相当于一些论著中讲的一组广义的同义词(即不包括等义词),它所包括的各个义位间大同小异。所谓的同,表现为基本义相同或者是基本义有 一部分相同。所谓的异,就是附加义不同,或者是基本义有一部分不同,又或是 不只是基本义有一部分不同附加义也不一样。“看的方式”语义场内的词是眼部动 作描写都有“用眼睛看”这一基本义项,因此,这些看的方式词都可以看作是“看” 这个词的同义词。那么“看的方式”就构成了一个眼部动作的同义语义场。根据义 素分析法的分析并通过表达式的比较,可以准确的辨析出同义语义场内各个词之 间的细微区别,有利于第二语言的学习。 2.通过义素的具体对比分析“看的方式:看、望、顾、瞪、瞥、瞅、盯、窥、伺、瞟、瞰”的异同。 这些字从现代汉语词典第七版中查到“看的方式”词的意义如下所示: (1)看: [动] 使视线接触人或物:~书|~电影|~了他一眼。 [动] 观察并加以判断:我~他是个可靠的人l你~这个办法好不好。 [动] 取决于;决定于:这件事能 不能成功全~你了|飞机能否准时起飞,要~天气如何。 [动] 访问;探望:~望|~朋友。 [动] 对待:~待|另眼相~|别拿我当外人~。 [动] 诊治:王大夫把我的病~好了。照料:照~l衣帽自~。 [动] 用在表示动作或变化的词或词组前面,表示预见到某 种变化趋势,或者提醒对方注意可能发生或将要发生的某种不好的事情或情况: 行情~涨|别跑!~摔着!|~饭快凉了,快吃吧。 [助] 用在动词或动词结构后面, 表示试一试(前面的动词常用重叠式):想想~I找找~|等一等~l评评理~先做几 天~。 (2)望: [动] 向远处看:登山远~|一~无际的稻田。观看;察看:~风!观~|~ 闻问切。探望:拜~|看~。盼望;希望①:~子成龙l~准时到会。盼头;希望②:

主成分法及其应用

【作者简介】 苏键(1985-),男,广西钦州人,助理工程师,研究方向:食品科学。1主成分分析法 何谓主成分分析,就是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法,又称主分量分析[1]。主成分分析的中心思想是缩减一个包括很多相互联系着的变量的数量集,在数量集中保留尽可能多的有用的变量。 主成分分析的原理是设法将原来变量重新组合成一组新的相互无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。主成分分析是设法将原来众多具有一定相关性(比如P 个指标 ),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P 个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var (F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的, 故称F1为第一主成分。如果第一主成分不足以代表原来P 个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现再F2中,用数学语言表达就是要求Cov (F1,F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P 个主成分[2]。 主成分分析首先是由K.皮尔森对非随机变量引入的,而后H.霍特林将此方法推广到随机向量的情形[2]。信息的大小通常用离差平方和或方差来衡量。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。但是,在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。 2主成分分析法在食品领域的应用 2.1主成分分析在食品风味方面的应用 目前,主成分分析应用还是比较广泛的,但是就食品风味方面,关于该分析方法的文献鲜见报道。戴素贤等[3]人对七种高香型乌龙茶中的香气成分进行了主成分分析,他们尝试用主成分分析法来研究茶业香型的变化,并进而找到影响这些香型变化的主要化合物,同时还发现了不同的茶别中香气化合物变化的趋势并进行了模拟量化,直观地表现了各种香气化合物对香气的贡献程度。李华等[4]运用多元统计分析确定葡萄酒感官特性,多元统计分析中的主成分分析等数学工具能够把大量的描述葡萄酒感官特性的描述语精简成较少的综合性更强的描述语,这些精简后的描述语不但能够反映精简前描述语的信息,还可以筛选出科学合理的描述符,描述符是描述分析的语言和工具,根据描述符可以分类不同的葡萄酒。邵威平等[5]应用主成分分析法完成了不同品牌啤酒风味差异性的评价,同一品牌啤酒风味一致性的评价,同一品牌不同生产厂之间一致性的评价以及同一生产厂啤酒一致性的评价这些工作。 啤酒是个多指标的风味食品,主成分分析法可以帮助我们更好地研究啤酒理化指标和啤酒风格之间的相关性,从而达到更好地理解啤酒风味的目的。岳田利等[6]人则通过利用主成分分析的方法建立了苹果酒香气质量的评价模型,并以此来对苹果酒样品香气组分进行客观的统计分析。S.Kallithraka 等[7]采用高效液相色谱法和气相色谱法研究了希腊国内不同产地葡萄酒的化合物成分和感官特性,并运用了PCA 法(主成分分析法)对所得参数进行多元分析,最终达到给葡萄酒评价和分类的目的。2.2主成分分析在食品品质方面的应用 食品品质的评价往往是非常复杂的过程。因为影响食品品质的因素大量存在,非人为因素如食品环境中的微生物,温度及pH 等的变化带来的影响。另一方面,由于人为的因素掺假也会造成食品品质的低劣,进而损害广大销售者和消费者的利益。如黎海红等[8]人运用主成分分析法对掺伪芝麻油的检测方法进行研究分析。根据主成分分析的实验原理,可以选择芝麻油的折光率、酸价、色泽、水分及挥发物、皂化值和碘价等理化指标作为变量,将这些变量的所测数据做矩阵处理最后分析就 轻工科技 LIGHT INDUSTRY SCIENCE AND TECHNOLOGY 2012年9月第9期(总第166期) 食品与生物 主成分分析法及其应用 苏键,陈军,何洁 (广西轻工业科学技术研究院,广西南宁530031) 【摘要】 介绍了主成分分析法的定义、原理,概述了该法在食品及一些仪器分析领域的应用,目的是为其他还未应用该分 析方法的学术领域提供一种参考和借鉴,使得主成分分析法能够在越来越多的学术领域中得以推广和应用。 【关键词】主成分分析;应用;概述【中图分类号】TS262【文献标识码】A 【文章编号】2095-3518 (2012)09-12-02

语义分析

三、词法、语法、语义分析结合 一、实验目的与要求 在实现词法、语法分析程序的基础上,编写相应的语义子程序,进行语义处理,加深对语法制导翻译原理的理解,进一步掌握将语法分析所识别的语法范畴变换为某种中间代码(四元式)的语义分析方法,并完成相关语义分析器的代码开发。 二、实验内容 语法制导翻译模式是在语法分析的基础上,增加语义操作来实现的。对于给定文法中的每一产生式,编写相应的语义子程序。在语法分析过程中,每当用一个产生式进行推导或归约时,语法分析程序除执行相应的语法分析动作之外,还要调用相应的语义子程序,以便完成生成中间代码、查填有关表格、检查并报告源程序中的语义错误等工作。每个语义子程序需指明相应产生式中各个符号的具体含义,并规定使用该产生式进行分析时所应采取的语义动作。这样,语法制导翻译程序在对源程序从左到右进行的一遍扫描中,既完成语法分析任务,又完成语义分析和中间代码生成方面的工作。 输入:包含测试用例,如由无符号数和+、?、*、/、(、)构成的算术表达式的源程序文件。 输出:将源程序转换为中间代码形式表示,并将中间代码序列输出到文件中。若源程序中有错误,应指出错误信息。 三、实验设计 语法制导翻译模式实际上是对前后文无关文法的一种扩展。一般而言,首先需要根据进行的语义工作,完成对文法的必要拆分和语义动作的编写,从而为每个产生式都配备相应的语义子程序,以便在进行语法分析的同时进行语义解释。要求从编译器的整体设计出发,重点通过对实验二中语法分析程序的扩展,完成一个编译器前端程序的编写、调试和测试工作,形成一个将源程序翻译为中间代码序列的编译系统。 对文法G3[<算术表达式>]中的产生式添加语义处理子程序,完成无符号数的四则运算的计值处理,将输入的四则运算转换为四元式形式的中间代码。本实验只进行了算术表达式四元式的翻译。 四、源代码 1、在.h文件中添加了 //语义分析部分 #define PMAX 5//define 后面不加括号,定义产生式符号属性字符串的长度 int NXQ=0; /*全局变量NXQ用于指示所要产生的下一个四元式的编号*/ int NXTemp=1;//整型变量NXTemp指示临时变量的编号 int SentenceCount=1;//存放文件中句子的个数 struct QUATERNION /*四元式表的结构*/ { char op[PMAX]; /*操作符*/ char arg1[PMAX]; /*第一个操作数*/ char arg2[PMAX]; /*第二个操作数*/ char result[PMAX]; /*运算结果*/ }pQuad[256]; /*存放四元式的数组*/ char EBracket_Place[PMAX];//(E)的语义属性

语言学知识_语义学

语义学 一.语义学(Semantics)的定义: 研究语言单位的意义,尤其是词语和句子的意义。 二.词汇意义(Lexical Meaning): 1)意义与指称(sense and reference): 意义与指称是语言研究中的两个术语,它们之间既相互联系,又相互区别。意义(sense)是一系列抽象语义特征的集合,与语境无关,可以在字典中查到。而指称(reference)是语言形式在现实物质世界中所指的事物;它涉及语言形式与非语言的现实世界之间的关系。 意义与指称是意义的两个相关但不同的方面,例如“morning star”和“evening star”的意义虽然不同,但其指称一样,都指代天空中的同一颗星星。 2)外延意义(denotative meaning): 指词语所指称的外部世界的事物、状态、抽象情感。例如:dog(狗)的外延意义是指“一种四肢、有毛、会汪汪叫的哺乳动物”,这种意义在任何国家、任何时代都不会改变。 3)内涵意义(connotative meaning): 指源于语言使用者的个人经历、情感、评价、语境等外部因素的意义。例如dragon一词,在汉语文化中象征着“高贵”、“权利”,但在某些英语国家文化中,其内涵意义则为“残暴”和“邪恶”。 三.意义关系(Sense Relationship): 1)同义关系(Synonymy): 方言同义词(Dialectal synonyms):意义相同但方言有差异的词,例如:autumn(BrE)= fall(ArE)。 文体同义词(Stylistic synonyms):意义相同但在文体上或者正式程度上有差别的词,例如:buy(较为随意)——purchase(较为正式)。 搭配同义词(Collocational synonyms):指意义上相同,但是搭配不相同的词。例如:provide和supply,provide sth. for sb.和supply sth. to sb. 在情感或评价意义方面存在差异的同义词(Synonyms with different emotive or evaluative meaning):意义相同,但在情感或评价意义方面存在差异的词,例如:politician (政客)含贬义色彩,statesmen(政治家)含褒义色彩。 存在语义差异的同义词(Semantically different synonyms):意义大致相同,但存在一些细微差异的词。例如:enough强调“足够”,ample强调“富足”。 2)反义关系(Antonymy): 等级反义词(Gradable antonymy):语义相反但语势可变的词对,其相反的词义并非绝对的而是相对的,两极中间可插入表示中间程度的词,体现了对立意义的层次性。例如:hot和cold这对反义词的界定是相对的,且在hot和cold中还可插入warm,lukewarm,cool 等中间词。 互补反义词(Complementary antonyms):一对反义词中,否定其中一个即肯定另一个。例如:boy —girl。 关系反义词(Relationship antonyms):一对反义词之间并不构成对立或否定关系,而是两实体之间的一种反向关系。例如:医生(doctor)和病人(patient)。

主成分分析法的步骤和原理

主成分分析法的步骤和原理 (总2页) -CAL-FENGHAI.-(YICAI)-Company One1 -CAL-本页仅作为文档封面,使用请直接删除

(一)主成分分析法的基本思想 主成分分析(Principal Component Analysis)是利用降维的思想,将多个变量转化为少数几个综合变量(即主成分),其中每个主成分都是原始变量的线性组合,各主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信息,且所含的信息互不重叠。[2] 采用这种方法可以克服单一的财务指标不能真实反映公司的财务情况的缺点,引进多方面的财务指标,但又将复杂因素归结为几个主成分,使得复杂问题得以简化,同时得到更为科学、准确的财务信息。 (二)主成分分析法代数模型 假设用p个变量来描述研究对象,分别用X 1,X 2 …X p 来表示,这p个变量构 成的p维随机向量为X=(X 1,X 2 …X p )t。设随机向量X的均值为μ,协方差矩阵 为Σ。假设 X 是以 n 个标量随机变量组成的列向量,并且μk 是其第k个元素的期望值,即,μk= E(xk),协方差矩阵然后被定义为: Σ=E{(X-E[X])(X-E[X])}=(如图 对X进行线性变化,考虑原始变量的线性组合: Z1=μ11X1+μ12X2+…μ1p X p Z2=μ21X1+μ22X2+…μ2p X p ……………… Z p=μp1X1+μp2X2+…μpp X p 主成分是不相关的线性组合Z 1,Z 2 ……Z p ,并且Z 1 是X1,X2…X p的线性组合 中方差最大者,Z 2是与Z 1 不相关的线性组合中方差最大者,…,Z p是与Z 1 , Z 2……Z p-1 都不相关的线性组合中方差最大者。 (三)主成分分析法基本步骤 第一步:设估计样本数为n,选取的财务指标数为p,则由估计样本的原始 数据可得矩阵X=(x ij ) m×p ,其中x ij 表示第i家上市公司的第j项财务指标数 据。 第二步:为了消除各项财务指标之间在量纲化和数量级上的差别,对指标数据进行标准化,得到标准化矩阵(系统自动生成)。 第三步:根据标准化数据矩阵建立协方差矩阵R,是反映标准化后的数据之间相关关系密切程度的统计指标,值越大,说明有必要对数据进行主成分分 析。其中,R ij (i,j=1,2,…,p)为原始变量X i 与X j 的相关系数。R为实对 称矩阵(即R ij =R ji ),只需计算其上三角元素或下三角元素即可,其计算公式 为:

主成分分析法概念及例题

主成分分析法 主成分分析(principal components analysis,PCA)又称:主分量分析,主成分回归分析法 [编辑] 什么是主成分分析法 主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。 在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。 [编辑] 主成分分析的基本思想

在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。 同样,在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。如上所述,主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。上述想法可进一步概述为:设某科普效果评估要素涉及个指标,这指标构成的维随机向量为。对作正交变换,令,其中为正交阵,的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过对主分量的重点分析,达到对原始变量进行分析的目的。的各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。 例如,在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。 [编辑] 主成分分析法的基本原理 主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。 [编辑] 主成分分析的主要作用

相关文档
最新文档