Semantic Verification for Fact Seeking Engines

Semantic Verification for Fact Seeking Engines

Dmitri Roussinov

Department of Information

Systems

Arizona State University, Tempe,

AZ, 85287

1-480-965-8488 dmitri.roussinov@https://www.360docs.net/doc/e19807843.html,

Weiguo Fan

Department of Information

Systems, Virginia Tech

3007 Pamplin Hall, Blacksburg,

VA 24061

1-540-231-6588

wfan@https://www.360docs.net/doc/e19807843.html,

Fernando A. Das Neves

Department of Computer Science

Virginia Tech

3007 Pamplin Hall, Blacksburg,

VA 24061

1-540-231-6588

fdasneve@https://www.360docs.net/doc/e19807843.html,

ABSTRACT

We present the architecture of our web question answering (fact seeking) system and introduce a novel algorithm to validate semantic categories of the expected answers. When tested on the questions used by the prior research, our system demonstrated the performance comparable to the current state of the art systems. Our semantic verification algorithm has improved the accuracy of answers of the affected questions by 30%.

Categories & Subject Descriptors: H.3.3 [Information Storage And Retrieval]: Information Search and Retrieval – query formulation, search process.

General Terms: Algorithms, Experimentation

1.INTRODUCTION

The goal of Question Answering (QA) is to locate, extract, and represent a specific answer to a user question expressed in a natural language. A QA system would take a sentence like “What is mad cow disease?” as an input and would produce an answer output like “Mad cow disease is a fatal disease of cattle that affects the central nervous system. It causes staggering and agitation.” Many natural language questions expect the answer to belong to a certain semantic category, e.g. What color is the sky? Those questions prove to be difficult for current QA systems since the correct answer is not guaranteed to be found in a simple form such as in the sentence The color of the sky is blue, but rather needs to be extracted from a less straightforward sentence such as I saw a vast blue sky above me, in which a wrong answer “vast” has grammatically the same role as the correct answer “blue” and represents a property of the sky. However, “vast” refers to size, while we are expecting a color.

TREC competition-like conference [3] has been a driving force behind many recent innovation in QA and many good reviews of the technology break throughs can be found in its proceedings. A high proportion of TREC test questions involve very well known categories (states, countries, cities, organizations) and thus can be handled by manually compiled lists when the significant amount of manual effort is invested. However, handling more rare categories is still an unsolved problem even for QA systems that involve deep semantic parsing. Answering them requires combining multiple information sources. E.g. the candidate answer “Harrison Ford” should be rejected for the last question since he is an actor, not an actress, although may show up in a the following text: “The Lion in Winter”, starring Harrison Ford and Katherine Hepburn.

In this paper, we present our novel algorithm for semantic verification of the candidate answers to fact seeking engines (question answering). We have implemented and empirically evaluated the suggested algorithm within our engine, which has been available in a demo version online and participated in TREC competition with encouraging results. Our system takes advantage of the redundancy of the Web, obtains the candidate answers by pattern matching, and then performs probabilistic triangulation of them to rank according to the final score. This paper also presents a formal evaluation of our system by following the methodology from the prior research reviewed in the next section, followed by descriptions of our system modules. Then, we describe the proposed semantic verification algorithm, followed by the empirical evaluation section. 2.ARCHITECTURE AND ALGORITHMS The general idea behind our and the related approaches is pattern matching. For example, an answer for the question “What is the capital of Taiwan?” can be f ound in a sentence “The capital of Taiwan is Taipei.”, which matches a pattern \Q is \A, where \Q is a question part (“The capital of Taiwan”) and \A = “Taipei” is the text that forms a candidate answer. We automatically create and train up to 200 patterns for each question type (such as what is, what was, where is, etc.), based on a training data set consisting of open domain QA pairs, e.g. those available from the past TREC conferences. Through training, each pattern is assigned a probability that the matching text contains the correct answer. This probability is used in the triangulation (confirming/disconfirming) process that re-ranks the candidate answers. \A, \Q, \T, \p (punctuation mark), \s (sentence beginning), \V (verb) and * (a wildcard that matches any words) are the only special symbols used in our pattern language so far. More details about our approach can be found in [2].

The intuition behind our approach to semantic verification is the following. If we need to answer a question What soft drink contains the largest amount of caffeine? then we expect a candidate answer (e.g. coffee) to belong to a specific category (soft drink). That means that one of the possible answers to the question What is coffee? should be soft drink. Thus, we can ask this question automatically, perform the same necessary steps as outlined above, and check the certain number of top answers if they contain the desired category. For the tests reported in this paper, we implemented this approach in a simpler and more efficient way in order to keep the process quick. We manually selected a subset of patterns from those automatically identified and trained for “what is” type of a question. Instead of full QA process outline above, for each candidate answer we only query GPSE for the total number of pages that match the modulated query (e.g. +“Coffee is a soft drink”, matches 4 pages from Google; +“Coffee is a type of a soft drink” matches 0, etc.) and aggregate the total number of matches (denoted below as M). We explored the following family of heuristic scoring formulas for our semantic verification algorithm:

semantic_fit_score = log (1 + M) / log(2 + DF)a / K Nw - 1, (1)

where DF (document frequency) is the number of pages on the web that contain the candidate answer (e.g. 62,000,000 for “coffee”). The log (DF + 2) function is used since logarithmic scale is more appropriate for the wide range of values of DF (from 0 to 3,000,000,000 in our experiments). We would like to discount frequent candidate answers since they have higher chance of creating spurious matches. The parameter a in the power function is introduced to control how steep we would like to discount candidate answers as DF grows. Nw is the number of words in the candidate answer. The exponent function of Nw-1 term is necessary to demote long answers since their typically small DF-s would otherwise result in them being overly promoted. We empirically set the parameter K to 400 early in the experimenting process.

We also experimented with combining formula (1) with another normalizing term: log (2 + JoinDF), where JoinDF is the number of web pages containing both the candidate answer (coffee) and the expected category (soft drink). This number captures how frequently those two words (phrases) co-occur, thus how likely that some of the matches inside M are just due to a chance. This heuristic formula has been inspired by other works by automated semantic mining and Question Answering mentioned in our introduction. We believe that in future a more formal derivation can be performed using probabilistic framework or learned automatically from training data.

Our primary goal in this study was to show that sun semantic verification is viable. Before semantic verification, we first pre-sort the candidate answers according to their current score multiplied by the result of formula (1) excluding the log (1 + M) term in order to make a guess what candidate answers have a reasonable chance to be positively validated. They are validated in the obtained order until at least 30 candidate answers are obtained that have non zero scores (number of matches M). Document frequencies (DF) are obtained by sending a q uery to the underlying search engine (GPSE), which slows our current real time performance. This issue can be later addressed by having a previously indexed sufficiently large corpus (e.g. TREC collections) or having direct access to the GPSE index and cache, which may be possible when the QA system is an integral part of it. Finally, the current score of each candidate answer is multiplied by its semantic_fit_score and the answers are re-ranked.

3.EMPIRICAL EVALUATION

First, we evaluated the overall performance of our system since we wanted to make sure it was comparable with the current state of the art in order for testing our semantic validation (or any other introduced component) to be convincing. The work by Dumais et al.

[1] is the best candidate for comparison since they methodologically tested their system (AskMSR) on TREC questions and achieved much better performance than the other prior studies in similar settings. For a more meaningful comparison, we used the same set of test questions from TREC 2000 conference (Voorhees and Tice, 2000) and Google as our underlying general purpose search engine. We used the test sets from the other years (from 1999 to 2002, excluding the year 2000) in order to train our system. Since the systems participating in TREC competition are tested on the given local (non-web) collections, similarly to Dumais et al. (2002), we had to add more correct answers keys (patterns) after our preliminary runs. Since doing so required some manual effort, we d ecided to randomly sample 100 questions for our evaluation experiment instead of using all 500. Although various metrics have been explored in the past, we used mean reciprocal rank of the first correct answer (MRR) as in Dumais et al. (2002). E.g. if the first answer is correct, the reciprocal rank is 1. If only the second is correct, than it is ?, etc. The drawback of this metric is that it is not the most sensitive since it only considers the first correct answer, ignoring what follows.

The table 1summarizes the results of our evaluation. The results indicate that the performance of our system is comparable with the one from Dumais et al. (2002). Again, we were only interested in verifying “in the same ballpark” performance and would like to caution again comparing two systems numerically for the following reasons: 1) Different size of the web at the times of the evaluations.

2) Possibly different ranking algorithms employed by the underlying general purpose search engine. 3) Differences in the criteria for the expansion of the correct answer sets. We also compared the simplified configurations of our system. The most basic configuration did not include any semantic filtering, semantic adjustment or pattern matching. This corresponds to the most basic configuration of AskMSR (no semantic filtering, no answer tiling or using re-writes) only approximately since our implementations of the corresponding components slightly differ. Our pattern matching mechanism plays approximately the same role as re-writes in AskMSR. The fact that our basic performance was found to be higher may be explained by the increase of size of the Web which could make it easier to mine for the exact answers. In spite of the differences in the time of evaluation and implementation details, the results clearly indicate that the performances of our systems are in the same “ballpark” and the impacts of similar components on the overall performance are also similar. We concluded that the obtained results indicated comparable performance, which allowed us to proceed to the next step: evaluating our novel semantic verification algorithm within our system. Table 1. Summary of overall evaluation. AskMSR and Our QA System. Mean Reciprocal Rank (MRR) for various system configurations

Our System AskMSR Configuration

Features MRR Features MRR

Complete All 0.570 All 0.507 Basic no

semantic

verificati

on, no

semantic

filtering,

no

patterns

0.345 no

semantic

filtering,

no re-

writes, no

tiling

0.266

Intermediate no

patterns

0.517 no re-

writes

0.450

Since only 16 of the questions in the test set mentioned in the previous section have specified semantic category and in order to provide more variety in evaluation tests, we performed the evaluation of our verification algorithm on the TREC 2003 set. First, we experimented with the parameters in the formula (1) trying to achieve best possible results. For this, we only used all the 113 questions that have a defined semantic category. Table 2 lists the formulas that we tried and their resulting performance. The optimal was reached for alpha = 7 in the formula (1). The performance was sensitive to the shapes (degree of steepness) of the discounting terms log (2+DF) and log(2+JoinDF). However, the best performing formula did not need to include JoinDF term.

Finally, we evaluated the impact on the overall performance: due to our semantic verification the MRR increased from 0.394 to 0.425, which corresponds to 8% relative improvement overall, which we believe is a significant impact considering t hat only 20% of the questions were affected and that the impacts of the other components are of the comparable magnitude.

Table 2. Summary of overall evaluation. AskMSR and Our QA System. Mean Reciprocal Rank (MRR) for various system

configurations

Formula MRR

1 / (1+JoinDF) 0.157

1 0.352

log(1+M) / (log(2+JoinDF) + log (2+DF)) 0.400 log(1+M) * log (1+DF) / log(2+JoinDF) 0.389 log (1+M) 0.394 log(1+M) / log4 (2+DF) 0.437 log(1+M) / log7 (2+DF) 0.441 (1+M) / (2+DF) / (2+JoinDF) 0.168 log(1+M) / log4 (2+DF) * log(2+JoinDF) 0.343 4.ACKNOWLEDGMENTS

Weiguo Fan's work is supported by NSF under the grant number ITR0325579. Roussinov’s work is supported by Dean’s Award of Excellence, W.P. Carey School of Business, summer 2005.

5.REFERENCES

[1]Dumais, S., Banko, M., Brill, E., Lin, J., and Ng, A. (2002).

Web Question Answering: Is More Always Better? Proceedings of the 25th annual international ACM SIGIR conference on

Research and development in information retrieval, Tampere,

Finland, August 11-15.

[2]Roussinov, D. and Robles, J., Ding, Y., Experiments with Web

QA System and TREC2004 Questions. In the proceedings of

2004 TREC conference. November 16-19, 2004, Gaithersburg,

MD.

[3]Voorhees, E. and Buckland, L.P., Eds. (2004). Proceedings of

the Eleventh Text Retrieval Conference TREC 2004.

Gaithersburg, Maryland, November 16-19.

趋势分析之语义网

趋势分析之语义网 近几年来,语义网越来越频繁地出现在IT报道中,PowerSet、Twine、SearchMonkey、Hakia等一批语义网产品也陆续推出。早在2010年,Google就已经收购了语义网公司Metaweb。对于这次收购Google产品管理主管杰克·门泽尔(Jack Menzel)发文称,该公司可以处理许多搜索请求,但Metaweb的信息可以使其处理更多搜索请求,“通过推出搜索答案等功能,我们才刚刚开始将我们对互联网的理解用于改进搜索体验”,但对于部分搜索仍然无能为力,“例如,‘美国西海岸地区学费低于3万美元的大学’或‘年龄超过40岁且获得过至少一次奥斯卡奖的演员’,这些问题都很难回答。我们之所以收购Metaweb,是因为我们相信,整合Metaweb的技术将使我们能提供更好的答案”。这表明语义网技术经过近10年的研究与发展,已经走出实验室进入工程实践阶段。 语义网热度变化图 语义网(Semantic Web)是一种智能网络,它不但能够理解词语和概念,而且还能够理解它们之间的逻辑关系,可以使交流变得更有效率和价值。语义网实际上是对未来网络的一个设想,现在与Web 3.0这一概念结合在一起,作为3.0网络时代的特征之一。 语义网这一概念是由万维网联盟的蒂姆·伯纳斯-李(Tim Berners-Lee)在1998年提出的一个概念,实际上是基于很多现有技术的,也依赖于后来和text-and-markup与知识表现的综合。其渊源甚至可以追溯到20世纪60年代末期的Collins、Quillian、Loftus等人的研究,还有之后70年代初Simon、Schamk、Minsky等人陆续提出的一些理论上的成果。其中Simon在进行自然语言理解的应用研究时提出了语义网络(Semantic Network,不是现在的Semantic Web)的概念。 下面我们用Trend analysis分析语义网领域内的研究热点。(点击链接即可进入https://https://www.360docs.net/doc/e19807843.html,/topic/trend?query=Semantic%20Web)

语义网和语义网格中的本体研究综述

语义网和语义网格中的本体研究综述 余一娇1,2 (1 华中师范大学语言学系,武汉,430079) (2 华中科技大学计算机学院 武汉 430074) E-mail: yjyu@https://www.360docs.net/doc/e19807843.html, 摘要:本体是语义网和语义网格研究中的一种重要方法。文中首先介绍本体的定义、本体的四元素表示法和六元组表示方法,以及本体的设计分析生命周期;然后回顾语义网研究中曾产生过巨大影响的七种本体语言。通过分析众多文献的观点,文中提出在将来我们应重点针对 DAML+OIL 和OWL两种本体语言进行深入研究。文中还列举出了本体在生物信息计算和网络管理领域应用的两个实例。最后根据语义网格和本体研究现状,提出了利用本体研究语义网格服务质量的基本思路和研究方法。 关键词:本体 本体语言 DAML+OIL OWL 语义网 语义网格 服务质量 1.前 言 Ontology在哲学领域常译为“存在论”,是指关于事物是否存在思考的学科。在计算机科学和人工智能领域则译为“本体”,其词义与哲学中的“存在论”大相径邻。1993年美国Stanford大学知识系统实验室的Gruber博士在文献[1]中定义:本体是用来帮助程序和人共享知识的概念的规范描述 (An ontology is the specification of conceptualizations, used to help programs and humans share knowledge.),后来该定义得到了进一步发展和完善[2]。文献[1]还指出:概念化是关于世界上的实体,如:事物、事物之间的关系和约束条件的知识表达。而规范一词是强调这种表达是用一种固定的形式来描述。从我们已经阅读的多篇相关文献来看,几乎所有论文都接受了上述关于本体的定义。 迅速增加的Web页面数量、丰富的页面内容和时新的消息,为知识工程领域的科学家实现面向终端用户的应用研究、开发带来了极好的机会。在Internet上实现基于语义的信息检索和情报收集,无疑是广大因特网用户的迫切需求。2001年5月,Web之父Tim Berners-Lee和合作者在《Scientific American》杂志上发表了“The Semantic Web”一文。文中正式提出了语义网的概念,鉴于Tim Berners-Lee在Web领域的巨大影响,该文后来一直被公认为是开辟语义网研究的源头文献。为了实现知识的共享和重用,语义网研究中引入本体技术是最近几年来的发展趋势,且正在被不断的实践。知识工程和人工智能学科针对本体技术进行研究已有多年历史,其中最有影响的科学研究组织是美国Stanford大学的知识系统实验室。该实验室的Gruber博士以及Deborah L. McGuiinness博士都对本体和语义网本体研究作出了巨大的贡献。 本文的结构安排如下:第二部分介绍本体的表示方法和本体开发的生命周期;第三部分介绍语义网研究中的本体语言发展过程以及多种本体语言之间的关系;第四部分介绍本体在语义网研究中的应用实例;第五部分讨论我们今后一年的研究思路和研究目标。 2. 本体的表示与本体开发 关于本体的定义如今在计算机科学领域已比较统一,但在具体的应用环境中如何规范化描述本体至今还缺乏统一的标准。目前有两种本体表示方法应用比较广泛,第一是传统的四元素表示方法、第二是较新的六元组表示法。前者源于Gruber博士的观点,后者则是2002年由新加坡南洋理工大学的Myo Myo Naing博士在一篇国际会议论文中提出。前者在世界范围内得到了比较高的认同,但

语义网技术

语义网技术是当前互联网技术研究的热点之一。目前大多数页面中的使用的文字信息不便于机器自动处理,只适合人们自己阅读理解,解决可自动处理的数据和信息方面发展较慢的问题,在网络上信息量剧增、人们迫切需要计算机分担知识整理这一压力的今天,成为信息检索的一个难题。本文首先建构了一种形式化的本体描述方法,并给出了标准化的定义,主要针对在本体层定义的基础上对逻辑层展开了基础研究,对于本体概念进行逻辑推理,通过本体中关系的属性,推理出隐含在本体概念间的关系。在本文的定义中本体包含五个基本的建模元语,概念,关系,函数,公理,实例,通过本体的五个建模元语构建本体,给出本体的形式化的规范定义,本体描述中的四种特殊关系有继承关系,部分关系,实例关系和属性关系,关系的各种属性是进行本体推理的逻辑依据,有传递性属性,关系继承性,反向关系继承性,逆属性,对称性属性,反身性属性,等价性属性等等,依据这些属性的逻辑性,可以推理出所要的查找。本文利用属性的逻辑推理机制采用树搜索的查找检索方式查找出隐含在概念之间的逻辑关系是本文所要进行的主要工作,这样可以判断出概念之间是否存在一些给定判断的关系,或者一个概念和什么概念存在给定的关系,再或者两个概念间都存在什么关系等等都是我们用推理检索所要实现的判断。摘要语义网技术是当前互联网技术研究的热点之一。目前大多数页面中所使用的文字信息不便于机器自动处理,只适合人们自己阅读理解,解决可自动处理的数据和信息方面发展较慢的问题,在网络上信息量剧增、人们迫切需要计算机分担知识整理这一压力的今

天,成为信息检索的一个难题,本文中对本体层概念的推理就是为了探索计算机理解语义所做的一个尝试。语义网的体系结构向我们说明了语义网中各个层次的功能和特征,语义网的研究是阶段性的,首先解决syntax(语法)层面的问题,也就是xml,然后是解决(数据层)基本资源描述问题,也就是rdf,然后是(本体层)对资源间关系的形式化描述,就是owl,damloil,这三步已经基本告罄,当然,基于rdf 或者owl的数据挖掘和ontology管理(如合并,映射,进化)按TIMBERNERS-LEE的构想,这个工作大概到2008左右可以完成,在商业上,很快就会在知识管理,数据挖掘,数据集成方面出现一些企业。目前亟待发展的是LogicLayer(逻辑层),这方面在国内外的期刊著作中还少有提到,接下来的工作就应该是对于owlbased的数据进行推理和查询了,当前的推理方法主要是针对本体而言的,而本体的概念是在某个特定领域范围内的,而且在知识库中推理和查询是紧密的结合在一起的,相辅相成的,查询的同时必然存在着推理,而这里的推理就必须要建立在一定的逻辑模型的基础上,所以推理的方法就是基于逻辑模型的逻辑推理,可采用逻辑推理的方法。本体中推理的重点在于推理结论的正确性、完备性,若是不能保证推理的正确性,则语义网的引入就不但没有给网络资源的查询带来便利,反而阻碍了网络的发展,而且还要保证推理的完备,不遗漏应有的推理结果。本体推理的难点在于推理的高效性、资源利用率,若推理虽能达到正确性,完备性的目的而浪费了大量的时间和资源,则语义网也不能达到预期的效果,所以推理方法的使用及其效果是语义网成功的关

语义网本体

Part2:创建本体 本次所创建的本体是一个植物(plant)本体,所用的工具是Protege4.3。首先根据植物的分类来建立本体的Schema层,按照不同的分类方式可以有不同的分类例如可以分为花(flower)、草(grass)和树(tree)三类。花又可以分为蔷薇科(Rosaceae )、十字花科(cruciferae)、百合科(liliaceae)。草又可以分为草坪草(turfgrass)、孔雀草(maidenhair)、千日草(One thousand days grass)。树又可以分为乔木(arbor)、灌木(shrub)。所建的Schema层如下图1所示。 图1 植物本体的Schema层构建图 2、添加属性,属性包括对象属性和数据属性。所添加的对象属性有:颜色、枯萎季节、茂盛季节开花时间、开花时长,其定义域均设置为Plant。添加的数据属性有:根茎的长度。具体的添加如下图2所示。 (1)对象属性添加图(2)数据属性添加图 图2 植物本体的属性构建图

3、添加相应的实例。为百合科添加实例:百合花(greenish lily flower )为乔木添加实例:雪松和杨树,为草坪草添加实例:马蹄金草(The horseshoe golden grass )具体的实例图如下图3所示。 图3 具体实例添加图 4、定义公理,例如可以对其定义灌木为丛生状态比较矮小。则需要添加对象属性丛生状态(Cluster_State)和子属性主要丛生状态(Main_Cluster_State),然后添加分类:Type,包括short and small和tall。对草坪草定义为:主要丛生状态是short and small。对乔木添加定义:主要丛生状态是tall。在Plant类下面添加叶子(leaf),然后添加对象属性is_part_of,给leaf定义为:叶子是树叶的一部分。对草坪草的具体的定义效果如下图4所示。 图4 草坪草定义效果图

语义网主要应用技术与研究趋势_吴玥

2012年第2期 Computer CD Software and Applications 信息技术应用研究 — 41 — 语义网主要应用技术与研究趋势 吴 玥 (苏州大学计算机科学与技术学院,江苏苏州 215006) 摘 要:我国企业多数已经实现了网络办公自动化,为企业的经营管理创造了优越的环境。但随着销售业务的增长,企业经营管理的范围逐渐扩大,其内部网络面临的运营难题更加明显,网络知识管理是当前企业存在的最大困难。语义网络技术的运用方便了知识管理系统的构建与操控,促进了企业知识管理效率的提升。针对这一点,本文主要分析了语义网应用的相关技术,对未来研究趋势进行总结。 关键词:语义网;应用技术;知识管理;趋势 中图分类号:TP391.1 文献标识码:A 文章编号:1007-9599(2012)02-0041-02 The Main Application Technology and Research Trends of Semantic Web Wu Yue (School of Computer Science&Technology,Soochow University,Suzhou 215006,China) Abstract:Our country enterprise majority already realize the network office automation,enterprise management to create a favorable environment.But as the sales growth,gradually expanding the scope of business management of enterprise,its internal network operator facing the problem is more apparent,network knowledge management is the current enterprise is the most difficult.Semantic network technology is convenient to use the knowledge management system's construction and operation,promote the enterprise to improve the efficiency of knowledge management.In view of this,this article mainly analyzes the semantic web technologies,the future research trends are summarized. Keywords:Semantic network;Application technology;Knowledge management;Trend 语义网是对未来计算机网络的一种假设,通过相匹配的网络 语言对文件信息详细描述,最终判断不同文档之间的内在关系。 简言之,语义网就是能参照语义完成判断的网络。企业在经营管 理中引进语义网有助于数据信息的挖掘,对数据库潜在的信息资 源充分利用,以创造更大的经济收益。 一、传统互联网知识管理的不足 互联网用于企业经营管理初期,加快了国内行业经济的改革进 步,促进了企业自动化操控模式的升级。然而,当企业经营范围不 断扩大之后,企业面临的网络管理问题也更加显著。如:业务增多、产品增多、客户增多等, 企业网络每天需要处理的文件信息不计其 数,基于传统互联网的知识管理系统也会遇到多种问题。 (一)检索问题。互联网检索是十分重要的功能,如图一。用 户在互联网上检索某一项资源时,常用的方法是通过关键词搜寻, 未能考虑到语义对资源搜索的重要性。这种检索模式下则会遇到许 多难题,如:对同义词检索会出现多余的无关资源,尽管用户在互 联网上可以查找到许多与关键词相关的信息,但多数是无用的。 图一 互联网信息检索 (二)集成问题。信息集成是网络系统按照统一的标准、编码、程序等,对整个系统存储的资源集成处理,然后实现信息资源的共享。企业互联网信息集成依旧采用人工处理,这是由于网络的自动代理软件不能处理文本代表的常识知识,信息集成问题将制约着互联网功能的持续发挥。 (三)维护问题。对于企业知识管理系统而言,其采用的文档大部分是半结构化数据,这种数据的维护管理难度较大。现有的互联网在文档维护方面缺乏先进的软件工具,对于文档信息的处理也会遇到不少错误。知识管理中的数据库资源错误会给企业经营造成误导,且带来巨大的经济损失。 二、语义网应用的相关技术 互联网研发对语义网应用研究的最终目标是“开发各种各样计算机可理解和处理的表达语义信息的语言和技术,让语义网络的功能得到最大发挥” 。因此,结合语义网络的功能特点、结构形式、信息储存等情况,用户需掌握各种语义网应用技术。就目前而言,语义网主要的应用技术包括: (一)编码技术。编码是计算机网络运行的重要元素,通过编码之后才能让程序信号及时传递。语义网编码技术就是通过编码处理将知识内容表达出来,这一过程能够把不同的知识编码为某个数据结构,从而方便了用户对数据的检索。编码技术要用到各种知识表达方法,如:一阶谓词逻辑表示法、产生式表示法、框表示法、语义网络表示法等等。 (二)框架技术。框架技术本质上就是对语义网进行层次划分,将网络结构分层不同的层面。语义网框架技术应用要借助语义 Web 模型,经过长期研究,我们把语义网体系结构分为7个层面,如图二。每个层面在语义网运行时都可发挥对应的功能,促进了语义网程序操控的稳定进行。层面框架的分析,可以掌握语义网体系中各层的功能强弱。 图二 语义网的体系结构

古代汉语词类活用例句列举

古代汉语词类活用例句列举 古代汉语词类活用例句列举《郑伯克段于鄢》1、例:壮公生,惊姜氏。P97 惊:用作使动,使。。。惊。2、例:无生民心。P99 生:用作使动,使。。。产生。3、例:若阙地及泉,隧而相见。P101 隧:名词动用。《公孙无知之乱》4、豕立而啼,P109 立:名词作状语,像人一样丫立。〈安之战〉5、皆主?献子。P117 主:名词动用,以。。。为主。6、君无所辱命。P119 辱:动词使动,使。。。受辱。7、从左右,皆肘之。P123 肘:名词使动,表示用胳膊推撞。8、臣辱戎士。123 辱:动词使动。9、人不难以死免其君。P123 免:用作使动,使。。。免于。10、故中御而从齐候。P123 中:方位名词做状语。〈子产说范宣子轻敝〉11、三周华不注。P122 周:

名词动用。12、郑人病之。P129 病:名词用作意动。13、象有齿而焚其身。P130 焚:动词用作使动。14、宣子说,乃轻弊。P130 轻:形容词用作使动,使。。。轻。〈苏秦连横约纵〉15、今先生俨然不运千里而庭教之。P182 远:形容词用作意动。16、明言章理,兵甲愈起。P183 明、章:用作使动。 1 17、辨言伟服。攻战不息。P183 辩、伟:都用作使动,使。。。雄辩,使。。。华美。18、繁称文辞,天下不冶。P183 文:名词用作使动。19、夫徒处而致利,安坐而广地。P183 广:形容词用作使动,使。。。广。20、言语相结,天下为一。P183 言语:名词作状语。21、今欲并天下,凌万乘,诎敌国。制海内,子元元。臣诸候。非兵不可。P183 诎:用作使动,使。。。屈服;子:名词用作使动,使。。。成为子女;臣:名词用作使动,使。。。成为臣子。22、约纵散横,以抑强秦。

浅析语义场理论对英语词汇教学的启发

浅析语义场理论对英语词汇教学的启发 201010815437 朱友秀指导老师:邱志芳 [摘要]正如英语语法在英语的学习中不可忽视一样,英语词汇教学在英语学习中也起着举足轻重的作用,如果不用方法和技巧,要记住那么多的单词和短语是一件既枯燥又令人头痛的事,而语义场理论为词汇教学提供了系统的理论依据。它用归纳分类和丰富的联想的方法在词与词之间建立起各种各样的联系,使得记忆它们不再那么乏味和单调,本文浅析语义场理论对英语词汇教学的几点启发并以此扩大学生的词汇量,从而提高英语教学与学习的效率,从而实现快乐地学习的目标。 [关键词] 语义场;英语词汇教学;启发 1 引言 词汇是语言的建筑基石和语言意义的载体,它维系着语音和语法。语言若离开了词汇,就无所谓语言。[1]因此词汇学习是英语学习的重要组成部分,掌握词汇的多与少,直接影响学生语言能力的发展与提高。传统的词汇教学没有注意词汇之间的有机联系,学生对词汇的掌握主要靠大量的孤立式强化记忆,而语义场理论认为语言系统中的词汇在语义上是相互联系的,它们共同构成一个完整的词汇系统,为词汇教学提供了系统的理论依据,本文浅析语义场理论对英语词汇教学的几点启发。 1.1 语义场理论 语义场理论(semantic field theory亦称field theory)最早是20世纪20-30年代由德国与瑞士的一些学者提出的。其中最著名的是德国学者特雷尔(J. Trier )。[2]该理论认为:语言系统中的词汇在语义上是相互联系的,它们共同构成一个完整的词汇系统。该理论主要包含三层涵义:其一,语言中的某些词,可以在一个共同的概念的支配下,结合在一起组成一个语义场。[3]例如,由tiger、lion、elephant、bear、dog、cat、pig等词组成animal这个语义场;其二,属于同一语义场的词,不仅在语义上相关,而且在语义上是相互制约、相互规定的。其三,指这个完整的词汇系统是很不稳定的,处于不断变化之中。 1.2 语义场的类型 根据对共同义素的分析角度不同,语义场相应的区分为不同的类型,主要包括:分类义场、上下义场、同义义场、反义义场等。[4] (1)分类语义场。分类语义场是由类义词(因为组成义位的某些义素相同而以类相聚的一群词语)组成的语义聚合体。[5]例如以matter为义素的语义场可以分为solid、liquid、gas等三个分义场,Change 这个义场包括chemical change和physical change,像这样的列子数不胜数。 (2)上下义义场。上下义义场是指一词在上表示总的概念,两个或三个以上的词在下,表示具体概念,在上者称为上义词,在下者称为下义词。上下义义场又分为两元的和多元的。[6]两元的是指一个上义词只包括两个下义词,例如parent这个义场包括father和mother两个词,children这个义场包括son 和daughter。多元的是指一个上义词包括三个或三个以上的下义词,如vehicle这个义场包括car、bus、truck、train等多个词,plant这个义场包括tree, flower, grass, vegetable等。 (3)同义义场。同义义场是指由指称意义相同的义素形成的语义聚合体。在同义义场中,绝对同义词是比较少见的,许多同义词在中心意义上相似的,但其在语体风格、感情色彩、搭配关系上等存在着差别。[7]比如dad和father的语体不同, dad是口语而father是书面语,;再比如pretty girl中的pretty是小巧玲珑的意思,是褒义词而tiny man中的tiny是一种不正常的小的意思,是贬义词,pretty和tiny的感情色彩不同;再比如对……严格,可以有be strict with…与be strict to…两种词组,它们的搭配不同,be strict with sb.,而be strict to sth.。 (4)反义义场。反义义场是由意思相反、相对或矛盾的属于同一词性的和同一范畴的一组词构成的

黄智生博士谈语义网与Web 3

黄智生博士谈语义网与Web 3.0 作者徐涵发布于 2009年3月26日下午6时0分 社区 Architecture, SOA 主题 语义网 标签 Web 2.0, 采访, 元数据, 语义网 近两年来,“语义网(Semantic Web)”或“Web 3.0”越来越频繁地出现在IT 报道中,这表明语义网技术经过近10年的研究与发展,已经走出实验室进入工程实践阶段。PowerSet、Twine、 SearchMonkey、Hakia等一批语义网产品的陆续推出,预示着语义网即将在现实世界中改变人们的生活与工作方式。在Web 3.0时代即将揭开序幕之际,正确理解、掌握语义网的概念与技术,对IT人士与时俱进和增加优势是必不可少的。为此,InfoQ中文站特地邀请到来自著名语义网研究机构荷兰阿姆斯特丹自由大学的黄智生博士,请他为我们谈一谈工业界人士感兴趣的语义网话题,包括什么是语义网、语义网与Web 3.0的关系以及语义网如何给商业公司带来效益等。 InfoQ中文站:您是语义网方面的权威专家,能否先请您为我们消除概念上的困惑。现在有一个说法,即Web 3.0就是语义网。但是除了W3C定义的语义网以外,关于Web 3.0还有许多种其他说法,您认为谁才真正代表了Web 3.0?为什么? 黄智生博士(以下称黄博士):首先需要说明的是:我不认为自己是所谓的“权威”。纵观万维网的发展,总是年轻人在创造历史,他们给人类社会带来了一次又一次的惊奇。且不说万维网之父Tim Berners-Lee在1989年构想万维网的时候仅仅三十出头。Web 1.0产生的雅虎和谷歌等国际大公司的创始人大多是年轻的博士生。Web 2.0产生的Facebook等公司创始人的情况也大体如此。Web 3.0的情况也可能如此。我们甚至都不能完全指望通过现有的IT大公司的巨大投入来发展语义网。这些大公司往往受着过去成功经验的束缚,而且新技术采用的是与以往完全不同的思路,从而会加深大公司对新技术的怀疑。当然,这也为年轻人书写历史创造辉煌提供了发展空间。 由于Web 1.0和Web 2.0技术的成熟,Web 3.0的想法实际上表达了现在人们对下一代万维网技术的种种期待。从这个意义上讲,Web 3.0并不等同于语义网。网络上对Web 3.0众说纷纭,都有一定的道理。但我有一定的理由相信,语义网技术是Web 3.0的重要技术基础。我于2008年底在国内一些大学巡回讲学报告

古代汉语练习题 词类活用

古代汉语练习(词类活用) 班级:姓名:学号: 一、简答: 1、什么是古代汉语的词类活用?古代汉语中的词类活用有哪几种? 2、怎样区别使动用法和意动用法?试举例说明。并说明如何翻译。 3、试说明名词做状语主要有哪几种情况。 4、名词、形容词用作动词的情况主要有哪些?应该如何辨认? 二、多项选择题(在每小题的四个备选答案中,选出二个至四个正确的答案,并将其号码分别填在题干后的括号内,多选、少选、错选均无分。每小题1分,共5分) 1.下列各句中加着重号的词,属于词类活用的是() A.斩一首者爵一级B.能富贵将军者,上也 C.曹人凶俱,为其所得者棺而出之 D.夫鼠,昼伏夜动,不穴于寝庙,畏人故也 2.下列各句中加着重号的词属于名词作状语的是() A.裂裳衣疮,手往善药 B.其经承子厚口讲指画为文词者,悉有法度可观 C.范增数目项王D.诸侯宾至 3.下列各句含宾语前置现象的是() A.姜氏何厌之有B.楚君之惠,末之敢忘 C.除君之恶,唯力是视D.昭王南征而不复,寡人是问 4.对下列各句中加着重号的词组分析错误的是() A.子重使太宰伯州犁待于王后(动宾)B.将塞井夷灶而为行也(连动) C.臣之壮也犹不如人(主谓)D.以勇力之所加而治智能之官(偏正) 5.下列句子中有使动用法的是() A.秋九月,晋侯饮赵盾酒,伏甲将攻之 B.是时万石君奋为汉王中涓,受手谒,人见平

C.见灵辄饿,问其病,曰:“不食三日矣。”食之,舍其半 D.仓廪实而知礼节,衣食足而知荣辱 四、指出并具体说明下列文句中的词类活用现象: 1.秦数败赵军,赵军固壁不战。(秦与赵兵相距长平) 2.赵王不听,遂将之。(秦与赵兵相距长平) 3.身所奉饭饮而进食者以十数,所友者以百数。(秦与赵兵相距长平) 4.括军败,数十万之众遂降秦,秦悉阬之。(秦与赵兵相距长平) 5.信数与萧何语,何奇之。(韩信拜将) 6.王必欲长王汉中,无所事信。(韩信拜将) 7.吾亦欲东耳,安能郁郁久居此乎?(韩信拜将) 8.何闻信亡,不及以闻,自追之。(韩信拜将) 9.今大王举而东,三秦可传檄而定也。(韩信拜将) 10.遇有以梦得事白上者,梦得于是改刺连州。(柳子厚墓志铭) 11.自子厚之斥,遵从而家焉,逮其死不去。(柳子厚墓志铭) 12.以如司农治事堂,栖之梁木上。(段太尉逸事状) 13.踔厉风发,率常屈其座人。(柳子厚墓志铭) 14.晞一营大噪,尽甲。(段太尉逸事状) 15.即自取水洗去血,裂裳衣疮,手注善药。(段太尉逸事状) 16.黄罔之地多竹,大者如椽。竹工破之,刳去其节,用代陶瓦。(黄冈竹楼记)17.晋灵公不君。厚敛以彫墙。(晋灵公不君) 18.既而与为公介,倒戟以御公徒而免之。(晋灵公不君) 19.盛服将朝,尚早,坐而假寐。(晋灵公不君) 20.晋侯饮赵盾酒,伏甲将攻之。(晋灵公不君) 五、说明下列文句中的词类活用现象,并将全文译为现代汉语:

语义搜索的分类

语义搜索的分类 一.按语义搜索引擎服务内容的分类 语义搜索引擎从人们头脑中的概念到在搜索领域占据一席之地经历不少坎坷。语义网出现后,语义搜索迎来了高速发展的机遇期。虽然语义搜索服务内容主要集中在传统搜索引擎不擅长的语义网搜索方面。不过语义搜索引擎也试图拓展服务范围,提供比传统搜索引擎更全面的服务。语义搜索引擎的服务内容主要包括以下几个方面:知识型搜索服务、生活型搜索服务、语义工具服务等。 (1)知识型搜索方面,主要针对语义网知识信息资源。其中包括: ①词典型搜索服务。一种形式是如同使用电子词典一样,通过关键词直接查询与关键词对应的概念。这些概念由语义搜索引擎索引的本体文件中提取。另一种形式则是对在线百科全书的搜索服务,如PowerSet,这一点与传统搜索引擎近似,但语义搜索引擎在信息的组织上远胜于传统搜索引擎。 ②语义网文档(SWD)的查询服务。用户可以通过语义搜索引擎查询所需的语义网文档和相关的语义网文档。Falcons 为统一资源标识符(URI)定义的语义网对象和内容提供基于关键词的检索方式。Swoogle 从互联网上抽取由RDF 格式编制的语义网文档(SWDs),并提供搜索语义网本体、语义网例证数据和语义网术语等服务。 ③领域知识查询。部分语义搜索引擎提供了针对某个或某几个专业门类的信息检索服务,用户可以选择自己所需相关信息。Cognition 以搜索法律、卫生和宗教领域为主。个别语义搜索引擎提供针对特定领域的多媒体语义搜索服务,如Falcon-S 对足球图片的搜索服务。不过多媒体语义搜索面临与传统多媒体搜索相似的困境,缺乏有效的语义标注。对多媒体信息的辨别和分类能力仍有待提高。 (2)生活型搜索方面,语义搜索引擎在传统搜索引擎力所不及的诸方面发展迅速。 ①社会网络搜索。部分语义搜索引擎提供社会网络搜索功能,这种功能可以实现通过姓名、著作、所在单位等信息中的一条或几条,查询与这些信息有关联的更多信息,如我国的ArnetMiner。 ②资讯搜索。目前语义化的网络搜索服务能够更有针对性,更准确地为用户提供新闻资讯。Koru就是这方面的代表。 (3)语义工具服务。 这是语义搜索引擎所属的研究机构的一个较为独特的方面,和传统搜索引擎提供的桌面搜索等工具不同,语义搜索引擎提供的语义工具一般不是对语义搜索功能的直接移植,而是对文档的相似性、标注等进行处理用的。这些工具可以为语义搜索引擎的索引对象进行前期数据加工,同时也供科研使用。 理论上讲语义搜索引擎能够提供包括普通网络文档检索在内的所有类型网络文档搜索服务,但是由于语义搜索引擎对网页的索引方式不同,微处理器需要比传统搜索更长的时间才能分析完一个页面,因此很多语义搜索网站只能扫描到外部网站的二级页面,这样将难以满足用户全网络搜索的需求。 二.按语义搜索引擎服务模式分类 语义搜索引擎高速发展的阶段正值传统搜索引擎发展的平台期,虽然语义搜索引擎暂时尚不具备传统搜索引擎的市场竞争力,但是它们却可以很容易地借鉴传统搜索引擎的成

语义场理论和英语词汇教学

语义场理论和英语词汇教学 语义学是一门崭新的学科,把语义学用于大学英语教学更是一个全新的内容。英语教学中,很大的一部分内容就是如何把语义学的理论融入到词汇教学当中,使学生能熟练掌握词汇,并能得体地、恰当地运用它们。英国语言学家威尔金斯曾经说过:“没有语法,人们表达的事物寥寥无几,而没有词汇,人们则无法表达任何事物”(Wilkins,1978:111)。由此可见,词汇教学在语言教学中占有重要的地位。目前,我国的大学生英语的学习时间都有5到8年,然而很多学生一谈到英语词汇的学习,都感到头痛。他们普遍存在着下列问题:(1)不能有效巩固已学的单词;(2)不能在特定的语境中恰当地运用单词;(3)错误地使用词的形式,例如:“Be seated, ladies and gentlemen”(formal),“Have a seat”(informal),“Take a pew”(colloquial);(4)不能地道地使用词汇,例如:“no other corner of our planet”;(5)不能有效地把词汇使用在有意义的语境中等。如果能把语义学理论引入英语教学之中,用语义学的原理分析和认识词汇,从而运用更加科学有效的方法提高词汇教学,并从中总结和找出一定的规律,这对提高学生学习英语的兴趣,提高他们掌握英语词汇的能力,进而更好地、恰当地并且得体地使用词汇,都有重要的现实意义。这种理论与实践的结合是很有意义的。 语义学中的语义场理论可帮助学生重温、联想所学词汇,使之变成长期记忆。语义场理论是德国学者J. Tries(伍谦光,1995:94)最先提出来的。根据这一理论,我们知道,尽管语言词汇数目巨大,浩如烟海,但它们并不是杂乱无章的。语义场理论把一种语言的词汇看成是完整的、在语义上相关联的,将一个词与其它词联系起来,而形成语义场。实际上它就是语言中的某些词在一个概念支配下组成一个语义场。例如,在“animal”这个概念下,“cat,dog,horse,tiger,elephant”等单词构成一个语义场,根据词义上的类属关系,看它们是否是上、下义的关系,进而可以推出它们的层次结构。从上面的例句,可以得出从属“animal”这个概念的有“horse,dog,cat and etc.”,每个场下面还可以再分出若干个“子场”,“子场”下面可再分出“次子场”等等,这样就可以使词汇体系及词义系统有次序地展现出来。如果我们了解词与词之间的各种关系,为多个单词设立多种形式的语义场,这样就便于记忆和使用词汇。如表示颜色的语义场有:red,yellow,blue,black,purple,orange等词;还有表示相反意义的语义场如accept/refuse;buy/sell;easy/difficult;true/false等等。通过记忆 laugh(笑)、smile(微笑)、grin(露齿而笑)、giggle(格格地笑、傻笑)、roar(哄笑、大笑)guffaw(捧腹大笑)、mock(嘲笑)、jeer(讥笑)等词,学生不仅弄清了这些词的细微区别,而且学会了正确地使用它们。通过语义场的词汇学习,常常可带出一长串词汇,这样不仅扩大了词汇量,而且不易忘记,所以运用语义场理论学习词汇是扩大词汇量的一种科学有效的好方法。根据德国心理学家H. Ebbinghauss的遗忘曲线学说:复习所需时间比初学所需时间要少得多,复习次数越多,需要时间越少,遗忘速度越慢,因此单词在初学后要马上不断地重复记忆,使之成为长久记忆。同时,运用语义场理论,学生可以对词汇体系进行分析研究,有次序地展现语言的词汇系统。更重要的是,通过语义场,他们能清楚地看到词义之间的相互依存关系和结构层次关系,这样有助于联想和重温所学的词汇。 英语教学的根本目的在于培养学生的语言交际能力 ,因此我们的教学必须把语义摆在一个重要的位置 ,而不能仅仅以语法和结构作为教学的中心。语法结构和意义之间往往存在歧义的问题。结构分析的诸多缺陷可以在意义层次的研究中得到弥补 ,将结构和意义结合起来进行分析和研究的方法对教学产生了深远的指导意义。我们的词汇教学不应该是一味强求词汇量的扩增 ,追求强记效果 ,而是要深入地剖析词汇并把它们联结成一个网络。(Tylor ,1993)如果我们在词汇教学中单纯追求扩大词汇量 ,要求学生死记硬背单词 ,其结

语义检索

在数字图书馆中,信息检索存在明显不足。在文献的组织与描述上,简单将关键词作为描述文献的基本元素,文献之间没有关联,是相互独立的、无结构的集合。在检索操作上,通常是基于关键词的无结构查询,难以反映词语间各种语义联系, 查询能力有限,误检率和漏检率很高,检索结果的真实相关度较低;计算查询和文档之间的相似度的方法也有局限。在用户交互界面上,用户的检索意图难以被机器理解,采用自然语言输入的检索关键词与机器的交互存在障碍。现有数字图书馆信息资源检索存在资源表示语义贫乏和检索手段语义贫乏、查准率低下等问题,语义网技术的出现,为数字图书馆的发展注入了新的活力,为信息检索质量的提高带来了新的生机。运用语义网技术,使解决信息检索中现存的问题,完善信息检索流程成为了可能。3.1 数字图书馆信息检索模型目前数字图书馆的信息检索主要借助于目录、索引、关键词方法来实现, 或者要求了解检索对象数据结构等, 对用户提供的关键词的准确性要求较高,基于语法结构进行检索, 却不能处理复杂语义关系,常常检索出大量相关度很差的文献。 图3.1 数字图书馆信息检索模型用户通过检索界面,输入关键词,文本操作系统对用户的关键词进行简单的语法层次的处理整合,与数字图书馆资源进行匹配检索,最终将检索的结果,再通过用户界面返回给用户。而数字图书资源,专业数据库等都是数字图书馆信息检索的范畴,这些数字化的知识资源主要以数据库形态分布于全球互联网的数千个站点,这种以数据库形式存放的信息资源,通常是电子化了的一次文献,包括元数据、摘要或者是全文,也可以是全文链接的地址。 24 基于语义网的数字图书馆信息检索模型研究 3.2 基于语义网的数字图书馆信息检索模型的设计思想数字图书馆信息检索系统存在诸多问题。查询服务智能化水平低,无法对用户请求进行语义分析;信息资源的共享程度低,仅仅采用题名、文摘或全文中出现的关键词标识文献内容,难以揭示文献资料所反映的知识信息,易形成信息孤岛;对用户输入的关键词进行句法匹配,查准率不高;片面追求查全率,返回大量无关结果等。这些问题最终造成用户的真正检索意图难以实现。人们希望有突破性的信息检索技术出现,能够支持更为强大的信息检索功能,具备理解语义和自动扩展、联想的能力,并为用户提供个性化服务。在这样的需求下,本节深入探讨了现存问题的解决方法,结合语义网技术,提出了以下基于语义网的数字图书馆信息检索模型的设计思想。3.2.1 机器理解与人机交互人们通过信息的交流和沟通,表达一定的思想、意思和内容,因此,自然语言和表达的信息中蕴含着丰富的语义。尤其是自然语言中,一词多义、一义多词现象十分常见,在不同的语境中,同样的词汇还可以表达出不同的意义。在人与人的交流中,近义词、反义词、词语的词性、语法结构等帮助人们在特定的语言环境中理解语言表达的确切含义,而计算机要做到这点却有难度。随着网络的不断发展,网络信息充斥着人们的视野。如何在浩如烟海的信息资源中,以最短的时间查找出相关资源,成为人们所关注的问题之一。通常,检索系统总会返回相关度不高,甚至完全无关的信息,而有些相关的信息却往往被遗漏了。一方面,检索工具没能把已经存在的、对用户有价值的信息检索出来,另一方面,信息资源没有很好的被归纳,提炼成知识。利用语义网技术,将语义丰富的描述信息和资源关联起来,通过机器理解和人机交互,对信息资源进行深层次的分析和挖掘。从本质上讲,人机交互是认知的过程,主要通过系统建模、形式化语言描述等信息技术,最终实现和应用人机交互系统。3.2.2 语义知识与描述逻辑从语义学的角度讲,语义是语言形式表达的内容,是思维的体现者,是客观事物在人们头脑中的反映[72]。人们在进行信息交流和沟通时,通过词语、符号来表达思想。当人们看到

初中所学文言文中的五类常见词类活用现象

初中所学文言文中的五类常见词类活用现象

古代汉语中的词类活用现象 五种类型:名词用作动词 动词、形容词、名词的使动用法 形容词、名词的意动用法 名词用作状语 动词用作状语 (一)名词用如动词 古代汉语名词可以用如动词的现象相当普遍。如: 从左右,皆肘.之。(左传成公二年) 晋灵公不君.。(左传宣公二年) 孟尝君怪其疾也,衣冠 ..而见之。(战国策·齐策四) 马童面.值,指王翳曰:“此项王也。”(史记·项羽本纪) 夫子式.而听之。(礼记·檀弓下) 曹子手.剑而从之。(公羊传庄公十三年) 假舟楫者,非能水.也,而绝江河。(荀子·劝学) 左右欲刃.相如。(史记·廉颇蔺相如列传) 秦师遂东.。(左传僖公三十二年) 汉败楚,楚以故不能过荥阳而西.。(史记·项羽本纪) 以上所举的例子可以分为两类:前八个例子是普通名词用如动词,后两个例子是方位名词用如动词。 名词用作动词是由上下文决定的。我们鉴别某一个名词是不是用如动词,须要从整个意思来考虑,同时还要注意它在句中的地位,以及它前后有哪些词类的词和它相结合,跟他构成什么样的句法关系。一般情况有如下四种:

①代词前面的名词用如动词(肘之、面之),因为代词不受名词修饰; ②副词尤其是否定副词后面的名词用如动词(“遂东”、“不君”); ③能愿动词后面的名词也用如动词(“能水”、“欲刃”); ④句中所确定的宾语前面的名词用如动词(“脯鄂侯”“手剑”) (二)动词、形容词、名词的使动用法 一、动词的使动用法。 定义:主语所代表的人物并不施行这个动词所表示的动作,而是使宾语所代表的人或事物施行这个动作。例如:《左传隐公元年》:“庄公寤生,惊姜氏。”这不是说庄公本人吃惊,而是说庄公使姜氏吃惊。 在古代汉语里,不及物动词常常有使动用法。不及物动词本来不带宾语,当它带有宾语时,则一定作为使动用法在使用。如: 焉用亡.郑以陪邻?《左传僖公三十年》 晋人归.楚公子榖臣与连尹襄老之尸于楚,以求知罃。(左传成公三年) 大车无輗,小车无杌,其何以行.之哉?《论语·为政》 小子鸣.鼓而攻之可也。《论语·先进》 求也退,故进.之;由也兼人,故退.之。《论语·先进》 故远人不服,则修文德以来.之。《论语·季氏》 有时候不及物动词的后面虽然不带宾语,但是从上下文的意思看,仍是使动用法。例如《论语·季氏》:“远人不服而不能来也”这个“来”字是使远人来的意思。 古代汉语及物动词用如使动的情况比较少见。及物动词本来带有宾语,在形式上和使动用法没有什么区别,区别只在意义上。使动的宾语不是动作的接受者,而是主语所代表的人物使它具有这种动作。例如《孟子·梁惠王上》“朝秦楚”,不食齐宣王朝见秦楚之君,相反的,是齐宣王是秦楚之君朝见自己。 下面各句中的及物动词是使动用法: 问其病,曰:“不食三日矣。”食.之。《左传·宣公二年》

词义分析和语义场

(一)什么是词义 客观事物(这里指人脑以外的所有事物,包括一切生物、非生物、事件以及它们的行动、状态、性质等等)反映在人脑中,产生感觉(sensation),知觉(perception),表象(representation);人脑把感觉、知觉、表象加以概括和抽象,形成概念(concept)。人们用语言形式把概念固定下来,成为人们交流思想的符号(sign),这就是有一定意义的词。也就是说,词的意义的"人"赋予它的,难怪英国语言学家帕特里奇(Eric Partridge)说过,"Words have no meaning; peope have meaning for them"(词本无义,人赋予之)。传统语义学家通常用三角图形来说明词义,称"词义三角"(triangle of significance): 意义(概念)Meaning (Concept) 词Word 形式Form……所指对象Referent 这个图形表示:第一,词有两个方向--"形式"和"意义(概念)"。"形式"首先是指词的语音形式,也就是平常所说的发音,其次是指词的书面形式,也就是平常的说的拼写;与此相对的是词的意义(其核心部分是概念),也就是词的内容。每个词都有一定的形式和意义;这两方面缺一不可,统一在每个词中。第二,词义与所指对象联接在一起--一方面,词义在客观世界中是有所指的,另一方面,词义又是客观世界的某一(或某些)事物在语言中的反映。客观世界是无穷无尽、无限丰富的,客观世界的事物之间存在着细微的千差万别。人类语言无法完完全全地准确表达客观世界。一种语言无论词汇多么浩瀚、词义多么丰富,都不足以完完全全地准确反映客观世界。 现代语义学家对"词义三角"提出很多批评,涉及哲学、心理学等各个领域。但是如果我们从学习语言的实用目的出发,粗浅地分析词义、解释有关词义的种种现象,传统语义学提出的"词义三角"还是能说明一些问题的。 (三)词义分析和语义场 前面已经提到,词义是词的内容,每个词有一个或几个意义,每个词义又可以进一步分析成若干个语义成分(semantic compo-nents)或语义特征(semantic features)作为区别性特征(distinctive features)。叶姆斯列夫(Hjelmslev)在本世纪四十年代出版的《语言理论导论》中应用于语义成分分析了"公羊、母羊、男人、女人、男孩、女孩、公马、母马"这组词。至于语义成分分析法(componential analysis)则是美国的人类学家威廉·古迪纳夫(W. H. Doodenough)于1956年提出来的。此后,美国语言学家奈达(Nida)、卡兹(Katz)和福德(Fodor)等人进一步发展了这种方法。举个最简单的例子:man, woman, boy, girl都属于"人"(human)这个语义范围(即语义场,semantic field),以"人"(human)这一共同的语义成分为核心,以男性(male)女性(female),成年(adult 每个词的语义又可以分别通过区别性特征表示为: man: +人+ 成年+ 男性 woman: +人+ 成年-男性 boy: +人- 成年+ 男性 girl: +人- 成年- 男性 把每个词义分析成若干语义成分可以帮助我们比较完整地了解词义,以及词与词之间的关系。例如:adult和grown-up这一对同义词就可以表示为:+ 人+成年,另外再表明它们的文体区别,前者是正式用语,后者是非正式用语。又如man这个词的多义性可以表示为:它有两个词义,第一个词义是+ 人+ 成年+ 男性,第二个词义是+ 人。 词义研究的另一种理论是所谓的"语义场"(semantic field),这个理论最早是由德语言学家特里尔(Jost Trier)在本世纪三十年代初提出来的。他认为,每个词都身居其亲属概念之间,这些词相互之间以及它们特指的那个词一起构成了一个自成系统的整体,这种结构可称为"词场"(das Wortfeld)或语言符号场(das Spraches Zeichenfeld)。其实,语义场就是同一词类的词由于它们之间紧密的联系而形成的一个词汇小体系,这些词具有它们的共有语义成分,体现了它们的概念核心。属于同一个语义场的词除了具有共同的语义成分以外,还具有各种非共同语义成分作为区别性特征。按照区别性特征的不同,语义场可以分为同义、近义类义、反义等几种。同义语义场里的词的概念意义相同,关联意义有差别;近义语义场里的词的共同语义成分的含义在程度上有细微的差别;类义语义场里的词在非共同语义成分的种别上有差异;反义语义场里的词的非共同语义成分的含义截然相反或者相对。各个语义场之间也呈现着包含、并列、部分覆盖等错综复杂的关系。用语义场的概念

相关文档
最新文档