提取关键词的本质

提取关键词的本质
提取关键词的本质

一.提取关键词的本质

1.提取关键词本质上是对语段关键、主要、核心信息的集中,高考压缩语段

之提取关键词。

2.提取关键词本质上是压缩的压缩,精练的精练,关键的关键。

3.提取关键词本质上是要淘汰掉次要的、支撑的、解说的信息。

4.提取关键词本质上考查的语段信息筛选能力和梳理思路能力。

二.提取关键词的三大原则

1.首先通览语段寻找锁定有效信息:冷静取舍。

2.其次筛选有效信息中的核心信息:再次取舍。

3.提取而不是组合语段中的关键词:文中原有。

4.主要用双音词或短语的形式表述:二字多字。

三.提取关键词的三个技法

1.核心话题法:抓取语段核心话题词语

任何文体性质的语段都得围绕某个核心话题展开

这个话题词语在语段中出现的频率一般较多

承载语段核心话题的词语肯定是关键词之一

2.关键语句法:筛选语段中的关键句

有的语段中会有针对核心话题的核心陈述句

有的语段中有或总领或总结的概括性中心句

抓住这类关键语句就易于筛选出关键词

3.结构层次法:任何语段都表现为一定的思路层次

并列式语段关键词常散布在各层次中

递进式语段关键词常出现在最后层次中

总分式语段关键词常出现在总说句中

四.提取关键词的高考真题例析

1.提取下面一段话的主要信息,写出四个关键词语。(2006年高考广东卷)

从甲骨文到草书、行书的各种书法艺术,间接地反映了现实某些方面的属性,将具体的形式集中概括为抽象的意象,通过视觉来启发人们的想象力,调动人们的情感,使人们从意象中体味到其间所蕴含的美。这也就是一些讲书法的文章里常说的"舍貌取神"--舍弃客观事物的具体现象特征,而摄取其神髓。

[答案]书法意象体味神髓

[解析]最后一个句子就是本段的中心句,而"舍貌取神"又是这个句子的核心。

只要我们抓住这个句子,找出"貌""取""神"三字的各自所指,就能轻易套牢其中的三个关键词--"意象""体味""神髓"。再用"话题法",找出本语段的核心话题对象--"书法",另一关键词也便找出来了。

2.阅读下面的文段,提取四个关键词。

今天中国独特而强烈的爱国主义热情,直接源于"鸦片战争"以来的民族生存危机。在开放时代,中国与世界的关系发生了巨大变化,中国不但摆脱了民族生存危机,而且成为全球化竞争中的最大受益者之一。中国离不开世界,世界也离不开中国。这时的爱国主义应当注入新的因子和意识。它不再应当仅是一种内聚型的强烈感情,不应当是封闭的、种族的、排外的,而应当具有理性、深沉的意识,即开放的世界观、积极的进取心、普世的价值观念。

[答案]开放时代爱国主义理性深沉

[解析]此语段的核心话题是"爱国主义",是在"开放时代"之下来讨论这一话题

的,它应有的重要特点是"理性、深沉"。其他的语句都是支撑、解说这些核心词语的次要部分。

8.下面是英国学者里基·特里维尔关于"战略环境评价"的经典性定义,请提取

反映其主要信息的三个重要词语。(不超过15个字)

战略环境评价是指对政策、计划、规划及其替代方案的环境影响进行规范的、系统的、综合的评价过程,包括根据评价结果提交的书面报告和把评价结果应用于决策之中。

战略环境评价:_ __

[答案]环境影响评价结果(或"书面报告")应用于决策(或"应用"、"应用于决策之中")

[解析]此语段的核心话题是题干中的"战略环境评价",这也是语段关键词之一,围绕这个关键词,谈了"环境影响"、"书面报告"、"应用"这些核心内容,因为有此进近义词,所以答案采取

MSN(中国大学网)

1.提取下面一段话的主要信息,写出四个关键词。(2005年高考全国卷)

据报道,我国国家图书馆浩瀚的馆藏古籍中,仅 1.6万卷"敦煌遗书"就有5000余米长卷需要修复,而国图从事古籍修复的专业人员不过10人;各地图书馆、博物馆收藏的古籍文献共计3000万册,残损情况也相当严重,亟待抢救性修复,但全国的古籍修复人才总共还不足百人。以这样少的人数去完成如此浩大的修复工程,即使夜以继日地工作也需要近千年。

[答案]古籍修复人才不足

[解析]这个语段谈论的核心话题是古籍修复的处境问题,"古籍""修复"这两个词是我们在答题时首先要考虑的。文段通过一系列的数据告诉我们古籍修复这个核心话题的处境不好,最重要的具体表现是事多人少,这样,我们就又可找出另外两个关键词--"人才""不足"。

3.下面是一篇科技论文的摘要,根据其信息内容提取四个关键词。(2009年四川卷)

本文针对直接法和二步法合成聚乳酸的共性,从单体纯度、催化剂选择到共沸脱水、微波辅助、超临界流体介质,以及到固相聚合、反应挤出、扩链等各个方面,对近年来聚乳酸合成研究的新进展进行了综述,指出各种新方法、新技术的复合应用是提高聚乳酸分子量、降低其成本的关键。

答:_;_;_;_

【答案】聚乳酸;合成;新进展;复合应用

[解析]本语段的核心话题是"聚乳酸",这是关键词之一。围绕着"聚乳酸"这个核心话题,本语段谈了它在"合成"方面的"新进展"、"复合应用",其他的内容都是这些核心陈述的支撑、解说性质的次要成分。此题的答案由双音节词语和短语组成。

5.阅读下面文段,从中提取三个关键词。(新乡许昌平顶山三模试题)

改革开放30年来,通过财政体制安排和政策实施,我国集中调剂了一部分社会资源,提供了公共物品与服务,通过促进国民经济发展环境的改善,也对全社会资源进行了更好的优化配置。以近5年为例,中央财政用于农村基础设施建设近3000亿元,用于重点建设投资2800多亿元.包括青藏铁路、三峡工程、西电东送、南水北调、京沪高速等在内的一批重大工程相继建成或顺利推进;投资支持重点

流域水污染防治项目691个,支持基础设施和生态环境建设取得明显进展。[答案]社会资源调剂优化配置

[解析]本语段的核心陈述是第一大句,"以近5年为例"以后的语句是对全部语段的解说,是次要部分。第一大句中的核心话题是"社会资源",这是关键词之一。围绕着"社会资源"重点谈了"调剂"、"优化配置"问题。答案不够准确。

6.阅读下面文段,从中提取出三个关键词(2008年福建卷)

美国卡地夫大学的科学家近日起程,前往调查大西注深处地壳失踪之谜。

通常情况下,地幔由数公里厚的地壳所覆盖,但科学家发现,在大西洋中部约有数千平方公里范围内的地壳似乎大面积失踪,地幔直接暴露在水下3000米左右的海底。卡地夫大学地球、海洋与行星科学学院的海洋地质学家克里斯认为,这有如发现了地球表面的伤口。他表示,该处虽不是地壳失踪的唯一之处,但可能是最有意义的一处。一般来说,当板块断裂后,地幔将涌出,形成岩浆。而这种通常的情况没有发生,说明一定存在某种原因。科学家希望了解该处的地壳是否从来就不存在,还是因为发生大规模地层断裂所致。如果事实果真如此,科学家希望搞清楚,这种现象是怎么形成的以及为什么会形成这种现象。

为了回答这些问题,克里斯将参加由特勒姆大学海洋地球物理系教授罗杰?塞尔所领导的研究小组,搭乘库克号科学考察船,前往佛得角群岛和加勒比之间的区域通行考察。科学家将利用声纳技术形成海底声纳图像,并利用海下机器人钻取岩芯样本。科学家认为,这次考察将为深入研究和了解地幔提供一个难得的机会,并可能加深对板块构造的理解。

[答案]地壳失踪考察(调查)

[解析]此文段核心话题是"地壳",围绕"地壳"这个核心话题,重点阐述

了对"失踪"问题的"考察"。第一个语段是全文的关键语段,是全文的总说部分,下面两个语段都是对第一个语段进行解说的次要部分。

提取关键词方法

如何提取关键词 提取关键词在考纲里并不是一个单设的考点,它其实是信息筛选和压缩语段这两个考点的一个综合,主要考查学生概括思想内容,提取关键信息的能力。要求考生具有较强的理解、分析、筛选、概括、语言表达等各项能力。它首先要求考生在准确理解文段的基础上找到有效信息,并从中筛选出核心信息;然后用最简洁的语言加以概括,且概括时只能用词或短语。 ■能力提升指导 尽管这是近几年出现的一个新题型,但它涉及的能力要求在以前的相关考点中早有规定,只要大家掌握我们下面介绍的几种方法,解答起来,仍然可以得心应手。 一、研究语段话题 任何语段,无论是记叙、议论或说明,它总是围绕一个话题来展开的,体现话题的词语肯定是关键词之一,如:例①提取下面一段话的主要信息,写出四个关键词。(2005年高考全国卷) 据报道,我国国家图书馆浩瀚的馆藏古籍中,仅万卷“敦煌遗书”就有5000余米长卷需要修复,而国图从事古籍修复的专业人员不过10人;各地图书馆、博物馆收藏的古籍文献共计3000万册,残损情况也相当严重,亟待抢救性修复,但全国的古籍修复人才总共还不足百人。以这样少的人数去完成如此浩大的修复工程,即使夜以继日地工作也需要近千年。 这个语段谈论的话题是古籍修复的处境问题,“古籍”“修复”两个词是我们在答题时首先要考虑的。文段通过一系列的数据告诉我们古籍修复的处境不好,具体表现是事多人少,这样,我们就又可找出另外两个关键词——“人才”“不足”。 二、寻找中心语句 有的语段有较为概括的中心句,或提起下文,或总结上文,或承上启下,我们可抓住这个句子,顺藤摸瓜找到相关关键词,如: 例②提取下面一段话的主要信息,写出四个关键词语。(2006年高考广东卷) 从甲骨文到草书、行书的各种书法艺术,间接地反映了现实某些方面的属性,将具体的形式集中概括为抽象的意象,通过视觉来启发人们的想象力,调动人们的情感,使人们从意象中体味到其间所蕴含的美。这也就是一些讲书法的文章里常说的“舍貌取神”——舍弃客观事物的具体现象特征,而摄取其神髓。 最后一个句子就是本段的中心句,而“舍貌取神”又是这个句子的核心。只要我们抓住这个句子,找出“貌”“取”“神”三字的各自所指,就能轻易套牢其中的三个关键词——“意象”“体味”“神髓”,再用上面所讲的话题法,找出本语段的话题对象——“书法”,另一关键词也便找出来了。 三、明确具体要求 并不是每一道“提取关键词”的题的要求都是一样的,有的还根据语段的特点有具体要求,并且,有的要求可能还比较含蓄。对此,我们就一定要弄明确试题要求我们提取的是哪方面的关键词,以防泛泛去找,劳而无功。如:例③根据要求提取下面一段话的主要信息,写出六个关键词(可以是短语)。(2006年高考江苏南通市高三第一次调研考试) 由于司马迁认识到了,历史终归是“人”的历史,不是“天”的意志史,于是以“绍圣《春秋》”为使命的司马迁抛弃了孔子既定的历史纪年法——编年体,而改用纪传体。这决不是一个技术问题,而是观念问题。他对那冰冷的历史巨轮投以轻蔑的一哂,然后满怀慈悲地去关心轮子下的那些泣血的生灵:从而,我们看到,一代一代的人物以及他们对历史必然性的反抗,对自身命运的体认,构成了《史记》的主色调。史学成了人学,必然性成了戏剧性,逻辑的链条崩溃了,生命的热血喷涌而出…… (1)历史纪年法的史学观:_____________。 (2)人学的史学观:___________________。 这道题要求分别提取有关“历史纪年法史学观”和“人学史学观”的关键词,我们就只能去寻找能表明这两种史学观特点的词语。这就意味着我们没必要到前两句去找。我们还要意识到,既然是两种对立的史学观,那两组关键词在语意上就应该是相反的。这其实是题目的一个隐含要求。分析至此,答案自明:(1)冰冷、必然性(或“历史必然性”)、逻辑;(2)慈悲、戏剧性、生灵(或“命运”或“生命的热血”)。 四、分析构段特点

概括题提取关键词四法

提取关键词四法关键词本是网络中经常提及的词语,指的是人们输入搜索框中的文字。关键词的内容大多为网站名、网页名、新闻事件、人名、术语、软件名等。而高考常考语段压缩题型——提取关键词中的“关键词”实是关键信息句中的核心信息。 提取关键词,说到底就是要善于提取关键信息句中的核心信息,考查的是学生提取关键信息的能力。 2011年高考,有两个省(福建省和四川省)的语文试卷中出现了语段压缩题,具体试题内容如下: 福建卷: 阅读下面的材料,回答问题。 某翻译家在《文艺报》上撰文指出:有人说中国人称自己的国家为“中国”,表示自己是坐镇在世界中央的天朝,说明中国人自傲。但从国名的中文翻译来看,译名却能够表达中国人的感情。例如,“英国”为什么不译作“阴国”?“美国”不译作“紊国”?“德国”为什么不译作“歹国”?这是因为中国人要从同音字中选出具有最美好含义的字来命名这些国家。用什么字呢?用“英雄”的“英”、“美丽”的“美”、“道德”的“德”、“法律”的“法”、“芬芳”的“芬”、“祥瑞”的“瑞”……而外国,比如英国,用英文译别国的国名,只用音译,译名中不含有褒贬意义。 请用一句话概括该翻译家的观点。(3分) 答:_______________________________________________________ 此题虽不属提取关键词这类题,但与之有关,解答时要把握住该段文字的核心内容,即中文翻译较外文翻译更能表达美好的感情。答题时要强调中文翻译的感情色彩优势。另外,要注意句子结构的完整,不要把句子写成短语。参考答案为“对别国国名的翻译,中文能表达美好的感情,而外文不能” 四川卷 阅读下面的材料,概括要点回答中国建设世界一流大学缺少“什么”。不超过25字。(4分) 4月23日,“2011大学校长全球峰会”在清华大学举行。其中,“中国建设世界一流大学”成为热议的话题。多位大学校长接受记者采访时表示:目前,中国顶尖大学在吸纳拥有国际学术背景人才、借鉴发达国家的教学制度和成功经验等方面缺乏全球化视野;许多人安于现状,在科研方

提取热点问题的新方法(基本)

提取热点问题的新方法 一、基本思路和观点 基本观点1:文档标题中包含了部分、甚至大部分的语义特征词(组)。从标题中提取特征词比基于词频在文本内容中纯统计方法提取特征词具有更好的质量。 基本观点2:标题中不可能包含文档语义的全部特征词。因此,在一定条件下,仍然需要在文本内容中用统计方法提取更为全面的特征词。具体而言,在基于标题特征词的聚类完成后,使用各聚类中质量较高的少数文档,在有分类的情况下,可以更好地提取内容中的特征词。基本观点3:基于向量欧几里得距离的向量比较并不适合于文本相似性比较。文本相似性更依赖于共有的特征词的多少,而不在于特征词在词频上相近。 基本观点4:在文本相似性比较中,特征词之间的关联性也很重要。所谓关联性,表示特征词是否经常同时出现。如果两篇文档的共有特征词的关联性强,就更相似。 基本观点5:K-MEANS聚类不适合于热点发现。在热点发现中,有大量文档不属于特定的分类(热点问题)。由于K-MEANS需要将所有文档分配到某个类别中,这些文档对聚类中心的影响非常大。

二、主要步骤 1.提取有效标题 目标:在有栏目路径的标题中,提取有效标题。 基本方法:采用标题横向字符串比较来发现栏目路径,从而提取有效标题。 问题1:有的网页直接采用栏目名称作为标题。需要区分文档性网页和栏目性网页; 问题2:栏目路径的表示方法各不相同。有从左到右,也有相反的;分隔符也有多种。 2.提取标题中的特征词 目标:发现标题中能够表达文本语义的特征词。一个特征词常常不是一个词汇,而可能是一个词组。 基本方法:在内容中对标题词汇的各种组合进行查询,提取在文本中独立出现过的词汇(组合)作为特征词。 讨论:上述方法仅仅是在内容中查找是否存在标题词的某种组合,但并没有判断该组合对文章语义的重要性。但经过词性过滤后,大部分词汇还是能够反映文章语义的词汇组合。然而这些词对文章语义的重要性是不同的。在一篇文章中高频出现的词汇,其重要性不言而喻。为了后期聚类时进行改进,我们应该保留一个词组在文章中的关键词频。 但另一个问题是,如果一个词组在多篇文章中均有出现,如果保存其词频? 关键词对某篇文章的重要性是在向量化是体现的。因此这里并不需要保存其词频! 改进: 1.考虑标题中的分隔符(逗号,冒号和空格)对词组的影响; 2.考虑《》和“”中词组的完整性。 a)这些标点应该纳入完整词组中。但其中的纯粹词组也是有效的! 3.形成词组时,单独的标点不能出现在词组的两端,除非是上述配对的标点。 问题: 1.关键词数量太多!对聚类的效率影响很大。 2.标题关键词重叠很少,COS相似度很低。DBSCAN选择EPS需要某种方法。 3.最大词匹配分词算法对标题进行处理后,仅输出最长关键词(往往是标题本身 提供的关键词)。这不利于与其它文章(标题)之间的比较。统计标题关键词 时,应该在词汇边界的约束下,尽可能多地找到其中可以匹配的所有关键词。 相互嵌套的关键词独立计数?如“在北京大学”,“北京大学”,“大学”。 4.从内容识别标题关键词时,遗漏了很多关键词。如“在北京大学”在文章内容 中出现一次,由于“北京大学”没有独立出现过,因此被遗漏。这个问题可能 不是很严重:其它文章可以补足关键词。 5.有一些不合理的关键词组。如“经历统统造假”。但这些关键词组可能不会对 聚类造成不利影响。 6.增加标题关键词的权重(次数)的方法并没有使具有相同关键词的文章间的相 似度变得更大。eps仍然需要微调才能勉强是应该是同类的文章聚类在一起, 且还包含很多无关文章。从分析的角度看,需要输出任意两个文档所共同拥有 的关键词。 思考:

提取关键词分析

中语文必修四复习·提取关键词 □□复习提要 一、什么叫关键词?关键词与学习生活的关系。 二、如何提取关键词?(以说明性语段为主) 1、确定说明的对象。 2、确定说明对象的特点、性质和功用等。 3、确定其它信息:如何……,怎么办等。 三、关键词之间存在着一定的逻辑关系: (因果关系、并列关系、递进关系、转折关系、目的关系/说明关系)/什么→是什么→为什么→怎么办 如果把关键词串成句子,则能体现短文的主要内容。 四、如何寻找关键词? 1、看题目。 2、看出现的频率。 3、看总括性语句。 4、分层次。

5、可多确定一至二个“关键词”,然后进行筛选。 【分析】关键词本是网络中经常提及的词语,指的是人们输入搜索框中的文字。关键词的内容大多为网站名、网页名、新闻事件、人名、术语、软件名等。什么是“关键词”?新版现代汉语词典对此是这样解释的“(1)指能体现一篇文章或一部著作的中心概念的词语。(2)指检索资料时所查内容中必须有的词语。”依照这里的解释不难理解,提取关键词,说到底就是要善于提取“核心信息”,是一种压缩信息类的题型,考查学生提取关键信息的能力。 【解题方法】做这类题目,首先要分清语段的类型,看是记叙性语段,还是议论性语段,还是说明性语段。

如果是记叙性语段,首先要找出叙述的对象是什么,文段围绕这个对象说了什么事,最后的结果如何或者影响如何,然后在这基础上再提取关键词;如果是议论性语段,首先要找出语段的观点是什么,围绕此观点分别使用了哪些论据,然后在此基础上再提取关键词;如果是说明性语段,就要首先找出说明的对象是什么,文章对此说明对象说明的特征是什么,然后在这基础上再提取关键词。 提取完成后要检验,方法是把提取到的关键词连结成句,如果能够体现短文的主要内容,就可以认定是符合要求。 □□提取关键词的题型初次出现在2005年全国高考试卷(1)中:

语言运用之提取关键词

语言运用之提取关键词 语言运用之提取关键词yaya “关键词”这一概念原来较为常见的是在学术论文的前面,指的是一篇文章或一段文字中最紧要的词语。置于论文之首,是为了读者了解论文的基本内容。后来的网络搜索沿用了这一概念,仍是取的这一含义。 提取关键词的实质是考查学生筛选信息和压缩语段的能力,因此,具备这两种能力是解答这种试题的前提,当然作为一种独立的题型,它还有自身的特点,我们答题时还要做到如下几点。 一、研究语段话题 任何语段,无论是记叙、议论或说明,它总是围绕一个话题来展开的,体现话题的词语肯定是关键词之一,如: 例、提取下面一段话的主要信息,在方框内写出四个关键词。(2005年全国卷) 据报道,我国国家图书馆浩瀚的馆藏古籍中,仅1.6万卷“敦煌遗书”就有5000余米长卷需要修复,而国图从事古籍修复的专业人员不过10人;各地图书馆、博物馆收藏的古籍文献共计3000万册,残损情况也相当严重,亟待抢救性修复,但全国的古籍修复人才总共还不足百人。以这样少的人数去完成如此浩大的修复工程,即使夜以继日地工作也需要近千年。 答案: 这个语段谈论的话题是古籍修复的处境问题,“古籍”“修复”这两个词就是我们在答题时首先要考虑的。文段通过一系列的数据告诉我们古籍修复的处境不好,具体表现是事多人少,这样,我们就又可找出另外两个关键词——“人才”“不足”。 二、寻找中心语句 有的语段有较为概括的中心句,或提取下文,或总结上文,或承上启下,我们可抓住这个句子,顺藤摸瓜找到相关关键词,如: 例、提取下面一段话的主要信息,写出四个关键词语。(2006年广东卷) 从甲骨文到草书、行书的各种书法艺术,间接地反映了现实某些方面的属性,将具体的形式集中概括为抽象的意象,通过视觉来启发人们的想象力,调动人们的情感,使人们从意象中体味到其间所蕴含的美。这也就是一些讲书法的文章里常说的“舍貌取神”——舍弃客观事物的具体现象特征,而摄取其神髓。 答: 最后一个句子就是本段的中心句,而“舍貌取神”又是这个句子的核心。只要我们抓住这个句子,找出“貌”“取”“神”三字的各自所指,就能轻易套牢其中的三个关键词——“意象”“体味”“神髓”,再用上面所讲的话题法,找出本语段的话题对象——“书法”,另一关键词也便找出来了。 三、明确具体要求 并不是每一道“提取关键词”的题的要求都是一样的,有的还根据语段的特点有具体要求,并且,有的要求可能还比较含蓄。对此,我们就一定要弄明确试题要求我们提取的是哪方面的关键词,以防泛泛去找,劳而无功。如: 例、根据要求提取下面一段话的主要信息,写出六个关键词(可以是短语)。(2006年江苏南通市高三第一次调研考试) 由于司马迁认识到了,历史终归是“人”的历史,不是“天”的意志史,于是以“绍圣《春秋》”为使命的司马迁抛弃了孔子既定的历史纪年法——编年体,而改用纪传体。这决不是—个技术问题,而是观念问题。他对那冰冷的历史巨轮投以轻蔑的—哂,然后满怀慈悲

社会现象类关键词

社会现象类关键词——简政放权 【真题】(选取释词义见真题部分【真题索引】中的第一题) 目前有些部门办事效率低,工作作风不好,办证难的现象谈谈你的看法?(2015年4月25日天津) 【解析】 当前在我国某些部委机关及个别地方政府确实存在办事流程拖沓、繁冗的现象,处理问题程序繁杂,过程繁琐,为群众带来了麻烦和困难,这的确需要我们进行反思,并想办法去解决这一问题。 这样的一些流程拖沓繁杂的现象严重拉低了政府机关的工作效率,使得我们在处理问题时不能分清轻重缓急。在处理问题上容易滋生腐败和权利寻租。如果政府官员手中权利过多过大,而官员自身又缺乏规则意识和底线意识,则有可能出现“有权任性”“为官不为”“吃拿卡要”等情况,会损害人民群众的根本利益。增加了群众办事负担。某些“证明”“文件”纯属计划经济时代遗留的产物,尤其是在现在这样一个“互联网+”的时代,不同部门甚至不同地区的信息都可以通过网络进行互通,例如“证明我妈是我妈”等“奇葩证明”根本是没有必要存在的。同时也阻碍企业发展壮大。政府针对市场大量的行政审批事项,繁琐的流程,大量的图章,势必在“走程序”的过程中消耗企业的人力物力财力,对企业形成无形的盾墙,阻碍企业的创新发展。 我认为出现这种办事效率低,工作作风不好,办证难的现象的原因有以下几点。

第一、既得利益者阻挠。政府简政放权不断深入,从最容易减到了痛处,会越来越触及实质利益。一些权力行使人的权力掺杂利益,改革只要削减权力,都会遇到阻挠、迟滞改革进程的阻力。李克强总理曾说过,改革处于深水区和攻坚期,触动利益比触动灵魂还难。但是,我们必须要实行简政放权,并逐步深入。 第二、路径依赖与惯性思维。政策性路径依赖极易导致简政放权的简单化,使政策不持续,改革力度不足。部分公职人员漠视已优化的工作方法,抱残守缺,缺少创造性思维,依旧机械性执行工作。没有一个创新的思维,也没有一个时时刻刻为群众着想的信念,是他们作风不好办事低下的原因。 第三、当前法律制度缺陷。根据《行政许可法》,大部分地市没有行政许可的设定权与精简权,市级政府虽然简政放权热情高涨但陷入“减不了”、“减不动”的困境。政策衔接不配套。不同部门之间、地区之间信息不流通、不交换、不共享,部门与部门间权责不清,简政放权停留在理论上。 为了解决有些部门办事效率低,工作作风不好,办证难的现象,我认为可以通过以下几点来进行。 第一、政府应该创新机制体制。①政府职能转变,由管制转变为治理与服务,不断创新服务手段,提高行政审批的效率,以群众的需求为出发点,完善和提升制度建设。②建立健全监督评价机制,畅通政府和群众互动交流的渠道,尊重和吸纳群众对于审批事项设置的意见。

如何提取关键词

如何提取关键词 一.提取关键词的本质 1.提取关键词本质上是对语段关键、主要、核心信息的集中。 2.提取关键词本质上是压缩的压缩,精练的精练,关键的关键。 3.提取关键词本质上是要淘汰掉次要的、支撑的、解说的信息。 4.提取关键词本质上考查的语段信息筛选能力和梳理思路能力。 二.提取关键词的三大原则 1.首先通览语段寻找锁定有效信息:冷静取舍。 2.其次筛选有效信息中的核心信息:再次取舍。 3.提取而不是组合语段中的关键词:文中原有。 4.主要用双音词或短语的形式表述:二字多字。 三.提取关键词的三个技法 1.核心话题法:抓取语段核心话题词语。 任何文体性质的语段都得围绕某个核心话题展开,这个话题词语在语段中出现的频率一般较多,承载语段核心话题的词语肯定是关键词之一 2.关键语句法:筛选语段中的关键句。 有的语段中会有针对核心话题的核心陈述句,有的语段中有或总领或总结的概括性中心句,抓住这类关键语句就易于筛选出关键词 3. 结构层次法:任何语段都表现为一定的思路层次。 并列式语段关键词常散布在各层次中,递进式语段关键词常出现在最后层次中,总分式语段关键词常出现在总说句中 四.提取关键词的高考真题例析 1.提取下面一段话的主要信息,写出四个关键词。(2005年高考全国卷) 据报道,我国国家图书馆浩瀚的馆藏古籍中,仅1.6万卷“敦煌遗书”就有5000余米长卷需要修复,而国图从事古籍修复的专业人员不过10人;各地图书馆、博物馆收藏的古籍文献共计3000万册,残损情况也相当严重,亟待抢救性修复,但全国的古籍修复人才总共还不足百人。以这样少的人数去完成如此浩大的修复工程,即使夜以继日地工作也需要近千年。 [答案]古籍修复人才不足 [解析]这个语段谈论的核心话题是古籍修复的处境问题,“古籍”“修复”这两个词是我们在答题时首先要考虑的。文段通过一系列的数据告诉我们古籍修复这个核心话题的处境不好,最重要的具体表现是事多人少,这样,我们就又可找出另外两个关键词——“人才”“不足”。 2.提取下面一段话的主要信息,写出四个关键词语。(2006年高考广东卷) 从甲骨文到草书、行书的各种书法艺术,间接地反映了现实某些方面的属性,将具体的形式集中概括为抽象的意象,通过视觉来启发人们的想象力,调动人们的情感,使人们从意

提取关键词的方法

高考语言运用之提取关键词 2005年高考语文试题(全国卷一)首次出现“提取关键词”这一题型,2006年高考中这种题型再次受到高考命题者的青睐。那么什么是关键词呢?关键词是指一篇文章或一段文字中最重要的词语,常出现在文章篇名或文章正文中。要求考生从一段文字中提取出关键词,其目的在于考查学生概括思想内容、提取信息的能力。考生在解题时要大致把握关键词的意思,否则解题思路就会受阻。先来看一道高考题: 例1:(2005年全国高考卷)提取下面一段话的主要信息,在方框内写出四个关键词。据报道,我国国家图书馆浩瀚的馆藏古籍中,仅1.6万卷“敦煌遗书”就有5000余米长卷需要修复,而国图从事古籍修复的专业人员不过10人;各地图书馆、博物馆收藏的古籍文献共计 3000万册,残损情况也相当严重,亟待抢救性修复,但全国的古籍修复人才总共还不足百人。以这样少的人数去完成如此浩大的修复工程,即使夜以继日地工作也需要近千年。 分析:2005年的这道提取关键词的试题,从表面上看一些考生可能感到陌生,其实质这道试题的命题意图仍然是考查考生的阅读理解能力、概括综合能力和语言表达能力。这是近几年高考语文的一个热点,2005年以来则成为高考语文命题的一个亮点。原因是它紧扣时代的节拍:报纸、电视、网络等处处显示着关键词,同时又能更好地体现语文学科的工具性和人文性完美统一的特点。可以预测今后几年关键词的考查将更加频繁。 那么,如何准确地提取关键词呢?提取关键词,说到底就是要善于提取“核心信息”,是一种压缩信息类的题型,考查学生提取关键信息的能力。具体如下: 方法一:三步解题法 (一)明确陈述的对象或主要事件或议论的中心观点,文段的主要表述对象(主要概念或主要事件)“古籍”(“馆藏古籍”)、“人才”是主题词,不可不取。 (二)明确与主概念相对应的谓语动词或总结性的词语。如“修复”、“不足”就是对陈述的对象的陈述,不可不取。 (三)选定后,可将几个词语稍稍连缀,如能大体表达出文段的主要内容,即可敲定。如本题可连缀成:(馆藏)古籍(亟待)修复,(但这方面)人才(严重)不足。这有点像提取句子主干,可以利用语法分析的方法来做,基本程序为:压缩内容--提取主干--筛选比较--整合表达(一般可以表述为:“谁或什么怎么样了”这样一种主谓结构)。 方法二:先概括再提取 提取之前先概括语段内容,这应不是什么难事,平时语文课堂中的概括文章内容、提炼文章观点、归纳段落大意等,都是具体实践的过程。所给的材料一共两句话。第一句话又分为两个层次:先说国家图书馆馆藏古籍修复的专业人员不足;再说各地图书馆、博物馆同样面临古籍修复人才不足的问题,其中“不足百人”,表

提取关键词、概括主要内容练习

《考试大纲》规定:扩展语句,压缩语段,属于语言的表达应用能力,能力层级 提取关键词练习 【学习目标】 1、掌握提取关键词类、概括主要内容类语言表达题的解题方法。 2、提升语段的理解、分析、概括能力。 【学习重点】 掌握提取关键词类、概括主要内容类语言表达题的解题方法。 【学习方法】 自主、合作、探究 【学习过程】 一、回顾复习 为E级? 关键词指的是一篇文章或一段文字中最紧要的词语。主要考查学生概括思想内容,提取关键信息的能力。 概括主要内容是将内容丰富的长语段,按要求浓缩成语言简洁、意思明了的短语段。一种是限字作答,规定不超过多少个字;一种是限句作答,要求只一句话表达。 二、自主合作探究 1、(1)用一句话概括下面这则消息的主要内容。(不超过15个字) 在许多民营和外资企业,普遍没有工会组织;中国人民大学的一位教授指出:在中国,最维护职工权利的组织莫过于工会;然而即使有,也是由资方掌握,发挥不了维护职工权益的作用。 据调查统计,中国目前有一亿多民工游离于工会之外,其中绝大多数是在非国有企业的民工;他们没有加入工会组织,也没有规范的行业组织,权益无法得到维护。虽然许多民工认为协商是解决问题的好办法,但他们苦于缺乏维护他们权益的工会组织以及专业的法律顾问。由于法律程序时间过长等原因,民工通常不会求助于劳动监察机构;这时如果有工会组织提供义务法律咨询,或指导他们与业主谈判协商,民工的权益就能够得到维护。 15

(2)提取四个关键词: 2、(1)提取下面一段话的主要信息,写出三个关键词 由教育部、公安部、国家安全生产监督管理总局组成的联合检查组,日前对河北、河南、辽宁、重庆等四省市的中小学安全和管理工作情况进行了联合检查。 在检查中也发现了一些隐忧:如许多学校体育运动场地普遍紧张;部分农村中小学校办学条件团难,学生食堂、宿舍等设施条件较差,亟需当地政府加大投入予以解决;有的学校应急预案内容不全面或过于笼统,缺乏可操作性,极个别的教育行政部门和学校甚至还没有建立应急预案,没有组织开展过紧急疏散演练活动;有的学校教学楼或学生宿舍疏散通道不畅;部分学校食堂尤其是农村学校食堂管理不到位,安全隐患较多。 中小学安全工作隐患多 (2)用一句话概括下面这则消息的主要内容。(不超过15个字) 15 3、提取下面一段话的主要信息,写出四个关键词 “十五”期间,全国妇联与政府部门联手加强城乡妇女教育培训和推动妇女就业再就业工作,制定完成了三个目标,即培训200万下岗失业妇女,为200万妇女提供就业指导,多渠道帮助200万妇女实现再就业。同时建立了国家创业示范基地,组织了妇女创业师资培训班,发放了妇女创业循环资金,总结推广妇女创业孵化器、小额贷款助创业等经验,在31个省、自治区、直辖市建立了妇女再就业信息指导中心,拓展了广大妇女的创业层次和创业领域。 4、提取下面一段话的主要信息,写出三个关键词 本报北京2月23日讯记者吴兢报道:由建设部起草的《建筑节能管理

社科类文章如何提取关键词

【原题重现】 海淀区高三第一学期期末语文卷第12小题。(文章略) 12.统观全文,从中摘取最能体现文章主要内容的5个关键词。(5分) 【分析】分值5分,很高。此题考查的摘取关键词。考点实则为信息筛选和压缩语段。主要考查学生概括思想内容、提取关键信息的能力。5分的分值是很高的。一般来说,要求考生在准确理解文段的基础上找到有效信息,并从中筛选出核心信息;然后用最简洁的语言加以概括,且概括时只能用词或短语。因为这个能力会涉及到阅读、语用、作文审题等等,是一个影响学生高考成绩的很重要的能力。 一、【方法解读】 【高考真题】:(2010年江苏卷) 阅读下面一段文字,找出“碳链式反应”过程的三个关键性词语。 科学家在喀斯特地貌的研究中,发现了一个复杂的碳链式反应。当水流从空气中“大口吮吸”二氧化碳并侵蚀石灰岩时,持续不断的吸碳过程就开始了。接着,在岩石表面自由流淌的酸性水流携带着大量碳酸氢根,随着自然界的水循环转辗奔向江河湖海。此时,浮游植物体内的“食物加工厂”在急切地“找米下锅”,它们惊喜地发现,只要分泌一种叫做“碳酸酐酶”的催化剂,对水中的碳酸氢根“略施魔法”,等待加工的“米”——二氧化碳,就唾手可得。最终,光合作用将大量随波逐流的碳转化成有机碳,封存与水生植物体内。 【解析】属“提取关键词”题型。解题步骤:1.读题,明确陈述的对象或主要事件或议论的中心观点,文段的主要表述对象。2.分层次,明确与主概念相对应的谓语动词或总结性的词语。题中要求“找出…碳链式反应?过程的三个关键性词语”,“接着”、“最终”提示我们这一过程可分三层次,三个层次的核心动词便是“吸碳”、“施魔法”、“光合作用”。 答案:吸碳略施魔法光合作用 二、【考点明析】: 关键词这一概念在撰写正规论文时经常涉及,指的是一篇文章或一段文字中最紧要的词语。关键词又是网络中经常提及的词语,指的是人们输入搜索框中的文字,也就是让搜索引擎(如“百度”“谷歌”搜索)寻找的东西。关键词的内容大多为人名、术语、网站、新闻、软件等。例如,就今天我们学习的探讨的内容,我们可以搜索[高考]、[语文]、[现代文阅读]、[关键词],那么这四个词就可称为关键词了。 三、【火眼金睛】 方法一:步步为营法(从语段中心话题入手) 解题基本流程:明确话题——寻找谓语——连缀成句——提取关键词 具体阐释:我们以2005年全国卷为例。 例①提取下面一段话的主要信息,在方框内写出四个关键词。 椐报道,我国国家图书馆浩瀚的馆藏古籍中,仅1.6万卷“敦煌遗书”就有5000余米长卷需要修复,而国图从事古籍修复的专业人员不过10人;各地图书馆、博物馆收藏的古籍文献

基于主题的关键词提取方法对比研究(中)讲解

验分布与似然函数是共轭的。LDA算法中,对于一个随机变量而言,其似然函数为多项式分布,并且其先验分布为Dirichlet分布,那么其后验概率仍为Dirichlet分布。LDA算法中之所以选择Dirichlet因为可以减轻计算量。给一个例子说明Dirichlet分布,假设我们在和一个不老实的人玩掷骰子游戏。按常理我们觉得骰子每一面出现的几率都是1/6,但是掷骰子的人连续掷出6,这让我们觉得骰子被做了手脚,使得这个骰子出现6的几率更高。而我们又不确定这个骰子出现6的概率到底是多少,所以我们猜测有50%的概率是:6出现的概率2/7,其它各面1/7;有25%的概率是:6出现的概率3/8,其它各面1/8;还有25%的概率是:每个面出现的概率都为1/6,也就是那个人没有作弊,走运而已。用图表表示如下表3.1: 表 3.1 骰子游戏概率 可能性筛子面 1 2 3 4 5 6 0.5 概率1/7 1/7 1/7 1/7 1/7 2/7 0.25 概率1/8 1/8 1/8 1/8 1/8 3/8 0.25 概率1/6 1/6 1/6 1/6 1/6 1/6 我们所猜测的值,如果设为X的话,则表示X的最自然的分布便是Dirichlet分布。设随机变量X服从Dirichlet分布,简写为Dir(α),即X~Dir(α)。α是一个向量,表示的是某个事件出现的次数(向量每个分量之间的相互关系)。比如对于上例,骰子的可能输出为{1,2,3,4,5,6},假设我们分别观察到了5次1~5,10次6,那么α = {5,5,5,5,5,10}。X则表示上例中的各种概率组合,比如{1/7,1/7,1/7,1/7,1/7,2/7};{1/8,1/8,1/8,1/8,1/8,3/8};{1/6,1/6,1/6,1/6,1/6,1/6},那么P(X)则表示了该概率组合出现的概率,也就是概率的概率。这里需要注意的输入参数α,它表示了各个基本事件的权重。 图 3.2 Dirichlet分布受到 参数的影响

提取关键词练习

中考语文提取关键词语类试题解析与演练 [考点聚焦]关键词指的是一篇文章或一段文字中最紧要的词语。提取关键词是近年来中考中出现的一种新题型,是一种压缩信息类的题型,主要考查学生概括思想内容、提取关键信息的能力。 解答此类试题要注意以下三点:一是筛选陈述的对象(主要概念或主要事件)或议论的中心观点。二是按照一定的程序提取关键词。先整体把握材料,用压缩语段的方法对材料进行压缩,提取出一句话:然后再对这句话进行压缩,提取关键词。三是要注意与归纳概括信息题的不同。提取的关键性词语的答案一般就在所给语段中,不需要我们自己去概括。 [典例解析]例l.(2013年江苏盐城)光伏产业是盐城经济开发区加快发展的新兴产业。阅读下面文字,提取关于“光伏发电”的三个关键词语。 光伏发电的主要原理是半导体的光伏效应,利用太阳能电池将太阳光能直接转化为电能。光伏发电应用广泛,任何需要电源的场合,上至航天器,下至家用电器,大到兆瓦级电站,小到玩具,光伏电源无处不在。光伏发电前景广阔,在21世纪会占据世界能源消费的重要席住,不但要替代部分常规能源.而且将成为世界能源供应的主体。 [解析]答题时,首先要认真阅读语段,明确陈述的对象,然后划分层次,明确各层次阐述的内容,最后提取出三个关键词语。此题的语段共三句话,分别从“主要原理”、“应用广泛”、“前景广阔”的角度对光伏发电进行介绍。因此,关于“光伏发电”的三个关键词语分别为“主要原理”、“应用广泛”、“前景广阔”。 例2.(2013年陕西)母亲节来临之际,多家媒体联合我省中小学校特别推出了“寻找最美妈妈”大型公益活动,请你参加这个活动。下面的宣传语中隐含着“最美妈妈”评选标准中的两个关键词,请将它们提取出来。 在社会转型、价值体乐重构的时代,“寻找最美妈妈”’活动表达了社会对道德价值回归的期待,反映了时代对真善关的呼唤。 [解析]答题时,要仔细研读宣传语,找出其关键内容“表达了社会对道德价值回归的期待,反映了时代对真善关的呼唤”,然后再从中提取出关键词。参考答案:(1)道德价值(2)真善美。 例3.(2013年新疆鸟鲁木齐)阅读下面的材料,完成后面的题目。 材料一:今年6月5日是第42个世界环境日,联合国环境规划署确定今年的主题是“思前,食后,厉行节约”。我国确定的主题是“同呼吸,共奋斗”。 材料二:据统计:①2012年乌鲁木齐市空气质量达到优良天数共计292天,达标率80%。优良天数比201 1年增加16天,三级以上污染天数比2011年减少15天,刷新了17年来优良天数的记录。2013年前五个月,与去年同期相比,我市空气中主要污染物浓度大幅下降。 材料三:201 2年,②乌鲁木齐市区域环境噪声监测共224个点、224平方公里,平均等效声级为54.3分贝。 材料四:目前,乌拉泊水库水质状况为“优”,满足饮用水源地一级保护水质功能要求。③全市以地下水和地表水为水源的8个水厂中有6个水源达标,2个不达标。 材料五:最新监测显示,柴窝堡湖的水质属劣V类水质,不符合渔业养殖用水水质要求,红雁池水库水质为Ⅳ类轻度污染水质,可以满足一般工业用水的水质功能要求。水磨河联丰桥、米泉桥河段均属劣V类水质,不能满足农业灌溉用水区的功能要求。 材料六:据了解,今年起乌鲁木齐执行新的《环境空气质量标准》,新标准对二氧化碳和可吸入颗粒物浓度限值大幅收紧,同时新增PM2.5、臭氧以及一氧化碳三项评价指标,④空气质量达标难度大大增强。 从以上材料提供的信息看,影响环境质量的因素有哪些?请提取关键词。 [解析]本题是典型的提取关键词类试题,要求考生从材料提供的信息中提取出影响环境质量的因素。答题时,要仔细研读材料,找出影响环境质量的因素。参考答案:空气质量、水质、噪声等级。

基于语义的中文文本关键词提取算法

(小结)基于语义的中文文本关键词提取算 法 该方法核心关键是:在基于传统统计词频的基础上,参考了不同词之间是否为同义关系。判断同义关系的基础是结合了代汉语较常用的一部类义词典——哈工大的《同义词词林》扩展版。 本文根据《同义词词林》中词关系之间的定义,定义了词语词之间的近似度。因此对于一篇文章中的不同词,词之间根据近似度数值关系可以组成网络(词语语义相似度网络)。然后分析该网络中节点(词)的居间度,即聚集程度。 词语与主题越相关,词语的居间度密度越大。该方法出于作者认为:聚集文档围绕主题构建,与主题越相关,词语越密集,即与主题最相关的词语占的比例较大。并且主题相关词语与主题有语义相关性,所以他们彼此也有一定的语义相似度。最终关键词的提取同时参考了词语的居间度与词频。 附算法示意图:

文中提出算法示例结果:《我爱逛农贸市场》关键词提取结果为: SKE 算法提取的关键词为农贸市场、爱、鱼、乌骨鸡、羊肉、花生; 基于统计特征的算法提取的关键词为农贸市场、逛、爱、变化、美、生活。 个人对算法示例结果评价:具体某些场合可能会好于传统算法,该例子也并不表明该算法明显优秀,例如个人觉得关键字《逛》很重要。 附《我爱逛农贸市场》 我/r 爱/v 逛/v 农贸市场/n 19980101-07-008-002/m 董/nr 其中/nr 19980101-07-008-003/m 近些年/t 来/f ,/w 生活/vn 中/f 必不可少/l 的/u 便/d 是/v 逛/v 农贸市场/n 。/w 19980101-07-008-004/m 大概/d 是/v 我/r 为着/p 生活/v 而/c 操持/v 家务/n ,/w 又/d 从事/v 美术/n 创作/vn 而/c 需/v 感受/v 生活/vn ,/w 所以/c 对/p 逛/v 农贸市场/n 特别/d 感/Vg 兴趣/n 。/w 即使/c 我/r 每次/r 出差/v 外地/n ,/w 也/d 尽可能/d 要/v 去/v 农贸市场/n 转转/v 。/w 19980101-07-008-005/m 在/p 离/v 我家/n 不/d 远/a 的/u 一/m 条/q 小/a 街/n 里/f ,/w 有/v 一个/m 很/d 热闹/a 的/u 早市/n 。/w 蔬菜/n 、/w 瓜果/n 、/w 家禽/n 、/w 水产/n 、/w 日用/b 工业品/n 都/d 有/v 。/w 不过/c ,/w 还/d 是/v 农副产品/j 居多/v ,/w 而/c 农副产品/j 中/f 又/d 数/v 蔬菜/n 最/d 多/a ,/w 品种/n 也/d 非常/d 丰富/a ,/w 连/u 南方/f 的/u 苦瓜/n 、/w 蕻菜/n 、/w 苋菜/n 也/d 多/a 起来/v 了/y 。/w 尤其/d 在/p 夏/Tg 秋/Tg 两/m 季/Ng ,/w 映入/v 你/r 眼帘/n 的/u 尽/d 是/v 那/r 绿茵茵/z 的/u 芹菜/n 、/w 油菜/n 、/w 菠菜/n ,/w 红澄澄/z 的/u 西红柿/n 、/w 红/a 辣

压缩语段之提取关键词

压缩语段提取关键词 教学目标:掌握提取关键词类语言表达题的答题思路。 教学重难点:掌握方法,举一反三 教学方法:讨论法、归纳法、练习法 课时安排:1课时 教学过程 【考点解析】 提取关键词在考纲里并不是一个单设的考点,它其实是信息筛选和压缩语段这两个考点的一个综合,主要考查学生概括思想内容,提取关键信息的能力。要求考生具有较强的理解、分析、筛选、概括能力。它首先要求考生在准确理解文段的基础上找到有效信息,并从中筛选出核心信息;然后用最简洁的语言加以概括,且概括时只能用词或短语。 【考核能力】 (1)阅读理解能力 (2)筛选信息能力 (3)概括综合能力 (4)语言表达能力 【总体方法】 做这类题目,首先要分清语段的类型,看是记叙性语段,还是议论性语段,还是说明性语段。如果是记叙性语段,首先要找出叙述的对象是什么,文段围绕这个对象说了什么事,最后的结果如何或者影响如何,然后在这基础上再提取关键词;如果是议论性语段,首先要找出语段的观点是什么,围绕此观点分别使用了哪些论据,然后在此基础上再提取关键词;如果是说明性语段,就要首先找出说明的对象是什么,文章对此说明对象说明的特征是什么,然后在这基础上再提取关键词。 总之,“准确提取关键词”之所以受到高考命题者的青睐,是因为它可以全面检测考生的阅读理解能力、信息筛选能力、概括能力,我们应该高度重视。 一、课前热身,感受真题。 1、提取下面一段话的主要信息,在方框内写出四个关键词。(2005年全国卷Ⅰ第18题) 据报道,我国国家图书馆浩瀚的馆藏古籍中,仅万卷“敦煌遗书”就有5000余米长卷需要修复,而国图从事古籍修复的专业人员不过10人;各地图书馆、博物馆收藏的古籍文献共计3000万册,残损情况也相当严重,亟待抢救性修复,但全国的古籍修复人才总共还不足百人。以这样少的人数去完成如此浩大的修复工程,即使夜以继日地工作也需要近千年。 [解析]

基于语音分析的智能质检关键词提取方法设计

? 174 ? ELECTRONICS WORLD ?技术交流 基于语音分析的智能质检关键词提取方法设计 深圳供电局有限公司信息中心 王旭勇 随着我国经济发展水平的不断提高,智能质检系统的研究日趋深入,使之不断进步与发展,语言质检深入研究之下,大大将呼叫中心质检抽样准确率提高了,工作效率也大幅度提高。纵向分析智能质检系统当前备受关注,人们开始普遍对智能质检自动关键词发现功能开展研究,系统整合后可以快速将预设好的关键词提取到,将语音转换为文本后,提取录音文本关键词,还可以通过TextRank 对文本录音中关键词提取,匹配、融合与预设的质检关键词库,最终将文本录音中出现频率最高的目标关键词提取出来。本文将具体对智能质检关键词基于语音分析的提取方法的设计进行论述。 基于语音分析的智能质检关键词提取意义有以下几方面:语音文本表述口语化更严重并且存在一些不规范表述,关键词提取可准确锁定有价值信息,有效去除冗余;质检人员要对检测重点信息有所了解,并获取信息权重值,关键词提取可将重点质检问题及时发现并处理好。还有就是快速识别关键词并提取,可以帮助质检人员对语音信息全面了解。 1.研究背景 为了更好的应对新一轮电力改革带来的巨大挑战,增强供电企业与用户间的交流,进一步将服务质量与效率提高,就必须对语音服务质量相关智能质检系统当前得到广泛关注,更深层次的研究及应用语音分析技术,转换为文本的语音信息,为进一步检测语音服务质量创造了条件。在实际检测中,固有主题的检测仍是语音文本信息检测的重点,为帮助质检人员获取更多有价值信息,就必须快速将关键词检索出来,精炼文本信息,将关键的、能够反映原文主旨思想的词语反映出来。已经具备非常强的实用性对于关键词提取来说,同时也称为信息处理基本工作之一。为此,对于提升质检工作质量及效率来说,高效、准确提取关键词非常有必要,也是智能化质检系统核心内容。自然语言处理(NLP )是指用自然语言对录音文本处理,并抽取文本关键词的方法,作为人工智能的重要研究领域,该方法中体现语音识别、文本分类、文本校对等基本功能,还可 以体现机器翻译、自动分词等智能化功能。信息抽取(IE ),可快速提取关键信息。 2.设计总体方案 语音质检系统与原有电销管理系统之间是相互关联的,输入语音分析系统将录音管理中的语音,借助语音识别功能,可以将文本转换完成,随后就可以检索关键词,并进行建模等。基于语音质检系统,首先进行信息转化,即将录音信息转变为文本信息,然后使用TextRank 算法将文本录音中关键词自动提取出来,做详细匹配与预设好的质检关键词,并实现两者融合,最终将实际文本录音中出现次数最多的目标关键词提取出来。整个设计方案流程见图1 : 图1 基于语音分析的智能质检关键词提取方案 3.使用TextRank算法提取关键词 3.1 TextRank算法 由Page Rank 算法衍生出来的一种算法,TextRank 基于排序算法原理使用,不单单依靠局部某点信息进行节点排序,而是依据全局信息递归计算,对文本分割,由分割出的若干个单元组建出一个完整的图像模型,排序对文本中重要成分,提取算法针对单一文档中关键词。可用一个有向权图G=(V ,E )表示TextRank 模型,词语构成权图中的V ,V ×V 的子集就是E 。任意两点v i 由W ji 表示,图中指向该点的其他集合表示为In (V i )入度,vi 指向其他点集合,称为出度,表示为Out (v i ),Vi 得分计算公式为: 图中表示某一点都有1-d 的概率指向其他任意点为d ,即阻尼系数,d ∈[0,1],0.85为d 的默认系数。每个点进行打分时,应用Tex-tRank 算法,每个点必须为指定任意的初值,计算采用迭代计算方式并收敛。鉴于图有着一定连贯性,收敛需经过较少次数迭代实现。3.2 TextRank算法下关键词提取 从一段文本中将众多有价值的语句提取出来就是TextRank 算法下关键词提取的基本方法。利用一定窗口内的词汇间关系排序后续关键词,关键词从文本中直接抽取出来,也就是指在图中随机游走的过程,关键词的选择最终依据投票得分高低而定。具体方法为: 获取到录音集合文本T ,通过接口,对完整的语句进行分割。各个分割的片段表示为[S 1、S 2、S 3、S 4.....,S n ]。先分词、确定词性对每个文本,然后进行词性标注,并集中处理,最终将与主题无关或者冗余的文字去除,比如“的”、“而且”、“但是”,剩下的定性词作为备选关键词,这些备选词表示为[t i,1,、t i,2、t i,r ,.....t i,n ]。构建出备选关键词图,即G=(V ,E ),依据指定共现窗口K 大小进行构造,任意两点间的边由共同关系构造出来。然后依据特定公式进行计算,最终将迭代传播计算各节点权重得分值计算 出,直到将收敛完成。对各节点权重进行排列,按照倒序排列方式,关键词提取的结果为得到的最重要的T 个单词。 4.自定义词库关键词提取 4.1 将关键词库建立起来 因属于一种无监督的提取方法,Tex-tRank 算法对文本整体结构综合考虑后进行提取,受业务规范流程影响,会出现关键词提取数目过大的情况,在使用TextRank 算法提取关键词时,并且有较多的礼貌用语,包括“您好”、“谢谢”等,会影响到目标关键词的提取效果。 为将语音质检关键词日趋的针对性增强并提高准确性,就必须总结过去呼叫中心语音质检关键词提取相关经验,将语音出现频率最高的关键词提取出来,同时提取出出现次数最多的专业词语。对重点关键词构建自定义词库,依据语音质检工作实际要求及标

相关文档
最新文档