句子关键词提取算法设计

合集下载

平行语料库的相似语句去重算法

平行语料库的相似语句去重算法

广西科学院学报 2009,25(4):248~250,256Jou rnal of Guangx iA cadem y of Sciences V o l.25,N o .4 N ovem ber 2009收稿日期:2009210210作者简介:申文明(19842),男,硕士研究生,主要从事信息检索和自然语言处理方面的研究工作。

3南宁市人才小高地基金项目(N o .2007007)资助。

平行语料库的相似语句去重算法3A lgor ithm for Rem ov i ng Si m ilar Sen tence on Para llel Corpus申文明1,黄家裕2,刘连芳1,2SH EN W en 2m ing 1,HU AN G J ia 2yu 2,L I U L ian 2fang1,2(1.广西大学计算机与电子信息学院,广西南宁 530004;2.南宁平方软件新技术有限公司,广西南宁 530003)(1.Schoo l of Com p u ter ,E lectron ic and Info rm ati on ,Guangx i U n iversity ,N ann ing ,Guangx i ,530004,Ch ina ;2.P ingsoft N ew T echno logy Co .L td .of N an ing ,N ann ing ,Guangx i ,530004,Ch ina )摘要:尝试对平行语料库中需要去重的中文句子相似情况作分类,利用整体相似因子和局部相似因子计算句子的相似度,并借鉴K M P 算法的匹配跳跃思想,提出中文字符串匹配的类K M P 算法,并对算法进行实验验证。

结果表明,算法具有较好的效果,能够实现平行语料库中相似句子的去重。

算法开放测试的召回率达94%,去重准确率达到84%。

算法可以应用于任何长度的语句比对,适用范围广。

关键词:去重 相似句子 平行语料库 类K M P中图法分类号:T P 39113 文献标识码:A 文章编号:100227378(2009)0420248203Abstract :T he si m ilarity of Ch inese sen tence is classified and dup licated sen tence is rem oved .Sen tence si m ilarity dep ends on si m ilarity of un itary facto r and p artial facto r .A cco rding to the idea of K M P ’s jum p ,the si m u lar K M P in ch inese sen tence is u sed .T he exp eri m en t resu lts show that the algo rithm is effective ,the recall rate of dup licate rem oval reach 94%,and the p recisi on rate reach 84%in large scale testing .Key words :dup licate rem oval ,si m ilar sen tence ,p arallel co rp u s ,si m ilar K M P 平行语料库是语料库的一种,是由原文本及其对应的翻译文本构成的语料库[1]。

个性化推荐算法及实现方法分析

个性化推荐算法及实现方法分析

个性化推荐算法及实现方法分析一、背景介绍在信息爆炸的时代,我们面对的信息越来越多,因此如何从海量的信息中找到我们感兴趣的内容成为了一个迫切的需求。

为了解决这一问题,个性化推荐算法应运而生。

个性化推荐算法是一种基于用户产生行为、兴趣和反馈信息,为用户进行信息推荐的算法。

本文将从算法原理、实现方法以及应用场景三个方面进行详细分析。

二、算法原理个性化推荐算法的核心是推荐模型,推荐模型的选择和设计成为个性化推荐算法实现的核心要素。

常见的推荐模型有基于内容推荐、协同过滤推荐、隐语义模型等,其中基于内容推荐算法最为常用。

基于内容推荐算法是一种根据用户以往行为和喜好,为用户推荐相同或相似的内容,从而为用户提供更准确的信息推荐。

基于内容推荐算法主要有两种方式,一种是基于关键词匹配的推荐,另一种是基于内容相似度的推荐。

关键词匹配的推荐需要对内容进行关键词提取,然后根据用户的兴趣和历史行为,为用户推荐和关键词匹配的内容。

基于内容相似度的推荐则是将每个内容进行向量化,然后根据内容向量的相似度为用户推荐相似度高的内容。

三、实现方法个性化推荐算法的实现主要分为离线计算和在线服务两个阶段。

离线计算阶段通常使用Hadoop、Spark等大数据处理平台进行离线计算,生成推荐模型。

在线服务则需要使用推荐系统,将推荐模型应用到实际推荐场景中。

推荐系统需要实现两个核心功能,一个是用户画像构建,另一个是给用户推荐个性化内容。

实现用户画像需要对用户的行为进行记录和分析,包括用户的浏览记录、购买记录、搜索记录等。

给用户推荐个性化内容则需要使用推荐模型和用户画像进行匹配,为用户推荐和自己兴趣相似的内容。

四、应用场景个性化推荐算法应用广泛,包括电子商务、社交网络、视频网站等多个领域。

在电子商务领域,个性化推荐算法可以根据用户的购买历史和搜索记录为用户推荐相似的商品,提高用户的购物体验和购买率。

在社交网络中,个性化推荐算法可以根据用户的关注和好友行为为用户推荐感兴趣的内容。

自然语言处理中的规则匹配算法与实践指南

自然语言处理中的规则匹配算法与实践指南

自然语言处理中的规则匹配算法与实践指南自然语言处理(Natural Language Processing,NLP)是人工智能领域中的一个重要分支,旨在使计算机能够理解和处理人类语言。

规则匹配算法是NLP中的一种重要技术,通过定义一系列规则和模式,从而实现对文本的匹配和提取。

一、规则匹配算法的基本原理规则匹配算法的基本原理是通过定义一系列规则和模式,来匹配和提取文本中的信息。

这些规则和模式可以基于语法、词法、语义等不同层面的特征,从而实现对文本的精确匹配和提取。

二、规则匹配算法的应用领域规则匹配算法在NLP中有着广泛的应用领域,包括但不限于以下几个方面:1. 实体识别:通过定义一系列规则和模式,可以从文本中提取出特定的实体,如人名、地名、组织机构等。

2. 关键词提取:通过定义一系列规则和模式,可以从文本中提取出关键词,用于文本的分类、摘要生成等任务。

3. 句法分析:通过定义一系列规则和模式,可以实现对句子的分析和解析,进而获得句子的结构和语义信息。

4. 语义匹配:通过定义一系列规则和模式,可以实现对文本的语义匹配,如问答系统、机器翻译等任务。

三、规则匹配算法的设计与实践指南在设计和实践规则匹配算法时,需要考虑以下几个方面:1. 规则的定义:规则应该具备准确性和完备性,能够涵盖待匹配文本中可能出现的各种情况。

同时,规则的定义应该尽量简洁明了,避免出现歧义和冗余。

2. 规则的优先级:对于多个规则同时匹配的情况,需要定义规则的优先级,以确定最终的匹配结果。

优先级可以基于规则的特征、上下文信息等进行定义。

3. 规则的调优:在实践中,可能需要不断调优规则,以提高匹配的准确性和效率。

可以通过增加或修改规则,或者引入机器学习方法来进行规则的自动学习和优化。

4. 规则的扩展性:规则匹配算法应该具备一定的扩展性,能够适应不同领域和语言的需求。

可以通过定义通用规则和特定规则相结合的方式来实现。

5. 规则的测试与评估:在实践中,需要对规则匹配算法进行测试和评估,以验证其准确性和效果。

基于Python的词云生成及优化研究

基于Python的词云生成及优化研究

基于Python的词云生成及优化研究作者:***来源:《电脑知识与技术》2021年第19期摘要:在大数据时代,利用相关技术手段对大数据进行获取与解读就显得十分重要。

“词云”技术,由于能够将文本中的“关键词”图像化,正受到人们越来越多人的关注。

该文以《中共中央关于制定国民经济和社会发展第十四个五年规划和二〇三五年远景目标的建议》全文文本为例,对基于Python的词云文本分析技术进行了优化,以期为快速解读文本内容提供方便。

关键词:Python;中文分词;词云;优化;十四五规划中图分类号:TP311 文献标识码:A文章编号:1009-3044(2021)19-0023-06Research on Generation and Optimization of Word Cloud Based on Python—Take the Text of the 14th Five-year Plan as an ExampleWANG Yan(Hubei University, Wuhan 430062,China)Abstract: In the era of big data, it is very important to obtain and interpret big data by using relevant technical means. "Word cloud" technology, due to its ability to visualize the "Keywords" in the text, is attracting more and more attention. This paper takes the full text of Proposal of the Central Committee of the Communist Party of China on Formulating the 14th Five-Year Plan for National Economic and Social Development and the Long-term Goals for the year of 2035 as anexample, and optimizes the text analysis technology of word cloud based on python, so as to provide convenience for quick interpretation of the text content.Key words: Python; Chinese word segmentation; word cloud; optimization; 14th five-year plan 1 引言“詞云”,是近几年来出现的用于文本挖掘的可视化技术,其将文本中大量的不重要的信息过滤,并对出现频率较高的“关键词”予以字体大小和颜色等视觉形式的差异来直观反映词语的重要程度,文字的字体越大,表明其越重要,可以帮助阅读者迅速把握文本的主要内容。

NLP课程PPT课件下载

NLP课程PPT课件下载

spaCy
高性能的NLP库,支持多种语言,提供丰 富的文本处理功能。
Stanford CoreNLP
斯坦福大学开发的NLP工具包,集成多个 先进模型,支持多种任务。
Gensim
专注于主题建模和文档相似度分析的NLP 库。
02
文本预处理技术与方法
文本清洗:去除噪音、停用词等
去除噪音
包括去除标点符号、特殊字符、 数字、非中文字符等。
对话上下文编码
使用神经网络模型对对话历史进行编码,提取上下文信 息。
基于深度学习的机器翻译和对话生成
生成模型
使用生成模型(如RNN、Transformer 等)根据上下文编码生成回复。
VS
对话多样性增强
引入随机性、多样性等技术,增加生成回 复的多样性和自然度。
案例分享:跨语言机器翻译实践
案例介绍 系统架构 关键技术 实验结果
NLP课程PPT课件下载
目录
• NLP概述与基础知识 • 文本预处理技术与方法 • 特征提取与表示学习方法 • 文本分类与情感分析技术 • 信息抽取与问答系统构建 • 机器翻译与对话生成技术
01
NLP概述与基础知识
自然语言处理定义及发展历程
自然语言处理(NLP)定义
研究计算机如何理解和生成人类自然语言的一门科学。
介绍一款基于深度学习的跨语言机器翻译系统,该系统支持多 种语言之间的互译,并具有高性能和实用性。
详细介绍该系统的整体架构、各个模块的功能以及模块之间的 交互方式。
重点介绍该系统在实现过程中所采用的关键技术,如神经网络 模型设计、训练技巧、优化方法等。
展示该系统在多个标准测试集上的实验结果,包括翻译质量、 速度、鲁棒性等方面的评估指标。

情感分析实训报告

情感分析实训报告

计算机学院综合实训报告互联网文本分析-情感计算姓名班级学号学科专业同组成员指导教师日期目录1. 序言 (2)1.1.选题背景 (2)1.2.名词解释 (3)1.3.参考资料 (4)1.4.选题目的及意义 (4)2. 课题需求分析 (5)2.1.功能需求 (5)2.2.接口需求 (6)2.3.开发环境需求 (7)2.4.性能需求分析 (7)3. 系统概要设计 (8)3.1.系统体系结构 (8)3.2.系统功能设计 (10)3.3.数据输入输出格式设计 (11)4.系统详细设计与实现 (12)4.1.互联网文本分析-情感计算的设计与实现 (12)4.2关键算法设计与实现 (17)4.3接口代码 (29)5.实训总结 (31)5.1技术总结 (31)5.2思想总结 (31)1.序言1.1.选题背景用自然语言与计算机进行通信,这是人们长期以来所追求的。

因为它既有明显的实际意义,同时也有重要的理论意义:人们可以用自己最习惯的语言来使用计算机,而无需再花大量的时间和精力去学习不很自然和习惯的各种计算机语言;人们也可通过它进一步了解人类的语言能力和智能的机制。

实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等。

前者称为自然语言理解,后者称为自然语言生成。

因此,自然语言处理大体包括了自然语言理解和自然语言生成两个部分。

历史上对自然语言理解研究得较多,而对自然语言生成研究得较少。

但这种状况已有所改变。

无论实现自然语言理解,还是自然语言生成,都远不如人们原来想象的那么简单,而是十分困难的。

从现有的理论和技术现状看,通用的、高质量的自然语言处理系统,仍然是较长期的努力目标,但是针对一定应用,具有相当自然语言处理能力的实用系统已经出现,有些已商品化,甚至开始产业化。

典型的例子有:多语种数据库和专家系统的自然语言接口、各种机器翻译系统、全文信息检索系统、自动文摘系统等。

AIGC技术下的建筑生成设计方法初探——以Prompt关键词生成建筑意象的整体设计过程为例

AIGC技术下的建筑生成设计方法初探——以Prompt关键词生成建筑意象的整体设计过程为例

进行研究,从基于数学几何的形态生成,到“找形”式的算法生成[1],从最开始的埃森曼通过对碎片化结构机理的解构,找到建筑本体中“哲学”语言的空间要素和片段 [2],再到后面亚历山大基于语汇规则的计算性“法则”的研究[3]。

而现在研究则是基于建筑的物质性,通过性能求解、算法优化等多物理约束模式对生成式的规则进行研究。

如袁烽教授基于结构性能优化的结果,认为从数字化设计走向数字性能化设计,需要通过数字化性能的架构为建筑智能化转型提供重要的支持[4]。

此外,也有学者从数学和计算机算法角度、从拓扑学和相关图形学的角度对建筑生成式设计进行研究。

如李飚教授[5]提出的生成设计建模及原型提炼,需要通过算法或其他的领域如数学、计算机领域中多智能系统、复杂系统等模型为生成式设计提供技术支撑;孙澄教授[6]提出可基于建筑要素的可计算性建构一个未来建筑学的理论。

还有从数字驱动和数据感知的角度提出的生成式空间方法,黄蔚欣教授[7]认为可以通过大数据分析和算法辅助生成相关的建筑空间。

建筑生成式设计的具体生成形式可分为:①拓扑关系的几何要素形式,一般是没有复杂形态的几何关系,通过数学表征的形式进行表达;②具有一定审美价值的复杂形式,背后的人工智能技术提供了一个形式感强、富有仿生形态的复杂形体;③物理性能算出的最优几何形体,这类生成形式一般带有性能指标的可视化结果和计算后优化的形体结果。

1.2建筑方案设计阶段的环节与流程在建筑设计的早期阶段,整个设计过程可以分为方案设计、初步设计、详细设计和施工图设计四个阶段。

而方案设计则是建筑设计初期最为重要的环节。

在方案设计阶段,建筑方案的内容,例如造型、功能、平面布局、立面设计等[8],都需要通过反复的推敲、评价、修改等方式逐步确定。

方案设计阶段可以进一步细分为草图设计、总平面设计、单体方案初步设计和单体方案完善设计四个子阶摘要 近年来,随着大型语言模型(LLM)和各类生成式神经网络技术的突破,建筑生成设计对规则、算法等基于建筑学本体建构的研究脉络不断完善,但是从建筑师设计流程和工作环节中交互的具体文本和出图环节方面讨论建筑生成设计的研究较少。

概念抽取的方法

概念抽取的方法

概念抽取的方法概念抽取是一种从文本中识别和提取出概念或实体的过程。

它是自然语言处理(NLP)和信息抽取领域的重要任务之一。

概念抽取可以有助于自动化信息处理和知识管理,提取文本中的重要信息并帮助人们更好地理解文本内容。

下面将介绍几种常用的概念抽取方法。

1. 基于规则的方法:基于规则的方法是一种经典的概念抽取方法。

它通过设计一系列的规则来匹配和提取文本中的概念。

规则可以使用正则表达式、关键词匹配等技术来指定匹配模式。

例如,对于提取人物名字的任务,可以设计规则如“姓+名”的模式来匹配并抽取出符合该模式的文本片段。

这种方法的优点是简洁、易于理解和实现,但是需要依赖人工的规则设计,对于不同领域、不同语种的文本可能需要重新设计规则。

2. 基于统计的方法:基于统计的方法是一种通过对大量文本数据进行统计分析来进行概念抽取的方法。

它常用的技术包括词频统计、关联性分析、主题模型等。

例如,可以通过统计某个词语在一篇文档中出现的频率来判断它的重要性,进而将频率较高的词语作为概念进行抽取。

主题模型能够将文本数据聚类成不同的主题,从而提取出概念。

这种方法的优点是可以自动从大量文本数据中学习并推断出概念,但是对于数据量较小的情况下可能效果不理想。

3. 基于机器学习的方法:基于机器学习的方法是一种将概念抽取问题视为分类或序列标注任务,并使用机器学习算法来训练模型进行抽取的方法。

常见的机器学习算法包括支持向量机(SVM)、隐马尔可夫模型(HMM)、条件随机场(CRF)等。

这种方法需要提前准备好带有标注的训练样本,并通过训练模型来建立概念抽取的模型。

优点是能够根据实际任务学习出抽取模型,并具有较好的泛化能力,但是需要较多的标注数据和时间成本。

4. 基于深度学习的方法:基于深度学习的方法是近年来发展起来的一种概念抽取方法。

深度学习算法如循环神经网络(RNN)、长短期记忆网络(LSTM)和注意力机制等被应用于概念抽取任务中。

这种方法通过将文本序列作为输入,通过神经网络模型自动学习文本中的概念。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

句子关键词提取算法设计 李明浩1(厦门大学 计算机科学系,福建 厦门 361005)

摘 要:本文从网络答疑系统的设计与开发的需要出发,讨论了句子关键词提取的总体思路,即“先分解再综合,遵循组句规律,抽取特征,降低难度,提高速度”,并具体提出一个算法,从理论上,该算法能完成一般语句的关键词提取,而且通过引入独立字、固定词的概念,加快了关键词提取的速度。同时也指出了算法存在的不足。 关键词:句子 关键词 提取

1 引言 网络答疑系统的设计与开发是目前的一个研究热点,其中涉及到的关键技术是如何从用户输入的问题中提取主要意思,并且由计算机根据相关度从答案数据库中查询并给出答案。要从用户输入的问题中提取主要意思,即需要解决如何从一句话中提取关键词然后逐级匹配的问题。本文就如何从一句话中提取关键词提出一个不成熟的算法。

2 平台(知识库) 要进行关键词的提取,首先要有完整的语义分析库。万幸的是,董振东先生在《知网》上给出了一个完整的库,包括了词性、词义等等,可供给我们研究人员免费使用。纵观该库,分类科学、分析精到,经我国汉语言研究权威机构认证通过,非常适用。我们将其选作关键词提取的支持库,即知识平台。

3 关键词提取的总体思路 总体思路是“先分解再综合,遵循组句规律,抽取特征,降低难度,提高速度”。 首先,要对句子进行划分,判断该句是简单句还是复合句(具体内涵与汉语研究略有不同,见算法部分),将复合句划分为简单句,然后以简单句为单位进行提取。复合句关键词在此基础上进行连接。这样将极大地简化关键词提取的复杂度。 简单句提取关键词时先进行字词判定,这时应用许多汉语字词组成特点以加快判断速度。这是核心部分。在其中,我引入独立字、固定词概念。所谓独立字,就是指一般情况下不能组词的字。固定词即该词最后一个汉字不可能与其后面的汉字组词的词。这两个概念仅

1 李明浩(1975-),男,福建连城人,讲师,龙岩市成人中专学校教务处主任,厦门大学在职研究生,主要

研究领域为信息安全保障。

1

_________________________________________________________________________www.paper.edu.cn为本算法所用,不作一般研究用。 判定字词后,根据词性结合常见的独立字作用(如“是”作判断谓语、“的”做定语连接部分)提取出主谓宾,即所谓的关键词。

4 关键词提取的算法描述 关键词的提取,最终落实到句子成份的划分,即划分出主谓宾并提取出来。下面是具体算法。 4.1 利用标点符号判断一句话 主要的标点符号有句号、问号、感叹号等,只要出现它们,就表明是一句话。 引号内的部分是不是一句话的判断:若引号前有冒号,则肯定是一句话。若引号前没有冒号,则将其看作是句子的相对独立部分。 省略号是不是一句话的结束的判断:若省略号后面立即回车,则一定是一句话的结束;若后面紧跟汉字,则先将其当作不是一句话的结束,在后面利用标点符号判断一句话中的相对独立部分时再进行判定。 接下来的判断均以此时划定的一句话为单位进行。 4.2 划分简单句和复合句 根据句子中标点符号的个数来判断,一句话不止一个标点符号,则判断为复合句。注意,此处的简单句复合句与汉语上的定义略有不同,仅是为方便算法设计而定。 4.3 简单句关键词的提取 首先是如何将词语划分出来。汉语的所有词汇直接连在一起,而没有空格隔开,且词语的字数不确定,这些都增加了划分词语的难度。针对这情况,我设计算法如下: 4.3.1 常见的独立字和固定词取出 最常见的独立字有“是”、“为”、“不”、“和”、“与”、“或”、“了”、“的”、“地”、“得”、“有”、“中”、“将”等。取词时先判断它前后的汉字是否与它连成一个词。以“是”字为例,一句话为“这是不能否认的”,先判断“这”与“是”不是一个词,再判断“是不”,它可以作为一个词,因为“不”字后面还有汉字,这时又要先判断“不能”是不是一个词,是一个词,则“是不”就不是一个词。又如“是否可以判断呢”这句话中,“是否”可以是一个词,应判断“否可”是不是一个词,在此处显然不是,这时就可以判定“是否”在这句话中是一个词。再如“通信双方是互相信任的”这句话,“是”字与其前其后的汉字都不能组成词,那么很容易判断它是一个独立字,先取出。 最常见的固定词有“我们”、“你们”、“他们”、“那么”、“最终”等,但“介绍”不是,如“向您推介绍兴的黄酒”,此处的“介绍”就不是。当然,根据其出现的概率,可以将“介绍”当作一个准固定词语。然后,按独立字判断的方法进行判断。这将会有效地加速关键词

2

中国科技论文在线_________________________________________________________________________www.paper.edu.cn的提取过程。 4.3.2双字词的判断 汉语里面最常见的是双字词,所以以独立字和固定词为界,分别向前向后以两个字为单位判断它们是不是一个词。若不是,则将第一个字独立出来。若是,再判断独立字第二第三个字是不是一个词。若不是,则可以肯定第一第二个字是一个词;若是,则再判断第二第三个字是不是一个词。依此类推。若结束句子时只剩一个字,则可断定为它是单字词(其实大部分已经由独立字取出)。 4.3.3进行三字词、四字词等多字词的判断 首先要根据三字词的特点,如常见的“性”字作为结尾,将它与其前的两字词连在一起判断是否为一个词,如“可行性”。这里需要先找出作为三个词的结尾的常见字加入一个知识库。四字以上的多字词一般情况下是连续的多个独立字,只要对出现连续的多个独立字进行判断即可。 4.3.4关键词的提取 对于独立字“是”可以取为关键词,其前紧靠的名词与其后紧跟的名词可直接取出作为关键词。不是紧跟的就做下一步判断。 对于独立字“的”、“地”,根据“的”、“地”取出其后紧跟的词,判断是不是对应名词(代词)、动词,若是,则将其取出。这就是关键词。若不是,再将句中所有的名词(代词)、动词取出,按先后顺序连接在一起,句子中至少有一个名词(或代词)和一个动词,那么就取出名词和动词(但不要取代词),可作为关键词。若少于一个名词(代词)和一个动词,那么,将该句舍弃,不再提取关键词。 对于多个“的”,则分别取后面的倒数第二个“的”后与最后一个“的”前的词,看它是不是同一个词。若是,则判断它是否可作形容词使用。若是可以,则最后的“的”字后面的词为关键词。若不可以,则两个“的”后的词都提取作关键词,然后再往前推,分析前面的“的”字。 若没有“的”、“地”,将句中所有的名词(代词)、动词取出,按先后顺序连接在一起,句子中至少有一个名词(或代词)和一个动词,那么就取出名词和动词(但不要取代词),可作为关键词。若少于一个名词(代词)和一个动词,那么,将该句舍弃,不再提取关键词。 4.4 复合句关键词的提取 4.4.1利用标点符号判断一句话中的相对独立部分 除了作为句子的标点符号以外,其它标点符号往往作为相对独立部分的标志。 4.4.2 对每一个相对独立的部分返回执行步骤4.3。 4.4.3 将所有独立部分关键词作为一个小单位用逗号连接起来,就是一串关键词串,它们往往是并列的,可以作为“与”关系用作判断含义。关键词提取结束。

3

中国科技论文在线_________________________________________________________________________www.paper.edu.cn5 本算法存在的不足 本算法有一定的普适性。如对省略句,它不会因为省略部分而产生误取;对倒装句,由于其完全不考虑词语间的逻辑关系,也不会出现漏取。但是,因时间关系,本算法只考虑了一般的句子结构,而且对句子的组成规律研究不够深入,所以对于较复杂的单句可能提取的准确率就要下降了。同时,本算法只考虑提取主谓宾作为关键词,不考虑其它的情况,也不考虑词语间的逻辑关系,也对进一步深入分析句子留下了许多问题。

说明:本文所有内容均系原创,所以没有列出任何参考文献。 Sentence Keywords Extraction Algorithm Designing Li Ming-Hao (Department of Computer Science, Xiamen University, Xiamen 361005, China)

Abstract In this paper, we discuss the thoughts of keywords extraction of a sentence, that is “decomposition and then synthesis, by the rules of sentence organized, extracting feature , decreasing difficult, raising rate”, and then propose a concrete algorithm of it. Keywords: sentence, keyword, extraction

4

中国科技论文在线_________________________________________________________________________www.paper.edu.cn

相关文档
最新文档