基于词性选择的文本预处理方法研究

合集下载

语义增强的文本聚类方法研究

语义增强的文本聚类方法研究

语义增强的文本聚类方法研究一、语义增强的文本聚类方法概述随着信息技术的快速发展,文本数据的爆炸式增长使得文本聚类技术在信息检索、知识管理、数据挖掘等领域变得尤为重要。

文本聚类是一种无监督学习方法,旨在将文本数据自动地划分为若干个具有相似特征的类别。

然而,传统的文本聚类方法往往依赖于词频、位置等表面特征,难以深入挖掘文本的语义信息。

语义增强的文本聚类方法通过引入语义分析技术,能够更准确地捕捉文本的内在含义,从而提高聚类的效果和质量。

1.1 语义增强文本聚类的核心特性语义增强的文本聚类方法的核心特性主要体现在以下几个方面:- 语义一致性:通过语义分析技术,能够确保聚类结果在语义层面上具有一致性,提高聚类的准确性。

- 多维度特征:除了传统的词频特征,还能够利用词义、句法、语义角色等多维度特征,丰富聚类的维度。

- 动态适应性:能够根据文本数据的特点和变化,动态调整聚类策略,提高聚类的适应性和灵活性。

1.2 语义增强文本聚类的应用场景语义增强的文本聚类方法在多个领域都有着广泛的应用,包括但不限于以下几个方面:- 信息检索:通过聚类技术,能够将用户查询的关键词与相关文档进行匹配,提高检索的准确性和效率。

- 知识管理:在知识库中,通过聚类技术可以发现知识之间的关联,优化知识结构,促进知识的传播和应用。

- 数据挖掘:在大规模文本数据中,通过聚类技术可以发现数据的内在模式和规律,为决策提供支持。

二、语义增强文本聚类方法的关键技术语义增强的文本聚类方法涉及多种关键技术,这些技术共同作用,提升聚类的效果和质量。

2.1 语义分析技术语义分析技术是语义增强文本聚类方法的核心。

它通过分析文本中的词汇、句法、语义角色等信息,提取文本的深层含义。

常见的语义分析技术包括:- 词义消歧:通过上下文信息,确定多义词的具体含义,提高语义分析的准确性。

- 句法分析:分析句子的结构,提取主语、谓语、宾语等成分,理解句子的语义关系。

- 语义角色标注:标注句子中各个成分的语义角色,理解句子的深层含义。

自然语言处理学习报告(组织)

自然语言处理学习报告(组织)

自然语言处理学习报告(组织)简介本报告旨在总结我在自然语言处理(NLP)领域的研究经验和收获。

自然语言处理是人工智能领域的一个重要分支,涉及计算机对人类语言进行理解和处理的技术。

研究内容我在研究过程中主要涉及以下内容:1. 文本预处理:研究如何对文本进行清洗和规范化,包括去除噪声、分词、去除停用词等预处理操作。

2. 词嵌入:深入了解和应用词嵌入技术,掌握不同的词向量模型,如Word2Vec、GloVe等。

3. 词性标注:研究如何使用词性标注模型对词语进行分类,提取词性信息。

4. 句法分析:了解句法分析的概念和方法,研究如何解析句子的结构和语法关系。

5. 实体识别:研究实体识别算法,掌握识别人名、地名、组织名等实体的技术。

6. 文本分类:探索文本分类问题,研究如何使用机器研究和深度研究方法进行文本分类。

研究收获通过研究自然语言处理,我获得了以下收获:1. 理解语言:通过研究自然语言处理技术,我对人类语言的结构和语义有了更深入的理解。

2. 解决实际问题:自然语言处理技术在许多领域都有广泛应用,我可以利用所学知识解决实际问题,如情感分析、机器翻译、智能客服等。

3. 开发应用:我可以运用所学的自然语言处理技术,开发基于文本处理的应用,为用户提供更智能和便捷的服务。

综述总而言之,学习自然语言处理让我更深入地了解了人类语言和计算机之间的交互方式。

我掌握了文本预处理、词嵌入、词性标注、句法分析、实体识别和文本分类等关键技术,将这些知识应用于实际问题的解决与应用开发中。

通过学习自然语言处理,我不仅增强了自己的技术能力,也为未来在人工智能领域的发展奠定了基础。

文本挖掘技术的使用教程与技巧

文本挖掘技术的使用教程与技巧

文本挖掘技术的使用教程与技巧文本挖掘技术是一种通过自动化方法从海量文本数据中提取有用信息的技术。

它在各个领域中都有着广泛的应用,例如信息检索、情感分析、文本分类等。

本文将介绍文本挖掘技术的使用教程与技巧,帮助读者快速了解并应用这一技术。

一、文本挖掘技术的概述文本挖掘技术是通过将自然语言处理、机器学习和统计学等方法结合,从海量文本数据中自动发现模式、识别主题、提取关键字、分析情感等信息的技术。

它可以帮助人们从大量文本中获取有价值的信息,辅助决策和预测。

二、文本挖掘技术的基本步骤1. 文本预处理:对原始文本进行处理,包括分词、去停用词、词性标注、去除噪音等。

这一步是文本挖掘的关键,直接影响后续步骤的效果。

2. 特征提取:将文本转化为特征向量表示,常用的方法包括词袋模型、TF-IDF、词向量等。

选择适当的特征表示方法可以提高文本挖掘的准确率。

3. 模型构建:根据具体任务的需求选择合适的算法模型,例如朴素贝叶斯分类器、支持向量机、深度学习模型等。

不同的任务可能需要不同的模型,需要根据实际情况进行选择。

4. 模型训练与评估:使用标注好的数据进行模型训练,并使用评估指标(如准确率、召回率、F1值等)评估模型性能。

5. 结果解释与可视化:对挖掘结果进行解释和分析,并采用可视化技术将结果呈现给用户,提升可理解性和可视性。

三、文本挖掘技术的常见任务与应用1. 信息检索:通过文本挖掘技术,可以建立强大的搜索引擎,实现高效快速地从海量文本中检索出相关信息。

搜索引擎可以应用于网页搜索、文档检索等场景。

2. 文本分类:将文本按照一定的类别划分,常用于情感分析、主题分类等。

通过文本分类,可以自动将文本归类,提高信息处理的效率和精确度。

3. 情感分析:分析文本中蕴含的情感倾向,帮助企业了解用户的情感态度。

在社交媒体分析、舆情监测等领域,情感分析具有重要的应用价值。

4. 关键词提取:从文本中提取关键词或关键短语,帮助用户快速理解文本主题。

文本分析报告

文本分析报告

文本分析报告引言文本分析是一种利用自然语言处理技术对大量文本数据进行处理、分析和挖掘的方法。

通过分析文本数据,可以从中提取出有用的信息,并帮助人们做出相应的决策或预测。

本文将介绍文本分析的基本原理、常用的文本分析方法以及其在不同领域的应用。

文本分析的原理文本分析的基本原理是通过自然语言处理技术将文本数据转换成机器可理解的形式,再基于这些表示形式进行后续的分析和挖掘。

文本分析可以包括以下几个基本步骤:1.数据预处理:包括去除噪声、分词、词性标注等处理,以便将文本数据转换成机器可理解的形式。

2.特征提取:从经过预处理后的文本数据中提取有用的特征,用于后续的分析和挖掘。

常用的特征包括词频、TF-IDF、词向量等。

3.分析和挖掘:基于提取的特征进行文本分类、情感分析、主题建模等分析和挖掘任务。

4.可视化和解释:将分析和挖掘的结果进行可视化展示,并解释其含义和结果。

常用的文本分析方法文本分类文本分类是指将文本数据划分到事先定义好的若干类别中。

常见的文本分类任务包括垃圾邮件过滤、情感分类等。

常用的文本分类方法包括朴素贝叶斯算法、支持向量机、深度学习等。

情感分析情感分析是指对文本数据进行情感倾向性判断的任务。

常见的情感分析任务包括判断一段文本是积极的还是消极的。

常用的情感分析方法包括情感词典、机器学习算法等。

关键词提取关键词提取是指从文本数据中自动抽取出具有代表性的关键词。

常用的关键词提取方法包括基于TF-IDF的方法、基于词共现的方法等。

主题建模主题建模是指从大量文本数据中抽取出潜在的主题或话题,并对文本进行聚类。

常用的主题建模方法包括潜在语义分析(LSA)、隐含狄利克雷分布(LDA)等。

文本分析在不同领域的应用金融领域在金融领域,文本分析被广泛应用于舆情分析、股票预测和风险控制等任务。

通过分析新闻报道、社交媒体评论等文本数据,可以获取市场情绪和投资者情绪等信息,从而辅助做出投资决策。

医疗保健领域在医疗保健领域,文本分析可应用于疾病预测、药物副作用监测等任务。

专业语料库构建方法

专业语料库构建方法

专业语料库构建方法随着社会的快速发展和技术的不断进步,语料库的构建变得越来越重要。

专业语料库是领域特定的文本集合,对于语言学研究、翻译和自然语言处理等领域具有重要意义。

本文将介绍一些构建专业语料库的方法。

一、文本收集构建专业语料库的第一步是收集相关的文本。

文本可以来自于各种来源,比如专业书籍、学术论文、专利文件、技术手册、行业报告等等。

在收集文本时可以利用现有的文本库、网络文档或者人工搜集。

文本的质量和多样性对于专业语料库的质量至关重要,因此需要尽量多样化地收集文本,并保证文本的准确性和权威性。

二、文本预处理在将文本加入语料库之前,需要进行一些预处理工作。

首先,需要对文本进行清洗,包括去除特殊符号、标点符号、HTML标签等。

其次,需要对文本进行分词,将文本切分为单词或者短语。

如果文本是非英文文本,还需要进行分词和词性标注等处理。

另外,还可以进行语言模型的训练,以便在后续的应用中进行语言生成、机器翻译等任务。

三、语料库标注为了提高语料库的可用性和可扩展性,可以对文本进行标注。

标注可以包括词性标注、命名实体识别、句法分析等。

这样可以为后续的语言处理任务提供更多的信息和约束条件。

标注的方法可以采用自动标注或者人工标注,具体选择方法取决于资源和时间的限制。

四、语料库管理在构建专业语料库时,需要进行有效的语料库管理。

语料库管理包括语料库的存储、检索和更新。

为了保证语料库的长期可用性,可以使用数据库来存储语料库,并且建立索引进行快速检索。

同时,还需要定期更新语料库,添加新的领域文本或者删除过时的文本。

五、语料库应用构建专业语料库的最终目的是为了进行各种语言处理任务。

语料库可以用于文本分类、信息抽取、问答系统、机器翻译等应用。

通过利用专业语料库,可以提高这些应用的准确性和效率,从而满足用户的需求。

总结:构建专业语料库是一个复杂而重要的过程。

在这个过程中,需要注意文本的收集、预处理、标注、管理和应用等方面。

通过合理有效的方法构建专业语料库,可以为语言学研究和自然语言处理等领域的发展提供有力的支持。

浅谈针对明清小说文本的知识抽取方法

浅谈针对明清小说文本的知识抽取方法

浅谈针对明清小说文本的知识抽取方法介绍随着科技的发展,自然语言处理技术越来越重要,特别是针对汉语这种复杂的语言系统。

通过利用自然语言处理技术,我们可以把巨大数量的文本变成计算机可理解的形式,实现语义分析、信息提取等功能。

其中,知识抽取是自然语言处理技术的一种重要应用,可以从文本中抽取出有价值的信息并整合成可用的知识。

本文将讨论如何针对明清小说文本进行知识抽取。

1.文本预处理针对明清小说文本的知识抽取,首先需要进行文本预处理。

由于明清小说的文本特点较为复杂,包括不同的用字、结构、语言风格等,因此需要对其进行文本清理,包括分词、停用词过滤、标注词性、去除无用的标点符号等操作,以方便后续的处理。

2.关键词抽取在明清小说中,涵盖了众多的人物、地点、事件等关键概念。

我们可以通过自然语言处理技术,如词频统计、TF-IDF等方法,在一定数据集范围内抽取出最具代表性和重要性的关键词。

这些关键词可以作为之后的数据建模和知识提取的基础。

3.实体抽取除了关键词抽取外,实体抽取也是明清小说知识抽取的一项难点。

实体指的是小说中的人物、地点、事件等,而这些实体中常常存在实际语义的隐形或隐含信息。

为了发掘其中的有价值信息,需要通过一定的技术手段识别和抽取实体,并在此基础上进行结构化表达。

方法包括基于规则或基于机器学习的方法。

采用规则的方法主要适用于专业领域中实体的抽取,但其适用性较弱,在样本数量少的情况下效果不太理想。

而机器学习方法因其具有一定的自我学习能力,可以在处理大规模数据时,具有较高的识别和选择准确性。

另外,基于深度学习的方法也被广泛应用于实体识别领域,并取得了不错的效果。

4.事件抽取明清小说中存在大量的事件,其中涵盖了丰富的历史文化内涵以及大量的社会信息。

为了发掘其中的价值,需要进行事件抽取。

事件抽取是在实体识别的基础上进行的,通过挖掘文本中的事件信息,并根据事件本身的特点,对其进行进一步的信息处理和抽取,并将事件表示成一定的模型形式,以方便后续数据分析和系统建模。

基于语义分析的文本情感分析与情绪识别

基于语义分析的文本情感分析与情绪识别

基于语义分析的文本情感分析与情绪识别情感分析与情绪识别是自然语言处理中的重要研究领域,通过对文本内容进行分析、理解和识别,可以帮助人们更好地理解和利用大量的文本信息。

基于语义分析的文本情感分析与情绪识别,是一种通过深度学习技术对文本进行情感和情绪分类的方法,可以帮助人们更全面地了解文本的情感倾向和情绪状态。

在过去的几年中,深度学习技术在自然语言处理领域取得了巨大的突破。

传统的情感分析方法主要依赖于手工设计的特征和分类器,研究者需要通过繁琐的特征工程和模型训练才能得到较好的结果。

而基于语义分析的情感分析与情绪识别方法则采用了端到端的学习方法,在语义分析和情感分类之间建立了紧密的联系,从而能够更准确地识别出文本中的情感和情绪。

基于语义分析的情感分析与情绪识别方法通常包括以下几个关键步骤:第一步是数据预处理。

在文本情感分析中,为了更好地理解文本的情感,研究者通常需要对文本进行预处理,包括去除停用词、标点符号等,并进行分词和词性标注等操作。

这些操作可以帮助我们更好地理解文本的语义和情感信息。

第二步是特征提取。

在基于语义分析的情感分析与情绪识别中,特征提取是非常重要的一步。

研究者通常采用词嵌入技术,如Word2Vec、GloVe等,将文本表示为连续的向量,从而捕捉到了词语之间的语义关系。

另外,也可以采用基于注意力机制的模型,如Transformer,来获取文本中不同部分的表示,以获取更好的特征表示。

第三步是情感分类与情绪识别。

在这一步骤中,我们需要利用训练好的模型对文本进行情感分类和情绪识别。

常见的模型包括循环神经网络(RNN)、长短期记忆网络(LSTM)和卷积神经网络(CNN)等。

这些模型可以对文本进行建模,并输出文本的情感和情绪标签。

基于语义分析的文本情感分析与情绪识别方法具有很高的准确性和鲁棒性。

它可以自动学习到文本中的情感表示,并能够根据这些表示对文本进行情感分类和情绪识别。

这种方法的主要优势在于不需要人为设计特征,并且可以处理不同领域和不同类型的文本数据。

情感分析基于词典的分析方法

情感分析基于词典的分析方法

情感分析基于词典的分析方法
基于词典的情感分析方法是一种常见的文本情感分析技术。

该方法通
过构建一个情感词典或情感词汇表,其中包含了一系列带有情感倾向的词
汇和对应的情感极性(如正向、负向或中性),然后通过匹配文本中的词
汇与词典中的词汇进行情感倾向的判断。

基于词典的情感分析方法主要分为以下几个步骤:
1.构建情感词典:根据领域特定或通用的需求,从已标注好情感极性
的样本中提取具有情感倾向的词汇,构建情感词典。

情感词典可以通过人
工标注、机器学习或其他自动化方法来构建。

2.文本预处理:对待分析的文本进行预处理,如分词、去除停用词、
词性标注等。

3.情感词匹配:将文本中的词汇与情感词典进行匹配,判断每个词汇
的情感倾向。

匹配可以通过简单的字符串匹配或更复杂的匹配算法来实现。

4.情感得分计算:根据情感词的情感极性和文本中匹配到的情感词数量,计算文本的情感得分。

一种常见的计算方法是基于情感词的加权求和,其中正向情感词权重为正值,负向情感词权重为负值。

5.情感分类:根据情感得分,将文本分为正向、负向或中性的情感类别。

可以设定一个阈值来确定分类方式。

基于词典的情感分析方法的优点包括简单易实现、计算效率高;缺点
包括对于新词、复杂语境的处理能力相对较差。

为了提高分析的准确性,
常常需要结合其他方法,如机器学习、深度学习等技术。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1引言

面对网上的海量信息,传统的做法是对网上信息进行人工分类,并加以组织和整理,为人们提供一种相对有效的信息获取手段。但是,这种人工分类的做法存在着许多弊端:一是耗费大量的人力,物力和精力。二是存在分类结果一致性不高的问题。网络信息的激增一方面增加了对于快速、自动文本分类的迫切需求,另一方面又为基于机器学习的文本分类方法准备了充分的资源。电子化信息的自动分类处理技术正越发显示着其优越性,文本自动分类及其相关技术的研究也正日益成为一项研究热点。目前,文本分类的研究已经很成熟,各种分类器显示出各自不同的性能,影响文本分类精确度的关键因素之一是中文文本的预处理,其过程比较烦琐。在预处理过程中,分词器对文本进行分词处理,经过去除停用词获得文本的关键词向量。只有去掉没有实意的虚词和类别色彩不强的中性词,才能大大提高文本分类准确度,而这些词条的过滤需要建立起完善的停用词表。停用词表的建立不仅需要大量的实验,而且需要众多分类专家的参与,才能精确地将

基于词性选择的文本预处理方法研究李英(河北北方学院图书馆,河北张家口075000)摘要:预处理是文本分类中的一个重要环节,预处理结果的好坏不仅关系到分类的准确度,而且关系到训练时间的长短和影响到分类的速度。采用一种基于词性选择的文本预处理方法进行文本预处理,该方法与传统方法进行了实验对比,结果显示,该方法降低了特征维数,同时保证了分类性能。实验表明该方法能够获得较好的分类效果。关键词:文本分类;停用词;词性;文本预处理中图分类号:TP391文献标识码:A文献编号:1007-7634(2009)05-0717-03

ResearchontheTextPretreatmentBasedonPartofSpeechSelection

LIYing(LibraryofHebeiNorthUniversity,Zhangjiakou075000,China)Abstract:Thetextpretreatmentisinatextclassificationimportantlink,thepretreatmentresultqual-itynotonlyrelatestheclassificationtheaccuracy,moreoverrelatesthetrainingtimethelengthandaf-fectstheclassifiedspeed.Thisarticleusedonekindtocarryonthetextpretreatmentbasedonthelex-icalcategorychoicetextpretreatmentmethod,thismethodandtheconventionalrouteshavecarriedontheexperimentcontrast,finallydemonstratedthatthismethodreducedthecharacteristicdimension,

simultaneouslyhasguaranteedtheclassifiedperformance.Theexperimentindicatedthatthismethodcanobtainthegoodclassifiedeffect.Keywords:textcategorization;stop-words;partofspeech;textpretreatment

收稿日期:2009-03-18作者简介:李英(1971-),女,天津武清人,副研究馆员,学士,从事文本分类、信息处理研究.

Vol.27,No.5May,2009情报科学第27卷第5期2009年5月一些虚词和没有浓重类别信息的中性词剔除掉。国内目前尚无中文停用词表的建立标准,大多数分类系统只是根据所研究对象的不同有针对性地过滤掉一部分停用词达到期望的分类效果。针对此问题本文提出了一种新的文本预处理方法—基于词性选择的文本预处理。2分类过程结构图中文文本自动分类模型包括五个方面:文本预处理、特征抽取、特征选择、利用分类算法提取分类模型、对分类模型进行质量评估。各个环节独立存在,也紧密相连,目前特征选择方法与分类算法功能比较完善,一些研究人员在特征抽取方向做了一定的研究,预处理技术是整个分类过程的首模块,它对于分类是至关重要的。文本自动分类工具的实现过程如图1所示。图1文本自动分类过程结构图3文本预处理方法3.1文本预处理过程描述图2停用词表的部分截图文本预处理通常做法包括分词处理,关键部分加权,去除停用词。经过分词处理,意义连贯的文档变成词的列表,同时统计的还有各个词在文档中出现的次数。去除停用词,主要是去掉一些对文章的内容没有什么表现力的字词。停用词过滤是建立一个停用词典,在文本特征提取阶段将这些停用词过滤掉。停用词指的是一些出现频率很高但没有实际意义的词,如:“是”、“的”、“所”、“到”、“从而”、“能”、“比”等一些功能词。如图2所示。

3.2预处理过程实现

目前,在文本信息处理过程中,一般可以选择字、词或词组作为文本的特征项,但普遍认为选取词作为特征项要优于字和词组。但是在基于向量空间模型的分类系统中,中文分词器切分出来的所有词条中含有大量的单个独立字,并且经过研究发现这些单个独立字不仅所携带的文本信息量较少,而且还对其他实词起到一定的抑制作用,降低了分类系统的处理效率和准确度【1-2】,因此,文本预处理过程

有必要将所有的单个独立字过滤。文献【3】中,广州工业大学的周钦强运用程序流程控制剔除中文分词器切分出来的单个独立字、英文字符、数字和一系列数学符号以及含有这些符号的中文词,从而使得两个字以上的纯中文词成为代表文本信息的特征项。有效增强了文本向量的中文纯度。

4基于词性选择的文本预处理

通常一篇文章的特征是通过一组词或词组来表示的,一个文件集合可能会包含数十万个不同的特征,同时停用词表的建立是一个长期的过程,在没有建立起完善的停用词表的情况下,一个不全面的停用词表会对特征的提取存在一定的影响。对如此高维的特征空间不仅会增加分类算法的处理时间,对算法的精度也会产生不利的影响。在文献【4】中,李彦平,张佳冀在特征选择上采用了词性过滤技术,根据分词结果的词性标注信息,经过停用词过滤和词性过滤后只保留名词、动词和缩略词这些实词。在文献【5】中,北京航空航天大学的谢科也采用了词性筛选方式对名词词语进行了筛选,他们都采用了利用文本相似度来计算聚类与分类,均取得了不错的效果。基于上述情况,提出了基于词性选择的文本预处理方法,本文采用中科院计算所汉语词法分析系统ICTClAS分词系统,该系统可以在分词的同时对词性进行标记,并对词性进行筛选以过滤掉文本中

718情报科学27卷大部分无意义词条,来达到初次降低词语维数从而实现文本的预处理过程(参见图3)。图3基于词性筛选的文本预处理方法框图5实验与结果分析我们选用了复旦大学10个类别文本语料库语料进行实验。十个类别分别为计算机、医药、交通、教育、环境、体育、政治、艺术、经济、环境。训练集有1882篇,测试集有934篇。实验目的:测试基于词性筛选的预处理方法的分类效果,采用名词,名词和动词的组合两种方式。实验手段:分别采用SVM与KNN分类器,期望交叉熵为特征选择方法【6-7】,特征数目:1000维;权重

公式:TF-IDF。实验评估方法:宏平均查全率,宏平均查准率,F1值(综合指标)【8】,初始特征集特征个数n。

结果分析:从表1、表2显示数据可看出以名词作为特征词进行词性筛选时初始特征集的缩简率为71.2%;以名词和动词为特征进行分类时初始特征

集的缩减率为44.8%。

文本分词及词性标注词性筛选及频率统计初始

特征集

表1SVM实验结果

表2KNN(33)实验结果类别通常文本预处理方法(n=34964)词性筛选(名词)(n=10066)词性筛选(名词+动词)(n=15675)查全率查准率查全率查准率查全率查准率交通95.775%100%92.958%94.286%94.366%95.714%体育96.753%97.386%97.987%97.987%99.329%92.500%军事83.133%87.324%96.386%86.957%87.952%92.405%医药95.388%97.015%82.353%94.915%80.882%90.164%政治96.407%89.444%94.611%90.286%94.012%87.709%教育94.521%97.183%98.630%91.139%91.781%95.714%环境89.552%98.361%83.582%94.915%86.567%96.667%经济95.370%96.262%92.593%94.340%91.667%91.667%艺术98.780%97.590%92.683%100%92.683%93.827%计算机96.970%98.462%100%95.652%95.455%95.455%总体评估94.610%95.904%93.178%94.048%91.469%93.182%F1值95.253%93.611%92.318%

类别通常文本预处理方法(n=34964)词性筛选(名词)(n=10066)词性筛选(名词+动词)(n=15675)查全率查准率查全率查准率查全率查准率交通90.141%94.118%91.549%94.203%78.873%94.915%体育98.658%91.875%98.658%96.711%96.644%89.441%军事66.265%87.302%84.377%90.909%73.494%88.406%医药88.235%98.361%82.353%98.246%54.412%92.500%政治95.808%78.049%94.611%81.443%94.611%75.238%教育90.411%95.652%93.151%93.151%89.041%82.278%环境83.582%88.889%79.1042%94.643%73.134%89.091%经济91.667%91.667%93.519%89.381%88.889%76.800%艺术92.683%96.203%91.463%96.154%84.146%89.610%计算机87.879%100%95.455%96.923%86.364%96.610%总体评估88.533%92.211%90.420%93.176%81.961%87.489%F1值90.335%91.777%84.635%

5期基于词性选择的文本预处理方法研究719(下转第738页)

相关文档
最新文档