用定性数据分析包 RQDA tm 进行文本挖掘

合集下载

大数据分析中的文本数据挖掘方法介绍(六)

大数据分析中的文本数据挖掘方法介绍(六)

随着信息时代的到来,数据量呈现爆炸式增长,如何从海量的数据中获取有用的信息成为了一个重要的课题。

大数据分析作为一种新兴的数据处理和分析技术,正在逐渐成为各行各业的热门话题。

在大数据分析中,文本数据挖掘作为一种重要的技术手段,可以帮助人们从大量的文本数据中挖掘出有价值的信息。

本文将介绍一些常见的文本数据挖掘方法,希望能够为大家对大数据分析中的文本数据挖掘有所了解。

一、文本数据预处理在进行文本数据挖掘之前,首先需要对文本数据进行预处理。

文本数据预处理包括词法分析、去除停用词、词干提取等步骤。

词法分析是将文本数据分割成一个个的词汇单元,去除停用词是指删除一些无意义的常用词语,词干提取则是将单词还原为词干形式。

通过文本数据预处理,可以有效地提高文本数据挖掘的效果。

二、词袋模型词袋模型是一种常见的文本数据表示方法,它将文本数据表示为一个词汇的集合,忽略了单词在文本中的顺序和语法结构。

在词袋模型中,每个单词都被视为一个特征,文本数据被表示为一个特征向量。

词袋模型简单高效,适用于大规模文本数据的处理。

三、TF-IDF算法TF-IDF算法是一种常用的文本数据挖掘算法,它通过计算单词的词频和逆文档频率来衡量单词的重要性。

TF(Term Frequency)指的是单词在文本中出现的频率,IDF(Inverse Document Frequency)指的是单词在语料库中的逆文档频率。

通过TF-IDF算法,可以有效地识别出关键词和关键文档。

四、主题建模主题建模是一种常见的文本数据挖掘方法,它可以从文本数据中挖掘出隐藏的主题信息。

主题建模的目标是将文本数据表示为一组主题分布,每个主题包含一组相关的单词。

常见的主题建模方法包括潜在语义分析(LSA)、潜在狄利克雷分配(LDA)等。

五、情感分析情感分析是一种常见的文本数据挖掘任务,它的目标是识别文本中蕴含的情感倾向。

情感分析可以帮助人们了解用户的情感态度,对产品的市场反馈等。

文本挖掘的步骤

文本挖掘的步骤

文本挖掘的步骤随着互联网的发展,数据量呈现爆炸式增长,如何从海量的数据中提取有价值的信息成为了一个重要的问题。

文本挖掘作为一种数据挖掘技术,可以从文本数据中提取出有用的信息,为企业决策和科学研究提供支持。

本文将介绍文本挖掘的步骤。

一、数据收集文本挖掘的第一步是数据收集。

数据可以来自于各种渠道,如互联网、社交媒体、新闻报道、论文等。

在数据收集过程中,需要注意数据的质量和可靠性,避免收集到噪声数据和虚假信息。

二、数据预处理数据预处理是文本挖掘的重要步骤,它包括文本清洗、分词、去停用词、词干提取等操作。

文本清洗是指去除文本中的噪声数据和无用信息,如HTML标签、特殊符号、数字等。

分词是将文本按照一定的规则划分成词语的过程,可以采用基于规则的分词方法或基于统计的分词方法。

去停用词是指去除一些常用词语,如“的”、“是”、“在”等,这些词语对文本分析没有太大的帮助。

词干提取是将词语还原为其原始形式的过程,如将“running”还原为“run”。

三、特征提取特征提取是将文本转换为数值型向量的过程,以便于计算机进行处理。

常用的特征提取方法包括词袋模型、TF-IDF模型、主题模型等。

词袋模型是将文本表示为一个词语的集合,每个词语作为一个特征。

TF-IDF模型是在词袋模型的基础上,对每个词语进行加权,以反映其在文本中的重要性。

主题模型是将文本表示为一组主题的分布,每个主题包含一组相关的词语。

四、建模分析建模分析是文本挖掘的核心步骤,它包括分类、聚类、关联规则挖掘等操作。

分类是将文本分为不同的类别,如将新闻分类为政治、经济、文化等。

聚类是将文本按照相似性进行分组,如将新闻按照主题进行聚类。

关联规则挖掘是发现文本中的关联规律,如发现购买了A商品的人也会购买B商品。

五、模型评估模型评估是对建模分析结果进行评估和优化的过程。

常用的评估指标包括准确率、召回率、F1值等。

准确率是指分类器正确分类的样本数占总样本数的比例。

召回率是指分类器正确分类的正样本数占所有正样本数的比例。

数据分析中的文本挖掘技术

数据分析中的文本挖掘技术

数据分析中的文本挖掘技术随着数据爆炸式增长,如何从大量数据中发现价值成为了数据分析领域中的一大难题。

而文本挖掘技术的出现,正是为了解决这个问题。

一、什么是文本挖掘技术文本挖掘技术是一种将自然语言处理、机器学习、统计学等技术应用于文本分类、情感分析、实体抽取、关系抽取、主题分析等领域的技术。

通过使用这种技术,可以从大量的非结构化文本数据中提取信息,发现隐藏在文本中的规律和趋势,为后续的数据分析和决策提供支持。

文本挖掘技术主要包括以下几个步骤:1. 预处理:去除停用词、标点符号等无用信息,将文本转化为机器可读的形式。

2. 特征提取:将文本中的单词、短语等抽取出来并转化为数值类型,以便后续的机器学习算法进行处理。

3. 分类或聚类:将文本按照其所属类别进行归类或分组。

4. 实体抽取:从文本中抽取实体并对其进行识别。

5. 关系抽取:从文本中抽取实体之间的关系。

二、文本挖掘技术的应用1. 情感分析情感分析是指通过对文本的分析,确定其中所包含的情感极性,如正面、负面或中性。

这种技术可以用于商品评论、社交媒体等领域,帮助企业了解用户对其产品或服务的态度,进而改进产品或服务。

2. 实体抽取实体抽取是指从文本中抽取出具有特定意义的实体,如人名、地址、时间、公司名称等,并进行分类和识别。

实体抽取技术可以帮助企业从大量的非结构化文本数据中提取出相关信息,为业务决策提供支持。

3. 关系抽取关系抽取是指从文本中抽取出实体之间的关系。

这种技术可以用于社交媒体、新闻报道等领域,帮助企业了解人们之间的联系,预测社会趋势等。

4. 主题分析分析。

这种技术可以用于新闻报道、社交媒体等领域,帮助企业发现潜在的营销机会、了解人们的兴趣爱好等。

三、文本挖掘技术的挑战虽然文本挖掘技术在数据分析领域中拥有广泛的应用前景,但是它也面临着一些挑战:1. 数据质量问题。

由于文本数据的来源多种多样,质量参差不齐,如何保证文本数据的质量是文本挖掘技术中一个关键的问题。

机器学习技术中的文本挖掘方法介绍

机器学习技术中的文本挖掘方法介绍

机器学习技术中的文本挖掘方法介绍文本挖掘是机器学习技术中的一个关键领域,它涉及到从大规模文本数据中提取有用信息和知识的过程。

随着互联网时代的到来,大量的文本数据被产生出来,文本挖掘成为了一种重要的技术,可以帮助我们处理和分析这些海量的文本数据。

在机器学习技术中,文本挖掘主要有以下几种方法:1. 文本分类:文本分类是将文本分为不同的类别或标签的任务,通过使用自然语言处理和统计学习的技术,可以将文本按照其内容或主题进行分类。

例如,可以利用文本分类来将新闻文章按照不同的类别进行分类,比如体育、政治、娱乐等。

2. 文本聚类:文本聚类是将相似的文本分组到一起的任务,它可以帮助我们发现文本数据中的潜在模式和结构。

通过使用聚类算法,文本可以按照相似性进行分组,使得同一组内的文本之间的相似性较高,而不同组之间的相似性较低。

3. 文本摘要:文本摘要是将长篇文本压缩成更短的摘要或概括的过程。

这对于处理大量的文本数据以及帮助人们快速了解文本内容非常有用。

文本摘要可以通过提取关键词或句子的方式来实现。

一种常见的方法是使用词频统计和TF-IDF(词频-逆文档频率)来识别重要的关键词或句子。

4. 情感分析:情感分析是分析文本中表达的情感倾向的任务,可以帮助我们了解人们对特定话题或事件的态度和情感。

通过使用自然语言处理和机器学习的技术,可以将文本分类为正面、负面或中性情感。

情感分析在社交媒体监测、产品评论分析等领域有着广泛的应用。

5. 实体识别:实体识别是从文本中识别和提取出具体的命名实体或特定类型的实体的任务。

这些实体可以是人名、地名、组织机构名等。

通过使用自然语言处理和机器学习的技术,可以建立模型来识别文本中的实体,并将其分类为不同的类型。

6. 关系抽取:关系抽取是从文本中提取实体之间的关系的任务。

通过使用自然语言处理和机器学习的技术,可以构建模型来自动识别文本中的关系,并将其表示为结构化数据,比如三元组(Subject,Predicate,Object)。

大数据分析中的文本挖掘方法

大数据分析中的文本挖掘方法

大数据分析中的文本挖掘方法在当今信息爆炸的时代,海量的文本数据成为大数据分析的重要资源。

为了从这些文本数据中提取有用信息,我们可以运用文本挖掘方法。

本文将介绍大数据分析中常用的文本挖掘方法,包括词频统计、情感分析和主题建模。

一、词频统计词频统计是文本挖掘中最基本也是最常用的方法之一。

它通过计算文本中每个词出现的频率来进行分析。

词频统计可以帮助我们了解文本中的关键词汇,并发现一些重要的信息。

例如,在新闻数据中使用词频统计可以找出最常出现的关键词,帮助媒体了解当前舆论热点。

二、情感分析情感分析是一种用于确定文本中情感倾向的方法。

它可以识别文本中的积极、消极或中性情感,并评估文本的情感强度。

情感分析在社交媒体、产品评论等领域具有广泛的应用。

例如,在社交媒体上分析用户的评论可以帮助企业了解用户对产品的评价,进而改进产品设计和营销策略。

三、主题建模主题建模可以帮助我们从文本数据中提取出隐藏在其中的主题信息。

主题建模是一种无监督的学习方法,它可以将文本数据分为不同的主题,并计算每个主题在文本中的权重。

主题建模在新闻报道、社交媒体分析等领域具有广泛的应用。

例如,在社交媒体数据中应用主题建模可以发现用户讨论的热点话题,并根据这些主题进行精准的推荐。

四、实体识别实体识别是一种用于从文本中识别具体实体的方法。

它可以识别出人名、地名、组织机构等文本中的实体,并进行分类。

实体识别在舆情分析、金融数据分析等领域具有重要的应用价值。

例如,在舆情分析中通过实体识别可以追踪某个人、组织或事件在社交媒体上的讨论情况,从而及时捕捉到与其相关的信息。

五、关联分析关联分析是一种用于挖掘文本数据中关联关系的方法。

它可以通过分析大量文本数据中的共现性来寻找不同实体之间的关联。

关联分析在市场营销、推荐系统等领域有着广泛的应用。

例如,在电商平台中运用关联分析可以根据用户的购买记录推荐相关商品,提高用户购买体验。

综上所述,大数据分析中的文本挖掘方法包括词频统计、情感分析、主题建模、实体识别和关联分析。

如何使用机器学习技术进行文本挖掘分析

如何使用机器学习技术进行文本挖掘分析

如何使用机器学习技术进行文本挖掘分析如何利用机器学习技术进行文本挖掘分析随着互联网的迅猛发展,人们每天都产生大量的文本数据,如社交媒体消息、新闻报道、博客文章等。

对这些数据进行分析和挖掘,可以帮助我们发现隐藏在其中的有用信息,从而为决策和预测提供支持。

机器学习技术在文本挖掘方面已经取得了很大的突破,让我们一起来了解如何使用这些技术进行文本挖掘分析。

首先,文本预处理是文本挖掘分析的一个重要步骤。

由于文本数据的多样性和复杂性,我们需要对文本数据进行清洗和标准化,以便更好地进行后续的分析。

常见的预处理技术包括去除文本中的特殊字符和标点符号,将文本转换为小写字母,去除停用词和词干化等。

此外,还可以使用一些文本转换技术,如词袋模型和TF-IDF,将文本转换为向量表示,方便机器学习算法的处理。

其次,了解不同的机器学习算法对于文本挖掘分析至关重要。

在文本分类方面,常用的机器学习算法有朴素贝叶斯、支持向量机(SVM)和深度学习模型,如循环神经网络(RNN)和卷积神经网络(CNN)。

这些算法可以根据训练数据的特征和标签,构建模型用于分类任务。

在文本聚类和主题建模方面,常用的算法有k-means、层次聚类和Latent Dirichlet Allocation(LDA)。

这些算法可以将相似的文本聚类在一起,或者发现文本数据中的潜在主题。

还有一些特定的文本挖掘技术可以应用于特定的任务。

例如,情感分析可以帮助我们了解用户对于产品、服务或社交媒体内容的情感倾向,从而指导决策和改进。

文本摘要可以提取文本的关键信息,以便进行快速阅读和浏览。

命名实体识别可以识别文本中的特定实体,如人名、地名和组织名等。

这些技术可以根据具体的需求和任务,选择合适的机器学习算法和模型进行实现。

在应用机器学习技术进行文本挖掘分析时,还需要注意一些挑战和注意事项。

首先,文本数据可能存在噪声和错误,如拼写错误、语法错误和意思不明确等。

因此,在数据预处理过程中需要考虑这些问题,并采取适当的策略进行处理。

数据分析中的文本挖掘方法与案例分析

数据分析中的文本挖掘方法与案例分析随着数字化时代的到来,数据量的爆炸式增长给企业和组织带来了巨大的挑战和机遇。

在这个信息爆炸的时代,如何从大量的文本数据中提取有价值的信息成为了数据分析师们的重要任务之一。

而文本挖掘作为一种数据分析的方法,正在被广泛应用于各个领域。

一、文本挖掘方法文本挖掘是指通过利用自然语言处理、机器学习和统计学等技术,从大规模文本数据中自动发现、提取和推理出有用的信息。

在文本挖掘中,常用的方法包括词频统计、情感分析、主题模型和实体识别等。

1. 词频统计词频统计是文本挖掘中最基本的方法之一,它通过统计文本中每个词出现的频率来分析文本的特征。

通过对词频进行排序和筛选,可以找出文本中最常出现的词汇,从而了解文本的主题和关键词。

2. 情感分析情感分析是一种通过计算文本中的情感倾向来判断文本情感的方法。

情感分析可以帮助企业和组织了解用户对产品、服务或品牌的态度和情感倾向,从而指导市场营销和产品改进。

3. 主题模型主题模型是一种用于发现文本中隐藏主题的方法。

通过对文本进行建模和分析,主题模型可以自动识别出文本中的主题,并将文本归类到不同的主题中。

主题模型在新闻分类、社交媒体分析和舆情监测等领域有着广泛的应用。

4. 实体识别实体识别是一种从文本中识别出具有特定意义的实体的方法。

实体可以是人名、地名、组织名等。

通过实体识别,可以帮助企业和组织更好地了解市场和竞争对手的情况,从而做出更明智的决策。

二、案例分析为了更好地理解文本挖掘的应用,下面将介绍两个案例。

1. 社交媒体分析社交媒体是人们日常交流和分享信息的重要平台,其中蕴含着大量的用户意见和情感。

通过对社交媒体数据进行文本挖掘,可以帮助企业了解用户对产品和服务的评价和需求。

例如,一家电商公司可以通过分析用户在社交媒体上的评论和评分,了解用户对不同产品的喜好和购买意向,从而优化产品策划和销售策略。

2. 舆情监测舆情监测是指对公众舆论和声音进行实时监测和分析的方法。

数据分析中的文本挖掘方法

数据分析中的文本挖掘方法在当今数字化时代,海量的文本数据不断涌现,这给企业决策、市场研究、舆情分析等领域提供了宝贵的信息资源。

然而,面对如此庞大的数据量,如何从中快速准确地提取有价值的信息成为了一项具有挑战性的任务。

这就需要借助文本挖掘技术,利用计算机科学、机器学习和自然语言处理等方法来从文本数据中自动抽取、识别和理解有用的信息。

文本挖掘,又称为文本数据挖掘或知识发现于文本,指的是从无结构文本中提取出结构化的、可用于进一步分析的信息。

它包括了一系列的技术和算法,能够自动地从文本中抽取关键词、实体名称、情感倾向、主题分类等信息。

下面将介绍几种常用的文本挖掘方法及其应用领域。

1. 分词与词频统计分词是将连续的文本切分成一个个有意义的词语单元的过程。

通过分词,可以将长长的文本序列转化为一系列离散的词语,方便后续的统计和分析。

分词方法有很多种,常见的有基于规则的方法、基于统计的方法和基于机器学习的方法。

在分词之后,可以通过词频统计的方法获得每个词语在文本中出现的频率,从而发现文本中的热门关键词。

分词与词频统计常被应用于搜索引擎的关键词提取、舆情分析中的关键词识别等任务。

2. 文本分类与朴素贝叶斯算法文本分类是将文本分成若干个预定义的类别的过程,常用于垃圾邮件过滤、情感分析、主题分类等应用场景。

而朴素贝叶斯算法是一种常用的文本分类算法。

该算法基于贝叶斯定理和特征条件独立假设,能够通过统计分析训练数据集中的特征和类别之间的关系,从而进行分类。

朴素贝叶斯算法在新闻分类、情感分析等领域都有广泛的应用,可以帮助企业快速准确地判断用户对某一产品或事件的态度。

3. 实体识别与命名实体识别算法实体识别是从文本中自动识别出具有特定意义的词语,例如人名、地名、机构名等。

命名实体识别算法是一种常见的实体识别方法,它通过构建规则和模型,识别出文本中的命名实体,并进行分类,如人名、地名、组织名等。

实体识别和命名实体识别广泛应用于信息抽取、搜索引擎、智能问答系统等领域。

在R语言中实现文本挖掘的技巧和工具

在R语言中实现文本挖掘的技巧和工具R语言的灵活性和强大的数据分析能力让它成为文本挖掘的一流工具。

文本挖掘是从大量文本数据中提取有价值的信息和知识的过程,它在商业、科学、政治和许多其他领域中扮演着重要的角色。

这篇文章将探讨R语言中实现文本挖掘的技巧和工具。

1. 文本预处理的技巧文本挖掘的第一步是将原始文本预处理为可以分析的格式。

以下是一些常用的技巧:1.1 文本清洗文本清洗是指去除文本中的无用信息和干扰因素,例如标点符号、停用词、数字、HTML标签等。

在R语言中,可以使用tm包和stringr包来进行文本清洗。

tm包提供了一整套文本处理工具,包括读取文本、过滤文本、转换文本格式等功能。

范例代码:library(tm)# 读取文本docs <- Corpus(DirSource("path/to/folder"))# 移除标点符号docs <- tm_map(docs, removePunctuation)# 移除数字docs <- tm_map(docs, removeNumbers)# 移除HTML标签docs <- tm_map(docs, removeHTMLTags)1.2 文本分词分词是将文本划分为一组单词或术语的过程。

在R语言中,可以使用tokenizers包和NLP包来进行文本分词。

tokenizers包提供了一系列不同的分词函数,包括基于正则表达式、空格和标点符号的分词。

范例代码:library(tokenizers)# 基于正则表达式分词tokens <- tokenize_regex("This is a sentence.")# 基于空格分词tokens <- tokenize_whitespace("This is a sentence.")# 基于标点符号分词tokens <- tokenize_character("This is a sentence.")1.3 文本标准化文本标准化是将文本中的单词转换为一致的格式,例如转换为小写字母、去除词干和词缀等。

数据挖掘中的文本分析方法(九)

数据挖掘中的文本分析方法一、引言随着互联网的普及,人们在网络上产生的文本数据量不断增大。

这些文本数据蕴含着丰富的信息,但是要从中获取有用的信息并不容易。

数据挖掘中的文本分析方法就是为了解决这一问题而产生的。

本文将介绍数据挖掘中的文本分析方法,包括文本预处理、特征提取、模型建立等方面的内容。

二、文本预处理在进行文本分析之前,首先需要对文本数据进行预处理。

文本预处理包括去除停用词、词干提取、词袋模型等步骤。

其中,停用词是指在文本中频繁出现但并不包含有用信息的词语,如“的”、“了”等。

去除停用词可以减少文本数据的噪音,提高分析效果。

词干提取是将词语的词干提取出来,如“running”和“runner”都可以提取为“run”。

这样可以减少特征的数量,提高模型的训练速度。

词袋模型是将文本表示为一个词频向量,可以很好地反映文本的特征。

三、特征提取在进行文本分析时,需要将文本数据表示为计算机可以处理的特征。

特征提取是将文本数据转换为特征向量的过程。

常用的特征提取方法包括词袋模型、TF-IDF和词嵌入等。

词袋模型将文本表示为一个词频向量,可以很好地反映文本的特征。

TF-IDF是一种统计方法,用于评估一词语对于一个文件集或一个语料库的重要程度。

词嵌入是一种将词语映射到一个低维向量空间的方法,可以很好地反映词语之间的语义关系。

四、模型建立在进行文本分析时,需要建立合适的模型来进行数据挖掘。

常用的文本分析模型包括朴素贝叶斯、支持向量机、神经网络等。

朴素贝叶斯是一种基于贝叶斯定理和特征条件独立假设的分类方法,适用于文本分类等任务。

支持向量机是一种二分类模型,可以通过核函数将数据映射到高维空间,从而解决线性不可分的问题。

神经网络是一种模拟人脑神经元网络的模型,可以学习复杂的非线性关系。

五、应用案例数据挖掘中的文本分析方法在许多领域都有广泛的应用。

比如在情感分析中,可以通过文本分析方法来识别用户评论的情感极性,从而帮助企业了解用户的喜好和需求。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

用定性数据分析包RQDA tm进行文本挖掘Written by Benson Ye (bensonye@)Revised by Ronggui Huang (ronggui.huang@)First reversion 2010-07-22Last revision 2010-08-03在对访谈内容或剧本、小说部分内容进行文本挖掘时,如果用不断的剪粘保存的方法非常繁琐而且容易漏掉一些内容。

好在黄荣贵开发的RQDA包可以进行文档管理和内容编码及提取,大大方便了利用tm包进行文本挖掘,既提高了效率又提高了准确性,下面举一个小例子:对(人民网>> 时政>> 时政专题>> 网友进言)中的公安部回应进行分析相关链接:/GB/8198/138817/index.html1、安装RQDA包、tm包和中文分词软件;> install.packages(c("rJava","tm", "gsubfn"))> install.packages(c("RQDA","RQDAtm"),repos="",type='source')2、装载RQDA包并建立一个新的工程项目;> library(RQDAtm)3、输入相关文本文件;4、进行编码和作标记;5、双击想要提取的编码即可提取相关文本;6、运行下面下载的程序进行文本提取、转换、分词、文本挖掘工作。

(以上步骤的结果为RQDA2tm_example.rqda),可直接打开该文件继续如下步骤。

> gg <- RQDA2tm("公安部回应" )> summary(gg)A corpus with 26 text documentsThe metadata consists of 2 tag-value pairs and a data frameAvailable tags are:create_date creatorAvailable variables in the data frame are:MetaID cid fid selfirst selend fname> inspect(gg)-----------------------------------------------> ## 去掉多余空格####> reuters <- tm_map(gg, stripWhitespace)> reuters[[3]]公安部规定,县级公安机关交通管理部门车辆管理所可以办理本行政辖区内初次申领和增加准驾车型为低速载货汽车、三轮汽车、普通三轮摩托车、普通二轮摩托车、轻便摩托车的机动车驾驶证业务,具体业务范围和办理条件由省级公安机关交通管理部门确定。

目前,全国仅有个别县级车辆管理所受条件限制无法开展增加准驾车型为摩托车的考试业务。

------------------------------------------------> ## 全文搜索##> searchFullText(gg[[1]], "是临[时]?改")[1] FALSE-------------------------------------------------> ### 查找以某字开头、结尾等的词条###> stemCompletion(gg, c("机", "交", "证"))机"机动车驾驶证申领和使用规定"交"交通管理服务群众十项措施"证"证件所有人不应该为自己没有从事的行为承担法律责任"----------------------------------------------------> ### 中文分词###> txt <- prescindMeta(gg,c("ID"))> re <- list()> for (i in 1:nrow(txt)) {+ re[[i]]<- CWS(PlainTextDocument(reuters)[[i]],TRUE) ## 包括停用词+ }> ### 生成新的文集###> reuters <- Corpus(VectorSource(re))----------------------------------------------------> ### 元数据管理###> DublinCore(reuters[[2]], "title") <- "建国60周年"> meta(reuters[[2]])Available meta data pairs are:Author :DateTimeStamp: 2010-07-22 01:03:57Description :Heading : 建国60周年ID : 2Language : engOrigin :-------------------------------------------------------> ### 创建词条-文件矩阵> dtm <- DocumentTermMatrix(reuters,control = list(minWordLength=2))##最短词两个字> dtmA document-term matrix (26 documents, 778 terms)Non-/sparse entries: 1521/18707Sparsity : 92%Maximal term length: 7Weighting : term frequency (tf)> inspect(dtm[1:2, 3:6]) ## 结果有一定随机性A document-term matrix (2 documents, 4 terms)Non-/sparse entries: 3/5Sparsity : 62%Maximal term length: 5Weighting : term frequency (tf)TermsDocs 0.016 10 102 1051 0 1 1 02 0 2 0 0----------------------------------------------------------------------> ## 操作词条-文件矩阵##> ## 1、找出最少出现过10次的词条##> findFreqTerms(dtm, 10)[1] "汽车" "驾驶" "部门" "居民" "身份证" "使用" "安全" "检验"[9] "公民"----------------------------------------------------------------> # 2、找出与"应该"相关度到少达0.9的词条###> findAssocs(dtm, "应该", 0.9)保密必须便捷表面参考常识承担读取负有复印复印件1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00公众过程核对核实经营快速留存切实权益确认确实1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00十分实践司法同一性外观伪造文字无误行为人行业一致1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00义务意识应该有损责任真伪职能只能作用法律社会1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 0.97 0.97证件事务相应从事使用相关0.96 0.95 0.95 0.94 0.92 0.91> ### 去掉较少词频(保留80%以上)的词条后####> inspect(removeSparseTerms(dtm, 0.8))> ## 结果省略----------------------------------------------------------------> ### 词典### 它通常用来表示文本挖掘有关词条> (d <- Dictionary(c("车辆", "驾驶证")))[1] "车辆" "驾驶证"attr(,"class")[1] "Dictionary" "character"> inspect(DocumentTermMatrix(reuters, list(dictionary = d))) A document-term matrix (26 documents, 1 terms)Non-/sparse entries: 7/19Sparsity : 73%Maximal term length: 3Weighting : term frequency (tf)TermsDocs 驾驶证1 02 03 14 05 46 67 48 09 010 311 012 113 014 015 016 417 018 019 020 021 022 023 024 025 026 0----------------------------------------------------------------> ## 根据词条频率对文件进行聚类分析##> gg <- RQDA2tm("公安部回应" ,byFile = TRUE)> reuters <- tm_map(gg, stripWhitespace)> txt <- prescindMeta(gg,c("ID"))> re <- list()> for (i in 1:nrow(txt)) {+ re[[i]]<- CWS(PlainTextDocument(reuters)[[i]],TRUE)+ }> reuters <- Corpus(VectorSource(re))> dtm <- DocumentTermMatrix(reuters,control = list(minWordLength=2))> reHClust <- hclust(dist(dtm), method = "ward")> plot(reHClust,main ="文件聚类分析")> ## 图形省略> head(txt)MetaID fname fid ID1 0 公安部答复本网网友关于轻微交通违法处罚等4问题 1 12 0 公安部答复本网网友关于驾龄计算、异地购车上牌、老人驾车等8问题 2 23 0 公安部答复本网网友关于如何转回农业户口等3问题 3 34 0 公安部回复本网网友关于驾驶证年检被注销等3问题 4 45 0 公安部回复人民网网友关于异地缴交通罚款等4问题 5 56 0 公安部回复人民网网友关于身份证重号错号等4问题 6 6> ## 对词条进行分类###> kmeans(dtm, 3)##结果省略下面是按照以上方法对文档对不同编码进行聚类分析所绘树图:这是用编码“网友”提取相关文档进行分类的结果。

相关文档
最新文档