中文文本挖掘预处理流程总结
中文文本挖掘的流程与工具分析

中文文本挖掘的流程与工具分析随着互联网的飞速发展和数据量的爆炸式增长,文本信息已经成为了人们获取知识和信息的主要渠道之一。
由于文本信息的海量和复杂性,要从中获取有用的信息并进行有效的分析和利用已成为一项非常具有挑战性的工作。
文本挖掘技术的出现,为处理大规模文本信息提供了新的途径。
本文将对中文文本挖掘的流程和相关工具进行分析。
一、中文文本挖掘的流程1. 数据预处理文本挖掘的第一步是数据预处理,这一步是整个文本挖掘过程中最为关键的一步。
数据预处理的主要任务包括文本清洗、分词和去除停用词。
在中文文本挖掘中,由于中文的特殊性,分词是非常重要的一环。
中文的分词技术非常成熟,有很多开源的分词工具可供选择,比如结巴分词、HanLP等。
2. 文本特征提取提取文本特征是文本挖掘的核心环节,通过提取文本的关键特征来表征文本的特性。
中文文本的特征提取可以采用词袋模型、TF-IDF模型等方法。
除了传统的特征提取方法,近年来,深度学习技术在文本特征提取方面取得了很大的突破,比如Word2Vec、BERT等模型。
3. 文本分类与聚类文本分类是文本挖掘的一个重要应用,其目的是根据文本的内容对文本进行分类。
而文本聚类则是将文本根据内容相似度进行分组。
中文文本挖掘中可采用传统的机器学习算法,比如朴素贝叶斯、支持向量机等,也可以采用深度学习算法,比如卷积神经网络、循环神经网络等。
4. 关键词提取与信息抽取在文本挖掘过程中,提取文本中的关键词是一个非常重要的任务。
关键词可以帮助我们了解文本的主题和重点。
中文文本的关键词提取可以采用TF-IDF算法、TextRank算法等。
信息抽取是指从文本中抽取出有实际意义的信息,比如人名、地名、时间等。
在中文文本挖掘中,可以使用命名实体识别技术来进行信息抽取。
5. 主题模型主题模型是文本挖掘的一项重要任务,它可以帮助我们了解文本的主题和内容结构。
在中文文本挖掘中,可以采用Latent Dirichlet Allocation(LDA)模型等方法进行主题模型的建模。
使用自然语言处理进行中文文本挖掘的步骤

使用自然语言处理进行中文文本挖掘的步骤在当今信息爆炸的时代,海量的中文文本数据储备给我们带来了巨大的挑战和机遇。
为了从这些文本数据中获取有价值的信息,自然语言处理(NLP)技术成为了必不可少的工具。
本文将介绍使用自然语言处理进行中文文本挖掘的步骤,帮助读者更好地了解这一过程。
第一步:数据预处理在进行中文文本挖掘之前,数据预处理是必不可少的一步。
首先,我们需要将原始文本数据转换成计算机可以处理的格式。
这一步通常包括去除文本中的特殊字符、标点符号和停用词等。
同时,还需要进行分词处理,将文本切分成一个个独立的词语。
中文的分词相对于英文来说更加复杂,需要借助于中文分词工具,如jieba分词等。
第二步:文本特征提取文本特征提取是中文文本挖掘的关键步骤之一。
通过将文本转换成数值特征,我们可以利用机器学习和统计方法对文本进行分析和建模。
常用的文本特征提取方法包括词袋模型(Bag of Words)和词向量(Word Embedding)。
词袋模型将文本表示为一个词语的集合,忽略了词语之间的顺序和语义信息。
而词向量则可以更好地捕捉词语之间的语义关系,如Word2Vec和GloVe等。
第三步:文本分类与聚类文本分类和聚类是中文文本挖掘的重要任务之一。
文本分类用于将文本分到不同的预定义类别中,而文本聚类则是将文本分成不同的群组,不需要预先定义类别。
常用的文本分类算法包括朴素贝叶斯、支持向量机和深度学习等。
而文本聚类算法则包括K-means、层次聚类和DBSCAN等。
通过这些算法,我们可以对大规模的中文文本数据进行自动分类和聚类,发现其中的规律和隐藏信息。
第四步:情感分析情感分析是中文文本挖掘的一个重要应用领域。
通过对文本中的情感进行分析,我们可以了解人们对于某个主题或事件的情感倾向。
情感分析常用的方法包括基于规则的方法和基于机器学习的方法。
基于规则的方法通过构建情感词典和规则来判断文本的情感倾向,而基于机器学习的方法则通过训练一个情感分类器来自动判断文本的情感。
文本挖掘流程

文本挖掘流程1. 数据收集在进行文本挖掘之前,首先需要收集大量的文本数据。
这些数据可以来自于互联网、社交媒体、新闻报道、论文文献等各种渠道。
收集到的数据可以是以文本形式存在的文章、评论、推文等。
2. 数据预处理在进行文本挖掘之前,需要对收集到的文本数据进行预处理。
预处理的目的是将原始数据转化为计算机可以处理的形式。
预处理的步骤包括去除噪声数据、去除停用词、进行词干化或词形还原等操作。
3. 特征提取特征提取是文本挖掘的关键步骤之一。
在这一步骤中,需要将文本数据转化为计算机可以理解的特征向量。
常用的特征提取方法包括词袋模型和TF-IDF方法。
词袋模型将文本表示为一个向量,向量的每个维度对应一个词,向量的值表示该词在文本中出现的次数。
TF-IDF方法则将文本表示为一个向量,向量的每个维度对应一个词,向量的值表示该词在文本中的重要程度。
4. 数据建模在进行数据建模之前,需要对数据进行训练集和测试集的划分。
训练集用于训练模型,测试集用于评估模型的性能。
常用的文本挖掘模型包括朴素贝叶斯分类器、支持向量机、神经网络等。
5. 模型评估在进行模型评估时,常用的指标包括准确率、召回率、F1值等。
准确率表示模型预测的结果与实际结果一致的比例;召回率表示模型能够正确预测的结果占所有实际结果的比例;F1值是准确率和召回率的调和平均值。
6. 结果解释在对模型的结果进行解释时,需要考虑模型的可解释性。
可以通过查看模型的特征权重、特征重要性等指标来解释模型的结果。
此外,还可以使用可视化工具来展示模型的结果,比如词云图、关系图等。
7. 结果应用文本挖掘的结果可以应用于各种领域。
在商业领域,可以利用文本挖掘的结果进行市场调研、舆情分析、用户画像等;在医疗领域,可以利用文本挖掘的结果进行疾病预测、药物副作用监测等;在社交媒体领域,可以利用文本挖掘的结果进行用户情感分析、话题发现等。
8. 持续改进文本挖掘是一个动态的过程,需要不断地进行改进和优化。
文本挖掘 文本整理

文本挖掘文本整理
以下是文本挖掘的一般流程:
1. 数据收集:首先需要收集要分析的文本数据。
这些数据可以来自各种来源,如社交媒体、新闻文章、电子邮件、网页等。
2. 数据预处理:在进行文本挖掘之前,需要对文本数据进行预处理。
这包括清理和过滤数据,去除噪声和无效信息,将文本转换为可处理的格式(如向量或矩阵)等。
3. 特征提取:从文本数据中提取有意义的特征。
这些特征可以是词袋、TF-IDF 向量、情感分析得分等。
特征提取的目的是将文本表示为计算机可以理解和处理的形式。
4. 模型训练:使用提取的特征训练文本挖掘模型。
这可以是分类器、聚类算法、回归模型等。
模型训练的目的是根据文本特征预测或分类文本。
5. 模型评估:评估训练好的模型的性能。
这可以通过使用保留的测试数据集来计算准确性、召回率、F1 分数等指标。
6. 结果分析:对模型的结果进行分析和解释。
这可以包括了解文本数据中的模式、趋势、关系等,并将其用于决策支持。
7. 部署和监控:将训练好的模型部署到生产环境中,并持续监控其性能。
这可以帮助我们确保模型在实际应用中保持准确和有效。
文本挖掘可以应用于各种领域,如自然语言处理、信息检索、情感分析、舆情监测、客户关系管理等。
它可以帮助企业和组织更好地理解和利用文本数据,从而提高决策的准确性和效率。
需要注意的是,文本挖掘是一个复杂的领域,需要结合统计学、计算机科学和语言学等多学科的知识。
在进行文本挖掘时,需要选择合适的工具和技术,并根据具体问题和数据特点进行适当的调整和优化。
文本挖掘法流程

文本挖掘法流程一、什么是文本挖掘法。
文本挖掘法呀,就像是在一个超级大的文字宝藏里找宝贝呢。
它是一种从大量文本数据中发现有用信息的技术。
你可以把它想象成一个超级聪明的小助手,能够在无数的文字当中,挖掘出那些隐藏着的、有价值的东西。
比如说,从好多好多的新闻报道里找到大家最关心的话题,或者从一大摞的顾客评价里找出产品到底哪里好、哪里不好。
二、文本收集。
这是文本挖掘法的第一步哦。
这就好比我们要做饭,得先把食材准备好一样。
那文本收集呢,就是把各种各样的文字资料都找过来。
这些资料来源可多啦,像网页上的文章、社交媒体上大家发的帖子、公司内部的文件之类的。
不过呢,在收集的时候也得有点小讲究。
不能啥都一股脑儿地往回拿,得根据我们想要挖掘的目标来选择。
比如说,如果我们想知道年轻人对某个新出的手机的看法,那就主要去收集那些年轻人爱去的社交平台上的相关文字内容,像微博呀、小红书之类的。
而且,这个收集的过程有时候可能会有点繁琐,就像在大海里捞针一样,但是只要我们耐心点,总能把需要的文本都找齐的。
三、文本预处理。
文本收集好了,可不能就直接开始挖掘啦,还得给它们做个“小美容”呢,这就是文本预处理。
这一步可重要啦。
因为我们收集来的文本可能是乱糟糟的,有好多的杂质。
比如说,里面可能有好多标点符号用得乱七八糟的,还有一些拼写错误,或者是一些没有意义的助词之类的。
那我们在文本预处理的时候呢,就要把这些东西都清理掉。
就像给小脸蛋儿擦干净一样,让文本变得整整齐齐、干干净净的。
另外,我们还可能要把所有的文字都转化成一种格式,比如说都变成小写字母,这样在后面挖掘的时候就会方便很多。
还有一个很重要的事情就是词干提取,比如说“跑着”“跑步”,我们把它们都处理成“跑”这个词干,这样能让我们后面的分析更加简单有效呢。
四、特征提取。
经过了文本预处理之后呀,就来到了特征提取这一步。
这就像是在整理好的食材里挑出最精华的部分用来做菜。
在文本挖掘里呢,特征提取就是要找出那些能够代表文本内容的关键元素。
文本挖掘的步骤

文本挖掘的步骤随着互联网的发展,数据量呈现爆炸式增长,如何从海量的数据中提取有价值的信息成为了一个重要的问题。
文本挖掘作为一种数据挖掘技术,可以从文本数据中提取出有用的信息,为企业决策和科学研究提供支持。
本文将介绍文本挖掘的步骤。
一、数据收集文本挖掘的第一步是数据收集。
数据可以来自于各种渠道,如互联网、社交媒体、新闻报道、论文等。
在数据收集过程中,需要注意数据的质量和可靠性,避免收集到噪声数据和虚假信息。
二、数据预处理数据预处理是文本挖掘的重要步骤,它包括文本清洗、分词、去停用词、词干提取等操作。
文本清洗是指去除文本中的噪声数据和无用信息,如HTML标签、特殊符号、数字等。
分词是将文本按照一定的规则划分成词语的过程,可以采用基于规则的分词方法或基于统计的分词方法。
去停用词是指去除一些常用词语,如“的”、“是”、“在”等,这些词语对文本分析没有太大的帮助。
词干提取是将词语还原为其原始形式的过程,如将“running”还原为“run”。
三、特征提取特征提取是将文本转换为数值型向量的过程,以便于计算机进行处理。
常用的特征提取方法包括词袋模型、TF-IDF模型、主题模型等。
词袋模型是将文本表示为一个词语的集合,每个词语作为一个特征。
TF-IDF模型是在词袋模型的基础上,对每个词语进行加权,以反映其在文本中的重要性。
主题模型是将文本表示为一组主题的分布,每个主题包含一组相关的词语。
四、建模分析建模分析是文本挖掘的核心步骤,它包括分类、聚类、关联规则挖掘等操作。
分类是将文本分为不同的类别,如将新闻分类为政治、经济、文化等。
聚类是将文本按照相似性进行分组,如将新闻按照主题进行聚类。
关联规则挖掘是发现文本中的关联规律,如发现购买了A商品的人也会购买B商品。
五、模型评估模型评估是对建模分析结果进行评估和优化的过程。
常用的评估指标包括准确率、召回率、F1值等。
准确率是指分类器正确分类的样本数占总样本数的比例。
召回率是指分类器正确分类的正样本数占所有正样本数的比例。
文本挖掘技术的使用技巧

文本挖掘技术的使用技巧文本挖掘技术是一种利用自然语言处理、机器学习和统计学等方法,对大规模文本数据进行分析和提取有用信息的技术。
在信息爆炸的时代,文本数据成为各行各业的关键资源,文本挖掘技术的使用技巧对于有效利用这些文本数据具有重要意义。
以下将介绍一些常见的文本挖掘技术使用技巧:1. 文本预处理文本挖掘的第一步是文本预处理,即对原始文本进行清洗和整理,以便后续的分析。
这一步骤包括去除文本中的噪声数据,比如HTML标签、特殊字符等;去除停用词,如“的”,“是”等无意义的词语;进行词干化或词形还原,将单词转化为原始词根形式,以减少词语的变化形式对结果的干扰。
2. 关键词提取关键词提取是文本挖掘的一项重要任务,其目的是从文本中提取出代表性和信息量较大的词语。
常用的关键词提取方法包括基于统计的TF-IDF方法和基于机器学习的文本分类方法。
TF-IDF方法通过计算词语在文本中的频率和在整个语料库中的频率,来衡量词语在文本中的重要性。
文本分类方法则通过训练一个分类模型,从文本中自动提取出关键词。
3. 文本分类文本分类是文本挖掘的一项核心任务,其目的是将文本按照预先定义的类别进行分类。
常见的文本分类算法包括朴素贝叶斯分类器、支持向量机和深度学习方法等。
在进行文本分类之前,需要对文本进行特征提取,常见的特征提取方法包括词袋模型和词嵌入模型等。
文本分类在各个领域都有广泛的应用,比如舆情分析、垃圾邮件过滤等。
4. 情感分析情感分析是文本挖掘的一项重要任务,其目的是从文本中提取出文本作者的情感倾向,如积极、中立或消极。
情感分析可以应用于舆情监测、产品评论分析等方面。
常见的情感分析方法包括基于词典和基于机器学习的方法。
基于词典的方法通过构建情感词典,统计文本中出现的情感词的个数来判断情感倾向。
基于机器学习的方法则通过训练一个情感分类器,自动从文本中提取情感信息。
5. 实体命名识别实体命名识别是文本挖掘的一项重要任务,其目的是从文本中识别出人名、地名、组织机构名等命名实体。
文本挖掘实践经验总结

文本挖掘实践经验总结近年来,随着大数据时代的到来,文本挖掘技术逐渐成为各行各业重要的工具。
文本挖掘作为从大规模文本数据中提取有用信息的技术手段,可以帮助我们发现隐藏在海量文本中的规律和模式,进而为业务决策提供有效支持。
在实践中,我积累了一些文本挖掘的实践经验,通过本文,我将对这些经验进行总结和分享。
首先,文本预处理是文本挖掘的重要步骤之一。
在处理文本数据之前,我们需要对其进行清洗和规范化,以消除数据中的噪声和无用信息,并提高模型的性能。
常用的文本预处理技术包括去除停用词、分词、词干提取、去除特殊字符等。
其中,去除停用词是一种常见的操作,可以过滤掉频率高但无实际含义的词语,例如“的”、“和”等。
另外,分词可以将句子切分为一个个独立的词语,便于后续的特征提取和分析。
其次,特征工程是文本挖掘中的核心环节。
通过合理选择和构造特征,可以更好地反映文本的语义和结构特点,提升模型的表达能力。
在文本挖掘中,常用的特征表示方法有词袋模型(Bag of Words)、词向量(Word Embedding)等。
其中,词袋模型将文本表示为一个由词频或词出现次数构成的向量,适用于浅层次的文本分析任务;而词向量则能够将词语映射为连续的向量空间,更能捕捉到词语之间的语义相似性。
此外,还可以考虑添加一些其他统计特征或上下文特征,以提高特征的多样性和表达能力。
然后,模型选择和调参是提高文本挖掘效果的关键。
在选择模型时,需结合具体任务和数据特点,综合考虑模型的性能、可解释性和运行效率等因素。
常见的文本挖掘模型包括朴素贝叶斯(Naive Bayes)、支持向量机(Support Vector Machine)、决策树(Decision Tree)等。
在模型调参过程中,可以通过交叉验证等方法选择最优的参数组合,避免模型过拟合或欠拟合的问题。
此外,领域知识的应用也是提升文本挖掘效果的一种重要手段。
不同领域的文本数据具有独特的语义、结构和特点,因此在进行文本挖掘时,了解和应用领域知识可以更好地理解和分析数据,提高模型的准确性和泛化能力。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中文文本挖掘预处理流程总结2017-09-22 12:14 编程派 0 0 阅读 15作者:刘建平来源:/pinard/p/6744056.html在对文本做数据分析时,我们一大半的时间都会花在文本预处理上,而中文和英文的预处理流程稍有不同,本文就对中文文本挖掘的预处理流程做一个总结。
1. 中文文本挖掘预处理特点首先我们看看中文文本挖掘预处理和英文文本挖掘预处理相比的一些特殊点。
首先,中文文本是没有像英文的单词空格那样隔开的,因此不能直接像英文一样可以直接用最简单的空格和标点符号完成分词。
所以一般我们需要用分词算法来完成分词,在文本挖掘的分词原理中,我们已经讲到了中文的分词原理,这里就不多说。
第二,中文的编码不是utf8,而是unicode。
这样会导致在分词的时候,和英文相比,我们要处理编码的问题。
这两点构成了中文分词相比英文分词的一些不同点,后面我们也会重点讲述这部分的处理。
当然,英文分词也有自己的烦恼,这个我们在以后再讲。
了解了中文预处理的一些特点后,我们就言归正传,通过实践总结下中文文本挖掘预处理流程。
2. 中文文本挖掘预处理一:数据收集在文本挖掘之前,我们需要得到文本数据,文本数据的获取方法一般有两种:使用别人做好的语料库和自己用爬虫去在网上去爬自己的语料数据。
对于第一种方法,常用的文本语料库在网上有很多,如果大家只是学习,则可以直接下载下来使用,但如果是某些特殊主题的语料库,比如"机器学习"相关的语料库,则这种方法行不通,需要我们自己用第对于第二种使用爬虫的方法,开源工具有很多,通用的爬虫我一般使用beautifulsoup。
但是我们我们需要某些特殊的语料数据,比如上面提到的"机器学习"相关的语料库,则需要用主题爬虫(也叫聚焦爬虫)来完成。
这个我一般使用ache。
ache允许我们用关键字或者一个分类算法来过滤出我们需要的主题语料,比较强大。
3. 中文文本挖掘预处理二:除去数据中非文本部分这一步主要是针对我们用爬虫收集的语料数据,由于爬下来的内容中有很多html的一些标签,需要去掉。
少量的非文本内容的可以直接用Python的正则表达式(re)删除, 复杂的则可以用beautifulsoup来去除。
去除掉这些非文本的内容后,我们就可以进行真正的文本预处理了。
4. 中文文本挖掘预处理三:处理中文编码问题由于Python2不支持unicode的处理,因此我们使用Python2做中文文本预处理时需要遵循的原则是,存储数据都用utf8,读出来进行中文相关处理时,使用GBK之类的中文编码,在下面一节的分词时,我们再用例子说明这个问题。
5. 中文文本挖掘预处理四:中文分词常用的中文分词软件有很多,个人比较推荐结巴分词。
安装也很简单,比如基于Python的,用"pip install jieba"就可以完成。
下面我们就用例子来看看如何中文分词。
首先我们准备了两段文本,这两段文本在两个文件中。
两段文本的内容分别是nlp test0.txt和nlp test2.txt:1. 沙瑞金赞叹易学习的胸怀,是金山的百姓有福,可是这件事对李达康的触动很大。
易学习又回忆起他们三人分开的前一晚,大家一起喝酒话别,易学习被降职到道口县当县长,王大路下海经商,李达康连连赔礼道歉,觉得对不起大家,他最对不起的是王大路,就和易学习一起给王大路凑了5万块钱,王大路自己东挪西撮了5万块,开始下海经商。
没想到后来王大路竟然做得风生水起。
沙瑞金觉得他们三人,在困难时期还能以沫相助,很不容易。
沙瑞金向毛娅打听他们家在京州的别墅,毛娅笑着说,王大路事业有成之后,要给欧阳菁和她公司的股权,她们没有要,王大路就在京州帝豪园买了三套别墅,可是李达康和易学习都不要,这些房子都在王大路的名下,欧阳菁好像去住过,毛娅不想去,她觉得房子太大很浪费,自己家住得就很踏实。
我们先讲文本从第一个文件中读取,并使用中文GBK编码,再调用结巴分词,最后把分词结果用uft8格式存在另一个文本nlp_test1.txt中。
代码如下:1. # ‐*‐ coding: utf‐8 ‐*‐2.3. import jieba4.5. with open('./nlp_test0.txt') as f:6. document = f.read()7.8. document_decode = document.decode('GBK')9. document_cut = jieba.cut(document_decode)10. #print ' '.join(jieba_cut) //如果打印结果,则分词效果消失,后面的result无法显示11. result = ' '.join(document_cut)13. with open('./nlp_test1.txt', 'w') as f2:14. f2.write(result)15. f.close()16. f2.close()输出的文本内容如下:1. 沙 瑞金 赞叹 易 学习 的 胸怀 , 是 金山 的 百姓 有福 , 可是 这件 事对 李达康 的 触动 很大 。
易 学习 又 回忆起 他们 三人 分开 的 前一晚 , 大家 一起 喝酒 话别 , 易 学习 被 降职 到 道口 县当 县长 , 王 大路 下海经商 , 李达康 连连 赔礼道歉 , 觉得 对不起 大家 , 他 最 对不起 的 是 王 大路 , 就 和 易 学习 一起 给 王 大路 凑 了 5 万块 钱 , 王 大路 自己 东挪西撮 了 5 万块 , 开始 下海经商 。
没想到 后来 王 大路 竟然 做 得 风生水 起 。
沙 瑞金 觉得 他们 三人 , 在 困难 时期 还 能 以沫 相助 , 很 不 容易 。
可以发现对于一些人名和地名,jieba处理的不好,不过我们可以帮jieba加入词汇如下:1. jieba.suggest_freq('沙瑞金', True)2. jieba.suggest_freq('易学习', True)3. jieba.suggest_freq('王大路', True)4. jieba.suggest_freq('京州', True)现在我们再来进行读文件,编码,分词,编码和写文件,代码如下:1. with open('./nlp_test0.txt') as f:2. document = f.read()3.4. document_decode = document.decode('GBK')5. document_cut = jieba.cut(document_decode)6. #print ' '.join(jieba_cut)7. result = ' '.join(document_cut)8. result = result.encode('utf‐8')9. with open('./nlp_test1.txt', 'w') as f2:10. f2.write(result)11. f.close()12. f2.close()输出的文本内容如下:1. 沙瑞金 赞叹 易学习 的 胸怀 , 是 金山 的 百姓 有福 , 可是 这件 事对 李达康 的 触动 很大 。
易学习 又 回忆起 他们 三人 分开的 前一晚 , 大家 一起 喝酒 话别 , 易学习 被 降职 到 道口 县当 县长 , 王大路 下海经商 , 李达康 连连 赔礼道歉 , 觉得 对不起 大家 , 他 最 对不起 的 是 王大路 , 就 和 易学习 一起 给 王大路 凑 了 5 万块 钱 , 王大路 自己 东挪西撮 了 5 万块 , 开始 下海经商 。
没想到 后来 王大路 竟然 做 得 风生水 起 。
沙瑞金 觉得 他们 三人 , 在 困难 时期 还 能 以沫 相助 , 很 不 容易 。
基本已经可以满足要求。
同样的方法我们对第二段文本nlp test2.txt进行分词和写入文件nlp test3.txt。
1. with open('./nlp_test2.txt') as f:2. document2 = f.read()3.4. document2_decode = document2.decode('GBK')5. document2_cut = jieba.cut(document2_decode)6. #print ' '.join(jieba_cut)7. result = ' '.join(document2_cut)8. result = result.encode('utf‐8')9. with open('./nlp_test3.txt', 'w') as f2:10. f2.write(result)11. f.close()12. f2.close()输出的文本内容如下:1. 沙瑞金 向 毛娅 打听 他们 家 在 京州 的 别墅 , 毛娅 笑 着 说 , 王大路 事业有成 之后 , 要 给 欧阳 菁 和 她 公司 的 股权 ,她们 没有 要 , 王大路 就 在 京州 帝豪园 买 了 三套 别墅 , 可是 李达康 和 易学习 都 不要 , 这些 房子 都 在 王大路 的 名下 , 欧阳 菁 好像 去 住 过 , 毛娅 不想 去 , 她 觉得 房子 太大 很 浪费 , 自己 家住 得 就 很 踏实 。
可见分词效果还不错。
6. 中文文本挖掘预处理五:引入停用词在上面我们解析的文本中有很多无效的词,比如"着","和",还有一些标点符号,这些我们不想在文本分析的时候引入,因此需要去掉,这些词就是停用词。
常用的中文停用词表是1208个,下载地址在这。
当然也有其他版本的停用词表,不过这个1208词版是我常用的。
在我们用scikit-learn做特征处理的时候,可以通过参数stop_words来引入一个数组作为停用词表。
现在我们将停用词表从文件读出,并切分成一个数组备用:1. #从文件导入停用词表2. stpwrdpath = "stop_words.txt"3. stpwrd_dic = open(stpwrdpath, 'rb')4. stpwrd_content = stpwrd_dic.read()6. stpwrdlst = stpwrd_content.splitlines()7. stpwrd_dic.close()7. 中文文本挖掘预处理六:特征处理现在我们就可以用scikit-learn来对我们的文本特征进行处理了,在文本挖掘预处理之向量化与Hash Trick中,我们讲到了两种特征处理的方法,向量化与Hash Trick。