北邮数据挖掘作业
数据挖掘作业2

数据挖掘作业21. 引言数据挖掘是一种从大量数据中发现、提取和分析有用信息的过程。
本文旨在探讨数据挖掘作业2的相关内容,包括数据集选择、数据预处理、特征选择和模型建立等。
2. 数据集选择在数据挖掘作业2中,我们选择了一个涉及电子商务的数据集。
该数据集包含了用户的购买记录、产品信息、用户评价等多个维度的数据。
通过对该数据集的挖掘,我们希望能够发现用户的购买偏好、产品的销售趋势等有价值的信息。
3. 数据预处理在进行数据挖掘之前,我们需要对数据进行预处理,以确保数据的质量和可用性。
首先,我们对数据进行清洗,去除缺失值和异常值。
然后,我们对数据进行归一化处理,以消除不同特征之间的量纲差异。
最后,我们对数据进行采样,以减少计算复杂度并保持数据的代表性。
4. 特征选择特征选择是数据挖掘的重要步骤,旨在从原始特征中选择出最具有预测能力的特征。
在数据挖掘作业2中,我们采用了信息增益和相关系数等方法来评估特征的重要性,并选择出了与目标变量相关性较高的特征。
此外,我们还进行了特征的降维处理,以减少特征空间的维度。
5. 模型建立在数据挖掘作业2中,我们选择了决策树算法作为模型建立的方法。
决策树是一种基于树状结构的分类模型,通过对特征进行逐步划分,最终得到一个可以对新样本进行分类的模型。
我们使用了ID3算法来构建决策树模型,并通过交叉验证的方法对模型进行评估和调优。
6. 模型评估为了评估模型的性能,我们采用了准确率、召回率、F1值等指标来衡量模型的分类效果。
此外,我们还使用了混淆矩阵来展示模型的分类结果,并计算了ROC曲线下的面积(AUC)来评估模型的整体性能。
7. 结果分析通过对数据挖掘作业2的实验和分析,我们得到了一些有价值的结论。
首先,我们发现用户对某一类产品的购买意愿与其评价的积极程度呈正相关关系。
其次,我们发现某些产品的销售量与其价格呈负相关关系,即价格越高,销售量越低。
最后,我们通过决策树模型对用户的购买行为进行了预测,并取得了较好的分类效果。
数据挖掘作业2

数据挖掘作业2一、任务背景数据挖掘是一种通过发现和分析大量数据中的模式和关联来提取有用信息的过程。
数据挖掘技术在各个领域中得到广泛应用,例如市场营销、金融风险管理、医疗诊断等。
本次数据挖掘作业2旨在通过使用机器学习算法对给定的数据集进行分析和预测,以解决一个实际问题。
二、任务描述本次数据挖掘作业2的任务是基于一个电信公司的客户数据集,构建一个客户流失预测模型。
客户流失是指客户停止使用某个产品或服务的情况,对于电信公司来说,客户流失可能导致业务下降和收入减少。
因此,通过预测客户流失,电信公司可以采取相应的措施来留住客户,提高客户忠诚度。
三、数据集介绍本次任务使用的数据集包含了一些客户的个人信息、合同信息、付款信息等。
数据集中的每一行代表一个客户的信息,每一列代表一个特征。
数据集中包含了以下特征:1. 客户ID:每个客户的唯一标识符。
2. 性别:客户的性别,可能取值为男或女。
3. 年龄:客户的年龄,以岁为单位。
4. 合作伙伴:客户是否有合作伙伴,可能取值为有或无。
5. 好友:客户是否有好友,可能取值为有或无。
6. 月租费:客户每月支付的费用,以美元为单位。
7. 总消费:客户总共支付的费用,以美元为单位。
8. 在网时间:客户使用该服务的时间,以月为单位。
9. 流失:客户是否已经流失,可能取值为是或否。
四、数据挖掘流程1. 数据预处理:a. 导入数据集:读取数据集,并查看数据的基本信息,如数据类型、缺失值情况等。
b. 数据清洗:处理数据中的缺失值、异常值等问题,确保数据的质量。
c. 特征选择:根据领域知识和特征相关性等方法,选择对预测客户流失有重要影响的特征。
d. 数据转换:对数据进行标准化、归一化等处理,以便于模型的训练和预测。
2. 模型训练:a. 划分数据集:将数据集划分为训练集和测试集,通常采用70%的数据作为训练集,30%的数据作为测试集。
b. 选择模型:根据任务的特点和需求,选择适合的机器学习算法,如逻辑回归、决策树、支持向量机等。
数据挖掘作业2

数据挖掘作业2数据挖掘作业2:文本分类一、引言文本分类是数据挖掘中的一项重要任务,它的目标是将文本按照预定义的类别进行分类。
本文将介绍文本分类的背景和意义,并详细阐述文本分类的标准格式。
二、背景和意义随着互联网的发展,海量的文本数据被广泛应用于各个领域,如情感分析、垃圾邮件过滤、新闻分类等。
而文本分类作为文本数据处理的基础任务,具有重要的实际意义。
通过对文本进行分类,可以帮助人们快速获取所需信息,提高工作效率和决策能力。
三、文本分类的标准格式1. 数据准备在进行文本分类之前,需要准备好标注好类别的文本数据集。
数据集应包含两部分:文本内容和对应的类别标签。
文本内容可以是一段文字、一篇文章或一封邮件等。
类别标签可以是预定义的类别,如“体育”、“科技”、“娱乐”等。
2. 特征提取特征提取是文本分类的关键步骤。
通过将文本转化为可计算的特征向量,可以方便地进行后续的分类操作。
常用的特征提取方法有词袋模型、TF-IDF、词嵌入等。
在选择特征提取方法时,需要考虑文本的语言特点、数据集的规模和分类任务的要求。
3. 数据预处理在进行特征提取之前,需要对原始文本进行预处理。
预处理包括去除停用词、标点符号和数字,进行词干化或词形还原等操作。
预处理的目的是减少噪声和数据维度,提高分类的准确性和效率。
4. 模型选择选择合适的分类模型对文本进行分类。
常用的文本分类模型有朴素贝叶斯、支持向量机、深度学习模型等。
在选择模型时,需要考虑数据集的规模、特征的稀疏性、分类任务的复杂度等因素。
5. 模型训练和评估使用标注好的文本数据集对选择的模型进行训练,并评估模型的性能。
常用的评估指标有准确率、精确率、召回率、F1值等。
通过评估模型的性能,可以选择最优的模型或调整模型的参数,提高分类的准确性和泛化能力。
6. 模型应用将训练好的模型应用于未标注的文本数据进行分类。
通过模型的预测结果,可以对未知文本进行分类,实现自动化的文本分类任务。
四、总结文本分类是一项重要的数据挖掘任务,通过对文本进行分类,可以帮助人们快速获取所需信息。
数据挖掘作业集答案

数据挖掘作业集答案《数据挖掘》作业集答案第一章引言一、填空题(1)数据清理,数据集成,数据选择,数据变换,数据挖掘,模式评估,知识表示(2)算法的效率、可扩展性和并行处理(3)统计学、数据库技术和机器学习(4)WEB挖掘(5)一些与数据的一般行为或模型不一致的孤立数据二、单选题(1)B;(2)D;(3)D;(4)B;(5)A;(6)B;(7)C;(8)E;三、简答题(1)什么是数据挖掘?答:数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。
(2)一个典型的数据挖掘系统应该包括哪些组成部分?答:一个典型的数据挖掘系统应该包括以下部分:数据库、数据仓库或其他信息库数据库或数据仓库服务器知识库数据挖掘引擎模式评估模块图形用户界面(3)请简述不同历史时代数据库技术的演化。
答:1960年代和以前:研究文件系统。
1970年代:出现层次数据库和网状数据库。
1980年代早期:关系数据模型, 关系数据库管理系统(RDBMS)的实现1980年代后期:出现各种高级数据库系统(如:扩展的关系数据库、面向对象数据库等等)以及面向应用的数据库系统(空间数据库,时序数据库,多媒体数据库等等。
1990年代:研究的重点转移到数据挖掘, 数据仓库, 多媒体数据库和网络数据库。
2000年代:人们专注于研究流数据管理和挖掘、基于各种应用的数据挖掘、XML 数据库和整合的信息系统。
(4)请列举数据挖掘应用常见的数据源。
(或者说,我们都在什么样的数据上进行数据挖掘)答:常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。
其中高级数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy)数据库、文本数据库和万维网(WWW)等。
(5)什么是模式兴趣度的客观度量和主观度量?答:客观度量指的是基于所发现模式的结构和关于它们的统计来衡量模式的兴趣度,比如:支持度、置信度等等;主观度量基于用户对数据的判断来衡量模式的兴趣度,比如:出乎意料的、新颖的、可行动的等等。
北京邮电大学张晓航的数据挖掘、商务智能、复杂网络考博导师课件内部资料考试重点

北京邮电大学张晓航的数据挖掘、商务智能、复杂网络考博参考书-考博分数线-专业课真题一、专业的设置北京邮电大学经济管理学院招收博士生31人,下设管理科学与工程专业,分为30个方向,分别是周宏仁的产业组织与管理创新;吕廷杰的信息管理与信息经济学;唐守廉的政府规制、服务科学;彭龙的金融创新、管理研究;曾剑秋的竞争力、企业成长、服务质量提高途径;金永生的市场营销理论与实践;朱高峰的产业政策及管理;吴洪的农村信息化、互联网金融;张彬的信息化测评与管理;苑春荟的产业经济、信息化、电子商务、数据挖掘;孙启明的区域产业协调发展;茶洪旺的产业组织与管理创新;李钢的网络与公共信息管理、虚拟社会管理;赵玲的复杂性科学与管理;陈岩的企业国际化、战略绩效与创新;艾文宝的最优化及其在信息科学及金融数学中的应用;齐佳音的社交网络与客户关系的管理;王长峰的风险预警与应急管理、大型项目集成与控制;闫强的网络用户行为分析、电信运营管理;宁连举的消费者行为学、网络营销、信息化与创新管理;潘煜的神经管理学;杨天剑的电信供应链管理、电信节能;陈慧的人力资源管理;彭惠的风险管理、区域经济政策;杨学成的社会化营销、社会网络分析;赵秀娟的金融市场分析、风险管理、评价理论与方法;何瑛的公司财务与资本市场、管理会计;谢雪梅的信息技术与服务科学、项目管理理论与务实;张晓航的数据挖掘、商务智能、复杂网络;杨毅刚的企业战略管理。
二、考试的科目院所、专业、研究方向指导教师招生人数考试科目备注008经济管理学院31087100管理科学与工程院所、专业、研究方向指导教师招生人数考试科目备注29数据挖掘、商务智能、复杂网络张晓航①1101英语②2201概率论与随机过程③2207数理统计④3305通信网理论基础⑤3315通信经济与管理理论②③选一④⑤选一三、参考书目专业课信息应当包括一下几方面的内容:第一,关于参考书和资料的使用。
这一点考生可以咨询往届的博士学长,也可以和育明考博联系。
数据挖掘作业2

数据挖掘作业2数据挖掘是一种从大量数据中发现实用信息和模式的过程。
数据挖掘作业2旨在让学生运用数据挖掘技术,分析和挖掘给定数据集中的实用信息和模式。
本次数据挖掘作业2的任务是基于一个电子商务网站的用户行为数据集,通过分析和挖掘数据,了解用户的行为模式和购买意向,进而提供有针对性的推荐策略和市场营销方案。
首先,我们需要对数据集进行预处理。
这包括数据清洗、去除重复数据、处理缺失值等。
通过这些步骤,我们可以确保数据的准确性和完整性。
接下来,我们可以进行数据探索和可视化分析。
利用统计学和可视化工具,我们可以对数据集进行探索,了解用户的行为特征和购买习惯。
例如,我们可以通过绘制柱状图或者饼图来展示用户的购买类别偏好,或者使用散点图来展示用户的浏览时间和购买金额之间的关系。
在数据探索的基础上,我们可以应用数据挖掘技术来挖掘隐藏在数据中的模式和规律。
其中,常用的数据挖掘技术包括关联规则挖掘、聚类分析、分类算法等。
通过这些技术,我们可以发现用户之间的关联关系、不同用户群体之间的差异以及用户购买意向的预测等。
例如,我们可以利用关联规则挖掘算法,找出用户购买某一商品时,同时购买其他商品的规律。
这可以匡助电子商务网站进行交叉销售和推荐相关商品。
此外,我们可以利用聚类分析算法,将用户分成不同的群体,进而制定针对性的营销策略。
此外,通过分类算法,我们可以预测用户的购买意向,从而提前采取措施,增加用户的转化率。
最后,我们可以根据数据挖掘的结果,提出相应的推荐策略和市场营销方案。
这些策略和方案应该基于对用户行为的深入理解和数据挖掘的结果。
例如,我们可以通过个性化推荐系统,向用户推荐他们可能感兴趣的商品。
或者,我们可以通过优惠券、促销活动等方式,刺激用户的购买欲望。
综上所述,数据挖掘作业2旨在让学生通过对电子商务网站用户行为数据的分析和挖掘,了解用户的行为模式和购买意向,并提供有针对性的推荐策略和市场营销方案。
通过完成这个任务,学生可以提升数据挖掘和分析的能力,并将其应用于实际问题的解决中。
数据挖掘作业2

数据挖掘作业2一、任务背景与目的数据挖掘作业2旨在通过应用数据挖掘技术,从给定的数据集中发现有价值的信息和模式,以帮助决策者做出准确的决策。
本次作业的任务是基于一个电子商务网站的用户行为数据,分析用户购买行为,并构建一个预测模型,以预测用户是否会购买某个特定的产品。
二、数据集介绍本次作业使用的数据集包含了一段时间内的用户行为数据,包括用户的浏览、加购物车、购买等行为。
数据集中的字段包括用户ID、时间戳、产品ID、行为类型等。
数据集共有100万条记录。
三、数据预处理1. 数据清洗:对数据集进行清洗,去除重复记录、缺失值等异常数据。
2. 特征选择:根据业务需求和特征的相关性,选择合适的特征进行分析和建模。
3. 特征编码:对类别型特征进行编码,如使用独热编码将类别型特征转换为数值型特征。
4. 数据划分:将清洗和编码后的数据集划分为训练集和测试集,一般采用70%的数据作为训练集,30%的数据作为测试集。
四、数据分析与建模1. 数据可视化:通过绘制柱状图、折线图等方式,对用户行为数据进行可视化分析,了解用户行为的分布和趋势。
2. 关联规则挖掘:使用关联规则算法(如Apriori算法)挖掘用户行为之间的关联关系,发现用户购买某个产品的规律。
3. 用户分类:根据用户的购买行为特征,使用聚类算法(如K-means算法)将用户划分为不同的类别,以便更好地理解用户的购买行为。
4. 预测模型构建:选择合适的机器学习算法(如决策树、随机森林等),构建用户购买行为的预测模型。
五、模型评估与优化1. 模型评估:使用准确率、召回率、F1值等指标对构建的预测模型进行评估,选择最优的模型。
2. 模型优化:根据评估结果,对模型进行调参和优化,以提高模型的准确性和泛化能力。
六、结果分析与报告撰写1. 结果分析:对模型预测结果进行分析,比较不同模型的性能差异,找出影响用户购买行为的主要因素。
2. 报告撰写:根据分析结果,撰写数据挖掘作业2的报告,包括任务背景、数据处理方法、模型构建过程、结果分析等内容。
数据挖掘文本分类概要

本学期上了北邮王晓茹老师的数据仓库与数据挖掘课程,实验一便是数据挖掘入门级的实验:文本分类。
第一次自己写代码花了很长时间终于把实验做完了,在这里记录一下。
一,先简单说下实验的工具和环境。
代码环境:Python2.7Python学习建议廖雪峰老师的网站:分词工具:中科院张华平博士的汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)链接:/中文语料库:搜狗中文语料库链接:/labs/dl/c.html文本训练工具和测试工具:台湾大学林智仁(Lin Chih-Jen)等开发设计的lib-svm二,介绍一下实验过程按照老师的要求,最好自己写爬虫代码,爬回20000篇确定分类的文章做实验。
只不过本人代码能力有限,没有自己爬,用的搜狗中文语料库。
不过也看了几篇爬虫的教程,觉得写得挺好的,推荐:/wxg694175346/article/category/1418998好,我们现在开始实验过程,首先搜狗中文语料库是已经分好的类,我们把每一类的文章都一分为二,一类为训练集,一类为测试集。
所谓训练集,既把这部分文章通过处理,提取出能代表这类文章的特征,然后利用这些特征去判断测试集的文章属于哪一类,由于测试集的每一篇文章属于某类是已知的,我们就可以根据真实情况统计分类的正确率和召回率啦。
注:上图来自北邮2013级某学长实验报告,报告人的名字老师没有提供,感谢学长。
有了语料库,接下来就是数据预处理了。
包括:分词,取名词,去停用词,统计词频,计算chi(或者tf-idf)值,整理格式(主要是整理成libsvm接口认可的格式)。
今天先到这里,有时间继续哈。
贴一下学长的流程图:。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
北京邮电大学
2015-2016学年第1学期实验报告
课程名称:数据仓库与数据挖掘
实验名称:文本的分类
实验完成人:
姓名:学号:
日期: 2015 年 12 月
实验一:文本的分类
1.实验目的
1. 了解一些数据挖掘的常用算法,掌握部分算法;
2. 掌握数据预处理的方法,对训练集数据进行预处理;
3. 利用学习的文本分类器,对未知文本进行分类判别;
4. 掌握评价分类器性能的评估方法。
2.实验分工
数据准备、预处理、LDA主题模型特征提取实现、SVM算法都由范树全独立完成。
3.实验环境
●操作系统:win7 64bit 、Ubuntu-14.04-trusty
●开发环境:java IDE eclipse 、Python IDLE
4.主要设计思想
4.1实验工具介绍
1.Scrapy 0.25
所谓网络爬虫,就是一个抓取特定网站网页的HTML数据的程序。
不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,所以,如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了。
一般的方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到爬虫的抓取队列中,然后进入到新页面后再递归的进行上述的操作,其实说来就跟深度遍历或广度遍历一样。
Scrapy是一个基于Twisted,纯Python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。
Scrapy 使用Twisted这个异步网络库来处理网络通讯,架构清晰,并且包含了各种中间件接口,可以灵活的完成各种需求。
2.JGibbLDA-v.1.0
jGibbLDA是java版本的LDA实现,它使用Gibbs采样来进行快速参数估计和推断。
LDA 是一种由基于概率模型的聚类算法。
该算法能够对训练数据中的关键项集之于类簇的概率参数拟合模型,进而利用该参数模型实施聚类和分类等操作。
3.ICTCLAS50
中科院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐码模型的汉语词法分析系统ICTCLAS,该系统有中文分词,词性标注,未登录次识别等功能。
4.libSVM-3.20
libSVM是台湾大学林智仁教授等开发设计的一个简单、易用和快速有效的SVM模式识
别与回归的软件包,他不但提供了编译好的可在windows系列系统的可执行的文件,还提供了源代码,方便改进、修改以及在其他操作系统上应用;该软件对SVM所涉及的参数调节相对比较少,提供了很多默认参数,利用这些默认参数可以解决很多问题;并提供了交互检验的功能。
该软件可以解决C-SMV、v-SVM等问题,包括基于一对一算法的多类模式识别问题。
4.2特征提取与表达方法的设计
实验中特征提取使用的是LDA。
LDA是主题模型的一种。
LDA是目前机器学习,数据挖掘经典且热门的算法。
一篇文章可以由不同的主题组成,在用LDA进行提取文章特征的时候,把每篇文章的主题分布概率当作该文章的特征,从而可以得出文章的特征向量。
文章的主题数量可以人工指定,不同的主题数量最后会得到不同的准确率,实验中要根据实际情况,选择可以达到最大准确率的主题数量。
4.3分类算法的选择
实验中分类算法使用的是SVM。
SVM是一种监督式学习方法,可以广泛的用于统计分类和回归分析。
SVM构造一个超平面,这些平面可能是高纬的,甚至可能是无限维的。
在分类任务中,它的原理是,将超平面放置在这样一个位置,使得两类中接近这个位置的距离都最远。
我们考虑两类线性可分问题,如果要在两类之间画一条线,那么按照SVM原理,我们会找两类之间最大的空白间隔,然后在空白间隔的中点画一条线,这条线平行于空白间隔。
通过核函数,可以使得支持向量机对非线性可分的任务进行分类。
4.4性能评估方法
实验选择的性能评估方法用到了准确率(precision)和召回率(recall)。
具体计算方法如下:
precision = a / b×100%
recall = a / c×100%
其中a表示正确预测类别i的数量,b表示预测结果中预测为类别i的数量,c表示实际为类别i的数量。
比如“汽车”类别一共有1000篇文档,也就是c = 1000,最终的预测结果中有1200篇(对所有类别文档进行预测)为“汽车”,也就是b=1200,而真正属于“汽车”类的有900篇,也就是a=900。
那么“汽车”类的准确率为900/1200×100%=75%,召回率为900/1000×100%=90%
5.实验过程
5.1文本分类语料库的采集
选择腾讯新闻作为爬虫的目标网站。
选取腾讯新闻下的体育、军事、房产、动漫、教育、文化、游戏、科技共八个分类进行文本爬取,设定目标为每个类2000 篇。
5.2数据预处理
将每篇文档通过使用中科院提供的ICTCLAS的jni版本软件包将文档进行中文分词和词性标注。
通过正则表达式将名词提取出来,并且根据停用词表去停用词。
最后写在文件系统中。
按照jGibbLDA的输入格式,每篇文档的经过去停用此处理后的名词占一行。
如下图所
示,每行代表一片文档,最上面的数字代表文档的数量:
5.3特征提取和表达
实验采用了LDA特征提取。
使用了开源包jGibbLDA作为进行特征提取。
jGibbLDA对数据输入格式有一定的要求。
在数据预处理阶段,我们生成的文档格式就是按照jGibbLDA的输入格式进行生成的。
在实验过程中,根据相关资料,分别将主题数设置为50,75, 100,然后进行测试,结果证明当主题数75时候正确率是相对最高的。
实验采用的迭代次数为100。
训练集部分代码如下:
对训练集进行LDA特征提取后,可以得到训练集输出结果,然后根据训练集的输出结果来推测测试集的主题模型。
测试集的部分代码如下:
训练集和测试集的输出结果如下:
为了之后使用libSVM进行分类,分别将训练集和测试集输出结果中的.theta文件转换成libSVM的输入格式。
5.4训练过程
使用libSVM的checkdata.py工具检查训练集和测试集的输入格式是否正确。
如果格式没有错误,则使用svm-scale分别将测试集和训练集归一化到0到1之间。
归一化的目的是为了防止某一特征值太大而主导了结果。
然后使用libSVM的grid.py对训练集进行调参。
最终的到的参数结果为:c=32.0, g=0.0078125, rate=91.79。
使用libSVM的svm-train和得到的参数对训练集进行训练,得到最终模型。
5.5测试过程
使用libSVM的svm-predict对加载训练后的模型,对测试集进行预测。
输出的结果只给出了精确率的结果,我们需要写程序来计算我们需要的准确率和召回率。
5.6实验结果和性能评估
实验结果如下表所示:
类别准确率召回率
体育83.91% 93.9%
军事95.18% 94.8%
动漫92.78% 95.1%
房产95.6% 89%
教育89.95% 90.4%
文化93.83% 94.3%
通过表格可以看出:
平均准确率为92.35%,平均召回率为92.19%。
准确率中最高的是“房产”类,最低的是“体育”类。
召回率中最高的是“游戏”类,最低的是“科技”类。
6.实验总结
首先,通过这次试验对文本数据挖掘的基本思路,基本过程有了一个大致的了解,通过老师的讲解,对试验各个步骤需要注意的细节也都有了基本的认识。
然后,对文本数据挖掘里的数据预处理、特征选择有了清晰的认识,这两个步骤对于数据挖掘而言是至关重要的两个步骤。
如果数据预处理没有做好,就会有大量噪声对模型产生干扰,LDA特征提取过程中的主题数量对于实验结果有很强的影响,要根据实际情况对其进行选优。
另外,通过这次试验基本认识SVM的使用方法,对SVM的原理有了进一步的认识,可以熟练使用libSVM进行实验。