数据挖掘第二次作业
数据挖掘作业2

数据挖掘作业21. 引言数据挖掘是一种从大量数据中发现、提取和分析有用信息的过程。
本文旨在探讨数据挖掘作业2的相关内容,包括数据集选择、数据预处理、特征选择和模型建立等。
2. 数据集选择在数据挖掘作业2中,我们选择了一个涉及电子商务的数据集。
该数据集包含了用户的购买记录、产品信息、用户评价等多个维度的数据。
通过对该数据集的挖掘,我们希望能够发现用户的购买偏好、产品的销售趋势等有价值的信息。
3. 数据预处理在进行数据挖掘之前,我们需要对数据进行预处理,以确保数据的质量和可用性。
首先,我们对数据进行清洗,去除缺失值和异常值。
然后,我们对数据进行归一化处理,以消除不同特征之间的量纲差异。
最后,我们对数据进行采样,以减少计算复杂度并保持数据的代表性。
4. 特征选择特征选择是数据挖掘的重要步骤,旨在从原始特征中选择出最具有预测能力的特征。
在数据挖掘作业2中,我们采用了信息增益和相关系数等方法来评估特征的重要性,并选择出了与目标变量相关性较高的特征。
此外,我们还进行了特征的降维处理,以减少特征空间的维度。
5. 模型建立在数据挖掘作业2中,我们选择了决策树算法作为模型建立的方法。
决策树是一种基于树状结构的分类模型,通过对特征进行逐步划分,最终得到一个可以对新样本进行分类的模型。
我们使用了ID3算法来构建决策树模型,并通过交叉验证的方法对模型进行评估和调优。
6. 模型评估为了评估模型的性能,我们采用了准确率、召回率、F1值等指标来衡量模型的分类效果。
此外,我们还使用了混淆矩阵来展示模型的分类结果,并计算了ROC曲线下的面积(AUC)来评估模型的整体性能。
7. 结果分析通过对数据挖掘作业2的实验和分析,我们得到了一些有价值的结论。
首先,我们发现用户对某一类产品的购买意愿与其评价的积极程度呈正相关关系。
其次,我们发现某些产品的销售量与其价格呈负相关关系,即价格越高,销售量越低。
最后,我们通过决策树模型对用户的购买行为进行了预测,并取得了较好的分类效果。
【2019年整理电大考试复习资料】中央电大《企业信息管理》形成性考核册第1-4次作业参考答案资料

中央电大《企业信息管理》形成性考核册第1-4次作业参考答案小抄第一次作业参考答案一、简答题1、举例说明以下几个问题:(1)IT的战略作用是什么?答:信息时代,产品或服务开发及生产的速度以及对市场的反应能力是企业取得成功的关键,而这些在很大程序上取决于信息技术的应用,信息技术在支持企业的业务活动、生产活动,增强营销和生产的灵活性以及提高组织的竞争力方面发挥着极其重要的战略作用,它可以有效地提高企业在产品和服务方面的质量。
主要表现为产品设计和制造自动化、生产过程自动化、产品和设备智能化、管理现代化等方面。
(2)IT是如何支持企业的业务活动的?答:提高管理工作的效率和质量,提高整个企业的管理技术水平可以提高生产的效率和产品的质量;作为经营管理的组成部分,提高企业的竞争优势;发展公共关系,为企业赢得良好的信誉和形象;作为一种创新手段,使企业获得新的商业机会;提高财务活动、人事管理等工作的效率和质量。
(3)IT如何提高生产效率和产品质量?答:信息技术最基本的任务是提高生产力。
因为信息技术具有准确、高速处理大量数据的能力,从而能够缩短时间、减少错误、降低各种信息处理的工作成本。
(1)联机事务处理主要用来协助企业对响应事件或事务的日常商务活动进行处理。
(2)事务处理系统是使操作层的日常业务活动的数据处理自动化,提高工作效率的系统,其主要作用是反馈控制。
(3)TPS的一个重要延伸就是客户集成系统。
CIS 将技术送到客户端,让他们处理其自身的事务。
信息技术的使用有助于提高决策质量。
可用于提高决策质量的信息技术工具有:(1)联机分析处理。
(2)决策支持系统。
(3)地理信息系统。
(4)数据仓库。
(5)数据挖掘。
(6)专家系统。
(7)商务智能。
(4)IT如何提高企业的竞争优势?答:作业一种广泛利用的标准资源,信息技术本身能够转化为企业的能力和核心能力。
核心能力通常是指那些能够使一个公司从战略上区别于竞争者,并培育出竞争者未拥有的有益行为的能力。
数据挖掘作业2

数据挖掘作业2一、任务背景数据挖掘是一种通过发现和分析大量数据中的模式和关联来提取有用信息的过程。
数据挖掘技术在各个领域中得到广泛应用,例如市场营销、金融风险管理、医疗诊断等。
本次数据挖掘作业2旨在通过使用机器学习算法对给定的数据集进行分析和预测,以解决一个实际问题。
二、任务描述本次数据挖掘作业2的任务是基于一个电信公司的客户数据集,构建一个客户流失预测模型。
客户流失是指客户停止使用某个产品或服务的情况,对于电信公司来说,客户流失可能导致业务下降和收入减少。
因此,通过预测客户流失,电信公司可以采取相应的措施来留住客户,提高客户忠诚度。
三、数据集介绍本次任务使用的数据集包含了一些客户的个人信息、合同信息、付款信息等。
数据集中的每一行代表一个客户的信息,每一列代表一个特征。
数据集中包含了以下特征:1. 客户ID:每个客户的唯一标识符。
2. 性别:客户的性别,可能取值为男或女。
3. 年龄:客户的年龄,以岁为单位。
4. 合作伙伴:客户是否有合作伙伴,可能取值为有或无。
5. 好友:客户是否有好友,可能取值为有或无。
6. 月租费:客户每月支付的费用,以美元为单位。
7. 总消费:客户总共支付的费用,以美元为单位。
8. 在网时间:客户使用该服务的时间,以月为单位。
9. 流失:客户是否已经流失,可能取值为是或否。
四、数据挖掘流程1. 数据预处理:a. 导入数据集:读取数据集,并查看数据的基本信息,如数据类型、缺失值情况等。
b. 数据清洗:处理数据中的缺失值、异常值等问题,确保数据的质量。
c. 特征选择:根据领域知识和特征相关性等方法,选择对预测客户流失有重要影响的特征。
d. 数据转换:对数据进行标准化、归一化等处理,以便于模型的训练和预测。
2. 模型训练:a. 划分数据集:将数据集划分为训练集和测试集,通常采用70%的数据作为训练集,30%的数据作为测试集。
b. 选择模型:根据任务的特点和需求,选择适合的机器学习算法,如逻辑回归、决策树、支持向量机等。
第二次数据挖掘实验报告

for j in range(i, len(x)):
# 判断等式是否成立
if x[i][:l - 1] == x[j][:l - 1] and x[i][l - 1] != x[j][l - 1]:
# 对列表r中追加排好序的元素
r.append(x[i][:l - 1] + sorted([x[j][l - 1], x[i][l - 1]]))
#进行排序后的ms和x放到一个列表里赋值给x
x = list(map(lambda i: sorted(i.split(ms)), x))
#把x列表的第一个元素长度赋值给l
l = len(x[0])
#创建一个空字典r
r = []
#i的范围是0~列表x的长度
for i in range(len(x)):
print(u'数目:%s...' % len(column))
# 新一批支持度的计算函数
sf = lambda i: d[i].prod(axis=1, numeric_only=True)
# 创建连接数据,这一步耗时、耗内存最严重。当数据集较大时,可以考虑并行运算优化。
d_2 = pd.DataFrame(list(map(sf, column)), index=[ms.join(i) for i in column]).T
# 导入数据集,根据自己的目录来插入
inputfile = 'D:\数据挖掘\menu_orders.xls'
#导出结果
outputfile = 'D:\数据挖掘\apriori_rules.xls'
# 读取数据
(完整word版)数据挖掘课后答案

第一章1.6(1)数据特征化是目标类数据的一般特性或特征的汇总。
例如,在某商店花费1000元以上的顾客特征的汇总描述是:年龄在40—50岁、有工作和很好的信誉等级。
(2)数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。
例如,高平均分数的学生的一般特点,可与低平均分数的学生的一般特点进行比较.由此产生的可能是一个相当普遍的描述,如平均分高达75%的学生是大四的计算机科学专业的学生,而平均分低于65%的学生则不是.(3)关联和相关分析是指在给定的频繁项集中寻找相关联的规则.例如,一个数据挖掘系统可能会发现这样的规则:专业(X,“计算机科学”)=〉拥有(X,”个人电脑“)[support= 12%,confidence = 98%],其中X是一个变量,代表一个学生,该规则表明,98%的置信度或可信性表示,如果一个学生是属于计算机科学专业的,则拥有个人电脑的可能性是98%。
12%的支持度意味着所研究的所有事务的12%显示属于计算机科学专业的学生都会拥有个人电脑。
(4)分类和预测的不同之处在于前者是构建了一个模型(或函数),描述和区分数据类或概念,而后者则建立了一个模型来预测一些丢失或不可用的数据,而且往往是数值,数据集的预测。
它们的相似之处是它们都是为预测工具:分类是用于预测的数据和预测对象的类标签,预测通常用于预测缺失值的数值数据。
例如:某银行需要根据顾客的基本特征将顾客的信誉度区分为优良中差几个类别,此时用到的则是分类;当研究某只股票的价格走势时,会根据股票的历史价格来预测股票的未来价格,此时用到的则是预测。
(5)聚类分析数据对象是根据最大化类内部的相似性、最小化类之间的相似性的原则进行聚类和分组。
聚类还便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。
例如:世界上有很多种鸟,我们可以根据鸟之间的相似性,聚集成n类,其中n可以认为规定. (6)数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。
数据挖掘作业2

数据挖掘作业2数据挖掘是一种从大量数据中发现实用信息和模式的过程。
数据挖掘作业2旨在让学生运用数据挖掘技术,分析和挖掘给定数据集中的实用信息和模式。
本次数据挖掘作业2的任务是基于一个电子商务网站的用户行为数据集,通过分析和挖掘数据,了解用户的行为模式和购买意向,进而提供有针对性的推荐策略和市场营销方案。
首先,我们需要对数据集进行预处理。
这包括数据清洗、去除重复数据、处理缺失值等。
通过这些步骤,我们可以确保数据的准确性和完整性。
接下来,我们可以进行数据探索和可视化分析。
利用统计学和可视化工具,我们可以对数据集进行探索,了解用户的行为特征和购买习惯。
例如,我们可以通过绘制柱状图或者饼图来展示用户的购买类别偏好,或者使用散点图来展示用户的浏览时间和购买金额之间的关系。
在数据探索的基础上,我们可以应用数据挖掘技术来挖掘隐藏在数据中的模式和规律。
其中,常用的数据挖掘技术包括关联规则挖掘、聚类分析、分类算法等。
通过这些技术,我们可以发现用户之间的关联关系、不同用户群体之间的差异以及用户购买意向的预测等。
例如,我们可以利用关联规则挖掘算法,找出用户购买某一商品时,同时购买其他商品的规律。
这可以匡助电子商务网站进行交叉销售和推荐相关商品。
此外,我们可以利用聚类分析算法,将用户分成不同的群体,进而制定针对性的营销策略。
此外,通过分类算法,我们可以预测用户的购买意向,从而提前采取措施,增加用户的转化率。
最后,我们可以根据数据挖掘的结果,提出相应的推荐策略和市场营销方案。
这些策略和方案应该基于对用户行为的深入理解和数据挖掘的结果。
例如,我们可以通过个性化推荐系统,向用户推荐他们可能感兴趣的商品。
或者,我们可以通过优惠券、促销活动等方式,刺激用户的购买欲望。
综上所述,数据挖掘作业2旨在让学生通过对电子商务网站用户行为数据的分析和挖掘,了解用户的行为模式和购买意向,并提供有针对性的推荐策略和市场营销方案。
通过完成这个任务,学生可以提升数据挖掘和分析的能力,并将其应用于实际问题的解决中。
数据挖掘作业2

数据挖掘作业2一、任务背景与目的数据挖掘作业2旨在通过应用数据挖掘技术,从给定的数据集中发现有价值的信息和模式,以帮助决策者做出准确的决策。
本次作业的任务是基于一个电子商务网站的用户行为数据,分析用户购买行为,并构建一个预测模型,以预测用户是否会购买某个特定的产品。
二、数据集介绍本次作业使用的数据集包含了一段时间内的用户行为数据,包括用户的浏览、加购物车、购买等行为。
数据集中的字段包括用户ID、时间戳、产品ID、行为类型等。
数据集共有100万条记录。
三、数据预处理1. 数据清洗:对数据集进行清洗,去除重复记录、缺失值等异常数据。
2. 特征选择:根据业务需求和特征的相关性,选择合适的特征进行分析和建模。
3. 特征编码:对类别型特征进行编码,如使用独热编码将类别型特征转换为数值型特征。
4. 数据划分:将清洗和编码后的数据集划分为训练集和测试集,一般采用70%的数据作为训练集,30%的数据作为测试集。
四、数据分析与建模1. 数据可视化:通过绘制柱状图、折线图等方式,对用户行为数据进行可视化分析,了解用户行为的分布和趋势。
2. 关联规则挖掘:使用关联规则算法(如Apriori算法)挖掘用户行为之间的关联关系,发现用户购买某个产品的规律。
3. 用户分类:根据用户的购买行为特征,使用聚类算法(如K-means算法)将用户划分为不同的类别,以便更好地理解用户的购买行为。
4. 预测模型构建:选择合适的机器学习算法(如决策树、随机森林等),构建用户购买行为的预测模型。
五、模型评估与优化1. 模型评估:使用准确率、召回率、F1值等指标对构建的预测模型进行评估,选择最优的模型。
2. 模型优化:根据评估结果,对模型进行调参和优化,以提高模型的准确性和泛化能力。
六、结果分析与报告撰写1. 结果分析:对模型预测结果进行分析,比较不同模型的性能差异,找出影响用户购买行为的主要因素。
2. 报告撰写:根据分析结果,撰写数据挖掘作业2的报告,包括任务背景、数据处理方法、模型构建过程、结果分析等内容。
数据挖掘大作业(打印) 2

数据挖掘在客户关系管理中的应用一、数据挖掘技术在客户关系管理中的主要应用领域1、客户关系管理中常用的数据挖掘方法常用的数据挖掘方法主要包括:分类、聚类、关联规则、统计回归、偏差分析等等。
(1)分类:分类在数据挖掘中是一项非常重要的任务。
分类的目的是通过统计方法、机器学习方法(包括决策树法和规则归纳法)、神经网络方法等构造一个分类模型,然后把数据库中的数据映射到给定类别中的某一个。
(2)聚类:聚类是把一组个体按照相似性归成若干类别。
即“物以类聚”。
它的目的是使同一类别之内的相似性尽可能大,而类别之间的相似性尽可能小。
这种方法可以用来对客户进行细分,根据客户的特征和属性把客户分成不同客户群,根据其不同需求,制订针对不同客户群的营销策略。
(3)关联规则:它是描述数据库中数据项之间存在关联的规则,即根据一个事物中某些项的出现可导出另一项在同一事物中也出现,即隐藏在数据间的关联或相互关系。
在客户关系管理中,通过对企业客户数据库里大量数据进行挖掘,可以从中发现有趣的关联关系。
(4)回归分析:回归分析反映的是事务数据库中属性值在时间上的特征.主要用于预测,即利用历史数据自动推出对给定数据的推广描述.从而对未来数据进行预测。
它可应用于商品销售趋势预测、客户赢利能力分析和预测等。
(50偏差分析:偏差分析侧重于发现不规则和异常变化,即与通常不同的事件。
在相类似的客户中,对客户的异常变化要给予密切关注。
例如某客户购买行为发生较大变化,购买量较以前大大减少,就要对客户的这种原因进行调查,避免客户流失。
2、数据挖掘在客户关系管理中的具体运用由于零售业采用P O S机和C R M。
使得顾客的资料及购买信息得以贮存。
在这些海量的数据中存在着许多能对商品决策提供真正有价值的决策信息。
商家面临以下问题是:真正有价值的信息是哪些。
这些信息有哪些关联等等。
因此,需要从大量的数据中, 经过深层分析,从而获得有利商业运作提高企业争力的信息。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.假设最小支持度为40%,最小置信度为70%。
对于下表,使用Apriori算法求解所有的频繁项集,在此基础上推导出所有的强关联规则,并给出相应的支持度和置信度。
答:最小支持数为: 5*40% =2因此所有的频繁项集为:{l1}, {l2}, {L3}, {L4}, {L6},{l1,l2}, {l1,l3}, {l1,l6}, {l2,l4}, {l2,l6}, {l3,l6},{{l1,l2,l6}},{l1,l3,l6}}{l1,l2}的非空子集为{l1}, {l2}I1=>I2 support = 3/5 =60% confidence =3/4 =75%I2=>I1 support = 3/5 =60% confidence =3/4 =75%{l1,l3}的非空子集为{l1}, {l3}I1=>I3 support = 2/5 =40% confidence =2/4 =50%I3=> I1 support = 2/5 =40% confidence =2/2=100%{l1,l6}的非空子集为{l1}, {l6}I1=>I6 support = 3/5 =60% confidence =3/4 =75%I6 => l1 support = 3/5 =60% confidence =3/4 =75%{l2,l4}的非空子集为{l2}, {l4}I2=>I4 support = 2/5 =40% confidence =2/4 =50%I4 => l2 support = 2/5 =40% confidence =2/2 =100%{l2,l6}的非空子集为{l2}, {l6}I2=> l6 support = 3/5 =60% confidence =3/4 =75%I6=> I2 support = 3/5 =60% confidence =3/4 =75%{l3,l6}的非空子集为{l3}, {l6}I3=> l6 support = 2/5 =40% confidence =2/2=100%I6=>I3 support = 2/5 =40% confidence =2/4=50%{l1,l2,l6}}的非空子集为{l1,l2} , {1l,l6}, {l2,l6}, {l1}, {l2}, {l6}I1=>I2^I6 support = 2/5 =40% confidence =2/4 =50%I2=>I1^I6 support = 2/5 =40% confidence = 2/4 =50%I6=>I1^I2 support = 2/5 =40% confidence =2/4 =50%I2^I6=> I1 support = 2/5 =40% confidence = 2/3 =66.67% I1^I6 => I2 support = 2/5 =40% confidence =2/3 =66.67% I1^I2=> l6 support = 2/5 =40% confidence =2/3 =66.67%{l1,l3,l6}的非空子集为{l1,l3}, {l1,l6}, {l3,l6}, {l1}, {l3}, {l6}I1=>I3^I6 support = 2/5 =40% confidence =2/4 = 50%I3=>I1^I6 support = 2/5 =40% confidence = 2/2 =100% I6=>I1^I3 support = 2/5 =40% confidence =2/4 = 50%I3^I6=> I1 support = 2/5 =40% confidence = 2/2 =100% I1^I6 => I2 support = 2/5 =40% confidence =2/3 =66.67% I1^I3=> l6 support = 2/5 =40% confidence =2/2=100%因为最小置信度为70%,所以强关联:I1=>I2 support = 3/5 =60% confidence =3/4 =75%I2=>I1 support = 3/5 =60% confidence =3/4 =75%I1=>I6 support = 3/5 =60% confidence =3/4 =75%I6 => l1 support = 3/5 =60% confidence =3/4 =75%I2=> l6 support = 3/5 =60% confidence =3/4 =75%I6=> I2 support = 3/5 =60% confidence =3/4 =75%I3=> I1 support = 2/5 =40% confidence =2/2=100%I3=> l6 support = 2/5 =40% confidence =2/2=100%I4 => l2 support = 2/5 =40% confidence =2/2 =100%I3=>I1^I6 support = 2/5 =40% confidence = 2/2 =100%I3^I6=> I1 support = 2/5 =40% confidence = 2/2 =100%I1^I3=> l6 support = 2/5 =40% confidence = 2/2 =100%2.针对下表的数据,a)构造决策树,并给出是否外出游玩的有关规则;b)利用贝叶斯分类方法,判断:在(阴晴=sunny,温度=Mild,湿度=Normal,刮风=False)的情况下,是否可以外出游玩。
答:a)b)设X =(阴晴=sunny,温度=Mild,湿度=Normal,刮风=False)P (外出游玩= “yes” ) = 9/14 = 0.643P (外出游玩= “No” ) = 5/14 = 0.357p (阴晴= ”S unny” | 外出游玩= ”yes”)=2/9 ;p(阴晴= ”sunn y” | 外出游玩=”N o”)= 3/5 ;p (湿度=”Mild”|外出游玩=”yes”)=4/9 ;p(湿度=”Mild” | 外出游玩=” N o”)=2/5 ;p (温度=”N orma”|外出游玩=”yes”)=6/9 ;p(温度=”Normal” | 外出游玩=” N o”)=1/5 ;p(刮风=”F alse”|外出游玩=”yes”)=6/9 ;p(刮风=“false”| 外出游玩=”N o”)=2/5 ;p (X|外出游玩=”y es”)=2/9 * 4/9 * 6/9 * 6/9 = 0.044p (X|外出游玩=”no”)= 3/5 * 2/5 * 1/5 * 2/5 = 0 019p (X|外出游玩=”yes”) p(外出游玩=”yes”)= 0.044 * 0.643 = 0.028p (X|外出游玩=” no”) p(外出游玩=” N o”)= 0.019 * 0.357 = 0.007 因此,对于样本X,贝叶斯分类预测,外出游外=”yes”。
所以在(阴晴=sunny,温度=Mild,湿度=Normal,刮风=False)的情况下,可以外出游玩3.简述什么是面向属性的归纳,它的主要步骤有哪些?答:面向属性的归纳是一种面向关系数据查询的、基于汇总的在线数据分析技术。
受数据类型和度量类型的约束比较少它的基本思想是:使用关系数据库查询收集任务相关的数据●通过考察任务相关数据中每个属性的不同值的个数进行概化,方法是属性删除或者是属性概化●通过合并相等的,概化的广义元组,并累计他们对应的计数值进行聚集操作●通过与用户交互,将广义关系以图表或规则等形式,提交给用户4.为什么要进行属性相关性分析?答:数据仓库和OLAP系统中的多维数据分析缺乏一个自动概化过程,这使得这个过程中需要有很多用户干预●用户必须告诉系统哪些维或属性应当包含在类分析中 (难)。
属性太少,则造成挖掘的描述结果不正确。
属性太多,浪费计算、淹没知识●告诉系统每个维应当概化到多高的层次(易)。
直接通过概化的临界值,说明给定维应当达到的概化程度。
对概化层次不满意,则可以指定需要上卷或下钻的维5.什么是类比较,它的主要步骤有哪些。
答:类比较挖掘的目标是得到将目标类与对比类相区分的描述。
步骤:1)数据收集:通过查询处理收集数据库中相关的数据,并将其划分为一个目标类和一个或多个对比类2)维相关分析:使用属性相关分析方法,使我们的任务中仅包含强相关的维3) 同步概化:同步的在目标类和对比类上进行概化,得到主目标类关系/方体和主对比类关系/方体4) 导出比较的表示: 用可视化技术表达类比较描述,通常会包含“对比”度量,反映目标类与对比类间的比较(e.g count%).6.什么是关联规则挖掘,关联规则都有哪些类型?答:从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。
类型有:1)根据规则中所处理的值类型2)根据规则中涉及的数据维3)根据规则集所涉及的抽象层4)根据关联挖掘的各种扩充7.简要说明什么是Apriori性质。
答:频繁项集的所有非空子集也必须是频繁的。
●A∪B模式不可能比A更频繁的出现●Apriori算法是反单调的,即一个集合如果不能通过测试,则该集合的所有超集也不能通过相同的测试。
●Apriori性质通过减少搜索空间,来提高频繁项集逐层产生的效率8.简要说明多层关联规则挖掘的方法。
通常,多层关联规则的挖掘还是使用置信度-支持度框架,可以采用自顶向下策略a)请注意:概念分层中,一个节点的支持度肯定不小于该节点的任何子节点的支持度b)由概念层1开始向下,到较低的更特定的概念层,对每个概念层的频繁项计算累加计数c)每一层的关联规则挖掘可以使用Apriori等多种方法9.举例说明为什么强关联规则不一定是有趣的。
答:例如在5000个学生中3000个打篮球3750个喝麦片粥2000个学生既打篮球又喝麦片粥然而,打篮球=> 喝麦片粥[40%, 66.7%]是错误的,因为全部学生中喝麦片粥的比率是75%,比打篮球学生的66.7%要高打篮球=> 不喝麦片粥[20%, 33.3%]这个规则远比上面那个要精确,尽管支持度和置信度都要低的多10.分类和预测有什么区别?它们的主要步骤是什么。
答:区别:●分类法主要是用来预测类标号(分类属性值)●预测法主要是用来估计连续值(量化属性值)步骤:⏹第一步,建立一个模型,描述预定数据类集和概念集⏹第二步,使用模型,对将来的或未知的对象进行分类11.除了决策树(判定树)以外还有哪些分类方法,比较这些分类方法的标准是什么?答:贝叶斯分类,后向传播分类。