数据挖掘期末大作业
大学数据挖掘期末考试题

大学数据挖掘期末考试题学院试题密封期限:学期末本试题共三部分,满分100分,考试时间120分钟。
第一部分:选择题(共40分,每小题2分)1.下列哪个选项是正确的?A.选项AB.选项BC.选项CD.选项D2.下列哪个选项是错误的?A.选项AB.选项BC.选项CD.选项D3.以下哪项描述不正确?A.选项AB.选项BC.选项CD.选项D4.以下哪项描述正确?A.选项AB.选项BC.选项CD.选项D第二部分:填空题(共30分,每小题3分)1.我国现行的宪法于(1)年(2)月(3)日颁布。
2.我国的国家根本大法是(4)。
3.《中华人民共和国宪法》规定:中华人民共和国的一切权力属于(5)。
4.全国人民代表大会是我国的最高国家权力机关,它的最高领导机构是(6)。
5.中华人民共和国主席、副主席由全国人民代表大会选举,任期(7)年。
第三部分:简答题(共30分,每小题10分)1.请简要介绍我国的政治制度。
我国的政治制度是社会主义制度,是以工人阶级为领导的以工农联盟为基础的人民民主专政。
我国最高国家权力机关是全国人民代表大会和它的常委会,国家行政机关是国务院和它的组成部门,最高审判机关是XXX,最高检察机关是XXX。
2.请简要介绍我国的经济发展情况。
我国的经济发展取得了长足的进步,成为世界第二大经济体。
我国实行的是社会主义市场经济,通过改革开放,吸引了大量的外资,推动了经济的快速发展。
我国的GDP连续多年以高速增长,人民生活水平不断提高。
3.请简要介绍我国的文化传统。
我国的文化传统源远流长,拥有悠久的历史和丰富的文化遗产。
我国的文化包括中华文化、儒家文化、道家文化、XXX文化等等。
中华文化是我国的主要文化,它包括了诗、书、画、印、琴、棋、剑等七艺,是我国的传统文化精髓。
儒家文化是我国的传统文化之一,它强调仁爱、诚信、孝道等道德观念。
道家文化是我国的哲学文化,它强调道、德、天、地等观念。
文化是我国的宗教文化,它强调慈悲、般若等观念。
历年数据挖掘期末考试试题及答案

历年数据挖掘期末考试试题及答案2019年春选择题1. 关于数据挖掘下列叙述中,正确的是:- A. 数据挖掘只是寻找数据中的有用信息- B. 数据挖掘就是将数据放置于数据仓库中,方便查询- C. 数据挖掘是指从大量有噪音数据中提取未知、隐含、先前未知的、重要的、可理解的模式或知识- D. 数据挖掘就是从数据中提取出数值型变量2. 下列关于聚类分析的说法中,正确的是:- A. 聚类分析是无监督研究- B. 聚类分析的目的是找到一组最优特征- C. 聚类分析只能用于数值型变量- D. 聚类分析是一种监督研究方法3. 一般的数据挖掘流程包括以下哪些步骤:- A. 数据采集- B. 数据清洗- C. 数据转换- D. 模型构建- E. 模型评价- F. 模型应用- G. A、B、C、D、E- H. A、B、C、D、E、F- I. B、C、D、E、F- J. C、D、E、F简答题1. 什么是数据挖掘?介绍一下数据挖掘的流程。
数据挖掘是从庞大、复杂的数据集中提取有价值的、对决策有帮助的信息。
包括数据采集、数据清洗、数据转换、模型构建、模型评价和模型应用等步骤。
2. 聚类分析和分类分析有什么不同?聚类分析和分类分析都是数据挖掘的方法,不同的是聚类分析是无监督研究,通过相似度,将数据集分为不同的组;分类分析是监督研究,通过已知的训练集数据来预测新的数据分类。
也就是说在分类中有“标签”这个中间过程。
3. 请介绍一个你知道的数据挖掘算法,并简单阐述它的流程。
Apriori算法:是一种用于关联规则挖掘的算法。
主要流程包括生成项集、计算支持度、生成候选规则以及计算可信度四步。
首先生成单个项集,计算各项集在数据集中的支持度;然后根据单个项集生成项集对,计算各项集对在数据集中的支持度;接着从项集对中找出支持度大于某个阈值的,生成候选规则;最后计算规则的置信度,保留置信度大于某个阈值的规则作为关联规则。
20090307113曹晨《数据挖掘》期末大作业

数据挖掘原理、算法及应用学号:学生所在学院:信息工程学院学生姓名:颜伟泰任课教师:汤亮教师所在学院:信息工程学院2015年12月12年级决策树分类算法颜伟泰12软件(1)班一、摘要(一)、决策树算法简介:决策树算法是一种归纳分类算法,它通过对训练集的学习,挖掘出有用的规则,用于对新集进行预测。
决策树算法可设计成具有良好可伸缩性的算法,能够很好地与超大型数据库结合,处理相关的多种数据类型,并且,其运算结果容易被人理解,其分类模式容易转化成分类规则。
(二)、算法思想:该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。
然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。
然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。
一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。
为了生成所有频集,使用了递归的方法。
(三)、算法运用领域:(1)Apriori算法广泛应用于商业中,应用于消费市场价格分析中,它能够很快的求出各种产品之间的价格关系和它们之间的影响。
通过数据挖掘,市场商人可以瞄准目标客户,采用个人股票行市、最新信息、特殊的市场推广活动或其他一些特殊的信息手段,从而极大地减少广告预算和增加收入。
百货商场、超市和一些老字型大小的零售店也在进行数据挖掘,以便猜测这些年来顾客的消费习惯。
(2)Apriori算法应用于网络安全领域,比如时候入侵检测技术中。
早期中大型的电脑系统中都收集审计信息来建立跟踪档,这些审计跟踪的目的多是为了性能测试或计费,因此对攻击检测提供的有用信息比较少。
它通过模式的学习和训练可以发现网络用户的异常行为模式。
采用作用度的Apriori算法削弱了Apriori算法的挖掘结果规则,是网络入侵检测系统可以快速的发现用户的行为模式,能够快速的锁定攻击者,提高了基于关联规则的入侵检测系统的检测性。
数据挖掘期末大作业

数据挖掘期末大作业1.数据挖掘的发展趋势是什么?大数据环境下如何进行数据挖掘。
对于数据挖掘的发展趋势,可以从以下几个方面进行阐述:(1)数据挖掘语言的标准化描述:标准的数据挖掘语言将有助于数据挖掘的系统化开发。
改进多个数据挖掘系统和功能间的互操作,促进其在企业和社会中的使用。
(2)寻求数据挖掘过程中的可视化方法:可视化要求已经成为数据挖掘系统中必不可少的技术。
可以在发现知识的过程中进行很好的人机交互。
数据的可视化起到了推动人们主动进行知识发现的作用。
(3)与特定数据存储类型的适应问题:根据不同的数据存储类型的特点,进行针对性的研究是目前流行以及将来一段时间必须面对的问题。
(4)网络与分布式环境下的KDD问题:随着Internet的不断发展,网络资源日渐丰富,这就需要分散的技术人员各自独立地处理分离数据库的工作方式应是可协作的。
因此,考虑适应分布式与网络环境的工具、技术及系统将是数据挖掘中一个最为重要和繁荣的子领域。
(5)应用的探索:随着数据挖掘的日益普遍,其应用范围也日益扩大,如生物医学、电信业、零售业等领域。
由于数据挖掘在处理特定应用问题时存在局限性,因此,目前的研究趋势是开发针对于特定应用的数据挖掘系统。
(6)数据挖掘与数据库系统和Web数据库系统的集成:数据库系统和Web数据库已经成为信息处理系统的主流。
2. 从一个3输入、2输出的系统中获取了10条历史数据,另外,最后条数据是系统的输入,不知道其对应的输出。
请使用SQL SERVER 2005的神经网络功能预测最后两条数据的输出。
首先,打开SQL SERVER 2005数据库软件,然后在界面上右键单击树形图中的“数据库”标签,在弹出的快捷菜单中选择“新建数据库”命令,并命名数据库的名称为YxqDatabase,单击确定,如下图所示。
然后,在新建的数据库YxqDatabas中,根据题目要求新建表,相应的表属性见下图所示。
在新建的表完成之后,默认的数据表名称为Table_1,并打开表,根据题目提供的数据在表中输入相应的数据如下图所示。
数据挖掘大作业例子

数据挖掘大作业例子1. 超市购物数据挖掘呀!想想看,如果把超市里每个顾客的购买记录都分析一遍,那岂不是能发现很多有趣的事情?比如说,为啥周五晚上大家都爱买啤酒和薯片呢,是不是都打算周末在家看剧呀!2. 社交媒体情感分析这个大作业超有意思哦!就像你能从大家发的文字里看出他们今天是开心还是难过,那简直就像有了读心术一样神奇!比如看到一堆人突然都在发伤感的话,难道是发生了什么大事情?3. 电商用户行为挖掘也很棒呀!通过分析用户在网上的浏览、购买行为,就能知道他们喜欢什么、不喜欢什么,这难道不是很厉害吗?就像你知道了朋友的喜好,能给他推荐最适合的礼物一样!4. 交通流量数据分析呢!想象一下,了解每个路口的车流量变化,是不是就能更好地规划交通啦?难道这不像是给城市的交通装上了一双明亮的眼睛?5. 医疗数据挖掘更是不得了!能从大量的病例中找到疾病的规律,这简直是在拯救生命啊!难道这不是一件超级伟大的事情吗?比如说能发现某种疾病在特定人群中更容易出现。
6. 金融交易数据挖掘也超重要的呀!可以知道哪些交易有风险,哪些投资更靠谱,那不就像有个聪明的理财顾问在身边吗!就好比能及时发现异常的资金流动。
7. 天气数据与出行的结合挖掘也很有趣呀!根据天气情况来预测大家的出行选择,真是太神奇了吧!难道不是像有了天气预报和出行指南合二为一?8. 音乐喜好数据挖掘呢!搞清楚大家都喜欢听什么类型的音乐,从而能更好地推荐歌曲,这不是能让人更开心地享受音乐吗!好比为每个人定制了专属的音乐播放列表。
9. 电影票房数据挖掘呀!通过分析票房数据就能知道观众最爱看的电影类型,这不是超厉害的嘛!就像知道了大家心里最期待的电影是什么样的。
我觉得数据挖掘真的太有魅力了,可以从各种看似普通的数据中发现那么多有价值的东西,真是让人惊叹不已啊!。
大工19秋《数据挖掘》大作业题目及要求答案

网络教育学院《数据挖掘》课程大作业题目:题目一:Knn算法原理以及python实现姓名:报名编号:学习中心:层次:专升本专业:计算机科学与技术第一大题:讲述自己在完成大作业过程中遇到的困难,解决问题的思路,以及相关感想,或者对这个项目的认识,或者对Python与数据挖掘的认识等等,300-500字。
数据挖掘是指从大量的数据中通过一些算法寻找隐藏于其中重要实用信息的过程。
这些算法包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。
在商务管理,股市分析,公司重要信息决策,以及科学研究方面都有十分重要的意义。
数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术,从大量数据中寻找其肉眼难以发现的规律,和大数据联系密切。
如今,数据挖掘已经应用在很多行业里,对人们的生产生活以及未来大数据时代起到了重要影响。
第二大题:完成下面一项大作业题目。
2019秋《数据挖掘》课程大作业注意:从以下5个题目中任选其一作答。
题目一:Knn算法原理以及python实现要求:文档用使用word撰写即可。
主要内容必须包括:(1)算法介绍。
(2)算法流程。
(3)python实现算法以及预测。
(4)整个word文件名为 [姓名奥鹏卡号学习中心](如戴卫东101410013979浙江台州奥鹏学习中心[1]VIP )答:KNN算法介绍KNN是一种监督学习算法,通过计算新数据与训练数据特征值之间的距离,然后选取K(K>=1)个距离最近的邻居进行分类判(投票法)或者回归。
若K=1,新数据被简单分配给其近邻的类。
KNN算法实现过程(1)选择一种距离计算方式, 通过数据所有的特征计算新数据与已知类别数据集中的数据点的距离;(2)按照距离递增次序进行排序,选取与当前距离最小的k个点;(3)对于离散分类,返回k个点出现频率最多的类别作预测分类;对于回归则返回k个点的加权值作为预测值;算法关键(1)数据的所有特征都要做可比较的量化若是数据特征中存在非数值的类型,必须采取手段将其量化为数值。
数据挖掘期末大作业

数据挖掘期末大作业1.数据挖掘的发展趋势是什么?大数据环境下如何进行数据挖掘。
对于数据挖掘的发展趋势,可以从以下几个方面进行阐述:(1)数据挖掘语言的标准化描述:标准的数据?挖掘语言将有助于数据挖掘的系统化开发。
改进?多个数据挖掘系统和功能间的互操作,促进其在企?业和社会中的使用。
?(2)寻求数据挖掘过程中的可视化方法:可视?化要求已经成为数据挖掘系统中必不可少的技术。
?可以在发现知识的过程中进行很好的人机交互。
?数据的可视化起到了推动人们主动进行知识发现的?作用。
?(3)与特定数据存储类型的适应问题:根据不?同的数据存储类型的特点,进行针对性的研究是目?前流行以及将来一段时间必须面对的问题。
?(4)网络与分布式环境下的KDD问题:随着?Internet的不断发展,网络资源日渐丰富,这就需要?分散的技术人员各自独立地处理分离数据库的工作?方式应是可协作的。
因此,考虑适应分布式与网?络环境的工具、技术及系统将是数据挖掘中一个最为重要和繁荣的子领域。
?(5)应用的探索:随着数据挖掘的日益普遍,其应用范围也日益扩大,如生物医学、电信业、零售业?等领域。
由于数据挖掘在处理特定应用问题时存在?局限性,因此,目前的研究趋势是开发针对于特定应?用的数据挖掘系统。
?(6)数据挖掘与数据库系统和Web数据库系?统的集成:数据库系统和Web数据库已经成为信息?处理系统的主流。
2. 从一个3输入、2输出的系统中获取了10条历史数据,另外,最后条数据是系统的输入,不知道其对应的输出。
请使用SQL SERVER 2005的神经网络功能预测最后两条数据的输出。
首先,打开SQL SERVER 2005数据库软件,然后在界面上右键单击树形图中的“数据库”标签,在弹出的快捷菜单中选择“新建数据库”命令,并命名数据库的名称为YxqDatabase,单击确定,如下图所示。
然后,在新建的数据库YxqDatabas中,根据题目要求新建表,相应的表属性见下图所示。
数据挖掘期末试卷

数据挖掘期末试卷一、简答题(共5题,每题10分)1.数据挖掘的定义和目标是什么?2.数据预处理的步骤有哪些?请详细描述。
3.请简述交叉验证在数据挖掘中的作用。
4.请解释什么是聚类分析,并举例说明其在实际应用中的作用。
5.请解释关联规则挖掘的概念,并说明其在市场篮子分析中的应用。
二、计算题(共2题,每题20分)1.假设有一个包含100个数据样本的数据集D,其中80个样本属于类别A,20个样本属于类别B。
现给定一个新的数据样本x,请根据给定的数据集D和数据样本x,使用K近邻算法来确定x的类别,并说明你的推理过程。
2.给定一个包含1000个样本的数据集D,每个样本包含5个特征。
现在希望通过主成分分析(PCA)来对数据集进行降维处理。
请根据给定的数据集D,使用PCA算法来完成降维处理,并说明你的推理过程。
三、编程题(共1题,40分)对于给定的数据集D,其中包含1000个数据样本,每个样本包含5个特征。
请编写Python代码来实现基于K均值算法的聚类分析,并对数据集D进行聚类。
请在代码注释中详细描述你的算法实现过程,并附带代码运行结果截图。
四、应用题(共1题,20分)假设你是一家电商平台的数据分析师,现在希望通过关联规则挖掘来分析用户的购物行为。
请根据给定的购物篮数据集,使用关联规则挖掘算法来发现频繁项集和关联规则,并解释你的挖掘结果。
五、思考题(共1题,10分)数据挖掘技术在当今社会的各个领域中起到了重要的作用。
请从你所了解的领域中选择一个,并说明数据挖掘在该领域中的应用场景和作用。
同时,对于这个领域中可能出现的挑战和问题,你认为采用数据挖掘技术能够解决哪些问题,又有哪些限制?以上为《数据挖掘期末试卷》的题目列表,包括了简答题、计算题、编程题、应用题和思考题。
希望能够通过这些题目来测试学生对于数据挖掘知识的理解和应用能力。
祝大家成功完成试卷!。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘期末大作业
1.数据挖掘的发展趋势是什么?大数据环境下如何进行数据挖掘。
对于数据挖掘的发展趋势,可以从以下几个方面进行阐述:
(1)数据挖掘语言的标准化描述:标准的数据
挖掘语言将有助于数据挖掘的系统化开发。
改进多个数据挖掘系统和功能间的互操作,促进其在企业和社会中的使用。
(2)寻求数据挖掘过程中的可视化方法:可视
化要求已经成为数据挖掘系统中必不可少的技术。
可以在发现知识的过程中进行很好的人机交互。
数据的可视化起到了推动人们主动进行知识发现的作用。
(3)与特定数据存储类型的适应问题:根据不
同的数据存储类型的特点,进行针对性的研究是目前流行以及将来一段时间必须面对的问题。
(4)网络与分布式环境下的KDD问题:随着
Internet的不断发展,网络资源日渐丰富,这就需要分散的技术人员各自独立地处理分离数据库的工作方式应是可协作的。
因此,考虑适应分布式与网络环境的工具、技术及系统将是数据挖掘中一个最为重要和繁荣的子领域。
(5)应用的探索:随着数据挖掘的日益普遍,其应用范围也日益扩大,如生物医学、电信业、零售业等
领域。
由于数据挖掘在处理特定应用问题时存在局限性,因此,目前的研究趋势是开发针对于特定应用的数据挖掘系统。
(6)数据挖掘与数据库系统和Web数据库系统的集成:数据库系统和Web数据库已经成为信息处理
系统的主流。
2. 从一个3输入、2输出的系统中获取了10条历史数据,另外,最后条数据是系统的输入,
不知道其对应的输出。
请使用SQL SERVER 2005的神经网络功能预测最后两条数据的输出。
首先,打开SQL SERVER 2005数据库软件,然后在界面上右键单击树形图中的“数据库”标签,在弹出的快捷菜单中选择“新建数据库”命令,并命名数据库的名称为YxqDatabase,单击确定,如下图所示。
然后,在新建的数据库YxqDatabas中,根据题目要求新建表,相应的表属性见下图所示。
在新建的表完成之后,默认的数据表名称为Table_1,并打开表,根据题目提供的数据在表中输入相应的数据如下图所示。
在测试数据被输入到数据库中之后,打开SQL Server Business Intelligence Development Studio命令,并在文件中新建项目,项目名称命名为MyData,并单击确定,进入下一步,如下图所示。
在进入的新页面上,新建一个数据源,并在出现的新窗口中单击下一步,并选择新建按钮,就会出
现连接管理器窗口,如右图所示。
在打开的
界面中,在“提供程序”下拉列表框中选择Microsoft OLE DB Provider for SQL Server选项,选择完成后,单击确定,进入下一界面,至此,完成了数据连接的工作。
在建立完数据连接之后,需要建立数据源视图,右键单击数据源视图,并选中“新建数据源视图”命令,在数据库YxqDatabase下的数据表Table_1中,选中这个数据表,然后单击下一步,并更改数据源视图的名称为YxqView,单击完成,这样就建好了数据源视图。
如下图所示。
在上面的工作完成之后,我们在界面中单击“挖掘结构”,并新建一个挖掘结构然后点击下一步,在弹出的新窗口“选择挖掘技术”中,我们选择“Microsoft神经网络”选项,并单击下一步,如下图所示。
弹出的新窗口要求对Table_1中的各个列指定类型:键类型、输入类型、可预测类型。
把数据表Table_1中的data列定为键类型,x1,x2,x3规定为输入类型,y1,y2规定为可预测类型,选择之后情形如下图所示。
在上图中,单击下一步,再选择默认值,并单击下一步,就完成了挖掘模型的创建。
挖掘模型创建完成之后会出现下图所示的窗口。
在此界面中,我们选择“挖掘模型查看器”选项卡,会弹出一个小窗口,提问“服务器内容似乎已过时。
是否先生成和部署项目?”单击是按钮,系统将花费一点时间进行部署和生成,见下图所示。
部署成功后,就会弹出另外一个小窗口,提问“必须先处理Table_1挖掘模型才能浏览其内容。
处理模型可能要花费一些时间,具体将取决于数据量。
是否继续?”单击“是”按钮,并在新弹出的窗口中单击“运行”按钮”处理成功之后在两个窗口分别单击“关闭”按钮,就会得到下图所示的数据分析图表。
最后,选择“挖掘模型预测”选项卡,进行数据预测,出现的界面如下图所示。
在所示的界面中,我们单击“选项事例表”按钮,在选择导航中,选择事例表为Table_1,将出现下图所示的界面。
在上图所示的结构中,单击工具栏上的“单独查询”按钮,即产生下图所示的界面。
在上图所示的界面中,把表中数据的最后一行分别输入到变量x1,x2,x3后面的空白中,然后把挖掘模型下的Y1,Y2项拖动至最下面一行的最左边位置。
然后单击工具栏上的“切换到查询结果”按钮,会出现下图所示的界面。
至此,我们通过神经网络功能预测出了最后两条数据的输出。
3.用ID3算法生成分类决策树
在之前创建好的数据源与数据源视图的前提下,我们开始创建决策树的挖掘结构,单击“挖掘结构”,并从中选择“新建挖掘结构”命令,系统将打开数据挖掘导向。
在“欢迎使用数据挖掘向导”页上,单击下一步按钮,在“选择定义方法”页上,确认已选中“你要使用何种数据挖技术?”下拉列
表中选择“Microsoft决策树”选项,如下图所示。
然后单击下一步,出现“指定定型数据”页,如下图所示。
在界面中,确保选中RID列右边“键”列中的复选框,这即是决策树分析中所用的属性。
在上图中,单击下一步,在随后“指定列的内容和数据类型”页上,单击下一步按钮,出现“完成向导”页。
接下来,我们开始设置决策树挖掘结构的相关参数,在“挖掘模型”选项卡上单击鼠标右键,从弹出的快捷菜单中选择“设置算法参数”命令,系统将打开“算法参数”对话框,如下图所示。
在设置好决策树挖掘结构的相关参数之后,接下来,开始建立决策树挖掘模型,选择“挖掘模型查看器”选项卡,程序是否建立部署项目,选择“是”,单击运行按钮,出现“处理进度”窗口,我们再次选择“挖掘模型查看器”选项卡,生成的决策树如下图所示。
4.数据挖掘与数据仓库的关系是什么?谈谈对数据挖掘的理解。
首先,数据挖掘是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程。
简单的说,数据挖掘就是从大量的数据中提取或“挖掘”知识。
然而,数据仓库通常是指一个数据库环境,而不是指一件产品,它提供用户用于决策支持的当前和历史数据,这些数据在传统的数据库中通常不方便得到。
简单来说,数据仓库就是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合,通常用于辅助决策支持。
其实,可以用这样一个简单例子形象化两者的关系,如果将数据仓库比作矿井,那么数据挖掘就是深入矿井采矿的工作。
决策者利用数据作决策,即从数据仓库中挖掘出对决策有用的信息与知识,是建立数据仓库与进行数据挖掘的最大目的。
只有数据仓库先建行立完成,且数据仓库所含数据时干净、完备和经过整合的,数据挖掘才能有效地进行,因此从一定意义上可将两者的关系解读为数据挖掘时从数据仓库中找出有用信息的一种过程与技术。
5.通过我班同学的身体特征,进行数据的分析,各特征有序号、身高(cm)、体重(kg)、胸
围(cm)、腰围(cm)、臀围(cm),总共有50个学生的资料。
首先,通过之前所创建的数据源、数据源视图,在接下来我们开始创建k-means挖掘结构,在此,我们新建挖掘结构,如下图所示。
然后单击下一步,接下来出现的“指定定型数据”页,也即是指定聚类分析中所用的属性,如下图所示。
至此,k-means挖掘结构创建完成,接下来我们开始设置k-means挖掘结构的相关参数,在“挖掘模型”选项卡上单击鼠标右键,从弹出的快捷菜单中选择“设置算法参数”命令,系统将打开“算法参数”对话框,如下图所示。
接着,我们开始建立k-means挖掘模型,然后选择“挖掘模型查看器”,程序问是否建立部署项目,选择“是”。
在接下来的“处理挖掘模型”页上,单击运行按钮,出现“处理速度”页,如下图所示。
在上图中,处理进度完成之后,单击关闭按钮,建模完成。
然后再次选择“挖掘模型查看器”选项卡,由此得到的k-means聚类结果如下图所示。
在上图所示的界面中,我们再次单击“分类对比”按钮,得到下图所示,至此通过图示所示,我们可以分析出班上50位同学的各种身体特征指标。
黔南民族师范学院计科系B11计信班——杨秀青。