数据挖掘期末大作业知识分享

合集下载

数据挖掘知识点期末总结

数据挖掘知识点期末总结

数据挖掘知识点期末总结数据挖掘是一门涉及数据分析、机器学习、统计学和数据库技术的跨学科领域。

它利用各种算法和技术,从大规模数据集中提取模式和知识,以帮助人们做出更好的决策。

在信息时代,数据成为了我们生活和工作中的重要资源,而数据挖掘技术的发展,使得我们能够更好地利用这些数据。

在本文中,我们将回顾数据挖掘的基本概念、技术和应用,并对其未来发展进行展望。

一、数据挖掘的基本概念1. 数据挖掘的定义数据挖掘是指通过建立模型、使用算法,自动地发现数据中的模式、规律和知识的过程。

数据挖掘的目的是从大规模数据中提取有用的信息,以帮助人们做出决策、发现隐藏的信息和规律。

2. 数据挖掘的过程数据挖掘的过程通常包括数据清洗、特征选择、模型构建、模型评估和模型应用等步骤。

数据清洗主要是清理数据中的异常值和缺失值,特征选择是从大量特征中选择出最重要的特征,模型构建是利用算法建立模型,模型评估是评估模型的表现,模型应用是将模型应用到实际情况中进行预测。

二、数据挖掘的技术1. 分类算法分类算法是数据挖掘中常用的一种算法,它通过对训练数据进行学习,构建一个分类模型,用来预测数据的类别。

常见的分类算法包括决策树、支持向量机、朴素贝叶斯和神经网络等。

2. 聚类算法聚类算法是将数据集中的对象分成多个组,使得组内的对象之间相似度较高,组间的相似度较低。

聚类算法可以用来发现数据中的潜在结构,帮助我们理解数据的内在特点。

常见的聚类算法包括K均值、层次聚类和DBSCAN等。

3. 关联规则挖掘关联规则挖掘是用来发现数据中项之间的相关性和规律的技术。

通过关联规则挖掘,我们可以找到数据中多个项之间的潜在关系,从而帮助企业做出更好的决策。

常见的关联规则挖掘算法包括Apriori和FP-growth等。

4. 时间序列分析时间序列分析是一种用来处理时间序列数据的技术,它可以识别出数据中的趋势、周期和季节性,并用来预测未来的值。

时间序列分析在金融、气象和交通等领域有着广泛的应用。

数据挖掘考试复习资料

数据挖掘考试复习资料

数据挖掘考试复习资料一、名词解释1、数据仓库:面向主题的、集成的、非易失的、是随时间变化的数据集合,用来支持管理决策.2、聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类3、数据挖掘:从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识4、人工神经网络:人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。

在工程与学术界也常直接简称为神经网络或类神经网络.5、文本挖掘:文本数据挖掘(Text Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术6、OLAP:又称联机分析处理,是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业为特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。

定义1:OLAP是针对特定问题的联机数据访问和分析。

通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入地观察。

定义2:OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业“维”特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。

)7、概念描述:就是对目标类对象的内涵进行描述,并概括这类对象的有关特征.特征化:提供给定数据汇集的简洁汇总比较:提供两个或多个数据汇集的比较描述8、信息熵:在信息论中,熵被用来衡量一个随机变量出现的期望值.它代表了在被接收之前,信号传输过程中损失的信息量,又被称为信息熵。

信息熵也称信源熵、平均自信息量。

二、简答题1、数据仓库和传统数据库的区别和联系是什么?(1)区别:数据仓库和数据库是不同的概念数据仓库是一个综合的解决方案,而数据库只是一个现成的产品。

数据仓库需要一个功能十分强大的数据库引擎来驱动,它更偏向于工程。

数据挖掘期末考试重点

数据挖掘期末考试重点

1·元数据:是关于数据仓库中数据的数据。

2·数据仓库中的元数据可以分为四类1) 关于数据源的元数据:对不同平台上的数据源的物理结构和含义的描述;2) 关于数据模型的元数据:描述了数据仓库中有什么数据以及数据之间的关系,它们是用户使用管理数据仓库的基础;3) 关于数据仓库映射的元数据:反映数据仓库中的数据项是从哪个特定的数据源填充的,经过哪些转换,变换和加载过程;4) 关于数据仓库使用的元数据:数据仓库中信息的使用情况描述,这类元数据能帮助用户到数据仓库查询所需要的信息,用于解决企业问题。

3·数据仓库和数据集市的区别数据仓库收集了关于整个组织的主题(如顾客、商品、销售、资产和人员)信息,因此是企业范围的。

对于数据仓库,通常使用星座模式,因为它能对多个相关的主题建模。

数据集市是数据仓库的一个部门子集,它针对选定的主题,因此是部门范围的。

对于数据集市,流行星型或雪花模式,因为它们都适合对单个主题建模。

4·数据集市主要有两种结构:从属数据集市 (数据直接来自于中央数据仓库)独立数据集市 (数据直接来源于各生产系统)5·数据库与数据仓库的联系与区别?联系:数据仓库的出现,并不是要取代数据库。

可以说,数据库、数据仓库相辅相成、各有千秋。

区别:出发点不同(面向事物/面向主题)、存储的数据不同(实时数据/历史数据)、设计规则不同(范式/反范式)、提供的功能不同(捕获数据/分析数据)、基本元素不同(事实表/维表)、容量不同(GB/TB)、服务对象不同(业务处理人员/高层决策人员)。

6·粒度的作用:粒度越小,数据的综合程度越低,存储的数据越详细,需要的索引项越多,存储的数据量越大;回答查询的种类越多。

粒度越高,数据综合程度越高,需要的索引项越少,存储的数据量越小,查询的效率也越高7·数据集市(data marts)通常是指较为小型化、针对特定目标且建设成本较低的一种数据仓库。

python数据挖掘大作业聚类总结

python数据挖掘大作业聚类总结

python数据挖掘大作业聚类总结Python数据挖掘大作业聚类总结一、任务目标本次Python数据挖掘大作业的目标是利用聚类算法对给定的数据集进行聚类分析,并将结果可视化展示。

通过对数据的聚类,可以发现数据中的模式和结构,为进一步的数据分析和应用提供支持。

二、数据集介绍本次任务所使用的数据集是一个包含10个特征的样本数据集,每个样本有30个观测值。

数据集包含了各种类型的特征,如数值型、类别型和有序型等。

为了进行聚类分析,需要将数据集划分为若干个簇,使得同一簇内的样本尽可能相似,不同簇的样本尽可能不相似。

三、聚类算法选择在本次任务中,我们选择了K-means聚类算法对数据进行聚类分析。

K-means算法是一种常见的聚类算法,其基本思想是:将n个样本划分为k个簇,使得每个簇内的样本尽可能相似,不同簇的样本尽可能不相似。

K-means算法采用迭代的方式进行聚类,每次迭代都重新计算簇的中心点,并重新分配样本到最近的簇中。

四、代码实现下面是本次任务中K-means聚类的代码实现:```pythonfrom import KMeansimport as pltimport pandas as pd读取数据集data = _csv('')将数据集划分为特征和标签两部分X = [:, :-1] 特征部分y = [:, -1] 标签部分(可省略)划分训练集和测试集(可省略)X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=, random_state=42)定义K-means模型并进行训练kmeans = KMeans(n_clusters=3) 假设要分成3个簇(X_train)预测测试集的标签并计算准确率(可省略)y_pred = (X_test)accuracy = accuracy_score(y_test, y_pred)print('Accuracy:', accuracy)可视化聚类结果(需要安装matplotlib库)([:, 0], [:, 1], c=_, cmap='viridis') 可根据实际情况修改特征维度和颜色映射方式()```五、结果分析通过运行上述代码,我们可以得到聚类的结果。

数据挖掘期末笔记总结

数据挖掘期末笔记总结

数据挖掘期末笔记总结数据挖掘是一门研究如何通过大规模数据进行知识发现和模型构建的学科。

它是人工智能、机器学习和数据库技术的交叉学科,涉及数据预处理、特征选择、模型建立和模型评估等方面。

数据挖掘的任务包括分类、聚类、关联规则挖掘、异常检测和时序预测等。

本次期末笔记总结将从数据预处理、特征选择、聚类、分类和模型评估等方面进行概括。

1. 数据预处理数据预处理是数据挖掘的第一步,目的是将原始数据转化为适合进行挖掘的数据。

数据预处理包括数据清洗、数据集成、数据转换和数据规约。

数据清洗主要是处理缺失值、噪声和异常值;数据集成是将多个数据源合并成一个一致的数据集;数据转换是将数据转化为适合挖掘算法的形式;数据规约是简化数据,提高计算效率。

2. 特征选择特征选择是从所有可能的特征中选择出有用的特征,用于构建模型或进行数据分析。

特征选择的方法包括过滤法、包裹法和嵌入法。

过滤法是通过计算特征与目标变量之间的相关性来选择特征;包裹法是通过构建模型来评估特征的重要性;嵌入法是将特征选择嵌入到模型训练过程中,根据特征的权重来选择特征。

3. 聚类聚类是将相似的数据对象分组到同一个簇中的过程。

聚类可以用于数据的探索性分析、异常检测和市场细分等任务。

常用的聚类算法包括K均值聚类、层次聚类和密度聚类。

K均值聚类是一种基于距离度量的聚类算法,将数据点划分到K个簇中,使得每个数据点到所属簇的质心的距离最小化;层次聚类是一种通过不断地合并和拆分簇来构建聚类层次结构的算法;密度聚类是一种通过计算数据点的密度来进行聚类的算法。

4. 分类分类是基于已有的类别标签训练模型,然后预测新样本的类别标签。

分类是监督学习的一种形式,常用的分类算法包括决策树、朴素贝叶斯、支持向量机和神经网络。

决策树通过将数据集划分为不同的子集来构建一个预测模型;朴素贝叶斯通过计算事件发生的先验概率和条件概率来进行分类;支持向量机通过寻找一个超平面来将不同类别的数据分隔开;神经网络通过多个神经元的连接和激活函数的计算来进行分类。

数据挖掘知识点归纳

数据挖掘知识点归纳

知识点一数据仓库1.数据仓库是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。

2.数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。

3.数据仓库围绕主题组织4.数据仓库基于历史数据提供消息,是汇总的。

5.数据仓库用称作数据立方体的多维数据结构建模,每一个维对应于模式中的一个或者一组属性,每一个单元存放某种聚集的度量值6.数据立方体提供数据的多维视图,并允许预计算和快速访问汇总数据7.提供提供多维数据视图和汇总数据的预计算,数据仓库非常适合联机分析处理,允许在不同的抽象层提供数据,这种操作适合不同的用户角度8.OLAP例子包括下钻和上卷,允许用户在不同的汇总级别上观察数据9.多维数据挖掘又叫做探索式多维数据挖掘OLAP风格在多维空间进行数据挖掘,允许在各种粒度进行多维组合探查,因此更有可能代表知识的有趣模式。

知识点二可以挖掘什么数据1.大量的数据挖掘功能,包括特征化和区分、频繁模式、关联和相关性分析挖掘、分类和回归、聚类分析、离群点分析2.数据挖掘功能用于指定数据挖掘任务发现的模式,分为描述性和预测性3.描述性挖掘任务刻画目标数据中数据的一般性质4.预测性挖掘任务在当前数据上进行归纳,以便做出预测5.数据可以与类或概念相关联6.用汇总、简洁、精确的表达描述类和概念,称为类/概念描述7.描述的方法有数据特征化(针对目标类)、数据区分(针对对比类)、数据特征化和区分8.数据特征化用来查询用户指定的数据,上卷操作用来执行用户控制的、沿着指定维的数据汇总。

面向属性的归纳技术可以用来进行数据的泛化和特征化,而不必与用户交互。

形式有饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。

结果描述可以用广义关系或者规则(也叫特征规则)提供。

9.用规则表示的区分描述叫做区分规则。

10.数据频繁出现的模式叫做频繁模式,类型包括频繁项集、频繁子项集(又叫频繁序列)、频繁子结构。

数据挖掘与分析期末总结

数据挖掘与分析期末总结

数据挖掘与分析期末总结数据挖掘与分析是一门涉及大量理论和实践的学科,它利用统计学,机器学习,人工智能等技术和方法,从大量的数据中发掘出有价值的信息和知识。

在本学期的数据挖掘与分析课程中,我学习了许多有关数据挖掘与分析的基本概念、常用算法和实践技巧。

现在我来分享一下我的学习心得和收获。

首先,我学习了数据挖掘与分析的基本概念和流程。

数据挖掘与分析的目标是从大量的数据中提取有用的信息和知识,并用于决策和预测。

它包括数据预处理、特征选择、模型建立、模型评估等步骤。

在数据预处理阶段,我们需要对原始数据进行清洗、去除噪声、填补缺失值等操作,以提高数据质量。

在特征选择阶段,我们需要通过特征选择算法从大量特征中选择最具有代表性的特征,以减少模型复杂度和计算开销。

在模型建立阶段,我们需要选择合适的模型或算法,并用训练数据对其进行训练。

最后,在模型评估阶段,我们需要使用测试数据对模型的性能进行评估,并根据评估结果进行调优。

其次,我学习了数据挖掘与分析的常用算法和技术。

在本学期的课程中,我学习了许多经典的数据挖掘与分析算法,如决策树、聚类、分类、回归等。

这些算法在实际应用中具有广泛的适用性和效果。

决策树算法可以用于分类和回归问题,它通过对特征的不断划分,从而构建一个树形结构的模型。

聚类算法可以将数据分为若干个紧密相关的类别,从而揭示出数据的内在结构和规律。

分类算法可以用于将数据分为多个预定义的类别,它可以用于判断新的数据属于哪个类别。

回归算法可以用于建立变量之间的函数关系,从而进行预测和模拟。

此外,我还学习了数据挖掘与分析的实践技巧和工具。

在实践过程中,我们需要选择合适的工具和技术来处理和分析数据。

例如,Python语言是一个非常强大的数据分析工具,它提供了许多用于数据处理和建模的库和函数。

在课程中,我学习了如何使用Python进行数据处理、特征选择、模型建立和模型评估。

此外,我还学习了如何使用数据可视化工具(如Matplotlib和Seaborn)将数据以图形的形式展示出来,以便更好地理解数据和模型。

数据挖掘期末大作业

数据挖掘期末大作业

数据挖掘期末大作业1.数据挖掘的发展趋势是什么?大数据环境下如何进行数据挖掘。

对于数据挖掘的发展趋势,可以从以下几个方面进行阐述:(1)数据挖掘语言的标准化描述:标准的数据挖掘语言将有助于数据挖掘的系统化开发。

改进多个数据挖掘系统和功能间的互操作,促进其在企业和社会中的使用。

(2)寻求数据挖掘过程中的可视化方法:可视化要求已经成为数据挖掘系统中必不可少的技术。

可以在发现知识的过程中进行很好的人机交互。

数据的可视化起到了推动人们主动进行知识发现的作用。

(3)与特定数据存储类型的适应问题:根据不同的数据存储类型的特点,进行针对性的研究是目前流行以及将来一段时间必须面对的问题。

(4)网络与分布式环境下的KDD问题:随着Internet的不断发展,网络资源日渐丰富,这就需要分散的技术人员各自独立地处理分离数据库的工作方式应是可协作的。

因此,考虑适应分布式与网络环境的工具、技术及系统将是数据挖掘中一个最为重要和繁荣的子领域。

(5)应用的探索:随着数据挖掘的日益普遍,其应用范围也日益扩大,如生物医学、电信业、零售业等领域。

由于数据挖掘在处理特定应用问题时存在局限性,因此,目前的研究趋势是开发针对于特定应用的数据挖掘系统。

(6)数据挖掘与数据库系统和Web数据库系统的集成:数据库系统和Web数据库已经成为信息处理系统的主流。

2. 从一个3输入、2输出的系统中获取了10条历史数据,另外,最后条数据是系统的输入,不知道其对应的输出。

请使用SQL SERVER 2005的神经网络功能预测最后两条数据的输出。

首先,打开SQL SERVER 2005数据库软件,然后在界面上右键单击树形图中的“数据库”标签,在弹出的快捷菜单中选择“新建数据库”命令,并命名数据库的名称为YxqDatabase,单击确定,如下图所示。

然后,在新建的数据库YxqDatabas中,根据题目要求新建表,相应的表属性见下图所示。

在新建的表完成之后,默认的数据表名称为Table_1,并打开表,根据题目提供的数据在表中输入相应的数据如下图所示。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘期末大作业
1.数据挖掘的发展趋势是什么?大数据环境下如何进行数据挖掘。

对于数据挖掘的发展趋势,可以从以下几个方面进行阐述:
(1)数据挖掘语言的标准化描述:标准的数据
挖掘语言将有助于数据挖掘的系统化开发。

改进多个数据挖掘系统和功能间的互操作,促进其在企业和社会中的使用。

(2)寻求数据挖掘过程中的可视化方法:可视
化要求已经成为数据挖掘系统中必不可少的技术。

可以在发现知识的过程中进行很好的人机交互。

数据的可视化起到了推动人们主动进行知识发现的作用。

(3)与特定数据存储类型的适应问题:根据不
同的数据存储类型的特点,进行针对性的研究是目前流行以及将来一段时间必须面对的问题。

(4)网络与分布式环境下的KDD问题:随着
Internet的不断发展,网络资源日渐丰富,这就需要分散的技术人员各自独立地处理分离数据库的工作方式应是可协作的。

因此,考虑适应分布式与网络环境的工具、技术及系统将是数据挖掘中一个最为重要和繁荣的子领域。

(5)应用的探索:随着数据挖掘的日益普遍,其应用范围也日益扩大,如生物医学、电信业、零售业等
领域。

由于数据挖掘在处理特定应用问题时存在局限性,因此,目前的研究趋势是开发针对于特定应用的数据挖掘系统。

(6)数据挖掘与数据库系统和Web数据库系统的集成:数据库系统和Web数据库已经成为信息处理
系统的主流。

2. 从一个3输入、2输出的系统中获取了10条历史数据,另外,最后条数据是系统的输入,
不知道其对应的输出。

请使用SQL SERVER 2005的神经网络功能预测最后两条数据的输出。

首先,打开SQL SERVER 2005数据库软件,然后在界面上右键单击树形图中的“数据库”标签,在弹出的快捷菜单中选择“新建数据库”命令,并命名数据库的名称为YxqDatabase,单击确定,如下图所示。

然后,在新建的数据库YxqDatabas中,根据题目要求新建表,相应的表属性见下图所示。

在新建的表完成之后,默认的数据表名称为Table_1,并打开表,根据题目提供的数据在表中输入相应的数据如下图所示。

在测试数据被输入到数据库中之后,打开SQL Server Business Intelligence Development Studio命令,并在文件中新建项目,项目名称命名为MyData,并单击确定,进入下一步,如下图所示。

在进入的新页面上,新建一个数据源,并在出现的新窗口中单击下一步,并选择新建按钮,就会出
现连接管理器窗口,如右图所示。

在打开的界面中,在“提供程序”下拉列表框中选择Microsoft OLE DB Provider for SQL Server选项,选择完成后,单
击确定,进入下一界面,至此,完成了数据连接的工作。

在建立完数据连接之后,需要建立数据源视图,右键单击数据源视图,并选中“新建数据源视图”命令,在数据库YxqDatabase下的数据表Table_1中,选中这个数据表,然后单击下一步,并更改数据源视图的名称为YxqView,单击完成,这样就建好了数据源视图。

如下图所示。

在上面的工作完成之后,我们在界面中单击“挖掘结构”,并新建一个挖掘结构然后点击下一步,在弹出的新窗口“选择挖掘技术”中,我们选择“Microsoft神经网络”选项,并单击下一步,如下图所示。

弹出的新窗口要求对Table_1中的各个列指定类型:键类型、输入类型、可预测类型。

把数据表Table_1中的data列定为键类型,x1,x2,x3规定为输入类型,y1,y2规定为可预测类型,选择之后情形如下图所示。

在上图中,单击下一步,再选择默认值,并单击下一步,就完成了挖掘模型的创建。

挖掘模型创建完成之后会出现下图所示的窗口。

在此界面中,我们选择“挖掘模型查看器”选项卡,会弹出一个小窗口,提问“服务器内容似乎已过时。

是否先生成和部署项目?”单击是按钮,系统将花费一点时间进行部署和生成,见下图所示。

部署成功后,就会弹出另外一个小窗口,提问“必须先处理Table_1挖掘模型才能浏览其内容。

处理模型可能要花费一些时间,具体将取决于数据量。

是否继续?”单击“是”按钮,并在新弹出的窗口中单击“运行”按钮”处理成功之后在两个窗口分别单击“关闭”按钮,就会得到下图所示的数据分析图表。

最后,选择“挖掘模型预测”选项卡,进行数据预测,出现的界面如下图所示。

在所示的界面中,我们单击“选项事例表”按钮,在选择导航中,选择事例表为Table_1,将出现下图所示的界面。

在上图所示的结构中,单击工具栏上的“单独查询”按钮,即产生下图所示的界面。

在上图所示的界面中,把表中数据的最后一行分别输入到变量x1,x2,x3后面的空白中,然后把挖掘模型下的Y1,Y2项拖动至最下面一行的最左边位置。

然后单击工具栏上的“切换到查询结果”按钮,会出现下图所示的界面。

至此,我们通过神经网络功能预测出了最后两条数据的输出。

3.用ID3算法生成分类决策树
在之前创建好的数据源与数据源视图的前提下,我们开始创建决策树的挖掘结构,单击“挖掘结构”,并从中选择“新建挖掘结构”命令,系统将打开数据挖掘导向。

在“欢迎使用数据挖掘向导”页上,单击下一步按钮,在“选择定义方法”页上,确认已选中“你要使用何种数据挖技术?”下拉列
表中选择“Microsoft决策树”选项,如下图所示。

然后单击下一步,出现“指定定型数据”页,如下图所示。

在界面中,确保选中RID列右边“键”列中的复选框,这即是决策树分析中所用的属性。

在上图中,单击下一步,在随后“指定列的内容和数据类型”页上,单击下一步按钮,出现“完成向导”页。

接下来,我们开始设置决策树挖掘结构的相关参数,在“挖掘模型”选项卡上单击鼠标右键,从弹出的快捷菜单中选择“设置算法参数”命令,系统将打开“算法参数”对话框,如下图所示。

在设置好决策树挖掘结构的相关参数之后,接下来,开始建立决策树挖掘模型,选择“挖掘模型查看器”选项卡,程序是否建立部署项目,选择“是”,单击运行按钮,出现“处理进度”窗口,我们再次选择“挖掘模型查看器”选项卡,生成的决策树如下图所示。

4.数据挖掘与数据仓库的关系是什么?谈谈对数据挖掘的理解。

首先,数据挖掘是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程。

简单的说,数据挖掘就是从大量的数据中提取或“挖掘”知识。

然而,数据仓库通常是指一个数据库环境,而不是指一件产品,它提供用户用于决策支持的当前和历史数据,这些数据在传统的数据库中通常不方便得到。

简单来说,数据仓库就是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合,通常用于辅助决策支持。

其实,可以用这样一个简单例子形象化两者的关系,如果将数据仓库比作矿井,那么数据挖掘就是深入矿井采矿的工作。

决策者利用数据作决策,即从数据仓库中挖掘出对决策有用的信息与知识,是建立数据仓库与进行数据挖掘的最大目的。

只有数据仓库先建行立完成,且数据仓库所含数据时干净、完备和经过整合的,数据挖掘才能有效地进行,因此从一定意义上可将两者的关系解读为数据挖掘时从数据仓库中找出有用信息的一种过程与技术。

5.通过我班同学的身体特征,进行数据的分析,各特征有序号、身高(cm)、体重(kg)、胸
围(cm)、腰围(cm)、臀围(cm),总共有50个学生的资料。

首先,通过之前所创建的数据源、数据源视图,在接下来我们开始创建k-means挖掘结构,在此,我们新建挖掘结构,如下图所示。

然后单击下一步,接下来出现的“指定定型数据”页,也即是指定聚类分析中所用的属性,如下图所示。

至此,k-means挖掘结构创建完成,接下来我们开始设置k-means挖掘结构的相关参数,在“挖掘模型”选项卡上单击鼠标右键,从弹出的快捷菜单中选择“设置算法参数”命令,系统将打开“算法参数”对话框,如下图所示。

接着,我们开始建立k-means挖掘模型,然后选择“挖掘模型查看器”,程序问是否建立部署项目,
选择“是”。

在接下来的“处理挖掘模型”页上,单击运行按钮,出现“处理速度”页,如下图所示。

在上图中,处理进度完成之后,单击关闭按钮,建模完成。

然后再次选择“挖掘模型查看器”选项卡,由此得到的k-means聚类结果如下图所示。

在上图所示的界面中,我们再次单击“分类对比”按钮,得到下图所示,至此通过图示所示,我们可以分析出班上50位同学的各种身体特征指标。

相关文档
最新文档