数据仓库与数据挖掘教程(第2版)课后习题答案 第五章

数据仓库与数据挖掘教程(第2版)课后习题答案 第五章
数据仓库与数据挖掘教程(第2版)课后习题答案 第五章

第五章作业

1.数据仓库的两类用户有什么本质的不同?P96

数据仓库的用户有两类:信息使用者和探索者。

信息使用者是使用数据仓库的大量用户,信息使用者以一种可以预测的、重复性的方式使用数据仓库平台。探索者完全不同于信息使用者,他们有一个完全不可预测的、非重复性的数据使用模式。

2.数据仓库的信息使用者与数据库的信息使用者有什么不同?

数据库的信息使用者主要关心当前某一个时间段内的数据,而数据仓库的信息使用者关心企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

3.

1非规格化

规范化的作用是产生一种完全没有数据冗余的设计方法。

但是,有时在数据仓库设计中引入一些有限的数据冗余来提高数据访问效果。

2创建数据阵列

创建数据阵列,将相关类型的数据(如:1月、2月、3月等月份中的数据)存储在一起,提高访问效果。

3预连接表格

一个公用键和共同使用的数据将表格合并在一起。

共享一个公用键,可以将多个表格合并到一个物理表格中。这样做可以很大程度的提高数据访问效率。

4预聚集数据

根据“滚动概括”结构来组织数据。

当数据被输入到数据仓库中时,以每小时为基础存储数据。在这一天结束时,以每天为基础存储累加每小时的数据。在一周结束时,以每周为基础存储累加每天的数据。月末时,则以每月为基础存储累加每周的数据。

5聚类数据

将不同类型的数据记录放置在相同的物理位置。这为用户查看这些记录,可以在同一地点找到它们,提高查询效率。

6压缩数据

压缩可以使可读取的数据量极大。

定期净化数据

定期删除数据仓库中不需要的数据,可以为每个用户提高性能。

7合并查询

如果查询定期发生,那么可以通过把这些查询合并到同一个表格中,从而节省大量资源。

4. 增加一些数据冗余,相当于增加了某些相同的数据,这些数据往往是我们很需要的或者是经常被使用的,由于这些数据所占总量的比例增加,所以被访问的概率增加,从而减少了查询时间,提高了查询速度。

5. 聚类数据:基于产生共同信息,将不同类型的数据记录放置在相同的物理位置。

聚集数据:即概括数据,相同的商业维度和指标存储数据。

6. 合并查询:把定期的一些查询合并到同一个表格中,来节省大量资源,达到扫描数据仓库表格的次数最小化。

7. 探索者所作的工作有哪些?

答:探索者查看治疗和历史记录,在多数情况下,探索者考虑数据不同类型和数据具值之间的关系。探索者要做的工作概括分析,抽取、建模和分类。

8. 数据仓库的探索者的工作与数据库的数据挖掘者的工作有什么不同?

答:数据仓库的探索者是寻找不平常的且有用的商业运作模型的用户群,探索者查看详细的资料和历史记录,他们要做的的工作有概括分析、抽取、建模和分类;

而数据库的数据挖掘者是那些对数据库中数据做出归纳和分析的专业人士,他们从数据库的数据中提炼出有用的信息和一些数据的客观规律。

9.说明企业需要哪些战略信息与实现方法。

答:企业需要的战略信息有:销量最好的产品名单、出现问题的地区、查找出现问题的原因、对比其他的数据(横向钻取)、显示最大利润以及一些警告信息。

实现方法有:查询与报表决策支持、多维分析和原因分析和预测未来。

10.

①创建数据阵列

②表格连接

③聚集数据

④聚类数据

⑤压缩数据

⑥净化数据

⑦合并查询

11.

数据库是面向事务的设计,数据仓库是面向主题设计的。

数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。

数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。

12.说明如何利用数据仓库发现问题并找出产生问题的原因

答:主要是通过三个步骤来完成的:概括分析,抽取,建模。

概括分析是第一步。分析数据的完整性和准确性。抽取是通过概括分析,所学数据的轮廓已经基本显示出来。数据抽取就是将数据仓库中抽取制定的数据并组织起来,进一步分析而不影响数据仓库的正常工作。最后一步是建模,通过以上两步的得到的数据信息进行建模从而进一步分析数据,达到发现问题及其问题的原因。

13.说明如何利用数据仓库来进行预测

答:就是建立相应的预测模型,利用历史数据建立回归方程。一般的预测模型有多元回

归模型、三次平滑预测模型、生长曲线预测模型。除了预测模型外,采用聚类模型或分类模型也能达到一定的预测效果。

14.脏数据是指在数据源中抽取、转换和装载到数据仓库的过程中出现的多余数据和无用数据。产生脏数据的途径:1,开始时定义了一些多余的数据或由于一些不合适的转换规则在转换过程中产生的无用数据。2,来自不同数据源的数据在数据结构、数据编码、数据定义等方面是不兼容的,在集成这些数据时,未对所有不同情况的数据都转成同意形式,产生遗漏或用了不匹配的转化方法而产生的数据。3,输入的数据已经过期。由于工作业务的改变,某些前期业务的数据已经过期,仍遗留在数据仓库中而造成的过期无用数据。4,用户需求的改变或数据质量有了新的要求时,那些没有适应改变要求的数据成了无用的数据。

15.清理脏数据的方法有:1,检查抽取数据的定义和数据转换规则的正确性,对那些不合适的定义和规则所造成的脏数据进行清理。2,在对多个数据源进行集成时,必须对所有不同结构、不同编码、不同定义的数据,严格按照同意格式转换后再集成,清楚那些遗留或不匹配方法产生的脏数据。3对过期数据,在形成历史数据后,根据这种数据量的大小来决定是否需要进行重新整理。

16.对5.2.2节中原因分析的实例,设计并画出决策支持系统结构图。

17.在国内某市统计局数据仓库中选出两个主题画出星型模型图。

企业基本情况:

18.沃尔玛一直是Teradata 的大客户,该公司的Teradata 装机是全球最大的数据仓库之一,并且在该公司与各家供应商的数据共享网络(称为“零售链”)中发挥着重要作用。现在还不清楚惠普的胜利对Teradata 会产生什么影响,看起来,沃尔玛不大可能一下子全部放弃在Teradata 方面的投资,不过,惠普公司在数据仓库方面的任何获胜都会抢走Teradata 的潜在业务。至周三上午为止,惠普和沃尔玛的官方都没有立即发布评论。

19.决策支持系统(decision support system ,简称dss)是辅助决策者通过数据、模型和知识,以人机交互方式进行半结构化或非结构化决策的计算机应用系统。它是管理信息系统(mis)向更高一级发展而产生的先进信息管理系统。它为决策者提供分析问题、建立模型、模拟决策过程和方案的环境,调用各种信息资源和分析工具,帮助决策者提高决策水平和质量。决策支持系统,是以管理科学、运筹学、控制论、和行为科学为基础,以计算机技术、仿真技术和信息技术为手段,针对半结构化的决策问题,支持决策活动的具有智能作用的人机系统。该系统能够为决策者提供所需的数据、信息和背景资料,帮助明确决策目标和进行问题的识别,建立或修改决策模型,提供各种备选方案,并且对各种方案进行评价和俦优选,通过人机交互功能进行分析、比较和判断,为正确的决策提供必要的支持。

DSS的概念是在20世纪70年代提出的,并在80年代获得发展。它的产生原因有:传统的MIS没有给企业带来巨大的效益,人在管理中的积极作用要得到发挥;人们对信息处理规律认识提高,面对不断变化的环境,要求更高层次的系统来直接支持决策;计算机

应用技术的发展为DSS的发展提供了物质基础。

数据库技术与应用第二版 课后答案资料

第1章习题参考答案 1.思考题 (1)什么是数据库、数据库管理系统、数据库系统?它们之间有什么联系? 答:数据库是存贮在计算机内的有结构的数据集合;数据库管理系统是一个软件,用以维护数据库、接受并完成用户对数据库的一切操作;数据库系统指由硬件设备、软件系统、专业领域的数据体和管理人员构成的一个运行系统。 (2)当前,主要有哪几种新型数据库系统?它们各有什么特点?用于什么领域,试举例说明?答:主要有:分布式数据库、面向对象数据库、多媒体数据库、数据仓库技术、空间数据库。 (3)什么是数据模型?目前数据库主要有哪几种数据模型?它们各有什么特点? 答:数据模型是一组描述数据库的概念。这些概念精确地描述数据、数据之间的关系、数据的语义和完整性约束。很多数据模型还包括一个操作集合。这些操作用来说明对数据库的存取和更新。数据模型应满足3方面要求:一是能真实地模拟现实世界;二是容易为人们理解;三是便于在计算机上实现。目前在数据库领域,常用的数据模型有:层次模型、网络模型、关系模型以及最近兴起的面向对象的模型。 (4)关系数据库中选择、投影、连接运算的含义是什么? 答: 1)选择运算:从关系中筛选出满足给定条件的元组(记录)。选择是从行的角度进行运算,选择出的记录是原关系的子集。 2)投影运算:从关系中指定若干个属性(字段)组成新的关系。投影是从列的角度进行运算,得到的新关系中的字段个数往往比原关系少。 3)连接运算:将两个关系按照给定的条件横向拼接成新的关系。连接过程是通过两个关系中公有的字段名进行的。 (5)关键字段的含义是什么?它的作用是什么?

答:一个关系中可以确定一个字段为关键字段,该字段的值在各条记录中不能有相同的值。(如:门牌号码);关键字段的作用主要是为建立多个表的关联和进行快速查询。 (6)什么是E-R图?E-R 图是由哪几种基本要素组成?这些要素如何表示? 答:E-R图也称实体-联系图(Entity Relationship Diagram),提供了表示实体类型、属性和联系的方法,用来描述现实世界的概念模型。构成E-R图的基本要素有3种,即实体、属性和联系。其表示方法为:用矩形框表示现实世界中的实体,用菱形框表示实体间的联系,用椭圆形框表示实体和联系的属性,实体名、属性名和联系名分别写在相应框内。ABAAC ABCAA 第2章习题解答 1. 思考题 (1)在SQL Server 2008中的数据库中包含哪些对象?其中什么对象是必不可少的?其作用又是什么? 答:SQL Server 2008中的数据库对象主要包括数据库关系图、表、视图、同义词、可编程性、Service Broker、存储和安全性等。其中表对象是必不可少的。表是由行和列构成的集合,用来存储数据。 (2)SQL Server提供的系统数据库master它的作用是什么?用户可以删除和修改吗?为什么?答:master 数据库记录SQL Server 系统的所有系统级信息。主要包括实例范围的元数据、端点、链接服务器和系统配置设置以及记录了所有其他数据库的存在、数据库文件的位置以及SQL Server 的初始化信息。用户不可以删除和修改,它是由系统创建和维护的数据库。 (3)什么文件是数据库文件?组成数据库的文件有哪些类型?如何识别?它们的作用是什么?答:存放数据库数据和数据库对象的文件叫数据库文件;在SQL Server 2008系统中组成数据库的文件有2种类型:数据文件和事务(事务就是一个单元的工作,该单元的工作要么全部完成,要么全部不完成)日志文件。而数据文件又由主数据文件和次数据

(完整版)数据挖掘概念课后习题答案

第 1 章 1.6 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。 使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。 ?特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所 有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩 (GPA:Grade point a ve r s ge) 的信息,还有所修的课程的最大数量。 ?区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比 较。例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最 终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级 计算机科学专业的学生,而具有低GPA 的学生的65%不是。 ?关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。 例如,一个数据挖掘系统可能发现的关联规则为: m a j or(X,“c omput i ng s c i e nc e”) ?owns(X, “pe r s ona l c omput e r”) [s uppor t=12%,c on f i d e nc e=98%] 其中,X 是一个表示学生的变量。这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台 。 个人计算机。这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度) ?分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或,而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的 功能) 相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是 预测缺失的数字型数据的值。 ?聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。 ?数据延边分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数 据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分 析、序列或周期模式匹配、和基于相似性的数据分析 1.9 列举并描述说明数据挖掘任务的五种原语。 五种原语是: ?任务相关数据:这种原语指明给定挖掘所处理的数据。它包括指明数据库、数据库表、或 数据仓库,其中包括包含关系数据、选择关系数据的条件、用于探索的关系数据的属性或 维、关于修复的数据排序和分组。 ?挖掘的数据类型:这种原语指明了所要执行的特定数据挖掘功能,如特征化、区分、关 联、分类、聚类、或演化分析。同样,用户的要求可能更特殊,并可能提供所发现的模式必 须匹配的模版。这些模版或超模式(也被称为超规则)能被用来指导发现过程。 ?背景知识:这种原语允许用户指定已有的关于挖掘领域的知识。这样的知识能被用来指导 知识发现过程,并且评估发现的模式。关于数据中关系的概念分层和用户信念是背景知识的 形式。 ?模式兴趣度度量:这种原语允许用户指定功能,用于从知识中分割不感兴趣的模式,并且 被用来指导挖掘过程,也可评估发现的模式。这样就允许用户限制在挖掘过程返回的不感兴 趣的模式的数量,因为一种数据挖掘系统可能产生大量的模式。兴趣度测量能被指定为简易 性、确定性、适用性、和新颖性的特征。 ?发现模式的可视化:这种原语述及发现的模式应该被显示出来。为了使数据挖掘能有效地

《基础会计学》第二章课后习题及参考答案

5.在借贷记账法下,有关账户之间形成的应借应贷的相互关系称为账户对应关系。()第二章会计记账方法 6.总分类账户与明细分类账户进行平行登记时的所谓同时登记,确切地说应该是同一会计期间作业一: 登记。()一,单项选择题: 7.平行登记的要求中,所谓登记方向一致,是指会计分录中总分类账户和明细分类账户的记账 1.下列科目中属于流动资产的是() 符号是一致的。()A预提费用B短期借款C资本公积D应收账款 8.采用借贷记账法,每发生一笔经济业务必定要在两个账户中同时登记。() 2.企业全部资产减去全部负债后的净额,就是企业的() 四,名词解释A所有者权益B实收资本C资本公积D盈余公积 平行登记发生额平衡法余额平衡法 3.预付供货单位货款属于企业的一项() 五,简答题A资产B负债C收入D费用 1.简述借贷复式记账法的内容和特点。 4.经济业务发生后,会计等式的平衡关系() 2.简述总账和明细账平行登记的要点及两者数量关系核对的公式。 A可能会受影响B不一定受影响C必然不受影响D必然受影响 3.简述借贷记账法的试算平衡。 5.资产与权益的平衡关系是指()

六,综合题A一项资产金额与一项权益金额的相等关系B几项资产金额与一项权益金额的相等关系 1.计算题C流动资产合计金额与流动负债金额的相等关系D资产总额与权益总额的相等关系 某企业有关会计要素的数据如下: 6.引起资产内部一个项目增加,另一个项目减少,而资产总额不变的经济业务是() 负债5000万元;所有者权益8000万元;A用银行存款偿还短期借款B收到投资者投入的机器一台C收到外单位前期欠的货款 费用200万元;利润6000万元;D收到国家拨入的特种储备物资 要求: 计算资产总额和收入总额 7.企业用借款直接偿还应付购货款,属于() 2.某公司设有以下账户: 实收资本、本年利润、现金、银行存款、待摊费用、预提费用、原材A资产项目和权益项目同增B权益项目之间此增彼减C资产项目和权益项目同减 料、固定资产、其他应收款、应收账款、应付账款、预收账款、预付账款、其他应付款、材料采D资产项目之间此增彼减 购、累计折旧、管理费用、财务费用、营业费用、主营业务收入、其他业务收入、营业外收入、 8.只有采用权责发生制原则核算的企业,才需要设置() 主营业务成本、其他业务支出、应交税金、短期借款、资本公积、制造费用、生产成本、库存商A待摊费用B本年利润C银行存款D库存商品

数据仓库与数据挖掘课后习题答案

数据仓库与数据挖掘 第一章课后习题 一:填空题 1)数据库中存储的都是数据,而数据仓库中的数据都是一些历史的、存档的、归纳的、计算的数据。 2)数据仓库中的数据分为四个级别:早起细节级、当前细节级、轻度综合级、高度综合级。3)数据源是数据仓库系统的基础,是整个系统的数据源泉,通常包括业务数据和历史数据。4)元数据是“关于数据的数据”。根据元数据用途的不同将数据仓库的元数据分为技术元数据和业务元数据两类。 5)数据处理通常分为两大类:联机事务处理和联机事务分析 6)Fayyad过程模型主要有数据准备,数据挖掘和结果分析三个主要部分组成。 7)如果从整体上看数据挖掘技术,可以将其分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。 8)那些与数据的一般行为或模型不一致的数据对象称做孤立点。 9)按照挖掘对象的不同,将Web数据挖掘分为三类:web内容挖掘、web结构挖掘和web 使用挖掘。 10)查询型工具、分析型工具盒挖掘型工具结合在一起构成了数据仓库系统的工具层,它们各自的侧重点不同,因此适用范围和针对的用户也不相同。 二:简答题 1)什么是数据仓库?数据仓库的特点主要有哪些? 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支

持管理决策。 主要特点:面向主题组织的、集成的、稳定的、随时间不断变化的、数据的集合性、支持决策作用 2)简述数据挖掘的技术定义。 从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。 3)什么是业务元数据? 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够读懂数据仓库中的数据 4)简述数据挖掘与传统分析方法的区别。 本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。 5)简述数据仓库4种体系结构的异同点及其适用性。 a.虚拟的数据仓库体系结构 b.单独的数据仓库体系结构 c.单独的数据集市体系结构 d.分布式数据仓库结构

高数课后习题及答案 第二章 2.3

2.2)1 ()3,0 x f x x ==; 解: 11 lim 11 lim lim ()lim 3330 lim ()lim 333 x x x x x x x x x x f x f x - →--+ →++-∞ →→+∞ →→========+∞ 因为0 lim ()lim ()x x f x f x - + →→≠,所以3 lim ()x f x →-不存在。 3)2 11(),02x f x x - ?? == ? ?? ; 解: 2 10000 11lim ()lim ()lim ()lim 22x x x x x f x f x f x -+- -∞ →→→→?? ??=====+∞ ? ??? ?? 所以3 lim ()x f x →-不存在。 4)3,3 9)(2 -=+-= x x x x f ; 解:63 ) 3)(3(lim )(lim )(lim 3 3 3 -=+-+==+ + - -→-→-→x x x x f x f x x x 故极限6)(lim 3 -=-→x f x 2 2 2 2 2 5).lim ()224,lim ()3215, lim ()lim (),lim ()x x x x x f x f x f x f x f x -+-+→→→→→=?==?-=≠解:因为所以不存在。 ()0 6.lim ()lim 21,lim ()lim cos 12,lim ()lim (),lim ()x x x x x x x x f x f x x f x f x f x --++-+→→→→→→→===+=≠)解:因为所以不存在。 7)1()arctan ,0f x x x ==;

数据挖掘课后习题资料

第1 章数据仓库的概念与体系结构 1. 面向主题的,相对稳定的。 2. 技术元数据,业务元数据。 3. 联机分析处理OLAP。 4. 切片(Slice),钻取(Drill-down 和Roll-up 等)。 5. 基于关系数据库。 6. 数据抽取,数据存储与管理。 7. 两层架构,独立型数据集市,依赖型数据集市和操作型数据存储,逻辑型数据集市和实时数据仓库。 8. 可更新的,当前值的。 9. 接近实时。 10. 以报表为主,以分析为主,以预测模型为主,以营运导向为主。 11. 答: 数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。 数据仓库的特点包含以下几个方面: (1)面向主题。操作型数据库的数据组织是面向事务处理任务,各个业务系统之间各 自分离;而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点领域,一个主题通常与多个操作型业务系统或外部档案数据相关。 (2)集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间 相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据作抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企事业单位一致的全局信息。也就是说存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义。 (3)相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。 数据仓库的数据主要供单位决策分析之用,对所涉及的数据操作主要是数据查询和加载,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存,几乎不再做修改和删除操作,也就是说针对数据仓库,通常有大量的查询操作及少量定期的加载(或刷新)操作。 (4)反映历史变化。操作型数据库(OLTP)主要关心当前某一个时间段内的数据,而 数据仓库中的数据通常包含较久远的历史数据,因此总是包括一个时间维,以便可以研究趋势和变化。数据仓库系统通常记录了一个单位从过去某一时点(如开始启用数据仓库系统的时点)到目前的所有时期的信息,通过这些信息,可以对单位的发展历程和未来趋势做出定量分析和预测。 12. 答: (1)两层架构(Generic Two-Level Architecture)。 (2)独立型数据集市(Independent Data Mart)。 (3)依赖型数据集市和操作型数据存储(Dependent Data Mart and Operational Data Store)。 (4 )逻辑型数据集市和实时数据仓库(Logical Data Mart and Real-Time Data

(完整版)大数据技术原理与应用林子雨版课后习题答案

第一章 1.试述信息技术发展史上的3次信息化浪潮及具体内容。 2.试述数据产生方式经历的几个阶段 答:运营式系统阶段,用户原创内容阶段,感知式系统阶段。 3.试述大数据的4个基本特征 答:数据量大、数据类型繁多、处理速度快和价值密度低。 4.试述大数据时代的“数据爆炸”的特性 答:大数据时代的“数据爆炸”的特性是,人类社会产生的数据一致都以每年50%的速度增长,也就是说,每两年增加一倍。 5.数据研究经历了哪4个阶段?

答:人类自古以来在科学研究上先后历经了实验、理论、计算、和数据四种范式。 6.试述大数据对思维方式的重要影响 答:大数据时代对思维方式的重要影响是三种思维的转变:全样而非抽样,效率而非精确,相关而非因果。 7.大数据决策与传统的基于数据仓库的决策有什么区别 答:数据仓库具备批量和周期性的数据加载以及数据变化的实时探测、传播和加载能力,能结合历史数据和实时数据实现查询分析和自动规则触发,从而提供对战略决策和战术决策。 大数据决策可以面向类型繁多的、非结构化的海量数据进行决策分析。 8.举例说明大数据的基本应用 答: 9.举例说明大数据的关键技术

答:批处理计算,流计算,图计算,查询分析计算 10.大数据产业包含哪些关键技术。 答:IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。 11.定义并解释以下术语:云计算、物联网 答:云计算:云计算就是实现了通过网络提供可伸缩的、廉价的分布式计算机能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。 物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人类和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。 12.详细阐述大数据、云计算和物联网三者之间的区别与联系。

数据仓库与数据挖掘课后习题答案

数据仓库与数据挖掘课后习 题答案 -标准化文件发布号:(9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

数据仓库与数据挖掘 第一章课后习题 一:填空题 1)数据库中存储的都是数据,而数据仓库中的数据都是一些历史的、存档的、归纳的、计算的数据。 2)数据仓库中的数据分为四个级别:早起细节级、当前细节级、轻度综合级、高度综合级。 3)数据源是数据仓库系统的基础,是整个系统的数据源泉,通常包括业务数据和历史数据。 4)元数据是“关于数据的数据”。根据元数据用途的不同将数据仓库的元数据分为技术元数据和业务元数据两类。 5)数据处理通常分为两大类:联机事务处理和联机事务分析 6)Fayyad过程模型主要有数据准备,数据挖掘和结果分析三个主要部分组成。 7)如果从整体上看数据挖掘技术,可以将其分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。 8)那些与数据的一般行为或模型不一致的数据对象称做孤立点。 9)按照挖掘对象的不同,将Web数据挖掘分为三类:web内容挖掘、web结构挖掘和web使用挖掘。 10)查询型工具、分析型工具盒挖掘型工具结合在一起构成了数据仓库系统的工具层,它们各自的侧重点不同,因此适用范围和针对的用户也不相同。 二:简答题 1)什么是数据仓库数据仓库的特点主要有哪些 2) 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。 主要特点:面向主题组织的、集成的、稳定的、随时间不断变化的、数据的集合性、支持决策作用 3)简述数据挖掘的技术定义。 从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。 4)什么是业务元数据? 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够读懂数据仓库中的数据 5)简述数据挖掘与传统分析方法的区别。 本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。 6)简述数据仓库4种体系结构的异同点及其适用性。 a.虚拟的数据仓库体系结构 b.单独的数据仓库体系结构

数据仓库习题答案

第一章 1.为什么不能依靠传统的业务处理系统进行决策分析?(P1-3) 2.在将数据源中的数据加载到数据仓库之前需要完成那些工作?为什么要进行这些工作?(数据准备P13-14 另外加“抽取”) 3.(选做)如果创建一个数据仓库,主要是分析关于客户的人口统计(收入、家庭人口、家庭位置、爱好等)。数据仓库的目的在于将特定的产品推销给合适的潜在客户群。这个数据仓库应该从哪些地方获取数据源,数据仓库的体系结构应该包含哪些部分。(P12,8) 4.从数据挖掘与数据库、统计学、机器学习的关系来讨论什么是数据挖掘? 5.在数据挖掘过程中需要涉及到哪些过程?(P31-35) (1). 确定挖掘对象 清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步. (2)数据准备 1) 数据的选择:选择出适用于数据挖掘应用的数据. 2) 数据的预处理:研究数据的质量, 并确定将要进行的挖掘操作的类型.、(3) 模型的构建:建立一个分析模型.这个分析模型是针对挖掘算法建立的。(4)数据挖掘:对所得到的经过转换的数据进行挖掘. (5)结果分析:解释并评估结果.其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术. (6)知识的应用:将分析所得到的知识集成到业务信息系统的组织结构中去,使其在实际的管理决策分析中得到应用 6.在现实中有哪些人需要使用数据挖掘技术来帮助他的工作? (P35) 第二章 名词解释; 维:关于一个组织想要记录的透视或实体。 维表:对维各个属性的描述。 事实:数值的度量。 事实表: 包括事实的名称或度量,以及每个相关维表的关键字。 元数据: 数据的数据,可以对数据仓库中的各种数据进行详细的描述与说明,说明每个数据的上下关系,使每个数据具有符合现实的真实含义,使用户可以了解这些数据之间的关系. 粒度:数据仓库中数据单元的详细程度和级别. 星型模型: 最常用的数据仓库设计结构的实现模式。使数据仓库形成了一个集成系统,为用户提供分析服务对象。核心是事实表,围绕事实表的是维度表。通过事实表将各种不同的维度表连接起来,各个维度表都连接到中央事实表。雪花模型:对星型模型的冗余的维度表进一步分解,对星型模型中的维度表进行了规范化处理。 问答: 1.简述olap 与oltp的区别; Olap:在线分析处理;oltp:联机事务处理。 PAGE 5

数据仓库与数据挖掘教程(第2版) 陈文伟版课后习题答案(非常全)

第一章作业 1.数据库与数据仓库的本质差别是什么?书P2 (1)数据库用于事务处理,数据仓库用于决策分析。(2)数据库保持事物处理的当前状态,数据仓库即保存过去的数据又保存当前的数据。(3)数据仓库的数据是大量数据库的集成。(4)对数据库的操作比较明确,操作数量较小。对数据仓库操作不明确,操作数据量大。 2.从数据库发展到数据仓库的原因是什么?书P1 (1)数据库数据太多,信息贫乏。如何将大量的数据转化为辅助决策信息成为了研究热点。(2)异构环境数据的转换和共享。随着各类数据库产品的增加,异构环境的数据也逐渐增加,如何实现这些异构环境数据的转换的共享也成了研究热点。(3)利用数据进行事物处理转变为利用数据支持决策。 3.举例说明数据库与数据仓库的不同。 比如,银行中储蓄业务要建立储蓄数据库,信用卡要建立信用卡数据库,贷款业务要建立贷款数据库,这些数据库方便了银行的事务处理。但是要对这些独立数据库进行决策分析就很复杂了。因此可以把这些数据库中的数据存储转化到数据仓库中,方便进行决策。 4. OLTP(On Line Transaction Processing,联机事物处理)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。 OLAP(On Line Analytical Processing,联机分析处理)是使用多维数据库和多维分析的方法,对多个关系数据库共同进行大量的综合计算来得到结果的方法。 5. OLTP是用户的数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。 6. OLTP OLAP 细节性数据综合性数据 当前数据历史数据 经常更新不更新,但周期性刷新 一次性处理的数据量小一次处理的数据量大 对响应时间要求高响应时间合理 面向应用,事务驱动面向分析,分析驱动 7.包括数据项、数据结构、数据流、数据存储和处理过程五个部分。 8.定义为关于数据的数据,描述数据仓库中数据及其环境的数据。 9.元数据不仅仅是数据仓库的字典,而且还是数据仓库本身功能的说明数据,是整个数据仓库的核心。数据字典是关于数据库中数据的描述,而不是数据本身,数据字典是数据库的元数据。 10 .数据仓库的定义是什么? 答:(1)W.H.Inmon对数据仓库的定义:数据仓库是面向主题的,集成的、稳定的、不同时间的数据集合,用于支持经营管理中决策制定过程。 (2)SAS软件研究所的观点:数据仓库是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有限的决策支持。 从数据仓库定义可以看出,数据仓库是明确为决策支持服务的,而数据库是为事务处理服务的。

(完整版)微观经济学第二章课后习题答案

第二章需求、供给和均衡价格 1.解: (1)将需求函数Q d= 50-5P和供给函数Q s=-10+5P代入均衡条件Q d=Q s ,有:50- 5P= -10+5P 得: Pe=6 以均衡价格Pe =6代入需求函数Q d=50-5p ,得: Qe=50-5×6 或者,以均衡价格 Pe =6 代入供给函数Q s =-10+5P ,得:Qe=-10+5×6 所以,均衡价格和均衡数量分别为Pe =6 , Qe=20 图略. (2)将由于消费者收入提高而产生的需求函数Q d=60-5p和原供给函数Q s=-10+5P, 代入均 衡条件Q d=Q s有: 60-5P=-10+5P 解得Pe =7 以均衡价格Pe =7代入Q d=60-5p ,得 Qe=25 或者,以均衡价格Pe =7代入Qs =-10+5P, 得Qe=25 所以,均衡价格和均衡数量分别为Pe =7,Qe=25 (3)将原需求函数Q d=50-5p 和由于技术水平提高而产生的供给函数Q s=-5+5p ,代入均衡条件Q d=Q s,有: 50-5P=-5+5P得 P e=5.5 以均衡价格Pe=5.5代入Q d=50-5p, 得Qe=50-5×5.5=22.5 所以,均衡价格和均衡数量分别为Pe=5.5,Qe=22.5图略。 (4)(5)略 2.解: (1)根据中点公式计算,e d=1.5 (2)由于当P=2时,Q d=500-100*2=300,

所以,有: 22 .(100)3003 d dQ P dP Q e =- =--*= (3)作图,在a 点P=2时的需求的价格点弹性为:e d =GB/OG=2/3或者e d =FO/AF=2/3 显然,利用几何方法求出P=2时的需求的价格弹性系数和(2)中根据定义公式求出结果是相同的,都是e d =2/3 3解: (1) 根据中点公式 求得:4 3 s e = (2) 由于当P=3时,Qs=-2+2×3=4,所以 3 .2 1.54 s dQ P dP Q e = =?= (3) 作图,在a 点即P=3时的供给的价格点弹性为:e s =AB/OB=1.5 显然,在此利用几何方法求出的P=3时的供给的价格点弹性系数和(2)中根据定义公式求出的结果是相同的,都是e s =1.5 4.解: (1)根据需求的价格点弹性的几何方法,可以很方便地推知:分别处于不同的线性需求曲线上的a 、b 、e 三点的需求的价格点弹性是相等的,其理由在于,在这三点上都有: e d =FO/AF (2)根据求需求的价格点弹性的几何方法,同样可以很方便地推知:分别处于三条线性需求曲线上的a 、e 、f 三点的需求的价格点弹性是不相等的,且有e da

数据挖掘部分课后习题

1、数据清理、数据集成、数据变换、数据规约各自的目的是什么?有哪些常用方法? 数据清理的目的:去掉噪声和无关数据,用其例程通过填写空缺的值,平滑噪声数据,识别,删除孤立点,并解决不一致来清理数据。 常用的方法: ◆处理空缺值;可用以下方法:忽略该记录、去掉属性、手工填写空缺值、使 用默认值、使用属性平均值、使用同类样本平均值、预测最可能的值。 ◆噪声数据的处理: 噪声数据是一个测量变量中的随机错误或偏差。可用以下 方法:分箱:按箱平均值平滑,按箱中值平滑,按箱边界平滑等;聚类:聚类将相似的值组织成群或类,落在群或类外的值就是孤立点,也就是噪声数据;回归,让数据适合一个函数(如回归函数)来平滑数据。 数据集成的目的:将多个数据源中的数据结合起来存放在一个一致的数据存储中.。 常用的方法: ◆模式集成:主要是实体识别问题,利用元数据(关于数据的数据),这可以 避免模式集成中的错误。 数据变换的目的:把原始数据转换成为适合数据挖掘的形式。 常用的方法: ◆用平滑消除噪声数据 ◆聚类来对数据进行汇总 ◆数据概化使用高层次概念替换低层次“原始”数据来进行概念分层 ◆规范化将属性数据按比例缩放,使之落入一个小的特定区间 ◆属性构造(特征构造)来帮助提高精度和对高维数据结构的理解。 数据归约的目的:用产生数据的归约表示,使数据的范围减小,减少数据量。常用的方法:

◆数据立方聚集 ◆维归约 ◆数据压缩 ◆数值归约 ◆离散化和概念分层等 2、对数据挖掘的数据为什么要进行预处理? 数据挖掘过程模型是为应用数据挖掘技术提供一种系统化的技术实施方法。围绕数据挖掘过程需要涉及:问题的理解、数据的理解、收集和准备、建立数据挖掘模型、评价所建的模型、应用所建的模型等。 数据预处理是从大量的数据属性中提取出对目标有重要影响的属性来降低原始数据的维数,或者是处理一些不好的数据,从而改善实例数据的质量和提高数据挖掘的速度 ◆现实世界的数据是“肮脏的”,很容易受噪声数据,空缺数据和不一致数据 的侵扰,所以在用数据挖掘系统对数据进行挖掘时,必须对数据进行预处理,去掉含噪声,空缺的,和不一致的数据。 不完整的——数据内涵出现不一致情况 含噪声的——感兴趣的属性没有值 不一致的——数据中存在着错误、或异常(偏离期望值)的数据 重复、维度高 ◆没有高质量的数据,就没有高质量的挖掘结果 高质量的决策必须依赖高质量的数据 数据仓库需要对高质量的数据进行一致地集成

数据挖掘概念与技术第三版部分习题答案

1.4 数据仓库和数据库有何不同?有哪些相似之处? 答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。它用表组织数据,采用ER数据模型。 相似:它们都为数据挖掘提供了源数据,都是数据的组合。 1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。 答:特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息, 还有所修的课程的最大数量。 区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。 关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”) ? owns(X, “personal computer”) [support=12%, confidence=98%] 其中,X 是一个表示学生的变量。这个规则指出正在学习的学生,12% (支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。 分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具: 分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。 聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分 层结构,把类似的事件组织在一起。 数据演变分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析 2.3 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。――――――――――――――――――――――――――――――――――――― 年龄频率――――――――――――――――――――――――――――――――――――― 1~5 200 5~15 450 15~20 300 20~50 1500 50~80 700 80~110 44 ―――――――――――――――――――――――――――――――――――――计算数据的近似中位数值。 解答:先判定中位数区间:N=200+450+300+1500+700+44=3194;N/2=1597 ∵ 200+450+300=950<1597<2450=950+1500; ∴ 20~50 对应中位数区间。

电子科大数据挖掘作业1-6

数据挖掘课后习题 数据挖掘作业1——6 第一章绪论 1)数据挖掘处理的对象有哪些?请从实际生活中举出至少三种。 1、关系数据库 2、数据仓库 3、事务数据库 4、高级数据库系统和数据库应用如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是 Web 数据信息。 实际生活的例子: ①电信行业中利用数据挖掘技术进行客户行为分析,包含客户通话记录、通话时间、所开通的服务等,据此进行客户群体划分以及客户流失性分析。 ②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析,帮助天文学家发现其他未知星体。 ③市场业中应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。 2)给出一个例子,说明数据挖掘对商务的成功是至关重要的。该商务需要什么 样的数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗? 以一个百货公司为例,它可以应用数据挖掘来帮助其进行目标市场营销。运用数据挖掘功能例如关联规则挖掘,百货公司可以根据销售记录挖掘出强关联规则,来诀定哪一类商品是消费者在购买某一类商品的同时,很有可能去购买的,从而促使百货公司进行目标市场营销。数据查询处理主要用于数据或信息检索,没有发现关联规则的方法。同样地,简单的统计分析没有能力处理像百货公司销售记录这样的大规模数据。

第二章数据仓库和OLAP技术 1)简述数据立方体的概念、多维数据模型上的OLAP操作。 ●数据立方体 数据立方体是二维表格的多维扩展,如同几何学中立方体是正方形的三维扩展一样,是一类多维矩阵,让用户从多个角度探索和 分析数据集,通常是一次同时考虑三个维度。数据立方体提供数据 的多维视图,并允许预计算和快速访问汇总数据。 ●多维数据模型上的OLAP操作 a)上卷(roll-up):汇总数据 通过一个维的概念分层向上攀升或者通过维规约 b)下卷(drill-down):上卷的逆操作 由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现 c)切片和切块(slice and dice) 投影和选择操作 d)转轴(pivot) 立方体的重定位,可视化,或将一个3维立方体转化为一个2维平面序列 2)OLAP多维分析如何辅助决策?举例说明。 OLAP是在多维数据结构上进行数据分析的,一般在多维数据上切片、切块成简单数据来进行分析,或是上卷、下卷来分析。OLAP要查询 大量的日常商业信息,以及大量的商业活动变化情况,如每周购买量的 变化值,经理通过查询变化值来做决策。 例如经理看到利润小于预计值是,就会去深入到各地区去查看产品利润情况,这样他会发现一些比较异常的数据。经过进一步的分析和追 踪查询可以发现问题并解决 3)举例说明OLAP的多维数据分析的切片操作。 切片就是在某两个维上取一定区间的维成员或全部维成员。 如用三维数组表示为(地区,时间,产品,销售额),如果在地区维度上选定一个维成员,就可以得到在该地区的一个切片(关于时间和产 品的切片)。

大物第二章课后习题答案

简答题 什么是伽利略相对性原理什么是狭义相对性原理 答:伽利略相对性原理又称力学相对性原理,是指一切彼此作匀速直线运动的惯性系,对于描述机械运动的力学规律来说完全等价。 狭义相对性原理包括狭义相对性原理和光速不变原理。狭义相对性原理是指物理学定律在所有的惯性系中都具有相同的数学表达形式。光速不变原理是指在所有惯性系中,真空中光沿各方向的传播速率都等于同一个恒量。 同时的相对性是什么意思如果光速是无限大,是否还会有同时的相对性 答:同时的相对性是:在某一惯性系中同时发生的两个事件,在相对于此惯性系运动的另一个惯性系中观察,并不一定同时。 如果光速是无限的,破坏了狭义相对论的基础,就不会再涉及同时的相对性。 什么是钟慢效应 什么是尺缩效应 答:在某一参考系中同一地点先后发生的两个事件之间的时间间隔叫固有时。固有时最短。固有时和在其它参考系中测得的时间的关系,如果用钟走的快慢来说明,就是运动的钟的一秒对应于这静止的同步的钟的好几秒。这个效应叫运动的钟时间延缓。 尺子静止时测得的长度叫它的固有长度,固有长度是最长的。在相对于其运动的参考系中测量其长度要收缩。这个效应叫尺缩效应。 狭义相对论的时间和空间概念与牛顿力学的有何不同 有何联系 答:牛顿力学的时间和空间概念即绝对时空观的基本出发点是:任何过程所经历的时间不因参考系而差异;任何物体的长度测量不因参考系而不同。狭义相对论认为时间测量和空间测量都是相对的,并且二者的测量互相不能分离而成为一个整体。 牛顿力学的绝对时空观是相对论时间和空间概念在低速世界的特例,是狭义相对论在低速情况下忽略相对论效应的很好近似。 能把一个粒子加速到光速c 吗为什么 答:真空中光速C 是一切物体运动的极限速度,不可能把一个粒子加速到光速C 。从质速关系可看到,当速度趋近光速C 时,质量趋近于无穷。粒子的能量为2 mc ,在实验室中不存在这无穷大的能量。 什么叫质量亏损 它和原子能的释放有何关系 答:粒子反应中,反应前后如存在粒子总的静质量的减少0m ?,则0m ?叫质量亏损。原子能的释放指核反应中所释 放的能量,是反应前后粒子总动能的增量k E ?,它可通过质量亏损算出20k E m c ?=?。 在相对论的时空观中,以下的判断哪一个是对的 ( C ) (A )在一个惯性系中,两个同时的事件,在另一个惯性系中一定不同时;

数据挖掘第三版第十章课后习题答案

简略介绍如下聚类方法:划分方法、层次方法。每种给出两个例子。 (1)划分方法:给定一个有N个对象的集合,划分方法构造数据的K个分区,每一个分区表示一个簇,且K≤N。而且这K个分组满足下列条件:第一,每一个分组至少包含一条记录;第二,每一条记录属于且仅属于一个分组(注意:这个要求在某些模糊聚类算法中可以放宽);对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的记录越远越好。 使用这个基本思想的算法有:K-MEANS 算法、K-MEDOIDS 算法、CLARANS 算法。 (2)层次方法:这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。例如在“自底向上”方案中,初始时每一个数据记录都组成一个单独的组,在接下来的迭代中,它把那些相互邻近的组合并成一个组,直到所有的记录组成一个分组或者某个条件满足为止。 代表算法有:BIRCH 算法、CURE 算法、CHAMELEON 算法等。 假设数据挖掘的任务是将如下的8个点(用(x, y)代表位置)聚类为3个簇。 A1(2,10), A2(2,5), A3(8,4), B1(5,8), B2(7,5), B3(6,4), C1(1,2), C2(4,9)距离函数是欧氏距离。假设初始我们选择A1、B1和C1分别为每个簇的中心,用k-均值算法给出: (a)在第一轮执行后的3个簇中心。 (b)最后的3个簇。 (a)第一轮后, 三个新的簇为(1){A1} (2){B1,A3,B2,B3,C2} (3){C1,A2} 簇中心分别为(1) (2, 10), (2) (6, 6), (3) , . (b)最后3个簇为(1) {A1,C2,B1}, (2) {A3,B2,B3}, (3) {C1,A2}. k-均值和k-中心点算法都可以进行有效的聚类。 (a)概述k-均值和k-中心点相比较的优缺点。 (b)概述这两种方法与层次聚类方法(如AGNES)相比有何优缺点。 (a)当存在噪声和离群点时, k-中心点算法比k-均值具有更强的鲁棒性。因为在中心点不像均值那样容易受离群值或其他极端值影响。但是, 它的计算开销更大。 (b)k-均值和k-中心点都是划分方法。这种划分方法分优点是,可以撤销之前的聚类步骤(通过迭代迁移), 不像层次方法, 一旦执行了拆分或合并, 就不能做出调整。层次方法的这种弱点可能使产生的聚类的质量受到影响。 划分方法找球形簇的效果很好。一般来说,对于中小型数据库, 结果聚类的质量很好。他们需要提前知道簇的数量可以被认为是一个弱点。层次聚类方法可以自动确定集群的数量。然而,他们难以扩展,因为每个分裂或合并的决定可能要求大量对象或集群的检查和评价。然而, 层次方法可以与其他聚类方法集成, 改进聚类, 如BIRCH, ROCK, 和Chameleon. 聚类已经被认为是一种具有广泛应用的、重要的数据挖掘任务。对如下每种情况给出一个应用实例:

相关文档
最新文档