数据分析与挖掘习题

合集下载

大数据分析与挖掘复习题集附答案

大数据分析与挖掘复习题集附答案大数据分析与挖掘复习题集附答案一、选择题1. 数据挖掘的主要任务是：A. 模式发现和模型评估B. 数据收集和整理C. 数据分析和可视化D. 数据传输和存储答案：A2. 在数据挖掘过程中，数据预处理的目的是：A. 提取有价值的信息B. 去除异常值和噪声C. 构建合适的模型D. 优化数据存储结构答案：B3. 关联规则挖掘是指：A. 发现不同属性之间的关联关系B. 预测未来事件的发生C. 分析数据的变化趋势D. 构建数据的分类模型答案：A4. 在数据挖掘中，分类和聚类的主要区别在于：A. 数据来源的不同B. 目标的不同C. 算法的不同D. 结果的不同答案：B5. 大数据分析的核心挑战是：A. 数据存储和处理速度B. 数据质量和准确性C. 数据安全和隐私保护D. 数据可视化和展示答案：A二、填空题1. __________是指通过对海量数据进行深入分析和挖掘，从中发现有价值的信息。

答案：大数据分析与挖掘2. 在数据挖掘过程中，将数据按照一定的规则进行重新排列，以便更方便地进行分析和挖掘，这个过程称为__________。

答案：数据预处理3. 数据挖掘中的分类算法主要是通过对已有的样本进行学习和训练，从而预测新的样本所属的__________。

答案：类别4. 聚类算法是将相似的数据样本归为一类，不需要事先知道数据的__________。

答案：类别5. 在大数据分析中，数据的__________对于结果的准确性和可靠性至关重要。

答案：质量三、简答题1. 请简要说明大数据分析与挖掘的步骤和流程。

答：大数据分析与挖掘的步骤主要包括数据收集与清洗、数据预处理、模式发现、模型评估和应用。

首先，需要从各个数据源收集所需数据，并对数据进行清洗，去除异常值和噪声。

然后，通过数据预处理，对数据进行规范化、离散化等处理，以便于后续的分析和挖掘。

接着，利用合适的算法和技术，进行模式发现，例如关联规则挖掘、分类和聚类等。

SAS数据挖掘与分析习题答案

附录A 习题答案习题1答案1.什么是观测值OBS？答：一份问卷、一个单一的整体、一个人、一个被测对象就是一个观测值，或称一个“个案”。

每个个案是由若干变量组成。

2. 什么是变量Variable？一份问卷一般有几个甚至几十个问答题，一个问答题就是一个变量。

如id、sex、age、location、income等。

3.下面的变量名哪些有效？哪些无效？sex、age、v1、location、_ab_、1age、1v、location1、@1、#1、%1、&2答：（1）有效的变量名是由1-8个有效字符组成且字母领头，后跟数字或有效的字母。

但字母@、#、$、%、^、&、*等是无效的字符。

比如：sex、age、v1、location、_ab_等变量名是正确的；（2）无效的变量名：1age、1v、location1、@1、#1、%1、&2等。

4.变量有哪些类型？答：变量有2种类型。

数字型：如INPUT id sex age；字符型：如“INPUT id sex $ age；”中的“sex $”表示性别是以m=男性，f=女性表示的。

5.给下面程序A.1a改错。

程序A.1a：DATA sj5; INPUT a b c @@; IF 4=<a<15 THEN GOTO OK; a=3; COUNT+1; RETURN; /*RETURN（返回）到DATA步执行它下面的语句*/ OK:SUMa+a; CARDS;3 6 9 10 22 15 12 10 14 ; PROC PRINT; RUN;解答:错在第3条语句上。

改错后的程序见程序A.1b。

程序A.1b：DATA sj5; INPUT a b c @@; IF a>=4 & a<15 THEN GOTO OK; a=3; COUNT+1; RETURN; /*RETURN（返回）到DATA步执行它下面的语句*/OK:SUMa+a; CARDS;3 6 9 10 22 15 12 10 14 ; PROC PRINT; RUN;习题2答案1.指出下列命令的作用。

第6章大数据分析与挖掘习题答案

（1）请阐述什么是大数据分析。

大数据分析的主要任务主要有：第一类是预测任务，目标是根据某些属性的值，预测另外一些特定属性的值。

被预测的属性一般称为目标变量或因变量，被用来做预测的属性称为解释变量和自变量；第二类是描述任务，目标是导出概括数据中潜在联系的模式，包括相关、趋势、聚类、轨迹和异常等。

描述性任务通常是探查性的，常常需要后处理技术来验证和解释结果。

具体可分为分类、回归、关联分析、聚类分析、推荐系统、异常检测、链接分析等几种。

（2）大数据分析的类型有哪些？大数据分析主要有描述性统计分析、探索性数据分析以及验证性数据分析等。

（3）举例两种数据挖掘的应用场景？（1）电子邮件系统中垃圾邮件的判断电子邮件系统判断一封Email是否属于垃圾邮件。

这应该属于文本挖掘的范畴，通常会采用朴素贝叶斯的方法进行判别。

它的主要原理就是，根据电子邮件中的词汇，是否经常出现在垃圾邮件中进行判断。

例如，如果一份电子邮件的正文中包含“推广”、“广告”、“促销”等词汇时，该邮件被判定为垃圾邮件的概率将会比较大。

（2）金融领域中金融产品的推广营销针对商业银行中的零售客户进行细分，基于零售客户的特征变量（人口特征、资产特征、负债特征、结算特征），计算客户之间的距离。

然后，按照距离的远近，把相似的客户聚集为一类，从而有效地细分客户。

将全体客户划分为诸如：理财偏好者、基金偏好者、活期偏好者、国债偏好者等。

其目的在于识别不同的客户群体，然后针对不同的客户群体，精准地进行产品设计和推送，从而节约营销成本，提高营销效率。

（4）简述数据挖掘的分类算法及应用。

K-Means算法也叫作k均值聚类算法，它是最著名的划分聚类算法，由于简洁和效率使得它成为所有聚类算法中最广泛使用的。

决策树算法是一种能解决分类或回归问题的机器学习算法，它是一种典型的分类方法，最早产生于上世纪60年代。

决策树算法首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析，因此在本质上决策树是通过一系列规则对数据进行分类的过程。

数据挖掘考试习题

数据挖掘考试习题 work Information Technology Company.2020YEAR数据挖掘考试题一．选择题1. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离()A.分类B.聚类C.关联分析D.主成分分析2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值，它是一种凝聚层次聚类技术。

A.MIN(单链)B.MAX(全链)C.组平均D.Ward方法3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。

A 分类B 预测 C关联规则分析 D聚类4.关于K均值和DBSCAN的比较，以下说法不正确的是( )A.K均值丢弃被它识别为噪声的对象，而DBSCAN一般聚类所有对象。

B.K均值使用簇的基于原型的概念，DBSCAN使用基于密度的概念。

C.K均值很难处理非球形的簇和不同大小的簇，DBSCAN可以处理不同大小和不同形状的簇D.K均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN会合并有重叠的簇5.下列关于Ward’s Method说法错误的是：( )A.对噪声点和离群点敏感度比较小B.擅长处理球状的簇C.对于Ward方法，两个簇的邻近度定义为两个簇合并时导致的平方误差D.当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似6.下列关于层次聚类存在的问题说法正确的是：( )A.具有全局优化目标函数B.Group Average擅长处理球状的簇C.可以处理不同大小簇的能力D.Max对噪声点和离群点很敏感7.下列关于凝聚层次聚类的说法中，说法错误的事：( )A.一旦两个簇合并，该操作就不能撤销B.算法的终止条件是仅剩下一个簇OC.空间复杂度为()2mD.具有全局优化目标函数8.规则{牛奶，尿布}→{啤酒}的支持度和置信度分别为：( )9.下列( )是属于分裂层次聚类的方法。

A.MinB.MaxC.Group AverageD.MST10.对下图数据进行凝聚聚类操作，簇间相似度使用MAX计算，第二步是哪两个簇合并：( )A.在{3}和{l,2}合并B.{3}和{4,5}合并C.{2,3}和{4,5}合并D. {2,3}和{4,5}形成簇和{3}合并二．填空题：1.属性包括的四种类型：、、、。

数据挖掘习题及解答-完美版

Data Mining Take Home Exam学号: xxxx 姓名: xxx 1. （20分）考虑下表的数据集。

（1）计算整个数据集的Gini 指标值。

（2）计算属性性别的Gini 指标值（3）计算使用多路划分属性车型的Gini 指标值（4）计算使用多路划分属性衬衣尺码的Gini 指标值（5）下面哪个属性更好，性别、车型还是衬衣尺码？为什么？解：（1） Gini=1-(10/20)^2-(10/20)^2=0.5 (2)Gini=[{1-(6/10)^2-(4/10)^2}*1/2]*2=0.48 (3)Gini={1-(1/4)^2-(3/4)^2}*4/20+{1-(8/8)^2-(0/8)^2}*8/20+{1-(1/8)^2-(7/8)^2}*8/2 0=26/160=0.1625(4)Gini={1-(3/5)^2-(2/5)^2}*5/20+{1-(3/7)^2-(4/7)^2}*7/20+[{1-(2/4)^2-(2/4)^2}*4/ 20]*2=8/25+6/35=0.4914(5)比较上面各属性的Gini值大小可知，车型划分Gini值0.1625最小，即使用车型属性更好。

2. （20分）考虑下表中的购物篮事务数据集。

(1) 将每个事务ID视为一个购物篮，计算项集{e}，{b,d} 和{b,d,e}的支持度。

（2）使用（1）的计算结果，计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。

（3）将每个顾客ID作为一个购物篮，重复（1）。

应当将每个项看作一个二元变量（如果一个项在顾客的购买事务中至少出现一次，则为1，否则，为0）。

（4）使用（3）的计算结果，计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。

答：（1）由上表计数可得{ｅ}的支持度为8/10=0.8；{ｂ，ｄ}的支持度为2/10=0.2；｛b,d,e｝的支持度为2/10=0.2。

（2）c[{b,d}→{e}]=2/8=0.25; c[{e}→{b,d}]=8/2=4。

数据分析与挖掘习题

数据分析与挖掘习题第一章作业1.1什么是数据挖掘?在你的回答中,强调以下问题:(a) 它是又一个骗局吗?数据挖掘,在人工智能领域,习惯上又称为数据库中知识发现(Knowledge Discovery in Database, KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。

数据挖掘可以与用户或知识库交互。

并非所有的信息发现任务都被视为数据挖掘。

例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。

虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。

尽管如此,数据挖掘技术也已用来增强信息检索系统的能力。

(b) 它是一种从数据库,统计学和机器学习发展的技术的简单转换吗?硬要去区分Data Mining和Statistics的差异其实是没有太大意义的。

一般将之定义为Data Mining技术的CART、CHAID或模糊计算等等理论方法,也都是由统计学者根据统计理论所发展衍生,换另一个角度看,Data Mining有相当大的比重是由高等统计学中的多变量分析所支撑。

但是为什么Data Mining的出现会引发各领域的广泛注意呢?主要原因在相较于传统统计分析而言,Data Mining有下列几项特性:1.处理大量实际数据更强势,且无须太专业的统计背景去使用Data Mining的工具2.数据分析趋势为从大型数据库抓取所需数据并使用专属计算机分析软件,Data Mining 的工具更符合企业需求;3. 纯就理论的基础点来看,Data Mining和统计分析有应用上的差别,毕竟Data Mining 目的是方便企业终端用户使用而非给统计学家检测用的。

数据挖掘习题

(c) 对于数据仓库，位图索引是有用的。以该数据方为例，简略讨论使用位图索引结构的优点和问题。下表给出课程数据库中学生的期中和期末考试成绩。四、数据库有 4 个事务。min_sup=60%, min_conf=80%。 X期中考试 Y期末考试 TID date items_bought 72 84 50 63 T100 10/15/09 {K,A,D,B,F} 81 77 T200 10/15/09 {D,A,C,E,B,G} 74 78 T300 10/19/09 {C,A ,B,E,H} 94 90 T400 10/22/09 {B A,D, H} 86 75 59 49 (a) 分别使用 Apriori 和 FP-增长算法找出频繁项集。比较两种挖掘过程的有效性。 83 79 (b) 列出所有的强相关规则（带支持度 s 和置信度 c），它们与下面的元规则匹配，其中， 65 77 X 是代表顾客的变量， item i 是表示项的变量（例如， “A”“B”等）、： 33 52 88 74 x transactio n , buys ( X , item 1 ) buys ( X , item 2 ) buys ( X , item 3 ) [s, c] 81 90 (a) 对数据做图。X 和Y 看上去具有线性联系吗？ (b) 使用最小平方法，求由学生的期中成绩预测学生的期末成绩的方程式。 (c) 预测期中成绩为 86 分的学生的期末成绩。七、假设数据挖掘的任务是将如下的八个点（用(x,y)代表位置）聚类为三个类。 A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9), 距离函数是Euclidean 函数。假设初始我们选择A1,B1,和C1 为每个聚类的中心，用k-means 算法来给出（a）在第一次循环执行后的三个聚类中心（b）最后的三个簇八、假设某连锁餐厅想挖掘出与主要体育事件相关的顾客消费行为，如“每当电视播出法裔加拿大人的曲棍球比赛时，肯德鸡的销量会在比赛前一小时上升20%”。（a）给出一种找出这种模式的有效方法。（b）大部分与时间相关的关联挖掘算法都使用了类Apriori 算法来挖掘此类模式。可否扩展FP-growth 方法去找出此类与时间相关的模式？六、

数据挖掘习题二

数据挖掘习题二简答：1.何谓数据挖掘？它有哪些方面的功能？2.何谓数据仓库？为什么要建立数据仓库？3.常见的分箱方法有哪些？数据平滑处理的方法有哪些？4.何谓数据规范化？规范化的方法有哪些？写出对应的变换公式。

数据挖掘讨论题1、（20分）讨论:：下列每项活动是否是数据挖掘任务?简单陈述你的理由。

(a)根据性别划分公司的顾客。

(b)根据可赢利性划分公司的顾客。

(c)预测投一对骰子的结果。

(d)使用历史记录预测某公司未来的股票价格。

简答：5. 何谓数据挖掘？它有哪些方面的功能？从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。

相关的名称有知识发现、数据分析、数据融合、决策支持等。

数据挖掘的功能包括：概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等。

6. 何谓数据仓库？为什么要建立数据仓库？数据仓库是一种新的数据处理体系结构，是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合，为企业决策支持系统提供所需的集成信息。

建立数据仓库的目的有3个：一是为了解决企业决策分析中的系统响应问题，数据仓库能提供比传统事务数据库更快的大规模决策分析的响应速度。

二是解决决策分析对数据的特殊需求问题。

决策分析需要全面的、正确的集成数据，这是传统事务数据库不能直接提供的。

三是解决决策分析对数据的特殊操作要求。

决策分析是面向专业用户而非一般业务员，需要使用专业的分析工具，对分析结果还要以商业智能的方式进行表现，这是事务数据库不能提供的。

7. 常见的分箱方法有哪些？数据平滑处理的方法有哪些？分箱的方法主要有：① 统一权重法(又称等深分箱法)② 统一区间法(又称等宽分箱法)③ 最小熵法④ 自定义区间法数据平滑的方法主要有：平均值法、边界值法和中值法。

8. 何谓数据规范化？规范化的方法有哪些？写出对应的变换公式。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据分析与挖掘习题第一章作业1.1什么是数据挖掘？在你的回答中，强调以下问题：(a) 它是又一个骗局吗？数据挖掘，在人工智能领域，习惯上又称为数据库中知识发现(Knowledge Discovery in Database, KDD)，也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。

数据挖掘可以与用户或知识库交互。

并非所有的信息发现任务都被视为数据挖掘。

例如，使用数据库管理系统查找个别的记录，或通过因特网的搜索引擎查找特定的Web页面，则是信息检索（information retrieval）领域的任务。

虽然这些任务是重要的，可能涉及使用复杂的算法和数据结构，但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构，从而有效地组织和检索信息。

尽管如此，数据挖掘技术也已用来增强信息检索系统的能力。

(b) 它是一种从数据库，统计学和机器学习发展的技术的简单转换吗？硬要去区分Data Mining和Statistics的差异其实是没有太大意义的。

一般将之定义为Data Mining技术的CART、CHAID或模糊计算等等理论方法，也都是由统计学者根据统计理论所发展衍生，换另一个角度看，Data Mining有相当大的比重是由高等统计学中的多变量分析所支撑。

但是为什么Data Mining的出现会引发各领域的广泛注意呢？主要原因在相较于传统统计分析而言，Data Mining有下列几项特性：1.处理大量实际数据更强势，且无须太专业的统计背景去使用Data Mining的工具2.数据分析趋势为从大型数据库抓取所需数据并使用专属计算机分析软件，Data Mining 的工具更符合企业需求；3. 纯就理论的基础点来看，Data Mining和统计分析有应用上的差别，毕竟Data Mining 目的是方便企业终端用户使用而非给统计学家检测用的。

获取的信息和知识可以广泛用于各种应用，包括商务管理，生产控制，市场分析，工程设计和科学探索等。

数据挖掘利用了来自如下一些领域的思想：(1) 来自统计学的抽样、估计和假设检验，(2) 人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。

数据挖掘也迅速地接纳了来自其他领域的思想，这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。

一些其他领域也起到重要的支撑作用。

特别地，需要数据库系统提供有效的存储、索引和查询处理支持。

源于高性能（并行）计算的技术在处理海量数据集方面常常是重要的。

分布式技术也能帮助处理海量数据，并且当数据不能集中到一起处理时更是至关重要。

(d) 当把数据挖掘看作知识发现过程时，描述数据挖掘所涉及的步骤。

知识发现过程以下三个阶段组成：（1）数据准备，（2）数据挖掘，（3）结果表达和解释。

1.2 给出一个例子，其中数据挖掘对于一种商务的成功至关重要的。

这种商务需要什么数据挖掘功能？他们能够由数据查询处理或简单的统计分析来实现吗？由于统计学基础的建立在计算机的发明和发展之前，所以常用的统计学工具包含很多可以手工实现的方法。

因此，对于很多统计学家来说，1000个数据就已经是很大的了。

但这个“大”对于英国大的信用卡公司每年350,000,000笔业务或A T&T每天200,000,000个长途呼叫来说相差太远了。

很明显，面对这么多的数据，则需要设计不同于那些“原则上可以用手工实现”的方法。

这意味这计算机（正是计算机使得大数据可能实现）对于数据的分析和处理是关键的。

分析者直接处理数据将变得不可行。

相反，计算机在分析者和数据之间起到了必要的过滤的作用。

这也是数据挖掘特别注重准则的另一原因。

尽管有必要，把分析者和数据分离开很明显导致了一些关联任务。

这里就有一个真正的危险：非预期的模式可能会误导分析者。

在现代统计中计算机是一个重要的工具，并不是因为数据的规模。

而是对数据的精确分析方法如bootstrap方法、随机测试，迭代估计方法以及比较适合的复杂的模型正是有了计算机才是可能的。

计算机已经使得传统统计模型的视野大大的扩展了，还促进了新工具的飞速发展。

下面来关注一下歪曲数据的非预期的模式出现的可能性。

这和数据质量相关。

所有数据分析的结论依赖于数据质量。

GIGO的意思是垃圾进，垃圾出，它的引用到处可见。

一个数据分析者，无论他多聪明，也不可能从垃圾中发现宝石。

对于大的数据集，尤其是要发现精细的小型或偏离常规的模型的时候，这个问题尤其突出。

当一个人在寻找百万分之一的模型的时候，第二个小数位的偏离就会起作用。

一个经验丰富的人对于此类最常见的问题会比较警觉，但出错的可能性太多了。

1．3 数据仓库和数据库有何不同？它们有那些相似之处？数据库是面向事务的设计，数据仓库是面向主题设计的。

数据库一般存储在线交易数据，数据仓库存储的一般是历史数据。

数据库设计是尽量避免冗余，一般采用符合范式的规则来设计，数据仓库在设计是有意引入冗余，采用反范式的方式来设计。

数据库是为捕获数据而设计，数据仓库是为分析数据而设计，它的两个基本的元素是维表和事实表。

维是看问题的角度，比如时间，部门，维表放的就是这些东西的定义，事实表里放着要查询的数据，同时有维的ID。

单从概念上讲，有些晦涩。

任何技术都是为应用服务的，结合应用可以很容易地理解。

以银行业务为例。

数据库是事务系统的数据平台，客户在银行做的每笔交易都会写入数据库，被记录下来，这里，可以简单地理解为用数据库记帐。

数据仓库是分析系统的数据平台，它从事务系统获取数据，并做汇总、加工，为决策者提供决策的依据。

比如，某银行某分行一个月发生多少交易，该分行当前存款余额是多少。

如果存款又多，消费交易又多，那么该地区就有必要设立A TM了。

显然，银行的交易量是巨大的，通常以百万甚至千万次来计算。

事务系统是实时的，这就要求时效性，客户存一笔钱需要几十秒是无法忍受的，这就要求数据库只能存储很短一段时间的数据。

而分析系统是事后的，它要提供关注时间段内所有的有效数据。

这些数据是海量的，汇总计算起来也要慢一些，但是，只要能够提供有效的分析数据就达到目的了。

数据仓库，是在数据库已经大量存在的情况下，为了进一步挖掘数据资源、为了决策需要而产生的，它决不是所谓的“大型数据库”。

那么，数据仓库与传统数据库比较，有哪些不同呢?让我们先看看W.H.Inmon关于数据仓库的定义:面向主题的、集成的、与时间相关且不可修改的数据集合。

“面向主题的”:传统数据库主要是为应用程序进行数据处理，未必按照同一主题存储数据;数据仓库侧重于数据分析工作，是按照主题存储的“与时间相关”:数据库保存信息的时候，并不强调一定有时间信息。

数据仓库则不同，出于决策的需要，数据仓库中的数据都要标明时间属性。

决策中，时间属性很重要。

同样都是累计购买过九车产品的顾客，一位是最近三个月购买九车，一位是最近一年从未买过，这对于决策者意义是不同的。

“不可修改”:数据仓库中的数据并不是最新的，而是来源于其它数据源。

数据仓库反映的是历史信息，并不是很多数据库处理的那种日常事务数据(有的数据库例如电信计费数据库甚至处理实时信息)。

因此，数据仓库中的数据是极少或根本不修改的;当然，向数据仓库添加数据是允许的。

数据仓库的出现，并不是要取代数据库。

目前，大部分数据仓库还是用关系数据库管理系统来管理的。

可以说，数据库、数据仓库相辅相成、各有千秋。

为了更好地为前端应用服务，数据仓库必须有如下几点优点，否则是失败的数据仓库方案。

1.效率足够高。

客户要求的分析数据一般分为日、周、月、季、年等，可以看出，日为周期的数据要求的效率最高，要求24小时甚至12小时内，客户能看到昨天的数据分析。

由于有的企业每日的数据量很大，设计不好的数据仓库经常会出问题，延迟1-3日才能给出数据，显然不行的。

2.数据质量。

客户要看各种信息，肯定要准确的数据，但由于数据仓库流程至少分为3步，2次ETL，复杂的架构会更多层次，那么由于数据源有脏数据或者代码不严谨，都可以导致数据失真，客户看到错误的信息就可能导致分析出错误的决策，造成损失，而不是效益。

3.扩展性。

之所以有的大型数据仓库系统架构设计复杂，是因为考虑到了未来3-5年的扩展性，这样的话，客户不用太快花钱去重建数据仓库系统，就能很稳定运行。

主要体现在数据建模的合理性，数据仓库方案中多出一些中间层，使海量数据流有足够的缓冲，不至于数据量大很多，就运行不起来了。

第二章作业1. 简述以下高级数据库系统和应用：面向对象数据库、空间数据库、文本数据库、多媒体数据库和W W W。

面向对象是一种认识方法学，也是一种新的程序设计方法学。

把面向对象的方法和数据库技术结合起来可以使数据库系统的分析、设计最大程度地与人们对客观世界的认识相一致。

面向对象数据库系统是为了满足新的数据库应用需要而产生的新一代数据库系统。

在数据库中提供面向对象的技术是为了满足特定应用的需要。

随着许多基本设计应用(如MACD和ECAD)中的数据库向面向对象数据库的过渡，面向对象思想也逐渐延伸到其它涉及复杂数据的应用中，其中包括辅助软件工程(CASE)、计算机辅助印刷(CAP)和材料需求计划(MRP)。

这些应用如同设计应用一样在程序设计方面和数据类型方面都是数据密集型的，它们需要识别于类型关系的存储技术，并能对相近数据备份进行调整.空间数据库指的是地理信息系统在计算机物理存储介质上存储的与应用相关的地理空间数据的总和，一般是以一系列特定结构的文件的形式组织在存储介质之上的。

空间数据库的研究始于20 世纪70年代的地图制图与遥感图像处理领域,其目的是为了有效地利用卫星遥感资源迅速绘制出各种经济专题地图。

由于传统的关系数据库在空间数据的表示、存储、管理、检索上存在许多缺陷，从而形成了空间数据库这一数据库研究领域。

而传统数据库系统只针对简单对象，无法有效的支持复杂对象（如图形、图像）。

空间数据库引擎技术是目前系统集成中广泛使用的中间件技术在空间数据库应用解决方案中的一种实现,虽然付出了附加中间层的额外代价,但它较好地解决了GIS 应用与空间数据库集成中数据提供与访问模式方面的制约瓶颈问题,是一种比较可行的方案.而面向对象的Geodatabase 是第三代数据模型,它克服了拓扑关系数据模型的缺点,由于它是面向对象的,因此能够方便地构造用户需要的任何复杂地理实体,而且这种模式符合人们看待客观世界的思维习惯,便于用户理解。

文本数据库（TXTDB）是一种常用的数据库，也是最简单的数据库。

任何文件都可以成为文本数据库。

数据分析与挖掘习题

大数据分析与挖掘复习 题集附答案

SAS数据挖掘与分析 习题答案

第6章 大数据分析与挖掘习题答案

数据挖掘考试习题

数据挖掘习题及解答-完美版

数据分析与挖掘习题

数据挖掘习题

数据挖掘习题二

大数据分析与挖掘复习题集附答案

SAS数据挖掘与分析习题答案

第6章大数据分析与挖掘习题答案