商务智能期末考试整理
商务智能复习的题目

商务智能复习的题目一、选择题(本题共5道小题,每小题2分,共10分)1、数据仓库就是随着时间变化得,下面得描述不正确得就是( C )。
A、数据仓库随时间得变化不断增加新得数据内容B、捕捉到得新数据会覆盖原来得快照C、数据仓库随事件变化不断删去旧得数据内容D、数据仓库中包含大量得综合数据,这些综合数据会随着时间得变化不断地进行重新综合2、有关数据仓库得开发特点,不正确得描述就是( B )。
A、数据仓库使用得需求在开发初期就要明确B、数据仓库开发要从数据出发C、数据仓库得开发就是一个不断循环得过程,就是启发式得开发D、在数据仓库环境中,并不存在操作型环境中所固定得与较确切得处理流,数据仓库中数据分析与处理更灵活,且没有固定得模式3、在有关数据仓库测试,下列说法不正确得就是 ( D )。
A、在完成数据仓库得实施过程中,需要对数据仓库进行各种测试。
测试工作中要包括单元测试与系统测试。
B、当数据仓库得每个单独组件完成后,就需要对她们进行单元测试。
C、系统得集成测试需要对数据仓库得所有组件进行大量得功能测试与回归测试。
D、在测试之前没必要制定详细得测试计划。
4、关于基本数据得元数据就是指 ( D )。
A、基本元数据与数据源、数据仓库、数据集市与应用程序等结构相关得信息B、基本元数据包括与企业相关得管理方面得数据与信息C、基本元数据包括日志文件与简历执行处理得时序调度信息D、基本元数据包括关于装载与更新处理,分析处理以及管理方面得信息6、下面关于数据粒度得描述不正确得就是 ( C )。
A、粒度就是指数据仓库小数据单元得详细程度与级别B、数据越详细,粒度就越小,级别也就越高C、数据综合度越高,粒度也就越大,级别也就越高D、粒度得具体划分将直接影响数据仓库中得数据量以及查询质量6、关于OLAP得特性,下面正确得就是:( D )(1)快速性 (2)可分析性 (3)多维性 (4)信息性 (5)共享性A、 (1) (2) (3)B、 (2) (3) (4)C、 (1) (2) (3) (4)D、 (1) (2) (3) (4) (5)7、关于OLAP与OLTP得区别描述,不正确得就是: ( C )A、OLAP主要就是关于如何理解聚集得大量不同得数据,它与OTAP应用程序不同。
商务智能复习题.doc

二、判断题(本题共10道小题,每小题1分,共10分)(F ) 4.独立的数据集市架构的优点是企业内数据一致,不会产生信息孤岛。
(F ) 6.企业风险分析是通过对企业的经营成本进行综合评价,拟定一个企业成本的临界值。
(T ) &在BI中,DW是前提和基础,负责统一数据规则的处理和存储。
(F ) 9.客户服务管理是对客户意见或投诉以及售前、售中、售后服务进行管理。
(F ) 10.平衡计分卡共包括三个层面,分别是财务层面、客户层面、内部业务流程层面。
(F ) 12.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。
(F ) 13. OLAP是用来协助企业对响应事件或事务的日常商务活动进行处理。
(F ) 16. C4.5决策树算法是国际上最早、最有影响力的决策树算法,(T ) 17.平衡计分卡是从财务、客户、内部运营、学习与成长四个角度,将组织的战略落实为可操作的衡量指标和目标值的一种新型绩效管理体系。
(F ) 1&客户服务管理是对客户意见或投诉以及售前、售中、售后服务进行管理。
(F ) 19.企业绩效管理的目的在于进一步加强成本的事前控制,同时有助于通过盈亏分析,辅助产品科学的报价。
(T )等深分箱法使每个箱子的记录个数相同。
(F )数据仓库“粒度”越细,记录数越少。
F记录树越多,范围越广泛(F )回归分析通常用于挖掘关联规则。
(T )孤立点在数据挖掘时总是被视为异常、无用数据而丢弃。
34.决策树方法特别适合于处理数值型数据。
(F )数据立方体是广义知识发现的方法和技术之一。
(F )可信度是对关联规则的准确度的衡量。
(T )可视化技术对于分析的数据类型通常不是专用性的。
(T ) OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继数据库技术发展之后迅猛发展起来的一种新技术。
(F)关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则(F )Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。
商务智能期末作业.张潇男

《商务智能》期末作业班级:信管2班-学号:20120602310061姓名:张潇男截止日期:2015-07-031、简单谈谈你对商务智能三大技术,即数据仓库技术、OLAP技术与数据挖掘技术的理解(10分)。
数据仓库,olap与数据挖掘之间的关系要说明他们的关系,不得不说说商务智能。
从技术角度看,商务智能的过程是企业的决策人员以企业中的数据仓库为基础,经由联机分析处理工具、数据挖掘工具加上决策规划人员的专业知识,从数据中获得有用的信息和知识,帮助企业获取利润。
数据仓库是一个用以更好地支持企业或组织的决策分析处理的的数据集合,它有面向主题、集成、相对稳定、随时间不断变化四个特性,将数据仓库与传统的面向事务处理的数据库区分开来。
数据仓库的关键技术包括数据的抽取、清洗、转换、加载和维护技术。
联机分析处理(OLAP)是以海量数据为基础的复杂分析技术。
它支持各级管理决策人员从不同的角度、快速灵活地对数据仓库中的数据进行复杂查询和多维分析处理,并且能以直观易懂的形式将查询和分析结果展现给决策人员数据挖掘(Data Mining)是从海量数据中,提取隐含在其中的、人们事先不知道的但又可能有用的信息和知识的过程。
基于数据仓库的联机分析处理技术与数据挖掘技术的融合和互补,将是商务智能技术发展的未来走向2、实验题(20分):(1)利用两步聚类模型对“data.xls”中的电信客户数据进行聚类分析,把客户聚成三类,并根据每一类客户的特征为每一类命名;(2)把上述得到的带有类别的电信客户数据作为训练集,基于该训练集,利用C5.0模型构造分类决策树,给出分类准确率最高的决策树、以及相应的分类规则;要求:两步聚类模型与C5.0模型的参数设置分别如下所示:据题分类得:3、从《商务智能》的理论课、实验课你学到了什么,请谈谈《商务智能》学习的心得与体会;并对课程教学提出你的建议,包括对内容安排、难易程度、授课方式的建议等(10分)。
___《商务智能方法与技术》20春期末考核

___《商务智能方法与技术》20春期末考核.doc1.内容挖掘是从网页内容或其描述中抽取知识的过程。
2.显性知识是结构化的,可以用语言、文字进行口头或书面表达。
3.知识管理的目标是将恰当的知识在恰当的时候传递给恰当的人,以便使他们能够作出最好的决策。
4.OLAP分析属于验证驱动型发现。
5.数据转换部件是将数据从源数据中提取出来,依定义部件的规则将不同数据格式的源数据转换成数据仓库的数据格式并装载进数据仓库的部件。
6.文本挖掘针对包括Web页面内容、页面结构和用户访问信息等在内的各种Web数据,应用数据挖掘方法发现有用的知识帮助人们从大量Web文档集中发现隐藏的模式。
7.综合学派认为知识管理将信息处理能力和人的创新能力相互结合,增强组织对环境的适应能力。
8.知识管理是对一个企业集体的知识与技能的捕获,是为增强组织的绩效而创造、获取和使用知识的过程。
9.数据分析将会对以后步骤中必须的数据转换提供一个初步的了解,比如数据清理和整合。
10.OLAP工具是数据仓库的前端工具集中,通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,便于用户对数据进行深入的分析和观察。
11.选择供应商一般以满足时间约束的条件下最小化物流成本为目标。
12.知识和信息最主要的区别是,信息是某种事实而知识是某种经验。
13.根据文本的不同特征进行聚类是一种文本聚类方法。
14.维是人们在观察数据时所采用的特定角度,是考虑问题时的一类属性。
15.归咎是处理空缺值的一种方法。
16.业务流程管理包括流程分析、流程定义与重定义、资源分配、流程质量与效率测评和流程优化。
17.Web挖掘主要处理文本等半结构、非结构化的数据,这些数据分布在Web文档、Web服务器的日志、用户cookies 等。
18.数据挖掘最小要求是正确的、有用的和综合的,这些要求可以用来评价数据挖掘是否对业务环境增加了附加的价值。
19.多库系统的限制主要表现在可用性、响应速度、系统性能和系统开销等方面。
商务智能方法与技术19秋期末考核标准参考答案

《商务智能方法与技术》19秋期末考核-0001试卷总分:1。
0得分:70一、单选题(共15道试题,共30分)L()是一种以规范化的方式构造端到端的业务流程为中心, 以持续地提高组织绩效为R的的系统化方法A.知识管理B.方法管理C.信息化管理D.业务流程管理答案:D2 •知识和信息最主要的区别是A.知识比信息重要B.知识比信息更容易被组织C.信息系统比知识系统昂贵D.信息是某种事实而知识是某种经验答案:D更多加微boge306193.()存储格式一般比较适合于需要总结数据的查询有较快的响应时间,同时基数据的量又比较大的场合。
A.ServerOLAPB.ROLAPC.MOLAPD.HOLAP答案:D4,哪种数据库工具采用矩阵方式来存储数据。
A渚B不是B.桌面型数据库工具C.多维数据库工具(MOLAP)D.关系型数据库工具(ROLAP)答案:C5.()针对包括Web页面内容、页面结构和用户访问信息等在内的各种Web数据,应用数据挖掘方法发现有用的知识帮助人们从大量Web文档集中发现隐藏的模式A.结构挖掘B.文本挖掘C.内容挖掘D.使用挖掘答案:B6.OLAP系统应能处理与应用有关的任何逻辑分析和统计分析,此描述是指OLAP的哪个特性。
A.快速性B.多维性C.可分析性D.信息性答案:C7.()是基于网页内容或其描述中抽取知识的过程A.结构挖掘8.内容挖掘C.使用(日志)挖掘D.个性挖掘答案:B8.()根据文本的不同特征划分为不同的类A渚E可以B.文本聚类C.文本概括D.文本分类答案:B9,数据仓库系统组成中,哪个部件是把数据从源数据中提取出来,依定义部件的规则将不同数据格式的源数据转换成数据仓库的数据格式并装载进数据仓库。
A.数据集成部件B.数据转换部件C.数据仓库管理部件D.元数据库及元数据管理部件答案:B10.()是人们观察数据的特定角度,是考虑问题时的一类属性。
A.维的成员B.维的层次C.维D.数据单元答案:C1L知识管理就是对信息的管理是哪个知识管理学派的说法()A.行为学派B.综合学派C.管理学派D.技术学派答案:D12 ,数据仓库的哪个特性可保证在较高层次上对分析对象的数据给出完整、一致的描述,能完整、统一的刻画各个分析对象所涉及的企业的各项数据以及数据之间的联系。
商务智能复习题

一、选择题(本题共5道小题,每小题2分,共10分)1. 数据仓库是随着时间变化(de),下面(de)描述不正确(de)是 ( C ).A. 数据仓库随时间(de)变化不断增加新(de)数据内容B. 捕捉到(de)新数据会覆盖原来(de)快照C. 数据仓库随事件变化不断删去旧(de)数据内容D. 数据仓库中包含大量(de)综合数据,这些综合数据会随着时间(de)变化不断地进行重新综合2. 有关数据仓库(de)开发特点,不正确(de)描述是( B ).A. 数据仓库使用(de)需求在开发初期就要明确B. 数据仓库开发要从数据出发C. 数据仓库(de)开发是一个不断循环(de)过程,是启发式(de)开发D. 在数据仓库环境中,并不存在操作型环境中所固定(de)和较确切(de)处理流,数据仓库中数据分析和处理更灵活,且没有固定(de)模式3. 在有关数据仓库测试,下列说法不正确(de)是 ( D ).A. 在完成数据仓库(de)实施过程中,需要对数据仓库进行各种测试.测试工作中要包括单元测试和系统测试.B. 当数据仓库(de)每个单独组件完成后,就需要对他们进行单元测试.C. 系统(de)集成测试需要对数据仓库(de)所有组件进行大量(de)功能测试和回归测试.D. 在测试之前没必要制定详细(de)测试计划.4. 关于基本数据(de)元数据是指 ( D ).A. 基本元数据与数据源、数据仓库、数据集市和应用程序等结构相关(de)信息B. 基本元数据包括与企业相关(de)管理方面(de)数据和信息C. 基本元数据包括日志文件和简历执行处理(de)时序调度信息D. 基本元数据包括关于装载和更新处理,分析处理以及管理方面(de)信息6. 下面关于数据粒度(de)描述不正确(de)是 ( C ).A. 粒度是指数据仓库小数据单元(de)详细程度和级别B. 数据越详细,粒度就越小,级别也就越高C. 数据综合度越高,粒度也就越大,级别也就越高D. 粒度(de)具体划分将直接影响数据仓库中(de)数据量以及查询质量6. 关于OLAP(de)特性,下面正确(de)是:( D )(1)快速性 (2)可分析性 (3)多维性 (4)信息性 (5)共享性A. (1) (2) (3)B. (2) (3) (4)C. (1) (2) (3) (4)D. (1) (2) (3) (4) (5)7. 关于OLAP和OLTP(de)区别描述,不正确(de)是: ( C )A. OLAP主要是关于如何理解聚集(de)大量不同(de)数据,它与OTAP应用程序不同.B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单(de)事务.C. OLAP(de)特点在于事务量大,但事务内容比较简单且重复率高.D. OLAP是以数据仓库为基础(de),但其最终数据来源与OLTP一样均来自底层(de)数据库系统,两者面对(de)用户是相同(de).8. 关于OLAP和OLTP(de)说法,下列不正确(de)是: ( A )A. OLAP事务量大,但事务内容比较简单且重复率高B. OLAP(de)最终数据来源与OLTP不一样C. OLTP面对(de)是决策人员和高层管理人员D. OLTP以应用为核心,是应用驱动(de)9. OLAP技术(de)核心是( D ).A. 在线性B. 对用户(de)快速响应C. 互操作性D. 多维分析10.某超市研究销售纪录数据后发现,买啤酒(de)人很大概率也会购买尿布,这种属于数据挖掘(de)哪类问题 ( A )A. 关联规则B. 聚类C. 分类D. 自然语言处理11. 分析型CRM(de)( C )功能可以让CRM对所进行(de)销售活动相关信息进行存储和管理,将客户所发生(de)交易与互动事件转化为有意义、高获利(de)销售商机.A. 促销管理B. 个性化和标准化C. 客户分析和建模D. 客户沟通12. 运用关键绩效指标法设计组织关键绩效指标依次经过以下几个步骤( A ).A. 确定关键成功领域、确定关键绩效要素、确定关键绩效指标B. 计划目标、实施目标、评价结果、反馈C. 确定目标、比较目标、收集分析数据、系统学习与改进、评价和提高D. 确定长期整体目标、确定短期目标13.什么是KDD ( A )A. 知识发现B. 领域知识发现C. 文档知识发现D. 动态知识发现14. 呼叫中心是一种基于( D )(de)一种新(de)综合信息服务系统.A IT技术B CTI技术C WEB技术D CRM技术15. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤(de)任务 (C)A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘16. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签(de)数据与带其他标签(de)数据相分离 ( B )A. 分类B. 聚类C. 关联分析D. 隐马尔可夫链17. 使用交互式(de)和可视化(de)技术,对数据进行探索属于数据挖掘(de)哪一类任务(A)A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则18. 为数据(de)总体分布建模,把多维空间划分成组等问题属于数据挖掘(de)哪一类任务( B)A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则19. 建立一个模型,通过这个模型根据已知(de)变量值来预测其他某个变量值属于数据挖掘(de)哪一类任务 ( C )A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则20. 用户有一种感兴趣(de)模式并且希望在数据集中找到相似(de)模式,属于数据挖掘哪一类任务 ( A )A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则21.下面哪种不属于数据预处理(de)方法 ( D )A. 变量代换B. 离散化C. 聚集D. 估计遗漏值22.下面哪个不属于数据(de)属性类型( D ).A. 标称B. 序数C. 区间D. 相异23. 在上题中,属于定量(de)属性类型是( C ).A. 标称B. 序数C. 区间D. 相异24. 只有非零值才重要(de)二元属性被称作( C ).A. 计数属性B. 离散属性C. 非对称(de)二元属性D. 对称属性25. 以下哪种方法不属于特征选择(de)标准方法 ( D ).A. 嵌入B. 过滤C. 包装D. 抽样26.下面不属于创建新属性(de)相关方法(de)是( C ).A. 特征提取B. 特征修改C. 映射数据到新(de)空间D. 特征构造27. 下面哪个属于映射数据到新(de)空间(de)方法 ( A )A. 傅立叶变换B. 特征加权C. 渐进抽样D. 维归约28. 企业所建立(de)预测模型(de)好坏取决于模型在( A )上(de)表现效果.A. 得分集B. 训练集C. 测试集D. 评价集29. 客户在经济活动中具有多重身份,下面哪一种不是其身份之一( C ).A. 行为身份B. 所有权身份C. 学习身份D. 决策身份30. 下列四条描述中,正确(de)一条是( B ).A. 企业实施数据挖掘,必须要有数据仓库.B. 企业要实施数据挖掘最好(de)方式是请编外专家.C. 企业购买现成数据挖掘模型(de)一个先决条件是:该企业(de)产品、客户、市场定位和所买来(de)现成模型设计之初(de)假设相吻合.D. 在建模(de)时侯,增益最高(de)模型就是最好(de)模型.31. 数据挖掘算法以( D )形式来组织数据.A. 行B. 列C. 记录D. 表格32. 企业要建立预测模型,需准备建模数据集,以下四条描述建模数据集正确(de)是( B ).A. 数据越多越好.B. 尽可能多(de)适合(de)数据.C. 得分集数据是建模集数据(de)一部分.D. 以上三条都正确.33. K—均值类别侦测要求输入(de)数据类型必须是( B ).A. 整型B. 数值型C. 字符型D. 逻辑型34. 在决策树和累计增益图(de)关系转化过程图中,决策树上某一页节点(de)增益与累计增益图上(de)( D )相对应.A. 线段长度B. 线段斜率C. 相对应(de)线段长度D. 相对应(de)线段斜率35. 企业为提升每个客户(de)价值,应实现( C )最优化.A. 促销活动B. 预算最优化C. 客户最优化D. 三者都不是36. 数据挖掘(de)经典案例“啤酒与尿布试验”最主要是应用了( C )数据挖掘方法.A. 分类B. 预测C. 组合或关联法则D. 聚类37. 企业成功实施数据挖掘, 需要以下( B )知识或技术.A. 预先(de)规划B. 对商业文体(de)理解C. 综合商业知识和技能D. 都需要38. 下列哪个不是专门用于可视化时间空间数据(de)技术( B ).A. 等高线图B. 饼图C. 曲面图D. 矢量场图39. 在抽样方法中,当合适(de)样本容量很难确定时,可以使用(de)抽样方法是 ( D ).A. 有放回(de)简单随机抽样B. 无放回(de)简单随机抽样C. 分层抽样D. 渐进抽样40. 设X={1,2,3}是频繁项集,则可由X产生( C )个关联规则.A. 4B. 5C. 6D. 741. 概念分层图是( B )图.A. 无向无环B. 有向无环C. 有向有环D. 无向有环42. 以下哪些算法是分类算法( B ).A. DBSCANB. C4.5C. K-MeanD. EM43. 以下哪些分类方法可以较好地避免样本(de)不平衡问题( A ).A. KNNB. SVMC. BayesD. 神经网络44. 以下关于人工神经网络(ANN)(de)描述错误(de)有 ( A ).A. 神经网络对训练数据中(de)噪声非常鲁棒B. 可以处理冗余特征C. 训练ANN是一个很耗时(de)过程D. 至少含有一个隐藏层(de)多层神经网络45. 通过聚集多个分类器(de)预测来提高分类准确率(de)技术称为 ( A ) .A. 组合(ensemble)B. 聚集(aggregate)C. 合并(combination)D. 投票(voting)46. 简单地将数据对象集划分成不重叠(de)子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( B ).A. 层次聚类B. 划分聚类C. 非互斥聚类D. 模糊聚类47. 在基本K均值算法里,当邻近度函数采用( A )(de)时候,合适(de)质心是簇中各点(de)中位数.A. 曼哈顿距离B. 平方欧几里德距离C. 余弦距离D. Bregman散度48.( C )是一个观测值,它与其他观测值(de)差别如此之大,以至于怀疑它是由不同(de)机制产生(de).A. 边界点B. 质心C. 离群点D. 核心点48. 检测一元正态分布中(de)离群点,属于异常检测中(de)基于( A )(de)离群点检测.A. 统计方法B. 邻近度C. 密度D. 聚类技术49. DBSCAN在最坏情况下(de)时间复杂度是( B ).A. O(m)B. O(m2)C. O(log m)D. O(mlog m)50. 关于K均值和DBSCAN(de)比较,以下说法不正确(de)是( A ).A. K均值丢弃被它识别为噪声(de)对象,而DBSCAN一般聚类所有对象.B. K均值使用簇(de)基于原型(de)概念,而DBSCAN使用基于密度(de)概念.C. K均值很难处理非球形(de)簇和不同大小(de)簇,DBSCAN可以处理不同大小和不同形状(de)簇.D. K均值可以发现不是明显分离(de)簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠(de)簇.51. 使用交互式(de)和可视化(de)技术,对数据进行探索属于数据挖掘(de)哪一类任务( A )A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则52.下面哪种不属于数据预处理(de)方法 ( D )A变量代换 B离散化 C 聚集 D 估计遗漏值二、判断题(本题共10道小题,每小题1分,共10分)( T )1.商务智能指收集、转换、分析和发布数据(de)过程,目(de)是为了更好(de)决策.( F )2.数据分析是整合企业原始数据(de)第一步,包括数据抽取、转换和装载三个过程.( T )3.维是人们观察数据(de)特定角度,是考虑问题时(de)一类属性.( F )4.独立(de)数据集市架构(de)优点是企业内数据一致,不会产生信息孤岛.( T )5. 星型模型(de)核心是事实表,事实表把各种不同(de)维表连接起来.( F )6.企业风险分析是通过对企业(de)经营成本进行综合评价,拟定一个企业成本(de)临界值.( T )7.衡量客户忠诚(de)唯一尺度就是客户是否重复或持久地购买企业(de)产品或者服务.( T )8.在BI中,DW是前提和基础,负责统一数据规则(de)处理和存储.( F )9.客户服务管理是对客户意见或投诉以及售前、售中、售后服务进行管理.( F )10. 平衡计分卡共包括三个层面,分别是财务层面、客户层面、内部业务流程层面.( T )11.数据挖掘(de)主要任务是从数据中发现潜在(de)规则,从而能更好(de)完成描述数据、预测数据等任务.( F )12.在聚类分析当中,簇内(de)相似性越大,簇间(de)差别越大,聚类(de)效果就越差.( F )13.OLAP是用来协助企业对响应事件或事务(de)日常商务活动进行处理.( T )14.数据仓库是面向主题(de)、集成(de)、稳定(de)、随时间变化(de)数据集合,用以支持管理决策(de)过程.( T )15. 数据预处理是整合企业原始数据(de)第一步,包括数据抽取、转换和装载三个过程.( F )16.C4.5决策树算法是国际上最早、最有影响力(de)决策树算法,( T )17.平衡计分卡是从财务、客户、内部运营、学习与成长四个角度,将组织(de)战略落实为可操作(de)衡量指标和目标值(de)一种新型绩效管理体系.( F )18.客户服务管理是对客户意见或投诉以及售前、售中、售后服务进行管理.( F )19. 企业绩效管理(de)目(de)在于进一步加强成本(de)事前控制,同时有助于通过盈亏分析,辅助产品科学(de)报价.20. 数据仓库(de)数据量越大,其应用价值也越大.F21. 啤酒与尿布(de)故事是聚类分析(de)典型实例.F22. 等深分箱法使每个箱子(de)记录个数相同.T23. 数据仓库“粒度”越细,记录数越少.F24. 数据立方体由3维构成,Z轴表示事实数据.F25. 决策树方法通常用于关联规则挖掘.F26. ID3算法是决策树方法(de)早期代表.T27. C4.5是一种典型(de)关联规则挖掘算法.F28. 回归分析通常用于挖掘关联规则.F29. 人工神经网络特别适合解决多参数大复杂度问题.T30. 概念关系分析是文本挖掘所独有(de).F31. 可信度是对关联规则(de)准确度(de)衡量.F32. 孤立点在数据挖掘时总是被视为异常、无用数据而丢弃.T33. SQL Server 2005不提供关联规则挖掘算法.F34. 决策树方法特别适合于处理数值型数据.F35. 数据仓库(de)数据为历史数据,从来不需要更新.T36. 数据立方体是广义知识发现(de)方法和技术之一.F37. 数据立方体(de)其中一维用于记录事实数据.T38. 数据挖掘(de)目标不在于数据采集策略,而在于对于已经存在(de)数据进行模式(de)发掘.( T )39. 图挖掘技术在社会网络分析中扮演了重要(de)角色.( T )40. 模式为对数据集(de)全局性总结,它对整个测量空间(de)每一点做出描述;模型则对变量变化空间(de)一个有限区域做出描述.( F )41. 寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式.( F )42. 离群点可以是合法(de)数据对象或者值. ( T )43. 离散属性总是具有有限个值. ( F )44. 噪声和伪像是数据错误这一相同表述(de)两种叫法. ( F )45. 用于分类(de)离散化方法之间(de)根本区别在于是否使用类信息. ( T )46. 特征提取技术并不依赖于特定(de)领域. ( F )47. 可信度是对关联规则(de)准确度(de)衡量.F48. 定量属性可以是整数值或者是连续值. ( T )49. 可视化技术对于分析(de)数据类型通常不是专用性(de). ( T )50. DSS主要是基于数据仓库、联机数据分析和数据挖掘技术(de)应用.( F )51. OLAP技术侧重于把数据库中(de)数据进行分析、转换成辅助决策信息,是继数据库技术发展之后迅猛发展起来(de)一种新技术. ( T )52. 商业智能系统与一般交易系统之间在系统设计上(de)主要区别在于:后者把结构强加于商务之上,一旦系统设计完毕,其程序和规则不会轻易改变;而前者则是一个学习型系统,能自动适应商务不断变化(de)要求. ( T )53. 数据仓库中间层OLAP服务器只能采用关系型OLAP. ( F )54.数据仓库系统(de)组成部分包括数据仓库、仓库管理、数据抽取、分析工具等四个部分. ( F )55.Web数据挖掘是通过数据库仲(de)一些属性来预测另一个属性,它在验证用户提出(de)假设过程中提取信息.( F )56. 关联规则挖掘过程是发现满足最小支持度(de)所有项集代表(de)规则.( F )57. 聚类(clustering)是这样(de)过程:它找出描述并区分数据类或概念(de)模型(或函数),以便能够使用模型预测类标记未知(de)对象类. ( F )58. 分类和回归都可用于预测,分类(de)输出是离散(de)类别值,而回归(de)输出是连续数值.( T )59. 对于SVM分类算法,待分样本集中(de)大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响. ( T )60. Bayes法是一种在已知后验概率与类条件概率(de)情况下(de)模式分类方法,待分样本(de)分类结果取决于各类域中样本(de)全体. ( F )三、名词解释(本题共4道小题,每小题5分,共20分)1.商务智能商务智能是融合了先进信息技术与创新管理理念(de)结合体,集成企业内外数据,进行加工并从中提取能够创造商业价值(de)知识,面向企业战略并服务于管理层、业务层,指导企业经营决策,提升企业竞争力.2.数据仓库数据仓库是面向主题(de)、集成(de)、稳定(de)、随时间变化(de)数据集合,用以支持管理决策(de)过程.3. 数据集成数据集成是在逻辑上或物理上把不相同来源、格式、特点(de)数据有机地整合,从而为企业提供全面(de)数据共享.4. OLAP(联机分析处理)OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来(de)、能够真正为用户所理解(de)、并真实反映企业维特性(de)信息进行快速、一致、交互地存取,从而获得对数据(de)更深入了解(de)一类软件技术.5. 数据挖掘数据挖掘是从大量(de)、不完全(de)、有噪声(de)、模糊(de)、随机(de)数据中提取正确(de)、有用(de)、未知(de)、综合(de)以及人们感兴趣(de)知识并用于决策支持(de)过程.6. 孤立点:指数据库中包含(de)一些与数据(de)一般行为或模型不一致(de)异常数据.7. 数据规范化:指将数据按比例缩放(如更换大单位),使之落入一个特定(de)区域(如0-1)以提高数据挖掘效率(de)方法.规范化(de)常用方法有:最大-最小规范化、零-均值规范化、小数定标规范化.8. 聚类:是将物理或抽象对象(de)集合分组成为多个类或簇(cluster)(de)过程,使得在同一个簇中(de)对象之间具有较高(de)相似度,而不同簇中(de)对象差别较大.9. ROLAP:是基于关系数据库存储方式(de),在这种结构中,多维数据被映像成二维关系表,通常采用星型或雪花型架构,由一个事实表和多个维度表构成.10. 数据归约:缩小数据(de)取值范围,使其更适合于数据挖掘算法(de)需要,并且能够得到和原始数据相同(de)分析结果.11. 预测型知识:是根据时间序列型数据,由历史(de)和当前(de)数据去推测未来(de)数据,也可以认为是以时间为关键属性(de)关联知识.12. 决策树:是用样本(de)属性作为结点,用属性(de)取值作为分支(de)树结构.它是分类规则挖掘(de)典型方法,可用于对新样本进行分类.13. 遗传算法:是一种优化搜索算法,它首先产生一个初始可行解群体,然后对这个群体通过模拟生物进化(de)选择、交叉、变异等遗传操作遗传到下一代群体,并最终达到全局最优.14. 知识管理:知识管理就是对一个企业集体(de)知识与技能(de)捕获,是为增强组织(de)绩效而创造、获取和使用知识(de)过程(知识(de)创造、储存、分享、应用和更新). 15. Web挖掘:Web挖掘是从大量Web文档(de)集合C中发现隐含(de)、有用(de)模式P(de)过程:C→P .四、简答题(本题共5道小题,每小题6分,共30分)1.实现商务智能(de)四个阶段是什么答:实现商务智能(de)四个阶段是数据预处理、建立数据仓库、数据分析及数据展现.(2分)数据预处理是整合企业原始数据(de)第一步,包括数据抽取、转换和装载三个过程; (1分)数据仓库则是处理海量数据(de)基础; (1分)数据分析是体现系统智能(de)关键,一般采用OLAP和DM两大技术.(1分)数据展现则主要保障系统分析结果(de)可视化.(1分)2. 数据库系统(de)局限性①数据库适于存储高度结构化(de)日常事务细节数据.决策分析型数据是多维性,分析内容复杂.②在决策分析环境中,如果事务处理(de)细节数据量太大一方面会严重影响分析效率,另一方面这些细节数据会分散决策者(de)注意力.③当事务型处理环境和分析型处理环境在同一个数据库系统中,事务型处理对数据(de)存取操作频率高,操作处理(de)时间短,而分析型处理可能需要连续运行几个小时,从而消耗大量(de)系统资源.④决策型分析数据(de)数据量大,这些数据有来自企业内部(de),也有来自企业外部(de).来自企业外部(de)数据又可能来自不同(de)数据库系统,在分析时如果直接对这些数据操作会造成分析(de)混乱.对于外部数据中(de)一些非结构化数据,数据库系统常常是无能为力.3.数据仓库与数据集市(de)区别是什么数据仓库收集了关于整个组织(de)主题信息,因此是企业范围(de).对于数据仓库,通常使用星座模式,因为它能对多个相关(de)主题建模;(3分)数据集市是数据仓库(de)一个部门子集,它针对选定(de)主题,因此是部门范围(de).对于数据集市,流行星型或雪花模式,因为它们都适合对单个主题建模.(3分)4. OLAP(de)特点①快速性Fast:用户对OLAP(de)快速反应能力有很高(de)要求.②可分析性Analysis:OLAP系统应能处理与应用有关(de)任何逻辑分析和统计分析.③多维性Multidimensional:多维性是OLAP(de)关键属性.系统必须提供对数据(de)多维视图和分析,包括对层次维和多重层次维(de)完全支持.④信息性Information:OLAP系统应能及时获得信息,并且管理大容量信息.5.简述OLAP(de)基本操作有哪些答:OLAP(de)基本操作有:1. 切片和切块(Slice and Dice):在多维数据结构中,按二维进行切片,按三维进行切块,可得到所需要(de)数据.(2分)2. 钻取(Drill) :钻取包含向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)操作,钻取(de)深度与维所划分(de)层次相对应.(2分)3. 旋转(Rotate)/旋转(Pivot):通过旋转可以得到不同视角(de)数据.(2分)6.简述OLAP 与数据挖掘(de)区别和联系.答:OLAP 侧重于与用户(de)交互、快速(de)响应速度及提供数据(de)多维视图,而数据挖掘则注重自动发现隐藏在数据中(de)模式和有用信息,尽管允许用户指导这一过程.(3分)OLAP (de)分析结果可以给数据挖掘提供分析信息作为挖掘(de)依据,数据挖掘可以拓展OLAP 分析(de)深度,可以发现OLAP 所不能发现(de)更为复杂、细致(de)信息.(3分)7.何谓数据挖掘它有哪些方面(de)功能从大量(de)、不完全(de)、有噪声(de)、模糊(de)、随机(de)数据中,提取隐含在其中(de)、人们事先不知道(de)、但又是潜在有用(de)信息和知识(de)过程称为数据挖掘.相关(de)名称有知识发现、数据分析、数据融合、决策支持等.数据挖掘(de)功能包括:概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等.(3分)8.在数据挖掘之前为什么要对原始数据进行预处理原始业务数据来自多个数据库或数据仓库,它们(de)结构和规则可能是不同(de),这将导致原始数据非常(de)杂乱、不可用,即使在同一个数据库中,也可能存在重复(de)和不完整(de)数据信息,为了使这些数据能够符合数据挖掘(de)要求,提高效率和得到清晰(de)结果,必须进行数据(de)预处理.为数据挖掘算法提供完整、干净、准确、有针对性(de)数据,减少算法(de)计算量,提高挖掘效率和准确程度.9.简述数据预处理方法和内容.数据清洗:包括填充空缺值,识别孤立点,去掉噪声和无关数据.数据集成:将多个数据源中(de)数据结合起来存放在一个一致(de)数据存储中.需要注意不同数据源(de)数据匹配问题、数值冲突问题和冗余问题等.数据变换:将原始数据转换成为适合数据挖掘(de)形式.包括对数据(de)汇总、聚集、概化、规范化,还可能需要进行属性(de)重构.数据归约:缩小数据(de)取值范围,使其更适合于数据挖掘算法(de)需要,并且能够得到和原始数据相同(de)分析结果.10. 数据挖掘(de)六种常用算法和技术分别是什么①聚类分析;②分类分析;③关联分析;④序列模式挖掘;⑤回归分析;⑥时间序列分析.11. 数据挖掘中(de)数据需要采用哪些格式数据挖掘中(de)数据需要采用以下格式:①所有数据应该在一个表格/数据库视图中②每一行对应于与业务问题相关(de)一个案例③忽略具有单一值/几乎单一值(de)列④忽略所有行(de)值都不同(de)列⑤删除所有同义列⑥对于预测模型,目标列必须是可识别(de)12.简述K-近邻分类法(de)基本思想.答:基本思想:K-近邻分类是基于类比学习(de),每个样本代表d维空间(de)一个点.(3分)。
商务智能复习

商务智能复习商务智能第第1 章商务智能概述1.1 商业决策需要商务智能一、数据、信息和知识1、数据:符号、事实和数字信息:有用的数据关系:信息是经过某种加工处理后的数据,是反映客观事物规律的一些数据。
数据是信息的载体, 信息是对数据的解释。
知识:对信息内容进行提炼、比较、挖掘、分析、概括、判断和推论。
2、决策离不开信息、知识①决策需要信息,更离不开知识;知识更多地表现为经验__学习的结晶;学习的过程是不断地对信息加工处理;信息的收集、加工、传输与利用贯穿着决策各阶段的工作过程。
②信息已成为企业经营中重要性仅次于人才的第二大要素。
③决策=信息+经验+冒险④商务智能是对企业信息的科学管理。
3、商务智能支持商业决策商务智能如何创造知识和价值1.2 商务智能简介商务智能这一术语1996年由Gartner 公司的分析师Howard Dresner首次提出,他提出商务智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。
一、商务智能概念商务智能是整合了先进信息技术与创新管理理念的结合体,集成了企业内外的数据,进行加工并从中提取能够创造商业价值的信息,面向企业战略并服务于管理层、业务层,指导企业经营决策,提升企业竞争力,涉及企业战略、管理思想、业务整合和技术体系等层面,促进信息到知识再到利润的转变,从而实现更好的绩效。
①先进信息技术:商务智能是多项技术的综合应用;②集成了企业内外的数据,进行加工并从中提取能够创造商业价值的信息:商务智能的层次;③企业战略:商务智能服务于企业战略;④管理层、业务层:商务智能用户多样性;⑤更好的绩效:商务智能提升企业绩效。
二、商务智能的价值1、在商务智能背后有一些商业驱动力,如:①增加收入,减少费用和更有效地竞争的需求。
②管理和模拟当前商业环境复杂性的需求。
③减少IT 费用和利用已有公司业务信息的需求。
2、商务智能的价值①制定合适的市场营销策略;②改善顾客智能;③经营成本与收入分析;④提高风险管理能力;⑤改善业务洞察力;⑥提高市场响应能力。
商业智能系统考试试题

商业智能系统考试试题一、选择题(共50分)1. 商业智能系统是指通过技术手段解决商业问题、支持商业决策的一套系统和工具。
下面哪个不属于商业智能系统的关键组成部分?A. 数据仓库B. 数据分析C. 数据可视化D. 数据备份2. 在商业智能系统中,下面哪个工具可以用来将数据从多个来源整合到一个统一的数据仓库中?A. ETL工具B. OLAP工具C. 数据可视化工具D. 决策支持系统3. 商业智能系统的数据分析功能可以帮助企业进行哪些方面的工作?A. 销售预测B. 成本控制C. 客户关系管理D. 所有选项都正确4. 商业智能系统可以通过可视化方式呈现数据分析结果,下面哪个不属于常用的数据可视化工具?A. 折线图B. 柱状图C. 饼图D. 行列式图5. 商业智能系统的决策支持功能能够帮助企业进行哪些方面的工作?A. 市场定位B. 产品设计C. 供应链管理D. 所有选项都正确二、填空题(共30分)1. 商业智能系统的主要目标是提供有用的_____________,帮助企业做出更明智的决策。
2. 商业智能系统通过_____________、_____________和_____________等技术手段来实现数据分析。
3. 在商业智能系统中,数据仓库一般包括_____________、_____________和_____________等组成部分。
4. 在商业智能系统中,通过_____________和_____________等工具可以将数据可视化呈现。
5. 商业智能系统的决策支持功能可以通过_____________、_____________和_____________等方式来实现。
三、简答题(共20分)1. 请简要描述商业智能系统的应用场景,并举例说明。
2. 商业智能系统的技术架构包括哪些主要组成部分?请简要介绍每个组成部分的作用。
四、论述题(共50分)请就商业智能系统在企业决策中的作用发表你的观点,并提供相关案例或数据支持。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一讲商务智能概述(综合论述题)1学习本课程的原因:现代管理需要基于计算机的方法让决策更有有效性企业需要有智能A:在分析型商务智能软件的帮助下,用户可以建立统一的企业数据仓库平台,并收集,访问,分析每个商业领域的数据,同时,数据库技术的进步,服务器性能的提升以及分析软件算法的优化,是的访问大型数据库处理海量信息变得更加容易便捷。
B:商务智能可以提供个性化服务,以满足不同用户的需求,智能搜索可以给决策者以很好的数据分析。
2与本专业的关联性: 信息技术迅速发展的今天,电子商务已在国民经济中显现出极其重要的作用。
伴随着服务形态在全球扩张,市场需求多样化,社会网络的广泛建立等社会经济巨大变革;数据量正以每年翻倍的速度扩增,然而数据源分散,异构数据库难以整合,数据接口复杂等问题严重,导致大量数据中真正能被利用来分析和运用的数据不足10%。
如何将数据有效转化为决策者所需要的信息,提升电子商务整体应用水平,已经成为政府,企业界和软件开发界关注的一个研究方向。
(BI发展趋势:绩效管理,产品模块的集成,结构化和非结构化数据,数据质量,预测分析,客户定制化。
)根据商务智能的主要技术,以及电子商务的移动,虚拟性,个性化,社会性等新型特征,把商务智能同电子商务基础性规律结合起来,完善商务节点的数据挖掘,抽取,转化集成和应用。
提升电子商务中的智能搜索,精度营销,比较购物,供应链、配送优化等现实需求。
描述商务智能融合技术在电子商务中的应用展望。
3商务智能在电子商务中的典型应用(1)数据挖掘的应用:挖掘主要是挖掘出有潜力价值数据的信息拘束,主要应用在情报分析,数据库营销,识别用户消费行为,客户流失分析,划分客户群体等相关应用。
(沃尔玛超市尿布与啤酒的销售)(2)智能搜索的应用:人们运用关键词进行搜索返还的结果信息之间缺乏有效的关联,不仅增加了用户筛选结果信息的时间,而且也为用户查找有效信息增加了复杂的。
更重要的是传统搜索系统基于信息共享平台设计,缺乏有效的权限管理策略和安全机制,无法有效的保证资讯信息合法使用。
结合新兴电子商务的特征与精度营销,比较购物,供应链、配送优化等现实需求,研究电子商务中的知识管理与智能搜索的理论和方法。
主要内容可包括:具有智能的商务知识表达与数据挖掘方法,非结构信息中的知识获取技术,网页数据有效提取与实时动态分析技术,个性化推荐技术的应用等问题。
(3)可视化技术的应用:基于有限的离散采样,三维数据比几何形态的信息更为丰富和完整,而且更适合于表达不规则的研究对象。
(4)知识管理的应用:随着知识管理在科研机构内的应用,所有的科研成果和业内最新信息都可以共享在知识库中,方便使用人员检索知识,参考经验,从而达到商务成果信息的有效利用。
(5)个性推荐技术的应用:个性化推荐必须能够对用户的喜好提供相关性强的精确的推荐,尽可能减少个性化用户的查找时间,推荐结果必须能够实时计算。
4商务智能在电子商务中的未来发展趋势(1)商务智能简易型趋势(简便易用的交互界面;良好的适用性;实施与管理的便捷性;)(2)商务智能平台化发展(3)商务智能嵌入化趋势(4)商务智能同群众决策互补发展第二讲商务智能导论1:BI的作用商务智能与信息社会处在信息社会的一个重要标志性特征就是信息融合。
由信息技术的进步和广泛应用驱动的技术融合不断深化,从两个方面对于人们的社会生活和经济活动产生影响。
(一方面,企业中许多传统的业务决策问题逐渐变成信息决策问题.另一方面,信息产品及其应用随着技术创新呈现出越来越丰富的形态和特征)商务智能发展起来的四种推手:1:传统业务报告数据充分而知识匮乏;2:传统报告不能满足用户需求 3:传统分析工具的整合能力有限(用户被限定在数据对象中,而不能进一步分析和整合) 4:信息技术及应用的推广(大容量数据存储,互联网,并行处理,云技术)商务智能是信息社会繁荣的推动力—从传统的商业领域逐步拓展到政务领域、教育领域、医疗领域等其他各领域。
商务智能与企业管理商务智能对企业的战略决策也同样具有非常重要的影响,这种影响体现在3个方面:公司战略、业务战略和职能战略。
( 商务智能可以根据公司各战略业务单元的经营业绩和经营定位来选择合格的投资组合战略商务智能可以进行企业外部因素分析:外部环境分析、行业状况分析、竞争对手分析等商务智能可以在分析企业内部因素(劳动力,成本,技术,竞争等)的基础上为职能战略提供科学的决策依据 )改善关系:提供有关业务状况的有用信息,提高企业知名度,改善全信息链的效率。
理解业务:可以对各项业务进行准确的评估,帮助理解业务的驱动因素,识别对业务产生影响的关键因素,积极推动业务发展,培养良好发展态势。
创造商业机会:掌握各种商务数据和信息的企业可以出手这些信息而获利。
衡量绩效:从企业各个应用系统中提取各种基础绩效指标与关键绩效指标,对员工的工作绩效进行追踪、衡量和评价。
商务智能是如何协助企业进行管理的呢(基于目标的管理:能计算跨组织的绩效目标.基于异常的管理:检测实际指标与计划目标之间的偏差.基于事实的管理:将企业目标与事实结合.基于智能协同的管理:实现企业内部与外部资源的协同)商务智能的商业价值主要有三个方面的体现:省钱,提高效率和提高竞争力。
BI的概念商务智能是企业利用现代信息技术收集、管理和分析结构化和非结构化的商务数据和信息,创造和累计商务知识和见解,改善商务决策水平,采取有效的商务行动,完善各种商务流程,提升各方面商务绩效,增强综合竞争力的智慧和能力。
BI的理解商务智能是通过对来自不同的数据源进行统一处理及管理,通过灵活的展现方法来帮助企业进行决策支持。
BI的四层面(个数据分析层面;信息系统层面;知识发现层面;战略层面)3 商务智能的系统构成四个阶段:数据收集→强大的分析工具→专业的分析知识→改善决策水平v1.0 可编辑可修改关键技术:数据仓库,联机分析处理技术,数据挖掘,可视化技术。
4 商务智能的开发方法(规划,需求分析,设计,实现。
)商务智能系统成功的关键因素:培训,循序渐进,业务人员与IT人员合作,高层支持,业务驱动5 商务智能的发展趋势•融合加强,演变成门户化•日趋“傻瓜”,体现人性化•可视化数据和自助式BI •基于云计算的BI•移动BI •致力于搜索领域的BI第三讲数据仓库的概述不应该说数据库到数据仓库是技术的进步。
数据仓库并不是对数据库的彻底抛弃。
数据库与数据仓库的比较:2 数据集市数据集市(Data Mart)又叫数据市场,是部门级的数据仓库,或者是为某种专门的用途开发的数据存储系统。
数据集市:规模较小,成本较低,针对性更强。
数据仓库:数据来源于各个部门的不同应用系统,可保证数据的整合性。
数据集市的两种基本形式 A:从属的数据集市(自上而下构建数据集市)数据是从企业的数据仓库获得,可看作是数据仓库的一个子集。
因此具有较好的数据整合性。
若需要的数据在数据集市中没有,则要先修改数据仓库的结构,使这种数据先进入数据仓库,再进入数据集市。
这种数据集市适合用于对数据仓库的访问量比较大的关键业务部门。
B:独立的数据集市(自下而上构建数据集市)没有数据仓库作为它的数据来源,而是直接从各个应用系统取得数据,因此,成本低,灵活性好,需要一种新的数据时不必修改企业级的数据仓库。
可提供个别部门所需要的数据,整合性较差。
第四讲数据仓库的分析1 数据仓库的体系结构数据仓库是面向主题、面向分析和知识发现的一种数据处理技术,对数据仓库的使用没有固定的模式,因此数据仓库与操作型事务处理系统的结构有很大的不同。
对于用户,数据仓库就是由数据源、数据仓库的数据存储、数据仓库的应用工具和可视化用户界面组成的。
2 粒度越是详细的数据,粒度级别越小;越是概括的数据,粒度级别越大。
•双重粒度指轻度综合数据级和真实细节数据级(最低粒度级)。
3 确定粒度大小一般考虑的原则:•若数据仓库的空间很有限,为节省存储空间,宜采用大粒度级表示数据;•若追求数据仓库能够回答的问题类型的能力,要求能够回答非常具体的问题,则使用较小的数据粒度级别;•若想要减轻处理器的负担,提高查询性能,则采用较大的数据粒度级别;•若没有存储空间的限制,则可在一个数据仓库中采用多重粒度级别,既存储低粒度级别的数据,也存储高粒度级别的数据,以同时获得高的查询效率和查询能力。
第五讲 DW的设计与开发概念模型设计关键任务:分析和理解DW中的主题,确定主题的要素及描述属性。
逻辑模型设计关键任务:粒度的划分、数据分割策略的确定、关系模式的定义、数据源及数据抽取模型等问题。
物理模型设计关键任务:物理数据库表及其存储结构设计。
2 概念模型设计确定主题(借助一些基本的方向性需求)对每个主题的内容进行描述(描述内容)•需要做哪些类型的决策•分析问题时所关心的事实;•决策者感兴趣的是什么问题•分析问题时的各种观察角度;•这些问题需要什么样的信息•描述事实及观察角度的属性。
•要得到这些信息需要包含哪些数据3 分析问题的维度市场经理:产品种类、时间、销售地区、销售渠道等。
市场部部长:时间、地区、客户统计特征、分销机构、产品型号等。
财务经理:预算、时间、地区4 信息包图(用户信息需求表)某连锁旅馆入住情况(核心问题是客房的使用量)维度包括:客房类型,旅馆,时间关键指标:已占用客房,空房间,不可用房间,入住人数,收入等。
对维度客房类型的分析:房间类型,房间大小,床位数,床位类型,最多容纳人数,套房家具,冰箱,厨房等。
对维度旅馆的分析:分支机构代码,分支机构名称,国家,省份,地区,城市,建设年份,修缮年份等。
对维度时间的分析:年份,季度,月份,星期几,日期,假日标准等。
5 数据仓库项目的开发过程:项目规划,需求分析,概念设计,ETL设计,逻辑和物理设计,实现与培训。
第六讲 OLAP1 多维数据库(MOLAP)与关系数据库(ROLAP)在存储上的不同对关系数据库来说,任何数据集均用二维表来存放;对多维数据库也是用二维表来存放的,但其存放方式和效率不同。
–若增加汇总,存储空间的占用情况也不同。
–若增加一个时间维——季度,采用关系数据库存储时仍使用二维表,多维数据库则采用数据立方体这样的三维数组来存储。
2 MOLAP与ROLAP的特征一般情况,MOLAP和ROLAP的选择主要看应用的规模。
若要建立功能复杂、规模较大的企业级数据仓库,则一般选择ROLAP方式;若是建立功能单一、小型的数据集市则更适合采用MOLAP方式。
第七讲 DM的概述1 产生DM的原因:A:数据挖掘技术产生的动力:数据爆炸问题;数据过量而知识贫乏(新理论、新材料、新工艺、新方法的不断出现,使知识老化的速度加快。
)B:从商业数据到商业信息的进化C:实施数据挖掘的目的:不再是单纯为了研究,更主要的是为商业决策提供真正有价值的信息,进而获得利润。