四川理工学院计科系数据仓库复习题Word版

合集下载

数据库 复习试题及答案

数据库 复习试题及答案

第1章数据库概论基本内容分析本章的重要概念(1)DB、DBMS和DBS的定义(2)数据管理技术的发展阶段人工管理阶段、文件系统阶段、数据库系统阶段和高级数据库技术阶段等各阶段的特点。

(3)数据描述概念设计、逻辑设计和物理设计等各阶段中数据描述的术语,概念设计中实体间二元联系的描述(1:1,1:N,M:N)。

(4)数据模型数据模型的定义,两类数据模型,逻辑模型的形式定义,ER模型,层次模型、网状模型、关系模型和面向对象模型的数据结构以及联系的实现方式。

(5)DB的体系结构三级结构,两级映像,两级数据独立性,体系结构各个层次中记录的联系。

(6)DBMSDBMS的工作模式、主要功能和模块组成。

(7)DBSDBS的组成,DBA,DBS的全局结构,DBS结构的分类。

本章的重点篇幅(1)教材P23的图(四种逻辑数据模型的比较)。

(2)教材P25的图(DB的体系结构)。

(3)教材P28的图(DBMS的工作模式)。

(4)教材P33的图(DBS的全局结构)。

自测题填空题1.数据管理技术的发展,与__________、__________和__________有密切的联系。

2.文件系统中的数据独立性是指__________独立性。

3.文件系统的缺陷是:_________、_________和__________。

4.就信息处理的方式而言,在文件系统阶段,__________处于主导地位,_________只起着服从程序设计需要的作用;而在数据库方式下,_________占据了中心位置。

5.对现实世界进行第一层抽象的模型,称为__________模型;对现实世界进行第二层抽象的模型,称为__________模型。

6.层次模型的数据结构是__________结构;网状模型的数据结构是__________结构;关系模型的数据结构是__________结构;面向对象模型的数据结构之间可以__________。

7.在层次、网状模型中,用__________导航数据;而在关系模型中,用__________导航数据。

数据库系统概论试卷(A)及答案(可编辑修改word版)

数据库系统概论试卷(A)及答案(可编辑修改word版)

数据库系统概论试卷(A)一、选择题(15x1 分)1、 C 是长期存储在计算机内的有组织,可共享的数据集合.A、数据库管理系统B、数据库系统C、数据库D、文件组织2、在数据库中存储的是 C 。

A、数据B、数据模型C、数据以及数据之间的联系D、信息3、数据库系统阶段,数据 D 。

A、具有物理独立性,没有逻辑独立性B、具有物理独立性和逻辑独立性C、独立性差D、具有高度的物理独立性和一定程度的逻辑独立性4、在数据模型的三要素中,数据的约束条件规定数据及其联系的 A 。

A、制约和存储规则B、动态特性C、静态特性D、数据结构5. A 由数据结构、关系操作集合和完整性约束三部分组成。

A、关系模型B、关系C、关系模式D、关系数据库6、一组具有相同数据类型的值的集合称为 D 。

A、关系B、属性C、分量D、域7、集合R 与S 的交可以用关系代数的5 种基本运算表示为 A 。

A、 R-(R-S)B、σF(R×S)C、R-(S-R)D、S-(R-S)8、实体是信息世界中的术语,与之对应的数据库术语为 D 。

A、文件B、数据库C、字段D、记录9、在嵌入式SQL 语言中使用游标的目的在于 D 。

A、区分 SQL 与宿主语言B、与数据库通信C、处理错误信息D、处理多行记录10、FoxBASE、FoxPro 属于 B 。

A、表式系统B、最小关系系统C、关系完备的系统D、全关系系统11、在 R(U)中,如果X→Y,并且对于 X 的任何一个真子集 X',都没有X'→Y,则 A 。

A、Y 函数依赖于XB、Y 对X 完全函数依赖C、X 为U 的候选码D、R 属于2NF12、3NF C 规范为BCNF。

A、消除非主属性对码的部分函数依赖B、消除非主属性对码的传递函数依赖C、消除主属性对码的部分和传递函数依赖D、消除非平凡且非函数依赖的多值依赖13、下面的结论不正确的是 D 。

A、若R.A→R.B, R.B→R.C 则R.A→R.CB、若R.A→R.B, R.A→R.C则R.A→R.(B,C)C、若R.B→R.A, R.C→R.A则R.(B,C)→R.AD、若R.(B,C)→R.A则R.B→R.A,R.C→R.A14、需求分析阶段得到的结果是 A 。

数据库期末考试复习题库(非常全面)

数据库期末考试复习题库(非常全面)

数据库期末考试复习题库(非常全面)第一部分第一章:一选择题:1.在数据管理技术的发展过程中,经历了人工管理阶段、文件系统阶段和数据库系统阶段。

在这几个阶段中,数据独立性最高的是阶段。

A.数据库系统 B.文件系统 C.人工管理 D.数据项管理答案:A 2.数据库的概念模型独立于。

A.具体的机器和DBMS B.E-R图 C.信息世界 D.现实世界答案:A 3.数据库的基本特点是。

A.(1)数据可以共享(或数据结构化) (2)数据独立性 (3)数据冗余大,易移植 (4)统一管理和控制B.(1)数据可以共享(或数据结构化) (2)数据独立性 (3)数据冗余小,易扩充 (4)统一管理和控制C.(1)数据可以共享(或数据结构化) (2)数据互换性 (3)数据冗余小,易扩充 (4)统一管理和控制D.(1)数据非结构化 (2)数据独立性 (3)数据冗余小,易扩充 (4)统一管理和控制答案:B4. 是存储在计算机内有结构的数据的集合。

A.数据库系统 B.数据库 C.数据库管理系统 D.数据结构答案:B5.数据库中存储的是。

A.数据 B.数据模型 C.数据以及数据之间的联系 D.信息答案:C 6. 数据库中,数据的物理独立性是指。

A.数据库与数据库管理系统的相互独立 B.用户程序与DBMS的相互独立C.用户的应用程序与存储在磁盘上数据库中的数据是相互独立的 D.应用程序与数据库中数据的逻辑结构相互独立答案:C7. .数据库的特点之一是数据的共享,严格地讲,这里的数据共享是指。

A.同一个应用中的多个程序共享一个数据集合 B.多个用户、同一种语言共享数据C.多个用户共享一个数据文件 D.多种应用、多种语言、多个用户相互覆盖地使用数据集合答案:D8.据库系统的核心是。

A.数据库B.数据库管理系统C.数据模型D.软件工具答案:B9. 下述关于数据库系统的正确叙述是。

A.数据库系统减少了数据冗余 B.数据库系统避免了一切冗余 C.数据库系统中数据的一致性是指数据类型一致D.数据库系统比文件系统能管理更多的数据答案:A10. 数将数据库的结构划分成多个层次,是为了提高数据库的①和②。

数据仓库-期末考试复习题

数据仓库-期末考试复习题

数据仓库-期末考试复习题复思考题(重点)一、单项选择题1)一般信息管理中,采用哪种方式的概念模型最多A。

ce模型B.实体-关系模型C.02O模型D.B/S模型(2)在关系表中,下列哪种属性不能承担主列关键字(Key)?A.身份证号B.银行卡号C.加密电文D.企业标识码(3)数据仓库的生命周期中,不包含下列哪个阶段?A.规划分析阶段B.设计实施阶段C.使用维护阶段D.反馈提升阶段(4)多维切片是指:A.在多个维度上观察全员操作B.多个成员的操作片段C.旋转数据集的部分维度D.在线分析或联机分析(5)一般信息管理中,采用哪种方式的分布式物理模型最多A。

ce模型 B.实体-关系模型C.02O模型D.B/S模型(6)在关系表中,下列哪种属性可以成为外键(Key)?A.客户信用程度B.银行卡行号C.加密的身份证号D.实体商户地址(7)数据仓库的生命周期中,不包含下列哪个阶段排在第三阶段?A.规划分析阶段 B.设计实施阶段 C.使用维护阶段D.反馈提升阶段(8)多维报表是指:A.在多个维度上观察全员操作B.分歧维度花式分歧叠加展示C.旋转数据集的部分维度D.在线阐发或联机阐发(9)数据表的多维索引的感化是:A.使数据表更节省存储空间B.加快数据存储速率C.表格花式美观大方C.加快数据查找效率10)de布局中的MAP职能是?A.钻取B.汇聚C.分发D.结晶11)下列哪种客户需求能够直接成为数据堆栈的多维报表?A.客户销售业绩清单B.客户根本名册C.客户关系图表D.客户反馈信息(12)数据堆栈开辟强调哪种主体特征?A.信息安全性B.业务流程C.操作事务性D.数据实时性(13)数据仓库与数据库系统相比,更加提倡:A.空间换时间B.数据范式更严格C.冗余度更小C.更加适用于分布式结构(14)透视表属于OLAP中的哪种能力范畴?A.存储本领B.展示本领C.稳定性本领D.安全性本领(15)OLAP的系统布局分为:A.胖客户端系统和瘦客户端系统B。

数据仓库与数据挖掘,DBMS题库考试大纲和答案

数据仓库与数据挖掘,DBMS题库考试大纲和答案

确定索引策略——B树索引 位图索引等 确定数据存放位置 ——磁带 磁盘 等 确定存储分配优化 ◆数据仓库生成 通过专用的数据抽取工具或者通过自行编程 实现数据抽取、转换和装载。 ◆数据仓库运行与维护 建立DSS应用,使用数据仓库理解需求,调整和完善系统,维护数据仓库。 17. 简要说明异常点挖掘有哪些方法?
问答题: 1. 操作型数据和分析型数据的主要区别是什么?
面向分析,分析驱动 面向应用,事务驱动 面向决策人员,支持管理需要 面向操作人员,支持日常操作 用户数量相对较少 用户数量大 响应时间合理 对响应时间要求高 一次处理的数据量大 一次处理的数据量小 周期性更新 经常更新 历史数据 当前数据 综合性数据
18. 什么是数据驱动的系统设计方法? 19. 简述采用决策树方法进行分类的过程。 决策树是以实例为基础的归纳学习算法。它从一组无次序、无规则的元组 中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决 策树的内部结点进行属性值 的比较,并根据不同的属性值从该结点向下分支,叶结点是要学习划分的 类。从根到叶结点的一条路径就对应着一条合取规则,整个决策树就对应 着一组析取表达式规则。 20. 请简述采用神经元网络进行分类的过程。 人类大脑的思维分为抽象(逻辑)思维、形象(直观)思维和灵感(顿 悟)思维三种基本方式。 逻辑性的思维是指根据逻辑规则进行推理的过程;它先将信息化成概 念,并用符号表示,然后,根据符号运算按串行模式进行逻辑推理;这一 过程可以写成串行的指令,让计算机执行。然而,直观性的思维是将分布 式存储的信息综合起来,结果是忽然间产生想法或解决问题的办法. 13.
案。 序列模式分析:发现在时间序列上,一个项目集之后的项目集是 什么,即找到时间上连续的事件。 广义索引也是为了提高数据仓库中数据访问速度而采用的一种索 引技术。主要是处理一些最值问题。 星型模型:是最常用的数据仓库设计结构的实现模式。使数据仓 库形成了一个集成系统,为用户提供分析服务对象。核心是事实 表,围绕事实表的是维度表。通过事实表将各种不同的维度表连 接起来,各个维度表都连接到中央事实表。 OLAP中的维和维层次 维是人们观察数据的特定角度;维的层次 是维在不同细节程度的描述 雪片模型是对星型模型的扩展,每一个维度都可以向外连接到多 个详细类别表。雪花模型对星型模型的维度表进一步标准化,对 星型模型中的维度表进行了规范化处理。 关联分析适合于从关系中挖掘知识。包含关联发现、序列模式发 现和类似的时序发现等。

四川理工数据库原理复习题08(软件

四川理工数据库原理复习题08(软件

第一部分一、选择题1.描述事物的符号记录称为________。

A、信息B、数据C、记录D、记录集合2.____是长期存储在计算机内的有组织,可共享的数据集合。

A、数据库管理系统B、数据库系统C、数据库D、文件组织3._____是位于用户与操作系统之间的一层数据管理软件。

A、数据库系统B、数据库管理系统C、数据库D、数据库应用系统4.数据库系统不仅包括数据库本身,还要包括相应的硬件、软件和_____。

A、数据库管理系统B、数据库应用系统C、数据库应用系统D、各类相关人员5.在人工管理阶段,数据是_____。

A、有结构的B、无结构的C、整体无结构,记录内有结构D、整体结构化的6.在数据库系统阶段,数据是_____。

A、有结构的B、无结构的C、整体无结构,记录内有结构D、整体结构化的7.在文件系统阶段,数据_____A、无独立性B、独立性差C、具有物理独立性D、具有逻辑独立性8.数据库系统阶段,数据_____。

A、只具有物理独立性B、只具逻辑独立性C、具有物理独立性和逻辑独立性D、独立性差9.非关系模型中数据结构的基本单位是_____。

A、两个记录型间的联系B、记录C、基本层次联系D、实体间多对多的联系10.数据的正确、有效和相容称之为数据的_____。

A、安全性B、一致性C、独立性D、完整性11.在数据模型的三要素中,数据的约束条件规定数据及其联系的_____。

A、动态特性B、制约和依存规则C、静态特性D、数据结构12._____属于信息世界的模型,实际上是现实世界到机器世界的一个中间层次。

A、数据模型B、概念模型C、E-R图D、关系模型13.数据库系统软件包括_____和_____。

⑴数据库⑵DBMS ⑶OS、DBMS和高级语言⑷DBMS和OS ⑸数据库应用系统和开发工具A、(1)和(2)B、(2)和(5)C、(3)D、(4)14.数据管理技术经历了人工管理,_____和_____。

⑴DBMS ⑵文件系统⑶网状系统⑷数据库系统⑸关系系统A、(3)和(5)B、(2)和(3)C、(1)和(4)D、(2)和(4)15.在数据库系统中,我们把满足以下两个条件的基本层次联系的集合称为层次模型:(1)有一个结点无双亲(2)其它结点无双亲(3)有且仅有一个结点无双亲(4)其它结点有且仅有一个双亲(5)允许其它结点有多个双亲A、(1)和(2)B、(3)和(4)C、(3)和(5)D、(2)和(5)16.在数据库系统中,将满足以下两个条件的基本层次联系集合称为网状模型:⑴_____,⑵_____。

四川理工学院计算机学院数据库原理历年考研真题

四川理工学院计算机学院816数据库原理历年考研真题汇编最新资料,WORD格式,可编辑修改!目录第一部分历年考研真题汇编 (3)2014年四川理工学院计算机学院816数据库原理考研真题 (3)2013年四川理工学院计算机学院816数据库原理考研真题 (12)第二部分兄弟院校真题汇编 (20)2013年南京航空航天大学民航学院834数据库原理及应用考研真题 (20)2010年南京航空航天大学民航学院834数据库原理及应用考研真题 (24)2009年南京航空航天大学民航学院834数据库原理及应用考研真题 (29)2008年南京航空航天大学民航学院834数据库原理及应用考研真题 .... 错误!未定义书签。

第一部分历年考研真题汇编2014年四川理工学院计算机学院816数据库原理考研真题2013年四川理工学院计算机学院816数据库原理考研真题招生专业:120100管理科学与工程考试科目:816 数据库原理—A考试时间:3小时一、选择题(在备选答案中选出一个正确答案,每小题2分,共40分)1.在DBS中,DBMS和OS之间关系是()A.并发运行B.相互调用C.OS调用DBMSD.DBMS调用OS(S)等价于如下的()语句。

2.关系模式S(A,B,C,D)中的3<'2'A.SELECT * FROM S WHERE C<'2'B.SELECT B,C FROM S WHERE C<'2'C.SELECT B,C FROM S HAVING C<'2'D.SELECT * FROM S WHERE '3'<B3.对DB中数据的操作分成两大类:()A.查询和更新B.检索和修改C.查询和修改D.插入和修改4.在关系中,“基数”(cardinality)是指()A.行数B.属性个数C.关系个数D.列数5.设关系R和S的结构相同,且各有10个元组,那么这两个关系的并操作结果的元组个数为()A.10B.小于等于10C.20D.小于等于206.下列式子中,不正确的是()A.R-S=R-(R∩S)B.R=(R-S)∪(R∩S)C.R∩S=S-(S-R)D.R∩S=S-(R-S)7.SQL中,与“NOT IN”等价的操作符是()A.=SOMEB.<>SOMEC.=ALLD.<>ALL8.对于基本表EMP(ENO,ENAME,SALARY,DNO),其属性表示职工的工号、姓名、工资和所在部门的编号。

(完整版)数据库考试习题及答案

第一章习题一、判断题1.安装Microsoft SQL Server 2005 企业版对操作系统的最低要求可以是Microsoft Windows XP Professional SP2。

( 错)2.每一个服务器必须属于一个服务器组。

一个服务器组可以包含0个、一个或多个服务器。

(对)二、填空题3. MS SQL Server提供多个图形化工具,其中用来启动、停止和暂停SQL Server服务的图形化工具称为SQLServer 配置管理器。

三、选择题4. 下列系统数据库中,(D)数据库不允许进行备份操作。

A. masterB. msdbC. modelD. Tempdb5. 下列关于SQL Server 2005实例的说法中,正确的是(C)。

A.不同版本的默认实例数可能不一样多B.不同版本的命名实例数一定一样多C.不同版本的默认实例只有一个,命名实例数不一样多D.不同版本的命名实例只有一个,默认实例数不一样多6. 下列(C)数据库是SQL Server 2005在创建数据库时可以使用的模板。

A. masterB. msdbC. modelD.mssqlsystemresoure7. 默认情况下,SQL Server 2005的系统数据库有(B)。

A. 1个B.5个C. 4个D.6个8. 在一台计算机上能安装(A)个默认实例。

A. 1B. 509. 访问默认实例使用(B)作为实例名。

A. 计算机名B. MSSQLSERVER10. 下列叙述中正确的是(A)。

A. SQL SERVER实例是提供服务的, 所以一个SQL Server实例称为一个数据库服务器B. SQL SERVER实例也叫做数据库引擎C. 若计算机上安装多个SQL SERVER实例,则它们可以相互管理11. SQL SERVER 2005实例主要提供哪些服务?(BCD)//全文搜索、报表服务、通知服务A. 查询服务B. 数据库服务C. 集成服务D. 分析服务12. 一台计算机的计算机名为computer,若在该计算机上打开配置管理器看到如图1所示内容,则说明本机上已安装3个实例,其实例名分别是(BCD)A. computerB. MSSQLSERVERC. computer\SQLEXPRESSD. computer\SERVER13. 连接数据库服务器时需要提供哪些信息?(A或者B)A. 要连接的服务器名B. 身份验证信息C. 连接协议信息14. 能否将他人计算机上运行的实例注册到你的SSMS中?(A)A. 不能B. 能15. 什么是SQL Server 2005实例,其主要功能有哪些?答:SQL Server 2005 的实例实际上就是虚拟的SQL Server 服务器。

(完整版)数据库系统概论复习试题及答案

数据库系统概论复习资料:第一章:三:简答题:1. 什么是数据库?答:数据库是长期存储在计算机内、有组织的、可共享的数据集合。

数据库是按某种数据模型进行组织的、存放在外存储器上,且可被多个用户同时使用。

因此,数据库具有较小的冗余度,较高的数据独立性和易扩展性。

2. 什么是数据库的数据独立性?答:数据独立性表示应用程序与数据库中存储的数据不存在依赖关系,包括逻辑数据独立性和物理数据独立性。

逻辑数据独立性是指局部逻辑数据结构(外视图即用户的逻辑文件)与全局逻辑数据结构(概念视图)之间的独立性。

当数据库的全局逻辑数据结构(概念视图)发生变化(数据定义的修改、数据之间联系的变更或增加新的数据类型等)时,它不影响某些局部的逻辑结构的性质,应用程序不必修改。

物理数据独立性是指数据的存储结构与存取方法(内视图)改变时,对数据库的全局逻辑结构(概念视图)和应用程序不必作修改的一种特性,也就是说,数据库数据的存储结构与存取方法独立。

3. 什么是数据库管理系统?答:数据库管理系统(DBMS)是操纵和管理数据库的一组软件,它是数据库系统(DBS)的重要组成部分。

不同的数据库系统都配有各自的DBMS,而不同的DBMS各支持一种数据库模型,虽然它们的功能强弱不同,但大多数DBMS的构成相同,功能相似。

一般说来,DBMS具有定义、建立、维护和使用数据库的功能,它通常由三部分构成:数据描述语言及其翻译程序、数据操纵语言及其处理程序和数据库管理的例行程序。

4. 什么是数据字典?数据字典包含哪些基本内容?答:数据字典是数据库系统中各种描述信息和控制信息的集合,它是数据库设计与管理的有力工具,是进行详细数据收集和数据分析所获得的主要成果。

数据字典的基本内容有:数据项、数据结构、数据流、数据存储和处理过程5个部分。

第一章补充作业部分:假设教学管理规定:①一个学生可选修多门课,一门课有若干学生选修;②一个教师可讲授多门课,一门课只有一个教师讲授;③一个学生选修一门课,仅有一个成绩。

数据库原理总复习题.doc

数据库原理总复习题一、填空题1.SQLServer数裾库应用的处理过程分布在_客广机(或客广端)________ 和服务器上。

2.SQL Server提供了动态的A我管理机制,能够A动增大或缩小数据库所占用的_硬盘平间_。

7.SQL Server客户机传递到服务器上的一组完整的数裾和SQL语句称为_批处理__。

9.函数LEFT(4abcdef’,2)的结果是 ______ ’ab’。

10.SQL Server 屮的整数类型包拈___ bigint、int、smallint、tinyint (次序尤先O 四种。

11.Microsoft SQLServer2005是运行在_____ windows ______ 操作系统平台上的、逻辑模型为_关系 ____ 型数据库管理系统。

12.SQL Server将数裾组织到用户可以看见的_逻辑组件__________ ,而在磁盘上则作为操作系统文件实现。

13.如果希塑修改数据库的名字,可以使用的系统存储过程是_sp_rename db_。

14.数拋库备份和恢S的Transact-SQL语句分别是____ Backup Database ______ 和 ___ R estore Database _____ c15.找回被删除表的惟一方法是事先做好数裾库的_备份_工作。

16._索引_是一种常用的改善数据库性能的技术。

17.索引会影响对基木表的_插入、删除、修改_等操作的速度。

18.聚集索引与非聚集索引相比,杏询速度要_快_。

19.SQL Server中为局部变量赋值的语句是____ SELECT ____ 和 ____ S ET _____ 。

20.使川create database命令定义一个数据库,包括定义 ___ 数据 _____ 文件和 ____ 円志 ___文件两个部分。

21.基本表中的记录数越_多_,每条记录占用的字节数越_多_时,使用索引就越有利。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第一章概述1.数据挖掘的定义?(书P2,PPT_P8)从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

2.数据挖掘的源是否必须是数据仓库的数据?可以有哪些来源?(PPT_P14)关系数据库、数据仓库、事务数据库、高级数据等3.数据挖掘的常用方法?(P4、PPT_P29)聚类分析、决策树、人工神经网络、粗糙集、关联规则挖掘、统计分析等4.数据挖掘的过程包括哪些步骤,每一步具体包括哪些内容?(书P2-3,PPT_P17-19)确定业务对象、数据准备、数据挖掘、结果分析与知识同化。

5.数据挖掘与数据仓库的关系(联系和区别)?区别:数据仓库——是一种存储技术,它包含大量的历史数据、当前的详细数据以及综合数据,它能为不同用户不同决策需要提供所需的数据和信息。

数据挖掘——是从人工智能机器学习中发展起来的,他研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。

联系:数据仓库为数据挖掘提供了更好的、更广泛的数据源;数据仓库为数据挖掘提供了新的支持平台;数据仓库为更好地使用数据挖掘工具提供了方便;数据挖掘为数据仓库提供了更好的决策支持;数据挖掘对数据仓库的数据组织提出了更高的要求;数据挖掘为数据仓库提供了广泛的技术支持。

第二章数据仓库1.数据仓库的定义数据仓库——是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策定制过程。

2.数据仓库数据的四大基本特征:面向主题的、集成的、不可更新的、随时间变化的。

3.数据仓库体系结构有三个独立的数据层次:信息获取层、信息存储层、信息传递层。

4.粒度的定义?它对数据仓库有什么影响?(1)是指数据仓库的数据单位中保存数据细化或综合程度的级别。

粒度越小,细节程度越高,综合程度越低,回答查询的种类就越多。

(2)影响存放在数据仓库中的数据量大小;影响数据仓库所能回答查询问题的细节程度。

5.在数据仓库中,数据按照粒度从小到大可分为四个级别:早期细节级、当前细节级、轻度细节级和高度细节级。

6.数据分割的标准:可按日期、地域、业务领域、或按多个分割标准的组合,但一般包括日期项。

7.数据仓库设计中,一般存在着三级数据模型:概念数据模型、逻辑数据模型、物理数据模型8.数据仓库设计步骤(1)概念模型设计(2)技术准备工作(3)逻辑模型设计(4)物理模型设计(5)数据仓库的生成(6)数据仓库的使用和维护9.数据装入时,并不是一次就将准备装入的数据全部装入数据仓库,而是按照逻辑模型设计中所确定和分析的主题域,先装入并生成某一主题域。

10.建立数据仓库的步骤并不是一成不变的,但最终应该满足用户的分析需求。

第三章联机分析处理技术1.联机事务处理与联机分析处理的区别?联机事务处理(OLTP)作为数据管理手段,主要用于事务处理,但它对分析处理一直不能令人满意。

联机分析处理(OLAP)是决策支持系统的有机组成部分,利用存储在数据仓库中的数据完成各种分析操作,并以直观易懂的形式将分析结果返回给决策分析人员。

2.OLAP的主要特征快速性、可分析性、多维性、信息性。

3.钻取Drill/Roll up,Drill down改变维的层次,变换分析的粒度。

分向上钻取和向下钻取。

向上钻取:在某一维上将低层次的细节数据概括到高层的汇总数据,或者减少维数。

向下钻取:从汇总数据深入到细节数据进行观察或增加新维。

4.ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。

5.OLAP根据其数据存储格式可分为三类:关系OLAP(ROLAP)、多维OLAP(MOLAP)和混合OLAP(HOLAP)。

6.雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。

7.OLAP的衡量标准(1)透明性准则:——OLAP在体系结构中的位置和数据源对用户是透明的。

(2)动态的稀疏矩阵处理准则:——对任意给定的稀疏矩阵,存在且仅存在一个最优的物理视图。

(3)维的等同性准则:——每一数据维在数据结构和操作能力上都是等同的。

第四章数据预处理1.数据预处理的方法——数据清洗、数据集成、数据变换、数据规约等。

2.分箱方法——统一权重、统一区间、最小熵、用户自定义区间。

3.数据平滑处理方法——按平均值、按边界值、按中值4.数据规范化定义?规范化的常用方法有哪些?(1)将数据按比例缩放,使之落入一个特定的区域,如[0,1],称为规范化/标准化。

(2)常用方法:最小-最大规范化、零-均值规范化、小数定标规范化。

5.数据规约从大数据集中得到其规约表示——小数据集规约的目的是减少原始数据量;可以在小数据集上得到与原始数据相同的挖掘结果。

6. 下面是一个超市某种商品连续24个月的销售数据(百元):21,16,19,24,27,23,22,21,20,17,16,20, 23,22,18,24,26,25,20,26,23,21,15,17使用统一权重、统一区间和自定义区间方法对数据分箱,并对分箱后的数据采用平均值、边界值或中值等方法进行平滑。

解:15,16,16,17,17,18,19,20,20,20,21,21,21,22,22,23,23,23,2,24,25,26,26,27统一权重:设权重为6,表示每箱6个记录,分四箱:箱1: 15,16,16,17,17,18 箱2:19,20,20,20,21,21箱3: 21,22,22,23,23,23 箱4: 24,24,25,26,26,27边界:箱1: 15,15,15,18,18,18 箱2:19,19,19,21,21,21箱3: 21,21,21,23,23,23 箱4: 24,24,24,27,27,27统一区间:每个箱子宽度为(27-15)/4=3,区间[15,18)、[18,21)、[21,24)、[24,27):箱1: 15,16,16,17,17 箱2:18,19,20,20,20箱3: 21,21,21,22,22,23,23,23 箱4: 24,24,25,26,26,27中值:箱1: 16,16,16,16,16 箱2:20,20,20,20,20箱3: 22,22,22,22,22,22,22,22 箱4: 25.5, 25.5, 25.5, 25.5, 25.5, 25.5第五章关联规则方法1.关联规则挖掘的任务?找到事务数据库D中支持度和置信度分别满足用户指定的最小支持度min_sup和最小置信度min_con的规则。

2.关联规则挖掘问题分哪两个步骤?(1)找出D中所有的频繁项集;(2)从频繁项集中产生关联规则。

3.Apriori性质:频繁项集的所有非空子集也都必须是频繁的;这是频繁项集的先验知识;可以减少候选频繁项集的数量。

4.负边界:负边界中的项集是非频繁的,但每个项集的所有子集都是频繁的。

5.数据库如下图所示,如果设定最小支持度s=40%,置信度c=70%,计算该数据库中的频繁项集和负边界,以及由频繁项集产生的规则。

频繁项集:L1,L2,L3,即{i1}、{i2}、{i3}、{i5}、{i1,i3}、{i2,i3}、{i2,i5}、{i,i5}、{i2,i3,i5}。

负边界:{i1,i2},{i1,i5}。

置信度c=70%第六章决策树方法1.决策树的基本概念:适用于离散值属性、连续值属性;采用自项向下的规约方法产生一个类似于流程图的树结构;在根节点和各内部节点上选择合适的描述属性,并且根据该属性的不同取值向下建立分枝。

2.决策树的优点进行分类器设计时,决策树分类方法所需时间相对较少;决策树的分类模型是树型结构,简单直观,比较符合人类的理解方式;可以讲决策树中到达每个叶节点的路径转换为IF—THEN形式的分类规则,这种形式更有利于理解。

3.决策树剪枝决策树剪枝过程试图检测和去掉多余的分枝,以提高对未知类标号的数据进行分类时的准确性。

第八章人工神经网络方法1.神经网络直所以能胜任一些复杂的工作,是因为它有学习的能力。

2.具有较好的泛华能力是神经网络设计的评价指标之一。

3.BP神经网络的拓扑结构分为多个层次:输入层、隐含层、输出层。

4.神经网络进行学习实际上就是学习其连接的权值。

5.BP神经网络学习过程由信号的正向传播与误差的反响传播两个过程组成。

6.在线训练:每处理一个训练实例,就更新一次权重。

7.离线训练:把所有训练实例都处理一遍之后,再更新权重。

8.利用梯度下降法更新权重易于陷入局部极小值,从而无法得到最优解。

9.BP神经网络的优点和缺点(1)BP神经网络的优点:◆抗噪性能好;◆既能处理连续数据,也能处理类别型数据;◆在多个领域有成功应用;◆既适合有监督学习,也适合无监督学习;◆具有较好的泛化能力;◆具有较好的逼近非线性映射的能力;◆具有较好的容错性。

(2)BP神经网络的缺点:◆缺乏可解释性;◆可能无法找到优解;◆可能存在过学习问题(overfitting);◆收敛速度慢。

第九章聚类分析1.聚类分析定义把一个给定的数据对象集合分成不同的簇;在同一个簇(或类)中,对象之间具有相似性;不同簇(或类)的对象之间具有较高的相宜性。

2.聚类分析方法通常分为哪些方法?基于划分方法;基于层次的方法;基于密度的方法;基于网格的方法;谱聚类方法3.数据挖掘技术对聚类分析的要求有哪几个方面?(1)可伸缩性(适用于增长的大数据集);(2)处理不同类型属性的能力(支持多种类型属性的数据集);(3)发现任意形状聚类的能力(除了球形聚类外,能划分出任意形状聚类);(4)减小对先验知识和用户自定义参数的依赖性;(5)处理噪声数据的能力(对孤立点、缺失值。

错误数据等噪声数据的抗干扰性);(6)可解释性和实用性(降维,可视化显示)。

4.K平均方法与K中心点方法比较(1)当存在噪声和离群点时,K中心点方法比K均值方法更加鲁棒。

(2)K中心点方法的执行代价比K平均方法要高。

(3)两种方法都要用户指定簇的数目K。

5.聚类分析中最常用的距离有欧几里得距离,曼哈坦距离、明可夫斯基距离等。

6.基于划分的聚类算法有K中心点方法和K平均方法等单选题举例1.决策树中不包含以下哪种结点(C)A.根结点B.内部结点C.外部结点D.叶结点2.某超市研究销售记录数据后发现,买啤酒的人很大概率也会买尿布,这种属于数据挖掘的哪类问题?(A)A.关联规则发现B.聚类C.分类D.自然语言处理3.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A.频繁模式挖掘B.分类和预测C.数据预处理D.数据流挖掘4.当不知道数据所带标签(类别)时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)A.分类B.聚类C.关联分析D.决策树分析5.什么是KDD?(A)A.数据挖掘与知识发现B.领域知识发现C.文档知识发现D.动态知识发现判断题举例1.数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。

相关文档
最新文档