厦门大学数据挖掘原理及实践课程习题

厦门大学数据挖掘原理及实践课程习题
厦门大学数据挖掘原理及实践课程习题

2013教育部-IBM产学合作专业综合改革项目

厦门大学《数据挖掘原理及实践》课程习题

第4章数据仓库与数据的概念描述

1. 数据仓库的定义是什么? 数据仓库有哪些显著特征?

2. 请简述数据概化的过程和基本方法。

3. 假定数据仓库包含三维: time, doctor, patient, 和两个度量: count和charge, 其中charge是医生对病人一次诊治的收费。

(1) 列举三种流行的数据仓库建模模式。

(2) 使用(1) 列举的模式之一, 画出上面的数据仓库的模式图。

(3) 由基本方体[day, doctor, patient]开始, 为列出2004年每位医生的收费总数, 应当执行哪些OLAP操作。

4. 假定BigUniversity的数据仓库包含如下4维: student, course, semester和instructor;2个度量: count和avg_grade。在最低的概念层(例如: 对于给定的学生. 课程. 学期和教师的组合), 度量avg_grade存放学生的实际课程成绩。在较高的概念层, avg_grade存放给定组合的平均成绩。

(1) 该数据仓库画出雪花型模型图。

(2) 由基本方体[student, course, semester, instructor]开始, 为列出BigUniversity 每个学生的CS课程的平均成绩, 应当使用哪些特殊的OLAP操作。

(3) 如果每维有5层(包含all), 如“student

5. 数据仓库可以用星形模式或者雪花模式建模, 简略讨论这两种模式的相似点

和不同点, 然后分析它们的相对优缺点。哪种模式更实用? 给出你的观点并陈述你的理由。

6. 数据仓库实现的一个流行方法是构造一个称为数据立方体的多维数据库。不幸的是, 这常常产生巨大的. 稀疏的多维矩阵。给出一个例子, 解释这种大型稀疏数据立方体。

7. 三种主要的数据仓库应用: 信息处理, 分析处理和数据挖掘的区别是什么? 讨论OLAP挖掘(OLAM)的动机。

8. 考虑下表显示的购物篮事务:

事务ID 购物项

1 {牛奶, 啤酒, 尿布}

2 {面包, 黄油, 牛奶}

3 {牛奶, 尿布, 饼干}

4 {面包, 黄油, 饼干}

5 {啤酒, 饼干, 尿布}

6 {牛奶, 尿布, 面包, 黄油}

7 {面包, 黄油, 尿布}

8 {啤酒, 尿布}

9 {牛奶, 尿布, 面包, 黄油}

10 {啤酒, 饼干}

(1) 从这些数据中, 能够提取出的关联规则的最大数量是多少(包括零支持度的规则)?

(2) 能够提取的频繁项集的最大长度是多少?

(3) 写出从该数据集中能够提取的3-项集的最大数量的表达式。

(4) 找出一个具有最大支持度的项集(长度为2或者更大)。

(5) 找出一对项a和b, 使得规则{a}-{b}和{b}-{a}具有相同的置信度。

9. 请比较OLAP和OLTP系统的区别。

10. 请简述数据挖掘中关联规则Apriori算法的思想。

11. 请举出至少4个数据挖掘的统计图形描述方式。

《数据挖掘》试题与标准答案

一、解答题(满分30分,每小题5分) 1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之 首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。 知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。 2.时间序列数据挖掘的方法有哪些,请详细阐述之 时间序列数据挖掘的方法有: 1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。 2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。 3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。

厦门大学统计学原理期末试题与答案完整版

厦门大学网络教育 2013-2014学年第一学期 《统计学原理》复习题 、单选题 1、统计调查方法体系中,作为“主体”的是( A ) A .经常性抽样调查 B.必要的统计报表 2、考虑全国的工业企业的情况时,以下标志中属于不变标志的有( A .产业分类 B.职工人数 C.劳动生产率 3、某地区抽取3个大型钢铁企业对钢铁行业的经营状况进行调查,这种调查是 4、下列这组数列15,17,17,18,22,24,50,62的中位数是(C )。 现象之间的相关程度越低,贝刑关系数越( 接近+1 B 接近-1 接近0 8、假定其他变量不改变,研究一个变量和另一个变量间的相关关系的是( 9、已知两个同类型企业职工平均工资的标准差分别为 8元,12元,则两个企业职 工平均工资的代表性是(A ) 10、( C 。是标志的承担者。 C.重点调查及估计推算 D.周期性普查 D.所有制 A .普查 B .典型调查 C.重点调查 D .抽样调查 A.17 B.18 C.20 5、标志变异指标中最容易受极端值影响的是( A.极差 B.平均差 &简单分组与复合分组的区别在于( 总体的复杂程度不同 选择分组标志的性质不同 A. C. D.22 C. B. D. 标准差 D.标准差系数 ) 组数多少不同 选择的分组标志的数量不同 7、 A.偏相关 B.正相关 C.完全相关 D.复相关 A.甲大于乙 B.乙大于甲 C. 一样的 D.无法判断

11、 下列各项中属于数量标志的是(A ) A.年龄 B.学历 C.民族 D.性别 12、 某商品价格上涨了 5%,销售额增加了 10%,则销售量增加了( C ) A. 15% B. 5.2 % C. 4.8 % D. 2 % 13、某变量数列末组为开口组,下限是 500;又知其邻组的组中值是 480,则该组 的组 中值应为(D )0 B.时间和指标数值 C.时间和次数 20、现象总体中最普遍出现的标志值是( A ) A.变量 B.总体 C.总体单位 D.指标 A. 490 B. 500 C. 510 D. 520 14、根据最小二乘法原理所配合的一元线性回归方程,是使( B )0 无 (Y -Y?)2 为最小 送(Y -Y?) = 0 A S (Y -Y ) = 0 C 送(Y -Y )为最小 15、 以下不是统计量特点的是( A.不确定 B.已知 16、 不属于专门调查的有(A A.统计年报 B.抽样调查 C.未知 C 普查 17、 今有N 辆汽车在同一距离的公路上行驶的速度资料, Z xf B. ----- Z f C 旦 C 7 x D.不唯一 D.典型调查 m 表示路程,x 表示速度, ) D. 18、 抽样推断的特点有(B )0 A.事先人为确定好样本 C.缺乏一定的科学性和可靠性 19、 时间数列的构成要素是( B.按随机原则抽取样本 D.事先无法计算和控制抽样误差 A.变量和次数 D.主词和宾词 A.众数 B.中位数 C.平均数 D.频数 21、定基发展速度等于相应的各环比发展速度(C A.之和 B.之差 C.之积 D.之商 22、平均指标不包括(A ) 0 A.标准差 B.调和平均数

数据挖掘课程体会

数据挖掘课程体会 学习数据挖掘这门课程已经有一个学期了,在这十余周的学习过程中,我对数据挖掘这门课程的一些技术有了一定的了解,并明确了一些容易混淆的概念,以下主要谈一下我的心得体会。 近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。数据挖掘就是从大量的数据中,抽取出潜在的、有价值的知识、模型或规则的过程。作为一类深层次的数据分析方法,它利用了数据库、人工智能和数理统计等多方面的技术。 要将庞大的数据转换成为有用的信息,必须先有效率地收集信息。随着科技的进步,功能完善的数据库系统就成了最好的收集数据的工具。数据仓库,简单地说,就是搜集来自其它系统的有用数据,存放在一整合的储存区内。所以其实就是一个经过处理整合,且容量特别大的关系型数据库,用以储存决策支持系统所需的数据,供决策支持或数据分析使用。 数据挖掘的研究领域非常广泛,主要包括数据库系统、基于知识的系统、人工智能、机器学习、知识获取、统计学、空间数据库和数据可视化等领域。主要是可以做以下几件事:分类、估计、预测、关联分析、聚类分析、描述和可视化、复杂数据类型挖掘。在这里就不一一介绍了。 在学习关联规则的时候,提出了一个关于啤酒与纸尿布的故事:在一家超市里,纸尿布与啤酒被摆在一起出售,但是这个奇怪的举措却使得啤酒和纸尿布的销量双双增加了。其实,这是由于这家超市对其顾客的购物行为进行购物篮分析,在这些原始交易数据的基础上,利用数据挖掘方法对这些数据进行分析和挖掘。从而意外的发现跟纸尿布一起购买最多的商品竟是啤酒。按我们的常规思维,啤酒与纸尿布是两个毫无关联的商品,但是借助数据挖掘技术对大量交易数据进行挖掘分析后,却可以寻求到这一有价值的规律。这个故事在一定程度上说明了数据挖掘技术的巨大价值。 总之,非常感谢周教员在这十余周的精彩授课,让我受益匪浅,我会继续学习这门课程,努力为今后的课题研究或论文打好基础。

数据挖掘考试题库【最新】

一、填空题 1.Web挖掘可分为、和3大类。 2.数据仓库需要统一数据源,包括统一、统一、统一和统一数据特征 4个方面。 3.数据分割通常按时间、、、以及组合方法进行。 4.噪声数据处理的方法主要有、和。 5.数值归约的常用方法有、、、和对数模型等。 6.评价关联规则的2个主要指标是和。 7.多维数据集通常采用或雪花型架构,以表为中心,连接多个表。 8.决策树是用作为结点,用作为分支的树结构。 9.关联可分为简单关联、和。 10.B P神经网络的作用函数通常为区间的。 11.数据挖掘的过程主要包括确定业务对象、、、及知识同化等几个步 骤。 12.数据挖掘技术主要涉及、和3个技术领域。 13.数据挖掘的主要功能包括、、、、趋势分析、孤立点分析和偏 差分析7个方面。 14.人工神经网络具有和等特点,其结构模型包括、和自组织网络 3种。 15.数据仓库数据的4个基本特征是、、非易失、随时间变化。 16.数据仓库的数据通常划分为、、和等几个级别。 17.数据预处理的主要内容(方法)包括、、和数据归约等。 18.平滑分箱数据的方法主要有、和。 19.数据挖掘发现知识的类型主要有广义知识、、、和偏差型知识五种。 20.O LAP的数据组织方式主要有和两种。 21.常见的OLAP多维数据分析包括、、和旋转等操作。 22.传统的决策支持系统是以和驱动,而新决策支持系统则是以、建 立在和技术之上。 23.O LAP的数据组织方式主要有和2种。 24.S QL Server2000的OLAP组件叫,OLAP操作窗口叫。 25.B P神经网络由、以及一或多个结点组成。 26.遗传算法包括、、3个基本算子。 27.聚类分析的数据通常可分为区间标度变量、、、、序数型以及混合 类型等。 28.聚类分析中最常用的距离计算公式有、、等。 29.基于划分的聚类算法有和。

厦门大学网络教育《管理信息系统》复习试题(最终版)

厦门大学网络教育2017-2018学年第一学期《管理信息系统》期末复习题 一、选择题 1.在信息系统开发、运行的整个费用中最大的费用是( B )。 A.用在开发中的硬件费用 B.用在开发中的系统软件及应用软件的开发费用 C.系统调试和转换的费用 D.运行和维护阶段的开支 2.自下而上开发策略的优点是( A ) A.可以避免大规模系统可能出现运行不协调的危险 B.数据一致性较好 C.开发过程循序渐进,系统整体性较好 D.有利于提高企业人员的开发能力3.系统设计的主要任务不包括( D )。 A.代码设计 B.输入输出设计 C.程序设计 D.系统分析 4.采用( C )进行管理信息系统开发,企业内部基本上无需再自行内部开发软件程序。 A.原型法 B.面向对象法 C.CASE方法 D.商业软件包法 5.数据流程图的组成不包括( D )。 A.数据存储 B.外部实体 C.处理 D.输入 6.ERP物流管理系统采用了制造业的( C )管理思想。 A.CAD B.CAM C.MRP D.OA 7.MRPⅡ同MRP的主要区别就是( A )。 A.它运用管理会计的概念,用货币形式说明了执行企业“物料计划”带来的效益,实现物料信息同资金信息集成 B.从产品的结构或物料清单(对食品、医药、化工行业则为“配方”)出发,实现了物料信息的集成 C.根据需求的优先顺序,在统一的计划指导下,把企业的“销产供”信息集成起来 D.是一种保证既不出现短缺,又不积压库存的计划方法,解决了制造业所关心的缺件与超储的矛盾 8.知识是指信息之间的结构化关联关系。知识可以分为( A )。 A.事实规则规律 B.事实规则方法

数据挖掘课程报告

数据挖掘课程报告 学习“数据挖掘”这门课程已经有一个学期了,在这十余周的学习过程中,我对数据挖掘这门技术有了一定的了解,明确了一些以前经常容易混淆的概念,并对其应用以及研究热点有了进一步的认识。以下主要谈一下我的心得体会,以及我对数据挖掘这项课题的见解。 随着数据库技术和计算机网络的迅速发展以及数据库管理系统的广泛应用,

人们积累的数据越来越多,而数据挖掘(Data Mining)就是在这样的背景下诞生的。 简单来说,数据挖掘就是从大量的数据中,抽取出潜在的、有价值的知识、模型或规则的过程。作为一类深层次的数据分析方法,它利用了数据库、人工智能和数理统计等多方面的技术。从某种角度上来说,数据挖掘可能并不适合进行科学研究,因为从本质上来说,数据挖掘这个技术是不能证明因果的,以一个最典型的例子来说,例如数据挖掘技术可以发现啤酒销量和尿布之间的关系,但是显然这两者之间紧密相关的关系可能在理论层面并没有多大的意义。不过,仅以此来否定数据挖掘的意义,显然就是对数据挖掘这项技术价值加大的抹杀,显然,数据挖掘这项技术从设计出现之初,就不是为了指导或支持理论研究的,它的重要意义在于,它在应用领域体现出了极大地优越性。 首先有一点是我们必须要明确的,即我们为什么需要数据挖掘这门技术?这也是在开课前一直困扰我的问题。数据是知识的源泉,然而大量的数据本身并不意味信息。尽管现代的数据库技术使我们很容易存储大量的数据,但现在还没有一种成熟的技术帮助我们分析、理解这些数据。数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出,人们希望在对已有的大量数据分析的基础上进行研究,但是目前所拥有的数据分析工具很难对数据进行深层次的处理,使得人们只能望“数”兴叹。数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据的分析处理而出现的。数据挖掘可以帮助人们对大规模数据进行高效的分析处理,以节约时间,将更多的精力投入到更高层的研究中,从而提高科研工作的效率。 那么数据挖掘可以做些什么呢?数据挖掘的研究领域非常广泛,主要包括数据库系统、基于知识的系统、人工智能、机器学习、知识获取、统计学、空间数据库和数据可视化等领域。具体来说,它可以做这七件事情:分类,估计,预测,关联分析,聚类分析,描述和可视化,复杂数据类型挖掘。在本学期的学习过程中,我们对大部分内容进行了较为详细的研究,并且建立了一些基本的概念,对将来从事相关方向的研究奠定了基础。由于篇幅限制,就不对这些方法一一讲解了,这里只谈一下我在学习工程中的一些见解和心得。 在学习关联规则的时候,我们提到了一个关于“尿布与啤酒”的故事:在一

数据挖掘考试题

数据挖掘考试题 LG GROUP system office room 【LGA16H-LGYY-LGUA8Q8-LGA162】

数据挖掘考试题 一.选择题 1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离( ) A.分类 B.聚类 C.关联分析 D.主成分分析 2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。 (单链) (全链) C.组平均方法 3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。 A 分类 B 预测 C关联规则分析 D聚类 4.关于K均值和DBSCAN的比较,以下说法不正确的是( ) 均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。 均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。 均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇 均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇 5.下列关于Ward’s Method说法错误的是:( ) A.对噪声点和离群点敏感度比较小 B.擅长处理球状的簇 C.对于Ward方法,两个簇的邻近度定义为两个簇合并时导致的平方误差 D.当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似 6.下列关于层次聚类存在的问题说法正确的是:( ) A.具有全局优化目标函数 B.Group Average擅长处理球状的簇

C.可以处理不同大小簇的能力 D.Max对噪声点和离群点很敏感 7.下列关于凝聚层次聚类的说法中,说法错误的事:( ) A.一旦两个簇合并,该操作就不能撤销 B.算法的终止条件是仅剩下一个簇 C.空间复杂度为()2m O D.具有全局优化目标函数 8.规则{牛奶,尿布}→{啤酒}的支持度和置信度分别为:( ) 9.下列( )是属于分裂层次聚类的方法。 Average 10.对下图数据进行凝聚聚类操作,簇间相似度使用MAX计算,第二步是哪两个簇合并:( ) A.在{3}和{l,2}合并 B.{3}和{4,5}合并 C.{2,3}和{4,5}合并 D. {2,3}和{4,5}形成簇和{3}合并 二.填空题: 1.属性包括的四种类型:、、、。 2.是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。 3. 基本凝聚层次聚类算法空间复杂度,时间复杂度,如果某个簇到其他所有簇的距离存放在一个有序表或堆中,层次聚类所需要的时间复杂度将为。 4. 聚类中,定义簇间的相似度的方法有(写出四 个):、、、。 5. 层次聚类技术是第二类重要的聚类方法。两种层次聚类的基本方 法:、。 6. 组平均是一种界于和之间的折中方法。

最新数据挖掘考试题目——关联分析资料

数据挖掘考试题目——关联分析 一、10个选择 1.以下属于关联分析的是() A.CPU性能预测B.购物篮分析 C.自动判断鸢尾花类别D.股票趋势建模 2.维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘() A.K-means B.Bayes Network C.C4.5 D.Apriori 3.置信度(confidence)是衡量兴趣度度量()的指标。 A.简洁性B.确定性 C.实用性D.新颖性 4.Apriori算法的加速过程依赖于以下哪个策略() A.抽样B.剪枝 C.缓冲D.并行 5.以下哪个会降低Apriori算法的挖掘效率() A.支持度阈值增大B.项数减少 C.事务数减少D.减小硬盘读写速率 6.Apriori算法使用到以下哪些东东() A.格结构、有向无环图B.二叉树、哈希树 C.格结构、哈希树D.多叉树、有向无环图 7.非频繁模式() A.其置信度小于阈值B.令人不感兴趣 C.包含负模式和负相关模式D.对异常数据项敏感 8.对频繁项集、频繁闭项集、极大频繁项集的关系描述正确的是()[注:分别以1、2、3代表之] A.3可以还原出无损的1 B.2可以还原出无损的1 C.3与2是完全等价的D.2与1是完全等价的 9.Hash tree在Apriori算法中所起的作用是() A.存储数据B.查找 C.加速查找D.剪枝 10.以下不属于数据挖掘软件的是() A.SPSS Modeler B.Weka C.Apache Spark D.Knime 二、10个填空 1.关联分析中表示关联关系的方法主要有:和。 2.关联规则的评价度量主要有:和。 3.关联规则挖掘的算法主要有:和。 4.购物篮分析中,数据是以的形式呈现。 5.一个项集满足最小支持度,我们称之为。 6.一个关联规则同时满足最小支持度和最小置信度,我们称之为。

厦门大学统计学考研868概率论与数理统计考试重难点名校真题答案与考试真题

厦门大学统计学考研868概率论与数理统计考试重难点、名校真题答案与考试真题 《概率论与数理统计教程》考试重难点与名校真题答案(茆诗松第二版)由群贤厦大考研网依托多年丰富的教学辅导经验,组织教学研发团队与厦门大学优秀研究生合作整理。全书内容紧凑权威细致,编排结构科学合理,为参加2019厦门大学考研同学量身定做的必备专业课资料。 《概率论与数理统计教程》考试重难点与名校真题答案全书编排根据厦门大学考研参考书目: 《概率论与数理统计教程》(茆诗松第二版) 本资料旨在帮助报考厦门大学考研的同学通过厦大教材章节框架分解、配套的课后/经典习题讲解及相关985、211名校考研真题与解答,为考生梳理指定教材的各章节内容,深入理解核心重难点知识,把握考试要求与考题命题特征。 通过研读演练本书,达到把握教材重点知识点、适应多样化的专业课考研命题方式、提高备考针对性、提升复习效率与答题技巧的目的。同时,透过测试演练,以便查缺补漏,为初试高分奠定坚实基础。 适用院系:

统计系:071400统计学(理学) 王亚南经济研究院:统计学(理学) 适用科目: 868概率论与数理统计 内容详情 本书包括以下几个部分内容: Part 1 - 考试重难点与笔记: 通过总结和梳理《概率论与数理统计教程》(茆诗松第二版)各章节复习和考试的重难点,建构教材宏观思维及核心知识框架,浓缩精华内容,令考生对各章节内容考察情况一目了然,从而明确复习方向,提高复习效率。该部分通过归纳各章节要点及复习注意事项,令考生提前预知章节内容,并指导考生把握各章节复习的侧重点。 Part 2 - 教材配套课后/经典习题与解答 针对教材《概率论与数理统计教程》(茆诗松第二版)课后/经典习题配备详细解读,以供考生加深对教材基本知识点的理解掌握,做到对厦大考研核心考点及参考书目内在重难点内容的深度领会与运用。

厦门大学信科数据库及数据结构试题

一、选择题(单选) 1. 关于数据元素,下列描述不正确的是(D)。 A. 数据元素可以包含多个数据项。 B. 数据结构的算法大多以数据元素为基本操作单位。 C. 数据元素一般代表某种现实世界中的对象。 D. 数据元素必须有一个关键字。 2. 循环链表head的尾结点指针p的特点是(A)。 A. p->next=head B. p->next=head->next C. p=head D. p=head->next 3. 设一个栈的输入序列是a,b,c,d,e,则下列序列是栈的合法输出序列的是(D)。 A. e a b c d B. d e a c b C. d c a b e D. c b a e d 4. 循环队列存储在数组A[0..m]中,则入队时的队尾指针操作为(D)。 A. rear=rear+1 B. rear=(rear+1)%(m-1) C. rear=(rear+1)%m D. rear=(rear+1)%(m+1) 5. 在单链表中指针p所指的结点后插入新结点s有下列3个步骤: ① s->data=x (赋值) ② p->next=s ③ s->next=p->next 正确的步骤顺序为(B)。 A. ①②③ B. ③②① C. ②①③ D. 无正确答案 6. 对于先序遍历和后序遍历结果相同的二叉树为(B)。

A. 一般二叉树 B. 只有根结点的二叉树 C. 根结点无左孩子的二叉树 D. 根结点无右孩子的二叉树 7. 若图的邻接矩阵是对称阵,则此图必然为(B)。 A. 有向图 B. 无向图 C. 连通图 D. 有向图或无向图 8. 关于哈夫曼树,下列描述正确的是(D)。 A. 一定是二叉排序树 B. 是一棵完全二叉树 C. 是一棵平衡二叉树 D. 以上三种说法都不对 9. 长度为12的按关键字有序的待查找序列,采用顺序存储,若用二分查找,则在等概率情况下,查找成功的ASL是(A )。 A. 37/12 B. 62/13 C. 39/12 D. 49/12 10. 在数据管理技术的发展过程中,经理了人工管理阶段、文件系统阶段和数据库系统阶段。其中数据独立性最高的阶段是(A )。 A. 数据库系统 B. 文件系统 C. 人工管理 D. 数据项管理 11. 下列有关数据库的描述中,正确的是(C )。 A. 数据库是一个DBF文件 B. 数据库是一个关系 C. 数据库是一个结构化的数据集合 D. 数据库是一组文件 12. 数据库设计中,将E-R图转换成关系数据模型的过程属于(C)。 A. 需求分析阶段 B. 逻辑设计阶段 C. 概念设计阶段 D. 物理设计阶段 13. 将E-R图转换到关系模式时,实体与联系都可以表示成(B)。

数据挖掘课程教学大纲

《统计学》课程教学大纲 英文名:Statistics 课程类别:专业基础课 课程性质:专业课 学分:3学分 课时:54课时 前置课:政治经济学、线性代数、微积分、概率论 主讲教师:徐健腾 选定教材:徐国祥,统计学,上海人民出版社,2007 课程概述: 本课程是运用统计数量分析的基本理论和方法,紧密结合社会经济实践,分析社会经济现象的数量表现、数量关系和数量变化规律的一门方法论科学。该课程首先对统计学的基本问题作了描述,包括统计学的概念、统计学的发展简史、统计工作的程序、统计分析软件、统计学的应用领域;其次介绍了统计学的核心概念,包括统计学的常用术语、统计指标与统计指标体系、统计方法和模型构建;再次介绍了描述统计学的基本内容,包括数据的计量与种类、统计数据的搜集与整理、统计表与统计图、集中趋势的测度、离散程度的测度、分布偏态与峰度的测度、指数体系与因素分析、几种常用的经济指数以及综合评价指数等;最后介绍了推断统计学的基本内容,包括抽样推断、假设检验、方差分析、相关与回归分析、时间序列分析等。 教学目的: 通过本课程的学习,要求学生能够全面掌握统计学的基本理论和基本方法,了解统计学发展的简单历史过程,熟悉统计工作的基本程序和统计学的应用领域;同时要求学生能根据统计研究的目的、统计数据的来源渠道和数据类型的不同,选择恰当的数学模型来对社会经济现象进行拟合。为了结合非统计学专业学生的学习要求和教学内容的完整性,要求学生能够掌握必需的统计分析方法和基本的统计指标知识,为深入进行经济分析和理论研究提供依据。 教学方法: 使用本教材要注意理论与实践相结合,着重培养学生综合的分析问题和解决问题的能力、培养他们的实际动手能力。教学过程中应尽量避开繁琐的数学公式推导,以案例为依托,结合实际例子讲清楚统计公式的应用方法。在内容上,立足于“大统计”的角度,从统计数据出发,以统计数据的处理和分析为核心,并根据统计教学的实际需要构建本课程的内容体系。在方法上,力求简明易

《数据挖掘》试题与答案

一、解答题(满分30分,每小题5分) 1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之 首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。 知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。 2. 时间序列数据挖掘的方法有哪些,请详细阐述之 时间序列数据挖掘的方法有: 1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。 2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。 3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。

计算机专业基础综合数据结构(图)历年真题试卷汇编3

计算机专业基础综合数据结构(图)历年真题试卷汇编3 (总分:58.00,做题时间:90分钟) 一、综合题(总题数:23,分数:58.00) 1.给出从顶点v1开始,对图G用深度优先搜索法进行遍历时的顶点序列;(2)给出从顶v1,1开始,对图G用广度优先搜索法进行遍历时的顶点序列。【复旦大学1998六(10分)】 __________________________________________________________________________________________ 正确答案:(正确答案:(1)v 1 v 2 v 4 v 3 v 5 v 6 (2) v 1 v 2 v 3 v 4 v 5 v 6) 给出图G 4.00) (1).画出G的邻接表表示图; __________________________________________________________________________________________ 正确答案:( (2).根据你画出的邻接表,以顶点①为根,画出G的深度优先生成树和广度优先生成树。【南开大学1997五(14分)】【烟台大学2007四、3(15分)】 __________________________________________________________________________________________ 正确答案:( 2.已知一个有向图如图所示,则从顶点a出发进行深度优先遍历,写出所有可能得到的DFS 京交通大学2006四、4(5分)】 __________________________________________________________________________________________ 正确答案:(正确答案:共8个:adbcfe,adbfce,adcbfe,adcebf adcefb,adebcj,adebfc,adefbc) 2000计算机应用六(10分)】(分数:4.00) (1).如果每个指针需要4字节,每个顶点的标号占2字节,每条边的权值占2字节。下图采用哪种表示法所需的空间较多?为什么? __________________________________________________________________________________________ 正确答案:(正确答案:邻接矩阵:(6*6个元素)*2字节/元素=72字节邻接表:表头向量6*(4+2)+边结点9*(2+2+4)*2=180字节邻接多重表:表头向量6*(4+2)+边结点9*(2+2+2+4+4)=162字节邻接表占用空间较多,因为边较多,边结点又是边数的2倍,一般来说,邻接矩阵所占空间与边个数无关(不考虑压缩存储),适合存储稠密图,而邻接表适合存储稀疏图。邻接多重表边结点个数等于边数,但结点中增加了一个顶点下标域和一个指针域。) (2).写出下图从顶点1开始的:DFS树。 __________________________________________________________________________________________ 正确答案:(正确答案:因未确定存储结构,从顶点1开始的DFS 3.如下所示的连通图,请画出:(1)以顶点①为根的深度优先生成树;(5分)(2)如果有关节顶点,请找出 所有的关节顶点。(5分)【清华大学l 998七(10分)】 __________________________________________________________________________________________ 正确答案:(正确答案:(1)未确定存储结构,其DFS树不唯一,其中之一(按邻接点逆序排列) 关节顶点有3,1,8,7,2。)

数据挖掘考试题库讲解

一、名词解释 1.数据仓库:是一种新的数据处理体系结构,是面向主题的、集成的、不可更新 的(稳定性)、随时间不断变化(不同时间)的数据集合,为企业决策支持系统提供所需的集成信息。 2.孤立点:指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。 3.OLAP:OLAP是在OLTP的基础上发展起来的,以数据仓库为基础的数据分析处 理,是共享多维信息的快速分析,是被专门设计用于支持复杂的分析操作,侧重对分析人员和高层管理人员的决策支持。 4.粒度:指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度影响存 放在数据仓库中的数据量的大小,同时影响数据仓库所能回答查询问题的细节程度。 5.数据规范化:指将数据按比例缩放(如更换大单位),使之落入一个特定的区域 (如0-1)以提高数据挖掘效率的方法。规范化的常用方法有:最大-最小规范化、零-均值规范化、小数定标规范化。 6.关联知识:是反映一个事件和其他事件之间依赖或相互关联的知识。如果两项 或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。 7.数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐 含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 8.OLTP:OLTP为联机事务处理的缩写,OLAP是联机分析处理的缩写。前者是以数 据库为基础的,面对的是操作人员和低层管理人员,对基本数据进行查询和增、删、改等处理。 9.ROLAP:是基于关系数据库存储方式的,在这种结构中,多维数据被映像成二维 关系表,通常采用星型或雪花型架构,由一个事实表和多个维度表构成。10.MOLAP:是基于类似于“超立方”块的OLAP存储结构,由许多经压缩的、类似 于多维数组的对象构成,并带有高度压缩的索引及指针结构,通过直接偏移计算进行存取。 11.数据归约:缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能 够得到和原始数据相同的分析结果。 12.广义知识:通过对大量数据的归纳、概括和抽象,提炼出带有普遍性的、概括 性的描述统计的知识。 13.预测型知识:是根据时间序列型数据,由历史的和当前的数据去推测未来的数 据,也可以认为是以时间为关键属性的关联知识。 14.偏差型知识:是对差异和极端特例的描述,用于揭示事物偏离常规的异常现象, 如标准类外的特例,数据聚类外的离群值等。

数据挖掘课程论文

海南大学数据挖掘论文

题目:股票交易日线数据挖掘 学号:20100602310002 姓名: 专业:10信管 指导老师: 分数: 目录 目录 (2) 1. 数据挖掘目的 (3) 2.相关基础知识 (3) 2.1 股票基础知识 (3) 2.2 数据挖掘基础知识 (4) 2.2.2数据挖掘的任务 (5) 3.数据挖掘方案 (6) 3.1. 数据挖掘软件简介 (6) 3.2. 股票数据选择 (7) 3.3. 待验证的股票规律 (7) 4. 数据挖掘流 (8) 4.1数据挖掘流图 (8) 4.2规律验证 (9) 4.2.2规律2验证 (10) 4.2.3规律三验证 (12)

4.3主要节点说明 (14) 5.小结 (15) 1.数据挖掘目的 数据挖掘的目的就是得出隐藏在数据中的有价值的信息,发现数据之间的内在联系与规律。对于本次数据挖掘来说,其目的就是学会用clementine对股票的历史数据进行挖掘,通过数据的分析,找出存在股票历史数据中的规律,或者验证已存在的股票规律。同时也加深自己对股票知识的了解和对clementine软件的应用能力。为人们决策提供指导性信息,为公司找出其中的客户为公司带来利润的规律,如二八原则、啤酒与尿布的现象等。 2.相关基础知识 2.1 股票基础知识 2.1.1 股票 是一种有价证券,是股份公司在筹集资本时向出资人公开或私下发行的、用以证明出资人的股本身份和权利,并根据持有人所持有的股份数享有权益和承担义务的凭证。股票代表着其持有人(股东)对股份公司的所有权,每一股同类型股票所代表的公司所有权是相等的,即“同股同权”。股票可以公开上市,也可以不上市。在股票市场上,股票也是投资和投机的对象。对股票的某些投机炒作行为,例如无货沽空,可以造成金融市场的动荡。 2.1.2 开盘价 开盘价又称开市价,是指某种证券在证券交易所每个交易日开市后的第一笔买卖成交价格。世界上大多数证券交易所都采用成交额最大原则来确定开盘价。 2.1.3 收盘价 收盘价是指某种证券在证券交易所一天交易活动结束前最后一笔交易的成 交价格。如当日没有成交,则采用最近一次的成交价格作为收盘价,因为收盘价是当日行情的标准,又是下一个交易日开盘价的依据,可据以预测未来证券市场行情;所以投资者对行情分析时,一般采用收盘价作为计算依据。. 2.1.4 最高价 指某种证券在每个交易日从开始到收市的交易过程中所产生的最高价。 2.1.5最低价 指某种证券在每个交易日从开始到收市的交易过程中所产生的最低价。 2.1.6成交量 成交量是指一个时间单位内对某项交易成交的数量。一般情况下,成交量大且价格上涨的股票,趋势向好。成交量持续低迷时,一般出现在熊市或股票整理阶段,市场交投不活跃。成交量是判断股票走势的重要依据,对分析主力行为提供了重要的依据。 2.1.7 K 线 K 线图这种图表源处于日本德川幕府时代(1603~1867 年),被当时日本米

《数据仓库与数据挖掘》复习题

2014-2015-1《数据仓库与数据挖掘》 期末考试题型 一、单项选择题(每小题2分,共20分) 二、填空题(每空1分,共20分) 三、简答题(每题6分,共30分) 四、析题与计算题(共30分) 请同学们在考试时不要将复习资料带入考场!!! 单选题 1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2. 以下两种描述分别对应哪两种对分类算法的评价标准?(A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision A. Precision, ROC D. Recall, ROC 3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 5. 什么是KDD?(A) A. 数据挖掘与知识发现 B. 领域知识发现 C. 文档知识发现 D. 动态知识发现 6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 8. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A)

武汉大学计算机专业数据仓库及数据挖掘期末考试题

武汉大学计算机学院 2014级研究生“数据仓库和数据挖掘”课程期末考试试题 要求:所有的题目的解答均写在答题纸上,需写清楚题目的序号。每张答题纸都要写上姓名和学号。 一、单项选择题(每小题2分,共20分) 1. 下面列出的条目中,()不是数据仓库的基本特征。B A.数据仓库是面向主题的 B.数据仓库是面向事务的 C.数据仓库的数据是相对稳定的 D.数据仓库的数据是反映历史变化的 2. 数据仓库是随着时间变化的,下面的描述不正确的是()。 A.数据仓库随时间的变化不断增加新的数据内容 B.捕捉到的新数据会覆盖原来的快照 C.数据仓库随事件变化不断删去旧的数据内容C D.数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合 3. 以下关于数据仓库设计的说法中()是错误的。A A.数据仓库项目的需求很难把握,所以不可能从用户的需求出发来进行数据仓库的设计,只能从数据出发进行设计 B.在进行数据仓库主题数据模型设计时,应该按面向部门业务应用的方式来设计数据模型 C.在进行数据仓库主题数据模型设计时要强调数据的集成性 D.在进行数据仓库概念模型设计时,需要设计实体关系图,给出数据表的划分,并给出每个属性的定义域 4. 以下关于OLAP的描述中()是错误的。A A.一个多维数组可以表示为(维1,维2,…,维n) B.维的一个取值称为该维的一个维成员 C.OLAP是联机分析处理 D.OLAP是数据仓库进行分析决策的基础 5. 多维数据模型中,下列()模式不属于多维模式。D A.星型模式 B.雪花模式 C.星座模式 D.网型模式 6. 通常频繁项集、频繁闭项集和最大频繁项集之间的关系是()。C A.频繁项集?频繁闭项集?最大频繁项集 B.频繁项集?最大频繁项集?频繁闭项集 C.最大频繁项集?频繁闭项集?频繁项集 D.频繁闭项集?频繁项集?最大频繁项集

数据挖掘课程报告

网络流量分类识别 1.课题内容概述 网络安全实验室的课题中包含对网络流量进行分类识别的任务。 对网络流量按照应用类型准确地识别和分类是许多网络管理任务的重要组成部分,如流量优先级控制,流量定形、监管、诊断监视等。比如说,网络管理员可能需要识别并节流来自P2P协议的文件共享流量来管理自己的带宽预算,确保其他应用的网络性能。与网络管理任务类似,许多网络工程问题,如负载特征提取和建模,容量规划,路由配置也得益于准确地识别网络流量。 实时的流量统计有能力帮助网络服务提供商和他们的设备供应商解决困难的网络管理问题。网络管理员需要随时知道什么流量穿过了他们的网络,才能迅速采取应对措施来保障多样的商业服务目标。流量分类可能是自动入侵检测系统的核心组成部分,用来检测拒绝服务攻击,可以触发针对优先客户的自动网络资源重分配,或者识别哪些违背了服务条款的网络资源使用。 如今各种不同的网络应用层出不穷,网络流量的复杂性和多样性给流量分类问题带来了巨大的挑战。很多研究人员开始寻找接近于数据挖掘的技术来解决流量分类问题。 2.流量识别任务中数据挖掘技术的应用 2.1流量识别任务流程 如图2-1所示,基于机器学习的流量分类主要分为三个阶段,预处理阶段,学习阶段和预测阶段。预处理阶段包括对原始网络数据的整流,特征值计算以及特征值约简,学习阶段是训练模型学习规则的过程,预测阶段是对实际流量进行分类的过程。机器学习方法重点研究通过特征选择和训练进行分类模型的构造,即分类器的学习阶段。

图2-1机器学习的流量分类 (1)数据预处理 原始的网络数据集记录了每个数据包的到达时间和数据包内容,在预处理阶段首先要根据五元组进行整流,在每个TCP或UDP流上区分流量方向,然后在每个流上计算感兴趣的流量特征,如数据包大小的分布,数据包间隔时间,连接持续时间等。 (2)降维 经过数据预处理后的网络流是一个有各项特征值的向量,可以作为机器学习算法的输入,但网络流特征冗余会影响分类结果的准确性,也会增加训练的计算开销,可以将高维向量投影到低维空间中,再用以训练。 (3)特征约简 将可获得的特征都用来训练分类器并不一定是最好的选择,因为不相关的特征和冗余的特征会对算法的性能产生负作用。可以通过一些算法进行评估,选择具有很强代表性的特征子集,来训练模型。 (4)训练 从训练数据集中构建分类模型的过程,主要任务是建立一个从网络流特征到应用类别的映射,有不同的分类模型可以选择。 (5)测试 依据训练的分类模型,对未知的网络流进行预测,得出网络流所属的应用类别。该阶段涉及到对分类模型的评估,有很多流量分类度量指标可以选择。评估还可以分为以流计算和以字节计算两个方向,前者侧重于对流识别能力的评估,后者侧重于识别那些占据主要通信量的大流。 2.2特征值归约方法 采用信息增益率评估,特征集合为S,假设根据特征A划分训练集,划分前

数据结构 第九章查找 习题

第九章 查找 一、 选择题 1.若查找每个记录的概率均等,则在具有n 个记录的连续顺序文件中采用顺序查找法查找一个记录,其平均查找长度ASL 为 ( )。【北京航空航天大学 2000 一、8 (2分)】 A . (n-1)/2 B. n/2 C. (n+1)/2 D. n 2. 对N 个元素的表做顺序查找时,若查找每个元素的概率相同,则平均查找长度为( ) 【南京理工大学1998一、7(2分)】 A .(N+1)/2 B. N/2 C. N D. [(1+N )*N ]/2 3. 下面关于二分查找的叙述正确的是 ( ) 【南京理工大学 1996 一、3 (2分)】 A. 表必须有序,表可以顺序方式存储,也可以链表方式存储 C. 表必须有序,而且只能从小到大排列 B. 表必须有序且表中数据必须是整型,实型或字符型 D. 表必须有序,且表只能以顺序方式存储 4. 对线性表进行二分查找时,要求线性表必须( )【燕山大学 2001 一、5 (2分)】 A.以顺序方式存储 B.以顺序方式存储,且数据元素有序 C.以链接方式存储 D.以链接方式存储,且数据元素有序 5.适用于折半查找的表的存储方式及元素排列要求为( ) 【南京理工大学 1997 一、6 (2分)】 A .链接方式存储,元素无序 B .链接方式存储,元素有序 C .顺序方式存储,元素无序 D .顺序方式存储,元素有序 6.当在一个有序的顺序存储表上查找一个数据时,即可用折半查找,也可用顺序查找,但前者比后者的查找速度( ) A .必定快 B.不一定 C. 在大部分情况下要快 D. 取决于表递增还是递减 【南京理工大学 1997 一、7 (2分)】 7.当采用分快查找时,数据的组织方式为 ( ) 【南京理工大学 1996 一、7 (2分)】 A .数据分成若干块,每块内数据有序 B .数据分成若干块,每块内数据不必有序,但块间必须有序,每块内最大(或最小)的数据组成索引块 C. 数据分成若干块,每块内数据有序,每块内最大(或最小)的数据组成索引块 D. 数据分成若干块,每块(除最后一块外)中数据个数需相同 8. 二叉查找树的查找效率与二叉树的( (1))有关, 在 ((2))时其查找效率最低【武汉交通科技大学1996 一、2(4分)】 (1): A. 高度 B. 结点的多少 C. 树型 D. 结点的位置 (2): A. 结点太多 B. 完全二叉树 C. 呈单枝树 D. 结点太复杂。 9. 要进行顺序查找,则线性表(1 );要进行折半查询,则线性表(2 );若表中元素个数为n,则顺序查找的平均比较次数为(3 );折半查找的平均比较次数为(4 )。【北方交通大学 1999 一、2 (4分)】 (1)(2):A. 必须以顺序方式存储; B. 必须以链式方式存储;C. 既可以以顺序方式存储,也可以链式方式存储; D. 必须以顺序方式存储,且数据已按递增或递减顺序排好; E. 必须以链式方式存储,且数据已按递增或递减的次序排好。 (3)(4):A.n B.n/2 C.n*n D.n*n/2 E.log 2n F.nlog 2n G.(n+1)/2 H.log 2(n+1) 10.如果要求一个线性表既能较快的查找,又能适应动态变化的要求,则可采用( )查找法。 A. 分快查找 B. 顺序查找 C. 折半查找 D. 基于属性 【西安电子科技大学 2001应用 一、8 (2分)】 11. 既希望较快的查找又便于线性表动态变化的查找方法是 ( ) 【北方交通大学 2000 二、4 (2分)】 A .顺序查找 B. 折半查找 C. 索引顺序查找 D. 哈希法查找 12.分别以下列序列构造二叉排序树,与用其它三个序列所构造的结果不同的是( ) 【合肥工业大学2000一、4(2分)】 A .(100,80, 90, 60, 120,110,130) B.(100,120,110,130,80, 60, 90) C.(100,60, 80, 90, 120,110,130) D. (100,80, 60, 90, 120,130,110) 13. 散列表的地址区间为0-17,散列函数为H(K)=K mod 17。采用线性探测法处理冲突,并将关键字序列26,25,72,38,8,18,59依次存储到散列表中。 (1)元素59存放在散列表中的【北方交通大学 2001 一、(19,20) (4分)】地址是( )。 A . 8 B. 9 C. 10 D. 11 (2)存放元素59需要搜索的次数是( )。 A . 2 B. 3 C. 4 D. 5 14. 将10个元素散列到100000个单元的哈希表中,则( )产生冲突。【北京邮电大学 2001 一、4 (2分)】 A. 一定会 B. 一定不会 C. 仍可能会 15. 设有一组记录的关键字为{19,14,23,1,68,20,84,27,55,11,10,79},用链地址法构造散列表,散列函数为H (key )=key MOD 13,散列地址为1的链中有( )个记录。【南京理工大学 1997 一、4 (2分)】 A .1 B. 2 C. 3 D. 4 16. 下面关于哈希(Hash ,杂凑)查找的说法正确的是( ) 【南京理工大学 1998 一、10 (2分)】

相关文档
最新文档