最新电子鼻数据的特征选择

最新电子鼻数据的特征选择
最新电子鼻数据的特征选择

1

电子鼻数据的数据处理方法报告:

2

电子鼻是模仿生物鼻工作原理的一种电子系统,其工作过程可以简单的归纳3

为:气敏传感器阵列对待测气体进行信号采集,经信号预处理单元整理采集的4

数据,然后送入模式识别单元进行训练学习,学习完成后即可实现对待测气体5

成分的定性或定量的识别。典型的电子鼻系统结构如下图所示:

6

7

信号预处理模块主要是对传感器采集的数据进行一些预处理,减少各种各样的8

干扰措施,并对处理之后的信号进行特征采集,采集的特征应用于模式识别模9

块。

10

模式识别模块是整个系统的核心。用于电子鼻系统的常见的模式识别方法有统11

计模式识别方法和人工神经网络方法。前者主要有Bayes、线性判别函数、非线12

性判别函数、SVM、K-近邻法等;后者主要有感知器算法、BP网络、径向基函数13

RBF神经网络等。

14

下面就信号的预处理和数据的特征提取进行相关的总结。

15

16

数据的预处理

17

对同一种样品,传感器对其需要测量多次。在测量中,很难保证每次测量18

19

条件是一致的。因此,为了采集正确的特征,并消除影响,需要对数据进行相

20

应的预处理,常见的预处理方法主要有:

21

1、标准化处理方法

22

标准化方法的思想是将样本数据的样本方差归一,这样处理可以便于对特征进23

行提取并对特征进行降维,这样的处理方法对信号的线性漂移(平移和比例漂24

移)具有很好的适应性。

25

处理过程为:设为样本i的第k个测量数据,则

26

27

其中,。

28

2、差分法

29

差分法的思想是补偿传感器的温度效应,其形式为

30

X(i)=x(i)-x(min)

31

32

3、相对差分:X(i)=x(i)/x(min)

33

4、分式差分:X(i)={x(i)-x(min)}/x(min)

34

5、归一化:X(i)={x(i)-x(min)}/{x(max)-x(min)}

35

6、采取信号变换方法

36

可以对采样信号进行DFT变换,得到变换后的数据,并进行特征提取。

37

这种方法少见于文献,应用的较少。

38

39

数据的特征提取

40

对于原始数据,信息保持最完整的特征是原始特征。但是,原始特征的数量很41

大,会造成“维数灾难”,在这种情况下,为提高计算效率,需要在尽量不丢失42

有用信息的前提下,对原始特征进行合理的选择,产生出对分类识别最有效、43

数目最少的特征,以降低维数,这也就是特征提取的基本任务。

44

45

1、PCA降维法

46

主成分分析法在保持数据大部分信息的情况下,对原有具有信息重叠的多个指47

标进行线性组合,这样使得得到后的综合指标间即互不相关,又尽可能反应原48

来指标的信息。

49

不过PCA法有一些缺点。首先,PCA算法要求样本数据的相应时间是一样的,50

也就是说传感器从开始响应到结束响应的时间是一样的,但是在实际中,传感51

器对不同样本的响应时间是不同的;其次,PCA算法对样本的依赖较大,当对待52

测样本进行判别的时候,容易出现误判。

53

54

2、数据的重采样

55

对样本数据进行重采样,如隔t0时刻采样一个数据点,这样在保持原有数据56

变化形状的情况下,可以适量减少特征的维数。而且这样还可以减少对样本的57

依赖性。

58

设样本数据为x0,x1,x2,……,x1000,如果隔5个点采样,那么特征为(x0,

59

x5,x10,……,x995,x1000)。

60

61

3、提取样本数据的统计量作为特征

62

常见的特征提取方法是采用样本数据的某些统计量作为样本特征。常见的统计63

量有:

64

(1)响应曲线的最大响应值

65

(2)响应曲线的均值

66

(3)响应曲线的最大斜率

67

(4)响应曲线的积分值

68

(5)响应曲线的最大响应值前后固定时刻的响应值

69

对每一个传感器的响应曲线进行上述特征量的提取,三个传感器提取的特征进70

行合并,即得到对某一样本数据提取的特征。

71

72

4、Fisher判别法

73

Fisher判别法是一种线性的特征提取方法。是有导师的特征提取方法,它的74

投影是带有类别信息的。

75

Fisher判别法是使投影后样本类间散布与类内散布的比值最大,即为找到最76

利于分类的投影方向。

77

Fisher判别法是在最有利于样本分类的方向上进行的投影,是一种有导师的78

特征提取算法,在以可分性为为目的的应用中,Fisher判别分析可以表现出优

79

越的性能,因此这种特征提取方法在电子鼻的模式识别中有广泛的应用。

80

81

采取的方法

82

在我们的项目中,结合得到的数据和多方面的考虑,采取下面的处理方83

法。

84

图一是一个数据文件的图形,对每一个样本进行一次测试,会得到三条85

曲线,

86

每一条曲线对应于一个传感器获得的数据,从图一中,可以发现以下特征:87

(1)每条曲线开始响应的时刻是相同的;

88

(2)每条曲线的前后都会趋于平稳;

89

(3)不同传感器对样本的响应程度不同;

90

因此,可以在初始的数据中,将响应的过程提取出来,作为后面考虑的样91

92

数据,这样可以减少数据量,提高后面的处理的效率。对上图的数据提取到的93

相应过程图二所示。

94

图一:原始数据

95

96

图二:响应过程

97

98

从图二中可以看到,三个传感器的响应程度是不一样,这种情况应该考虑99

100

对数据的预处理中。

101

从这几个方面来对样本进行预处理:

102

(1)同一曲线处理前后的形状不发生变化;

103

(2)三条曲线处理前后的响应的程度不发生明显变化(波动关系不发生104

105

化);

106

(3)处理中应该去除掉传感器的漂移;

107

(4)从传感器的物理原理来进行考虑。

108

109

110

图三:预处理之后的响应曲线

111

112

图三是与处理之后的曲线,采取的方法是:对每一条响应曲线,每一时113

刻的

114

响应值除以初始响应值。这样做的好处是,将三条曲线放在同一个参考坐标系

《大数据时代下的数据挖掘》试题及答案要点

《海量数据挖掘技术及工程实践》题目 一、单选题(共80题) 1)( D )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到 和原始数据相同的分析结果。 A.数据清洗 B.数据集成 C.数据变换 D.数据归约 2)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖 掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3)以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 5)当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数 据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 6)建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的 哪一类任务?(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7)下面哪种不属于数据预处理的方法? (D) A.变量代换 B.离散化

C.聚集 D.估计遗漏值 8)假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内? (B) A.第一个 B.第二个 C.第三个 D.第四个 9)下面哪个不属于数据的属性类型:(D) A.标称 B.序数 C.区间 D.相异 10)只有非零值才重要的二元属性被称作:( C ) A.计数属性 B.离散属性 C.非对称的二元属性 D.对称属性 11)以下哪种方法不属于特征选择的标准方法: (D) A.嵌入 B.过滤 C.包装 D.抽样 12)下面不属于创建新属性的相关方法的是: (B) A.特征提取 B.特征修改 C.映射数据到新的空间 D.特征构造 13)下面哪个属于映射数据到新的空间的方法? (A) A.傅立叶变换 B.特征加权 C.渐进抽样 D.维归约 14)假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方 法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:(D) A.0.821 B.1.224 C.1.458 D.0.716 15)一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年 级110人。则年级属性的众数是: (A) A.一年级 B.二年级 C.三年级 D.四年级

大数据复习提纲

1、线性判别函数的正负和数值大小的几何意义 正(负)表示样本点位于判别界面法向量指向的正(负)半空间中;绝对值正比于样本点到判别界面的距离。 2、感知器算法特点 收敛性:经过算法的有限次迭代运算后,求出了一个使所有样本都能正确分类的W,则称算法是收敛的。感知器算法是在模式类别线性可分条件下才是收敛的。 感知器算法只对线性可分样本有收敛的解,对非线性可分样本集会造成训练过程的震荡,这也是它的缺点。 3、聂曼-皮尔逊判决准则、最小最大判决准则等区别 聂曼-皮尔逊判决准则主要用于某一种判决错误较另一种判决错误更为重要情况; 最小最大判别准则主要用于先验概率未知的情况。 4、马式距离较之于欧式距离的优点 优点:马氏距离不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。缺点:夸大了变化微小的变量的作用。受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。尺度不变性;考虑了模式的分布 5、关联规则的经典算法有哪些 Apriori 算法;FP-tree;基于划分的算法 Apriori算法、GRI算法、Carma 6、分类的过程或步骤 答案一:ppt上的 1、模型构建(归纳) 通过对训练集合的归纳,建立分类模型。 2、预测应用(推论) 根据建立的分类模型,对测试集合进行测试。 答案二:老师版本的 训练样本的收集训练集的预处理、模型的选择、模型的训练(问老师后理解整理) 7、分类评价标准

1)正确率(accuracy)就是被分对的样本数除以所有的样本数,通常来说,正确率越高,分类器越好; 2)错误率(error rate) 错误率则与正确率相反,描述被分类器错分的比例,error rate = (FP+FN)/(P+N),对某一个实例来说,分对与分错是互斥事件,所以 accuracy =1 - error rate; 3)灵敏度(sensitive) sensitive = TP/P,表示的是所有正例中被分对的比例,衡量了分类器对正例的识别能力; 4)特效度(specificity) specificity = TN/N,表示的是所有负例中被分对的比例,衡量了分类器对负例的识别能力;5)精度(precision) 精度是精确性的度量,表示被分为正例的示例中实际为正例的比例, precision=TP/(TP+FP);6)召回率(recall) 召回率是覆盖面的度量,度量有多个正例被分为正例, recall=TP/(TP+FN)=TP/P= sensitive,可以看到召回率与灵敏度是一样的。 正确率:它表示的预测结果正确比例。包括正例和负例。 精确度:它表示的是预测是正例的结果中,实际为正例的比例。 召回率:它表示的是实际为正例样本中,预测也为正例的比例。 综合指标:F1=2*精确率*召回率/精确率+召回率,它实际上精确度和召回率的一个综合指标。 8、支持向量机及常见的核函数选择 SVM的目的是寻找泛化能力好的决策函数,即由有限样本量的训练样本所得的决策函数,在对独立的测试样本做预测分类时,任然保证较小的误差。 本质:求解凸二次优化问题,能够保证所找到的极值解就是全局最优解。 支持向量机的标准:使两类样本到分类面的最短距离之和尽可能大 支持向量机基本思想:通过训练误差和类间宽度之间的权衡,得到一个最优超平面 支持向量机是利用分类间隔的思想进行训练的,它依赖于对数据的预处理,即在更高维的空间表达原始模式。通过适当的到一个足够高维的非线性映射,分别属于两类的原始数据就能够被一个超平面来分隔。 支持向量机的基本思想可以概括为:首先通过非线性变换将输入空间变换到一个高维空间,然后在这个新空间中求取最优线性分类面,而这种非线性变换是通过定义适当的内积函数来实现的。支持向量机求得的分类函数形式上类似于一个神经网络,其输出是若干中间层节点的线性组合,而每一个中间层节点对应于输入样本与一个支持向量的内积,因此也被叫做支持向量网络。

数据挖掘试题(单选)

单选题 1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2. 以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision A. Precision, ROC D. Recall, ROC 3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 5. 什么是KDD? (A) A. 数据挖掘与知识发现 B. 领域知识发现 C. 文档知识发现 D. 动态知识发现 6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 8. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 11.下面哪种不属于数据预处理的方法? (D) A变量代换 B离散化 C 聚集 D 估计遗漏值 12. 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内? (B) A 第一个 B 第二个 C 第三个 D 第四个 13.上题中,等宽划分时(宽度为50),15又在哪个箱子里? (A) A 第一个 B 第二个 C 第三个 D 第四个 14.下面哪个不属于数据的属性类型:(D) A 标称 B 序数 C 区间 D相异 15. 在上题中,属于定量的属性类型是:(C) A 标称 B 序数 C区间 D 相异 16. 只有非零值才重要的二元属性被称作:( C )

大数据时代下的数据挖掘试题和答案及解析

A. 变量代换 B. 离散化 海量数据挖掘技术及工程实践》题目 、单选题(共 80 题) 1) ( D ) 的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得 到 和原始数据相同的分析结果。 A. 数据清洗 B. 数据集成 C. 数据变换 D. 数据归约 2) 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数 据挖 掘的哪类问题 (A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3) 以下两种描述分别对应哪两种对分类算法的评价标准 (A) (a) 警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b) 描述有多少比例的小偷给警察抓了的标准。 据相分离 (B) 哪一类任务 (C) A. 根据内容检索 B. 建模描述 7) 下面哪种不属于数据预处理的方法 (D) A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4) 将原始数据进行集成、 变换、维度规约、数值规约是在以下哪个步骤的任务 (C) 5) A. 频繁模式挖掘 C. 数据预处理 B. D. 当不知道数据所带标签时, 分类和预测 数据流挖掘 可以使用哪种技术促使带同类标签的数据与带其他标签的数 6) A. 分类 C. 关联分析 建立一个模型, B. D. 聚类 隐马尔可夫链 通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的 C. 预测建模 D. 寻找模式和规则

C.聚集 D. 估计遗漏值 8) 假设12 个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15 在第几个箱子内(B) A. 第一个 B. 第二个 C. 第三个 D. 第四个 9) 下面哪个不属于数据的属性类型:(D) A. 标称 B. 序数 C.区间 D. 相异 10) 只有非零值才重要的二元属性被称作:( C ) A. 计数属性 B. 离散属性 C.非对称的二元属性 D. 对称属性 11) 以下哪种方法不属于特征选择的标准方法:(D) A. 嵌入 B. 过滤 C.包装 D. 抽样 12) 下面不属于创建新属性的相关方法的是:(B) A. 特征提取 B. 特征修改 C. 映射数据到新的空间 D. 特征构造 13) 下面哪个属于映射数据到新的空间的方法(A) A. 傅立叶变换 B. 特征加权 C. 渐进抽样 D. 维归约 14) 假设属性income 的最大最小值分别是12000元和98000 元。利用最大最小规范化的方 法将属性的值映射到0 至 1 的范围内。对属性income 的73600 元将被转化为:(D) 15) 一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130 人,四年 级110 人。则年级属性的众数是:(A) A. 一年级 B. 二年级 C. 三年级 D. 四年级 16) 下列哪个不是专门用于可视化时间空间数据的技术:(B) A. 等高线图 B. 饼图

数据分析的特征选择实例分析

数据分析的特征选择实例分析 1.数据挖掘与聚类分析概述 数据挖掘一般由以下几个步骤: (l)分析问题:源数据数据库必须经过评估确认其是否符合数据挖掘标准。以决定预期结果,也就选择了这项工作的最优算法。 (2)提取、清洗和校验数据:提取的数据放在一个结构上与数据模型兼容的数据库中。以统一的格式清洗那些不一致、不兼容的数据。一旦提取和清理数据后,浏览所创建的模型,以确保所有的数据都已经存在并且完整。 (3)创建和调试模型:将算法应用于模型后产生一个结构。浏览所产生的结构中数据,确认它对于源数据中“事实”的准确代表性,这是很重要的一点。虽然可能无法对每一个细节做到这一点,但是通过查看生成的模型,就可能发现重要的特征。 (4)查询数据挖掘模型的数据:一旦建立模型,该数据就可用于决策支持了。 (5)维护数据挖掘模型:数据模型建立好后,初始数据的特征,如有效性,可能发生改变。一些信息的改变会对精度产生很大的影响,因为它的变化影响作为基础的原始模型的性质。因而,维护数据挖掘模型是非常重要的环节。 聚类分析是数据挖掘采用的核心技术,成为该研究领域中一个非常活跃的研究课题。聚类分析基于”物以类聚”的朴素思想,根据事物的特征,对其进行聚类或分类。作为数据挖掘的一个重要研究方向,聚类分析越来越得到人们的关注。聚类的输入是一组没有类别标注的数据,事先可以知道这些数据聚成几簇爪也可以不知道聚成几簇。通过分析这些数据,根据一定的聚类准则,合理划分记录集合,从而使相似的记录被划分到同一个簇中,不相似的数据划分到不同的簇中。 2.特征选择与聚类分析算法 Relief为一系列算法,它包括最早提出的Relief以及后来拓展的Relief和ReliefF,其中ReliefF算法是针对目标属性为连续值的回归问题提出的,下面仅介绍一下针对分类问题的Relief和ReliefF算法。 2.1 Relief算法 Relief算法最早由Kira提出,最初局限于两类数据的分类问题。Relief算法是一种特征权重算法(Feature weighting algorithms),根据各个特征和类别的相关性赋予特征不同的权重,权重小于某个阈值的特征将被移除。Relief算法中特征和类别的相关性是基于特征对近距离样本的区分能力。算法从训练集D中随机选择一个样本R,然后从和R同类的样本中寻找最近邻样本H,称为Near Hit,从和R不同类的样本中寻找最近邻样本M,称为NearMiss,然后根据以下规则更新每个特征的权重:如果R和Near Hit在某个特征上的距离小于R和Near Miss 上的距离,则说明该特征对区分同类和不同类的最近邻是有益的,则增加该特征的权重;反之,如果R和Near Hit 在某个特征的距离大于R和Near Miss上的距离,说明该特征对区分同类和不同类的最近邻起负面作用,则降低该特征的权重。以上过程重复m次,最后得到各特征的平均权重。特征的权重越大,表示该特征的分类能力越强,反之,表示该特征分类能力越弱。Relief算法的运行时间随着样本的抽样次数m和原始特征个数N的增加线性增加,因而运行效率非常高。具体算法如下所示:

北邮_大数据技术课程重点总结

大数据技术 1.什么是数据挖掘,什么是机器学习: 什么是机器学习 关注的问题:计算机程序如何随着经验积累自动提高性能; 研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能; 通过输入和输出,来训练一个模型。 2.大数据分析系统层次结构:应用层、算法层、系统软件层、基础设施层 3.传统的机器学习流程 预处理-》特征提取-》特征选择-》再到推理-》预测或者识别。 手工地选取特征是一件非常费力、启发式(需要专业知识)的方法,如果数据被很好的表达成了特征,通常线性模型就能达到满意的精度。 4.大数据分析的主要思想方法 4.1三个思维上的转变 关注全集(不是随机样本而是全体数据):面临大规模数据时,依赖于采样分析;统计学习的目的——用尽可能少的数据来证实尽可能重大的发现;大数据是指不用随机分析这样的捷径,而是采用大部分或全体数据。 关注概率(不是精确性而是概率):大数据的简单算法比小数据的复杂算法更有效 关注关系(不是因果关系而是相关关系):建立在相关关系分析法基础上的预测是大数据的核心,相关关系的核心是量化两个数据值之间的数理关系,关联物是预测的关键。 4.2数据创新的思维方式 可量化是数据的核心特征(将所有可能与不可能的信息数据化);挖掘数据潜在的价值是数据创新的核心;三类最有价值的信息:位置信息、信令信息以及网管和日志。 数据混搭为创造新应用提供了重要支持。 数据坟墓:提供数据服务,其他人都比我聪明! 数据废气:是用户在线交互的副产品,包括了浏览的页面,停留了多久,鼠标光标停留的位置、输入的信息。 4.3大数据分析的要素 大数据“价值链”构成:数据、技术与需求(思维);数据的价值在于正确的解读。

数据挖掘试题

For personal use only in study and research; not for commercial use 单选题 1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 11.下面哪种不属于数据预处理的方法?(D) A变量代换B离散化 C 聚集 D 估计遗漏值 12. 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?(B) A 第一个 B 第二个 C 第三个 D 第四个 13.上题中,等宽划分时(宽度为50),15又在哪个箱子里?(A) A 第一个 B 第二个 C 第三个 D 第四个 16. 只有非零值才重要的二元属性被称作:( C ) A 计数属性 B 离散属性C非对称的二元属性 D 对称属性 17. 以下哪种方法不属于特征选择的标准方法:(D) A嵌入 B 过滤 C 包装 D 抽样 18.下面不属于创建新属性的相关方法的是:(B) A特征提取B特征修改C映射数据到新的空间D特征构造 22. 假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:(D) A 0.821 B 1.224 C 1.458 D 0.716 23.假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:(A) A 18.3 B 22.6 C 26.8 D 27.9 28. 数据仓库是随着时间变化的,下面的描述不正确的是(C) A. 数据仓库随时间的变化不断增加新的数据内容; B. 捕捉到的新数据会覆盖原来的快照; C. 数据仓库随事件变化不断删去旧的数据内容; D. 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合. 29. 关于基本数据的元数据是指: (D) A. 基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息; B. 基本元数据包括与企业相关的管理方面的数据和信息;

基于电网运行大数据的在线分布式安全特征选择

基于电网运行大数据的在线分布式安全特征选择 黄天恩1, 2,孙宏斌1,2,郭庆来1,2 ,温柏坚3,郭文鑫3(1. 清华大学电机工程与应用电子技术系,北京市100084;2. 电力系统及发电设备控制和仿真国家重点实验室,清华大学,北京市100084;3. 广东电网有限责任公司电力调度控制中心,广东省广州市510600)摘要:简述大数据环境下,电网安全特征选择的现状与问题三提出了一种基于电网特征量相关性 分组二适应于电网运行大数据的在线分布式安全特征选择方法,该方法能在线挖掘出关键的电网安全运行特征三首先阐述了单个计算节点上电网安全特征选择方法,接着提出了基于电网特征量分组的分布式安全特征选择方法;由于电网特征量分组情况会对特征选择结果产生较大影响,故提出了基于电网特征量相关性分组的策略,尽量使得同一组内的电网特征量相关性较大,不同分组间的电网特征量相关性较小三IEEE 9节点系统和广东实际省网系统算例验证了该方法的实用性和有效性,表明了该方法能够快速挖掘出电网运行的薄弱点,帮助电网运行人员准确地把握电网安全运行特征,同时也对比了该方法相比传统方法在计算准确性和计算速度方面的优势三关键词:热稳定安全域;多维空间;多约束;分段线性近似 收稿日期:2015-04-24;修回日期:2015-09-08三 国家重点基础研究发展计划(973计划)资助项目(2013CB228203) ;国家自然科学基金创新研究群体科学基金资助项目(51321005);中国南方电网有限责任公司科技项目(GDKJ00000058) 三0一引言 随着智能电网的发展与电网自动化程度的提高,电力系统运行与控制中数据来源十分广泛,有来 自电气信息采集系统(CIS ) 二广域测量系统(WAMS )和能量管理系统(EMS )等电网内部数据,也有来自气象信息系统二地理信息系统(GIS )等电网外部数据 [1] 三这些电力系统运行与控制中产生数 据有如下特点:①数据规模越来越大, 数据洪流由传统意义上的GB 上升到TB ,PB 水平;②数据类型丰富,包含结构化二半结构化和非结构化的数据;③数据快速产生,从而数据处理需要达到快速二实时的要求;④数据的价值密度低,由于数据规模大二类型多二产生速率快,对发电企业二电网公司和用户有着巨大的潜在价值,但价值密度却不高三不难发现,电力系统运行与控制中产生的数据具有信息通信技术(ICT )行业大数据典型的 4V 特征,即规模性(volume ),多样性(variet y ),高速性(velocit y ) 和价值性(value )[2] , 这些数据中蕴含着复杂的相关性,传统数据处理技术在数据存储二查询和分析等方面 遇到瓶颈,所以亟须研究电力系统大数据环境下的 数据挖掘与处理技术[ 3-4] 三随着交直流电网的快速发展以及可再生能源的 不断接入,大电网运行方式时变性和复杂性日益增强,其安全运行的特征和规律越来越难以把握,极大地增加了电网运行风险和控制难度三近些年来国内 外一系列的电网安全运行事故[5-6] 都说明:电网运行人员要依托电网安全稳定分析技术[7-9] ,充分掌握电 网安全运行的特征和规律,迅速二精确地明晰电网薄 弱点[10] ,才能避免电网运行事故的发生三文献中有利用相量测量单元(PMU )和故障录波器(DFR ) 等实际量测大数据[11-12] ,分析电力系统安全稳定问题和故障原因;而本文关注到电力系统中海量的计算 资源,故可以利用电网安全稳定分析中的仿真大数据,采用大数据机器学习与数据挖掘的方法,在线挖掘出电网运行的关键安全特征三 特征选择和特征抽取是典型的两种数据降维技术三特征选择将原始的高维特征空间,通过某种标准筛选出一个最优或最有效的特征子集,剔除冗余特征,从而达到降低维数的目标三而特征抽取是将原始的高维特征空间,通过特定的变换投影到数据 特征相对容易表达的低维特征空间[ 13-14] 三在电力系统运行与分析中,特征选择方法更为广泛接受三一 方面,由于量测和仿真数据规模较大,维数较高,特征选择方法计算复杂度相对较低;另一方面,特征选 2 3Vol.40No.4Feb.25,2016 DOI :10.7500/AEPS20150424003

《基于大数据挖掘技术及工程实践》试题及答案

《基于大数据挖掘技术及工程实践》试题 及答案 《海量数据挖掘技术及工程实践》题目 一、单选题 1) ( D )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到 和原始数据相同的分析结果。 A.数据清洗 B.数据集成 C.数据变换 D.数据归约 2) 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖 掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3) 以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4) 将原始数据进行集成、变换、维度规约、数值规约

是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 5) 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数 据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 6) 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的 哪一类任务?(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7) 下面哪种不属于数据预处理的方法? (D) A.变量代换 B.离散化 C.聚集 D.估计遗漏值 8) 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, xx年纪人数分别为:一年级xx年级160人,三年级130人,四年 级110人。则年级属性的众数是: (A) A.一年级 B.二年级 C.三年级 D.四年级 16) 下列哪个不是专门用于可视化时间空间数据的技

《数据挖掘》试题与答案

一、解答题(满分30分,每小题5分) 1.怎样理解数据挖掘和知识发现的关系?请详细阐述之 首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。 知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最 终目标是掌握数据的模式。流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。 2. 时间序列数据挖掘的方法有哪些,请详细阐述之 时间序列数据挖掘的方法有: 1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。 2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。 3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。

大数据时代下的数据挖掘试题及答案

海量数据挖掘技术及工程实践》题目 单选题(共 80 题) ( D )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和 原始数据相同的分析结果。 A.数据清洗 C.数据变换 B.数据集成 D.数据归约 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖 掘的哪类问题 (A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 以下两种描述分别对应哪两种对分类算法的评价标准 (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务 (C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 当不知道数据所带标签时, 可以使用哪种技术促使带同类标签的数据与带其他标签的数 据相分离 (B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 建立一个模型, 通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的 哪一类任务 (C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 面哪种不属于数据预处理的方法 (D) A.变量代换 B.离散化 1) 2) 3) 4) 5) 6) 7) 8) 9) 10) 11) 12) 13) 14) 15) 16) 17) 18)

C.聚集 D.估计遗漏值 假设 12个销售价格记录组已经排序如下: 5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215使 用如下每种方法将它们划分成四个箱。等频(等深)划分时, 15 在第几个箱子内 (B) A. 第一个 B.第二个 C.第三个 D.第四个 下面哪个不属于数据的属性类型: (D) A. 标称 B.序数 C.区间 D.相异 只有非零值才重要的二元属性被称作: ( C ) A. 计数属性 B.离散属性 C.非对称的二元属性 D.对称属性 以下哪种方法不属于特征选择的标准方法: (D) A. 嵌入 B.过滤 C.包装 D.抽样 下面不属于创建新属性的相关方法的是: (B) A.特征提取 B.特征修改 C.映射数据到新的空间 D.特征构造 下面哪个属于映射数据到新的空间的方法 (A) A.傅立叶变换 B.特征加权 C.渐进抽样 D.维归约 假设属性 income 的最大最小值分别是 12000 元和 98000 元。利用最大最小规范化的方 法将属性的值映射到 0 至 1 的范围内。对属性 income 的 73600元将被转化为: (D) 一所大学内的各年纪人数分别为:一年级 200人,二年级 160 人,三年级 130人,四年 级 110 人。则年级属性的众数是: (A) A.一年级 B.二年级 C.三年级 D.四年级 19) 20) 21) 22) 23) 24) 25) 26) 27) 28) 29) 30) 31) 32) 33) 34) 35) 列哪个不是专门用于可视化时间空间数据的技术: (B)

数据挖掘试题(150道)

A, 无序规则 B,穷举规则 C,互斥规则 D,有序规则 58. 如果规则集中的规则按照优先级降序排列,则称规则集是 (D) A, 无序规则 B,穷举规则 C,互斥规则 D,有序规则 59. 如果允许一条记录触发多条分类规则,把每条被触发规则的后件看作是对相应类的一次投票,然后计票确定测试记录的类标号,称为(A) A, 无序规则 B,穷举规则 C,互斥规则 D,有序规则 60. 考虑两队之间的足球比赛:队0和队1。假设65%的比赛队0胜出,剩余的比赛队1获胜。队0获胜的比赛中只有30%是在队1的主场,而队1取胜的比赛中75%是主场获胜。如果下一场比赛在队1的主场进行队1获胜的概率为 (C) A, B, C, D, 61. 以下关于人工神经网络(ANN)的描述错误的有 (A) A,神经网络对训练数据中的噪声非常鲁棒 B,可以处理冗余特征 C,训练ANN是一个很耗时的过程 D,至少含有一个隐藏层的多层神经网络 62. 通过聚集多个分类器的预测来提高分类准确率的技术称为 (A) A,组合(ensemble) B,聚集(aggregate) C,合并(combination) D,投票(voting) 63. 简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( B ) A、层次聚类 B、划分聚类 C、非互斥聚类 D、模糊聚类 64. 在基本K均值算法里,当邻近度函数采用( A )的时候,合适的质心是簇中各点的中位数。 A、曼哈顿距离 B、平方欧几里德距离 C、余弦距离 D、Bregman散度 65.( C )是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。 A、边界点 B、质心 C、离群点 D、核心点 66. BIRCH是一种( B )。 A、分类器 B、聚类算法 C、关联分析算法 D、特征选择算法 67. 检测一元正态分布中的离群点,属于异常检测中的基于( A )的离群点检测。 A、统计方法 B、邻近度 C、密度 D、聚类技术 68.( C )将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。 A、MIN(单链) B、MAX(全链) C、组平均 D、Ward方法 69.( D )将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量,它是一种凝聚层次聚类技术。 A、MIN(单链) B、MAX(全链) C、组平均 D、Ward方法 70. DBSCAN在最坏情况下的时间复杂度是( B )。 A、O(m) B、O(m2) C、O(log m) D、O(m*log m) 71. 在基于图的簇评估度量表里面,如果簇度量为proximity(Ci , C),簇权值为mi ,那么它的类型是( C )。 A、基于图的凝聚度 B、基于原型的凝聚度 C、基于原型的分离度 D、基于图的凝聚度和分离度 72. 关于K均值和DBSCAN的比较,以下说法不正确的是( A )。 A、K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。 B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。 C、K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的

监督模型的特征选择_光环大数据培训

https://www.360docs.net/doc/4e10979950.html, 监督模型的特征选择_光环大数据培训 一般针对监督模型的特征选择有如下五种方法: 利用相关性对变量进行排序 自变量x1,x2,..xn,目标变量y,变量xi和y的相关性越高,则xi所包含的用于预测y的信息量越大,从而其排序越高。可以用Pearson相关系数来衡量两个变量的线性相关性: 利用Pearson相关系数来做变量排序有以下问题: (1)只考虑单一变量的重要性,很多变量单独存在时没有用,但和其他变量结合在一起后则会起到显著作用; (2)依赖于自变量和目标变量之间的线性假设。 (3)适用于回归问题,即,目标变量y是连续的,对于分类问题应用起来需要谨慎。 单变量分类器 如1里面提到的,对于分类问题,利用相关性对变量进行排序可能会出现问题。一个简单的将上述思路拓展到分类问题的方法是,构造一个单变量分类器,然后依据单个变量对y的预测能力进行排序。单变量的预测能力可以通过IV或者AUC等各种指标进行评估。除此之外,对于分类变量卡方检验也是常见的筛选特征的方法,基本思想是假设两个变量独立,利用列联表的数据计算实际频数与

https://www.360docs.net/doc/4e10979950.html, 理论频数的差异,如有显著差异则拒绝原假设认为变量间是有相关关系,反之接受原假设。 信息增益 信息增益是一种有效的特征选择方法,它的公式: 对于公式的解释为:原本分类的信息熵减去加入特征后分类的条件熵,两者的差值就是这个特征给分类带来的“净化”程度,如果信息增益越大,该特征对于分类来说就越有价值。其中熵表示不确定程度,分布越均匀,越不确定,熵越大。 逐步回归法 上述的三种方法都是对单变量进行排序,不能考虑这个变量在和其他变量结合在一起时的作用。为了解决这个问题,可以用forward selection、backward selection和stepwise selection的方法。 forward selection是从截距项开始依次按显著性水平将自变量一个一个地加入模型,直到没有满足显著性水平的变量可以加入为止。 backward selection一开始所有变量都在模型中,将不符合显著性水平的变量依次剔除,值得一提的是存在于某些情况多个变量各自对目标变量不显著,但组合起来能显著的提高模型的表现,这种情况在采用forward selection的情况下变量是进入不了模型的,而采用backward selection可以解决这个问题。

数据挖掘测试题

1.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?A A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2.以下两种描述分别对应哪两种对分类算法的评价标准?A (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision C. Precision, ROC D. Recall, ROC 3.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?C A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 4.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?B A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 5. 什么是KDD?A A. 数据挖掘与知识发现 B. 领域知识发现 C. 文档知识发现 D. 动态知识发现 6.使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?A A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7.为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?B A. 探索性数据分析 B. 建模描述 C. 预测建模

D. 寻找模式和规则 8.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?C A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 9.用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务? A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 10.下面哪种不属于数据预处理的方法?D A变量代换 B离散化 C聚集 D估计遗漏值 11.假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?B A 第一个 B 第二个 C 第三个 D 第四个 12.上题中,等宽划分时(宽度为50),15又在哪个箱子里?A A 第一个 B 第二个 C 第三个 D 第四个 13.下面哪个不属于数据的属性类型:D A 标称 B 序数 C 区间 D相异 14. 在上题中,属于定量的属性类型是:C A 标称 B 序数

数据挖掘习题题

数据挖掘复习题 单选题 1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2. 以下两种描述分别对应哪两种对分类算法的评价标准?(A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision A. Precision, ROC D. Recall, ROC 3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 5. 什么是KDD?(A) A. 数据挖掘与知识发现 B. 领域知识发现 C. 文档知识发现 D. 动态知识发现 6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 8. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 11.下面哪种不属于数据预处理的方法?(D) A变量代换B离散化 C 聚集 D 估计遗漏值 12. 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使

数据挖掘试题 (2)

一、单选题 1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2. 以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision A. Precision, ROC D. Recall, ROC 3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 5. 什么是KDD? (A) A. 数据挖掘与知识发现 B. 领域知识发现 C. 文档知识发现 D. 动态知识发现 6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 8. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 10. 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。(B) 计算数据的近似中位数值 A 15~20 B 20~50 C 50~80 D 80~110 11.下面哪种不属于数据预处理的方法? (D) A变量代换 B离散化 C 聚集 D 估计遗漏值 12. 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内? (B) A 第一个 B 第二个 C 第三个 D 第四个 13.上题中,等宽划分时(宽度为50),15又在哪个箱子里? (A) A 第一个 B 第二个 C 第三个 D 第四个 14.下面哪个不属于数据的属性类型:(D) A 标称 B 序数 C 区间 D相异 15. 在上题中,属于定量的属性类型是:(C) A 标称 B 序数 C区间 D 相异 16. 只有非零值才重要的二元属性被称作:( C ) A 计数属性 B 离散属性 C非对称的二元属性 D 对称属性 17. 以下哪种方法不属于特征选择的标准方法: (D)

相关文档
最新文档