KDD CUP--SJTUSlides

《大数据时代下的数据挖掘》试题及答案要点

《海量数据挖掘技术及工程实践》题目一、单选题（共80题） 1)( D )的目的缩小数据的取值范围，使其更适合于数据挖掘算法的需要，并且能够得到和原始数据相同的分析结果。 A.数据清洗 B.数据集成 C.数据变换 D.数据归约 2)某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3)以下两种描述分别对应哪两种对分类算法的评价标准？ (A) (a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 5)当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 6)建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务？(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7)下面哪种不属于数据预处理的方法？ (D) A.变量代换 B.离散化

C.聚集 D.估计遗漏值 8)假设12个销售价格记录组已经排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频（等深）划分时，15在第几个箱子内？ (B) A.第一个 B.第二个 C.第三个 D.第四个 9)下面哪个不属于数据的属性类型：(D) A.标称 B.序数 C.区间 D.相异 10)只有非零值才重要的二元属性被称作：( C ) A.计数属性 B.离散属性 C.非对称的二元属性 D.对称属性 11)以下哪种方法不属于特征选择的标准方法： (D) A.嵌入 B.过滤 C.包装 D.抽样 12)下面不属于创建新属性的相关方法的是： (B) A.特征提取 B.特征修改 C.映射数据到新的空间 D.特征构造 13)下面哪个属于映射数据到新的空间的方法？ (A) A.傅立叶变换 B.特征加权 C.渐进抽样 D.维归约 14)假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为：(D) A.0.821 B.1.224 C.1.458 D.0.716 15)一所大学内的各年纪人数分别为：一年级200人，二年级160人，三年级130人，四年级110人。则年级属性的众数是： (A) A.一年级 B.二年级 C.三年级 D.四年级

数据挖掘试题(单选)

单选题 1. 某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2. 以下两种描述分别对应哪两种对分类算法的评价标准？ (A) (a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision A. Precision, ROC D. Recall, ROC 3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 4. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 5. 什么是KDD？ (A) A. 数据挖掘与知识发现 B. 领域知识发现 C. 文档知识发现 D. 动态知识发现 6. 使用交互式的和可视化的技术，对数据进行探索属于数据挖掘的哪一类任务？（A） A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7. 为数据的总体分布建模；把多维空间划分成组等问题属于数据挖掘的哪一类任务？(B) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 8. 建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务？(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式，属于数据挖掘哪一类任务？(A) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 11.下面哪种不属于数据预处理的方法？ (D) A变量代换 B离散化 C 聚集 D 估计遗漏值 12. 假设12个销售价格记录组已经排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频（等深）划分时，15在第几个箱子内？ (B) A 第一个 B 第二个 C 第三个 D 第四个 13.上题中，等宽划分时（宽度为50），15又在哪个箱子里？ (A) A 第一个 B 第二个 C 第三个 D 第四个 14.下面哪个不属于数据的属性类型：(D) A 标称 B 序数 C 区间 D相异 15. 在上题中，属于定量的属性类型是：(C) A 标称 B 序数 C区间 D 相异 16. 只有非零值才重要的二元属性被称作：( C )

文本分类中的特征提取和分类算法综述

文本分类中的特征提取和分类算法综述摘要：文本分类是信息检索和过滤过程中的一项关键技术，其任务是对未知类别的文档进行自动处理，判别它们所属于的预定义类别集合中的类别。本文主要对文本分类中所涉及的特征选择和分类算法进行了论述，并通过实验的方法进行了深入的研究。采用kNN和Naive Bayes分类算法对已有的经典征选择方法的性能作了测试，并将分类结果进行对比，使用查全率、查准率、F1值等多项评估指标对实验结果进行综合性评价分析.最终，揭示特征选择方法的选择对分类速度及分类精度的影响。关键字：文本分类特征选择分类算法 A Review For Feature Selection And Classification Algorithm In Text Categorization Abstract:Text categorization is a key technology in the process of information retrieval and filtering,whose task is to process automatically the unknown categories of documents and distinguish the labels they belong to in the set of predefined categories. This paper mainly discuss the feature selection and classification algorithm in text categorization, and make deep research via experiment. kNN and Native Bayes classification algorithm have been applied to test the performance of classical feature detection methods, and the classification results based on classical feature detection methods have been made a comparison. The results have been made a comprehensive evaluation analysis by assessment indicators, such as precision, recall, F1. In the end, the influence feature selection methods have made on classification speed and accuracy have been revealed. Keywords:Text categorization Feature selection Classification algorithm

数据分析的特征选择实例分析

数据分析的特征选择实例分析 1.数据挖掘与聚类分析概述数据挖掘一般由以下几个步骤： (l)分析问题:源数据数据库必须经过评估确认其是否符合数据挖掘标准。以决定预期结果，也就选择了这项工作的最优算法。 (2)提取、清洗和校验数据:提取的数据放在一个结构上与数据模型兼容的数据库中。以统一的格式清洗那些不一致、不兼容的数据。一旦提取和清理数据后，浏览所创建的模型，以确保所有的数据都已经存在并且完整。 (3)创建和调试模型:将算法应用于模型后产生一个结构。浏览所产生的结构中数据，确认它对于源数据中“事实”的准确代表性，这是很重要的一点。虽然可能无法对每一个细节做到这一点，但是通过查看生成的模型，就可能发现重要的特征。 (4)查询数据挖掘模型的数据:一旦建立模型，该数据就可用于决策支持了。 (5)维护数据挖掘模型:数据模型建立好后，初始数据的特征，如有效性，可能发生改变。一些信息的改变会对精度产生很大的影响，因为它的变化影响作为基础的原始模型的性质。因而，维护数据挖掘模型是非常重要的环节。聚类分析是数据挖掘采用的核心技术，成为该研究领域中一个非常活跃的研究课题。聚类分析基于”物以类聚”的朴素思想，根据事物的特征，对其进行聚类或分类。作为数据挖掘的一个重要研究方向，聚类分析越来越得到人们的关注。聚类的输入是一组没有类别标注的数据，事先可以知道这些数据聚成几簇爪也可以不知道聚成几簇。通过分析这些数据，根据一定的聚类准则，合理划分记录集合，从而使相似的记录被划分到同一个簇中，不相似的数据划分到不同的簇中。 2.特征选择与聚类分析算法 Relief为一系列算法，它包括最早提出的Relief以及后来拓展的Relief和ReliefF，其中ReliefF算法是针对目标属性为连续值的回归问题提出的，下面仅介绍一下针对分类问题的Relief和ReliefF算法。 2.1 Relief算法 Relief算法最早由Kira提出，最初局限于两类数据的分类问题。Relief算法是一种特征权重算法(Feature weighting algorithms)，根据各个特征和类别的相关性赋予特征不同的权重，权重小于某个阈值的特征将被移除。Relief算法中特征和类别的相关性是基于特征对近距离样本的区分能力。算法从训练集D中随机选择一个样本R，然后从和R同类的样本中寻找最近邻样本H，称为Near Hit，从和R不同类的样本中寻找最近邻样本M，称为NearMiss，然后根据以下规则更新每个特征的权重：如果R和Near Hit在某个特征上的距离小于R和Near Miss 上的距离，则说明该特征对区分同类和不同类的最近邻是有益的，则增加该特征的权重；反之，如果R和Near Hit 在某个特征的距离大于R和Near Miss上的距离，说明该特征对区分同类和不同类的最近邻起负面作用，则降低该特征的权重。以上过程重复m次，最后得到各特征的平均权重。特征的权重越大，表示该特征的分类能力越强，反之，表示该特征分类能力越弱。Relief算法的运行时间随着样本的抽样次数m和原始特征个数N的增加线性增加，因而运行效率非常高。具体算法如下所示：

数据挖掘试题

For personal use only in study and research; not for commercial use 单选题 1. 某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 4. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 6. 使用交互式的和可视化的技术，对数据进行探索属于数据挖掘的哪一类任务？（A） A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 11.下面哪种不属于数据预处理的方法？(D) A变量代换B离散化 C 聚集 D 估计遗漏值 12. 假设12个销售价格记录组已经排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频（等深）划分时，15在第几个箱子内？(B) A 第一个 B 第二个 C 第三个 D 第四个 13.上题中，等宽划分时（宽度为50），15又在哪个箱子里？(A) A 第一个 B 第二个 C 第三个 D 第四个 16. 只有非零值才重要的二元属性被称作：( C ) A 计数属性 B 离散属性C非对称的二元属性 D 对称属性 17. 以下哪种方法不属于特征选择的标准方法：(D) A嵌入 B 过滤 C 包装 D 抽样 18.下面不属于创建新属性的相关方法的是：(B) A特征提取B特征修改C映射数据到新的空间D特征构造 22. 假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为：(D) A 0.821 B 1.224 C 1.458 D 0.716 23.假定用于分析的数据包含属性age。数据元组中age的值如下（按递增序）：13，15，16，16，19，20，20，21，22，22，25，25，25，30，33，33，35，35，36，40，45，46，52，70, 问题：使用按箱平均值平滑方法对上述数据进行平滑，箱的深度为3。第二个箱子值为：(A) A 18.3 B 22.6 C 26.8 D 27.9 28. 数据仓库是随着时间变化的,下面的描述不正确的是(C) A. 数据仓库随时间的变化不断增加新的数据内容; B. 捕捉到的新数据会覆盖原来的快照; C. 数据仓库随事件变化不断删去旧的数据内容; D. 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合. 29. 关于基本数据的元数据是指: (D) A. 基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息; B. 基本元数据包括与企业相关的管理方面的数据和信息;

特征选择算法综述20160702

特征选择方法综述控制与决策2012.2 问题的提出特征选择框架基于搜索策略划分特征选择方法基于评价准则划分特征选择方法结论一、问题的提出特征选择是从一组特征中挑选出一些最有效的特征以降低特征空间维数的过程，是模式识别的关键问题之一。对于模式识别系统，一个好的学习样本是训练分类器的关键，样本中是否含有不相关或冗余信息直接影响着分类器的性能。因此研究有效的特征选择方法至关重要。特征选择算法的目的在于选择全体特征的一个较少特征集合，用以对原始数据进行有效表达按照特征关系度量划分，可分为依赖基尼指数、欧氏距离、信息熵。、特征选择框架由于子集搜索是一个比较费时的步骤，一些学者基于相关和冗余分析，给出了下面一种特征选择框架，避免了子集搜索，可以高效快速地寻找最优子集。从特征选择的基本框架看出，特征选择方法中有4 个基本步骤：候选特征子集的生成（搜索策略）、评价准则、停止准则和验证方法。目前对特征选择方法的研究主要集中于搜索策略和评价准则。因而，本文从搜索策略和评价准则两个角度对特征选择方法进行分类。三、基于搜索策略划分特征选择方法基本的搜索策略按照特征子集的形成过程，形成的特征选择方法如下：

图3 基于搜索策略划分特征选择方法其中，全局搜索如分支定界法，存在问题： 1）很难确定优化特征子集的数目； 2）满足单调性的可分性判据难以设计； 3）处理高维多类问题时，算法的时间复杂度较高。随机搜索法如模拟退火、遗传算法、禁忌搜索算法等，存在问题： 1）具有较高的不确定性，只有当总循环次数较大时，才可能找到较好的结果。 2）在随机搜索策略中，可能需对一些参数进行设置，参数选择的合适与否对最终结果的好坏起着很大的作用。启发式搜索如SFS、SBS、SFFS、SFBS等，存在问题： 1）虽然效率高，但是它以牺牲全局最优为代价。每种搜索策略都有各自的优缺点，在实际应用过程中，根据具体环境和准则函数来寻找一个最佳的平衡点。例如，特征数较少，可采用全局最优搜索策略；若不要求全局最优，但要求计算速度快，可采用启发式策略；若需要高性能的子集，而不介意计算时间，则可采用随机搜索策略。四、基于评价准则划分特征选择方法

特征选择综述

特征选择常用算法综述一.什么是特征选择(Featureselection ) 特征选择也叫特征子集选择 ( FSS , Feature SubsetSelection ) 。是指从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化。需要区分特征选择与特征提取。特征提取 ( Feature extraction )是指利用已有的特征计算出一个抽象程度更高的特征集，也指计算得到某个特征的算法。特征提取与特征选择都能降低特征集的维度。评价函数 ( Objective Function )，用于评价一个特征子集的好坏的指标。这里用符号J ( Y )来表示评价函数，其中Y是一个特征集，J( Y )越大表示特征集Y 越好。评价函数根据其实现原理又分为2类，所谓的Filter和Wrapper 。 Filter（筛选器）：通过分析特征子集内部的信息来衡量特征子集的好坏，比如特征间相互依赖的程度等。Filter实质上属于一种无导师学习算法。 Wrapper（封装器）：这类评价函数是一个分类器，采用特定特征子集对样本集进行分类，根据分类的结果来衡量该特征子集的好坏。Wrapper实质上是一种有导师学习算法。二.为什么要进行特征选择？获取某些特征所需的计算量可能很大，因此倾向于选择较小的特征集特征间的相关性，比如特征A完全依赖于特征B，如果我们已经将特征B选入特征集，那么特征A 是否还有必要选入特征集？我认为是不必的。特征集越大，分类器就越复杂，其后果就是推广能力（generalization capability）下降。选择较小的特征集会降低复杂度，可能会提高系统的推广能力。Less is More ! 三.特征选择算法分类精确的解决特征子集选择问题是一个指数级的问题。常见特征选择算法可以归为下面3类：第一类：指数算法 ( Exponential algorithms ) 这类算法对特征空间进行穷举搜索（当然也会采用剪枝等优化），搜索出来的特征集对于样本集是最优的。这类算法的时间复杂度是指数级的。

特征选择算法综述20160702

特征选择方法综述控制与决策 2012.2 ●问题的提出 ●特征选择框架 ●基于搜索策略划分特征选择方法 ●基于评价准则划分特征选择方法 ●结论一、问题的提出特征选择是从一组特征中挑选出一些最有效的特征以降低特征空间维数的过程，是模式识别的关键问题之一。对于模式识别系统，一个好的学习样本是训练分类器的关键，样本中是否含有不相关或冗余信息直接影响着分类器的性能。因此研究有效的特征选择方法至关重要。特征选择算法的目的在于选择全体特征的一个较少特征集合，用以对原始数据进行有效表达按照特征关系度量划分，可分为依赖基尼指数、欧氏距离、信息熵。二、特征选择框架由于子集搜索是一个比较费时的步骤，一些学者基于相关和冗余分析，给出了下面一种特征选择框架，避免了子集搜索，可以高效快速地寻找最优子集。从特征选择的基本框架看出，特征选择方法中有4个基本步骤：候选特征子集的生成（搜索策略）、评价准则、停止准则和验证方法。目前对特征选择方法的研究主要集中于搜索策略和评价准则。因而，本文从搜索策略和评价准则两个角度对特征选择方法进行分类。

三、基于搜索策略划分特征选择方法基本的搜索策略按照特征子集的形成过程，形成的特征选择方法如下：图3基于搜索策略划分特征选择方法其中，全局搜索如分支定界法，存在问题： 1）很难确定优化特征子集的数目； 2）满足单调性的可分性判据难以设计； 3）处理高维多类问题时，算法的时间复杂度较高。随机搜索法如模拟退火、遗传算法、禁忌搜索算法等，存在问题： 1）具有较高的不确定性，只有当总循环次数较大时，才可能找到较好的结果。 2）在随机搜索策略中，可能需对一些参数进行设置，参数选择的合适与否对最终结果的好坏起着很大的作用。启发式搜索如SFS、SBS、SFFS、SFBS等，存在问题： 1）虽然效率高，但是它以牺牲全局最优为代价。每种搜索策略都有各自的优缺点，在实际应用过程中，根据具体环境和准则函数来寻找一个最佳的平衡点。例如，特征数较少，可采用全局最优搜索策略；若不要求全局最优，但要求计算速度快，可采用启发式策略；若需要高性能的子集，而不介意计算时间，则可采用随机搜索策略。四、基于评价准则划分特征选择方法

特征选择算法综述及基于某weka的性能比较

数据挖掘中的特征选择算法综述及基于WEKA的性能比较良龙（大学信息科学与工程学院）摘要：自进入21世纪以来，随着信息技术的飞速发展，产生了海量的具有潜在应用价值的数据，将这些数据转换成有用的信息和知识的需求也越来越迫切，因此数据挖掘引起了信息产业界和整个社会的极大关注。特征选择作为一种常见的降维方法，在数据挖掘中起到不可忽视的作用。本文首先介绍了数据挖掘处理对象的趋势，然后概述了特征选择算法，最后通过数据挖掘软件WEKA比较了分别基于Filter和Wrapper方法的特征选择算法的性能。关键词：数据挖掘；特征选择；WEKA；Filter；Wrapper；性能比较 A survey of feature selection algorithm in Data Mining and the performance comparison based on WEKA Abstract: As the mass of data which have potential application and value have been created by the rapid development of information technology since the 21st century, the needs to transferring these data into useful information and knowledge are being more and more urgent, so the Data Mining caused the whole society and the information industry of great concern. Feature selection is critical to Data Mining for that it is a common method to reduce dimensions. The tendency of Data Mining’s

《数据挖掘》试题与答案

一、解答题（满分30分，每小题5分） 1.怎样理解数据挖掘和知识发现的关系？请详细阐述之首先从数据源中抽取感兴趣的数据，并把它组织成适合挖掘的数据组织形式；然后，调用相应的算法生成所需的知识；最后对生成的知识模式进行评估，并把有价值的知识集成到企业的智能系统中。知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程，其最终目标是掌握数据的模式。流程步骤：先理解要应用的领域、熟悉相关知识，接着建立目标数据集，并专注所选择的数据子集；再作数据预处理，剔除错误或不一致的数据；然后进行数据简化与转换工作；再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型；最后经过解释和评价成为有用的信息。 2. 时间序列数据挖掘的方法有哪些，请详细阐述之时间序列数据挖掘的方法有： 1）、确定性时间序列预测方法:对于平稳变化特征的时间序列来说，假设未来行为与现在的行为有关，利用属性现在的值预测将来的值是可行的。例如，要预测下周某种商品的销售额，可以用最近一段时间的实际销售量来建立预测模型。 2）、随机时间序列预测方法:通过建立随机模型，对随机时间序列进行分析，可以预测未来值。若时间序列是平稳的，可以用自回归(Auto Regressive，简称AR)模型、移动回归模型(Moving Average，简称MA)或自回归移动平均(Auto Regressive Moving Average，简称ARMA)模型进行分析预测。 3）、其他方法:可用于时间序列预测的方法很多，其中比较成功的是神经网络。由于大量的时间序列是非平稳的，因此特征参数和数据分布随着时间的推移而变化。假如通过对某段历史数据的训练，通过数学统计模型估计神经网络的各层权重参数初值，就可能建立神经网络预测模型，用于时间序列的预测。

大数据时代下的数据挖掘试题及答案

海量数据挖掘技术及工程实践》题目单选题(共 80 题) ( D )的目的缩小数据的取值范围，使其更适合于数据挖掘算法的需要，并且能够得到和原始数据相同的分析结果。 A.数据清洗 C.数据变换 B.数据集成 D.数据归约某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题 (A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理以下两种描述分别对应哪两种对分类算法的评价标准 (A) (a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务 (C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离 (B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务 (C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则面哪种不属于数据预处理的方法 (D) A.变量代换 B.离散化 1) 2) 3) 4) 5) 6) 7) 8) 9) 10) 11) 12) 13) 14) 15) 16) 17) 18)

C.聚集 D.估计遗漏值假设 12个销售价格记录组已经排序如下： 5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215使用如下每种方法将它们划分成四个箱。等频(等深)划分时， 15 在第几个箱子内 (B) A. 第一个 B.第二个 C.第三个 D.第四个下面哪个不属于数据的属性类型： (D) A. 标称 B.序数 C.区间 D.相异只有非零值才重要的二元属性被称作： ( C ) A. 计数属性 B.离散属性 C.非对称的二元属性 D.对称属性以下哪种方法不属于特征选择的标准方法： (D) A. 嵌入 B.过滤 C.包装 D.抽样下面不属于创建新属性的相关方法的是： (B) A.特征提取 B.特征修改 C.映射数据到新的空间 D.特征构造下面哪个属于映射数据到新的空间的方法 (A) A.傅立叶变换 B.特征加权 C.渐进抽样 D.维归约假设属性 income 的最大最小值分别是 12000 元和 98000 元。利用最大最小规范化的方法将属性的值映射到 0 至 1 的范围内。对属性 income 的 73600元将被转化为： (D) 一所大学内的各年纪人数分别为：一年级 200人，二年级 160 人，三年级 130人，四年级 110 人。则年级属性的众数是： (A) A.一年级 B.二年级 C.三年级 D.四年级 19) 20) 21) 22) 23) 24) 25) 26) 27) 28) 29) 30) 31) 32) 33) 34) 35) 列哪个不是专门用于可视化时间空间数据的技术： (B)

数据挖掘试题(150道)

A, 无序规则 B，穷举规则 C，互斥规则 D，有序规则 58. 如果规则集中的规则按照优先级降序排列，则称规则集是 (D) A, 无序规则 B，穷举规则 C，互斥规则 D，有序规则 59. 如果允许一条记录触发多条分类规则，把每条被触发规则的后件看作是对相应类的一次投票，然后计票确定测试记录的类标号，称为（A） A, 无序规则 B，穷举规则 C，互斥规则 D，有序规则 60. 考虑两队之间的足球比赛：队0和队1。假设65%的比赛队0胜出，剩余的比赛队1获胜。队0获胜的比赛中只有30%是在队1的主场，而队1取胜的比赛中75%是主场获胜。如果下一场比赛在队1的主场进行队1获胜的概率为 (C) A， B, C, D, 61. 以下关于人工神经网络（ANN）的描述错误的有 (A) A，神经网络对训练数据中的噪声非常鲁棒 B，可以处理冗余特征 C，训练ANN是一个很耗时的过程 D，至少含有一个隐藏层的多层神经网络 62. 通过聚集多个分类器的预测来提高分类准确率的技术称为 (A) A,组合(ensemble) B,聚集(aggregate) C，合并(combination) D，投票(voting) 63. 简单地将数据对象集划分成不重叠的子集，使得每个数据对象恰在一个子集中，这种聚类类型称作（ B ） A、层次聚类 B、划分聚类 C、非互斥聚类 D、模糊聚类 64. 在基本K均值算法里，当邻近度函数采用（ A ）的时候，合适的质心是簇中各点的中位数。 A、曼哈顿距离 B、平方欧几里德距离 C、余弦距离 D、Bregman散度 65.（ C ）是一个观测值，它与其他观测值的差别如此之大，以至于怀疑它是由不同的机制产生的。 A、边界点 B、质心 C、离群点 D、核心点 66. BIRCH是一种（ B ）。 A、分类器 B、聚类算法 C、关联分析算法 D、特征选择算法 67. 检测一元正态分布中的离群点，属于异常检测中的基于（ A ）的离群点检测。 A、统计方法 B、邻近度 C、密度 D、聚类技术 68.（ C ）将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度，它是一种凝聚层次聚类技术。 A、MIN（单链） B、MAX（全链） C、组平均 D、Ward方法 69.（ D ）将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量，它是一种凝聚层次聚类技术。 A、MIN（单链） B、MAX（全链） C、组平均 D、Ward方法 70. DBSCAN在最坏情况下的时间复杂度是（ B ）。 A、O(m) B、O(m2) C、O(log m) D、O(m*log m) 71. 在基于图的簇评估度量表里面，如果簇度量为proximity(Ci , C)，簇权值为mi ，那么它的类型是（ C ）。 A、基于图的凝聚度 B、基于原型的凝聚度 C、基于原型的分离度 D、基于图的凝聚度和分离度 72. 关于K均值和DBSCAN的比较，以下说法不正确的是（ A ）。 A、K均值丢弃被它识别为噪声的对象，而DBSCAN一般聚类所有对象。 B、K均值使用簇的基于原型的概念，而DBSCAN使用基于密度的概念。 C、K均值很难处理非球形的簇和不同大小的簇，DBSCAN可以处理不同大小和不同形状的

数据挖掘测试题

1.某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？A A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2.以下两种描述分别对应哪两种对分类算法的评价标准？A (a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision C. Precision, ROC D. Recall, ROC 3.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？C A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 4.当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？B A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 5. 什么是KDD？A A. 数据挖掘与知识发现 B. 领域知识发现 C. 文档知识发现 D. 动态知识发现 6.使用交互式的和可视化的技术，对数据进行探索属于数据挖掘的哪一类任务？A A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7.为数据的总体分布建模；把多维空间划分成组等问题属于数据挖掘的哪一类任务？B A. 探索性数据分析 B. 建模描述 C. 预测建模

D. 寻找模式和规则 8.建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务？C A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 9.用户有一种感兴趣的模式并且希望在数据集中找到相似的模式，属于数据挖掘哪一类任务？ A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 10.下面哪种不属于数据预处理的方法？D A变量代换 B离散化 C聚集 D估计遗漏值 11.假设12个销售价格记录组已经排序如下：5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频（等深）划分时，15在第几个箱子内？B A 第一个 B 第二个 C 第三个 D 第四个 12.上题中，等宽划分时（宽度为50），15又在哪个箱子里？A A 第一个 B 第二个 C 第三个 D 第四个 13.下面哪个不属于数据的属性类型：D A 标称 B 序数 C 区间 D相异 14. 在上题中，属于定量的属性类型是：C A 标称 B 序数

数据挖掘习题题

数据挖掘复习题单选题 1. 某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2. 以下两种描述分别对应哪两种对分类算法的评价标准？(A) (a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision A. Precision, ROC D. Recall, ROC 3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 4. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 5. 什么是KDD？(A) A. 数据挖掘与知识发现 B. 领域知识发现 C. 文档知识发现 D. 动态知识发现 6. 使用交互式的和可视化的技术，对数据进行探索属于数据挖掘的哪一类任务？（A） A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7. 为数据的总体分布建模；把多维空间划分成组等问题属于数据挖掘的哪一类任务？(B) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 8. 建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务？(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式，属于数据挖掘哪一类任务？(A) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 11.下面哪种不属于数据预处理的方法？(D) A变量代换B离散化 C 聚集 D 估计遗漏值 12. 假设12个销售价格记录组已经排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使

数据挖掘试题 (2)

一、单选题 1. 某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2. 以下两种描述分别对应哪两种对分类算法的评价标准？ (A) (a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision A. Precision, ROC D. Recall, ROC 3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 4. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 5. 什么是KDD？ (A) A. 数据挖掘与知识发现 B. 领域知识发现 C. 文档知识发现 D. 动态知识发现 6. 使用交互式的和可视化的技术，对数据进行探索属于数据挖掘的哪一类任务？（A） A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7. 为数据的总体分布建模；把多维空间划分成组等问题属于数据挖掘的哪一类任务？(B) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 8. 建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务？(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式，属于数据挖掘哪一类任务？(A) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 10. 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。(B) 计算数据的近似中位数值 A 15~20 B 20~50 C 50~80 D 80~110 11.下面哪种不属于数据预处理的方法？ (D) A变量代换 B离散化 C 聚集 D 估计遗漏值 12. 假设12个销售价格记录组已经排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频（等深）划分时，15在第几个箱子内？ (B) A 第一个 B 第二个 C 第三个 D 第四个 13.上题中，等宽划分时（宽度为50），15又在哪个箱子里？ (A) A 第一个 B 第二个 C 第三个 D 第四个 14.下面哪个不属于数据的属性类型：(D) A 标称 B 序数 C 区间 D相异 15. 在上题中，属于定量的属性类型是：(C) A 标称 B 序数 C区间 D 相异 16. 只有非零值才重要的二元属性被称作：( C ) A 计数属性 B 离散属性 C非对称的二元属性 D 对称属性 17. 以下哪种方法不属于特征选择的标准方法： (D)

基于数据挖掘和特征选择的入侵检测模型.

28卷第 8期 2011年 8月微电子学与计算机 MICROELECTRONICS &COM PU TER V ol. 28 N o. 8A ug ust 2011 收稿日期 :2011-05-15; 修回日期 :2011-06-23 基于数据挖掘和特征选择的入侵检测模型康世瑜 (广西工业职业技术学院 , 广西南宁 530003 摘要 :提出了一种基于 SV M 特征选择和 C4. 5数据挖掘算法的高效入侵检测模型 . 通过使用该模型对经过特征提取后的攻击数据的训练学习 , 可以有效地识别各种入侵 , 并提高检测速度 . 在经典的 K DD 1999入侵检测数据集上的测试说明 :该数据挖掘模型能够高效地对攻击模式进行训练学习 , 能够采用选择的特征正确有效地检测网络攻击 . 关键词 :入侵检测 ; 特征选择 ; C4. 5算法 ; 支持向量机中图分类号 :T P309 文献标识码 :A 文章编号 :1000-7180(2011 08-0074-03 A Network Intrusion Detection Model Based on Data Ming and Feature Selection Schemes KA NG Shi yu (G uang xi Vo cational &T echnical Institute of Industr y, Nanning 530003, China Abstract:T his paper pr oposes a kind of intrusion detectio n model based on C4. 5data mining alg or ithm and SV M (cor relation based feature selectio n based feature