数据挖掘考试题库
数据挖掘考试题库

数据挖掘考试题库⼀、填空题1.Web挖掘可分为、和3⼤类。
2.数据仓库需要统⼀数据源,包括统⼀、统⼀、统⼀和统⼀数据特征4个⽅⾯。
3.数据分割通常按时间、、、以及组合⽅法进⾏。
4.噪声数据处理的⽅法主要有、和。
5.数值归约的常⽤⽅法有、、、和对数模型等。
6.评价关联规则的2个主要指标是和。
7.多维数据集通常采⽤或雪花型架构,以表为中⼼,连接多个表。
8.决策树是⽤作为结点,⽤作为分⽀的树结构。
9.关联可分为简单关联、和。
10.B P神经⽹络的作⽤函数通常为区间的。
11.数据挖掘的过程主要包括确定业务对象、、、及知识同化等⼏个步骤。
12.数据挖掘技术主要涉及、和3个技术领域。
13.数据挖掘的主要功能包括、、、、趋势分析、孤⽴点分析和偏差分析7个⽅⾯。
14.⼈⼯神经⽹络具有和等特点,其结构模型包括、和⾃组织⽹络3种。
15.数据仓库数据的4个基本特征是、、⾮易失、随时间变化。
16.数据仓库的数据通常划分为、、和等⼏个级别。
17.数据预处理的主要容(⽅法)包括、、和数据归约等。
18.平滑分箱数据的⽅法主要有、和。
19.数据挖掘发现知识的类型主要有⼴义知识、、、和偏差型知识五种。
20.O LAP的数据组织⽅式主要有和两种。
21.常见的OLAP多维数据分析包括、、和旋转等操作。
22.传统的决策⽀持系统是以和驱动,⽽新决策⽀持系统则是以、建⽴在和技术之上。
23.O LAP的数据组织⽅式主要有和2种。
24.S QL Server2000的OLAP组件叫,OLAP操作窗⼝叫。
25.B P神经⽹络由、以及⼀或多个结点组成。
26.遗传算法包括、、3个基本算⼦。
27.聚类分析的数据通常可分为区间标度变量、、、、序数型以及混合类型等。
28.聚类分析中最常⽤的距离计算公式有、、等。
29.基于划分的聚类算法有和。
30.C lementine的⼯作流通常由、和等节点连接⽽成。
31.简单地说,数据挖掘就是从中挖掘的过程。
32.数据挖掘相关的名称还有、、等。
数据挖掘-题库带答案

数据挖掘-题库带答案1、最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡()答案:正确2、决策将日益基于数据和分析而作出,而并非基于经验和直觉()答案:错误解析:决策将日益基于数据和分析而作出,而并非基于经验和直觉3、2011年被许多国外媒体和专家称为“大数据元年”()答案:错误解析:2013年被许多国外媒体和专家称为“大数据元年”4、我国网民数量居世界之首,每天产生的数据量也位于世界前列()答案:正确5、商务智能的联机分析处理工具依赖于数据库和数据挖掘。
()答案:错误解析:商务智能的联机分析处理工具依赖于数据仓库和多维数据挖掘。
6、数据整合、处理、校验在目前已经统称为 EL()答案:错误解析:数据整合、处理、校验在目前已经统称为 ETL7、大数据时代的主要特征()A、数据量大B、类型繁多C、价值密度低D、速度快时效高答案: ABCD8、下列哪项不是大数据时代的热门技术()A、数据整合B、数据预处理C、数据可视化D、 SQL答案: D9、()是一种统计或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。
A、预测B、分析C、预测分析D、分析预测答案: C10、大数据发展的前提?答案:解析:硬件成本的降低,网络带宽的提升,云计算的兴起,网络技术的发展,智能终端的普及,电子商务、社交网络、电子地图等的全面应用,物联网的兴起11、调研、分析大数据发展的现状与应用领域。
?答案:解析:略12、大数据时代的主要特征?答案:解析:数据量大(Volume)第一个特征是数据量大。
大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。
类型繁多(Variety)第二个特征是数据类型繁多。
包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。
价值密度低(Value)第三个特征是数据价值密度相对较低。
如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。
数据挖掘计算题考试题库

数据挖掘计算题考试题库1. 数据挖掘中的“分类”任务是用来做什么的?A. 识别数据集中的异常值B. 将数据集分成不同的类别C. 预测数值型数据D. 找出数据集中的相关性答案: B2. 下面哪种算法不是分类算法?A. 决策树B. K-均值聚类C. 随机森林D. 支持向量机(SVM)答案: B3. 在数据挖掘过程中,“数据清洗”指的是什么?A. 删除重复的记录B. 提取关键特征C. 创建可视化D. 选择重要的数据子集答案: A4. 下面哪个是关联规则学习中的一个常见算法?A. AprioriB. AdaBoostC. 梯度提升机D. 主成分分析甮案: A5. 在数据挖掘中,“过拟合”指的是什么?A. 模型在新数据上的表现很差B. 模型没有捕捉到数据的关键特征C. 模型在训练集上的表现过于完美D. 模型参数过于简单答案: C6. “集成学习”在数据挖掘中指的是什么?A. 使用一个单一的模型进行预测B. 结合多个模型的预测以提高性能C. 对数据进行分层抽样D. 应用一个算法在不同的数据集上答案: B7. 哪个度量标准经常用来评估分类器的性能?A. 均方误差(MSE)B. 精确率和召回率C. 相关系数D. K-均值答案: B8. 下面哪个不是数据预处理的一部分?A. 归一化B. 主成分分析(PCA)C. 数据编码D. 计算数据均值答案: D9. 下面哪个算法适合于处理大量未标记数据?A. 监督学习B. 半监督学习C. 无监督学习D. 强化学习答案: C10. 下面哪个不是异常检测的算法?A. Local Outlier Factor (LOF)B. One-Class SVMC. Isolation ForestD. Linear Regression答案: D11. 在数据挖掘中,“特征选择”是为了什么?A. 减少数据的维度B. 增加更多的数据特征C. 创建数据的可视化D. 计算数据的主成分答案: A12. 下面哪个是决策树算法的一种?A. C4.5B. K-最近邻(K-NN)C. 随机森林D. 线性判别分析(LDA)答案: A13. 在聚类问题中,"轮廓系数"是用来做什么的?A. 评估聚类的紧密度和分离度B. 计算每个点到其最近的聚类中心的距离C. 确定最佳的聚类数D. 预测新数据点的类别答案: A14. 下面哪个技术用于减少过拟合?A. 正则化B. 增加更多的特征C. 使用更复杂的模型D. 删除数据集中的一些样本答案: A15. 支持向量机(SVM)的主要目的是什么?A. 最大化分类器的边界B. 最小化预测误差C. 找到数据的最佳表示D. 减少计算成本答案: A16. 数据挖掘中的“回归分析”用于什么?A. 预测数值型的目标变量B. 分类数据C. 数据的可视化D. 数据的归一化处理答案: A17. 下面哪个算法是基于概率的分类算法?A. 决策树B. 朴素贝叶斯C. 支持向量机(SVM)D. K-最近邻(K-NN)答案: B18. “梯度提升机”(Gradient Boosting Machine)主要用于什么?A. 数据预处理B. 特征选择C. 优化模型性能D. 聚类分析答案: C19. 在K-最近邻(K-NN)算法中,K代表什么?A. 选择的特征数B. 数据点将考虑的最近邻居的数量C. 聚类的数量D. 数据维度的数量答案: B20. 下面哪个不是数据挖掘任务?A. 预测B. 聚类C. 分类D. 数据录入答案: D21. 数据挖掘中的“提升”技术是用来做什么的?A. 减少模型的计算复杂度B. 减小数据集的规模C. 增强模型的预测能力D. 清洗数据集答案: C22. 下面哪个算法通常用于文本数据的分类?A. 朴素贝叶斯B. 线性回归C. K-均值聚类D. 随机森林答案: A23. 时间序列分析在数据挖掘中用于什么?A. 识别数据中的异常点B. 预测未来的数据点C. 分类数据点D. 查找数据集的子集答案: B24. 下面哪个方法不适用于缺失数据的处理?A. 使用均值填充缺失值B. 删除包含缺失值的记录C. 使用模型预测缺失值D. 增加更多的数据特征答案: D25. “维度的诅咒”指的是什么?A. 数据越多越好B. 数据维度增加导致分析变得更加困难C. 低维度数据不足以解释现象D. 高维度数据易于可视化答案: B26. 在数据挖掘中,下面哪个是一个常见的数据变换方法?A. 数据归一化B. 数据扩充C. 数据删除D. 数据复制答案: A27. 什么是数据挖掘中的“支持”?A. 一个数据集的所有数据点B. 关联规则中项集出现的频率C. 分类算法的准确率D. 聚类质量的度量答案: B28. 决策树中的“节点”代表什么?A. 数据特征的一个可能值B. 一个分类规则C. 数据集的一个子集D. 一个概率分布答案: B29. “随机森林”算法中的“森林”是由什么组成的?A. 决策树B. 数据集C. 神经网络D. 聚类答案: A30. 在数据挖掘中,“基于实例的学习”通常指什么?A. 构建一般化模型B. 用大量的数据实例来做决策C. 用少量的代表性实例来做决策D. 仅使用单个实例进行训练答案: C31. 在数据挖掘中,什么是“过度拟合”?A. 模型不能适应新数据B. 模型在训练数据上表现不佳C. 模型对训练数据的噪声也进行了学习D. 模型过于简化,丢失了重要信息答案: C32. 下面哪个是数据挖掘中的一种特征提取方法?A. 主成分分析(PCA)B. 决策树分析C. 线性回归D. 逻辑回归答案: A33. “聚类”在数据挖掘中的目的是什么?A. 找出数据集中的异常值B. 预测数据点的值C. 将数据集分组成相似的子集D. 减少数据维度答案: C34. 数据挖掘中,“神经网络”主要用于什么?A. 数据预处理B. 特征选择C. 复杂模式识别和预测建模D. 数据压缩答案: C35. “深度学习”在数据挖掘中通常用来处理哪些问题?A. 只有小规模数据集的问题B. 高维度和复杂结构的数据问题C. 简单线性问题D. 无需特征工程的问题答案: B36. 关联规则分析中的“置信度”是指什么?A. 规则中的项集出现的频繁程度B. 一条规则被证实为真的次数C. 给定前件时后件出现的条件概率D. 数据集中项集的独立概率答案: C37. 数据挖掘中的“决策树”算法主要用于解决哪类问题?A. 聚类B. 分类和回归C. 关联规则学习D. 数据预处理答案: B38. “模型评估”在数据挖掘中的目的是什么?A. 选择最好的数据预处理方法B. 确定最合适的特征集C. 选择合适的算法D. 评价模型的预测性能答案: D39. 下面哪个是数据挖掘中的一种无监督学习方法?A. 逻辑回归B. 线性判别分析C. 聚类D. 决策树答案: C40. “文本挖掘”通常用于处理什么类型的数据?A. 数值型数据B. 类别数据C. 文本数据D. 时间序列数据答案: C41. 数据挖掘中的“关联分析”用于发现什么之间的关系?A. 数据特征和预测变量之间B. 不同数据库之间C. 数据项之间的频繁模式、关联或相关性D. 模型和算法之间答案: C42. 在数据挖掘中,哪种方法通常用于异常值检测?A. 分类B. 聚类C. 关联规则学习D. 神经网络答案: B43. 数据挖掘中的“Apriori”算法用于解决哪一类问题?A. 分类B. 聚类C. 关联规则挖掘D. 回归分析答案: C44. “数据归约”在数据挖掘中指的是什么?A. 减少数据集的大小,同时尽量保持数据的完整性B. 通过算法提高数据的质量C. 删除数据集中的重复项D. 对数据进行加密保护答案: A45. 在数据挖掘中,什么是“多层感知器”?A. 一种基于规则的分类方法B. 一种数据预处理技术C. 一种基于神经网络的学习算法D. 一种数据可视化工具答案: C46. 下面哪种技术不是用来处理不平衡数据集的?A. 过采样少数类B. 欠采样多数类C. 生成合成样本D. 使用回归分析答案: D47. 在数据挖掘中,“bagging”是用来做什么的?A. 减少模型的偏差B. 增加模型的方差C. 减少模型的方差D. 增加模型的偏差答案: C48. 下面哪个算法适合于大规模数据集?A. 支持向量机B. 朴素贝叶斯C. 线性回归D. K-最近邻答案: B49. “分层聚类”和“K-均值聚类”有什么不同?A. 分层聚类需要预先指定聚类数目B. K-均值聚类是一种分层聚类方法C. 分层聚类不需要预先指定聚类数目D. K-均值聚类可以处理任何形状的数据集答案: C50. 在数据挖掘中,下面哪个是评估聚类质量的指标?A. 准确率B. 召回率C. 轮廓系数D. 均方误差答案: C51. “逻辑回归”通常用于解决哪类数据挖掘问题?A. 聚类B. 分类C. 回归D. 关联规则学习答案: B52. 数据挖掘中的“时间序列分析”通常用于分析什么类型的数据?A. 空间数据B. 文本数据C. 时间相关的数据D. 图像数据答案: C53. 数据挖掘中的“特征工程”包括哪些任务?A. 特征选择、特征提取、特征构造B. 模型选择、模型评估、模型部署C. 数据清洗、数据集成、数据转换D. 模型训练、模型测试、模型优化答案: A54. “随机森林”是什么类型的数据挖掘算法?A. 聚类算法B. 分类和回归算法C. 关联规则挖掘算法D. 异常检测算法答案: B55. 数据挖掘中的“神经网络”可以用于处理哪些问题?A. 仅分类B. 仅回归C. 分类和回归D. 仅聚类答案: C56. 下面哪个不是数据挖掘中的关键挑战?A. 数据质量B. 数据量的大小C. 数据的可视化D. 选择打印机答案: D57. 数据挖掘中的“假设检验”用于什么?A. 验证模型的预测准确性B. 确定数据样本中观察到的模式是否具有统计意义C. 预测未来的数据趋势D. 检测数据集中的异常值答案: B58. 在数据挖掘中,“K-均值聚类”算法的主要缺点是什么?A. 无法处理非线性数据B. 需要预先确定聚类的数量C. 无法处理大规模数据集D. 只能用于二维数据答案: B59. 下面哪个术语描述了一个数据挖掘算法在未见过的数据上的泛化能力?A. 过拟合B. 训练误差C. 模型容量D. 泛化误差答案: D60. 数据挖掘中的“集成方法”通常包括哪些类型?A. Bagging、Boosting和StackingB. 分类、回归和聚类C. 关联、序列模式和预测D. 决策树、神经网络和支持向量机答案: A61. 下面哪个不是在数据挖掘中常用的数据变换技术?A. 平滑B. 聚合C. 泛化D. 分类答案: D62. 在数据挖掘中,如果一个数据集很“稀疏”,这意味着什么?A. 数据集中有很多缺失值B. 数据集非常小C. 数据集分布非常广泛D. 数据点非常接近答案: A63. 数据挖掘中的“朴素贝叶斯”分类器是基于什么原理?A. 支持向量机B. 贝叶斯定理C. 决策树D. 神经网络答案: B64. 下面哪个参数在决策树算法中非常关键?A. 学习率B. 聚类数量C. 树的深度D. 特征数量答案: C65. 数据挖掘中的“支持向量机”算法主要解决什么类型的问题?A. 聚类B. 分类和回归C. 时间序列分析D. 数据预处理答案: B66. 数据挖掘中的“模型选择”是基于什么原则?A. 模型的复杂度B. 训练时间的长短C. 预测的准确性D. 所有上述因素答案: D67. 在数据挖掘中,什么是“抽样”?A. 从一个大的数据集中选出一个代表性的子集B. 收集新的数据点C. 数据的分类D. 数据的排序答案: A68. 数据挖掘中的“关联规则”用于发现数据中的哪种模式?A. 预测模式B. 时间序列模式C. 频繁项集和它们之间的关联D. 回归线答案: C69. 下面哪个是度量分类模型性能的方法?A. 均方误差B. 准确率C. 轮廓系数D. 平均绝对误差答案: B70. 数据挖掘中的“深度学习”通常需要什么?A. 小量的标记数据B. 强大的计算资源C. 一维数据D. 无监督的学习方法答案: B71. 数据挖掘中的“过拟合”通常如何解决?A. 增加更多的数据B. 简化模型C. 增加模型的复杂度D. A和B都是答案: D72. 数据挖掘中的“主成分分析”(PCA)主要用于什么?A. 数据分类B. 降维C. 数据预测D. 数据清洗答案: B73. 在数据挖掘中,哪种算法适合处理文本挖掘?A. K-均值聚类B. 随机森林C. 支持向量机D. 朴素贝叶斯答案: D74. 数据挖掘中的“决策树”通常在哪个阶段剪枝?A. 在构建树的过程中B. 构建树之后C. 选择模型之前D. 在数据预处理阶段答案: B75. 下面哪个不是评价回归模型的指标?A. 均方误差(MSE)B. 决定系数(R²)C. 准确率D. 平均绝对误差(MAE)答案: C76. 在数据挖掘中,什么是“集成学习”?A. 单个模型的学习过程B. 一个学习算法的集合C. 多个模型的组合,用于提高预测性能D. 数据集的集合答案: C77. 数据挖掘中的“神经网络”中的“隐藏层”有什么作用?A. 直接处理输入数据B. 对输入数据进行分类C. 提取输入数据的特征D. 输出预测结果答案: C78. 下面哪个算法是基于树的模型?A. 逻辑回归B. 支持向量机C. 随机森林D. 主成分分析答案: C79. 数据挖掘中的“无监督学习”与“监督学习”有什么不同?A. 无监督学习不需要任何数据B. 监督学习不使用数据标签C. 无监督学习不使用数据标签D. 监督学习用于聚类分析答案: C80. 数据挖掘中,下面哪个方法适合于特征选择?A. 递归特征消除B. K-均值聚类C. 主成分分析D. 线性回归答案: A81. 数据挖掘中的“特征缩放”主要用于什么目的?A. 转换特征到相同的尺度B. 增加数据集的特征数量C. 减少每个特征的值域D. 创建新的特征组合答案: A82. 下面哪个方法通常用于减少一个模型的方差?A. 增加更多特征B. 增加数据点C. 减少模型复杂度D. 进行特征选择答案: B83. 在数据挖掘中,哪种算法可以处理非线性问题?A. 线性回归B. 朴素贝叶斯C. 决策树D. 主成分分析答案: C84. 数据挖掘中的“异常检测”主要用于发现什么?A. 频繁项集B. 数据集中的主要趋势C. 数据中的奇异点D. 数据集中的相关性答案: C85. 在数据挖掘中,“相似性度量”用于什么?A. 比较不同模型的性能B. 确定数据点之间的相似度C. 测量数据集的大小D. 评价算法的运行时间答案: B86. 数据挖掘中的“集群分析”是用来做什么的?A. 预测数据点的类别B. 将数据点分为不同的组C. 分析数据中的基本模式D. 评估分类模型的性能答案: B87. 下面哪个是数据挖掘中的一种预测建模技术?A. K-均值聚类B. Apriori算法C. 线性回归D. 主成分分析答案: C88. 数据挖掘中的“分类器的集成”指的是什么?A. 一个分类器的集合B. 多个分类器的组合用于提高整体性能C. 使用单个分类器进行多次训练D. 集成不同类型的数据挖掘算法答案: B89. 数据挖掘中的“数据压缩”有什么作用?A. 减少数据的存储空间B. 加快算法的运行速度C. 提高数据的质量D. A和B都是答案: D90. 在数据挖掘中,什么是“数据立方体”?A. 数据仓库中的一个三维数据模型B. 一个可视化工具C. 数据挖掘算法的一种D. 用于数据预处理的技术答案: A91. “梯度下降”在数据挖掘中用于什么?A. 数据分类B. 寻找最优的模型参数C. 数据的聚类D. 关联规则的挖掘答案: B92. 在数据挖掘中,“半监督学习”是什么?A. 使用未标记数据进行学习B. 使用一小部分标记数据和大量未标记数据进行学习C. 不使用任何标记数据进行学习D. 仅使用标记数据进行学习答案: B93. 下面哪个是数据挖掘中的一种分类算法?A. 主成分分析B. 决策树C. K-均值聚类D. 均方误差答案: B94. 数据挖掘中的“数据集成”有什么目的?A. 将来自不同源的数据合并在一起B. 分离数据集C. 创建数据的备份D. 增加数据的维度答案: A95. 数据挖掘中的“数据规约”技术包括哪些?A. 数据归一化和标准化B. 数据清洗和数据集成C. 数据压缩和特征提取D. 数据转换和数据平滑答案: C96. 下面哪个概念与“数据挖掘”最不相关?A. 数据可视化B. 大数据C. 数据加密D. 机器学习答案: C97. 数据挖掘中的“数据变换”可能包括哪些操作?A. 平滑、聚合、泛化B. 分类、回归、聚类C. 训练、测试、验证D. 编码、解码、压缩答案: A98. 数据挖掘中的“预处理”是为了什么?A. 提高算法的准确性B. 减少计算时间C. 提高数据的质量D. 所有上述答案: D99. 下面哪个不是数据挖掘中的挑战?A. 数据的多样性B. 数据的质量C. 数据的存储D. 数据的颜色答案: D100. 数据挖掘中的“模型部署”指的是什么?A. 选择合适的模型B. 构建数据挖掘模型C. 在实际环境中实施数据挖掘模型D. 评估数据挖掘模型答案: C101. 在数据挖掘中,“标准化”和“归一化”有什么区别?A. 标准化是缩放到0和1之间,归一化是缩放到特定的平均和标准差B. 标准化是缩放到特定的平均和标准差,归一化是缩放到0和1之间C. 标准化和归一化是同一个概念D. 标准化是数据清洗过程,归一化是数据转换过程答案: B102. 数据挖掘中的“偏差-方差权衡”是什么意思?A. 增加模型的偏差会减少方差B. 减少模型的偏差会增加方差C. 增加模型的方差会减少偏差D. 增加偏差和方差可以提高模型的准确率答案: A103. 下面哪个是时间序列数据挖掘中的一个关键任务?A. 分类B. 聚类C. 预测D. 关联规则挖掘答案: C104. 数据挖掘中的“聚类分析”和“分类”有什么不同?A. 聚类是监督学习,分类是无监督学习B. 聚类和分类都是监督学习C. 聚类是无监督学习,分类是监督学习D. 聚类和分类都是无监督学习答案: C105. 在数据挖掘中,“多维缩放”主要用于什么?A. 降维B. 特征提取C. 数据可视化D. 数据清洗答案: C106. 数据挖掘中的“熵”通常与哪个概念相关?A. 关联规则的强度B. 聚类的紧密度C. 决策树的信息增益D. 回归分析的系数答案: C107. 下面哪个不是构建数据挖掘模型时考虑的因素?A. 数据的质量B. 数据的数量C. 模型的颜色D. 算法的选择答案: C108. 数据挖掘中的“序列模式挖掘”主要用于发现什么?A. 数据中的异常值B. 时间序列数据中的重复模式C. 数据集中的分类标签D. 数据属性之间的相关性答案: B109. 下面哪个技术是处理缺失数据的有效方法?A. 数据删除B. 数据插补C. 数据变换D. A和B都是答案: D110. 数据挖掘中的“关联规则挖掘”用于解决哪类问题?A. 预测问题B. 分类问题C. 聚类问题D. 市场篮子分析答案: D111. 在数据挖掘中,“深度学习”主要用于处理哪种类型的数据?A. 小规模数据集B. 结构化数据集C. 非结构化或半结构化数据集D. 一维数据答案: C112. 下面哪个是度量聚类质量的指标?A. 支持度B. 置信度C. Davies-Bouldin指数D. 平均绝对误差答案: C113. 数据挖掘中的“决策树”用于哪些类型的数据?A. 仅数值型数据B. 仅分类数据C. 数值型和分类数据D. 时间序列数据答案: C114. 数据挖掘中的“神经网络”与“深度学习”有什么关系?A. 完全不相关B. 深度学习是神经网络的一个子集C. 神经网络是深度学习的一个子集D. 完全相同答案: C115. 在数据挖掘中,“梯度提升”算法主要用于什么?A. 数据预处理B. 特征选择C. 预测建模D. 数据可视化答案: C116. 下面哪个算法适用于大规模数据集的分类问题?A. 随机森林B. 支持向量机C. 神经网络D. 逻辑回归答案: A117. 数据挖掘中的“协同过滤”是用于推荐系统的哪个部分?A. 用户界面设计B. 数据存储C. 预测用户偏好D. 数据清洗答案: C118. 在数据挖掘中,什么是“文本挖掘”?A. 从文本数据中提取有用信息的过程B. 创建新文本数据C. 对文本数据进行归类D. 提高文本数据的质量答案: A119. 下面哪个是衡量数据挖掘模型泛化能力的方法?A. 交叉验证B. 决策树C. 特征选择D. 神经网络答案: A120. 数据挖掘中的“支持向量机”主要用于解决什么类型的问题?A. 数据可视化B. 数据预处理C. 分类和回归问题D. 聚类问题答案: C121. 在数据挖掘中,“项集”的概念最常用于哪种分析?A. 聚类分析B. 分类分析C. 关联规则分析D. 回归分析答案: C122. 数据挖掘中的“过采样”和“欠采样”技术用于处理什么问题?A. 缺失数据B. 高维数据C. 不平衡数据集D. 大规模数据集答案: C123. 在数据挖掘中,一条“规则”的“提升度”(lift)指的是什么?A. 规则的支持度与预期支持度的比值B. 规则的支持度与置信度的比值C. 规则的置信度与预期置信度的比值D. 规则的准确率答案: C124. 数据挖掘中的“属性选择”是什么意思?A. 从数据集中选取有用的属性进行分析B. 修改属性的类型C. 删除数据集中的某些属性D. 重命名属性答案: A125. 下面哪个算法是一种基于树的回归方法?A. 线性回归B. 逻辑回归C. 随机森林D. 支持向量机答案: C126. 在数据挖掘中,“模型过度复杂”可能导致什么问题?A. 欠拟合B. 过拟合C. 更快的训练时间D. 更好的用户体验答案: B127. 数据挖掘中的“自编码器”通常用于哪种任务?A. 分类B. 回归C. 数据降维D. 数据增强答案: C128. 在数据挖掘中,“分箱”技术用于什么?A. 数据分类B. 数据聚类C. 将连续变量转换为离散变量D. 预测模型的输出答案: C129. 数据挖掘中的“交叉售卖”是基于哪种分析?A. 聚类分析B. 分类分析C. 关联规则分析D. 时间序列分析答案: C130. 下面哪个是度量模型性能的时间复杂度的方法?A. AUC-ROC曲线B. 计算模型训练时间C. 均方误差D. 准确率答案: B131. 数据挖掘中的“Gini指数”用于评估什么?A. 回归模型的性能B. 关联规则的强度C. 决策树分裂的纯度D. 聚类的质量答案: C132. 在数据挖掘中,什么是“集合外估计”?A. 使用测试集以外的数据评估模型的方法B. 估计模型的准确率C. 使用模型预测集合中没有的数据D. 在数据集之外收集新数据答案: A133. 数据挖掘中的“学习曲线”展示了什么?A. 不同算法的性能比较B. 训练集大小对模型性能的影响C. 特征数量对模型性能的影响D. 不同参数设置对模型性能的影响答案: B134. 下面哪个是数据挖掘中的非线性模型?A. 线性回归B. 朴素贝叶斯C. 决策树D. 线性判别分析答案: C135. 在数据挖掘中,什么是“验证数据集”?A. 用来训练模型的数据集B. 用来测试模型的数据集C. 在模型训练过程中用来调整模型参数的数据集D. 用于最终评估模型性能的数据集答案: C136. 数据挖掘中的“层次聚类”有哪些类型?A. 顺序聚类和并行聚类B. 聚合聚类和分裂聚类C. K-均值聚类和谱聚类D. 监督聚类和无监督聚类答案: B137. 数据挖掘中的“ROC曲线”用于评估哪种类型的模型?A. 聚类模型B. 分类模型C. 回归模型D. 关联规则模型答案: B138. 下面哪个是评估数据挖掘模型“泛化能力”的好方法?A. 增加模型的复杂度B. 减少训练集的大小C. 使用多个测试集D. 使用交叉验证答案: D139. 在数据挖掘中,“强化学习”通常用于解决什么类型的问题?A. 数据分类B. 数据预处理C. 决策过程中的序列化问题D. 数据集成答案: C140. 数据挖掘中的“特征哈希”是用于什么?A. 减少数据的维度B. 加密数据C. 增强数据的特征D. 创建数据的哈希表答案: A141. 数据挖掘中的“时间序列分析”主要用于分析哪种类型的数据?A. 文本数据B. 图像数据C. 音频数据D. 有时间戳的数据答案: D142. 在数据挖掘中,“正则化”用于解决什么问题?A. 缺失数据B. 不平衡数据集C. 过拟合D. 高维数据答案: C143. 下面哪个是数据挖掘中的一种用于减少特征数量的技术?A. 特征增强B. 特征提取C. 特征识别D. 特征映射答案: B144. 数据挖掘中的“聚类”方法通常用于什么?A. 为每个数据点分配一个类别标签B. 预测数值型的目标变量C. 发现数据中的自然分组D. 找出数据中的异常点答案: C145. 数据挖掘中“多元线性回归”主要用于解决什么类型的问题?A. 分类B. 聚类C. 回归D. 关联规则发现答案: C146. 下面哪个是数据挖掘中用于分类任务的算法?A. 主成分分析(PCA)B. K-均值聚类C. 决策树D. 相关系数分析答案: C147. 数据挖掘中的“模型融合”是什么意思?A. 使用不同类型的模型处理不同的数据集B. 将多个模型的预测结果结合起来以改善性能C. 在同一个数据集上训练多个模型D. 合并两个不同的数据集答案: B148. 下面哪个是用于在数据挖掘中评估聚类算法性能的指标?A. 准确率B. 召回率C. Jaccard指数D. F1分数答案: C149. 数据挖掘中的“AdaBoost”算法主要用于什么?A. 数据降维B. 异常检测C. 分类和回归任务D. 关联规则挖掘答案: C150. 在数据挖掘中,“文本预处理”可能包括哪些步骤?A. 词干提取B. 停用词去除C. 词袋模型创建D. 所有上述答案: D151. 数据挖掘中的“特征选择”和“特征提取”有什么区别?A. 特征选择是选择重要的特征,特征提取是创建新的特征B. 特征选择是创建新的特征,特征提取是选择重要的特征C. 它们是同一个概念的不同名称D. 它们都用于降低模型的复杂度答案: A152. 数据挖掘中的“决策边界”是用于哪种类型的任务?A. 聚类。
(完整版)数据挖掘考试题库

1.何谓数据挖掘?它有哪些方面的功能?从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。
相关的名称有知识发现、数据分析、数据融合、决策支持等。
数据挖掘的功能包括:概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等。
2.何谓粒度?它对数据仓库有什么影响?按粒度组织数据的方式有哪些?粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别。
粒度影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答查询问题的细节程度。
按粒度组织数据的方式主要有:①简单堆积结构②轮转综合结构③简单直接结构④连续结构3.简述数据仓库设计的三级模型及其基本内容。
概念模型设计是在较高的抽象层次上的设计,其主要内容包括:界定系统边界和确定主要的主题域。
逻辑模型设计的主要内容包括:分析主题域、确定粒度层次划分、确定数据分割策略、定义关系模式、定义记录系统。
物理数据模型设计的主要内容包括:确定数据存储结构、确定数据存放位置、确定存储分配以及确定索引策略等。
在物理数据模型设计时主要考虑的因素有: I/O存取时间、空间利用率和维护代价等。
提高性能的主要措施有划分粒度、数据分割、合并表、建立数据序列、引入冗余、生成导出数据、建立广义索引等。
4.在数据挖掘之前为什么要对原始数据进行预处理?原始业务数据来自多个数据库或数据仓库,它们的结构和规则可能是不同的,这将导致原始数据非常的杂乱、不可用,即使在同一个数据库中,也可能存在重复的和不完整的数据信息,为了使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的结果,必须进行数据的预处理。
为数据挖掘算法提供完整、干净、准确、有针对性的数据,减少算法的计算量,提高挖掘效率和准确程度。
5.简述数据预处理方法和内容。
①数据清洗:包括填充空缺值,识别孤立点,去掉噪声和无关数据。
②数据集成:将多个数据源中的数据结合起来存放在一个一致的数据存储中。
数据挖掘试题(150道)

.法是一种在已知后验概率与类条件概率地情况下地模式分类方法,待分样本地分类结果取决于各类域中样本地全体. (错)
.分类模型地误差大致分为两种:训练误差()和泛化误差(). (对)
.在决策树中,随着树中结点数变得太大,即使模型地训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足地问题.(错)
.是这样一个分类器,他寻找具有最小边缘地超平面,因此它也经常被称为最小边缘分类器()(错)
.在聚类分析当中,簇内地相似性越大,簇间地差别越大,聚类地效果就越差.(错)
.聚类分析可以看作是一种非监督地分类.(对)
.均值是一种产生划分聚类地基于密度地聚类算法,簇地个数由算法自动地确定.(错
.给定由两次运行均值产生地两个不同地簇集,误差地平方和最大地那个应该被视为较优.(错)
.选择一个算法过程使评分函数最优
.决定用什么样地数据管理原则以高效地实现算法.
.数据挖掘地预测建模任务主要包括哪几大类问题?( )
.分类.回归.模式发现.模式匹配
.数据挖掘算法地组件包括:( )
.模型或模型结构.评分函数.优化和搜索方法.数据管理策略
.以下哪些学科和数据挖掘有密切联系?( )
.统计.计算机组成原理.矿产挖掘.人工智能
.数据仓库地主要目标就是帮助分析,做长期性地战略制定
.数据仓库在技术上地工作过程是:()
.数据地抽取.存储和管理.数据地表现个人收集整理勿做商业用途
.数据仓库设计.数据地表现
.联机分析处理包括以下哪些基本分析功能?()
.聚类.切片.转轴.切块.分类
.利用算法计算频繁项集可以有效降低计算频繁集地时间复杂度.在以下地购物篮中产生支持度不小于地候选项集,在候选项集中需要剪枝地是()
数据挖掘考试习题

数据挖掘考试习题 work Information Technology Company.2020YEAR数据挖掘考试题一.选择题1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离()A.分类B.聚类C.关联分析D.主成分分析2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。
A.MIN(单链)B.MAX(全链)C.组平均D.Ward方法3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。
A 分类B 预测 C关联规则分析 D聚类4.关于K均值和DBSCAN的比较,以下说法不正确的是( )A.K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。
B.K均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。
C.K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇D.K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇5.下列关于Ward’s Method说法错误的是:( )A.对噪声点和离群点敏感度比较小B.擅长处理球状的簇C.对于Ward方法,两个簇的邻近度定义为两个簇合并时导致的平方误差D.当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似6.下列关于层次聚类存在的问题说法正确的是:( )A.具有全局优化目标函数B.Group Average擅长处理球状的簇C.可以处理不同大小簇的能力D.Max对噪声点和离群点很敏感7.下列关于凝聚层次聚类的说法中,说法错误的事:( )A.一旦两个簇合并,该操作就不能撤销B.算法的终止条件是仅剩下一个簇OC.空间复杂度为()2mD.具有全局优化目标函数8.规则{牛奶,尿布}→{啤酒}的支持度和置信度分别为:( )9.下列( )是属于分裂层次聚类的方法。
A.MinB.MaxC.Group AverageD.MST10.对下图数据进行凝聚聚类操作,簇间相似度使用MAX计算,第二步是哪两个簇合并:( )A.在{3}和{l,2}合并B.{3}和{4,5}合并C.{2,3}和{4,5}合并D. {2,3}和{4,5}形成簇和{3}合并二.填空题:1.属性包括的四种类型:、、、。
数据挖掘考试题库及答案
数据挖掘考试题库及答案一、选择题1. 数据挖掘是从大量数据中提取有价值信息的过程,以下哪项不是数据挖掘的主要任务?A. 预测B. 分类C. 聚类D. 数据可视化答案:D2. 以下哪种技术不属于数据挖掘的常用方法?A. 决策树B. 支持向量机C. 关联规则D. 数据仓库答案:D3. 数据挖掘中,以下哪项技术常用于分类和预测?A. 神经网络B. K-均值聚类C. 主成分分析D. 决策树答案:D4. 在数据挖掘中,以下哪个概念表示数据集中的属性?A. 数据项B. 数据记录C. 数据属性D. 数据集答案:C5. 数据挖掘中,以下哪个算法用于求解关联规则?A. Apriori算法B. ID3算法C. K-Means算法D. C4.5算法答案:A二、填空题6. 数据挖掘的目的是从大量数据中提取______信息。
答案:有价值7. 在数据挖掘中,分类任务分为有监督学习和______学习。
答案:无监督8. 决策树是一种用于分类和预测的树形结构,其核心思想是______。
答案:递归划分9. 关联规则挖掘中,支持度表示某个项集在数据集中的出现频率,置信度表示______。
答案:包含项集的记录中同时包含结论的记录的比例10. 数据挖掘中,聚类分析是将数据集划分为若干个______的子集。
答案:相似三、判断题11. 数据挖掘只关注大量数据中的异常值。
()答案:错误12. 数据挖掘是数据仓库的一部分。
()答案:正确13. 决策树算法适用于处理连续属性的分类问题。
()答案:错误14. 数据挖掘中的聚类分析是无监督学习任务。
()答案:正确15. 关联规则挖掘中,支持度越高,关联规则越可靠。
()答案:错误四、简答题16. 简述数据挖掘的主要任务。
答案:数据挖掘的主要任务包括预测、分类、聚类、关联规则挖掘、异常检测等。
17. 简述决策树算法的基本原理。
答案:决策树算法是一种自顶向下的递归划分方法。
它通过选择具有最高信息增益的属性进行划分,将数据集划分为若干个子集,直到满足停止条件。
数据挖掘汇总(题库含答案)
单选
单选 单选 单选
单选
单选 单选 单选 单选 单选
关于OLAP和OLTP的说法,下列不正确的是: ()
A
如果规则集R中不存在两条规则被同一条记录触发, 则称规则集R中的规则为()
C
通过聚集多个分类器的预测来提高分类准确率的技术 称为 ()
A
简单地将数据对象集划分成不重叠的子集,使得每个 数据对象恰在一个子集中,这种聚类类型称作( )
在抽样方法中,当合适的样本容量很难确定时,可以 使用的抽样方法是: ()
D
17 15155460
单选
关于基本数据的元数据是指: ()
D
18 15155460
19 15155460 20 15155460 21 15155460
22 15155461
23 15155461 24 15155461 25 15155461 26 15155461 27 15155461
多选
关于TCP协议,描述正确的是哪些?
A;C
多选
多选 多选 多选 多选
下面SNMP协议,下面哪两个表述是正确的?
A;D
TD-SCDMA系统中功率控制步长可为
A;B;C
通过数据挖掘过程所推倒出的关系和摘要经常被称 为:()
A;B
以下哪些学科和数据挖掘有密切联系?()
A;D
在聚类分析当中,( 簇。
)等技术可以处理任意形状的 A;D
)的时候,
A
BIRCH是一种( )
B
下面列出的条目中,哪些是数据仓库的基本特征: A;C;D
下面哪些属于可视化高维数据技术 ()
A;B;C;E
对于OSPF协议,你认为哪些是正确的?
数据挖掘课程模拟考试题库
数据挖掘课程模拟考试题库一、选择题(每题 5 分,共 30 分)1、以下哪项不是数据挖掘的主要任务?()A 数据清洗B 分类C 聚类D 关联规则挖掘2、数据挖掘中的分类算法不包括()A 决策树B 朴素贝叶斯C 支持向量机D 主成分分析3、在数据挖掘中,以下哪种方法常用于处理缺失值?()A 直接删除包含缺失值的记录B 用平均值填充缺失值C 用中位数填充缺失值D 以上方法都可以4、数据挖掘中的聚类算法中,KMeans 算法的基本思想是()A 基于密度的聚类B 基于层次的聚类C 基于划分的聚类D 基于模型的聚类5、以下哪项不是关联规则挖掘中的常用指标?()A 支持度B 置信度C 提升度D 准确率6、数据挖掘在以下哪个领域应用较少?()A 医疗保健B 市场营销C 天文学D 物理学二、填空题(每题 5 分,共 20 分)1、数据挖掘的流程通常包括、、、、和。
2、常见的数据预处理方法有、、、。
3、决策树算法在进行分裂时,通常依据来选择特征。
4、聚类分析中,评估聚类效果的指标通常有、。
三、简答题(每题 10 分,共 30 分)1、简述数据挖掘与数据分析的区别。
2、解释什么是过拟合,并说明如何避免过拟合。
3、请简要介绍 Apriori 算法的基本思想和步骤。
四、应用题(20 分)假设有一个电商网站的销售数据集,包含用户 ID、商品 ID、购买时间和购买金额等字段。
请使用关联规则挖掘算法,找出经常一起被购买的商品组合,并给出相应的支持度和置信度。
请详细描述你的分析过程和结果。
以下是对上述模拟考试题库的详细解析:选择题解析:1、数据清洗虽然是数据预处理的重要步骤,但不是数据挖掘的主要任务。
数据挖掘的主要任务包括分类、聚类、关联规则挖掘等。
所以选择 A 选项。
2、主成分分析主要用于数据降维,而不是分类算法。
决策树、朴素贝叶斯和支持向量机都是常见的分类算法。
所以选择 D 选项。
3、处理缺失值的方法有多种,直接删除包含缺失值的记录可能会导致数据量减少,影响分析结果;用平均值或中位数填充缺失值是常见的处理方式。
数据挖掘测试题及答案
数据挖掘测试题及答案一、选择题1. 数据挖掘的目的是:A. 数据清洗B. 数据转换C. 模式发现D. 数据存储答案:C2. 以下哪项不是数据挖掘的常用算法?A. 决策树B. 聚类分析C. 线性回归D. 关联规则答案:C二、填空题1. 数据挖掘中的_________是指在大量数据中发现的有意义的模式。
答案:知识2. 一种常用的数据挖掘技术是_________,它用于发现数据中隐藏的分组。
答案:聚类三、简答题1. 简述数据挖掘与数据分析的区别。
答案:数据挖掘是一种自动或半自动的过程,旨在从大量数据中发现模式和知识。
数据分析通常涉及更具体的查询和问题,使用统计方法来理解数据。
2. 描述什么是关联规则挖掘,并给出一个例子。
答案:关联规则挖掘是一种用于发现变量之间有趣关系的技术,特别是变量之间的频繁模式、关联或相关性。
例如,在市场篮子分析中,关联规则挖掘可以用来发现顾客购买行为中的模式,如“购买面包的顾客中有80%也购买了牛奶”。
四、计算题1. 给定以下数据集,计算支持度和置信度:| 事务ID | 购买的商品 |||-|| 1 | A, B || 2 | A, C || 3 | B, C || 4 | A, B, C || 5 | B, D |(1) 计算项集{A}的支持度。
(2) 计算规则A => B的置信度。
答案:(1) 项集{A}的支持度为4/5,因为A出现在4个事务中。
(2) 规则A => B的置信度为3/4,因为A和B同时出现在3个事务中,而A出现在4个事务中。
五、论述题1. 论述数据挖掘在电子商务中的应用,并给出至少两个具体的例子。
答案:数据挖掘在电子商务中的应用非常广泛,包括:- 客户细分:通过数据挖掘技术,商家可以识别不同的客户群体,为每个群体提供定制化的服务或产品。
- 推荐系统:利用关联规则挖掘,电商平台可以推荐用户可能感兴趣的商品,提高用户满意度和购买率。
- 欺诈检测:通过分析交易模式,数据挖掘可以帮助识别异常行为,预防信用卡欺诈等风险。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.何谓数据挖掘?它有哪些方面的功能?从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。
相关的名称有知识发现、数据分析、数据融合、决策支持等。
数据挖掘的功能包括:概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等。
2.何谓粒度?它对数据仓库有什么影响?按粒度组织数据的方式有哪些?粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别。
粒度影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答查询问题的细节程度。
按粒度组织数据的方式主要有:①简单堆积结构②轮转综合结构③简单直接结构④连续结构3.简述数据仓库设计的三级模型及其基本内容。
概念模型设计是在较高的抽象层次上的设计,其主要内容包括:界定系统边界和确定主要的主题域。
逻辑模型设计的主要内容包括:分析主题域、确定粒度层次划分、确定数据分割策略、定义关系模式、定义记录系统。
物理数据模型设计的主要内容包括:确定数据存储结构、确定数据存放位置、确定存储分配以及确定索引策略等。
在物理数据模型设计时主要考虑的因素有: 存取时间、空间利用率和维护代价等。
提高性能的主要措施有划分粒度、数据分割、合并表、建立数据序列、引入冗余、生成导出数据、建立广义索引等。
4.在数据挖掘之前为什么要对原始数据进行预处理?原始业务数据来自多个数据库或数据仓库,它们的结构和规则可能是不同的,这将导致原始数据非常的杂乱、不可用,即使在同一个数据库中,也可能存在重复的和不完整的数据信息,为了使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的结果,必须进行数据的预处理。
为数据挖掘算法提供完整、干净、准确、有针对性的数据,减少算法的计算量,提高挖掘效率和准确程度。
5.简述数据预处理方法和内容。
①数据清洗:包括填充空缺值,识别孤立点,去掉噪声和无关数据。
②数据集成:将多个数据源中的数据结合起来存放在一个一致的数据存储中。
需要注意不同数据源的数据匹配问题、数值冲突问题和冗余问题等。
③数据变换:将原始数据转换成为适合数据挖掘的形式。
包括对数据的汇总、聚集、概化、规范化,还可能需要进行属性的重构。
④数据归约:缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。
6.简述数据清理的基本内容。
①尽可能赋予属性名和属性值明确的含义;②统一多数据源的属性值编码;③去除无用的惟一属性或键值(如自动增长的);④去除重复属性(在某些分析中,年龄和出生日期可能就是重复的属性,但在某些时候它们可能又是同时需要的)⑤去除可忽略字段(大部分为空值的属性一般是没有什么价值的,如果不去除可能造成错误的数据挖掘结果)⑥合理选择关联字段(对于多个关联性较强的属性,重复无益,只需选择其中的部分用于数据挖掘即可,如价格、数据、金额)⑦去掉数据中的噪音、填充空值、丢失值和处理不一致数据。
7.简述处理空缺值的方法。
①忽略该记录;②去掉属性;③手工填写空缺值;④使用默认值;⑤使用属性平均值;⑥使用同类样本平均值;⑦预测最可能的值。
8.常见的分箱方法有哪些?数据平滑处理的方法有哪些?分箱的方法主要有:①统一权重法(又称等深分箱法)②统一区间法(又称等宽分箱法)③ 最小熵法 ④自定义区间法数据平滑的方法主要有:平均值法、边界值法和中值法。
9.何谓数据规范化?规范化的方法有哪些?写出对应的变换公式。
将数据按比例缩放(如更换大单位),使之落入一个特定的区域(如0.0~1.0),称为规范化。
规范化的常用方法有:(1) 最大-最小规范化:(2) 零-均值规范化:(3)小数定标规范化:x =x 0/10α10.数据归约的方法有哪些?为什么要进行维归约?① 数据立方体聚集 ② 维归约 ③ 数据压缩 ④ 数值压缩⑤离散化和概念分层维归约可以去掉不重要的属性,减少数据立方体的维数,从而减少数据挖掘处理的数据量,提高挖掘效率。
11.何谓聚类?它与分类有什么异同?聚类是将物理或抽象对象的集合分组成为多个类或簇()的过程,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。
聚类与分类不同,聚类要划分的类是未知的,分类则可按已知规则进行;聚类是一种无指导学习,它不依赖预先定义的类和带类标号的训练实例,属于观察式学习,分类则属于有指导的学习,是示例式学习。
12.举例说明聚类分析的典型应用。
①商业:帮助市场分析人员从客户基本库中发现不同的客户群,并且用不同的购买模式描述不同客户群的特征。
②生物学:推导植物或动物的分类,对基于进行分类,获得对种群中固有结构的认识。
③文档分类④其他:如地球观测数据库中相似地区的确定;各类保险投保人的分组;一()()0000max min x x min minmax min -=-+-0XXx x σ-=个城市中不同类型、价值、地理位置房子的分组等。
⑤聚类分析还可作为其他数据挖掘算法的预处理:即先进行聚类,然后再进行分类等其他的数据挖掘。
聚类分析是一种数据简化技术,它把基于相似数据特征的变量或个案组合在一起。
13.聚类分析中常见的数据类型有哪些?何谓相异度矩阵?它有什么特点?常见数据类型有区间标度变量、比例标度型变量、二元变量、标称型、序数型以及混合类型等。
相异度矩阵是用于存储所有对象两两之间相异度的矩阵,为一个维的单模矩阵。
其特点是d()(),d()=0,d()=0。
如下所示:14.分类知识的发现方法主要有哪些?分类过程通常包括哪两个步骤?分类规则的挖掘方法通常有:决策树法、贝叶斯法、人工神经网络法、粗糙集法和遗传算法。
分类的过程包括2步:首先在已知训练数据集上,根据属性特征,为每一种类别找到一个合理的描述或模型,即分类规则;然后根据规则对新数据进行分类。
15.什么是决策树?如何用决策树进行分类?决策树是用样本的属性作为结点,用属性的取值作为分支的树结构。
它是利用信息论原理对大量样本的属性进行分析和归纳而产生的。
决策树的根结点是所有样本中信息量最大的属性。
树的中间结点是以该结点为根的子树所包含的样本子集中信息量最大的属性。
决策树的叶结点是样本的类别值。
决策树用于对新样本的分类,即通过决策树对新样本属性值的测试,从树的根结点开始,按照样本属性的取值,逐渐沿着决策树向下,直到树的叶结点,该叶结点表示的类别就是新样本的类别。
决策树方法是数据挖掘中非常有效的分类方法。
16.简述3算法的基本思想及其主算法的基本步骤。
首先找出最有判别力的因素,然后把数据分成多个子集,每个子集又选择最有判别力的因素进一步划分,一直进行到所有子集仅包含同一类型的数据为止。
最后得到一棵决策树,可以用它来对新的样例进行分类。
0d(2,1)0d(3,1)d(3,2)0d(n,1)d(n,2)......0⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦M M M O主算法包括如下几步:①从训练集中随机选择一个既含正例又含反例的子集(称为窗口); ②用“建树算法”对当前窗口形成一棵决策树;③对训练集(窗口除外)中例子用所得决策树进行类别判定,找出错判的例子;④若存在错判的例子,把它们插入窗口,重复步骤②,否则结束。
17.简述3算法的基本思想及其建树算法的基本步骤。
首先找出最有判别力的因素,然后把数据分成多个子集,每个子集又选择最有判别力的因素进一步划分,一直进行到所有子集仅包含同一类型的数据为止。
最后得到一棵决策树,可以用它来对新的样例进行分类。
建树算法的具体步骤如下:①对当前例子集合,计算各特征的互信息; ②选择互信息最大的特征;③把在处取值相同的例子归于同一子集,取几个值就得几个子集; ④对既含正例又含反例的子集,递归调用建树算法;⑤若子集仅含正例或反例,对应分枝标上P 或N ,返回调用处。
18.设某事务项集构成如下表,填空完成其中支持度和置信度的计算。
19.并说明其含义。
基本特征:①多输入、单输出;②突触兼有兴奋和抑制两种性能;③可时间加权和空间加权;④可产生脉冲;⑤脉冲可进行传递;⑥非线性,有阈值。
方程:()i ij j j jS f W S θ=-∑,是神经元之间的连接强度,j θ是阈值,f (x )是阶梯函数。
20.遗传算法与传统寻优算法相比有什么特点?①遗传算法为群体搜索,有利于寻找到全局最优解;②遗传算法采用高效有方向的随机搜索,搜索效率高;③遗传算法处理的对象是个体而不是参变量,具有广泛的应用领域;④遗传算法使用适应值信息评估个体,不需要导数或其他辅助信息,运算速度快,适应性好;⑤遗传算法具有隐含并行性,具有更高的运行效率。
21.写出非对称二元变量相异度计算公式(即系数),并计算下表中各对象间的相异度。
22.简述平均算法的输入、输出及聚类过程(流程)。
输入:簇的数目k和包含n个对象的数据集。
输出:k个簇,使平方误差准则最小。
步骤:①任意选择k个对象作为初始的簇中心;②计算其它对象与这k个中心的距离,然后把每个对象归入离它“最近”的簇;③计算各簇中对象的平均值,然后重新选择簇中心(离平均值“最近”的对象值);④重复第2第3步直到簇中心不再变化为止。
23.简述中心点算法的输入、输出及聚类过程(流程)。
输入:结果簇的数目k,包含n个对象的数据集输出:k个簇,使得所有对象与其最近中心点的相异度总和最小。
流程:①随机选择k个对象作为初始中心点;②计算其它对象与这k个中心的距离,然后把每个对象归入离它“最近”的簇;③随机地选择一个非中心点对象,并计算用代替的总代价S;④如果S<0,则用代替,形成新的k个中心点集合;⑤重复迭代第3、4步,直到中心点不变为止。
24.何谓文本挖掘?它与信息检索有什么关系(异同)。
文本挖掘是从大量文本数据中提取以前未知的、有用的、可理解的、可操作的知识的过程。
它与信息检索之间有以下几方面的区别:①方法论不同:信息检索是目标驱动的,用户需要明确提出查询要求;而文本挖掘结果独立于用户的信息需求,是用户无法预知的。
②着眼点不同:信息检索着重于文档中字、词和链接;而文本挖掘在于理解文本的内容和结构。
③目的不同:信息检索的目的在于帮助用户发现资源,即从大量的文本中找到满足其查询请求的文本子集;而文本挖掘是为了揭示文本中隐含的知识。
④评价方法不同:信息检索用查准率和查全率来评价其性能。
而文本挖掘采用收益、置信度、简洁性等来衡量所发现知识的有效性、可用性和可理解性。
⑤使用场合不同:文本挖掘是比信息检索更高层次的技术,可用于信息检索技术不能解决的许多场合。
一方面,这两种技术各有所长,有各自适用的场合;另一方面,可以利用文本挖掘的研究成果来提高信息检索的精度和效率,改善检索结果的组织,使信息检索系统发展到一个新的水平。
人工神经网络是用大量的简单处理单元广泛连接而成的网络,用以模拟生物神经网络的智能计算系统,神经网络是一组类似于神经元的处理单元,其中每个连接都与一个权重相关联.优缺点:优点:大大压缩了频繁集的大小,取得了很好的性能。