数据挖掘 填空题
《数据挖掘》模拟卷

答:具有递减支持度的多层关联规则挖掘中使用的搜索策略包括:
逐层独立:完全的宽度搜索,没有频繁项集的背景知识用于剪枝。考察每一个节点,不管其父节点是否频繁。特点是条件很松,可能导致在低层考察大量非频繁的项,找出一些不重要的关联;(2分)
层交叉k-项集过滤:一个第i层的k-项集被考察,当且仅当它在第(i-1)层的对应父节点的k-项集是频繁的。特点是限制太强,有些有价值的模式可能被该方法过滤掉;(2分)
(a) 给定节点的所有样本属于同一类;
(b) 没有剩余属性可以用来进一步划分样本,在此情况下,使用多数表决所得的类编号将节点转化为树叶。
(c) 如果某个分枝没有样本,则以其划分前的训练样本的多数类创建一个树叶。
(2)判定树buys_PCGame如下所示:
�
请根据以上结果绘制出判定树buys_PCGame。(4分)
数据挖掘》模拟卷答案
一、填空题(每格1分,共20分)
1、划分方法、层次方法、基于密度的方法。
2、星型模式、雪花模式和事实星座模式。
3、描述性的数据挖掘和预测性的数据挖掘。
4、不物化、全物化和部分物化。
5、数据库技术、统计学、机器学习。
B、选择(select)
C、切片(slice)
D、转轴(pivot)
9.假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是( )
数据挖掘习题答案

数据挖掘习题答案数据挖掘习题答案数据挖掘作为一门重要的技术和方法,广泛应用于各个领域。
在学习数据挖掘的过程中,习题是不可或缺的一部分。
通过解答习题,我们可以更好地理解和掌握数据挖掘的原理和应用。
以下是一些常见的数据挖掘习题及其答案,供大家参考。
一、选择题1. 数据挖掘的目标是什么?A. 发现隐藏在大数据中的模式和关联B. 提供数据存储和管理的解决方案C. 分析数据的趋势和变化D. 优化数据的存储和传输速度答案:A. 发现隐藏在大数据中的模式和关联2. 下列哪个不是数据挖掘的主要任务?A. 分类B. 聚类C. 回归D. 排序答案:D. 排序3. 数据挖掘的过程包括以下几个步骤,哪个是第一步?A. 数据清洗B. 数据集成C. 数据转换D. 数据选择答案:B. 数据集成4. 下列哪个不是数据挖掘中常用的算法?A. 决策树B. 支持向量机C. 朴素贝叶斯D. 深度学习答案:D. 深度学习5. 下列哪个不是数据挖掘的应用领域?A. 金融B. 医疗C. 娱乐D. 政治答案:D. 政治二、填空题1. 数据挖掘是从大量数据中发现________和________。
答案:模式,关联2. 数据挖掘的主要任务包括分类、聚类、回归和________。
答案:预测3. 数据挖掘的过程包括数据集成、数据清洗、数据转换和________。
答案:模式识别4. 决策树是一种常用的________算法。
答案:分类5. 数据挖掘可以应用于金融、医疗、娱乐等多个________。
答案:领域三、简答题1. 请简要介绍数据挖掘的主要任务和应用领域。
答:数据挖掘的主要任务包括分类、聚类、回归和预测。
分类是将数据集划分为不同的类别,聚类是将数据集中相似的样本归为一类,回归是根据已有的数据预测未知数据的值,预测是根据已有的数据预测未来的趋势和变化。
数据挖掘的应用领域非常广泛,包括金融、医疗、娱乐等。
在金融领域,数据挖掘可以用于信用评估、风险管理等方面;在医疗领域,数据挖掘可以用于疾病诊断、药物研发等方面;在娱乐领域,数据挖掘可以用于推荐系统、用户行为分析等方面。
数据挖掘考试题库

13. 预测型知识:是根据时间序列型数据,由历史的和当前的数据 去推测未来的数据,也可以认为是以时间为关键属性的关联知 识。
14. 偏差型知识:是对差异和极端特例的描述,用于揭示事物偏离 常规的异常现象,如标准类外的特例,数据聚类外的离群值 等。
15. 遗传算法:是一种优化搜索算法,它首先产生一个初始可行解 群体,然后对这个群体通过模拟生物进化的选择、交叉、变异 等遗传操作遗传到下一代群体,并最终达到全局最优。
作。 22. 传统的决策支持系统是以 和 驱动,而新决策支持系统
则是以 、建立在 和 技术之上。 23. OLAP的数据组织方式主要有 和 2种。 24. SQL Server2000的OLAP组件叫 ,OLAP操作窗口叫 。 25. BP神经网络由 、 以及一或多个 结点组成。 26. 遗传算法包括 、 、 3个基本算子。 27. 聚类分析的数据通常可分为区间标度变
等。 6. 评价关联规则的2个主要指标是 和 。 7. 多维数据集通常采用 或雪花型架构,以 表为中心,连
接多个 表 。 8. 决策树是用 作为结点,用 作为分支的树结构。 9. 关联可分为简单关联、 和 。 10. BP神经网络的作用函数通常为 区间的 。 11. 数据挖掘的过程主要包括确定业务对象、 、 、 及
和低层管理人员、对基本数据进行查询和增、删、改等的日常事务 处理。OLAP即联机分析处理,是在OLTP基础上发展起来的、以数据 仓库基础上的、面向高层管理人员和专业分析人员、为企业决策支 持服务。
OLTP和OLAP的主要区别如下表:
OLTP
OLAP
数据库数据
数据库或数据仓库数据
细节性数据
综合性数据
知识同化等几个步骤。 12. 数据挖掘技术主要涉及 、 和 3个技术领域。 13. 数据挖掘的主要功能包括 、 、 、 、趋势分
数据挖掘考试题

数据挖掘考试题一.选择题1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( )2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。
“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。
A 分类B 预测 C关联规则分析 D聚类4.关于K均值和DBSCAN的比较,以下说法不正确的是( )A.K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。
B.K均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。
C.K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇D.K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇’s Method说法错误的是:( )C.对于Ward方法,两个簇的邻近度定义为两个簇合并时导致的平方误差D.当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似6.下列关于层次聚类存在的问题说法正确的是:( )A.具有全局优化目标函数B.Group Average擅长处理球状的簇C.可以处理不同大小簇的能力D.Max对噪声点和离群点很敏感7.下列关于凝聚层次聚类的说法中,说法错误的事:( )A.一旦两个簇合并,该操作就不能撤销2m O8.规则{牛奶,尿布}→{啤酒}的支持度和置信度分别为:( )TID项 集 12345{面包,牛奶} {面包,尿布,啤酒,鸡蛋} {牛奶,尿布,啤酒,可乐} {面包,牛奶,尿布,啤酒} {面包,牛奶,尿布,可乐}9.下列( )是属于分裂层次聚类的方法。
10.对下图数据进行凝聚聚类操作,簇间相似度使用MAX 计算,第二步是哪两个簇合并:( )A.在{3}和{l,2}合并B.{3}和{4,5}合并C.{2,3}和{4,5}合并D. {2,3}和{4,5}形成簇和{3}合并二.填空题:1. 属性包括的四种类型: 、 、 、 。
数据挖掘与分析考试试题

数据挖掘与分析考试试题一、选择题(每题 3 分,共 30 分)1、以下哪个不是数据挖掘的主要任务?()A 分类B 聚类C 数据清洗D 关联规则挖掘2、在数据挖掘中,以下哪种方法常用于处理缺失值?()A 直接删除包含缺失值的记录B 用平均值填充缺失值C 用中位数填充缺失值D 以上方法都可以3、决策树算法中,用于选择最佳分裂特征的指标通常是()A 信息增益B 基尼系数C 准确率D 召回率4、以下哪个不是聚类算法?()A KMeans 算法B 层次聚类算法C 朴素贝叶斯算法D DBSCAN 算法5、数据挖掘中的关联规则挖掘,常用的算法是()A Apriori 算法B C45 算法C KNN 算法D SVM 算法6、以下哪种数据预处理方法可以用于将连续型特征转换为离散型特征?()A 标准化B 归一化C 分箱D 主成分分析7、在构建分类模型时,如果数据集存在类别不平衡问题,以下哪种方法可以解决?()A 过采样B 欠采样C 调整分类阈值D 以上方法都可以8、以下哪个指标常用于评估分类模型的性能?()A ROC 曲线下面积B 均方误差C 平均绝对误差D 决定系数9、对于高维数据,以下哪种方法可以进行降维?()A 因子分析B 线性判别分析C 主成分分析D 以上方法都可以10、以下关于数据挖掘的描述,错误的是()A 数据挖掘可以发现隐藏在数据中的模式和关系B 数据挖掘需要大量的数据C 数据挖掘的结果一定是准确无误的D 数据挖掘是一个反复迭代的过程二、填空题(每题 3 分,共 30 分)1、数据挖掘的一般流程包括:________、________、________、________、________和________。
2、分类算法中,常见的有________、________、________等。
3、聚类算法中,KMeans 算法的基本思想是:________。
4、关联规则挖掘中,常用的度量指标有________、________等。
数据挖掘原理与算法试卷

数据挖掘原理与算法试卷数据挖掘原理与算法试卷一、选择题1.下列哪个不是数据挖掘任务?A.分类B.聚类C.关联规则D.排序2.下列哪种分类算法不属于监督学习?A.决策树B.朴素贝叶斯C.聚类D.KNN3.下列哪个不是评价分类器性能的指标?A.精确率B.召回率C.准确率D.光滑度4.下面哪种聚类算法不属于无监督学习?A.K-meansB.DBSCANC.GBDTD.层次聚类5.下面哪个不是数据挖掘的四个阶段之一?A.数据预处理B.模型构建C.数据挖掘D.数据可视化二、填空题1.聚类算法通过____来判断相似性,将对象划分为不同的组。
2.项集的支持度定义为____。
3.决策树的生成主要包括构造树的过程和____过程。
4.分类器性能的指标包括准确率、召回率、精确率和____。
5.交叉验证的目的是为了评估模型的____。
三、简答题1.数据挖掘的四个阶段分别是什么,各阶段的作用是什么?2.请简要介绍K-means算法的流程及其优缺点。
3.请简述决策树生成的过程。
4.请简述分类算法的评价指标。
5.请简述支持向量机(SVM)算法的原理。
四、论述题1.请探讨数据预处理的作用及其过程中常见的预处理方法。
2.请分析决策树算法的优缺点。
3.请讲述Random Forest算法的基本思想和特点。
4.请简述关联规则挖掘的流程及其应用场景。
5.请论述KNN算法的基本思想及其在分类任务中的应用。
五、编程题1.请用Python实现K-means算法,并用Iris数据集进行测试。
2.请用Python实现Apriori算法,并用Market Basket数据集进行测试。
3.请用Python实现决策树算法,并用Iris数据集进行测试。
4.请用Python实现SVM算法,并用Iris数据集进行测试。
5.请用Python实现KNN算法,并用Iris数据集进行测试。
文末总结本试卷涉及数据挖掘的基础理论、常见算法和编程实现,包括选择题、填空题、简答题、论述题和编程题等不同类型的题目。
(完整word版)数据挖掘填空题复习资料(word文档良心出品)

27数据集中任何两个对象之间的距离构成的矩阵称为距离矩阵
四、
1.区别分类与回归的关键特征是类标号必须是离散属性。
2.分类的两个主要目的是进行描述性建模和预测性建模。
3.分类模型的误差可分为训练误差和泛化误差。
4.训练误差也称再带入误差或表现误差,是在训练记录上误分类样本比例。泛化误差是模型在未知记录上的期望误差。
5.一个号的分类模型不仅要能够很好地拟合训练数据,而且对未知样本也要能准确地分类。即一个号的分类模型必须具有低训练误差和低泛化误差。
6.在分类模型评估的保持方法中,将被标记的原始数据划分成两个不相交的集合,分别称为训练集和检验集。在训练数据集归纳分类模型,在检验集上评估模型的性能。
7.在分类模型评估的K折交叉验证方法中,吧数据分为大小相同的K份,在每次运行,选择其中一份作检验集,而其余的全作为训练集。
5.提取分类规则的方法有直接方法和间接方法两大类。
6.提取分类规则的直接方法是指把属性空间分为较小的子空间以便于属于一个子空间的所有记录可以使用一个分类规则进行分类。
7.提取分类规则的间接方法是指使用分类规则较为复杂的分类模型提供简洁的描述。
8.规则的排序方案有基于规则的排序方案和基于类的排序方案两种。
提取分类规则的间接方法是指使用分类规则较为复杂的分类模型提供简洁的描述
关联规则挖掘问题可以划分为频繁项集产生和规则的产生两个子问题
可以降低生产频繁项集的计算复杂度两种方法为减少候选项集的数目和减少比较次数
K-候选集Ck产生的方法有:蛮力方法, 和
Apriori算法有两个致命的性能瓶颈。1.他们分别是0/1负载很大,需要多次扫描事物数据库,2.可能产生庞大的候选集
数据挖掘考试题库及答案

数据挖掘考试题库及答案一、选择题1. 数据挖掘是从大量数据中提取有价值信息的过程,以下哪项不是数据挖掘的主要任务?A. 预测B. 分类C. 聚类D. 数据可视化答案:D2. 以下哪种技术不属于数据挖掘的常用方法?A. 决策树B. 支持向量机C. 关联规则D. 数据仓库答案:D3. 数据挖掘中,以下哪项技术常用于分类和预测?A. 神经网络B. K-均值聚类C. 主成分分析D. 决策树答案:D4. 在数据挖掘中,以下哪个概念表示数据集中的属性?A. 数据项B. 数据记录C. 数据属性D. 数据集答案:C5. 数据挖掘中,以下哪个算法用于求解关联规则?A. Apriori算法B. ID3算法C. K-Means算法D. C4.5算法答案:A二、填空题6. 数据挖掘的目的是从大量数据中提取______信息。
答案:有价值7. 在数据挖掘中,分类任务分为有监督学习和______学习。
答案:无监督8. 决策树是一种用于分类和预测的树形结构,其核心思想是______。
答案:递归划分9. 关联规则挖掘中,支持度表示某个项集在数据集中的出现频率,置信度表示______。
答案:包含项集的记录中同时包含结论的记录的比例10. 数据挖掘中,聚类分析是将数据集划分为若干个______的子集。
答案:相似三、判断题11. 数据挖掘只关注大量数据中的异常值。
()答案:错误12. 数据挖掘是数据仓库的一部分。
()答案:正确13. 决策树算法适用于处理连续属性的分类问题。
()答案:错误14. 数据挖掘中的聚类分析是无监督学习任务。
()答案:正确15. 关联规则挖掘中,支持度越高,关联规则越可靠。
()答案:错误四、简答题16. 简述数据挖掘的主要任务。
答案:数据挖掘的主要任务包括预测、分类、聚类、关联规则挖掘、异常检测等。
17. 简述决策树算法的基本原理。
答案:决策树算法是一种自顶向下的递归划分方法。
它通过选择具有最高信息增益的属性进行划分,将数据集划分为若干个子集,直到满足停止条件。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.知识发现是一个完整的数据分析过程,主要包括以下几个步骤:确定知识发现的目标、数据采集、数据探索、数据预处理、__数据挖掘_、模式评估。
2._特征性描述_是指从某类对象关联的数据中提取这类对象的共同特征(属性)。
3.回归与分类的区别在于:___回归__可用于预测连续的目标变量,___分类__可用于预测离散的目标变量。
4.__数据仓库_是面向主题的、集成的、相对稳定的、随时间不断变化的数据集合,与传统数据库面向应用相对应。
5.Pandas的两种核心数据结构是:__Series__和__DataFrame__。
6.我们可以将机器学习处理的问题分为两大类:监督学习和_无监督学习__。
7.通常,在训练有监督的学习的机器学习模型的时候,会将数据划分为__训练集__和__测试集__,划分比例一般为0.75:0.25。
1.分类问题的基本流程可以分为__训练__和__预测_两个阶段。
2.构建一个机器学习框架的基本步骤:数据的加载、选择模型、模型的训练、__模型的预测_、模型的评测、模型的保存。
3.__回归分析_是确定两种或两种以上变量间相互依赖关系的一种统计分析方法,是应用及其广泛的数据分析方法之一。
4.在机器学习的过程中,我们将原始数据划分为训练集、验证集、测试集之后,可用的数据将会大大地减少。
为了解决这个问题,我们提出了__交叉验证_这样的解决办法。
5.当机器学习把训练样本学得“太好”的时候,可能已经把训练样本自身的一些特点当作所有潜在样本都会具有的一般性质,这样会导致泛化性能下降。
这种现象在机器学习中称为__过拟合__。
6.常用的降维算法有__主成分分析__、___因子分析__和独立成分分析。
7.关联规则的挖掘过程主要包含两个阶段__发现频繁项集_和__产生关联规则__。
1、数据仓库是一个( 面向主题的 ) 、( 集成的 )、( 相对稳定的 )、 ( 反映历史变化 )的数据集合,通常用于( 决策支持的 )目的2、如果df1=pd.DataFrame([[1,2,3],[NaN,NaN,2],[NaN,NaN,NaN],[8,8,NaN]]),则df1.fillna(100)=?([[1,2,3],[100,100,2],[100,100,100],[8,8,100]])3、数据挖掘模型一般分为(有监督学习 )和( 无监督学习 )两大类4、如果df=pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'],'data':[0,5,10,5,10,15,10,15,20]}),则df.groupby('key').sum()=?(A:15,B:30,C:45)5、聚类算法根据产生簇的机制不同,主要分成(划分聚类)、(层次聚类)和(密度聚类)三种算法6、常见的数据仓库体系结构包括( 两层架构 )、( 独立型数据集市 )、( 依赖型数据集市和操作型数据存储)、( 逻辑型数据集市和实时数据仓库 )等四种7、Pandas最核心的三种数据结构,分别是(Series)、(DataFrame)和(Panel)8、数据挖掘中计算向量之间相关性时一般会用到哪些距离?(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离(答对3个即可))等9、在决策树算法中用什么指标来选择分裂属性非常关键,其中ID3算法使用( 信息增益 ),C4.5算法使用( 信息增益率 ),CART算法使用( 基尼系数) 10、OLAP的中文意思是指( 在线分析处理)1、常见的数据仓库体系结构包括( 两层架构 )、( 独立型数据集市 )、( 依赖型数据集市和操作型数据存储)、( 逻辑型数据集市和实时数据仓库 )等四种2、Pandas最核心的三种数据结构,分别是(Series)、(DataFrame)和(Panel)3、数据挖掘中计算向量之间相关性时一般会用到哪些距离?(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离(答对3个即可))等4、在决策树算法中用什么指标来选择分裂属性非常关键,其中ID3算法使用( 信息增益 ),C4.5算法使用( 信息增益率 ),CART算法使用( 基尼系数)5、OLAP的中文意思是指( 在线分析处理)6、如果ser = pd.Series(np.arange(4,0,-1),index = ["a","b","c","d"]),则ser.values=?([4, 3, 2, 1]),ser * 2=([8, 6, 4, 2])7、线性回归最常见的两种求解方法,一种是( 最小二乘法),另一种是( 梯度下降法)8、对于回归分析中常见的过拟合现象,一般通过引入( 正则化 )项来改善,最有名的改进算法包括( Ridge岭回归)和( Lasso套索回归)9、Python字符串str = 'Hello World!',print(str[-2])的结果是?(d)10、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)1、数据挖掘中计算向量之间相关性时一般会用到哪些距离?(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离(答对3个即可))等2、在决策树算法中用什么指标来选择分裂属性非常关键,其中ID3算法使用( 信息增益 ),C4.5算法使用( 信息增益率 ),CART算法使用( 基尼系数)3、OLAP的中文意思是指( 在线分析处理)4、如果ser = pd.Series(np.arange(4,0,-1),index = ["a","b","c","d"]),则ser.values=?([4, 3, 2, 1]),ser * 2=([8, 6, 4, 2])5、线性回归最常见的两种求解方法,一种是( 最小二乘法),另一种是( 梯度下降法)6、对于回归分析中常见的过拟合现象,一般通过引入( 正则化 )项来改善,最有名的改进算法包括( Ridge岭回归)和( Lasso套索回归)7、Python字符串str = 'Hello World!',print(str[-2])的结果是?(d)8、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)9、CF是协同过滤的简称,一般分为基于(用户)的协同过滤和基于(商品)的协同过滤10、假如Li=[1,2,3,4,5,6],则Li[::-1]的执行结果是([6,5,4,3,2,1])1、数据仓库是一个( 面向主题的 ) 、( 集成的 )、( 相对稳定的 )、 ( 反映历史变化 )的数据集合,通常用于( 决策支持的 )目的2、如果df1=pd.DataFrame([[1,2,3],[NaN,NaN,2],[NaN,NaN,NaN],[8,8,NaN]]),则df1.fillna(100)=?([[1,2,3],[100,100,2],[100,100,100],[8,8,100]])3、数据挖掘模型一般分为(有监督学习 )和( 无监督学习 )两大类4、如果df=pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'],'data':[0,5,10,5,10,15,10,15,20]}),则df.groupby('key').sum()=?(A:15,B:30,C:45)5、聚类算法根据产生簇的机制不同,主要分成(划分聚类)、(层次聚类)和(密度聚类)三种算法6、如果ser = pd.Series(np.arange(4,0,-1),index = ["a","b","c","d"]),则ser.values=?([4, 3, 2, 1]),ser * 2=([8, 6, 4, 2])7、线性回归最常见的两种求解方法,一种是( 最小二乘法),另一种是( 梯度下降法)8、对于回归分析中常见的过拟合现象,一般通过引入( 正则化 )项来改善,最有名的改进算法包括( Ridge岭回归)和( Lasso套索回归)9、Python字符串str = 'Hello World!',print(str[-2])的结果是?(d)10、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)1、数据仓库是一个( 面向主题的 ) 、( 集成的 )、( 相对稳定的 )、 ( 反映历史变化 )的数据集合,通常用于( 决策支持的 )目的2、数据挖掘模型一般分为(有监督学习 )和( 无监督学习 )两大类3、聚类算法根据产生簇的机制不同,主要分成(划分聚类)、(层次聚类)和(密度聚类)三种算法4、Pandas最核心的三种数据结构,分别是(Series)、(DataFrame)和(Panel)5、在决策树算法中用什么指标来选择分裂属性非常关键,其中ID3算法使用( 信息增益 ),C4.5算法使用( 信息增益率 ),CART算法使用( 基尼系数) 6、如果ser = pd.Series(np.arange(4,0,-1),index = ["a","b","c","d"]),则ser.values=?([4, 3, 2, 1]),ser * 2=([8, 6, 4, 2])7、对于回归分析中常见的过拟合现象,一般通过引入( 正则化 )项来改善,最有名的改进算法包括( Ridge岭回归)和( Lasso套索回归)8、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)9、CF是协同过滤的简称,一般分为基于(用户)的协同过滤和基于(商品)的协同过滤10、假如Li=[1,2,3,4,5,6],则Li[::-1]的执行结果是([6,5,4,3,2,1])1如果df1=pd.DataFrame([[1,2,3],[NaN,NaN,2],[NaN,NaN,NaN],[8,8,NaN]]),则df1.fillna(100)=?([[1,2,3],[100,100,2],[100,100,100],[8,8,100]]) 2、如果df=pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'], 'data':[0,5,10,5,10,15,10,15,20]}),则df.groupby('key').sum()=?(A:15,B:30,C:45)3、常见的数据仓库体系结构包括( 两层架构 )、( 独立型数据集市 )、( 依赖型数据集市和操作型数据存储)、( 逻辑型数据集市和实时数据仓库 )等四种4、数据挖掘中计算向量之间相关性时一般会用到哪些距离?(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离(答对3个即可))等5、OLAP的中文意思是指( 在线分析处理)6、线性回归最常见的两种求解方法,一种是( 最小二乘法),另一种是( 梯度下降法)7、Python字符串str = 'Hello World!',print(str[-2])的结果是?(d)8、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)9、CF是协同过滤的简称,一般分为基于(用户)的协同过滤和基于(商品)的协同过滤10、假如Li=[1,2,3,4,5,6],则Li[::-1]的执行结果是([6,5,4,3,2,1])1、数据挖掘模型一般分为(有监督学习 )和( 无监督学习 )两大类2、聚类算法根据产生簇的机制不同,主要分成(划分聚类)、(层次聚类)和(密度聚类)三种算法3、常见的数据仓库体系结构包括( 两层架构 )、( 独立型数据集市 )、( 依赖型数据集市和操作型数据存储)、( 逻辑型数据集市和实时数据仓库 )等四种4、数据挖掘中计算向量之间相关性时一般会用到哪些距离?(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离(答对3个即可))等5、如果ser = pd.Series(np.arange(4,0,-1),index = ["a","b","c","d"]),则ser.values=?([4, 3, 2, 1]),ser * 2=([8, 6, 4, 2])6、对于回归分析中常见的过拟合现象,一般通过引入( 正则化 )项来改善,最有名的改进算法包括( Ridge岭回归)和( Lasso套索回归)7、Python字符串str = 'Hello World!',print(str[-2])的结果是?(d)8、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)9、CF是协同过滤的简称,一般分为基于(用户)的协同过滤和基于(商品)的协同过滤10、假如Li=[1,2,3,4,5,6],则Li[::-1]的执行结果是([6,5,4,3,2,1])1、数据仓库是一个( 面向主题的 ) 、( 集成的 )、( 相对稳定的 )、 ( 反映历史变化 )的数据集合,通常用于( 决策支持的 )目的2、如果df=pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'], 'data':[0,5,10,5,10,15,10,15,20]}),则df.groupby('key').sum()=?(A:15,B:30,C:45)3、数据挖掘中计算向量之间相关性时一般会用到哪些距离?(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离(答对3个即可))等4、在决策树算法中用什么指标来选择分裂属性非常关键,其中ID3算法使用( 信息增益 ),C4.5算法使用( 信息增益率 ),CART算法使用( 基尼系数)5、OLAP的中文意思是指( 在线分析处理)6、如果ser = pd.Series(np.arange(4,0,-1),index = ["a","b","c","d"]),则ser.values=?([4, 3, 2, 1]),ser * 2=([8, 6, 4, 2])7、线性回归最常见的两种求解方法,一种是( 最小二乘法),另一种是( 梯度下降法)8、对于回归分析中常见的过拟合现象,一般通过引入( 正则化 )项来改善,最有名的改进算法包括( Ridge岭回归)和( Lasso套索回归)9、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)10、CF是协同过滤的简称,一般分为基于(用户)的协同过滤和基于(商品)的协同过滤。