智慧树知到大数据分析与应用章节测试答案

合集下载

大数据解析与应用导论知到章节答案智慧树2023年浙江大学

大数据解析与应用导论知到章节测试答案智慧树2023年最新浙江大学第一章测试1.下列属于多元统计方法的为（）参考答案:回归分析;主元分析2.多元统计分析的图表示法有（）参考答案:散布图矩阵;调和曲线图;轮廓图;雷达图3.完整的数据分析过程，包括数据采集、数据清洗和数据分析。

（）参考答案:对4.下列场景适用于回归分析的是 ( )参考答案:天气预报5.下面哪一句体现了主元分析的思想（）参考答案:牵牛要牵牛鼻子第二章测试1.一般常见的缺失值处理的方法有（）参考答案:回归填充法;最近邻插补填充法;插值填充;替换填充法2.一般常见的数据归一化的方法有（）参考答案:最小最大规范化;零均值规范化3.少量的异常值完全不会影响数据分析。

（）参考答案:错4.下列哪种方法不是数据填补的手段 ( )参考答案:均值标准化5.主成分分析的英文名是（）。

参考答案:Principal Component Analysis第三章测试1.下面哪个是SVM在实际生活中的应用（）参考答案:图片分类;邮件分类2.以下说法正确的有哪些（）参考答案:SVM是一种线性方法;软间隔的引入可以解决轻度线性不可分问题3.拉格朗日乘子法可用于线性可分SVM的模型求解。

（）参考答案:对4.SVM的中文全称叫什么？（）参考答案:支持向量机5.SVM算法的最小时间复杂度是O（n²），基于此，以下哪种规格的数据集并不适该算法？（）参考答案:大数据集第四章测试1.一元线性回归有哪些基本假定？（）参考答案:解释变量X是确定性变量，Y是随机变量；;随机误差项和解释变量X不相关；;随机误差项服从零均值、同方差的正态分布。

;随机误差项具有零均值、同方差和序列不相关的性质；2.最典型的两种拟合不佳的情况是（）。

参考答案:欠拟合;过拟合3.岭回归适用于样本很少，但变量很多的回归问题。

（）参考答案:对4.最小二乘方法的拟合程度衡量指标是（）。

参考答案:残差平方和5.关于最小二乘法，下列说法正确的是。

Spark大数据技术与应用智慧树知到课后章节答案2023年下山西职业技术学院

Spark大数据技术与应用智慧树知到课后章节答案2023年下山西职业技术学院山西职业技术学院绪论单元测试1.大数据的起源是以下哪个领域（）A:互联网 B:金融 C:公共管理 D:电信答案:互联网第一章测试1.与MapReduce相比，Spark更适合处理以下哪种类型的任务（）A:较少迭代次数的长任务 B:较少迭代次数的短任务 C:较多迭代次数的短任务 D:较多迭代次数的长任务答案:较多迭代次数的短任务2.Standalone模式下配置Spark集群时，master节点的工作端口号需要在conf文件夹下的哪个文件指明（）A:regionserver B:slaves C:spark-defaults.conf D:spark-env.sh答案:spark-env.sh3.以下关于SPARK中的spark context，描述错误的是：（）A:可以控制dagsheduler组件 B:可以控制task scheduler组件 C:控制整个application的生命周期 D:SparkContext为Spark的主要入口点答案:控制整个application的生命周期4.以下对Spark中Work的主要工作描述错误的是（）A:不会运行业务逻辑代码 B:会运行业务逻辑代码 C:管理当前节点内存 D:接收master分配过来的资源指令答案:会运行业务逻辑代码5.配置Standalone模式下的Spark集群，Worker节点需要在conf文件夹下的哪个文件中指明（）A:spark-env.sh B:spark-defaults.conf C:slaves D:regionserver答案:slaves6.Spark支持的分布式部署方式中哪个是错误的（）A:Spark on local B:spark on YARN C:spark on mesos D:standalone答案:Spark on local7.Spark单机伪分布式模式，它的特点是在一台节点上既有Master服务，又有Worker服务（）A:对 B:错答案:对8.在部署Spark独立模式时，配置spark内部通信的端口为（）A:16010 B:7070 C:9870 D:7077答案:70779.在部署Spark独立模式时，配置spark的web端口为（）A:7077 B:8080 C:9870 D:4040答案:707710.Spark的bin目录是spark运行脚本目录，该目录中包含了加载spark的配置信息，提交作业等执行命令的脚本（）A:错 B:对答案:对第二章测试1.valrdd=sc.parallelize(1 to 10).filter(_%2== 0)rdd.collect上述代码的执行结果为（）A:Array(1, 3, 5,7,9) B:Array(2, 4, 6, 8, 10) C:Array(1,2,3,4,5,6,7,8,9,10)D:Array(1,10)答案:Array(2, 4, 6, 8, 10)2.下面哪个操作是窄依赖（）A:filter B:sort C:group D:join答案:filter3.下面哪个操作肯定是宽依赖（）A:map B:sample C:flatMap D:reduceByKey答案:reduceByKey4.以下操作中，哪个不是Spark RDD编程中的操作。

2020年智慧树知道网课《大数据分析及应用》课后章节测试满分答案

第一章测试1【单选题】(2分)大数据的英文描述是（）A.HeavydataB.LargedataC.GreatdataD.Bigdata2【单选题】(2分)下面最大的储存单位是（）A.KBB.TBC.GBD.PB3【单选题】(2分)大数据之父是（）A.詹姆斯·高斯林B.姚期智C.查尔斯·巴赫曼D.维克托·迈尔-舍恩伯格4【多选题】(2分)大数据的特点包括（）A.VelocityB.ValueC.VolumeD.Variety5【多选题】(2分)第一次正式提出大数据概念和第一次用社会调查的方式分析大数据对人们生活影响的期刊是（）和（）A.PNASB.ScienceC.NatureD.Cell6【判断题】(2分)大数据是只和互联网相关的计算机技术。

A.错B.对7【判断题】(2分)企业中大部分的数据都是非结构化数据。

A.错B.对8【判断题】(2分)大数据技术的基础是由阿里巴巴首先提出的。

A.错B.对9【判断题】(2分)大数据人才需要数学、统计学、数学分析、商业分析和自然语言处理的多方面的学习。

A.对B.错10【判断题】(2分)大数据对网络安全没有威胁。

A.对B.错第二章测试1【单选题】(2分)目前，企业的数据架构存在的最大比例问题是（）A.运营成本高B.拓展性差C.高耗能D.资源利用率低2【判断题】(2分)目前，企业数据分析处理面临的主要问题是缺少数据全方位分析方法。

A.对B.错3【单选题】(2分)地图导航根据以往的行程记录，绘制了最优路程，标明了可能堵车的地点，这表现了大数据分析理念中的（）A.注重全体而不是局部B.注重相关性而不是因果性C.注重效率而不是准确D.注重相对性而不是绝对性4【单选题】(2分)最早提出大数据研发计划的国家是（）A.中国B.美国C.法国D.日本5【多选题】(2分)大数据可能被运用的行业有（）A.金融B.农业C.医疗D.教育6【判断题】(2分)2015年9月18日云南省启动我国首个大数据综合试验区的建设工作。

大数据分析与应用知到章节答案智慧树2023年咸阳职业技术学院

大数据分析与应用知到章节测试答案智慧树2023年最新咸阳职业技术学院第一章测试1.HDFS 已经成为了大数据磁盘存储的事实标准，针对关系型以外的数据模型，开源社区形成了 K-V（ key-value）、列式、（）、图这四类 NoSQL 数据库体系。

参考答案:文档2.麦肯锡全球研究所对大数据的定义是（）。

参考答案:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征3.大数据应用场景不包括（）。

参考答案:人群标签，精准营销4.DataWorks是一个提供了大数据OS能力、并以all in one box的方式提供专业高效、安全可靠的一站式大数据智能云研发平台。

同时能满足用户对数据治理、质量管理需求，赋予用户对外提供数据服务的能力。

（）参考答案:对5.云原生数据仓库MySQL版（简称ADB，原AnalyticDB for MySQL）是一种高并发低延时的PB级新一代云原生数据仓库，全面兼容MySQL协议以及SQL:2003 语法标准，可以毫秒级针对万亿级数据进行即时的多维分析透视和业务探索。

（）参考答案:对第二章测试1.ETL是Extract、 Transform、 Loading三个字母的缩写，即抽取、转换、（）。

参考答案:装载2.HBase是一个构建在HDFS上的分布式列存储系统，用于海量结构化、半结构化数据存储。

（）参考答案:对3.数据规约：在尽可能保持数据原貌的前提下，最大限度地精简数据量。

主要包括属性选择和数据抽样两种方法。

（）参考答案:对4.数据清洗是针对原始数据，对出现的噪声进行修复、平滑或者剔除。

包括异常值、缺失值、重复记录、错误记录等；同时过滤掉不用的数据，包括某些行或某些列。

（）参考答案:对5.使用算法确保历史模型能够用户预测特定的结果。

（）参考答案:对第三章测试1.SQL集数据查询、数据操纵、数据定义和数据库控制功能于一体，语句ALTER TABLE实现数据定义功能。

商业大数据分析智慧树知到答案章节测试2023年上海商学院

第一章测试1.数据分析的一般流程是（）。

A:数据采集->数据预处理->数据管理->数据分析->数据展示B:数据采集->数据分析->数据处理->数据管理->数据产品C:数据采集->数据展示->数据分析->数据管理->数据报告D:数据采集->数据管理->数据分析->数据预处理->数据可视化答案:A2.与大数据密切相关的技术是（）。

A:博弈论B:云计算C:WiFiD:蓝牙答案:B3.交通大数据的信息种类包括出行者、位置、车辆、交通流、气象、舆情、活动、用地。

（）A:错B:对答案:B4.现在的自动驾驶系统最高可以达到（）级别。

A:L1B:L2C:L4D:全自动E:L3答案:C数据是作为信息的重要来源, 信息经过加工转化为知识。

（）A:错B:对答案:B第二章测试1.下列属于分布式并行计算框架的是（）A:YARNB:HDFSC:MapReduceD:Spark答案:CD2.HDFS集群中至少有3个数据节点, 即DataNode。

（）A:对B:错答案:A3.每个HDFS集群有且仅有一个主节点, 即NameNode。

（）A:错B:对答案:B4.Harmony是一种移动设备操作系统。

（）A:对B:错答案:A5.微信小程序开发提供的是一种（）云服务模式。

A:PaaSB:IaaSC:SaaS答案:A第三章测试1.指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串称为（）。

A:语法B:正则表达式C:通配符D:字符集答案:B2.图像是以数字（）形式存储在计算机中的, 其中每一个数字表示一个像素。

A:向量B:矩阵C:张量D:标量答案:B3.智能健康手环的应用开发, 体现了（）的数据采集技术的应用。

A:网络爬虫B:统计报表C:传感器D:API接口答案:C4.在网络爬虫的爬行策略中, 应用最为基础的是（）。

A:反向链接策略B:广度优先遍历策略C:大站优先策略D:深度优先遍历策略E:高度优先遍历策略答案:BD5.等级型和数值型数据可以排序和比较大小。

大数据概论智慧树知到课后章节答案2023年下上海商学院

大数据概论智慧树知到课后章节答案2023年下上海商学院上海商学院第一章测试1.下列哪个表述是错误的？A:在芯片里运行的程序可以是C语言编写。

B:在芯片里运行的程序可以是面向对象语言编写。

C:在芯片里运行的程序可以是汇编语言编写。

D:在芯片里运行的程序可以是二进制语言编写。

答案:在芯片里运行的程序可以是面向对象语言编写。

2.以下哪一种不是计算机操作系统？A:Linux B:iOS C:Android D:Oracle答案:iOS3.微软对Windows界面的开发主要受到哪家公司的启发？A:3M B:施乐 C:IBM D:苹果答案:苹果4.Windows和Linux或者iOS和Android之间的最大区别在于什么？A:速度：前者快后者慢 B:用户体验：前者优后者差 C:价格：前者贵后者便宜 D:思想：前者封闭后者开源答案:思想：前者封闭后者开源5.医疗领域如何利用大数据？A:用户行为分析 B:社保资金安全 C:个性化医疗 D:临床决策支持答案:用户行为分析;社保资金安全;个性化医疗;临床决策支持6.现在非结构化数据已经占人类数据量的25%。

A:对 B:错答案:错7.大数据与云计算结合起来将给世界带来一场深刻的管理技术革命与社会治理创新。

A:错 B:对答案:对8.Python是一种面向对象、（）计算机程序设计语言。

A:编译型 B:解释型答案:解释型9.ASCII码使用一个字节编码。

A:错 B:对答案:对10.GBK是只用来编码汉字的，GBK全称《汉字内码扩展规范》，使用双字节编码。

答案:对第二章测试1.人类科学主要经过了经验科学、理论科学、计算科学、数据科学四个阶段。

A:错 B:对答案:对2.大数据的利用过程是（）。

A:采集-清洗-统计-挖掘 B:采集-挖掘-清洗-统计 C:采集-统计-清洗-挖掘 D:采集-清洗-挖掘-统计答案:采集-清洗-统计-挖掘3.信息只有通过反思、启发和学习等过程被每个个体予以有效处理，才能有用。

智慧树答案大数据分析与预测技术知到课后答案章节测试2022年

第一章1.以下哪些情景可以使用大数据分析与预测建模技术？答案:预测电商网站某商品未来的销售量;保险公司的骗保分析;预测某移动运营商客户转移到竞争对手的可能性2.有关大数据分析与预测的过程认识正确的是？答案:大数据分析与预测得到的结果需要通过检验样本的测试，甚至需要在现实中实验才能投入使用。

3.有关数据质量的认识正确的是？答案:各种数据质量问题对机器学习算法的影响很大，因此需要充分预处理才能进入建模阶段。

4.下面有关机器学习正确的说法是？答案:每种机器学习算法都有一定的使用范围，只能处理某类数据和问题。

;在机器学习过程中，需要人的经验指导数据的选择、噪声的消除、合适算法的选择以及调参等工作。

;机器学习可以从有限的样本数据中得到有用的规律，并能对新样本进行一定的泛化预测。

5.组织通过销售数据或洞察以创造新的收入来源，这属于大数据应用成熟度的哪一个阶段？答案:数据货币化6.如果以药品Ｂ来代替药品Ａ的使用，那么这个病人生存的几率有多大？这种分析属于答案:预测性分析7.NoSQL数据库作为非关系型数据库，只能够用来存储非结构数据。

答案:错8.根据患者的视网膜图像等相关医疗信息，使用机器学习算法进行建模，预测患者患糖尿病的可能性。

这个任务需要以下使用哪一类机器学习算法？答案:监督学习9.大数据分析的预测建模任务主要包括哪几大类问题？答案:关联分析;回归;分类10.下列哪些分析需要机器学习？答案:预测移动运营商用户未来使用的网络流量;寻找移动运营商用户对某类套餐使用的潜在客户;统计移动运营商的用户在某段时间对短信的使用数量第二章1.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？答案:数据预处理2.下面哪个步骤不属于数据预处理的过程？答案:分类和预测3.下面哪种不属于数据预处理的方法？答案:估计遗漏值4.以下哪种方法不属于特征选择的标准方法答案:抽样5.下面不属于创建新属性的相关方法的是答案:特征修改6.数据清洗包括以下哪几个方面？答案:噪声数据平滑技术;缺失数据处理方法;时间相关数据的处理7.以下哪几个是数据归约的策略？答案:数据压缩;数值归约;离散化和概念分层产生;数据立方体聚集;维度归约8.以下哪些是数据离散化技术？答案:ChiMerge技术;基于熵的离散化;分箱技术9.特征选择的目标有哪些？答案:更好地理解生成数据的基本过程;提供更快、性价比更高的学习过程;提高数据挖掘模型的性能10.特征选择算法一般分为那几类？答案:子集选择算法;特征排列算法第三章1.有关决策树的说法哪个是错误的？答案:决策树的深度越大越好2.有关决策树与特征工程的关系，以下说法错误的是？答案:决策树获得的特征是区分不同类别的最优特征。

智慧树知到答案数据智能与应用章节测试答案

第一章单元测试1、判断题：大数据是人们在大规模数据的基础上做到的事情，这些事情是在小规模数据的基础上无法完成的。

（）选项：A:对B:错答案: 【对】2、判断题：随着互联网多媒体应用的出现，非结构化数据将占有更大的比重。

（）选项：A:对B:错答案: 【对】3、单选题：任何一列都不可再分的数据为下列哪种数据？（）选项：A:结构化数据B:文本数据C:半结构化数据D:无结构数据答案: 【结构化数据】4、多选题：在《大数据时代》中所提到的大数据三个特征为（）。

选项：A:效率而非精确B:种类而非数量C:全面而非抽样D:相关而非因果答案: 【效率而非精确;全面而非抽样;相关而非因果】5、多选题：下列哪些是深度学习框架？（）选项：A:Scikit-learnB:PyTorchC:TensorFlowD:Jupyter答案: 【PyTorch;TensorFlow】第二章单元测试1、单选题：大数据产生的萌芽阶段为：（）选项：A:21实际初到2010年B:20世纪90年代到21世纪初C:2011年至今D:19世纪90年代到20世纪初答案: 【20世纪90年代到21世纪初】2、判断题：“深度学习”概念是杰弗里辛顿及他的学生鲁斯兰萨拉赫丁诺夫于2005年提出的。

（）选项：A:错B:对答案: 【错】3、判断题：机器学习的最佳场景是大数据。

（）选项：A:错B:对答案: 【对】4、多选题：下列属于数据智能的超强魔力的是：（）选项：A:描述性分析B:预测性分析C:诊断性分析D:指令性分析答案: 【描述性分析;预测性分析;诊断性分析;指令性分析】《人工智能北京共识》于2019年5月25日发布，提出各个参与方应遵循有益于人类共同命运构建和社会发展的几条原则？（）选项：A:15B:10C:25D:20答案: 【15】第三章单元测试1、单选题：一下属于分类算法的是（）。

选项：A:线性回归B:DBSCANC:K-MeansD:逻辑回归答案: 【逻辑回归】2、多选题：以下属于带有正则化的回归算法的是（）。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第一章单元测试1、单选题：大数据泛指巨量的（）。

选项：A:数组集B:数字集C:数据集D:字符集答案: 【数据集】2、单选题：数据分析指的是用适当的（）对收集来的大量数据进行分析，提取有用信息并形成结论。

选项：A:统计分析方法B:定性与定量方法C:概率分析方法D:系统分析方法答案: 【统计分析方法】3、单选题：浏览数据这一步骤可以通过对大数据进行（）来实现。

选项：A:流程化B:分析化C:简易化D:可视化答案: 【可视化】4、多选题：Gartner将大数据定义为是需要新处理模式才能具有更强的（）以及高增长率和多样化的信息资产。

选项：A:流程优化能力B:数据处理能力C:决策力D:洞察发现力答案: 【流程优化能力;决策力;洞察发现力】5、多选题：我们通常用“4V”来反映大数据的特点，4V是指（）。

选项：A:VelocityB:VarietyC:VariousD:Valid答案: 【Velocity;Variety】6、多选题：大数据分析可以应用在那些领域（）。

选项：A:商业领域B:医疗卫生领域C:交通运输领域D:农业领域答案: 【商业领域;医疗卫生领域;交通运输领域;农业领域】7、多选题：大数据分析的过程包括（）。

选项：A:数据理解B:数据处理C:数据优化D:数据准备答案: 【数据理解;数据准备】8、判断题：数据只要有足够的规模就可以称为大数据。

（）选项：A:对B:错答案: 【对】9、判断题：大数据分析是大数据到知识，再到信息的关键步骤。

（）选项：A:错B:对答案: 【错】10、判断题：大数据分析模型用于描述数据之间的关系。

如确定自变量、因变量，进而通过聚类、回归等方法确定其关系。

（）选项：A:对B:错答案: 【对】第二章单元测试1、单选题：数据仓库的定义于哪一年提出（）。

选项：A:1991B:2015C:1902D:2002答案: 【1991】2、单选题：符合选择建立数据仓库平台的公认标准的是（）。

选项：A:是否提供支持少量数据的数据加载B:是否支持对数据库的管理C:是否支持串联操作D:数据库对大数据量的支持能力答案: 【数据库对大数据量的支持能力】3、单选题：建立数据仓库的首要步骤是（）。

选项：A:确认主题B:数据预处理C:构建模型D:数据仓库管理答案: 【确认主题】4、单选题：数据仓库的数据模型进行逻辑建模的分析角度是（）。

选项：A:经济分析B:政治分析C:逻辑分析D:业务分析答案: 【业务分析】5、多选题：建立数据仓库的选择平台是（）。

选项：A:维度表B:建模工具C:分析工具D:数据库答案: 【建模工具;分析工具;数据库】6、多选题：建立数据仓库的步骤是（）。

选项：A:选择平台B:数据清洗C:确认主题D:数据传输答案: 【选择平台;数据清洗;确认主题;数据传输】7、多选题：符合多维度数据模型构成的是（）。

选项：A:维度表B:测量表C:事实表D:电子表答案: 【维度表;事实表】8、多选题：属于衡量业务性能指标的是（）。

选项：A:时间B:销售量C:销售额D:地点编号答案: 【销售量;销售额】9、判断题：数据仓库的逻辑数据模型是一维结构的数据视图。

（）选项：A:错B:对答案: 【错】10、判断题：元数据是对数据仓库中数据的描述信息。

（）选项：A:错B:对答案: 【对】第三章单元测试1、单选题：下列哪项属于随机抽样的缺点？（）选项：A:抽样方法不具有科学性B:样本中个体数量过多，效率低下C:样本不具有代表性D:需要将样本分为不同类别答案: 【样本中个体数量过多，效率低下】2、单选题：整群抽样中将总体各单位归并成若干个（）的集合，成为群，然后以群为单位抽取样本。

选项：A:可以交叉，可以重复B:互不交叉，可以重复C:可以交叉，互不重复D:互不交叉，互不重复答案: 【互不交叉，互不重复】3、判断题：数据抽样和过滤的相似之处是它们的目的都是为了减少要处理的数据量。

（）选项：A:对B:错答案: 【对】4、单选题：以下哪种方法适用于原始数据的取值范围已经确定的情况？（）A:log函数转换B:Z-score标准化C:0-1标准化D:反正切函数答案: 【0-1标准化】5、多选题：数据有那些性质？（）选项：A:完整性B:精确性C:一致性D:时效性答案: 【完整性;精确性;一致性;时效性】6、多选题：数据缺陷有哪些类型？（）选项：A:错误数据B:噪声数据C:缺失数据D:非规范化数据答案: 【噪声数据;缺失数据;非规范化数据】7、单选题：先将总体的观察按某一顺序号分为n个部分，再从每一部分各抽取一定数量的观察组成样本，属于哪种抽样方式？（）选项：A:整群抽样B:随机抽样C:系统抽样D:按比例抽样答案: 【系统抽样】8、判断题：数据清洗浪费时间，是没有意义的。

（）选项：A:对答案: 【错】9、判断题：数据标准化就是为了方便数据的下一步处理，而对数据进行的等比例缩放。

（）选项：A:对B:错答案: 【对】10、多选题：下列属于逻辑错误清洗的是（）选项：A:修正矛盾内容B:改正格式错误C:去除不合理值D:去重答案: 【修正矛盾内容;去除不合理值;去重】第四章单元测试1、单选题：关于经济计量模型进行预测出现误差的原因，正确的说法是（）。

选项：A:只有系统因素B:其他三个选项都不正确C:既有随机因素，又有系统因素D:只有随机因素答案: 【既有随机因素，又有系统因素】2、单选题：在多元线性回归模型中，若某个解释变量对其余解释变量的判定系数接近于1，则表明模型中存在（）。

选项：A:异方差性B:序列相关C:多重共线性D:高拟合优度答案: 【多重共线性】3、单选题：Logistic回归系数与优势比OR的关系为（）。

A:其他三个选项均正确B:β=0等价于OR=1，β＞0等价于OR＞1C:β＞0等价于OR＞1D:β＜0等价于OR＜1答案: 【其他三个选项均正确】4、单选题：Logistic回归可用于（）。

选项：A:其他三个选项均正确B:预测C:影响因素分析D:校正混杂因素答案: 【其他三个选项均正确】5、单选题：Logistic 回归中自变量如为多分类变量，宜将其按哑变量处理，与其他变量进行变量筛选时可用（）。

选项：A:软件自动筛选的逐步法B:应将几个哑变量作为一个因素，整体进出回归方程C:软件自动筛选的前进法D:软件自动筛选的后退法答案: 【应将几个哑变量作为一个因素，整体进出回归方程】6、单选题：在由n=30的一组样本估计的、包含3个解释变量的线性回归模型中，计算得多重决定系数为0.8500，则调整后的多重决定系数为（）。

选项：A:0.8389B:0.8603C:0.8327D:0.8655答案: 【0.8327】7、单选题：半对数模型中，参数1的含义是（）。

选项：A:X的绝对量变化，引起Y的绝对量变化B:Y关于X的边际变化C:Y关于X的弹性D:X的相对变化，引起Y的期望值绝对量变化答案: 【X的相对变化，引起Y的期望值绝对量变化】8、多选题：回归变差，或回归平方和是指（）。

选项：A:被解释变量的实际值与平均值的离差平方和B:解释变量变动所引起的被解释变量的变差C:被解释变量的总变差与剩余变差之差D:被解释变量的回归值与平均值的离差平方和答案: 【解释变量变动所引起的被解释变量的变差;被解释变量的总变差与剩余变差之差;被解释变量的回归值与平均值的离差平方和】9、多选题：剩余变差是指（）。

选项：A:随机因素影响所引起的被解释变量的变差解释变量的实际值与平均值的离差平方和B:被解释变量的实际值与回归值的离差平方和C:被解释变量的总变差与回归平方和之差D:被解释变量的变差中，回归方程不能做出解释的部分答案: 【随机因素影响所引起的被解释变量的变差解释变量的实际值与平均值的离差平方和;被解释变量的实际值与回归值的离差平方和;被解释变量的总变差与回归平方和之差;被解释变量的变差中，回归方程不能做出解释的部分】10、单选题：参数的估计量具备有效性是指（）。

选项：A:为最小B:C:Var()=0D:Var()为最小答案: 【Var()为最小】第五章单元测试1、单选题：以下不属于数据挖掘软件的是（）选项：A:Apache Spark；B:SPSS Modeler；C:Weka；D:Knime；答案: 【Apache Spark；】2、单选题：购物篮分析中，数据是以（）的形式呈现选项：A:不对称二元变量；B:自变量；C:布尔变量；D:对称二元变量；答案: 【不对称二元变量；】3、单选题：一个关联规则同时满足最小支持度和最小置信度，我们称之为（）选项：A:强规则；B:弱规则；C:简洁规则；D:关联规则；答案: 【强规则；】4、单选题：在回归与相关分析中，因变量值随自变量值的增大（减小）而减小（增大）的现象叫做（）选项：A:间接相关；B:负相关；C:直接相关；D:正相关；答案: 【负相关；】给定关联规则A-B，意味着：若A发生，B也会发生。

（）选项：A:对B:错答案: 【错】6、判断题：不满足给定评价度量的关联规则是无趣的（）选项：A:对B:错答案: 【错】7、判断题：频繁闭项集可用来无损压缩频繁项集。

（）选项：A:错B:对答案: 【对】8、多选题：下面购物篮能够提取的最大项集和最小项集的数量是多少（）。

ID 购买项：1 .牛奶，啤酒、2 .面包，黄油，牛奶、3 .牛奶，尿布，饼干、4 .面包，黄油，饼干、5 .啤酒，饼干，尿布、6 .牛奶，尿布，面包，黄油、7. 面包，黄油，尿布、8 .啤酒，尿布、9. 牛奶，尿布，面包，黄油、10. 啤酒，饼干选项：A:4；B:2；C:3；D:1；答案: 【4；;3；】9、多选题：关联规则的评价度量主要有（）选项：A:支持度；B:饱和度；C:频繁度；D:置信度；答案: 【支持度；;置信度；】关联分析中表示关联关系的方法主要有（）选项：A:强关联规则；B:项集；C:关联规则；D:单项集；答案: 【项集；;关联规则；】第六章单元测试1、单选题：朴素贝叶斯算法是贝叶斯算法中最简单的一个算法，假设它里边的各个类条件是（）。

选项：A:交叉的B:独立的C:相似的D:相同的答案: 【独立的】2、单选题：关于朴素贝叶斯算法，下列说法正确的是（）。

选项：A:通过先验概率的结果，对后验概率不断地调整B:对数据的缺失值不敏感，所需估计的参数也比较少C:假设样本各属性之间是相互独立的D:有着坚实的数学理论基础，分类效果比其他分类器好答案: 【假设样本各属性之间是相互独立的】3、多选题：随机森林的训练过程分为？（）。

选项：A:生长过程B:决策过程C:生成过程D:投票过程答案: 【生长过程;投票过程】4、多选题：影响随机森林分类性能的主要因素（）。

选项：A:单颗决策树的分类强度B:森林中决策树的相关度C:决策树的数量D:决策树的分类算法答案: 【单颗决策树的分类强度;森林中决策树的相关度】5、多选题：随机森林结合策略有哪些？（）。