大数据CPDA考试模拟样题—数据分析算法与模型

合集下载

cpda数据分析师考试真题

cpda数据分析师考试真题

cpda数据分析师考试真题单选题1.“大数据”是指规模超过1000TB的数据集。

正确答案:X2.概率为0的事件是不可能事件,概率为1的事件是必然事件。

正确答案:X3.将总体中的各单位按某一标志排列,再依固定间隔抽选调查单位的抽样方式为等距抽样。

正确答案:V4.统计图中的散点图主要用来观察变量之间的相关关系。

正确答案:V5.抽样误差是指在调查过程中由于观察、测量等差错所引起的误差。

正确答案:X6.Datahoop1.2版中K-means聚类分析要求输入的数据必须是数值型数据。

正确答案:V7.如果事件A,B互斥,且P(A)>0,P(B)>0,则A,B独立。

正确答案:X8.SQL中删除表的命令是“DELETETABL”正确答案:X9.聚类分析中,各变量的取值在数量级上不能有过大的差异。

正确答案:V10.如果某产品的生产和销售正处于市场成长期,其营销重点应该是延长产品寿命。

正确答案:V二、单选题1.检查异常值常用的统计图形是()A、柱状图B箱线图C帕累托图D气泡图正确答案:B2.什么是KDD?()A、数据挖掘与知识发现B领域知识发现C文档知识发现D动态知识发现正确答案:A3.东北人养了一只鸡和一头猪。

一天鸡问猪:"主人呢?"猪说:"出去买蘑菇了。

"鸡听了撒丫子就跑。

猪说:"你跑什么?"鸡叫道:有本事主人买粉条的时候你小子别跑!"以上对话体现了数据分析方法中的()A、关联B聚类C分类D自然语言处理正确答案:A4.假设检验中显著性水平•是()A、推断时犯取伪错误的概率B推断时取伪弃真的概率C正确推断的概率D是推断的可信度正确答案:B5.矩估计的基本原理是()A、用样本矩估计总体矩B使得似然函数达到最大C使得似然函数达到最小D小概率事件在一次试验中是不可能发生的正确答案:A6.SQL查询语句中HAVING子句的作用是()A、指出分组查询的范围B指出分组查询的值C指出分组查询的条件D指出分组查询的内容正确答案:C7.以下哪项关于决策树的说法是错误的()A、冗余属性不会对决策树的准确率造成不利的影响B子树可能在决策树中重复多次C决策树算法对于噪声的干扰非常敏感D寻找最佳决策树是NP完全问题正确答案:C8.以下哪种方法不属于于监督学习模型()A、决策树B线性回归C关联分析D判别分析正确答案:C9考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,若采用合并策略,则由候选产生过程得到4-项集不包含()A、1,2,3,4B、1,2,3,5C、1,2,4,5D、1,3,4,5正确答案:C10.下列不属于原始数据来源的是()A、行政记录B统计调查C统计年鉴D实验正确答案:C三、多选题1.以下关于皮尔森相关分析叙述正确的是()A、两变量独立,两者的皮尔森相关系数必然等于0B两变量皮尔森相关系数不等于0,两者必然不独立C皮尔森相关系数是否等于零,不能指明两变量是否独立D两变量不独立,两者的皮尔森相关系数必然不等于0正确答案:AB2.在实际数据中,元组在某些属性上缺少值是常有的。

数据分析算法与模型(一)(附答案)

数据分析算法与模型(一)(附答案)

数据分析算法与模型模拟题(一)一、计算题(共4题,100分)1、影响中国人口自然增长率的因素有很多,据分析主要因素可能有:(1)从宏观经济上看,经济整体增长是人口自然增长的基本源泉;(2)居民消费水平,它的高低可能会间接影响人口增长率。

(3)文化程度,由于教育年限的高低,相应会转变人的传统观念,可能会间接影响人口自然增长率(4)人口分布,非农业与农业人口的比率也会对人口增长率有相应的影响。

为了全面反映中国“人口自然增长率”的全貌,选择人口增长率作为被解释变量,以反映中国人口的增长;选择“国名收入”及“人均GDP”作为经济整体增长的代表;选择“居民消费价格指数增长率”作为居民消费水平的代表。

暂不考虑文化程度及人口分布的影响。

从《中国统计年鉴》收集到以下数据(见表1):表1中国人口增长率及相关数据年份人口自然增长率(%。

)国民总收入(亿元)居民消费价格指数增长率(CPI)%人均GDP(元)1988 15.73 15037 18.8 1366 1989 15.04 17001 18 1519 1990 14.39 18718 3.1 1644 1991 12.98 21826 3.4 1893 1992 11.6 26937 6.4 2311 1993 11.45 35260 14.7 2998 1994 11.21 48108 24.1 4044 1995 10.55 59811 17.1 5046 1996 10.42 70142 8.3 5846 1997 10.06 78061 2.8 6420 1998 9.14 83024 -0.8 6796 1999 8.18 88479 -1.4 7159 2000 7.58 98000 0.4 78582001 6.95 108068 0.7 8622 2002 6.45 119096 -0.8 9398 2003 6.01 135174 1.2 10542 2004 5.87 159587 3.9 12336 2005 5.89 184089 1.8 14040 2006 5.38 213132 1.5 16024设定的线性回归模型为:算法1多元线性回归.xlsx(1)求出模型中的各个参数,试从多个角度评价此线性回归模型,并检验模型的经济意义;(2)检验模型中是否存在多重共线性问题(逐步回归),若有,试消除多重共线性。

大数据算法与模型考试 选择题 60题

大数据算法与模型考试 选择题 60题

1. 在大数据处理中,MapReduce是一种常用的计算模型,它主要由哪两个阶段组成?A. Map和FilterB. Reduce和SortC. Map和ReduceD. Filter和Reduce2. 下列哪个不是大数据的5V特征之一?A. VolumeB. VelocityC. VarietyD. Visibility3. 在数据挖掘中,K-means算法属于哪一类算法?A. 分类算法B. 聚类算法C. 关联规则算法D. 回归算法4. 下列哪个工具不是用于大数据处理的?A. HadoopB. SparkC. ExcelD. Hive5. 在机器学习中,过拟合是指模型在训练数据上表现良好,但在新数据上表现不佳。

下列哪个方法可以减少过拟合?A. 增加数据量B. 减少特征数量C. 增加模型复杂度D. 减少训练次数6. 下列哪个算法是基于决策树的集成学习方法?A. K-NNB. Random ForestC. SVMD. Naive Bayes7. 在大数据分析中,ETL代表什么?A. Extract, Transform, LoadB. Encode, Test, LoadC. Extract, Transfer, LinkD. Encode, Transform, Link8. 下列哪个不是NoSQL数据库的类型?A. 键值存储B. 文档存储C. 关系数据库D. 图形数据库9. 在数据预处理中,数据清洗的主要目的是什么?A. 增加数据量B. 减少数据量C. 提高数据质量D. 降低数据质量10. 下列哪个算法是用于推荐系统的?A. AprioriB. PageRankC. Collaborative FilteringD. K-means11. 在大数据环境中,HDFS是哪个框架的文件系统?A. HadoopB. SparkC. HiveD. MongoDB12. 下列哪个不是大数据分析的步骤?A. 数据收集B. 数据存储C. 数据加密D. 数据分析13. 在机器学习中,监督学习与非监督学习的主要区别是什么?A. 是否有标签数据B. 是否使用神经网络C. 是否使用决策树D. 是否使用回归分析14. 下列哪个算法是用于异常检测的?A. PCAB. SVMC. K-NND. DBSCAN15. 在大数据处理中,流处理与批处理的主要区别是什么?A. 数据处理的速度B. 数据处理的量C. 数据处理的类型D. 数据处理的频率16. 下列哪个不是大数据技术的优势?A. 提高数据处理速度B. 降低数据存储成本C. 减少数据分析的准确性D. 增强数据分析的能力17. 在数据挖掘中,关联规则挖掘的主要目的是什么?A. 发现数据中的模式B. 预测数据的趋势C. 分类数据D. 聚类数据18. 下列哪个不是数据仓库的特征?A. 面向主题B. 集成性C. 时变性D. 实时性19. 在大数据分析中,OLAP代表什么?A. Online Analytical ProcessingB. Offline Analytical ProcessingC. Online Application ProcessingD. Offline Application Processing20. 下列哪个算法是用于文本挖掘的?A. TF-IDFB. K-meansC. SVMD. Random Forest21. 在大数据环境中,Spark与Hadoop的主要区别是什么?A. 数据处理速度B. 数据存储方式C. 数据处理模型D. 数据分析工具22. 下列哪个不是数据可视化的工具?A. TableauB. Power BIC. ExcelD. Hadoop23. 在机器学习中,特征选择的主要目的是什么?A. 增加模型复杂度B. 减少数据量C. 提高模型性能D. 降低数据质量24. 下列哪个算法是用于时间序列分析的?A. ARIMAB. K-NNC. SVMD. Random Forest25. 在大数据处理中,数据湖与数据仓库的主要区别是什么?A. 数据存储方式B. 数据处理速度C. 数据分析工具D. 数据处理模型26. 下列哪个不是大数据分析的应用领域?A. 金融B. 医疗C. 教育D. 娱乐27. 在数据挖掘中,分类与回归的主要区别是什么?A. 输出类型B. 输入类型C. 算法类型D. 数据类型28. 下列哪个不是大数据技术的挑战?A. 数据安全B. 数据隐私C. 数据质量D. 数据简单性29. 在大数据分析中,数据治理的主要目的是什么?A. 提高数据质量B. 降低数据成本C. 增加数据量D. 减少数据类型30. 下列哪个算法是用于图像识别的?A. CNNB. K-meansC. SVMD. Random Forest31. 在大数据环境中,数据脱敏的主要目的是什么?A. 提高数据质量B. 保护数据隐私C. 增加数据量32. 下列哪个不是大数据分析的工具?A. RB. PythonC. JavaD. Excel33. 在机器学习中,交叉验证的主要目的是什么?A. 提高模型性能B. 减少数据量C. 增加数据类型D. 降低数据质量34. 下列哪个算法是用于序列挖掘的?A. AprioriB. PageRankC. Collaborative FilteringD. K-means35. 在大数据处理中,数据集成的主要目的是什么?A. 提高数据质量B. 降低数据成本C. 增加数据量D. 减少数据类型36. 下列哪个不是大数据技术的应用场景?A. 智能推荐B. 风险管理C. 数据加密D. 预测分析37. 在数据挖掘中,频繁项集挖掘的主要目的是什么?A. 发现数据中的模式B. 预测数据的趋势C. 分类数据D. 聚类数据38. 下列哪个不是数据仓库的设计原则?A. 面向主题B. 集成性C. 时变性D. 实时性39. 在大数据分析中,数据湖的主要优势是什么?A. 数据存储方式C. 数据分析工具D. 数据处理模型40. 下列哪个算法是用于社交网络分析的?A. PageRankB. K-meansC. SVMD. Random Forest41. 在大数据环境中,数据质量管理的主要目的是什么?A. 提高数据质量B. 降低数据成本C. 增加数据量D. 减少数据类型42. 下列哪个不是大数据分析的步骤?A. 数据收集B. 数据存储C. 数据加密D. 数据分析43. 在机器学习中,模型评估的主要目的是什么?A. 提高模型性能B. 减少数据量C. 增加数据类型D. 降低数据质量44. 下列哪个算法是用于推荐系统的?A. AprioriB. PageRankC. Collaborative FilteringD. K-means45. 在大数据处理中,数据清洗的主要目的是什么?A. 提高数据质量B. 降低数据成本C. 增加数据量D. 减少数据类型46. 下列哪个不是大数据技术的优势?A. 提高数据处理速度B. 降低数据存储成本C. 减少数据分析的准确性D. 增强数据分析的能力47. 在数据挖掘中,关联规则挖掘的主要目的是什么?A. 发现数据中的模式B. 预测数据的趋势C. 分类数据D. 聚类数据48. 下列哪个不是数据仓库的特征?A. 面向主题B. 集成性C. 时变性D. 实时性49. 在大数据分析中,OLAP代表什么?A. Online Analytical ProcessingB. Offline Analytical ProcessingC. Online Application ProcessingD. Offline Application Processing50. 下列哪个算法是用于文本挖掘的?A. TF-IDFB. K-meansC. SVMD. Random Forest51. 在大数据环境中,Spark与Hadoop的主要区别是什么?A. 数据处理速度B. 数据存储方式C. 数据处理模型D. 数据分析工具52. 下列哪个不是数据可视化的工具?A. TableauB. Power BIC. ExcelD. Hadoop53. 在机器学习中,特征选择的主要目的是什么?A. 增加模型复杂度B. 减少数据量C. 提高模型性能D. 降低数据质量54. 下列哪个算法是用于时间序列分析的?A. ARIMAB. K-NNC. SVMD. Random Forest55. 在大数据处理中,数据湖与数据仓库的主要区别是什么?A. 数据存储方式B. 数据处理速度C. 数据分析工具D. 数据处理模型56. 下列哪个不是大数据分析的应用领域?A. 金融B. 医疗C. 教育D. 娱乐57. 在数据挖掘中,分类与回归的主要区别是什么?A. 输出类型B. 输入类型C. 算法类型D. 数据类型58. 下列哪个不是大数据技术的挑战?A. 数据安全B. 数据隐私C. 数据质量D. 数据简单性59. 在大数据分析中,数据治理的主要目的是什么?A. 提高数据质量B. 降低数据成本C. 增加数据量D. 减少数据类型60. 下列哪个算法是用于图像识别的?A. CNNB. K-meansC. SVMD. Random Forest答案部分1. C2. D3. B4. C5. B6. B7. A9. C10. C11. A12. C13. A14. A15. D16. C17. A18. D19. A20. A21. A22. D23. C24. A25. A26. D27. A28. D29. A30. A31. B32. C33. A34. A35. A36. C37. A38. D39. A40. A41. A42. C43. A44. C45. A46. C47. A48. D49. A50. A51. A52. D53. C54. A55. A56. D57. A59. A60. A。

CPDA考试真题与答案51

CPDA考试真题与答案51

一、判断题(题数:15,共15.0 分)1.定量属性可以是整数值或者是连续值。

()正确答案:√2.分类模型的误差大致分为两种:训练误差()和泛化误差()。

()正确答案:√3.在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。

()正确答案:×4.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。

()正确答案:×5.聚类分析可以看作是一种非监督的分类。

()正确答案:√6.如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。

()正确答案:√7.允许误差应根据错误记录对整个系统可能带来的破坏来确定,通常正是那些低使用率的产品或不常使用的产品为库存误差带来很大麻烦,因此应结合数量方差百分比和绝对值方差来确定误差。

()正确答案:√8.召回率反映的是预测为正中的样本中正例的概率。

()正确答案:×9.支持度表示前项与后项在一个数据集中同时出现的频率。

()正确答案:√10.最大最小值标准化法也叫极值法,该方法适用于已知数据集的最小值或最大值情况。

()正确答案:√11.波特五力模型中五个压力来源是供应商议价能力、购买者的议价能力、行业新进入者的威胁、替代产品的威胁及企业内部的管理压力。

()(1.0分)1.0 分正确答案:×12.异常值在数理统计里一般是指一组观测值中与平均值的偏差超过三倍标准差的测定值。

()正确答案:×13.数据可视化可以便于人们对数据的理解。

()正确答案:√14.大数据思维,是指一种意识,认为公开的数据一旦处理得当可以为人类急需解决的问题提供答案。

()正确答案:√15.资金本身具有时间价值。

()正确答案:×二、单选题(题数:30,共45.0 分)1.某超市研究销售记录发现,购买牛奶的人很大概率会购买面包,这种属于数据挖掘的哪类问题?()A、聚类分析B、关联规则C、分类分析D、自然语言处理正确答案:B2.以下两种描述分别对应哪两种对分类算法的评价标准?()(a)警察抓杀人犯,描述警察抓的人中有多少个是杀人犯的标准。

《大数据分析与算法》期末考试试卷(答案)

《大数据分析与算法》期末考试试卷(答案)

《模拟电子技术》期末考试试卷一、选择题(每题2分,共10题,共20分)1.Jupyter notebook不具备的功能是(D)A.Jupyter notebook可以直接⽣成⽣份交互式⽣档B.Jupyter notebook可以安装Python库C.Jupyter notebook可以导出HTML⽣件D.Jupyter notebook可以将⽣件分享给他⽣2.在Jupyter notebook的cell中安装包语句正确的是( C )A.pip install 包名B.conda install 包名C.!pip install 包名D.!conda install 包名3.下列选项中,布尔值为True的是(A)。

A、1B、0C、NoneD、{}4.每个Python对象都具有布尔值,下列是True的是(C)。

A、NoneB、0C、1D、""5.下列选项中,符合Python命名规范的标识符是(C)A、user-PasswdB、ifC、_nameD、setup.exe6.改变数组的操作有()。

A.切片B.索引C.转置D.堆叠7.下列不属于数组的常用统计函数的是( A )。

A.split B.sum C.mean D.std8.下列关于pandas数据读/写说法错误的是( D )。

A.read_csv能够读取所有文本文档的数据B.read_sql能够读取数据库的数据C.to_csv函数能够将结构化数据写入.csv文件D.to_excel函数能够将结构化数据写入Excel文件9.sum=0 for i in range(100): if(i%10): continue sum=sum+i print(sum) 上述程序的执行结果是(C)A、5050B、4950C、450D、4510.Numpy提供了两种基本对象,⽣种是ndarray,另⽣种是( B)A.arrayB.funcC.matrixD.Series二、填空题(共10题,共25分)1.Series是⽣种⽣维数组对象,包含⽣个值序列。

数据分析算法与模型模拟题(附答案)

数据分析算法与模型模拟题(附答案)

、计算题(共4题,10。

分)K通过分析关于二手车的相关变量,研究这些变量怎么影响二手车的交易价格。

吐手车抽样-预处理.CSV收集的数据包含:对数据进行预处理,分析应采用的模型,写出详细的思路和数据分析过程,用多种方法检验和解释模型,说明模型的实际意义。

答案解析:因变量采用车•辆报价数据,白变量选择除车辆报价数据之外的其他变最,进行线性回归分析可以看到删除了三个变呈,R方和调整R方都接近1,模型拟合度很好。

由于自变量中真皮座椅、外观缺陷、车身类型未通过t检验,因此需要将这三个变最删除后再做线性回归分析,可得:Y二I. 1036-0. 0646ShangPaiShijian-0. 10641iCheng-0. 4235biansu+0. 8482z houju-1.0036Pa i I i ang+0. 0154ma I i -0. 1729t i anchuang I +0. 75811 i anChllan2+0. 3974daochey i ngx i ang-0.5061GPS-0. 2864WaigUan_XiUfU+0. 5156yuanjia+0. 166 5paifang^0. 0199ChangShang模型拟合效果很好,且通过了F检验和t检验,(常数项的t检验可以不通过)可以根据此模型对二手车进行价格评估2、利用APriori算法,写出下列购物篮数据的频繁项集和强关联规则(设定支若此购物篮数据为某超市随机选取的7位顾客的交易数据,请结合之前得到的结果为该超市提一些建议。

答奉解析:先将给定的数据整理成datahoop关联分析町识别的格式,导入datahoop平台.对变屋牛肉、鸡肉、牛奶、奶酪、牠子、衣服进行关联分析。

设置就小支持度为2/7=0. 286,就小置信度为0,可以得到频繁项集(別除重复)•设垃最小支持数为2/7=0. 286、昴小过信度二0. 7・可以得到提升度〉1的冇效强关联规则(删除单项)解答:TT先对原数据进行预处理至然后再处理至A AB JCD E1 b c Cl e2F F T T3T T F T4 T F T T5F T T T6T T F T7T F T T8F F T T F9T T T F F10 T F F T T11 Tr T F F T1213导入datahoop ¥台,设置支持度为0. 286,置信度为0支持度排名项目1顶目210>克持度置彳言度提升度120> f )0.130&gt771—项的频蠻集40■90.1&gt61}■90.8翻 1.0714seUU*>0。

大数据CPDA考试模拟样题—数据分析算法与模型

大数据CPDA考试模拟样题—数据分析算法与模型

⼤数据CPDA考试模拟样题—数据分析算法与模型考试模拟样题—数据分析算法与模型⼀.计算题 (共4题,100.0分)1.下⾯是7个地区2000年的⼈均国内⽣产总值(GDP)和⼈均消费⽔平的统计数据:⼀元线性回归.xlsx⼀元线性回归预测.xlsx要求:(1)绘制散点图,并计算相关系数,说明⼆者之间的关系;(2)⼈均GDP作⾃变量,⼈均消费⽔平作因变量,利⽤最⼩⼆乘法求出估计的回归⽅程,并解释回归系数的实际意义;(3)计算判定系数,并解释其意义;(4)检验回归⽅程线性关系的显著性(a=0.05);(5)如果某地区的⼈均GDP为5000元,预测其⼈均消费⽔平;(6)求⼈均GDP为5000元时,⼈均消费⽔平95%的置信区间和预测区间。

(所有结果均保留三位⼩数)正确答案:(1)以⼈均GDP为x,⼈均消费⽔平为y绘制散点图,如下:⽤相关系数矩阵分析可求得相关系数为0.9981。

从图和相关系数都可以看出⼈均消费⽔平和⼈均国内⽣产总值(GDP)有⽐较强的正相关关系。

(2)以⼈均GDP作⾃变量,⼈均消费⽔平作因变量,做线性回归分析,得到回归⽅程如下:y = 0.3087x + 734.6928回归系数0.3087表⽰⼈均GDP每增加⼀个单位,⼈均消费⽔平⼤致增加0.3087个单位,⼈均GDP对⼈均消费⽔平的影响是正向的,⼈均GDP越⾼⼈均消费⽔平也越⾼。

(3)判定系数R⽅为0.9963,说明模型拟合效果很好。

(4)T检验和F检验的P值都⼩于0.05,线性关系显著。

(5)做预测分析可得,如果某地区的⼈均GDP为5000元,则其⼈均消费⽔平为2278.1066元。

(6)⼈均GDP为5000元时,由预测分析的结果可知,⼈均消费⽔平95%的置信区间为[1990.7491,2565.4640],预测区间为[1580.4632,2975.7500]。

2.根据以下给出的数据进⾏分析,本次给出鸢尾花数据,其中包含萼⽚长、萼⽚宽、花瓣长、花瓣宽、以及花的类型数据,请根据以下问题进⾏回答。

CPDA考试真题与答案1

CPDA考试真题与答案1

一、单选题1.“大数据”是指规模超过 1000TB 的数据集。

正确答案:×2. 概率为 0 的事件是不可能事件,概率为 1 的事件是必然事件。

正确答案:×3.将总体中的各单位按某一标志排列,再依固定间隔抽选调查单位的抽样方式为等距抽样。

正确答案:√4.统计图中的散点图主要用来观察变量之间的相关关系。

正确答案:√5.抽样误差是指在调查过程中由于观察、测量等差错所引起的误差。

正确答案:×6.Datahoop1.2 版中 K-means 聚类分析要求输入的数据必须是数值型数据。

正确答案:√7.如果事件 A,B 互斥,且 P(A)>0,P(B)>0, 则 A , B 独立。

正确答案:×8.SQL 中删除表的命令是“ DELETE TABLE”。

正确答案:×9.聚类分析中,各变量的取值在数量级上不能有过大的差异。

正确答案:√10.如果某产品的生产和销售正处于市场成长期,其营销重点应该是延长产品寿命。

正确答案:×11. 需求定价法的核心思想是力求在需求高涨时收取较低价格,而当需求低落时则收取较高价格。

正确答案:×12.使用索引可以快速访问数据库中的数据,所以可以在数据库中尽量多的建立索引。

正确答案:√13. 线性回归模型的拟合优度可采用可决系数进行评判。

可决系数越高,模型拟合效果越好;可决系数越小,模型拟合效果越差。

正确答案:×14.一个时间序列中包含长期趋势、季节变动、循环变动和不规则变动,一般将四个因素一一分解之后进行分析。

正确答案:×15.决策树中包含根结点、叶结点、内部结点和外部结点。

正确答案:×二、单选题1. 检查异常值常用的统计图形是()A 、柱状图B、箱线图C、帕累托图D、气泡图正确答案:B2.什么是 KDD ?()A、数据挖掘与知识发现B、领域知识发现C、文档知识发现D、动态知识发现正确答案:A3.东北人养了一只鸡和一头猪。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

考试模拟样题—数据分析算法与模型
一.计算题 (共4题,100.0分)
1.下面是7个地区2000年的人均国内生产总值(GDP)和人均消费水平的统计数据:
一元线性回归.xlsx
一元线性回归预测.xlsx
要求:(1)绘制散点图,并计算相关系数,说明二者之间的关系;
(2)人均GDP作自变量,人均消费水平作因变量,利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义;
(3)计算判定系数,并解释其意义;
(4)检验回归方程线性关系的显著性(a=0.05);
(5)如果某地区的人均GDP为5000元,预测其人均消费水平;
(6)求人均GDP为5000元时,人均消费水平95%的置信区间和预测区间。

(所有结果均保留三位小数)
正确答案:
(1)以人均GDP为x,人均消费水平为y绘制散点图,如下:
用相关系数矩阵分析可求得相关系数为0.9981。

从图和相关系数都可以看出人均消费水平和人均国内生产总值(GDP)有比较强的正相关关系。

(2)以人均GDP作自变量,人均消费水平作因变量,做线性回归分析,得到回归方程如下:
y = 0.3087x + 734.6928
回归系数0.3087表示人均GDP每增加一个单位,人均消费水平大致增加0.3087个单位,人均GDP对人均消费水平的影响是正向的,人均GDP越高人均消费水平也越高。

(3)判定系数R方为0.9963,说明模型拟合效果很好。

(4)T检验和F检验的P值都小于0.05,线性关系显著。

(5)做预测分析可得,如果某地区的人均GDP为5000元,则其人均消费水平为2278.1066元。

(6)人均GDP为5000元时,由预测分析的结果可知,人均消费水平95%的置信区间为[1990.7491,2565.4640],预测区间为
[1580.4632,2975.7500]。

2.根据以下给出的数据进行分析,本次给出鸢尾花数据,其中包含萼片长、萼片宽、花瓣长、花瓣宽、以及花的类型数据,请根据以下问题进行回答。

(本
题数据提供在excel里面,数据分析为三份,一份训练数据,一份测试数据,一份预测数据)
鸢尾花训练数据.xlsx
鸢尾花测试数据.xlsx
鸢尾花预测数据.xlsx
(1)根据训练数据,用类型_num作为因变量Y,其他变量作为自变量X,做逻辑回归,写出逻辑回归的方程。

(2)根据测试数据得到的结果,写出逻辑回归的混淆矩阵,以及准确率和召回率,Accuracy和F1的值(可根据测试数据结果计算表格得到测试数据集的相应的结果)。

(3)给出一组预测数据,根据训练模型结果预测,写出预测结果。

正确答案:
数据类型是数值型的不需要数值化,不存在缺失值,且训练数据类别均衡。

逻辑回归要考虑异常值的影响,以及变量是否存在共线性,因此我们进行异常值分析和相关性分析。

异常值分析发现异常值较多,猜测可能是分类的影响,因此不做处理。

由相关矩阵可看出变量之间虽然也有相关,但不是很强,因此可以进行逻辑回归。

(1)得到逻辑回归方程ln(P(Xi)/(1-(Xi))=0.9922+1.4626x1+1.5556x2-
2.1949x3-2.2906x4
其中,x1代表萼片长、x2代表萼片宽、x3代表花瓣长、x4代表花瓣宽。

训练集拟合度的指标
为:
可以看到Accuracy、AUC、准确率召回率等都较大,模型拟合效果较好,训练误差不大。

(2)用训练数据和测试数据进行预测,对比测试数据的预测结果和实际分类,可以得到混淆矩阵,并求得Accuracy、准确率召回率等如下:
因此模型的泛化误差不大,可以进行预测分析。

(3)接下来进行预测分析,预测结果如下:
3.下表为购物篮事物数据:
购物蓝数据集.xlsx
(1)设minsupport=40%,利用Apriori算法写出所有的频繁项目集,并指出其中支持度最大的二项频繁项目集。

(2)在第一问基础上设minconfidence=60%,找出所有的有效强关联规则。

正确答案:
首先将交易记录整理为datahoop平台可处理、分析的格式,具体如下:
(1)将数据导入DATEHOOP进行关联分析,根据题目要求,分析参数设置如下:最小支持度=0.4。

得到所有频繁项目集:{a}、{d}、{b}、{c}、
{a,e}、{d,e}、{b,e}、{d,a}、{a,b}、{a,d,e}。

其中支持度最大的二项频繁项目集为{a,e},其支持度为60%。

(2)设置最小支持度为0.4,最小置信度为0.6,得到提升度>1的有效强关联规则如下:
4.某厨卫公司要开发一款燃气灶产品,列举出5个可作为卖点的功能属性:防风、定时、防干烧、不沾油、快速而准确地打火。

该公司的产品设计人员不知道该主要开发哪项功能,分析师小李向公司提出了使用KANO模型对上述五个功能进行调研分类的想法。

并得到了公司的支持。

假设你是小李
1.请你绘制KANO模型图来介绍对功能属性分类的思路
2.请你对燃气灶的防干烧功能属性设计调查问题
3.针对燃气灶的防干烧功能,受访者有多少种可能的回答组合,请写出每一种回
答组合所对应的属性类别符号(符号见最后一行题注)
4.假设基于对240名受访者的调研,得到下表,请算出这5种功能各自的worse 系数和better系数,并基于这两个系数判断这5中功能的属性类别
5.请对该燃气灶的这5项功能开发提出建议
注:魅力属性用符号A表示;必备属性用符号M表示;期望属性用符号O表示;可有可无属性用符号I表示;用户讨厌的属性用R表示;有问题的回答用Q表示
正确答案:
(1)
分为期望因素(O),表示具备某功能满意度会提升,反之则满意度下降;必备因素(M),表示不具备某功能满意度会明显下降,而具备某功能满意度不会大幅提升;无差异因素(I),表示具备或不具备某功能对满意度没影响;魅力因素(A)表示不具备某功能满意度不会明显下降,而具备某功能满
意度会大幅提升;反向因素(R)表示不具备某功能满意度会提升,反之则满意度下降。

(2)设置调查问卷如下(5分制):
(3)可能有25种组合的答案,具体见下
表:
(4)求得各功能的better及worse系数【better系数= (O+A)/
(O+I+M+A);worse=(O+M)/(O+I+M+A)】,并绘制KANO模型图:
根据各功能所处区域可判断出:防风属期望因素,快速而准确地打火属必备因素,不沾油介于期望和魅力之间,防干烧介于魅力和无差异之间,定时属无差异因素
(5)产品对几类属性的研发重要性排序为M>O>A>I。

应优先确保产品100%具备快速而准确地打火的功能,且关注产品质量,降低故障率;防风功能的好坏将直接影响用户的满意度,故要力求产品有较好的防风性能,确保用户满意度;不沾油功能很有可能,直接影响用户的满意度,故要力求产品有较好的不沾油功能,确保用户满意度;在保证前三项功能的前提下,防干烧功能可进一步在细分市场的特殊人群定向推出;暂不需开发定时功能。

相关文档
最新文档