数据分析笔试题(经典)

数据分析笔试题(经典)
数据分析笔试题(经典)

游戏数据分析笔试题

一、编程题

有一个计费表表名jifei 字段如下:phone(8位的电话号码),month(月份),expenses (月消费,费用为0表明该月没有产生费用)

下面是该表的一条记录:64262631,201011,30.6 这条记录的含义就是64262631的号码在2010年11月份产生了30.6元的话费。

按照要求写出满足下列条件的sql语句:

1、查找2010年6、7、8月有话费产生但9、10月没有使用并(6、7、8月话费均在51-100

元之间的用户。

2、查找2010年以来(截止到10月31日)所有后四位尾数符合AABB或者ABAB或者AAAA

的电话号码。(A、B 分别代表1—9中任意的一个数字)

3、删除jifei表中所有10月份出现的两条相同记录中的其中一条记录。

4、查询所有9月份、10月份月均使用金额在30元以上的用户号码(结果不能出现重复)

二、逻辑思维题

1、某人卖掉了两张面值为60元的电话卡,均是60元的价格成交的。其中一张赚了20%,

另一张赔了20%,问他总体是盈利还是亏损,盈/亏多少?

2、有个农场主雇了两个小工为他种小麦,其中A是一个耕地能手,但不擅长播种;而B

耕地很不熟练,但却是播种的能手。农场主决定种10亩地的小麦,让他俩各包一半,于是A从东头开始耕地,B从西头开始耕。A耕地一亩用20分钟,B却用40分钟,可是B播种的速度却比A快3倍。耕播结束后,庄园主根据他们的工作量给了他俩600元工钱。他俩怎样分才合理呢?

3、1

11

21

1211

111221

下一行是什么?

4、烧一根不均匀的绳,从头烧到尾总共需要1个小时。现在有若干条材质相同的绳子,问如何用烧绳的方法来计时一个小时十五分钟呢?(绳子分别为A 、B、C、D、E、F 。。。。。来代替)

大数据试题答案与解析_最全

1、当前大数据技术的基础是由( C)首先提出的。(单选题,本题2分) A:微软 B:百度 C:谷歌 D:阿里巴巴 2、大数据的起源是(C )。(单选题,本题2分) A:金融 B:电信 C:互联网 D:公共管理 3、根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是 ( C)。(单选题,本题2分) A:数据管理人员 B:数据分析员 C:研究科学家 D:软件开发工程师 4、(D )反映数据的精细化程度,越细化的数据,价值越高。(单选题,本题2分) A:规模 B:活性 C:关联度 D:颗粒度 5、数据清洗的方法不包括( D)。(单,本题2分)

A:缺失值处理 B:噪声数据清除 C:一致性检查 D:重复数据记录处理 6、智能健康手环的应用开发,体现了( D)的数据采集技术的应用。(单选题,本题2分) A:统计报表 B:网络爬虫 C:API接口 D:传感器 7、下列关于数据重组的说法中,错误的是( A)。(单选题,本题2分) A:数据重组是数据的重新生产和重新采集 B:数据重组能够使数据焕发新的光芒 C:数据重组实现的关键在于多源数据融合和数据集成 D:数据重组有利于实现新颖的数据模式创新 8、智慧城市的构建,不包含( C)。(单选题,本题2分) A:数字城市 B:物联网 C:联网监控 D:云计算 大数据的最显著特征是( A)。(单选题,本题2分) A:数据规模大 B:数据类型多样

C:数据处理速度快 D:数据价值密度高 10、美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地 点。这体现了大数据分析理念中的(B )。(单选题,本题2分) A:在数据基础上倾向于全体数据而不是抽样数据 B:在分析方法上更注重相关分析而不是因果分析 C:在分析效果上更追究效率而不是绝对精确 D:在数据规模上强调相对数据而不是绝对数据 11、下列关于舍恩伯格对大数据特点的说法中,错误的是(D )。(单选题,本题2分) A:数据规模大 B:数据类型多样 C:数据处理速度快 D:数据价值密度高 12、当前社会中,最为突出的大数据环境是(A )。(单选题,本题2分) A:互联网 B:物联网 C:综合国力 D:自然资源 13、在数据生命周期管理实践中,( B)是(单选题,本题2分) A:数据存储和备份规 B:数据管理和维护 C:数据价值发觉和利用

《数据分析》练习题

《数据分析》练习题 1.一个地区某月前两周从星期一到星期五各天的最低气温依次是(单位:℃):x 1, x 2, x 3, x 4, x 5和x 1+1, x 2+2, x 3+3, x 4+4, x 5+5,若第一周这五天的平均最低气温为7℃,则第二周这五天的平均最低气温为 。 2.有10个数据的平均数为12,另有20个数据的平均数为15,那么所有这30个数据的平均数是( ) A .12 B. 15 C. 1 3.5 D. 14 3.一组数据8,8,x ,6的众数与平均数相同,那么这组数据的中位数是 ( ) A. 6 B. 8 C.7 D. 10 4.某校在一次考试中,甲乙两班学生的数学成绩统计如下: 请根据表格提供的信息回答下列问题: (1)甲班众数为 分,乙班众数为 分,从众数看成绩较好的是 班; (2)甲班的中位数是 分,乙班的中位数是 分; (3)若成绩在80分以上为优秀,则成绩较好的是 班;、 (4)甲班的平均成绩是 分,乙班的平均成绩是 分,从平均分看成绩较好的是 班. 5.在方差的计算公式 ()()()222 21210120202010 s x x x ??= -+-+???+-??中, 数字10和20分别表示的意义可以是( ) A .数据的个数和方差 B .平均数和数据的个数 C .数据的个数和平均数 D .数据组的方差和平均数 6..如果将所给定的数据组中的每个数都减去一个非零常数,那么该数组的 ( ) A.平均数改变,方差不变 B.平均数改变,方差改变 C.平均输不变,方差改变 D.平均数不变,方差不变 7..已知7,4,3,,321x x x 的平均数是6,则_____________321=++x x x . 8..已知一组数据-3,-2,1,3,6,x 的中位数为1,则其方差为 . 9..已知一组数据x 1,x 2,x 3,x 4,x 5的平均数是2,方差是 3 1 ,那么另一组数据3x 1-2,3x 2-2,3x 3-2, 3x 4-2,3x 5-2的平均数是和方差分别是 . 10..关于一组数据的平均数、中位数、众数,下列说法中正确的是( ) A.平均数一定是这组数中的某个数 B. 中位数一定是这组数中的某个数 C.众数一定是这组数中的某个数 D.以上说法都不对 分数 50 60 70 80 90 100 人数 甲 1 6 12 11 15 5 乙 3 5 15 3 13 11

数据分析师常见的7道笔试题目及答案

数据分析师常见的7道笔试题目及答案 导读:探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧 重于已有假设的证实或证伪。以下是由小编J.L为您整理推荐的实用的应聘笔试题目和经验,欢迎参考阅读。 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把 整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用 hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000 个最大的IP中,找出那个频率最大的IP,即为所求。 或者如下阐述: 算法思想:分而治之+Hash 1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理; 2.可以考虑采用“分而治之”的思想,按照IP地址的Hash(IP)24值,把海量IP日 志分别存储到1024个小文件中。这样,每个小文件最多包含4MB个IP地址; 3.对于每一个小文件,可以构建一个IP为key,出现次数为value的Hash map,同时记录当前出现次数最多的那个IP地址; 4.可以得到1024个小文件中的出现次数最多的IP,再依据常规的排序算法得到总体上出现次数最多的IP; 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。 假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也 就是越热门。),请你统计最热门的10个查询串,要求使用的内存不能超过1G。 典型的Top K算法,还是在这篇文章里头有所阐述, 文中,给出的最终算法是: 第一步、先对这批海量数据预处理,在O(N)的时间内用Hash表完成统计(之前写成了排序,特此订正。July、2011.04.27); 第二步、借助堆这个数据结构,找出Top K,时间复杂度为N‘logK。 即,借助堆结构,我们可以在log量级的时间内查找和调整/移动。因此,维护一 个K(该题目中是10)大小的小根堆,然后遍历300万的Query,分别和根元素进行对比所以,我们最终的时间复杂度是:O(N) + N’*O(logK),(N为1000万,N’为300万)。ok,更多,详情,请参考原文。 或者:采用trie树,关键字域存该查询串出现的次数,没有出现为0。最后用10 个元素的最小推来对出现频率进行排序。 3、有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。 方案:顺序读文件中,对于每个词x,取hash(x)P00,然后按照该值存到5000 个小文件(记为x0,x1,…x4999)中。这样每个文件大概是200k左右。 如果其中的有的文件超过了1M大小,还可以按照类似的方法继续往下分,直到 分解得到的小文件的大小都不超过1M。 对每个小文件,统计每个文件中出现的词以及相应的频率(可以采用trie树 /hash_map等),并取出出现频率最大的100个词(可以用含100 个结点的最小堆),并把

数据分析期末试题及答案

数据分析期末试题及答案 一、人口现状.sav数据中是1992年亚洲各国家和地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)的数据,试用多元回归分析的方法分析各国家和地区平均寿命与人均GDP、成人识字率、一岁儿童疫苗接种率的关系。(25分) 解: 1.通过分别绘制地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间散点图初步分析他们之间的关系 上图是以人均GDP(x1)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系。尝试多种模型后采用曲线估计,得出 表示地区平均寿命(y)与人均GDP(x1)的对数有线性关系

上图是以成人识字率(x2)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间基本呈正线性关系。 上图是以疫苗接种率(x3)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系 。 x)为横轴,地区平均寿命(y)为纵轴的散点图,上图是以疫苗接种率(x3)的三次方(3 3 由图可知,他们之间呈正线性关系 所以可以采用如下的线性回归方法分析。

2.线性回归 先用强行进入的方式建立如下线性方程 设Y=β0+β1*(Xi1)+β2*Xi2+β3* X+εi i=1.2 (24) 3i 其中εi(i=1.2……22)相互独立,都服从正态分布N(0,σ^2)且假设其等于方差 R值为0.952,大于0.8,表示两变量间有较强的线性关系。且表示平均寿命(y)的95.2%的信息能由人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)一起表示出来。 建立总体性的假设检验 提出假设检验H0:β1=β2=β3=0,H1,:其中至少有一个非零 得如下方差分析表 上表是方差分析SAS输出结果。由表知,采用的是F分布,F=58.190,对应的检验概率P值是0.000.,小于显著性水平0.05,拒绝原假设,表示总体性假设检验通过了,平均寿命(y)与人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间有高度显著的的线性回归关系。

数据分析笔试题

数据分析笔试题 一、编程题(每小题20分)(四道题任意选择其中三道) 有一个计费表表名jifei 字段如下:phone(8位的电话号码),month(月份),expenses (月消费,费用为0表明该月没有产生费用) 下面是该表的一条记录:64262631,201011,30.6 这条记录的含义就是64262631的号码在2010年11月份产生了30.6元的话费。 按照要求写出满足下列条件的sql语句: 1、查找2010年6、7、8月有话费产生但9、10月没有使用并(6、7、8月话费均在51-100 元之间的用户。 2、查找2010年以来(截止到10月31日)所有后四位尾数符合AABB或者ABAB或者AAAA 的电话号码。(A、B 分别代表1—9中任意的一个数字) 3、删除jifei表中所有10月份出现的两条相同记录中的其中一条记录。

4、查询所有9月份、10月份月均使用金额在30元以上的用户号码(结果不能出现重复) 二、逻辑思维题(每小题10分)须写出简要计算过程和结果。 1、某人卖掉了两张面值为60元的电话卡,均是60元的价格成交的。其中一张赚了20%, 另一张赔了20%,问他总体是盈利还是亏损,盈/亏多少? 2、有个农场主雇了两个小工为他种小麦,其中A是一个耕地能手,但不擅长播种;而B 耕地很不熟练,但却是播种的能手。农场主决定种10亩地的小麦,让他俩各包一半,于是A从东头开始耕地,B从西头开始耕。A耕地一亩用20分钟,B却用40分钟,可是B播种的速度却比A快3倍。耕播结束后,庄园主根据他们的工作量给了他俩600元工钱。他俩怎样分才合理呢? 3、1 11 21 1211 111221 下一行是什么? 4、烧一根不均匀的绳,从头烧到尾总共需要1个小时。现在有若干条材质相同的绳子,问如何用烧绳的方法来计时一个小时十五分钟呢?(绳子分别为A 、B、C、D、E、F 。。。。。来代替)

数据分析笔试题全解

从互联网巨头数据挖掘类招聘笔试题目看我们还差多少知识 1 从阿里数据分析师笔试看职业要求 以下试题是来自阿里巴巴招募实习生的一次笔试题,从笔试题的几个要求我们一起来看看数据分析的职业要求。 一、异常值是指什么?请列举1种识别连续型变量异常值的方法? 异常值(Outlier)是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’ test(是以Frank E. Grubbs命名的),又叫maximum normed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。 未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。 点评:考察的内容是统计学基础功底。 二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。 聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。 聚类分析计算方法主要有:层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中,前两种算法是利用统计学定义的距离进行度量。 k-means 算法的工作过程说明如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差(标准差)作为标准测度

2016年数据分析面试常见问题

1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的IP中,找出那个频率最大的IP,即为所求。 或者如下阐述: 算法思想:分而治之+Hash 1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理; 2.可以考虑采用“分而治之”的思想,按照IP地址的Hash(IP)24值,把海量IP日志分别存储到1024个小文件中。这样,每个小文件最多包含4MB个IP地址; 3.对于每一个小文件,可以构建一个IP为key,出现次数为value的Hash map,同时记录当前出现次数最多的那个IP地址; 4.可以得到1024个小文件中的出现次数最多的IP,再依据常规的排序算法得到总体上出现次数最多的IP; 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。 假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就是越热门。),请你统计最热门的10个查询串,要求使用的内存不能超过1G。 典型的Top K算法,还是在这篇文章里头有所阐述, 文中,给出的最终算法是:

第一步、先对这批海量数据预处理,在O(N)的时间内用Hash表完成统计(之前写成了排序,特此订正。July、2011.04.27); 第二步、借助堆这个数据结构,找出Top K,时间复杂度为N‘logK。 即,借助堆结构,我们可以在log量级的时间内查找和调整/移动。因此,维护一个K(该题目中是10)大小的小根堆,然后遍历300万的Query,分别和根元素进行对比所以,我们最终的时间复杂度是:O(N)+ N’*O(logK),(N为1000万,N’为300万)。ok,更多,详情,请参考原文。 或者:采用trie树,关键字域存该查询串出现的次数,没有出现为0。最后用10个元素的最小推来对出现频率进行排序。 3、有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。 方案:顺序读文件中,对于每个词x,取hash(x)P00,然后按照该值存到5000个小文件(记为x0,x1,…x4999)中。这样每个文件大概是200k左右。 如果其中的有的文件超过了1M大小,还可以按照类似的方法继续往下分,直到分解得到的小文件的大小都不超过1M。 对每个小文件,统计每个文件中出现的词以及相应的频率(可以采用trie树/hash_map 等),并取出出现频率最大的100个词(可以用含100个结点的最小堆),并把100个词及相应的频率存入文件,这样又得到了5000个文件。下一步就是把这5000个文件进行归并(类似与归并排序)的过程了。 4、有10个文件,每个文件1G,每个文件的每一行存放的都是用户的query,每个

数据分析岗面试题

数据分析岗面试题-标准化文件发布号:(9556-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

数据分析岗面试题 1、表:table1(Id,class,score),用最高效最简单的SQL列出各班成绩最高的列 表,显示班级,成绩两个字段。 2、有一个表table1有两个字段FID,Fno,字都非空,写一个SQL语句列出 Fno的纪录。 3、有员工表empinfo 4、( 5、Fempno varchar2(10) not null pk, 6、Fempname varchar2(20) not null, 7、Fage number not null, 8、Fsalary number not null 9、); 10、假如数据量很大约1000万条;写一个你认为最高效的SQL,用一个SQL 计算以下四种人: 11、fsalary>9999 and fage > 35 12、fsalary>9999 and fage < 35 13、fsalary <9999 and fage > 35 14、fsalary <9999 and fage < 35 15、每种员工的数量; 4、

Sheet1: sheet2: Sheet1、sheet2是Excel中两个表,sheet2中 记录了各产品类别下面对应的产品编码,现 要在sheet1 C列中对应A列产品编码所对应 的产品类别,请写出公式。 5、某商品零售公司有100万客户资料数据(客户数据信息包括客户姓名、电话、地址、购买次数、购买时间、购买金额、购买产品种类等等),现要从中抽取10万客户,对这些客户发送目录手册,为了能使这批手册产生的利润最大,从已有的客户数据信息,我们应该如何挑选这10万个客户?

数据分析专员笔试题

XXX公司数据分析专员笔试试题 姓名:日期: 一、异常值是指什么?请列举1种识别连续型变量异常值的方法? 异常值(Outlier)是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’ test(是以Frank E. Grubbs命名的),又叫maximum normed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。 未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。 点评:考察的内容是统计学基础功底。 二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。 聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。 聚类分析计算方法主要有:层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中,前两种算法是利用统计学定义的距离进行度量。 k-means 算法的工作过程说明如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 其流程如下: (1)从 n个数据对象任意选择 k 个对象作为初始聚类中心; (2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分; (3)重新计算每个(有变化)聚类的均值(中心对象); (4)循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。 优点:本算法确定的K 个划分到达平方误差最小。当聚类是密集的,且类与类之间区别明显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度为 O(NKt),其中N是数据对象的数目,t是迭代的次数。一般来说,K<

数据分析岗位笔试题目总结

阿里巴巴 1、异常值是指什么?请列举1种识别连续型变量异常值的方法? 异常值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值. 常见的异常值检验方法如下: ●基于统计的方法 ●基于距离的方法 ●基于密度的方法 ●基于聚类的方法 ●基于偏差的方法 ●基于深度的方法 t检验:按照t分布的实际误差分布范围来判别异常值,首先剔除一个可疑值,然后按t分布来检验剔除的值是否为异常值。 狄克逊检验法:假设一组数据有序x1

指数分布检验: SPSS和R语言中通过绘制箱图可以找到异常值,分布在箱边框外部; 2、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。 聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。 聚类分析计算方法主要有:层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中,前两种算法是利用统计学定义的距离进行度量。常见的聚类方法有:K-pototypes算法,K-Means算法,CLARANS算法(划分方法),BIRCH算法(层次方法),CURE算法(层次方法),DBSCAN算法(基于密度的方法),CLIQUE算法(综合了基于密度和基于网格的算法); k-means 算法的工作过程说明如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 其流程如下: (1)从 n个数据对象任意选择 k 个对象作为初始聚类中心; (2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;

数据分析精选练习50题

数据分析精选练习(50题) 1、某商场对今年端午节这天销售A 、B 、C 三种品牌粽子的情况进行了统计,绘制如图6和图7所示的统计图.根据图中信息解答下列问题: 写出A 品牌粽子在图7中所对应的圆心角的度数. 2、甲学完统计知识后,随机调查了她所在辖区若干名居民的年龄,将调查数据绘制成如下扇形和条形统计图: 请根据以上不完整的统计图提供的信息,解答下列问题: (1)甲同学共调查了 名居民的年龄,扇形统计图中a = ,b = ; (2)若该辖区年龄在0~14岁的居民约有3500人,请估计年龄在15~59岁的居民的人数. 3、为了了解学生课业负担情况,某初中在本校随机抽取50名学生进行问卷调查,发现被抽查的学生中,每天完成课外作业时间,最长不足120分钟,没有低于40分钟的,并将抽查结果绘制成了一个不完整的频数分布直方图,如图10所示 若该校共有1200名学生,请估计该校大约有__________名学生每天完成课外作业时间在80分钟以上(包括80分钟) 图 7 图 6 0~14 15~40 41~59 60岁以上 年龄 (每组数据含最低值,不含最高值) 时间(分钟)

4、为了解某校九年级学生体育测试成绩情况,现从中随机抽取部分学生的体育成绩统计如下,其中右侧扇形统计图中的圆心角 为36o. 体育成绩统计图 体育成绩(分)人数(人)百分比(%) 26 8 16 27 24 28 15 29 m 30 已知该校九年级共有500名学生,如果体育成绩达28分以上(含28分)为优秀,请估计该校九年级学生体育成绩达到优秀的总人数. 5、为了解九年级学生每周的课外阅读情况,某校语文组调查了该校九年级部分学生某周的课外阅读量(精确到千字),将调查数据经过统计整理后,得到如下频数分布直方图,回答下列问题:(1)填空: ①该校语文组调查了名学生的课外阅读量; ②左边第一组的频数=,频率=。 (2)求阅读量在14千字及以上的人数。 (3)估计被调查学生在这一周的平均阅读量(精确到千字)。 6.为了解某品牌A,B两种型号冰箱的销售状况,王明对其专卖店开业以来连续七个月的销售情况进行了 月份一月二月三月四月五月六月七月 A型销售量(单位:台)10 14 17 16 13 14 14 B型销售量(单位:台) 6 10 14 15 16 17 20 平均数方差 A型销售量 B型销售量14 18.6 30分 26分 27分 28分 29分

阿里数据分析笔试题

2016阿里巴巴数据分析师职位笔试题目 阿里巴巴作为全球领先的小企业电子商务公司,招聘阿里巴巴数据分析师职位都会出些什么笔试题目呢?咱们一起看看。 一、异常值是指什么?请列举1种识别连续型变量异常值的方法? 异常值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test(是以Frank E. Grubbs命名的),又叫maximum normed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。 未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。 点评:考察的内容是统计学基础功底。 二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理 和步骤。 聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。 聚类分析计算方法主要有:层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的

方法(grid-based method)、基于模型的方法(model-based method)等。其中,前两种算法是利用统计学定义的距离进行度量。 k-means 算法的工作过程说明如下:首先从n个数据对象任意选择k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 其流程如下: (1)从n个数据对象任意选择k 个对象作为初始聚类中心; (2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分; (3)重新计算每个(有变化)聚类的均值(中心对象); (4)循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。 优点:本算法确定的K 个划分到达平方误差最小。当聚类是密集的,且类与类之间区别明显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度为O(NKt),其中N是数据对象的数目,t是迭代的次数。一般来 说,K< 缺点:1. K 是事先给定的,但非常难以选定;2. 初始聚类中心的选择对聚类结果有较大的影响。 点评:考察的内容是常用数据分析方法,做数据分析一定要理解数据分析算法、应用场景、使用过程、以及优缺点。

(完整版)初二数学数据分析练习试题(含答案)

初二 数据分析测试题 一、相信你的选择 1、若数据8,4,,2x 的平均数是4,则这组数据的中位数和众数是( ) A 、3和2 B 、2和3 C 、2和2 D 、2和4 2、数学老师对小明在参加高考前5次数学模拟考试的成绩进行统计分析,判断小明的数学成绩是否稳定,于是老师需要知道小明这5次数学成绩的( ) A 、平均数或中位数 B 、方差或频率 C 、频数或众数 D 、方差或极差 3、已知一组数据5,15,75,45,25,75,45,35,45,35,那么40是这组数据的( ) A 、平均数但不是中位数 B 、平均数也是中位数 C 、众数 D 、中位数但不是平均数 4、小亮所在学习小组的同学们响应“为国争光,为奥运添彩”的号召,主动到附近的7个社区帮助爷爷奶奶们学习英语日常用语,他们记录的各社区参加其中一次活动的人数如下:32,26,28,31,32,32,33,那么这组数据的众数和中位数分别是( ) A 、31,32 B 、32,32 C 、31,3 D 、32,3 5、若54321,,,,x x x x x 的平均数为- x ,方差为2s ,则3,3,3,3,354321+++++x x x x x 的平均数和方差分别是 ( ) A 、2+-x ,32 +s B 、3+- x ,2s C 、-x ,32 +s D 、- x ,2s 6、已知一组数据1,2,,0,1--x 的平均数是0,那么这组数据的标准差( ) A 、2 B 、2 C 、4 D 、2-

7、一组数据n x x x x ,,,,321Λ的极差是 8,另一组数据 12,,12,12,12321++++n x x x x Λ的极差是( ) A 、8 B 、9 C 、16 D 、17 8、某中学人数相等的甲、乙两班学生参加同一次数学测验,两班成绩的方差分别是2452=甲s ,1902=乙s ,那么成绩比较整齐的是( ) A 、甲班 B 、乙班 C 、两班一样整齐 D 、无法确定 二、试试你的身手 1、根据天气预报可知,我国某城市一年中的最高气温为C ?37,最低气温是C ?-8,那么这个城市一年中温度的极差为 2、航天知识竞赛中,包括甲同学在内的6名同学的平均分为74分,其中甲同学考了89分,则除了甲以外的5名同学的平均分是 分. 3、数据9,10,8,10,9,10,7,9的方差是________,标准差是_____. 4、甲、乙两种产品进行对比试验,得知乙产品比甲产品的性能更稳定,如果甲、乙两种产品的方差分别是甲2s ,乙2s ,则它们的大小关系是 5、下面是五届奥运会中国获得金牌的一览表: 在15,5,16,16,28这组数据中,众数、中位数分别是 6、甲、乙两人比赛飞镖,两人所得环数甲的方差是15,乙所得环数如下:0,1,5,9,10,那么,成绩比较稳定的是 7、八年级上学期期中质量检测之后,甲、乙两班的数学成绩的统计情况如下表

数据分析面试题及答案

数据分析面试题及答案 linux的启动顺序 通电后读取ROM的BIOS程序进行硬件自检,自检成功后把计算机控制权交给BIOS中BOOTsequence中的下一个有效设备,读取该设备MBR找到操作系统,载入linux的bootloader,一般是grub。之后载入kernel,执行/etc/rc.d/sysinit ,开启其他组件(/etc/modules.conf),执行运行级别,执行/etc/rc.d/rc.local ,执行/bin/login,最后shell启动。 使用过的开源框架介绍 Struts2 Spring hibernate mybatis hadoop hive hbase flume sqoop Zookeeper Mahout Kafka Storm Spark

擅长哪种技术 Hadoop。介绍 HIVE的优化 底层是MapReduce,所以又可以说是MapReduce优化。 小文件都合并成大文件 Reducer数量在代码中介于节点数*reduceT ask的最大数量的0.95倍到1.75倍 写一个UDF函数,在建表的时候制定好分区 配置文件中,打开在map端的合并 开发中遇到的问题 Hbase节点运行很慢,发现是Hfile过小,hbase频繁split。 修改了hfile大小。或者设置major compack设置为手动 Major compack设置为手动会出现什么问题 ? Zookeeper的二次开发 Flume 的实时和定时数据采集,项目和flume的解耦 Mogodb和hbase的区别 Mogodb是单机 Hbase是分布式?? 项目组多少人?人员分配?数据量?集群的配置?

生意参谋数据分析师考试题库(二)

《生意参谋数据分析师》考试 49、 单选题 分值: 1 小芳根据数据分析发现主推宝贝标题里很多关键词没有带来访客数和转化率,于是想要替换这些关键词,她应该替换什么关键词进去?A A: 从生意参谋的搜索词里面找到自己叶子类目的相关性强转化率高流量大的核心关键词,如果标题里没有的,就可以找出来替换进去。 B: 看看别人标题都用什么词,自己没有的,加进来 C: 加类目大词进来引流量 D: 选一些长尾词转化率高 答案解析:参考章节:快速优化标题提升手淘搜索流量本题考点:优质关键词寻找和标题优化答案解析:生意参谋—市场—搜索排行—搜索词里面找到自己叶子类目的相关性强转化率高流量大的核心关键词。 50、 多选题 分值: 3 生意参谋中显示的哪些渠道流量需要商家付费获取?ABC A: 直通车 B: 淘宝客 C: 聚划算 D: 淘内免费其他 答案解析:参考章节:单品流量来源分析本题考点:店铺来源—构成—商品效果答案解析:需要花钱的流量叫付费流量 51、

判断题 分值: 5 内容的整体分析无益于店铺内容情况的复盘?错误 正确 错误 答案解析:参考章节:店铺的整体内容投放分析本题考点:生意参谋的应用答案解析:内容的整体分析有助于我们复盘店铺的内容情况 52、 单选题 分值: 1 客服文文在上周接到了100个客户的咨询,有60个客户下单,最终有50个客户支付成功;由此可知上周客服文文的询单-支付转化率是多少?C A: 0.3 B: 0.4 C: 0.5 D: 0.6 答案解析:参考章节:从询单转化率提升客服效能本题考点:询单转化率答案解析:询单支付转化率=询单付款人数/询单人数;询单下单转化率=询单下单人数/询单人数。本题询单人数为300,询单付款人数为50,那么询单支付转化率是:50/100=50% 53、 多选题 分值: 3 服装类的短视频脚本策划包括以下哪几个重点维度?ABC A: 上身效果 B: 搭配

《大数据时代下的数据挖掘》试题和答案及解析

《海量数据挖掘技术及工程实践》题目 一、单选题(共80题) 1)( D )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到 和原始数据相同的分析结果。 A.数据清洗 B.数据集成 C.数据变换 D.数据归约 2)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖 掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3)以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 5)当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数 据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 6)建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的 哪一类任务?(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7)下面哪种不属于数据预处理的方法? (D) A.变量代换 B.离散化

C.聚集 D.估计遗漏值 8)假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内? (B) A.第一个 B.第二个 C.第三个 D.第四个 9)下面哪个不属于数据的属性类型:(D) A.标称 B.序数 C.区间 D.相异 10)只有非零值才重要的二元属性被称作:( C ) A.计数属性 B.离散属性 C.非对称的二元属性 D.对称属性 11)以下哪种方法不属于特征选择的标准方法: (D) A.嵌入 B.过滤 C.包装 D.抽样 12)下面不属于创建新属性的相关方法的是: (B) A.特征提取 B.特征修改 C.映射数据到新的空间 D.特征构造 13)下面哪个属于映射数据到新的空间的方法? (A) A.傅立叶变换 B.特征加权 C.渐进抽样 D.维归约 14)假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方 法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:(D) A.0.821 B.1.224 C.1.458 D.0.716 15)一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年 级110人。则年级属性的众数是: (A) A.一年级 B.二年级 C.三年级 D.四年级

数据分析练习题

第二十章 数据的分析全章测试 一、填空题 1.从一组数据中取出m 个x 1,n 个x 2,p 个x 3组成一个数据样本,则这个样本的平均数为______. 2.数据1,x ,2,5的中位数是3,则x =______. 3.甲、乙两人在相同情况下各射靶10次,环数的方差分别是2 甲s =1.4,2 乙s =1.2,则射击 稳定性高的是______. 4.某中学举行一次演讲比赛,分段统计参赛学生的成绩如下表(分数为整数,满分为100分), 则这次比赛的平均成绩为______分. 5.若x 1、x 2、x 3的方差为4,则2x 1+3,2x 2+3,2x 3+3的方差为______. 二、选择题 6.若x ,y ,z 的平均数是6,则5x +3,5y -2,5z +5的平均数是( ). (A)6 (B)30 (C)33 (D)32 7.从某市5000名初一学生中,随机地抽取100名学生,测得他们的身高数据,得到一个样本,则这个样本数据的平均数、中位数、众数、方差四个统计量中,服装厂最感兴趣的是( ). (A)平均数 (B)中位数 (C)众数 (D)方差 8.小明对本班同学每天花多少零用钱进行了调查,计算出平均数为3,中位数为3,众数为2,极差为8,假如老师随机问一名同学每天花多少零用钱,最有可能得到的回答是

( ). (A)3 (B)2 (C)8 (D)不能确定 9.已知x 1,x 2,…,x 10的平均数是a ;x 11,x 12,…,x 30的平均数是b ,则x 1,x 2,…, x 30的平均数是( ). (A) )(21 b a + (B) )(301 b a + (C))2010(30 1b a + (D))3010(40 1b a + 10.甲乙两人在跳远练习中,6次成绩分别为(单位:米): 甲:3.8 3.8 3.9 3.9 4 4; 乙:3.8 3.9 3.9 3.9 3.9 4. 则这次跳远练习中,甲乙两人成绩方差的大小关系是( ). (A)2 甲s >2 乙s (B)2 甲s <2乙s (C)2 甲s =2 乙s (D)无法确定 三、解答题 11.某农户在山上种了脐橙果树44株,现进入第三年收获期,收获时,先随意采摘5株果 树上的脐橙,称得每株树上的脐橙重量如下(单位:千克):35,35,34,39,37.若市场上的脐橙售价为每千克5元,估计这年该农户卖脐橙的收入为多少元? 12.如图,是某单位职工年龄的频数分布直方图,根据图形提供的信息,回答下列问题:

相关文档
最新文档