阿里数据分析笔试题

合集下载

数据分析经理招聘笔试题及解答

数据分析经理招聘笔试题及解答

招聘数据分析经理笔试题及解答(答案在后面)一、单项选择题(本大题有10小题,每小题2分,共20分)1、数据分析经理在进行数据分析时,以下哪个工具最常用于数据清洗和预处理?A、Python的Pandas库B、ExcelC、R语言的dplyr包D、SQL2、在进行客户细分分析时,以下哪个指标通常用于衡量客户之间的相似度?A、客户价值(Customer Value)B、客户生命周期价值(Customer Lifetime Value)C、客户忠诚度(Customer Loyalty)D、相似度系数(Similarity Coefficient)3、题干:在进行数据分析时,以下哪种数据类型最适合用于描述用户年龄?A. 字符串B. 整数C. 浮点数D. 日期时间4、题干:在数据分析中,以下哪种统计方法可以用来评估两个分类变量之间的关联性?A. 均值比较B. 卡方检验C. 相关系数D. 标准差5、假设你正在分析一个电子商务网站的日访问量数据。

为了评估网站流量的稳定性,你会使用以下哪种统计量?A. 平均数B. 中位数C. 方差D. 最大值6、在处理缺失数据时,以下哪种方法通常不适合用于填补数值型变量的缺失值?A. 使用均值填充B. 使用中位数填充C. 使用随机值填充D. 使用预测模型估计值填充7、以下哪种统计方法是用来衡量一组数据集中趋势的指标?A、方差B、标准差C、中位数D、众数8、在进行数据分析时,以下哪个步骤通常不是数据分析流程的一部分?A、数据清洗B、数据探索C、模型预测D、数据展示9、以下哪种分析方法最适合用于识别客户消费行为模式?A. 时间序列分析B. 聚类分析C. 主成分分析D. 相关性分析二、多项选择题(本大题有10小题,每小题4分,共40分)1、以下哪些工具或软件常用于数据分析和处理?()A、PythonB、RC、SQLD、TableauE、Excel2、以下哪些方法是数据分析中常用的数据预处理步骤?()A、数据清洗B、数据集成C、数据变换D、数据归一化E、数据抽样3、以下哪些工具或软件常用于数据分析和处理?()B. PythonC. R语言D. TableauE. SQL4、以下哪些数据清洗步骤是数据分析过程中必不可少的?()A. 数据缺失处理B. 异常值处理C. 数据标准化D. 数据脱敏E. 数据重复处理5、关于数据分析师的职责,以下哪些选项是正确的?()A、收集并整理相关数据B、进行数据清洗和预处理C、设计数据模型和算法D、撰写数据分析报告E、直接参与业务决策6、以下哪些是常用的数据分析方法?()A、描述性统计分析B、假设检验C、时间序列分析D、聚类分析7、以下哪些是数据分析经理在数据分析过程中需要具备的关键技能?A. 熟悉数据挖掘和统计分析方法B. 能够编写SQL查询语句进行数据提取C. 精通Python或R等数据分析编程语言D. 具备良好的沟通和报告撰写能力E. 拥有丰富的行业经验8、以下哪些工具或平台通常用于数据分析经理的日常工作中?A. TableauB. Power BIC. ExcelD. HadoopE. Salesforce9、关于数据分析经理需要掌握的数据分析技能,以下哪些是必须的?()A、SQL数据库操作B、Python编程C、数据可视化D、机器学习算法E、统计学知识三、判断题(本大题有10小题,每小题2分,共20分)1、数据分析经理的主要职责是进行数据的收集、整理和分析,但不需要具备编程能力。

数据分析笔试题及答案

数据分析笔试题及答案

数据分析笔试题及答案一、选择题(每题2分,共10分)1. 数据分析中,以下哪个指标不是描述性统计指标?A. 平均数B. 中位数C. 标准差D. 相关系数答案:D2. 在进行数据清洗时,以下哪项操作不是必要的?A. 处理缺失值B. 去除异常值C. 转换数据类型D. 增加数据量答案:D3. 以下哪个工具不是数据分析常用的软件?A. ExcelB. RC. PythonD. Photoshop答案:D4. 假设检验中,P值小于显著性水平α,我们通常认为:A. 拒绝原假设B. 接受原假设C. 无法判断D. 结果不可靠答案:A5. 以下哪个不是时间序列分析的特点?A. 趋势性B. 季节性C. 随机性D. 稳定性答案:D二、简答题(每题5分,共15分)1. 请简述数据可视化的重要性。

答案:数据可视化是数据分析中的重要环节,它能够帮助分析者直观地理解数据的分布、趋势和模式。

通过图表、图形等形式,可以更清晰地展示数据之间的关系,便于发现数据中的规律和异常点,从而为决策提供支持。

2. 描述数据挖掘中的“关联规则”是什么,并给出一个例子。

答案:关联规则是数据挖掘中用来发现变量之间有趣关系的一种方法,特别是变量之间的频繁模式、关联、相关性。

例如,在超市购物篮分析中,关联规则可能揭示“购买了牛奶的顾客中有80%也购买了面包”。

3. 解释什么是“数据的维度”以及它在数据分析中的作用。

答案:数据的维度指的是数据集中可以独立变化的属性或特征。

在数据分析中,维度可以帮助我们从不同角度观察和理解数据,进行多维度的分析和比较,从而获得更全面的数据洞察。

三、计算题(每题10分,共20分)1. 给定一组数据:2, 3, 4, 5, 6, 7, 8, 9, 10,请计算这组数据的平均数和标准差。

答案:平均数 = (2+3+4+5+6+7+8+9+10) / 9 = 5.5标准差 = sqrt(((2-5.5)^2 + (3-5.5)^2 + ... + (10-5.5)^2) / 9) ≈ 2.87232. 如果一家公司在过去5年的年销售额分别为100万、150万、200万、250万和300万,请计算该公司年销售额的复合年增长率(CAGR)。

阿里数据分析工程师笔试2017校招(回忆版)

阿里数据分析工程师笔试2017校招(回忆版)

题型与题量(时间60分钟)
单选(9)、不定项选择(5)和简单题(4)
选择题听说是随机的,每个人都不一样
考察知识点
1、sql语句,left join right join inner join
2、svm空间复杂度
3、简单随机抽样、系统抽样分层抽样
4、条件概率
5、不相关和独立分布
6、过拟合
7、均匀分布
(其余记不清了)
简答题
1针对“双十一”的校园配送提出建议(平日处理量1000件,11月1日-5日平均10000件)
2 sql语句一共七个年级,每个年级10个班,每个班20个人,用seq语句随机选出10%的学生
3 k—means为什么是局部最优?如何优化?
4 20个人,每个人20个题,题库至少多少题才能满足任意两个人的相同的题目数<=3的概率>95%。

阿里巴巴数据分析师笔试题(实习)附参考答案

阿里巴巴数据分析师笔试题(实习)附参考答案

阿里巴巴数据分析师笔试题(实习)附参考答案一、异常值是指什么?请列举1种识别连续型变量异常值的方法?参考答案:异常值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。

在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。

Grubbs’ test(是以Frank E. Grubbs命名的),又叫maximum normed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。

未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。

二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。

参考答案:聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。

聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。

聚类与分类的不同在于,聚类所要求划分的类是未知的。

聚类分析计算方法主要有:层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。

其中,前两种算法是利用统计学定义的距离进行度量。

k-means 算法的工作过程说明如下:首先从n个数据对象任意选择k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。

一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。

(完整word版)数据分析笔试题分析(word文档良心出品)

(完整word版)数据分析笔试题分析(word文档良心出品)

从互联网巨头数据挖掘类招聘笔试题目看我们还差多少知识1 从阿里数据分析师笔试看职业要求以下试题是来自阿里巴巴招募实习生的一次笔试题,从笔试题的几个要求我们一起来看看数据分析的职业要求。

一、异常值是指什么?请列举1种识别连续型变量异常值的方法?异常值(Outlier)是指样本中的个别值,其数值明显偏离所属样本的其余观测值。

在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。

Grubbs’ test(是以Frank E. Grubbs命名的),又叫maximum normed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。

未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。

点评:考察的内容是统计学基础功底。

二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。

聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。

聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。

聚类与分类的不同在于,聚类所要求划分的类是未知的。

聚类分析计算方法主要有:层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。

其中,前两种算法是利用统计学定义的距离进行度量。

k-means 算法的工作过程说明如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。

阿里巴巴笔试题+解析(完整)

阿里巴巴笔试题+解析(完整)

阿里巴巴面试题1、 20个阿里巴巴B2B技术部的员工被安排为4排,每排5个人,我们任意选其中4人送给他们一人一本《effective c++》,那么我们选出的4人都在不同排的概率为:A、 5^4*5!*15!/20!B、 4^5*5!*15!/20!C、 5^4*4!*16!/20!D、4^5*4!*16!/20!2、若有序表的关键字序列为(b,c,d,e,f,g,q,r,s,t),则在二分查找关键字b的过程中,先后进行的关键字依次为:A、f,c,bB、f,d,bC、g,c,bD、g,d,b3、 perl里面声明:open(FILE,mode,file); 操作的描述,下列哪项不正确?A、 FILE可以用变量$file来代替B、 mode可以和file写在一起,例如:open(FILE, ‘>file’)C、 mode为+<的时候,只可以读文件,不能写文件(既可以读也可以写)D、 mode可以省略不写4、有一个虚拟存储系统,若进程在内存中占3页(开始时内存为空),若采用先进先出(FIFO)页面淘汰算法,当执行如下访问页号序列后1,2,3,4,5,1,2,5,1,2,3,4,5,会发生多少缺页?A、7B、8 C、9 D、105、设有一个顺序栈S,元素s1、s2、s3、s4、s5、s6依次进栈,如果6个元素的出栈顺序为s2、s3、s4、s6、s5、s1,则顺序栈的容量至少应为多少?A、2B、3C、4 D、56、下列关于文件索引结构的叙述中,哪一个是错误的?A、采用索引结构,逻辑上连续的文件存放在连续的物理块中B、系统为每个文件建立一张索引表C、索引结构的优点是访问速度快,文件长度可以动态变化D、索引结构的缺点是存储开销大7、在ASC算法team日常开发中,常常面临一些数据结构的抉择,令人纠结。

目前大家在策划一个FBI项目(Fast Binary Indexing),其中用到的词汇有6200条,词汇长度在10-15之间,词汇字符是英文字母,区分大小写。

数据分析笔试题目

数据分析笔试题目在数据分析领域,笔试题目是一种常见的评估方法。

通过笔试题目,雇主可以了解应聘者的数据分析能力、逻辑思维和解决问题的能力。

本文将为您提供一些常见的数据分析笔试题目及其解答,帮助您更好地准备笔试。

题目一:销售数据分析一家电商公司需要分析其销售数据,以帮助制定销售策略和预测未来销售额。

以下是该公司最近一年的月销售额数据,请根据数据回答以下问题:月份销售额(万元)1 1202 1503 1804 1305 1606 2007 2208 1909 21011 26012 2801. 请计算该公司在整个年度内的总销售额。

2. 请计算该公司的月均销售额。

3. 请计算该公司年销售额的增长率。

解答:1. 该公司在整个年度内的总销售额为120 + 150 + 180 + 130 + 160 + 200 + 220 + 190 + 210 + 230 + 260 + 280 = 2340 万元。

2. 该公司的月均销售额为总销售额除以12个月,即2340 / 12 = 195 万元。

3. 该公司年销售额的增长率为(年度最后一个月销售额 - 年度第一个月销售额)/ 年度第一个月销售额,即(280 - 120)/ 120 = 1.33,即增长率为133%。

题目二:用户行为分析某社交媒体平台希望分析用户的行为数据,以改善用户体验和提高用户留存率。

以下是一个用户在一周内的登录行为数据,请根据数据回答以下问题:日期登录次数周二 12周三 10周四 18周五 20周六 16周日 141. 请计算该用户在这一周内的平均每天登录次数。

2. 请计算该用户在这一周内的最高单日登录次数。

3. 请计算该用户周三相比于周一的登录次数变化率。

解答:1. 该用户在这一周内的平均每天登录次数为(15 + 12 + 10 + 18 + 20 + 16 + 14)/ 7 = 15次。

2. 该用户在这一周内的最高单日登录次数为20次。

3. 该用户周三相比于周一的登录次数变化率为(周三登录次数 - 周一登录次数)/ 周一登录次数,即(10 - 15)/ 15 = -0.33,即变化率为-33%。

(完整版)数据分析师笔试题目

网易数据分析专员笔试题目一、基础题1、中国现在有多少亿网民?2、百度花多少亿美元收购了91无线?3、app store排名的规则和影响因素4、豆瓣fm推荐算法5、列举5个数据分析的博客或网站二、计算题1、关于简单移动平均和加权移动平均计算2、两行数计算相关系数。

(2位小数,还不让用计算器,反正我没算)3、计算三个距离,欧几里德,曼哈顿,闵可夫斯基距离三、简答题1、离散的指标,优缺点2、插补缺失值方法,优缺点及适用环境3、数据仓库解决方案,优缺点4、分类算法,优缺点5、协同推荐系统和基于聚类系统的区别四、分析题关于网易邮箱用户流失的定义,挑选指标。

然后要构建一个预警模型。

五、算法题记不得了,没做。

反正是决策树和神经网络相关。

1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。

2、告诉我二个分析或者计算机科学相关项目?你是如何对其结果进行衡量的?3、什么是:提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则?4、什么是:协同过滤、n-grams, map reduce、余弦距离?5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库?6、如何设计一个解决抄袭的方案?7、如何检验一个个人支付账户都多个人使用?8、点击流数据应该是实时处理?为什么?哪部分应该实时处理?9、你认为哪个更好:是好的数据还是好模型?同时你是如何定义“好”?存在所有情况下通用的模型吗?有你没有知道一些模型的定义并不是那么好?10、什么是概率合并(AKA模糊融合)?使用SQL处理还是其它语言方便?对于处理半结构化的数据你会选择使用哪种语言?11、你是如何处理缺少数据的?你推荐使用什么样的处理技术?12、你最喜欢的编程语言是什么?为什么?13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。

14、SAS, R, Python, Perl语言的区别是?15、什么是大数据的诅咒?16、你参与过数据库与数据模型的设计吗?17、你是否参与过仪表盘的设计及指标选择?你对于商业智能和报表工具有什么想法?18、你喜欢TD数据库的什么特征?19、如何你打算发100万的营销活动邮件。

2018-2019-201X年阿里巴巴数据分析师笔试题-word范文模板 (2页)

2018-2019-201X年阿里巴巴数据分析师笔试题-word范文模板本文部分内容来自网络整理,本司不为其真实性负责,如有异议或侵权请及时联系,本司将立即删除!== 本文为word格式,下载后可方便编辑和修改! ==201X年阿里巴巴数据分析师笔试题201X年3月29日阿里巴巴数据分析师(北京)一、10道填空,每题3分1、小松鼠采到了100颗坚果要运回家。

家离放坚果的地方有100米远。

小松鼠每次最多运50颗。

BUT!小松鼠很馋。

每走2米就要吃一颗坚果。

问小松鼠最多能运回家多少颗坚果?A 0B 10C 25 D50答案:应该是25颗吧!(先运50颗50米,吃了25颗,返回去,回去的途中没吃的了,再运50颗到50米的地方,又吃了25颗,再把剩下的运回家,又吃25颗,还剩25颗。

)吐槽一下,题目应该说明:小松鼠足够聪明,至少比参加考试的人聪明。

2、标号12345的5个球,一次取两个,和为3或者6的概率是多少? 答案:0.3。

不解释。

3、考了LOGISTIC回归。

4、聚类分析法,k_means。

5、其他条件相同,置信水平越低,则置信区间上下限差值越() A.越大 B.越小 C.为0 D不确定应该是B吧。

6、precision、ecall、ROC。

剩下的不记得了。

二、三道题,每题10分。

1、已知每10万人中有1人得艾滋病。

现在有一种检查,如果被测者患病则一定能查出来。

如果被测者没病,有1%的测试出错也显示阳性。

现在一个人检查结果是阳性。

问真正得病的概率?答案:貌似所有的讲全概率公式的书上都有这道题。

2、SQL。

阿里巴巴 数据分析笔试题以及相关问题

2016阿里巴巴数据分析校园招聘笔试21道题,100分,60分钟一、单选题(10)1.想了解上海市小学生的身高,需要抽取500个样本,这项调查中的样本是A.从中抽取的500名学生的身高B.上海市全部小学生的身高C.从中抽取的500名小学生D.上海市全部小学生2.以下对k-means聚类算法解释正确的是A.能自动识别类的个数,随即挑选初始点为中心点计算B.能自动识别类的个数,不是随即挑选初始点为中心点计算C.不能自动识别类的个数,随即挑选初始点为中心点计算D.不能自动识别类的个数,不是随即挑选初始点为中心点计算3.以下哪个是常见的时间序列算法模型A.RSIB.MACDC.ARMAD.KDJ4.有个袋子装有2个红球,2个蓝球,1个黄球,取出球之后不再放回,请问取两次出来的球是相同颜色的概率是多少A.0.3333B.0.2500C.0.2000D.0.16675.65,8,50,15,37,24,()。

括号中的数字是()A.25B.26C.22D.276.一组数据,均值>中位数>众数,问这组数据A.左偏B.右偏C.钟型D.对称7. SQL 语言允许使用通配符进行字符串匹配的操作,其中’%’可以表示 A . 零个字符 B . 1个字符 C . 多个字符 D . 以上都是8. 关于正态分布,下列说法错误的是 A. 正态分布具有集中性与对称性B. 正态分布的军事与方差能够决定正态分布的位置与形态C. 正态分布的偏度为0,峰度为1D. 标准正态分布的均值为0,方差为19. 以下不同的场景中,使用分析方法不正确的有A. 根据商家最近一年的经营与服务数据,用聚类算法判断出天猫商家在各自主营类目下所属的商家层级B. 根据商家近几年的成交数据,用聚类算法拟合出用户未来一个月可能的消费金额公式C. 用关联规则算法分析出购买汽车坐垫的买家是否适合推荐汽车脚垫D. 根据用户最近购买的商品信息,用决策树算法识别出淘宝买家可能是男还是女10. 下列时间序列模型中,那个模型可以较好地拟合波动性的分析与预测 A. AR 模型 B. MA 模型 C. ARMA 模型 D. GARCH 模型二、多选题(5)11. Excel 工作簿a 中有两列id 、age ,工作簿b 中有一列id ,需要找到工作簿b 中id 对应的age ,可用的函数包括 A. Index+match B. Vlookup C. Hlookup D. Find E. If F. Like12. 现在有M 个桶,每个桶都有N 个乒乓球,乒乓球的颜色有K 种,并且假设第i 个桶第j 种颜色的球的个数为ij C ,比例为ijij C R N=,现在要求颜色纯度越高,下列哪种算法描述是合理的 A.()/ijN K C -∑越小越纯B. ()-*ijijC LOG R ∑越小越纯C.()1-*ijijR R ∑越小越纯D. ()()1-1-ijijR R ∑越小越纯E.()21-ij R ∑越小越纯F. ()-*ijijR LOG R ∑越小越纯13. 关于相关系数,下列描述中正确的有:A. 相关系数为0.8时,说明两个变量之间呈正相关关系B. 相关系数等于1相较于相关系数等于-1,前者的相关性更强C. 相关性等于1相较于相关系数等于0,前者的相关性更强D. Pearson 相关系数衡量了两个定序变量之间爱你的相关程度E. Spearman 相关系数可以衡量两个定序变量之间的相关程度F. 性关系数为0.2相较于-0.8,前者的相关性更强14. 关于线性回归的描述,以下正确的有A. 基本假设包括随即干扰项是均值为0的同方差正态分布B. 基本假设包括随即干扰项下是均值为0的同方差正态分布C. 在违背基本假设时,普通最小二乘法估计量不再是最佳线性无偏估计量D. 在违背基本假设时,模型不在可以估计E. 可以用DW 检验残差是否存在序列相关性F. 多重共线性会使得参数估计值方差减少15. 下列哪些方法可以用来对高位数据进行降维 A. LASSO B. 主成分分析 C. 聚类分析 D. 小波分析法 E. 线性判别法F. 拉普拉斯特征映射三、问答题16. 程序员A 在某个环境中编写代码,发现这个环境中只有一个函数rand9能产生1-9这9个数字,请问他该如何使用这个rand9函数编写一个能随机产生1-10的10个数字的rand10函数18.公司要构建淘宝商家健康指数,所以要对最近1年内交易的淘宝商家进行问卷调研。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2016阿里巴巴数据分析师职位笔试题目
阿里巴巴作为全球领先的小企业电子商务公司,招聘阿里巴巴数据分析师职位都会出些什么笔试题目呢?咱们一起看看。

一、异常值是指什么?请列举1种识别连续型变量异常值的方法?
异常值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。

在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。

Grubbs’test(是以Frank E. Grubbs命名的),又叫maximum normed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。

未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。

点评:考察的内容是统计学基础功底。

二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理
和步骤。

聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。

聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。

聚类与分类的不同在于,聚类所要求划分的类是未知的。

聚类分析计算方法主要有:层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。

其中,前两种算法是利用统计学定义的距离进行度量。

k-means 算法的工作过程说明如下:首先从n个数据对象任意选择k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。

一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。

其流程如下:
(1)从n个数据对象任意选择k 个对象作为初始聚类中心;
(2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;
(3)重新计算每个(有变化)聚类的均值(中心对象);
(4)循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。

优点:本算法确定的K 个划分到达平方误差最小。

当聚类是密集的,且类与类之间区别明显时,效果较好。

对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度为O(NKt),其中N是数据对象的数目,t是迭代的次数。

一般来说,K<<n,t<<n p="" 。

<="">
缺点:1. K 是事先给定的,但非常难以选定;2. 初始聚类中心的选择对聚类结果有较大的影响。

点评:考察的内容是常用数据分析方法,做数据分析一定要理解数据分析算法、应用场景、使用过程、以及优缺点。

三、根据要求写出SQL
表A结构如下:
Member_ID(用户的ID,字符型)
Log_time(用户访问页面时间,日期型(只有一天的数据))
URL(访问的页面地址,字符型)
要求:提取出每个用户访问的第一个URL(按时间最早),形成一个新表(新表名为B,表结构和表A一致)
createtable B asselectMember_ID, min(Log_time), URL from Agroup byMember_ID ;
点评:SQL语句,简单的数据获取能力,包括表查询、关联、汇总、函数等。

另外,这个答案其实是不对的,实现有很多方法,任由大家去发挥吧。

四、销售数据分析
以下是一家B2C电子商务网站的一周销售数据,该网站主要用户群是办公室女性,销售额主要集中在5种产品上,如果你是这家公司的分析师,
a) 从数据中,你看到了什么问题?你觉得背后的原因是什么?
b) 如果你的老板要求你提出一个运营改进计划,你会怎么做?
a) 从这一周的数据可以看出,周末的销售额明显偏低。

这其中的原因,可以从两个角度来看:站在消费者的角度,周末可能不用上班,因而也没有购买该产品的欲望;站在产品的角度来看,该产品不能在周末的时候引起消费者足够的注意力。

b) 针对该问题背后的两方面原因,我的运营改进计划也分两方面:一是,针对消费者周末没有购买欲望的心理,进行引导提醒消费者周末就应该准备好该产品;二是,通过该产品的一些类似于打折促销等活动来提升该产品在周末的人气和购买力。

点评:数据解读能力,获取数据是基本功,仅仅有数据获取能力是不够的,其次是对数据的解读能力。

五、用户调研
某公司针对A、B、C三类客户,提出了一种统一的改进计划,用于提升客户的周消费次数,需要你来制定一个事前试验方案,来支持决策,请你思考下列问题:
a) 试验需要为决策提供什么样的信息?
c) 按照上述目的,请写出你的数据抽样方法、需要采集的数据指标项,以及你选择的统计方法。

a) 试验要能证明该改进计划能显著提升A、B、C三类客户的周消费次数。

b) 根据三类客户的数量,采用分层比例抽样;
需要采集的数据指标项有:客户类别,改进计划前周消费次数,改进计划后周消费次数;
选用统计方法为:分别针对A、B、C三类客户,进行改进前和后的周消费次数的,两独立样本T-检验(two-sample t-test)。

点评:业务理解能力和数据分析思路,这是数据分析的核心竞争力。

综上所述:一个合格的数据分析应该具备统计学基础知识、数据分析方法、数据获取、数据解读和业务理解、数据分析思想几个方面能力,即将成为数据分析师的亲们,你们准备好了吗?。

相关文档
最新文档