从阿里巴巴笔试试题看数据分析师的职业要求

数据分析精选2015-03-26 10:36

以下试题是来自阿里巴巴2011年招募实习生的一次笔试题，从笔试题的几个要求我们一起来看看数据分析的职业要求。

一、异常值是指什么？请列举1种识别连续型变量异常值的方法？

异常值（Outlier）是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。

Grubbs’ test（是以Frank E. Grubbs命名的），又叫maximum normed residual test，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。

未知总体标准差σ，在五种检验法中，优劣次序为：t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。

点评：考察的内容是统计学基础功底。

二、什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和步骤。

聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于，聚类所要求划分的类是未知的。

聚类分析计算方法主要有：层次的方法（hierarchical method）、划分方法（partitioning method）、基于密度的方法（density-based method）、基于网格的方法（grid-based method）、基于模型的方法（model-based method）等。其中，前两种算法是利用统计学定义的距离进行度量。

k-means 算法的工作过程说明如下：首先从n个数据对象任意选择k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

其流程如下：

（1）从n个数据对象任意选择k 个对象作为初始聚类中心；

（2）根据每个聚类对象的均值（中心对象），计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分；

（3）重新计算每个（有变化）聚类的均值（中心对象）；

（4）循环（2）、（3）直到每个聚类不再发生变化为止（标准测量函数收敛）。

优点：本算法确定的K 个划分到达平方误差最小。当聚类是密集的，且类与类之间区别明显时，效果较好。对于处理大数据集，这个算法是相对可伸缩和高效的，计算的复杂度为O(NKt)，其中N是数据对象的数目，t是迭代的次数。一般来说，K<

缺点：1. K 是事先给定的，但非常难以选定；2. 初始聚类中心的选择对聚类结果有较大的影响。

点评：考察的内容是常用数据分析方法，做数据分析一定要理解数据分析算法、应用场景、使用过程、以及优缺点。

三、根据要求写出SQL

表A结构如下：

Member_ID（用户的ID，字符型）

Log_time（用户访问页面时间，日期型（只有一天的数据））

URL（访问的页面地址，字符型）

要求：提取出每个用户访问的第一个URL（按时间最早），形成一个新表（新表名为B，表结构和表A一致）

createtable B asselectMember_ID, min(Log_time), URL from Agroup

byMember_ID ;

点评：SQL语句，简单的数据获取能力，包括表查询、关联、汇总、函数等。

另外，这个答案其实是不对的，实现有很多方法，任由大家去发挥吧。

四、销售数据分析

以下是一家B2C电子商务网站的一周销售数据，该网站主要用户群是办公室女性，销售额主要集中在5种产品上，如果你是这家公司的分析师，

a) 从数据中，你看到了什么问题？你觉得背后的原因是什么？

b) 如果你的老板要求你提出一个运营改进计划，你会怎么做？

表如下：一组每天某网站的销售数据

a) 从这一周的数据可以看出，周末的销售额明显偏低。这其中的原因，可以从两个角度来看：站在消费者的角度，周末可能不用上班，因而也没有购买该产品的欲望；站在产品的角度来看，该产品不能在周末的时候引起消费者足够的注意力。

b) 针对该问题背后的两方面原因，我的运营改进计划也分两方面：一是，针对消费者周末没有购买欲望的心理，进行引导提醒消费者周末就应该准备好该产品；二是，通过该产品的一些类似于打折促销等活动来提升该产品在周末的人气和购买力。

点评：数据解读能力，获取数据是基本功，仅仅有数据获取能力是不够的，其次是对数据的解读能力。

五、用户调研

某公司针对A、B、C三类客户，提出了一种统一的改进计划，用于提升客户的周消费次数，需要你来制定一个事前试验方案，来支持决策，请你思考下列问题：

a) 试验需要为决策提供什么样的信息？

阿里数据分析笔试题

2016阿里巴巴数据分析师职位笔试题目阿里巴巴作为全球领先的小企业电子商务公司，招聘阿里巴巴数据分析师职位都会出些什么笔试题目呢?咱们一起看看。一、异常值是指什么?请列举1种识别连续型变量异常值的方法? 异常值(Outlier) 是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test(是以Frank E. Grubbs命名的)，又叫maximum normed residual test，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。未知总体标准差σ，在五种检验法中，优劣次序为：t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。点评：考察的内容是统计学基础功底。二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析计算方法主要有：层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中，前两种算法是利用统计学定义的距离进行度量。 k-means 算法的工作过程说明如下：首先从n个数据对象任意选择k 个对象作为初始聚类中心;而对于所剩下其它对象，则根据它们与这些聚类中心的相似度(距离)，分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。其流程如下： (1)从n个数据对象任意选择k 个对象作为初始聚类中心;

阿里巴巴笔试题(南京站,20011年9月)

阿里巴巴笔试题目（20011.9）技术类笔试试题（卷一）卷一：Java开发、测试工程师（25题）技术类笔试试题（卷二）卷二：搜索研发、 C++（25题） 1. 20个阿里巴巴B2B技术部的员工被安排为4排，每排5个人，我们任意选其中4人送给他们一人一本《effective c++》，那么我们选出的4人都在不同排的概率为： A.5^4*5!*15!/20! B. 4^5*5!*15!/20! C. 5^4*4!*16!/20! D. 4^5*4!*16!/20! 2. 若有序表的关键字序列为（b,c,d,e,f,g,q,r,s,t），则在二分查找关键字b的过程中，先后进行的关键字依次为： A.f,c,b B.f,d,b C.g,c,b D.g,d,b 3. perl里面声明：open（FILE, mode，file）; 操作的描述，下列哪项不正确？ A. FILE可以用变量$file来代替 B. mode可以和file写在一起，例如：open（FILE, ‘>file’） C. mode为+<的时候，只可以读文件，不能写文件 D. mode可以省略不写 4. 有一虚拟存储系统，若进程在内存中占3页（开始时内存为空），若采用先进先出（FIFO）页面淘汰算法，当执行如下访问页号序列后1，2，3，4，5，1，2，5，1，2，3，4，5，会发生多少缺页 A.7 B.8

C.9 D.10 5. 设有一个顺序栈S，元素s1，s2，s3，s4，s5, s6依次进栈，如果六个元素的出栈顺序为s2，s3，s4，s6，s5，s1，则顺序栈的容量至少应为多少 A.2 B.3 C.4 D.5 6. 下列关于文件索引结构的叙述中，哪一个是错误的？ A. 采用索引结构，逻辑上连续的文件存放在连续的物理块中 B. 系统为每个文件建立一张索引表 C. 索引结构的优点是访问速度快，文件长度可以动态变化 D. 索引结构的缺点是存储开销大 7. 在ASC算法team日常开发中，常常面临一些数据结构的抉择，令人纠结。目前大家在策划一个FBI项目（Fast Binary Indexing），其中用到的词汇有6200条，词汇长度在10-15之间，词汇字符是英文字母，区分大小写。请在下面几个数据结构中选择一个使检索速度最快的： A. 二叉搜索树，比较函数开销：1次运算/每字符 B. 哈希表，hash算法开销：10次运算/每字符 C. 链表，比较函数开销：1次运算/每字符 D. TRIE树，寻找子节点开销：1次运算/每字符 8. [0,2,1,4,3,9,5,8,6,7]是以数组形式存储的最小堆，删除堆顶元素0后的结果是： A. [2,1,4,3,9,5,8,6,7] B. [1,2,5,4,3,9,8,6,7] C. [2,3,1,4,7,9,5,8,6] D. [1,2,5,4,3,9,7,8,6] 9. 某页式存储管理系统中，地址寄存器长度为24位，其中页号为14位，则主存的分块大小是（）字节。 A.10 B.2^10

阿里巴巴数据产品经理工作(总结篇) _0

[ 产品经理] 阿里巴巴数据产品经理工作(总结篇) 2015-3-17 17:07| 发布者: 猫儿来自: 阿里巴巴PD | 关键词： PD（指产品经理，下同）本身就是在做牛做马，关系圈异常复杂。数据PD也不例外。而且打交道的人更多。以下是我用PPT绘制的数据产品经理关系圈。科普： PD：对于WEB产品设计人员而言，它的意思是“产品设计人员”，即produce designer。 PD：在IT企业中，一般是Product Director(产品主管)或Project Director(项目主管)的意思一. 如何做一个好的数据产品经理？

PD（指产品经理，下同）本身就是在做牛做马，关系圈异常复杂。数据PD也不例外。而且打交道的人更多。以下是我用PPT绘制的数据产品经理关系圈。如果你也做过数据产品的产品经理（好拗口），相信也有同感。既然要和这么多人打交道，要推动数据产品的上线，数据产品经理自然有着一定的要求。我的体会如下——也借此去鞭策自己在朝这个方向努力： 1.要极其熟悉公司业务及动向。所以要了解公司的商业模式、战略、以及业务流程、要考核的各种指标，以及指标背后的业务含义等。这一点，再了解都不够。 2.要了解数据分析。好的数据PD，即使不做数据PD，也应该是个数据分析师。数据PD 的一大要务就是将数据分析做成可复制，可自动运转的系统。虽然有数据分析师们围绕在自己周围，但是自己也要清楚业务的问题，分别要看什么数据，或者当数据出现后，意味着业务出现了什么问题或者会出现什么问题。这一点，要向最好的数据分析师们看齐。

3. 要了解数据仓库及商务智能。这两个关键词背后都是庞大的体系，恐怕我短短半年的转岗时间太短，虽然能够对别人讲解一通商务智能产品的架构。嘴里虽然会抛出若干个类似于汇总，钻取，度量，指标，维度，缓慢变化维，层次，属性，仪表盘等等术语，但是也不支持多几层的知识钻取，遇到异常问题，也不知道该从什么地方分析原因。幸而身边有数据仓库的同事，可以多多学习。这一点，没有天花板。而商务智能，做为一门学科，起源于20世纪90年代，它的出发点是帮助用户更好地获取决策信息，最初商务智能的动机是为用户提供自助式的信息获取方式，这样，用户就可以不用依赖于IT部门去获取定制的报表。（引自《信息仪表盘》一书P41）。而如今，商务智能除了提供信息，更主要的是降低用户获取数据的门槛，提升数据的实时性等方面。从降低用户获取数据的门槛一个方向，我们就可以做很多事情，比如如何设计信息仪表盘（designing of information dashboard）？如何让数据以更亲和的更直观的方式展示（数据可视化）？如何能够让用户离线访问？如何能够实现警戒数据的主动发送？这一点上，花多少功夫都不多。 4. 要精通数据产品开发流程。数据开发+产品开发。数据PD的最终目的是要做数据产品。这里要拆开看，其一，数据产品本身也是在线可供用户实现的产品，既然是产品，产品的整套研发思路和普通的产品没有太大区别，用户是谁，他们需求是什么，满足需求需要什么feature list，每个feature list的资源评估以及优先级如何，产品的生命周期如何？这是产品开发。然后他是个数据产品，意味着这比普通的产品，多了更多的要求。在数据这个内核之外，它需要各种feature list，如订阅，搜索，自定义，短信接口，邮件接口等。但是数据这个内核，也需要一套数据开发流程。比如：数据源——是否足够，是否稳定——数据PD需要足够了解目前的业务处理系统建设情

数据分析笔试题

从互联网巨头数据挖掘类招聘笔试题目看我们还差多少知识 1 从阿里数据分析师笔试看职业要求以下试题是来自阿里巴巴招募实习生的一次笔试题，从笔试题的几个要求我们一起来看看数据分析的职业要求。一、异常值是指什么？请列举1种识别连续型变量异常值的方法？异常值（Outlier）是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test（是以Frank E. Grubbs命名的），又叫maximum normed residual test，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。未知总体标准差σ，在五种检验法中，优劣次序为：t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。点评：考察的内容是统计学基础功底。二、什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和步骤。聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析计算方法主要有：层次的方法（hierarchical method）、划分方法（partitioning method）、基于密度的方法（density-based method）、基于网格的方法（grid-based method）、基于模型的方法（model-based method）等。其中，前两种算法是利用统计学定义的距离进行度量。k-means 算法的工作过程说明如下：首先从n个数据对象任意选择k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差(标准差)作为标准测度函数. k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。其流程如下：（1）从n个数据对象任意选择k 个对象作为初始聚类中心；（2）根据每个聚类对象的均值（中心对象），计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分；（3）重新计算每个（有变化）聚类的均值（中心对象）；（4）循环（2）、（3）直到每个聚类不再发生变化为止（标准测量函数收敛）。优点：本算法确定的K 个划分到达平方误差最小。当聚类是密集的，且类与类之间区别明显时，效果较好。对于处理大数据集，这个算法是相对可伸缩和高效的，计算的复杂度为O(NKt)，其中N是数据对象的数目，t是迭代的次数。一般来说，K<

阿里巴巴笔试题+解析(完整)

阿里巴巴面试题 1、 20个阿里巴巴B2B技术部的员工被安排为4排，每排5个人，我们任意选其中4人送给他们一人一本《effective c++》，那么我们选出的4人都在不同排的概率为： A、 5^4*5!*15!/20! B、 4^5*5!*15!/20! C、 5^4*4!*16!/20! D、 4^5*4!*16!/20! 2、若有序表的关键字序列为（b,c,d,e,f,g,q,r,s,t），则在二分查找关键字b的过程中，先后进行的关键字依次为： A、f,c,b B、f,d,b C、g,c,b D、g,d,b 3、 perl里面声明：open（FILE,mode，file）; 操作的描述，下列哪项不正确？ A、 FILE可以用变量$file来代替 B、 mode可以和file写在一起，例如：open（FILE, ‘>file’） C、 mode为+<的时候，只可以读文件，不能写文件（既可以读也可以写） D、 mode可以省略不写 4、有一个虚拟存储系统，若进程在内存中占3页（开始时内存为空），若采用先进先出（FIFO）页面淘汰算法，当执行如下访问页号序列后1，2，3，4，5,1，2，5，1，2，3，4，5，会发生多少缺页？ A、7 B、8 C、9 D、10 5、设有一个顺序栈S，元素s1、s2、s3、s4、s5、s6依次进栈，如果6个元素的出栈顺序为s2、s3、s4、s 6、s5、s1，则顺序栈的容量至少应为多少？ A、2 B、3 C、4 D、5 6、下列关于文件索引结构的叙述中，哪一个是错误的？ A、采用索引结构，逻辑上连续的文件存放在连续的物理块中 B、系统为每个文件建立一张索引表 C、索引结构的优点是访问速度快，文件长度可以动态变化 D、索引结构的缺点是存储开销大 7、在ASC算法team日常开发中，常常面临一些数据结构的抉择，令人纠结。目前大家在策划一个FBI项目（Fast Binary Indexing），其中用到的词汇有6200条，词汇长度在10-15之间，词汇字符是英文字母，区分大小写。请在下面几个数据结构中选择一个使检索速度最快的： A、二叉搜索树，比较函数开销：1次运算/每字符 B、哈希表，hash算法开销：10次运算/每字符 C、链表，比较函数开销：1次运算/每字符 D、 TRIE树，寻找子节点开销：1次运算/每字符 8、【0、2、1、4、3、9、5、8、6、7】是以数组形式存储的最小堆，删除堆顶元素0后的结果是（） A、【2、1、4、3、9、5、8、6、7】 B、【1、2、5、4、3、9、8、6、7】

百度、阿里、腾讯三巨头开挖大数据

百度、阿里、腾讯三巨头开挖大数据2014-04-14 09:55 罗超 36大数据字号：T | T 实际上，对于大数据究竟是什么业界并无共识。大数据并不是什么新鲜事物。信息革命带来的除了信息的更高效地生产、流通和消费外，还带来数据的爆炸式增长。“引爆点”到来之后，人们发现原有的零散的对数据的利用造成了巨大的浪费。移动互联网浪潮下，数据产生速度前所未有地加快。人类达成共识开始系统性地对数据进行挖掘。这是大数据的初心。数据积累的同时，数据挖掘需要的计算理论、实时的数据收集和流通通道、数据挖掘过程需要使用的软硬件环境都在成熟。 AD：51CTO学院：IT精品课程在线看！概念、模式、理论很重要，但在最具实干精神的互联网领域，行动才是最好的答案。国内互联网三巨头BAT 坐拥数据金矿，已陆续踏上了大数据掘金之路。 BAT都是大矿主，但矿山性质不同数据如同蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类，而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似，大数据并不在“大”，而在于“有用”。价值含量、挖掘成本比数量更为重要。百度拥有两种类型的大数据：用户搜索表征的需求数据；爬虫和阿拉丁获取的公共web数据。阿里巴巴拥有交易数据和信用数据。这两种数据更容易变现，挖掘出商业价值。除此之外阿里巴巴还通过投资等方式掌握了部分社交数据、移动数据。如微博和高德。腾讯拥有用户关系数据和基于此产生的社交数据。这些数据可以分析人们的生活和行为,从里面挖掘出政治、社会、文化、商业、健康等领域的信息，甚至预测未来。

下面，就将三家公司的情况一一扫描与分析。一、百度：含着数据出生且拥有挖掘技术，研究和实用结合搜索巨头百度围绕数据而生。它对网页数据的爬取、网页内容的组织和解析，通过语义分析对搜索需求的精准理解进而从海量数据中找准结果，以及精准的搜索引擎关键字广告，实质上就是一个数据的获取、组织、分析和挖掘的过程。除了网页外，百度还通过阿拉丁计划吸收第三方数据，通过业务手段与药监局等部门合作拿到封闭的数据。但是，尽管百度拥有核心技术和数据矿山，却还没有发挥出最大潜力。百度指数、百度统计等产品算是对数据挖掘的一些初级应用，与Google相比，百度在社交数据、实时数据的收集和由数据流通到数据挖掘转换上有很大潜力，还有很多事情要做。 2月底在北京出差时，写了一篇《搜索引擎的大数据时代》发在虎嗅。创造了零回复的记录。尽管如此，仍然没有打消我对搜索引擎在大数据时代深层次变革的思考。搜索引擎在大数据时代面临的挑战有：更多的暗网数据；更多的WEB化但是没有结构化的数据；更多的WEB化、结构化但是封闭的数据。这几个挑战使得数据正在远离传统搜索引擎。不过，搜索引擎在大数据上毕竟具备技术沉淀以及优势。接下来，百度会向企业提供更多的数据和数据服务。前期百度与宝洁、平安等公司合作，为其提供消费者行为分析和挖掘服务，通过数据结论指导企业推出产品，是一种典型的基于大数据的C2B模式。与此类似的还有Netflix的《纸牌屋》美剧，该剧的男主角凯文·史派西和导演大卫·芬奇都是通过对网络数据挖掘之后，根据受欢迎情况选中的。

2014年阿里巴巴数据分析师笔试题

2014年3月29日阿里巴巴数据分析师（北京）一、10道填空，每题3分 1、小松鼠采到了100颗坚果要运回家。家离放坚果的地方有100米远。小松鼠每次最多运50颗。BUT！小松鼠很馋。。。每走2米就要吃一颗坚果。。。问小松鼠最多能运回家多少颗坚果？ A 0 B 10 C 25 D50 答案：应该是25颗吧！（先运50颗50米，吃了25颗，返回去，回去的途中没吃的了，再运50颗到50米的地方，又吃了25颗，再把剩下的运回家，又吃25颗，还剩25颗。）吐槽一下，题目应该说明：小松鼠足够聪明，至少比参加考试的人聪明。。。 2、标号12345的5个球，一次取两个，和为3或者6的概率是多少？答案：0.3。不解释。 3、考了LOGISTIC回归。 4、聚类分析法，k_means。 5、其他条件相同，置信水平越低，则置信区间上下限差值越() A.越大 B.越小 C.为0 D不确定应该是B吧。 6、precision、ecall、ROC。剩下的不记得了。二、三道题，每题10分。 1、已知每10万人中有1人得艾滋病。现在有一种检查，如果被测者患病则一定能查出来。如果被测者没病，有1%的测试出错也显示阳性。现在一个人检查结果是阳性。问真正得病的概率？答案：貌似所有的讲全概率公式的书上都有这道题。 2、SQL 两张表合并，主键是USER_ID，然后把深圳市、广州市，大于16岁的，发生在2013年12月的一项挑出来加起来。不会SQL的话就写思路。我就不会。。。。。。 3、层次分析法AHP的含义，具体步骤。并举一个适合用层次分析法的案例。三、两道题，每题20分。 1、淘宝上有一些小众但是品位高的店铺，怎么把他们筛选出来捏？ 2、双十一的时候，商家会发优惠券，从商家和平台两个角度设计评价指标，并分析指标不同结果应该对应怎样的措施。资料：优惠券分两种：满200减50，满300减100. 发放日期：10月15-11月10 使用日期：11月11 希望对大家有所帮助！

毕业生笔试题：阿里巴巴数据分析笔试题

《毕业生：阿里巴巴数据分析师笔试题》最近，网上放出了IT大佬们的一些考题出来，让人竞相争看，倒地这些大牛公司的择贤条件是如何的呢？大圣众包（https://www.360docs.net/doc/bd14338442.html,）威客平台从网上整理了阿里巴巴招募数据分析师实习生的一道笔试题，让大家提前试试水。答案在最后，可不要提前偷看哦。 ———————————————问题分割线——————————————— 一、异常值是指什么？请列举1种识别连续型变量异常值的方法？二、什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和步骤。三、根据要求写出SQL 表A结构如下： Member_ID（用户的ID，字符型） Log_time（用户访问页面时间，日期型（只有一天的数据）） URL（访问的页面地址，字符型）

要求：提取出每个用户访问的第一个URL（按时间最早），形成一个新表（新表名为B，表结构和表A一致）四、销售数据分析根据某一家B2C电子商务网站的一周销售数据，该网站主要用户群是办公室女性，销售额主要集中在5种产品上，如果你是这家公司的分析师， a)从数据中，你看到了什么问题？你觉得背后的原因是什么？ b)如果你的老板要求你提出一个运营改进计划，你会怎么做？五、用户调研某公司针对A、B、C三类客户，提出了一种统一的改进计划，用于提升客户的周消费次数，需要你来制定一个事前试验方案，来支持决策，请你思考下列问题： a)试验需要为决策提供什么样的信息？ b)按照上述目的，请写出你的数据抽样方法、需要采集的数据指标项，以及你选择的统计方法。

———————————————答案分割线——————————————— 一、异常值（Outlier）是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test（是以FrankE.Grubbs命名的），又叫maximumnormedresidualtest，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。未知总体标准差σ，在五种检验法中，优劣次序为：t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。【点评】考察的内容是统计学基础功底。二、聚类分析（clusteranalysis）是一组将研究对象分为相对同质的群组（clusters）的统计分析技术。聚类分析也叫分类分析（classificationanalysis）或数值分类（numericaltaxonomy）。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析计算方法主要有：层次的方法（hierarchicalmethod）、划分方法（partitioningmethod）、基于密度的方法（density-basedmethod）、基于网格的方法（grid-basedmethod）、基于模型的方法（model-basedmethod）等。其中，前两种算法是利用统计学定义的距离进行度量。 k-means算法的工作过程说明如下：首先从n个数据对象任意选择k个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后

阿里巴巴笔试题答案

第一题选C，不解释吧，按位与就行第二题选D，不解释，2*3*sizeof(int*)=48（64位机器上是8字节一个指针）第三题选C，我不确定，不过，应该是的第四题选D，明显考的是补码第5题选D，果断访问错误（这是Java的代码）第6题选B，大家都懂第7题果断A啊第8题果断是B，不解释，大家懂第9题是B，’0’不是’\0’，这个要注意第10题果断是Fibonacci，显然是C，前几个是0，1，2，3，5，8，13，21 第11题选B，计算量是2^35，现在计算机的主频是2^30，所以差不多是几秒的事第12题是B，显然有n=4N1+3N3+2N2+N1+1=N4+n3+n2+n1，所以N0=82，不解释第13题果断是D，这个老题目了，不解释第14题是C，二分查找嘛，大家都会，不解释第15题是Fulkerson算法，算出来是46，每一次选一个增广路径即可，直接选不出来为止第16题选185，显然，它给了120块钱(楼主二了)和一个物品（值65元），所以亏损185 这个题目楼主是这样想的，结果二了第17题是2，不解释Fermart小定理，2^6 mod 7= 1，所以2^100=2^4=16=2 mod 7 第18题，我觉得是B，不知道对不对，这个不会第19题，算得不太精细，选了A，不确定。第20题C，概率与级数运算，不解释第21题，果断B，D，malloc，new申请到的是Virtual Memory，不过，windows里面还真可以申请到物理内存，用的是VirtualAllocEx API即可

第22题B,C肯定对，D不确定，感觉是对的，不过，没敢选第23题，其实就是解n^14<10^16，解出n<= 13，所以选14，15（我是推出n<10^(8/7)然后算出n<=13 第24题，D，因为选出第一个是白的，所以位于A的概率是2/3 第25，不可能，需要2.8*10^8 bit，而蓝牙只能传2.4*10^7bit所以一帧需要0.2S 第26题(mnlogn)不解释，归并而已第27题显然是17分钟第28，错两个地方1，没考虑只有一个数，2，可能死循环（给你数组0，2，3让查找1）楼主两个都想到了，写的时候忘记了写1，悲剧第29题，果断SkipList，地球人懂的O(PLogpN)

阿里巴巴数据分析

图一：整体变化时间序列数据图从图中可以看出：阿里巴巴的总资产、流动资产、非流动资产2012年~2015年呈现出了明显同步增长趋势；股东权益2012年~2013年减少，2013年~2015年开始大幅增长；营业收入、营业成本、毛利润2012年~2015年增长基本保持稳定，稳中有涨。整体分析: 从资产构成来看，流动资产所占总资产的比重在逐年下降，止2015年为55.63%，而构成流动资产的现金部分占总资产比重则在2014年~2015年开始上涨达到49.33%。通过分析说明尽管阿里巴巴的流动资产占总资产比重下降，但仍高于非流动资产所占比重，在合理范围内。总资产及现金较大幅度的增加表明企业占有的经济资源增加，经营规模扩大，资产流动性增强。

从股东权益变化来看2012年~2013年随着资产的增长，股东权益却呈下降趋势，说明资产的增长主要是来源于负债的增加，而2013年~2015年股东权益的大幅增长可以说明阿里巴巴意识到高负债带来了高风险，转而采取了较稳健的财务政策。图二：偿债能力时间序列数据图从图中可以看出： 2012年~2013年资产负债率呈现大幅增长，而从2013年~2015年该比率发生扭转开始平稳下降。偿债能力分析：从资产负债率变化的角度来看，该比率在2012年-2013年大幅增加，这可能导致债权人的权益无法得到保障，因为资产负债率越高，说明企业的长期偿债能力就越弱，债权人的保证程度就越弱。而该比率从2013年~2015年的平稳下降说明企业也意识到高债务的严重性并及时采取了相应的行动，进行资产结构优化，从而降低负债带来的企业风险，提高了债权人的保证程度。

2017阿里巴巴招聘笔试题

2017阿里巴巴招聘笔试题 1、iBatis相比JDBC优势的优势有哪些? 答：简单易上手、开发速度快、面向对象，数据库可移植。 (此处应该将优缺点一起分析，才是满意得到回答) 延伸学习： MyBatis和iBatis的区别： ibatis本是apache的一个开源项目，2010年这个项目由apache software foundation 迁移到了google code，并且改名为mybatis (1)Mybatis实现了接口绑定，使用更加方便：在ibatis2.x中我们需要在DAO的实现类中指定具体对应哪个xml映射文件，而Mybatis实现了DAO接口与xml映射文件的绑定， (2)对象关系映射的改进，效率更高 iBatis：优点 : 代码量减少、简单易上手、SQL语句和代码分离(便于修改)、数据库可移植缺点：SQL语句需要自己写、参数只能有一个 Hibernate：优点：对象关系数据库映射、完全面向对象、提供缓存机制、HQL编程缺点：不能灵活使用原生SQL、无法对SQL优化、全表映射效率低下、N+1的问题 JDBC、iBatis、Hibernate明显对比： JDBC更为灵活，更加有效率，系统运行速度快。但是代码繁琐复杂，有的时候用了存储过程就不方便数据库移植了。 hibernate，iBatis 关系数据库框架，开发速度快，更加面向对象，可以移植更换数据库，但影响系统性能。 JDBC:手动手动写sql，不能直接传入一个对象、不能直接返回一个对象。 iBatis的特点:半自动化手动写sql，能直接传入一个对象、能直接返回一个对象。

Hibernate:全自动不写sql,自动封装，能直接传入一个对象、能直接返回一个对象。 2、PrepareStatement相比statement，有哪些优点? 答： (1)直接使用Statement，驱动程序一般不会对sql语句作处理而直接交给数据库; 使用PreparedStament，形成预编译的过程，并且会对语句作字符集的转换(至少在sql server)中如此。如此，有两个好处：对于多次重复执行的语句，使用PreparedStament效率会更高一点，并且在这种情况下也比较适合使用batch;另外，可以比较好地解决系统的本地化问题。 (2)PreparedStatement还能有效的防止危险字符的注入，也就是sql注入的问题。(但是必须使用“对?赋值的方法”才管用) 3、TCP/IP对应于OSI七层模型的哪些层? 答： OSI七层模型分别是：应用层、表示层、会话层、传输层、网络层、数据链路层和物理层。 TCP/IP协议不是TCP和IP协议的合称，而是指因特网整个TCP/IP协议族。从协议分层模型方面来看，TCP/IP由四个层次组成：网络接口层、网络层、传输层和应用层。延伸学习：应用层：由用户自己规定，只要形成的消息能与表示层接口。这包括各机互访协议，分布式数据库协议等。表示层：是在满足用户需求的基础上，尽可能的节省传输费用而设置的。如文本压缩、常用词转换、加密、变更文件格式等。这就是说，只要能表示用户所需的信息，形式上可以改变，并尽可能形成标准格式，以利于传送。对话层：是为用户之间对话的进行而设置的，这包括建立和拆除对话，确定对话对象。如不是授权的对话者，就不予送出信息，以达到可靠的要求，这一层也可与传输层合并。传输层：就是使主机之间或信源和信宿之间能互通信息。这一层因此也可以被称为源--宿层或端--端层，这一般是主机操作系统的一部分。它负责把上一层

阿里巴巴校园招聘笔试题及参考答案

阿里巴巴的Oracle DBA笔试题及参考答案- 数据库基本概念类 1:pctused and pctfree 表示什么含义有什么作用 pctused与pctfree控制数据块是否出现在freelist中, pctfree控制数据块中保留用于update的空间,当数据块中的free space小于pctfree设置的空间时, 该数据块从freelist中去掉,当块由于dml操作free space大于pct_used设置的空间时,该数据库块将被添加在freelist链表中。 2:简单描述table / segment / extent / block之间的关系 table创建时,默认创建了一个data segment, 每个data segment含有min extents指定的extents数, 每个extent据据表空间的存储参数分配一定数量的blocks 3:描述tablespace和datafile之间的关系一个tablespace可以有一个或多个datafile,每个datafile只能在一个tablespace内, table中的数据,通过hash算法分布在tablespace中的各个datafile中, tablespace是逻辑上的概念,datafile则在物理上储存了数据库的种种对象。 4:本地管理表空间和字典管理表空间的特点，ASSM有什么特点本地管理表空间(Locally Managed Tablespace简称LMT) 8i以后出现的一种新的表空间的管理模式，通过位图来管理表空间的空间使用。字典管理表空间(Dictionary-Managed Tablespace简称DMT) 8i以前包括以后都还可以使用的一种表空间管理模式，通过数据字典管理表空间的空间使用。动段空间管理(ASSM)，它首次出现在Oracle920里有了ASSM，链接列表freelist被位图所取代，它是一个二进制的数组，能够迅速有效地管理存储扩展和剩余区块(free block)，因此能够改善分段存储本质，ASSM表空间上创建的段还有另外一个称呼叫Bitmap Managed Segments(BMB 段)。 5:回滚段的作用是什么事务回滚：当事务修改表中数据的时候，该数据修改前的值(即前影像)会存放在回滚段中，当用户回滚事务(ROLLBACK)时，ORACLE将会利用回滚段中的数据前影像来将修改的数据恢复到原来的值。事务恢复：当事务正在处理的时候，例程失败，回滚段的信息保存在undo表空间中，ORACLE将在下次打开数据库时利用回滚来恢复未提交的数据。读一致性：当一个会话正在修改数据时，其他的会话将看不到该会话未提交的修改。当一个语句正在执行时，该语句将看不到从该语句开始执行后的未提交的修改(语句级读一致性) 当ORACLE执行Select语句时，ORACLE依照当前的系统改变号(SYSTEM CHANGE NUMBER-SCN) 来保证任何前于当前SCN的未提交的改变不被该语句处理。可以想象：当一个长时间的查询正在执行时，若其他会话改变了该查询要查询的某个数据块，ORACLE将利用回滚段的数据前影像来构造一个读一致性视图。 6:日志的作用是什么

2017阿里巴巴年度零售情况分析

“2017年已划上句号，2018崭新的一年已经开始！根据数据统计显示：2017年阿里中国零售平台GMV规模达46350亿，同比增长30%。其中，天猫跟淘宝网分别达到21090亿及25260亿，同比分别增长43.9%及20%！数据来源：云观咨询、中商产业研究院整理受益于中国电子商务的高速发展，阿里巴巴中国零售平台近几年在自身基数已经非常大的情况下GMV还保持着相当不错的增长！并且能在2016年以21%的增幅处于最低谷的时期，还能够快速调整过来并在2017年交出近30%的增长成绩，GMV突破4.5万亿，实在不易！同期中国社会消费品零售总额2016年约33.23万亿，2017年预估约36.65万亿增长约10.3%，阿里中国零售平台GMV增长领跑社零近3倍，占比社零约12.6%！预测阿里巴巴将在2019年底完成1万亿美元的目标

数据来源：云观咨询、中商产业研究院整理在2012年1月阿里将原来的淘宝商城正式更名为现天猫的时候，这将注定是中国电子商务尤其是B2C发展历程当中重要的一件大事！同时天猫也迎来了高速发展的黄金时期，五年时间，由2000亿到2万亿规模翻了近10倍！在2016年短暂的增长低谷后，2017年加紧大力完善菜鸟网络，发力天猫超市等，补足了以往短板的物流板块，从而2017年消费电子及快速消费品等品类得以爆发增长，再加上新零售模式软硬件的进一步完善，线上线下系统等对接的进一步成熟，唤醒了服饰等传统龙头品类的第二春，多方面发力从而拉动了2017年整体44%的增长！天猫自身体量首次突破2万亿大关，并且占比阿里中国零售平台整体份额由2012年的22.6%升至2017年的45.5%，如不出意外2018年天猫就将占据半壁江山！

产品类面试真题阿里笔试非技术岗

产品类面试真题 Q：你的互联网项目产品经历 Tips：具体小问题包括：①如何发现的需求？②如何开展项目？③产品有什么问题？④如何解决？⑤团队组成？如何分工？⑥担当角色发挥的作用？答：从产品定位、功能、解决 Q：说出你印象最深刻的项目？ Tips：从项目内容，你在当中的作用，你的收获谈起。当中出现的问题、数据调查、运营手段、取得成果等角度来谈。之后面试官会从中问下实施细节，说的时候最好可以体现你在团队中的职务，取得的效果，从中的收获？ Q：你觉得90后身上具备什么素质？ A：首先，具备什么素质因人而异。但大部分90后，平均智商偏高（受到良好的教育）；对新鲜事物的接受能力较强；乐天派，有激情，有活力。 Tips：这是一道考情商的题，不要说的太极端就好， Q：简单的谈谈你的实习经历？ Tips：如果你做过产品相关工作，就谈这个，如果没有，就谈产品经理应该具备的一些能力所对应的经历。 Q：你对产品经理的理解 A1：产品经理是生孩子的，运营是养孩子的。是一个团队的粘合剂，将各个部门联系到一起。 A2：产品经理是一个非常典型的“门槛在里面”的岗位，看上去谁都能做，其实个体间能力的相差能够非常之大。个人觉得对这个问题的回答，很大程度上就决定了此次面试的结果，建议大家看一看《启示录：打造用户喜爱的产品》和《腾讯方法》这两本书以加深理解。个人建议可以从这么几个方向入手：产品经理是做啥的、产品经理需要具备哪些能力、产品经理对于整个团队的重要性、产品经理的自我完善与成长路径、自身条件与产品经理职位需求的契合度。 Tips： ①我理解的PM需要具备：需求挖掘，数据分析，团队沟通，执行力等方面的能力~ ②为什么要做PM：从a自己的愿景、b能力与岗位的匹配、c提升能力，这三个角度回答问题。做产品的大前提是要喜欢产品，不然将来你痛苦，团队痛苦，用户也痛苦，是不是？网络

数据分析师笔试题目

网易数据分析专员笔试题目一、基础题 1、中国现在有多少亿网民？ 2、百度花多少亿美元收购了91无线？ 3、app store排名的规则和影响因素 4、豆瓣fm推荐算法 5、列举5个数据分析的博客或网站二、计算题 1、关于简单移动平均和加权移动平均计算 2、两行数计算相关系数。（2位小数，还不让用计算器，反正我没算） 3、计算三个距离，欧几里德，曼哈顿，闵可夫斯基距离三、简答题 1、离散的指标，优缺点 2、插补缺失值方法，优缺点及适用环境 3、数据仓库解决方案，优缺点 4、分类算法，优缺点 5、协同推荐系统和基于聚类系统的区别四、分析题关于网易邮箱用户流失的定义，挑选指标。然后要构建一个预警模型。

五、算法题记不得了，没做。。。反正是决策树和神经网络相关。 1、你处理过的最大的数据量？你是如何处理他们的？处理的结果。 2、告诉我二个分析或者计算机科学相关项目？你是如何对其结果进行衡量的？ 3、什么是：提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则？ 4、什么是：协同过滤、n-grams, map reduce、余弦距离？ 5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库？ 6、如何设计一个解决抄袭的方案？ 7、如何检验一个个人支付账户都多个人使用？ 8、点击流数据应该是实时处理？为什么？哪部分应该实时处理？

9、你认为哪个更好：是好的数据还是好模型？同时你是如何定义“好”？存在所有情况下通用的模型吗？有你没有知道一些模型的定义并不是那么好？ 10、什么是概率合并（AKA模糊融合）？使用SQL处理还是其它语言方便？对于处理半结构化的数据你会选择使用哪种语言？ 11、你是如何处理缺少数据的？你推荐使用什么样的处理技术？ 12、你最喜欢的编程语言是什么？为什么？ 13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。 14、SAS, R, Python, Perl语言的区别是？ 15、什么是大数据的诅咒？ 16、你参与过数据库与数据模型的设计吗？ 17、你是否参与过仪表盘的设计及指标选择？你对于商业智能和报表工具有什么想法？ 18、你喜欢TD数据库的什么特征？

阿里国际站代运营篇：没有分析数据,说什么精准营销!

现在的整个市场越来越重视数据的分析，很多人越来越关注PV、UV、跳出率、访问深度、停留时长等。总体来说，这些指标都属于统计指标，反映的都是店铺总体情况，数据的价值除了反映现状，还有更重要的是应用。统计是数据汇总整理的结果，没有分析，怎能拿来指导下一步的工作呢？对于我们经营国际站的外贸人来说，最重要的东西之一就是买家到底喜欢什么，只有知道了这个之后，我们才能针对买家爱好出击，做到精准吸引潜在买家！要想知道买家喜欢什么，首先你要知道买家都做了些什么，通过分析买家的行为来掌握买家的习惯。什么是买家行为分析简单来说就是分析买家做了什么，和买家一直做什么，并以此来抓住买家的喜好点，掌控整个市场那我们怎么去分析？阿里后台就可以直接搞定这些东西了，来看一下！阿里巴巴后台>>数据管家>>知买家>>访客详情地域，判断目标市场通过采集访客地域数据，我们可以判断出我们的主营市场是什么地方，是欧洲还是北美，或者其它的地方。判断出目标市场后，在P4P推广我们就可以针对我们的目标市场时间进行推广。旺铺及产品页装修风格也可以结合目标市场买家喜好进行设计。浏览量，了解买家搜索路径点开浏览量，我们可以知道买家来了我们店铺后的路径，浏览了哪些页面，及在每个页面的停留时长。在都有反馈的前提下，浏览量越少，即表达买家越喜欢这个产品，搜索路径越短，普通产品，排名会越好，P4P产品，所需要的竞价底价越低。停留总时长，计算跳出率从点击页面中，可以看出买家在这个页面仅仅只停留几秒，这个就相当于买家一进你的页面就立马跳走啦，大家可以统计停留时长低于2s的访客数量，该数据除以访客总数就可以得出跳出率了，如果跳出率占比过高，大家需要优化旺铺页面及产品详情页。影响跳出率的原因有关键词与页面的匹配度，页面打开速度过慢等。常用搜索词，判断买家的质量及真实需求