毕业生笔试题：阿里巴巴数据分析笔试题

合集下载

阿里巴巴笔试题答案

第一题选C，不解释吧，按位与就行第二题选D，不解释，2*3*sizeof(int*)=48（64位机器上是8字节一个指针）第三题选C，我不确定，不过，应该是的第四题选D，明显考的是补码第5题选D，果断访问错误（这是Java的代码）第6题选B，大家都懂第7题果断A啊第8题果断是B，不解释，大家懂第9题是B，’0’不是’\0’，这个要注意第10题果断是Fibonacci，显然是C，前几个是0，1，2，3，5，8，13，21第11题选B，计算量是2^35，现在计算机的主频是2^30，所以差不多是几秒的事第12题是B，显然有n=4N1+3N3+2N2+N1+1=N4+n3+n2+n1，所以N0=82，不解释第13题果断是D，这个老题目了，不解释第14题是C，二分查找嘛，大家都会，不解释第15题是Fulkerson算法，算出来是46，每一次选一个增广路径即可，直接选不出来为止第16题选185，显然，它给了120块钱(楼主二了)和一个物品（值65元），所以亏损185 这个题目楼主是这样想的，结果二了第17题是2，不解释Fermart小定理，2^6 mod 7= 1，所以2^100=2^4=16=2 mod 7第18题，我觉得是B，不知道对不对，这个不会第19题，算得不太精细，选了A，不确定。

第20题C，概率与级数运算，不解释第21题，果断B，D，malloc，new申请到的是Virtual Memory，不过，windows里面还真可以申请到物理内存，用的是VirtualAllocEx API即可第22题B,C肯定对，D不确定，感觉是对的，不过，没敢选第23题，其实就是解n^14<10^16，解出n<= 13，所以选14，15（我是推出n<10^(8/7)然后算出n<=13第24题，D，因为选出第一个是白的，所以位于A的概率是2/3第25，不可能，需要2.8*10^8 bit，而蓝牙只能传2.4*10^7bit所以一帧需要0.2S第26题(mnlogn)不解释，归并而已第27题显然是17分钟第28，错两个地方1，没考虑只有一个数，2，可能死循环（给你数组0，2，3让查找1）楼主两个都想到了，写的时候忘记了写1，悲剧第29题，果断SkipList，地球人懂的O(PLogpN)。

阿里巴巴集团笔试题目

阿里巴巴集团笔试题目下面是由应届毕业生网分享的题目第一题、5亿个不重复的商品的ID（每一个商品的ID是64位），现在有一个存放了10亿个商品ID（商品的ID会有重复）的日志文件，请设计一种方法找出5亿个商品中没有出现在日志文件中的商品。

假设所能使用的内存为2G。

[html] view plaincopyprint?01.2G的文件只能存放2.5亿的商品ID，因为5亿商品大小为5*10*8B=4G。

可以考虑将5亿商品ID哈希到四个文件中A[4]。

然后将10亿个商品哈希到另外四个文件中B[4]。

每次读入一个A文件读入一个B文件，将B文件哈希到A文件中，A文件中的值为0的键值就是没有被日志文件包含的。

但是日志文件分成四个之后，每一个的大小事2G无法一次性的读入，可以一次读一半或者分成8个文件。

以上为博主的思路，欢迎各位指正。

2G的文件只能存放2.5亿的商品ID，因为5亿商品大小为5*10*8B=4G。

可以考虑将5亿商品ID哈希到四个文件中A[4]。

然后将10亿个商品哈希到另外四个文件中B[4]。

每次读入一个A文件读入一个B文件，将B文件哈希到A文件中，A文件中的值为0的键值就是没有被日志文件包含的。

但是日志文件分成四个之后，每一个的大小事2G无法一次性的读入，可以一次读一半或者分成8个文件。

以上为博主的思路，欢迎各位指正。

[cpp] view plaincopyprint?01.第二题、有一个词组的列表，list string wordlist={ a boy , hello word , small cat ,.......};有一个字符串string stringlist={ a boy can catch small cats }.要求找出出现在stringlist中的wordlist的词组。

比如a boy 就出现了，但是small cat没出现。

只要有一个出现了就返回true，否则返回false[cpp] view plaincopyprint?01. bool Find(list string wordlist,string stringlist)02.{03. int length=wordlist.length();04. int i;05. for(i=0;i length;i++)06. {07. if(stringlist.find(wordlist[i])!=stringlist.end() *(stringlist.find(wordlist[i])++)==' ')08. {09. return true;。

阿里巴巴校园招聘测试笔试题总结

选择题（每题5分）1。

某校园网用户无法访问外部站点210。

102。

58。

74，管理人员在windows 操作系统下可以使用( ）判断故障发生在校园网内还是校园网外.A. ping 210.102.58.74 B。

tracert 210.102.58。

74C. netstat 210。

102.58。

74D. arp 210.102.58.742。

在C++语言中,若类C中定义了一个方法int f（int a，int b)，那么方法（）不能与该方法同时存在于类C中。

A．int f（int x，int y） B．int f(float a，int b）C．float f(int x，float y) D．int f(int x,float y)3. 两个小组独立地测试同一个程序,第一组发现25个错误，第二组发现30个错误，在两个小组发现的错误中有15个是共同的，那么可以估计程序中的错误总数是（）个。

A．25 B．30 C．50D．60答案1:（25+30—15）/（80%)=50先算出两组发现的bug总数,再根据测试的2/8定律（即测试只能查到系统中80％的错误)结果当然是50了答案2:设错误总数为X，那么甲发现错误的概率P(甲）为 25 / X，乙发现错误的概率P（乙)为 30 / X ,甲乙同时发现错误的概率P（同）为 15 / X .因为 P(甲）*P(乙）=P（同) ，所以(25 / X）＊（30 / X) = 15 / X计算而得X=504。

对于软件的β测试，下列描述正确的是（）.A．β测试就是在软件公司内部展开的测试，由公司专业的测试人员执行的测试B．β测试就是在软件公司内部展开的测试，由公司的非专业测试人员执行的测试C．β测试就是在软件公司外部展开的测试，由专业的测试人员执行的测试D．β测试就是在软件公司外部展开的测试，可以由非专业的测试人员执行的测试综合题(每题15分）淘宝每层办公区茶水间都有一台饮料自动售卖机，可选饮料包含有奶茶，咖啡,果珍等，由于是公司福利不需要投币即可使用。

阿里巴巴数据笔试题

阿里巴巴数据笔试题《领导力的五个层次》在企业中，领导力是非常重要的素质之一，只有具备领导力的人才有能力带领团队向前发展。

但是，领导力也是有不同的层次的，今天我们就来谈谈领导力的五个层次。

一、个人领导力个人领导力是指一个人在自己的岗位上通过自身的努力、自我管理和个人价值观的指导，发挥出应有的水平。

个人领导力包括情绪控制、自我激励、个人品格等多个方面。

只有掌握了个人领导力，才能更好的引领自己前进。

二、团队领导力团队领导力是指通过协调团队成员，发挥有效的团队合作和协作，在组织中稳定地发挥作用，实现组织目标。

这种领导力要求领导者具备组织和管理能力、心理学和团队建设知识以及统计和分析能力。

三、组织领导力组织领导力是指通过有效的组织管理来实现组织的目标和使整个机构运转的合理性，相当于组织的全能型领导者。

组织能力是在高度复杂和竞争性的环境中进行组织管理，需要具备的是良好的组织管理技能、综合分析和推动能力。

四、社会领导力社会领导力是指领导者在社会层面上担任重要角色的能力，要求领导者关注整个社会的利益和需求，以更高的智慧和更广阔的视野制定更好的发展战略，推动社会进步。

五、全球领导力全球领导力是指领导者在全球范围内，使用跨国和跨文化的领导技能，在多种地理和文化背景下领导明智和有效的战略和业务。

要具备的能力包括文化理解、跨文化交际能力、跨国，跨区域合作能力以及全球经济发展态势的洞察力。

以上便是领导力的五个层次，每一层次都有其独特的要求和能力需求，只有成为一个全面的领导者，才能更好地带领组织前进。

数据分析笔试题及答案

数据分析笔试题及答案一、选择题（每题2分，共10分）1. 数据分析中，以下哪个指标不是描述性统计指标？A. 平均数B. 中位数C. 标准差D. 相关系数答案：D2. 在进行数据清洗时，以下哪项操作不是必要的？A. 处理缺失值B. 去除异常值C. 转换数据类型D. 增加数据量答案：D3. 以下哪个工具不是数据分析常用的软件？A. ExcelB. RC. PythonD. Photoshop答案：D4. 假设检验中，P值小于显著性水平α，我们通常认为：A. 拒绝原假设B. 接受原假设C. 无法判断D. 结果不可靠答案：A5. 以下哪个不是时间序列分析的特点？A. 趋势性B. 季节性C. 随机性D. 稳定性答案：D二、简答题（每题5分，共15分）1. 请简述数据可视化的重要性。

答案：数据可视化是数据分析中的重要环节，它能够帮助分析者直观地理解数据的分布、趋势和模式。

通过图表、图形等形式，可以更清晰地展示数据之间的关系，便于发现数据中的规律和异常点，从而为决策提供支持。

2. 描述数据挖掘中的“关联规则”是什么，并给出一个例子。

答案：关联规则是数据挖掘中用来发现变量之间有趣关系的一种方法，特别是变量之间的频繁模式、关联、相关性。

例如，在超市购物篮分析中，关联规则可能揭示“购买了牛奶的顾客中有80%也购买了面包”。

3. 解释什么是“数据的维度”以及它在数据分析中的作用。

答案：数据的维度指的是数据集中可以独立变化的属性或特征。

在数据分析中，维度可以帮助我们从不同角度观察和理解数据，进行多维度的分析和比较，从而获得更全面的数据洞察。

三、计算题（每题10分，共20分）1. 给定一组数据：2, 3, 4, 5, 6, 7, 8, 9, 10，请计算这组数据的平均数和标准差。

答案：平均数 = (2+3+4+5+6+7+8+9+10) / 9 = 5.5标准差 = sqrt(((2-5.5)^2 + (3-5.5)^2 + ... + (10-5.5)^2) / 9) ≈ 2.87232. 如果一家公司在过去5年的年销售额分别为100万、150万、200万、250万和300万，请计算该公司年销售额的复合年增长率（CAGR）。

阿里巴巴校招数据分析师职位笔试题目

阿里巴巴校招数据分析师职位笔试题目第1篇：阿里巴巴校招数据分析师职位笔试题目1、选择题1、一下哪个属于离散变量水稻亩产量家庭收入商品价格汽车产量2、卡方分布的样本方差分别是n12n4n3、有个人买*，中奖概率为1/10,每次花200元，连续买5次，如果中奖则奖金为1000元，问不赔钱的概率是多少4、世界男女比例相当，黄种人比其他人种多的多，其他人种男的比女的多，以下那句是正确的黄种人男人比黑种人女人多黄种人女人比黑种人男人多5、关于聚类分析的题目，判断哪句不正确6、均值>中位数>众数，问这个分布偏左还是偏右7、随机无放回抽样跟随机有放回抽样比较，哪个方差大，还是相等8、回归分析y=a+bx，如果存在自相关，问b的值如何，是正负还是0，还有显著*如何。

2、问答题1、sql语句，表a有member_id,city，表b有member_id,price 几项，将a和b链接，且指定城市和price>10.member_id为主键.如果不会写就给出数据分析的思想2、数据清理中，处理缺失值的方法3、回归分析中出现的多重共线*问题是什么，如何处理3、分析题1、对不同价位区间的商品做活动，表a给活动出流连次数与总体浏览次数，表b给出活动商品转换率和总体商品转换率，分析现象2、某电商推出一款新的产品，希望这个产品能大卖，让你给这个主题取个名字，如果你是数据未完，继续阅读 >第2篇：阿里巴巴校园招聘笔试题目分享导读：时间为2014年8月29日，均为网上答题。

第一部分为单选题，共20题，要在40分钟内完成。

每个人的选择题都不一样，应该是后台有题库，每个人的试卷都是随机生成的。

第二部分为附加题，一般为1道问答题，2道编程题。

以下是由应届毕业生网小编j.l为您整理推荐的阿里巴巴校园招聘笔试题目分享，欢迎参考阅读。

通过算法生成的随机数是“伪随机”的，也就是说，在设定好第一个数之后，后面的数字的序列是确定的，并且经过一个非常大的循环会回到第一个数的状态，然后周而复始。

阿里笔试题

阿里笔试题第一部分单选題（前10题，每题2分；后10迄八：◎‘‘0分.选对得满分•选错倒扣1分，不选得0分・），r, 次内疗访皿SF）甌%力］和SATA祕盘勿机访何/川H J分山丿心儿加少•儿空机儿| *秒B.几微秒•儿「微抄•儿I矗秒」I）、儿！7・丨克秒• I儿；®转化成7泄制数是Ik 346 C\ 338 D. 336MJ如的1P地址空间为］92」68.5.0/24•采用定长子网划分.了网掩码％255.255.255.248.则该网冷的蔽大（网个数、毎个于网内的录大可分配地址个敢为各为•C\ 8. 32I)、S.30以卜关「経式存備结构说払曲戻的足—八・g 0〃緒第构的存储密度小B勿彳汀八乱山敌抑;域和拒£|城级成（的k A川Ml丈〃储比顺庁存储快P烬旳I何临的跟协T I町能郴邻J 忖I //出勺Arint <>［卄［4］｛｛仁们，｛八“引，「・」•儿2~ a/l 1/21 的他为.&依、t读入数据元L'■叭c\冋・山B「、^77^;c、仃向图和无向图都可以进行逊D、图的遍历并法町以执fj 4仃同路的图t10・<\ 16仆机器上跑卜列loo函数的结果足 voi^TUUf ）int i = 65536;cout << i <<*#*；1 « 65535;cout << 1;\・・1.65535 B.o.655'>1).()・」A. 32. 6讪和丿哎阿勿丿J操仆列心{\c・h・“：Dw|c.d.b.c.f.a.g}（以下毎题3分）11 •有一段年代久远的C 卄代码.内部疋紺垓朵.现白需要利用其实现-个亲疋件以卜叩亍的方案•应3优先选抒A.修改老代码的lilh 満足新的高求 - .C\修改老代科的内邦逻洞・满足新的需求：:上 i Z ；D ・将老代码抛弃.fie 朮新实现炎恢的逻辑 1 « i i 4 2« r % it \ h 5个页梅I 便川MW 灯l 机樹始%*tt.丽*列为oI. 7、6・2. 3・7w 2、9. X. I. 0. 2・糸址将发.4一一次缺人・A. II ■ A、IK 72 t> B D 、«l ，”f 1500km 的两机费 A b B i >GB ftlEUpSilI IP 连按｛\ 100s 的H ・J 刨内从A 件输到仗已知KIP 连樓連芷A TCP 协农Z' （F - F f ' 朋门皿传送加Q 2・J0”m/s•伎设机“;闸帯宽足够高•那么A 节总的发送级冲区可以讹E 为加小人、6MB几 12MB C> l»MB 。

阿里巴巴笔试题及答案

阿里巴巴笔试题及答案篇一：阿里巴巴oracle-dba 笔试题及答案】txt>1: 列举几种表连接方式hash join/merge join/nest loop(cluster join)/index join2: 不借助第三方工具，怎样查看sql 的执行计划set autot onexplain plan set statement_id = item_id for sql;select * from table(dbms_xplan.display);在optimizer_mode=choose 时, 如果表有统计信息(分区表外) ,优化器将选择cbo, 否则选rbo 。

rbo 遵循简单的分级方法学, 使用15 种级别要点，当接收到查询，优化器将评估使用到的要点数目,然后选择最佳级别(最少的数量)的执行路径来运行查询。

cbo 尝试找到最低成本的访问数据的方法, 为了最大的吞吐量或最快的初始响应时间,计算使用不同的执行计划的成本，并选择成本最低的一个,关于表的数据内容的统计被用于确定执行计划。

4: 如何定位重要(消耗资源多)的sql select sql_textfrom v$sqlwhere disk_reads 1000 or (executions 0 and buffer_gets/executions 30000); 5: 如何跟踪某个session 的sql execdbms_system.set_sql_trace_in_session(sid,serial#,sql_trace); selectsid,serial# from v$session where sid = (select sid from v$mystat where rownum = 1);exec dbms_system.set_ev(sid,serial#,event_10046,level_12,);6:sql 调整最关注的是什么查看该sql 的response time(db block gets/consistent gets/physicalreads/sorts (disk))7: 说说你对索引的认识(索引的结构、对dml 影响、为什么提高查询性能) b-tree index/bitmap index/function index/patitional index(local/global) 索引通常能提高select/update/delete 的性能, 会降低insert 的速度, 8: 使用索引查询一定能提高查询的性能吗？为什么索引就是为了提高查询性能而存在的,如果在查询中索引没有提高性能, 只能说是用错了索引,或者讲是场合不同9: 绑定变量是什么？绑定变量有什么优缺点？绑定变量是相对文本变量来讲的,所谓文本变量是指在sql 直接书写查询条件，这样的sql 在不同条件下需要反复解析,绑定变量是指使用变量来代替直接书写条件，查询bind value 在运行时传递，然后绑定执行。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

《毕业生：阿里巴巴数据分析师笔试题》
最近，网上放出了IT大佬们的一些考题出来，让人竞相争看，倒地这些大牛公司的择贤条件是如何的呢？大圣众包（）威客平台从网上整理了阿里巴巴招募数据分析师实习生的一道笔试题，让大家提前试试水。

答案在最后，可不要提前偷看哦。

———————————————问题分割线———————————————
一、异常值是指什么？请列举1种识别连续型变量异常值的方法？
二、什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和步骤。

三、根据要求写出SQL
表A结构如下：
Member_ID（用户的ID，字符型）
Log_time（用户访问页面时间，日期型（只有一天的数据））
URL（访问的页面地址，字符型）
要求：提取出每个用户访问的第一个URL（按时间最早），形成一个新表（新表名为B，表结构和表A一致）
四、销售数据分析
根据某一家B2C电子商务网站的一周销售数据，该网站主要用户群是办公室女性，销售额主要集中在5种产品上，如果你是这家公司的分析师，
a)从数据中，你看到了什么问题？你觉得背后的原因是什么？
b)如果你的老板要求你提出一个运营改进计划，你会怎么做？
五、用户调研
某公司针对A、B、C三类客户，提出了一种统一的改进计划，用于提升客户的周消费次数，需要你来制定一个事前试验方案，来支持决策，请你思考下列问题：
a)试验需要为决策提供什么样的信息？
b)按照上述目的，请写出你的数据抽样方法、需要采集的数据指标项，以及你选择的统计方法。

———————————————答案分割线———————————————
一、
异常值（Outlier）是指样本中的个别值，其数值明显偏离所属样本的其余观测值。

在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。

Grubbs’test（是以FrankE.Grubbs命名的），又叫maximumnormedresidualtest，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。

未知总体标准差σ，在五种检验法中，优劣次序为：t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。

【点评】考察的内容是统计学基础功底。

二、
聚类分析（clusteranalysis）是一组将研究对象分为相对同质的群组（clusters）的统计分析技术。

聚类分析也叫分类分析（classificationanalysis）或数值分类（numericaltaxonomy）。

聚类与分类的不同在于，聚类所要求划分的类是未知的。

聚类分析计算方法主要有：层次的方法（hierarchicalmethod）、划分方法（partitioningmethod）、基于密度的方法（density-basedmethod）、基于网格的方法（grid-basedmethod）、基于模型的方法（model-basedmethod）等。

其中，前两种算法是利用统计学定义的距离进行度量。

k-means算法的工作过程说明如下：首先从n个数据对象任意选择k个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后
再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。

一般都采用均方差作为标准测度函数。

k 个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

其流程如下：
（1）从n个数据对象任意选择k个对象作为初始聚类中心；
（2）根据每个聚类对象的均值（中心对象），计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分；
（3）重新计算每个（有变化）聚类的均值（中心对象）；
（4）循环（2）、（3）直到每个聚类不再发生变化为止（标准测量函数收敛）。

优点：本算法确定的K个划分到达平方误差最小。

当聚类是密集的，且类与类之间区别明显时，效果较好。

对于处理大数据集，这个算法是相对可伸缩和高效的，计算的复杂度为O（NKt），其中N是数据对象的数目，t是迭代的次数。

一般来说，K<<N，t<<N。

缺点：1.K是事先给定的，但非常难以选定；2.初始聚类中心的选择对聚类结果有较大的影响。

【点评】考察的内容是常用数据分析方法，做数据分析一定要理解数据分析算法、应用场景、使用过程，以及优缺点。

三、
createtableBasselectMember_ID,min(Log_time),URLfromAgroupbyMember_ID;
【点评】SQL语句，简单的数据获取能力，包括表查询、关联、汇总、函数等。

四、
a)从这一周的数据可以看出，周末的销售额明显偏低。

这其中的原因，可以从两个角度来看：站在消费者的角度，周末可能不用上班，因而也没有购买该产品的欲望；站在产品的角度来看，该产品不能在周末的时候引起消费者足够的注意力。

b)针对该问题背后的两方面原因，我的运营改进计划也分两方面：一是，针对消费者周末没有购买欲望的心理，进行引导提醒消费者周末就应该准备好该产
品；二是，通过该产品的一些类似于打折促销等活动来提升该产品在周末的人气和购买力。

【点评】数据解读能力，获取数据是基本功，仅仅有数据获取能力是不够的，其次是对数据的解读能力。

五、
a)试验要能证明该改进计划能显著提升A、B、C三类客户的周消费次数。

b)根据三类客户的数量，采用分层比例抽样；
需要采集的数据指标项有：客户类别，改进计划前周消费次数，改进计划后周消费次数；
选用统计方法为：分别针对A、B、C三类客户，进行改进前和后的周消费次数的，两独立样本T-检验（two-samplet-test）。

【点评】业务理解能力和数据分析思路，这是数据分析的核心竞争力。

【综上所述】从阿里的题目里面可以看出，一个合格的数据分析应该具备统计学基础知识、数据分析方法、数据获取、数据解读和业务理解、数据分析思想几个方面能力。

有志成为数据分析师的亲们，向着理想奔跑吧！
（更多大数据与商业智能领域干货、兼职机会及行业资源分享等请关注大圣众包微信服务号，或添加大圣妹个人微信号（dashengmeme))。