阿里巴巴2016研发工程师笔试选择题(四)

阿里巴巴2016研发工程师笔试选择题(四)
阿里巴巴2016研发工程师笔试选择题(四)

阿里数据分析笔试题

2016阿里巴巴数据分析师职位笔试题目 阿里巴巴作为全球领先的小企业电子商务公司,招聘阿里巴巴数据分析师职位都会出些什么笔试题目呢?咱们一起看看。 一、异常值是指什么?请列举1种识别连续型变量异常值的方法? 异常值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test(是以Frank E. Grubbs命名的),又叫maximum normed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。 未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。 点评:考察的内容是统计学基础功底。 二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理 和步骤。 聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。 聚类分析计算方法主要有:层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中,前两种算法是利用统计学定义的距离进行度量。 k-means 算法的工作过程说明如下:首先从n个数据对象任意选择k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 其流程如下: (1)从n个数据对象任意选择k 个对象作为初始聚类中心;

阿里巴巴2010校园招聘笔试题摘录(附答案)

阿里巴巴2010校园招聘笔试题摘录(附答案) 1. 一架飞机在满油的情况下可以绕地球飞 0.5 圈,假设飞机与飞机之间可以互相加油,请问在确保所有飞机够油飞回起点的情况下,最少需要几架飞机才可以让其中一架飞机成功绕地球飞行一圈?(提示1:地球是圆的!提示2:飞机可以重复使用!)( A ) A:3 B:4 C:5 D:6 E:7 2. 100 张多米诺骨牌整齐地排成一列,依顺序编号为 1、2、3、……、99、100 。第一次拿走所有奇数位置上的骨牌,第二次再从剩余骨牌中拿走所有奇数位置上的骨牌,以此类推。请问最后剩下的一张骨牌的编号是多少?(B ) A:32 B:64 C:88 D:96 3. 给你 8 颗小石头和一架天平。其中有 7 颗石头重量是一样的,另外一个比这 7 颗略重。请问在最坏的情况下,最少要称几次,才能把这颗较重的石头找出来。( B) A:3 B:2 C:1 D:4 4. 如果你有两个大小一样的桶,分别装了半桶红颜料和半桶蓝颜料。如果我们从蓝色颜料桶里舀一杯,倒入红色颜料桶里,搅拌均匀,然后再从红色颜料桶里舀一杯倒入蓝颜色桶。请问以下说法那种正确?(C ) A:红桶中蓝颜色的比例大 B:蓝桶中红颜色的比例大 C:红桶中蓝颜色的比例和蓝桶中红颜色的比例一样大 D:无法判断 5. 小王去商店买衬衫,售票员问她想要那种颜色,小王幽默的说:“我不像讨厌黄色那样讨厌红色,我不像讨厌白色那样讨厌蓝色,我不像喜欢粉色那样喜欢红色,我对蓝色不如对黄色那样喜欢”。小王最后会选择的颜色是什么?( A) A:粉色 B:蓝色 C:红色 D:黄色

6.在一次歌唱竞赛中,每一名参赛选手都有评委投了优秀票。如果上述断定为真,则以下哪项不可能为真?I.有的评委投了所有参赛选手优秀票。II.有的评委没有给任何参赛选手投优秀票。III.有的参赛选手没有得到一张优秀票。( C) A.只有I. B.只有II. C.只有III. D.只有I和II. E.只有I和III. 7.所有通过英语六级考试的学生都参加了学校的英语俱乐部,王进参加了英语俱乐部,所以他一定通过了英语六级考试。以下哪项最好地指出了上述论证的逻辑错误?(E ) (A)部分通过英语六级考试的学生没有参加英语俱乐部。 (B)王进能够参加英语俱乐部是因为它符合加入俱乐部的基本条件。 (C)王进曾经获得过年级英语演讲比赛第一名。 (D)凡愿意每学期缴纳50元会费,并且愿意积极参加俱乐部活动的学生都可以成为俱乐部的成员。 (E)有些参加俱乐部的学生还没有通过英语六级考试。 8.如果所有的妇女都有大衣,那么漂亮的妇女会有:(C ) A.给多的大衣 B.时髦的大衣 C.大衣 D.昂贵的大衣 9.在我国北方严寒冬季的夜晚,车辆前挡风玻璃会因低温而结冰霜。第二天对车辆发动预热后玻璃上的冰霜会很快融化。何宁对此不解,李军解释道:因为车辆仅有除霜孔位于前挡风玻璃,而车辆预热后除霜孔完全开启,因此,是开启除霜孔使车辆玻璃冰霜融化。以下哪项为真,最能质疑李军对车辆玻璃迅速融化的解释?(B ) A.车辆一侧玻璃窗没有出现冰霜现象 B.尽管车尾玻璃窗美哟除霜孔,其玻璃上的冰霜融化速度与前挡风玻璃没有差别 C.当吹在车辆玻璃上的空气气温增加,其冰霜的融化速度也会增加 D.车辆前挡风玻璃除霜孔排出的暖气流排出后可能很快冷却 10.小张承诺:如果天不下雨,我一定去听音乐会,以下哪项如果为真,说明小张没有兑现承诺?(I)天没下雨,小张没去听音乐会。(II)天下雨,小张去听了音乐会。(III)天下雨,小张没去听音乐会。(A ) A.仅(I) B.仅(II) C.仅(III) D.仅(I)和(II) E.(I),(II)和(III) 11.某零件加工厂按照工人完成的合格零件和不合格零件数支付工资,工人每做出一个合格零件能得到工资10元,每做出一个不合格的零件将被扣掉5元,已经某人一天共做了12个零件,得到工资90元,那么他在这一天作了多少个不合格零件?( A) A 2 B 3 C 4 D 6

阿里巴巴数据产品经理工作(总结篇) _0

[ 产品经理] 阿里巴巴数据产品经理工作(总结篇) 2015-3-17 17:07| 发布者: 猫儿 来自: 阿里巴巴PD | 关键词: PD(指产品经理,下同)本身就是在做牛做马,关系圈异常复杂。数据PD也不例外。而且打交道的人更多。以下是我用PPT绘制的数据产品经理关系圈。 科普: PD:对于WEB产品设计人员而言,它的意思是“产品设计人员”,即produce designer。 PD:在IT企业中,一般是Product Director(产品主管)或Project Director(项目主管)的意思 一. 如何做一个好的数据产品经理?

PD(指产品经理,下同)本身就是在做牛做马,关系圈异常复杂。数据PD也不例外。而且打交道的人更多。以下是我用PPT绘制的数据产品经理关系圈。如果你也做过数据产品的产品经理(好拗口),相信也有同感。既然要和这么多人打交道,要推动数据产品的上线,数据产品经理自然有着一定的要求。 我的体会如下——也借此去鞭策自己在朝这个方向努力: 1.要极其熟悉公司业务及动向。所以要了解公司的商业模式、战略、以及业务流程、要考核的各种指标,以及指标背后的业务含义等。这一点,再了解都不够。 2.要了解数据分析。好的数据PD,即使不做数据PD,也应该是个数据分析师。数据PD 的一大要务就是将数据分析做成可复制,可自动运转的系统。虽然有数据分析师们围绕在自己周围,但是自己也要清楚业务的问题,分别要看什么数据,或者当数据出现后,意味着业务出现了什么问题或者会出现什么问题。这一点,要向最好的数据分析师们看齐。

3. 要了解数据仓库及商务智能。 这两个关键词背后都是庞大的体系,恐怕我短短半年的转岗时间太短,虽然能够对别人讲解一通商务智能产品的架构。嘴里虽然会抛出若干个类似于汇总,钻取,度量,指标,维度,缓慢变化维,层次,属性,仪表盘等等术语,但是也不支持多几层的知识钻取,遇到异常问题,也不知道该从什么地方分析原因。幸而身边有数据仓库的同事,可以多多学习。这一点,没有天花板。 而商务智能,做为一门学科,起源于20世纪90年代,它的出发点是帮助用户更好地获取决策信息,最初商务智能的动机是为用户提供自助式的信息获取方式,这样,用户就可以不用依赖于IT部门去获取定制的报表。(引自《信息仪表盘》一书P41)。而如今,商务智能除了提供信息,更主要的是降低用户获取数据的门槛,提升数据的实时性等方面。从降低用户获取数据的门槛一个方向,我们就可以做很多事情,比如如何设计信息仪表盘(designing of information dashboard)?如何让数据以更亲和的更直观的方式展示(数据可视化)?如何能够让用户离线访问?如何能够实现警戒数据的主动发送?这一点上,花多少功夫都不多。 4. 要精通数据产品开发流程。数据开发+产品开发。 数据PD的最终目的是要做数据产品。这里要拆开看,其一,数据产品本身也是在线可供用户实现的产品,既然是产品,产品的整套研发思路和普通的产品没有太大区别,用户是谁,他们需求是什么,满足需求需要什么feature list,每个feature list的资源评估以及优先级如何,产品的生命周期如何?这是产品开发。然后他是个数据产品,意味着这比普通的产品,多了更多的要求。在数据这个内核之外,它需要各种feature list,如订阅,搜索,自定义,短信接口,邮件接口等。但是数据这个内核,也需要一套数据开发流程。 比如: 数据源——是否足够,是否稳定——数据PD需要足够了解目前的业务处理系统建设情

阿里数据整合及数据管理体系解读

前段时间给大家推荐了《大数据之路--阿里巴巴大数据实践》,这本书确实内容非常详实,全是干货,值得反复品味。刚刚看完第9章,讲的是数据整合及管理体系,觉得非常好,设计得非常精妙,只看看觉得还不能深刻理解,遂做个读书笔记按照自己理解重构整理一遍,同时补充上自己的解读分享给大家,推荐给准备搭建数据产品或者数据平台的人。 传统企业的业务变化相对不快,但使用一般的表格文档来管理数据过程也已经越来越困难,更何况互联网这样迅速变化的业务,做好数据整理及管理的难度可想而知,但阿里的数据团队还是形成了完成的方法体系,并把其工具化。也只有完备方法体系下构建的工具能满足复杂的数据管理需求。 阿里大数据建设方法论的核心就是,从业务架构设计到模型设计,从数据研发到数据服务,做到数据可 管理、可追溯、可规避重复建设。目标是建设统一的、规范的数据接入层(ODS )和数据中间层(DWD和 DWS ),通过数据服务和数据产品,完成服务于阿里巴巴的大数据系统建设。所以数据管理体系是包含具体 的方法论以及相关的产品两个部分,通过产品把方法论固化为标准的流程和操作,达到数据管理的目的。 数据体系架构 数据管理体系包括了业务板块划分、数据域提炼、业务过程梳理、原子指标/度量定义、派生指标定义及 管理,维度分析整理以及数据模型的设计。通过下面的体系架构图来看看数据体系建设的过程、以及每一步做什么和如何做。另外,如何定义每个术语的涵义,准确定义术语非常关键,有时候描述不清楚复杂的流程、场景最根本是因为对其中的一些概念没有非常很好的厘清。

业务板块:根据业务的属性划分出相对独立的业务板块,业务板块间指标和业务重叠性较低,比如电 商板块涵盖淘宝、天猫、天猫国际、 B2B 系,金融板块涵盖支付宝、花呗、蚂蚁微贷等。业务板块非常宏观, 可以想象成贾不死的 7大生态。 规范定义:结合行业的数据仓库建设经验和阿里数据自身的特点,设计出的一套过程方法和数据规范命 名体系,规范定义 将用于模型设计中。规范定义指以维度建模作为理论基础,构建总线矩阵,划分和定义数 据域、业务过程、原子指标 /度量、修 饰类型、修饰词、时间周期、派生指标规则,下图是它们之间的关系, 以及具体实例。 规范定义实例 修矗型 维度 ▼ . 1 ▼ ■ T 楼饰词 戶子洁标! 岖廈隱性! 1 嚴生拦标 <■- 一 一 _ 子指标十対刖息割十幔茶词 1 J ----- 1… 二二 — — — — | — --- ---- na ___ —.1 —— —j T V r* .m _ J — * ?■ — — — 一 一 一 — 1 ir ' 疋总事实表 [杷明唧审冥聚合的事 寰表】 ( 明鉅車寬袁 盘原始板度的明堀救据) (把逍担鍵度轲理化的霍表:. ___ t.. ivritw ■近1夫通址奄 的丫 *TTff ](1 009 P*V..WTfl 支讨督糾 P*v _a*Tit 喙巧茗呼 t 金tt 古式

2020阿里巴巴校园招聘阿里云C++笔试试题

阿里云C++ 1、(2分)1)请列出两个线程(或进程)死锁的三个必要条件 2)当异常(Exception)发生的时候,智能指针(SmartPointer)的析构函数是被谁调用的? 3)一般的台式机硬盘一次随机读写大约需要多少毫秒(0.1ms、1ms、10ms、100ms)? 4)除了应用程序的系统调用之外,LinuxKernel中的代码在什么情况下还有机会运行? 2、(1分)求下面函数的返回值。输入x的值为2012。 int func(int x) { int countx=0; while(x) { ++countx; x=x&(x-1); } return countx; } 3、(1分)一进程在执行时,如果按下列页号访问:1、2、3、 4、2、1、 5、 6、2、1、2、3、 7、6、3。进程占用4页物理内存,采用FIFO淘汰算法和LRU淘汰算法时,各产生多 少次缺页中断?分别写出使用两种方法时,依次被淘汰的页面号以及最后内存空间中剩余的页面。 4、(1分)写出下列程序的输出结果: #include using name space std; int main() { char *a=”Aliyun”; char **b=&a; *b=”programming test”; char *c=++a; a=”talents.”; return printf(“%c\n,*++c); } 5、(1分)连接A、B两地的公路长240km,现各有一列汽车分别从两地出发相向而行,各自保持匀速50km/h和30km/h。有一鸟儿也和A地的汽车一起从A地出发,以65km/h的速度沿公路朝B地飞行;当它遇到B地的汽车的时候,折返往A飞;再遇到A地汽车的时候,折返往B飞;如此往返。请问当A、B两地出发的汽车相遇的时候,鸟儿飞行了多少km? 6、(1分)一个骰子有6个面,分别是1个1、2个2、3个3。请问平均需要抛多少次骰子才能使1、2、3这三面都至少出现一次。

数据分析笔试题

从互联网巨头数据挖掘类招聘笔试题目看我们还差多少知识 1 从阿里数据分析师笔试看职业要求 以下试题是来自阿里巴巴招募实习生的一次笔试题,从笔试题的几个要求我们一起来看看数据分析的职业要求。 一、异常值是指什么?请列举1种识别连续型变量异常值的方法? 异常值(Outlier)是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test(是以Frank E. Grubbs命名的),又叫maximum normed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。 未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。 点评:考察的内容是统计学基础功底。 二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。 聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。 聚类分析计算方法主要有:层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中,前两种算法是利用统计学定义的距离进行度量。k-means 算法的工作过程说明如下:首先从n个数据对象任意选择k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差(标准差)作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 其流程如下: (1)从n个数据对象任意选择k 个对象作为初始聚类中心; (2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分; (3)重新计算每个(有变化)聚类的均值(中心对象); (4)循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。 优点:本算法确定的K 个划分到达平方误差最小。当聚类是密集的,且类与类之间区别明显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度为O(NKt),其中N是数据对象的数目,t是迭代的次数。一般来说,K<

最新阿里巴巴现状分析

阿里业务现状介绍 一、阿里业务板块 阿里巴巴是国内最大的电商平台,位列中国互联网巨头“BAT”之一。2017年财年(2016.03~2017.03)收入已达到1583亿元,同比增长57%,5年复合增速51%。 从2017财年起,阿里将其业务分为四大板块: (1)核心电商业务(由国内外的零售、批发电商平台以及营销平台构成); (2)云计算业务(阿里云); (3)数字媒体与娱乐业务(优酷土豆、UC网页等); (4)创新业务及其他(包括YunOS、高德地图、钉钉等)。 核心电商业务目前仍是阿里的主要收入来源,其他业务增长潜力较大。2017财年电商板块的收入为1339亿元,占总营收的85%(2015、2016年财年的占比均在90%以上)。其他业务板块也处于快速的增长期,云计算业务2017财年增长121%至67亿元,数字媒体娱乐业务收入增长271%至147亿元,创新类和其他业务收入增长65%至30亿元。三大潜力业务是阿里生态的重要环节,不仅可以服务于阿里核心电商业务,也有望成为阿里未来收入增长的新引擎。 阿里巴四大业务版块(下图):

阿里起家于电商平台业务,当电商GMV从高速增长向中速增长的过程中,阿里业务需要进一步向横向、纵向两个维度扩张。平台业务模式的核心是数据的掌控。 阿里巴巴向横/纵两个维度成长(下图): 阿里巴巴生态圈(下图): 从本次案例分析,主要着重分析其电商平台-制度成本 交易数据-交易成本 物流对应-物流成本 支付-支付成本 二、阿里的电商业务情况、收入来源及构成 1)GMV及活跃客户情况情况

2017财年,阿里GMV(GMV=1销售额+2取消订单金额+3拒收订单金额+4退货订单金额)约为3.8万亿。2013财年突破1万亿后,GMV年均复合增长率为36.8%。 时至今日,阿里仍然是中国唯一交易总金额超过1万亿的电商平台。 阿里庞大GMV已高度“移动化”:2017财年GMV中79%来自移动端,较2016财年提高了14个百分点。2014财年,移动端GMV突破3000亿元、2017财年接近3万亿,年均复合增长率达110%。 2)活跃用户数及人均消费 2017财年,电商平台的活跃买家总数为4.54亿,近三年的平均复合增长率为21.2%。

阿里巴巴校园招聘阿里云笔试试题题目

1.有一个文件:c:/c.txt,写java程序把该文件内容复制两遍,追加到c:/c.txt; 2.写正则表达式1.邮箱2.数字 3.HashMap 改变map类对用户会不会有影响? 4.Linux中需查看所有的java进程,用什么命令 ps -ef|grep java 5.Ajax请求的整个流程 AJAX 在浏览器与Web 服务器之间使用异步数据传输(HTTP 请求),这样就可使网页从服务器请求少量的信息,而不是整个页面。 open():建立到服务器的新请求。 send():向服务器发送请求。 abort():退出当前请求。 readyState:提供当前 HTML 的就绪状态。 responseText:服务器返回的请求响应文本。 6.写一个类实现线程同步的单例设计模式 7.一个包含4块硬盘的服务器一年中至少有一块硬盘出故障的概率是99.99%,每块硬盘任意时刻出故 障的概率服从相同的分布规律,并且彼此独立,问12块硬盘的服务器一季度内至少有一个硬盘出故障的概率是多少。 8.有一个size1000的ector,删除其中的第5,6,7号元素,要求效率高(C) 9.数列L中有n个整数,其中K个数字出现了两次,1个数字出现了一次,所以n=2k+1; 请在使用O(1)空间的前提下,尽快找出只出现一次的那个数字,并说明算法的复杂度。用异或,时间复杂度O(n) 10.有一个文件,存在40亿个不重复的整数(0~4294967295),可用内存只有256M,32比 特的整数有4294967295(约42.9亿)种取值可能,如何找出不存在的294967295(约 2.9亿)个数扫描结果数据可存放到文件中,不占用内存 分段载入内存,排序,输出,一共要扫描文件2^32/(256*2^20/32)=512遍 BITMAP分16次处理 建42.9bits的文件,按200m一段映射,先遍历40亿个数,检查n/有8字节位置是否在当前映射区,否则换映射位置,然后标记。然后读 2.9亿检查,都一个道理,建在共享内存里的bitmap 而已。 位图算法,用含有1千万个位的字符串来表示这个文件,文件中有的数据则标识为1,没有则标识为0,最后从第一位读至最后一位,即为有序的集合。这种算法充分利用了题目中给的条件,但也仅仅适合本题目,(不会有重复的数字,同时不与其余的数进行关联)

阿里巴巴校园招聘:软件研发工程师笔试题

1.单选题 1.假设把整数关键码K散列到N个槽列表,以下哪些散列函数是好的散列函数 A:h(K)=K/N; B:h(K)=1; C:h(K)=K mod N; D:h(K)=(K+rand(N))mod N,rand(N)返回0到N-1的整数 答案:D 2.下面排序算法中,初始数据集的排列顺序对算法的性能无影响的是: A:堆排序B:插入排序 C:冒泡排序D:快速排序 答案:A(插入排序:最优时间复杂度O(n)最差时间复杂度O(n^2)平均时间复杂度O(n^2) 冒泡排序:最优时间复杂度O(n)最差时间复杂度O(n^2)平均时间复杂度O (n^2) 快速排序:最优时间复杂度O(nlogn)最差时间复杂度O(n^2)平均时间复杂度O(nlogn) 堆排序:最优时间复杂度O(nlogn)最差时间复杂度O(nlogn)平均时间复杂度O(nlogn)) 3.下面说法错误的是: A:CISC计算机比RISC计算机指令多 B:在指令格式中,采用扩展操作码设计方案的目的是为了保持指令字长不变而增加寻址空间 C:增加流水线段数理论上可以提高CPU频率

D:冯诺依曼体系结构的主要特征是存储程序的工作方式 答案:B 4.不属于冯诺依曼体系结构必要组成部分是: A:CPU B:Cache C:RAM D:ROM 答案:B 5.一个栈的入栈序列式ABCDE则不可能的出栈序列是: A:DECBA B:DCEBA C:ECDBA D:ABCDE 答案:C 6.你认为可以完成编写一个C语言编译器的语言是: A:汇编B:C语言C:VB D:以上全可以 答案:D 7.关于C++/JAVA类中的static成员和对象成员的说法正确的是:A:static成员变量在对象构造时候生成 B:static成员函数在对象成员函数中无法调用 C:虚成员函数不可能是static成员函数 D:static成员函数不能访问static成员变量 答案:A 8:

2014年阿里巴巴数据分析师笔试题

2014年3月29日阿里巴巴数据分析师(北京) 一、10道填空,每题3分 1、小松鼠采到了100颗坚果要运回家。家离放坚果的地方有100米远。小松鼠每次最多运50颗。BUT!小松鼠很馋。。。每走2米就要吃一颗坚果。。。问小松鼠最多能运回家多少颗坚果? A 0 B 10 C 25 D50 答案:应该是25颗吧!(先运50颗50米,吃了25颗,返回去,回去的途中没吃的了,再运50颗到50米的地方,又吃了25颗,再把剩下的运回家,又吃25颗,还剩25颗。)吐槽一下,题目应该说明:小松鼠足够聪明,至少比参加考试的人聪明。。。 2、标号12345的5个球,一次取两个,和为3或者6的概率是多少? 答案:0.3。不解释。 3、考了LOGISTIC回归。 4、聚类分析法,k_means。 5、其他条件相同,置信水平越低,则置信区间上下限差值越() A.越大 B.越小 C.为0 D不确定 应该是B吧。 6、precision、ecall、ROC。 剩下的不记得了。 二、三道题,每题10分。 1、已知每10万人中有1人得艾滋病。现在有一种检查,如果被测者患病则一定能查出来。如果被测者没病,有1%的测试出错也显示阳性。现在一个人检查结果是阳性。问真正得病的概率? 答案:貌似所有的讲全概率公式的书上都有这道题。 2、SQL 两张表合并,主键是USER_ID,然后把深圳市、广州市,大于16岁的,发生在2013年12月的一项挑出来加起来。不会SQL的话就写思路。我就不会。。。。。。 3、层次分析法AHP的含义,具体步骤。并举一个适合用层次分析法的案例。 三、两道题,每题20分。 1、淘宝上有一些小众但是品位高的店铺,怎么把他们筛选出来捏? 2、双十一的时候,商家会发优惠券,从商家和平台两个角度设计评价指标,并分析指标不同结果应该对应怎样的措施。 资料:优惠券分两种:满200减50,满300减100. 发放日期:10月15-11月10 使用日期:11月11 希望对大家有所帮助!

2015校招-阿里巴巴在线笔试题目

1、某团队有 2/5的人会写Java程序,有3/4的人会写C++程序,这个团队里同时会写Java和C++的最少有______人。 3 4 5 8 15 20 2、下列结构中,______必须随机存取实现。 栈 队列 数组 单链表 二叉树 堆 3、在一个单链表中,q的前一个节点为p,删除q所指向节点,则执行______。delete q; q->next=p->next;delete p; p->next=q->next;delete p; p->next=q->next;delete q; delete p; q->next=p->next;delete q 4、带头结点的单链表head为空的判定条件是:______。 head==NULL head->next==NULL head->next==head head!=NULL *head==NULL *(head->next)==NULL 5、甲乙两路发车间隔均为10分钟的公交车发车时刻分钟数个位分别为1和9,那么对于一个随机到达的乘客,ta乘坐甲车的概率为: 0.1 0.2 0.3 0.4 0.5 0.9 6、硬币游戏:连续扔硬币,直到某一人获胜。A获胜条件是先正后反,B获胜是出现连续两次反面,问AB游戏时A获胜概率是______。 1/6 1/4

1/2 2/3 3/4 7、棋盘上共有2020个格子,从1开始顺序编号。棋子初始放在第1格,通过扔骰子决定前进格子数,扔出x点就前进x格。骰子有6面,分别对应1至6;质量均匀。当棋子到达2014或超过2014,游戏结束。那么,棋子刚好到达2014的概率与______最接近。 2/3 1/2 1/3 2/7 1/6 1/7 8、“秘密”是一款在朋友圈内匿名交流的SNS平台。假定每个人只能看到朋友发的帖子,却不知道具体是谁发的;并且朋友关系是对称的,即如果A是B的朋友,那么B也是A的朋友。某好事者希望知道一篇帖子具体是谁发的,他通过找几个好友看看他们是否是这个帖子楼主的朋友,从而求“交集”,推断楼主是谁。朋友圈是指彼此互为朋友的人群。什么样的楼主容易被发现真实身份? 朋友很多的楼主。 朋友很少的楼主。 发负能量帖子的楼主。 有很多个小朋友圈的楼主。 发正能量帖子的楼主。 只有一个大朋友圈的楼主。 9、H同学每天乘公交上学,早上睡过头或遇到堵车都会迟到;H早上睡过头概率为0.2,路上遇到堵车概率为0.5;若某天早上H迟到了,那么以下推测正确的有______。 今天H早上睡过头了 今天H早上睡过头的概率为0.2 今天H早上睡过头的概率大于0.2 今天H早上遇到堵车了 今天H早上遇到堵车的概率为0.5 今天H早上遇到堵车的概率小于0.5 10、一个合法的表达式由()包围,()可以嵌套和连接,如(())()也是合法表达式;现在有6对(),它们可以组成的合法表达式的个数为______。 15 30 64 132 256 360 11、下列结构中,______必须随机存取实现 栈 队列

毕业生笔试题:阿里巴巴数据分析笔试题

《毕业生:阿里巴巴数据分析师笔试题》 最近,网上放出了IT大佬们的一些考题出来,让人竞相争看,倒地这些大牛公司的择贤条件是如何的呢?大圣众包(https://www.360docs.net/doc/1b15835299.html,)威客平台从网上整理了阿里巴巴招募数据分析师实习生的一道笔试题,让大家提前试试水。答案在最后,可不要提前偷看哦。 ———————————————问题分割线——————————————— 一、异常值是指什么?请列举1种识别连续型变量异常值的方法? 二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。 三、根据要求写出SQL 表A结构如下: Member_ID(用户的ID,字符型) Log_time(用户访问页面时间,日期型(只有一天的数据)) URL(访问的页面地址,字符型)

要求:提取出每个用户访问的第一个URL(按时间最早),形成一个新表(新表名为B,表结构和表A一致) 四、销售数据分析 根据某一家B2C电子商务网站的一周销售数据,该网站主要用户群是办公室女性,销售额主要集中在5种产品上,如果你是这家公司的分析师, a)从数据中,你看到了什么问题?你觉得背后的原因是什么? b)如果你的老板要求你提出一个运营改进计划,你会怎么做? 五、用户调研 某公司针对A、B、C三类客户,提出了一种统一的改进计划,用于提升客户的周消费次数,需要你来制定一个事前试验方案,来支持决策,请你思考下列问题: a)试验需要为决策提供什么样的信息? b)按照上述目的,请写出你的数据抽样方法、需要采集的数据指标项,以及你选择的统计方法。

———————————————答案分割线——————————————— 一、 异常值(Outlier)是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test(是以FrankE.Grubbs命名的),又叫maximumnormedresidualtest,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。 未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。 【点评】考察的内容是统计学基础功底。 二、 聚类分析(clusteranalysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classificationanalysis)或数值分类(numericaltaxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。 聚类分析计算方法主要有:层次的方法(hierarchicalmethod)、划分方法(partitioningmethod)、基于密度的方法(density-basedmethod)、基于网格的方法(grid-basedmethod)、基于模型的方法(model-basedmethod)等。其中,前两种算法是利用统计学定义的距离进行度量。 k-means算法的工作过程说明如下:首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后

阿里巴巴数据分析

图一:整体变化时间序列数据图 从图中可以看出: 阿里巴巴的总资产、流动资产、非流动资产2012年~2015年呈现出了明显同步增长趋势;股东权益2012年~2013年减少,2013年~2015年开始大幅增长;营业收入、营业成本、毛利润2012年~2015年增长基本保持稳定,稳中有涨。整体分析: 从资产构成来看,流动资产所占总资产的比重在逐年下降,止2015年为55.63%,而构成流动资产的现金部分占总资产比重则在2014年~2015年开始上涨达到49.33%。通过分析说明尽管阿里巴巴的流动资产占总资产比重下降,但仍高于非流动资产所占比重,在合理范围内。总资产及现金较大幅度的增加表明企业占有的经济资源增加,经营规模扩大,资产流动性增强。

从股东权益变化来看2012年~2013年随着资产的增长,股东权益却呈下降趋势,说明资产的增长主要是来源于负债的增加,而2013年~2015年股东权益的大幅增长可以说明阿里巴巴意识到高负债带来了高风险,转而采取了较稳健的财务政策。 图二:偿债能力时间序列数据图 从图中可以看出: 2012年~2013年资产负债率呈现大幅增长,而从2013年~2015年该比率发生扭转开始平稳下降。 偿债能力分析: 从资产负债率变化的角度来看,该比率在2012年-2013年大幅增加,这可能导致债权人的权益无法得到保障,因为资产负债率越高,说明企业的长期偿债能力就越弱,债权人的保证程度就越弱。而该比率从2013年~2015年的平稳下降说明企业也意识到高债务的严重性并及时采取了相应的行动,进行资产结构优化,从而降低负债带来的企业风险,提高了债权人的保证程度。

阿里巴巴校园招聘笔试题及参考答案

阿里巴巴的Oracle DBA笔试题及参考答案- 数据库基本概念类 1:pctused and pctfree 表示什么含义有什么作用 pctused与pctfree控制数据块是否出现在freelist中, pctfree控制数据块中保留用于update的空间,当数据块中的free space小于pctfree设置的空间时, 该数据块从freelist中去掉,当块由于dml操作free space大于pct_used设置的空间时,该数据库块将 被添加在freelist链表中。 2:简单描述table / segment / extent / block之间的关系 table创建时,默认创建了一个data segment, 每个data segment含有min extents指定的extents数, 每个extent据据表空间的存储参数分配一定数量的blocks 3:描述tablespace和datafile之间的关系 一个tablespace可以有一个或多个datafile,每个datafile只能在一个tablespace内, table中的数据,通过hash算法分布在tablespace中的各个datafile中, tablespace是逻辑上的概念,datafile则在物理上储存了数据库的种种对象。 4:本地管理表空间和字典管理表空间的特点,ASSM有什么特点 本地管理表空间(Locally Managed Tablespace简称LMT) 8i以后出现的一种新的表空间的管理模式,通过位图来管理表空间的空间使用。 字典管理表空间(Dictionary-Managed Tablespace简称DMT) 8i以前包括以后都还可以使用的一种表空间管理模式,通过数据字典管理表空间的空间使用。 动段空间管理(ASSM), 它首次出现在Oracle920里有了ASSM,链接列表freelist被位图所取代,它是一个二进制的数组, 能够迅速有效地管理存储扩展和剩余区块(free block),因此能够改善分段存储本质,ASSM表空间上创建的段还有另外一个称呼叫Bitmap Managed Segments(BMB 段)。 5:回滚段的作用是什么 事务回滚:当事务修改表中数据的时候,该数据修改前的值(即前影像)会存放在回滚段中, 当用户回滚事务(ROLLBACK)时,ORACLE将会利用回滚段中的数据前影像来将修改的数据恢复到原来的值。 事务恢复:当事务正在处理的时候,例程失败,回滚段的信息保存在undo表空间中,ORACLE将在下次打开数据库时利用回滚来恢复未提交的数据。 读一致性:当一个会话正在修改数据时,其他的会话将看不到该会话未提交的修改。 当一个语句正在执行时,该语句将看不到从该语句开始执行后的未提交的修改(语句级读一致性) 当ORACLE执行Select语句时,ORACLE依照当前的系统改变号(SYSTEM CHANGE NUMBER-SCN) 来保证任何前于当前SCN的未提交的改变不被该语句处理。可以想象:当一个长时间的查询正在执行时, 若其他会话改变了该查询要查询的某个数据块,ORACLE将利用回滚段的数据前影像来构造一个读一致性视图。 6:日志的作用是什么

2017阿里巴巴招聘笔试题

2017阿里巴巴招聘笔试题 1、iBatis相比JDBC优势的优势有哪些? 答:简单易上手、开发速度快、面向对象,数据库可移植。 (此处应该将优缺点一起分析,才是满意得到回答) 延伸学习: MyBatis和iBatis的区别: ibatis本是apache的一个开源项目,2010年这个项目由apache software foundation 迁移到了google code,并且改名为mybatis (1)Mybatis实现了接口绑定,使用更加方便: 在ibatis2.x中我们需要在DAO的实现类中指定具体对应哪个xml映射文件,而Mybatis实现了DAO接口与xml映射文件的绑定, (2)对象关系映射的改进,效率更高 iBatis: 优点 : 代码量减少、简单易上手、SQL语句和代码分离(便于修改)、数据库可移植 缺点:SQL语句需要自己写、参数只能有一个 Hibernate: 优点:对象关系数据库映射、完全面向对象、提供缓存机制、HQL编程 缺点:不能灵活使用原生SQL、无法对SQL优化、全表映射效率低下、N+1的问题 JDBC、iBatis、Hibernate明显对比: JDBC更为灵活,更加有效率,系统运行速度快。但是代码繁琐复杂,有的时候用了存储过程就不方便数据库移植了。 hibernate,iBatis 关系数据库框架,开发速度快,更加面向对象,可以移植更换数据库,但影响系统性能。 JDBC:手动 手动写sql,不能直接传入一个对象、不能直接返回一个对象。 iBatis的特点:半自动化 手动写sql,能直接传入一个对象、能直接返回一个对象。

Hibernate:全自动 不写sql,自动封装,能直接传入一个对象、能直接返回一个对象。 2、PrepareStatement相比statement,有哪些优点? 答: (1)直接使用Statement,驱动程序一般不会对sql语句作处理而直接交给数据库; 使用PreparedStament,形成预编译的过程,并且会对语句作字符集的转换(至少在sql server)中如此。 如此,有两个好处:对于多次重复执行的语句,使用PreparedStament效率会更高一点,并且在这种情况下也比较适合使用batch;另外,可以比较好地解决系统的本地化问题。 (2)PreparedStatement还能有效的防止危险字符的注入,也就是sql注入的问题。(但是必须使用“对?赋值的方法”才管用) 3、TCP/IP对应于OSI七层模型的哪些层? 答: OSI七层模型分别是:应用层、表示层、会话层、传输层、网络层、数据链路层和物理层。 TCP/IP协议不是TCP和IP协议的合称,而是指因特网整个TCP/IP协议族。从协议分层模型方面来看,TCP/IP由四个层次组成:网络接口层、网络层、传输层和应用层。 延伸学习: 应用层:由用户自己规定,只要形成的消息能与表示层接口。这包括各机互访协议,分布式数据库协议等。 表示层:是在满足用户需求的基础上,尽可能的节省传输费用而设置的。如文本压缩、常用词转换、加密、变更文件格式等。这就是说,只要能表示用户所需的信息,形式上可以改变,并尽可能形成标准格式,以利于传送。 对话层:是为用户之间对话的进行而设置的,这包括建立和拆除对话,确定对话对象。如不是授权的对话者,就不予送出信息,以达到可靠的要求,这一层也可与传输层合并。 传输层:就是使主机之间或信源和信宿之间能互通信息。这一层因此也可以被称为源--宿层或端--端层,这一般是主机操作系统的一部分。它负责把上一层

2017阿里巴巴年度零售情况分析

2017阿里巴巴年度零售情况分析

“2017年已划上句号,2018崭新的一年已经开始!根据数据统计显示:2017年阿里中国零售平台GMV规模达46350亿,同比增长30%。其中,天猫跟淘宝网分别达到21090亿及25260亿,同比分别增长43.9%及20%! 数据来源:云观咨询、中商产业研究院整理 受益于中国电子商务的高速发展,阿里巴巴中国零售平台近几年在自身基数已经非常大的情况下GMV还保持着相当不错的增长!并且能在2016年以21%的增幅处于最低谷的时期,还能够快速调整过来并在2017年交出近30%的增长成绩,GMV突破4.5万亿,实在不易! 同期中国社会消费品零售总额2016年约33.23万亿,2017年预估约36.65万亿增长约10.3%,阿里中国零售平台GMV增长领跑社零近3倍,占比社零约12.6%!预测阿里巴巴将在2019年底完成1万亿美元的目标

数据来源:云观咨询、中商产业研究院整理 在2012年1月阿里将原来的淘宝商城正式更名为现天猫的时候,这将注定是中国电子商务尤其是B2C发展历程当中重要的一件大事!同时天猫也迎来了高速发展的黄金时期,五年时间,由2000亿到2万亿规模翻了近10倍! 在2016年短暂的增长低谷后,2017年加紧大力完善菜鸟网络,发力天猫超市等,补足了以往短板的物流板块,从而2017年消费电子及快速消费品等品类得以爆发增长,再加上新零售模式软硬件的进一步完善,线上线下系统等对接的进一步成熟,唤醒了服饰等传统龙头品类的第二春,多方面发力从而拉动了2017年整体44%的增长! 天猫自身体量首次突破2万亿大关,并且占比阿里中国零售平台整体份额由2012年的22.6%升至2017年的45.5%,如不出意外2018年天猫就将占据半壁江山!

相关文档
最新文档