数据分析经典测试题含答案解析

数据分析经典测试题含答案解析
数据分析经典测试题含答案解析

数据分析经典测试题含答案解析

一、选择题

1.某校九年级数学模拟测试中,六名学生的数学成绩如下表所示,下列关于这组数据描述正确的是()

A.众数是110 B.方差是16

C.平均数是109.5 D.中位数是109

【答案】A

【解析】

【分析】

根据众数、中位数的概念求出众数和中位数,根据平均数和方差的计算公式求出平均数和方差.

【详解】

解:这组数据的众数是110,A正确;

1

6

x=×(110+106+109+111+108+110)=109,C错误;

21

S

6

= [(110﹣109)2+(106﹣109)2+(109﹣109)2+(111﹣109)2+(108﹣109)2+

(110﹣109)2]=8

3

,B错误;

中位数是109.5,D错误;

故选A.

【点睛】

本题考查的是众数、平均数、方差、中位数,掌握它们的概念和计算公式是解题的关键.

2.一组数据2,x,6,3,3,5的众数是3和5,则这组数据的中位数是()

A.3 B.4 C.5 D.6

【答案】B

【解析】

【分析】

由众数的定义求出x=5,再根据中位数的定义即可解答.

【详解】

解:∵数据2,x,3,3,5的众数是3和5,

∴x=5,

则数据为2、3、3、5、5、6,这组数据为35

2

=4.

故答案为B.

【点睛】

本题主要考查众数和中位数,根据题意确定x的值以及求中位数的方法是解答本题的关键.

3.如图,是根据九年级某班50名同学一周的锻炼情况绘制的条形统计图,下面关于该班50名同学一周锻炼时间的说法错误的是()

A.平均数是6

B.中位数是6.5

C.众数是7

D.平均每周锻炼超过6小时的人数占该班人数的一半

【答案】A

【解析】

【分析】

根据中位数、众数和平均数的概念分别求得这组数据的中位数、众数和平均数,由图可知锻炼时间超过6小时的有20+5=25人.即可判断四个选项的正确与否.

【详解】

A、平均数为1

50

×(5×7+18×6+20×7+5×8)=6.46,故本选项错误,符合题意;

B、∵一共有50个数据,

∴按从小到大排列,第25,26个数据的平均值是中位数,

∴中位数是6.5,故此选项正确,不合题意;

C、因为7出现了20次,出现的次数最多,所以众数为:7,故此选项正确,不合题意;

D、由图可知锻炼时间超过6小时的有20+5=25人,故平均每周锻炼超过6小时的人占总数的一半,故此选项正确,不合题意;

故选A.

【点睛】

此题考查了中位数、众数和平均数的概念等知识,中位数是将一组数据从小到大(或从大到小)重新排列后,最中间的那个数(最中间两个数的平均数),叫做这组数据的中位数,如果中位数的概念掌握得不好,不把数据按要求重新排列,就会错误地将这组数据最中间的那个数当作中位数.

4.某学校组织学生进行社会主义核心价值观的知识竞赛,进入决赛的共有20名学生,他们的决赛成绩如下表所示:

那么20名学生决赛成绩的众数和中位数分别是( )

A.85,90 B.85,87.5 C.90,85 D.95,90

【答案】B

【解析】

试题解析:85分的有8人,人数最多,故众数为85分;

处于中间位置的数为第10、11两个数,

为85分,90分,中位数为87.5分.

故选B.

考点:1.众数;2.中位数

5.甲、乙两名同学分别进行6次射击训练,训练成绩(单位:环)如下表

对他们的训练成绩作如下分析,其中说法正确的是()

A.他们训练成绩的平均数相同B.他们训练成绩的中位数不同

C.他们训练成绩的众数不同D.他们训练成绩的方差不同

【答案】D

【解析】

【分析】利用方差的定义、以及众数和中位数的定义分别计算即可得出答案.

【详解】∵甲6次射击的成绩从小到大排列为6、7、8、8、9、10,

∴甲成绩的平均数为6788910

6

+++++

=8,中位数为

88

2

+

=8、众数为8,

方差为1

6

×[(6﹣8)2+(7﹣8)2+2×(8﹣8)2+(9﹣8)2+(10﹣8)2]=

5

3

∵乙6次射击的成绩从小到大排列为:7、7、8、8、8、9,

∴乙成绩的平均数为778889

6

+++++

=

47

6

,中位数为

88

2

+

=8、众数为8,

方差为1

6

×[2×(7﹣

47

6

)2+3×(8﹣

47

6

)2+(9﹣

47

6

)2]=

17

36

则甲、乙两人的平均成绩不相同、中位数和众数均相同,而方差不相同,

故选D.

【点睛】本题考查了中位数、方差以及众数的定义等知识,熟练掌握相关定义以及求解方法是解题的关键.

6.为了解我市初三女生的体能状况,从某校初三的甲、乙两班中各抽取27名女生进行一分钟跳绳次数测试,测试数据统计结果如下表.如果每分钟跳绳次数≥105次的为优秀,那么甲、乙两班的优秀率的关系是()

A.甲优<乙优B.甲优>乙优C.甲优=乙优D.无法比较

【答案】A

【解析】

【分析】

根据中位数可得甲班优秀的人数最多有13人,乙班优秀的人数最少有14人,据此可得答案.

【详解】

解:由表格可知,每班有27人,则中位数是排序后第14名学生的成绩,

∵甲班的中位数是104,乙班的中位数是106,

∴甲班优秀的人数最多有13人,乙班优秀的人数最少有14人,

∴甲优<乙优,

故选:A.

【点睛】

本题考查了中位数的应用,熟练掌握中位数的意义和求法是解题的关键.

7.某篮球运动员在连续7场比赛中的得分(单位:分)依次为23,22,20,20,20,25,18.则这组数据的众数与中位数分别是()

A.20分,22分B.20分,18分

C.20分,22分D.20分,20分

【答案】D

【解析】

【分析】

根据众数和中位数的概念求解可得.

【详解】

数据排列为18,20,20,20,22,23,25,

则这组数据的众数为20,中位数为20.

故选:D.

【点睛】

此题考查众数和中位数,解题关键在于掌握一组数据中出现次数最多的数据叫做众数.将一组数据按照从小到大(或从大到小)的顺序排列,如果数据的个数是奇数,则处于中间位置的数就是这组数据的中位数.如果这组数据的个数是偶数,则中间两个数据的平均数就是这组数据的中位数.

8.甲、乙两位运动员在相同条件下各射击10次,成绩如下: 甲:9,10,8,5,7,8,10,8,8,7; 乙:5,7,8,7,8,9,7,9,10,10.根据上述信息,下列结论错误的是( ) A .甲、乙的众数分别是8,7 B .甲、乙的中位数分别是8,8 C .乙的成绩比较稳定 D .甲、乙的平均数分别是8,8

【答案】C 【解析】 【分析】

分别根据众数,平均数,中位数和方差的概念以及计算方法计算出结果,然后进行判断. 【详解】

在甲的10次射击成绩中8环出现次数最多,有4次,故众数是8,而乙的10次射击成绩中7环出现次数最多,故众数是7,因此选项A 说法正确,不符合题意;

甲的10次射击成绩按大小顺序排列为:5,7,7,8,8,8,8,9,10,10,故其中位数为:

8+8

=82

; 乙的10次射击成绩按大小顺序排列为:5,7,7,7,8,8,9,9,10,10,故其中位数为:8+8

=82

,所以甲、乙的中位数分别是8,8,故选项B 说法正确,不符合题意; 甲的平均数为:

5+72+84+9+102

=810

???;乙的平均数:

5+73+82+92+102

=810

????,所以,甲、乙的平均数分别是8,8,故选项D 不符合题

意;

甲组数据的方差为:

2222221

=

[(58)2(78)4(88)(98)2(108)]10

S -+?-+?-+-+?-甲=2; 乙组数据的方差为:

2222221

=

[(58)3(78)2(88)2(98)2(108)]10

S -+?-+?-+?-+?-乙=2.2;所以甲乙两组数据的方差不相等,甲的成绩更稳定,故选项C 符合题意. 故选:C. 【点睛】

本题考查了平均数、中位数、众数和方差的定义.方差是用来衡量一组数据波动大小的量,方差越大,表明这组数据偏离平均数越大,即波动越大,数据越不稳定;反之,方差越小,表明这组数据分布比较集中,各数据偏离平均数越小,即波动越小,数据越稳定.

9.一组数据3、2、1、2、2的众数,中位数,方差分别是:()

A.2,1,2 B.3,2,0.2 C.2,1,0.4 D.2,2,0.4【答案】D

【解析】

【分析】

根据众数,中位数,方差的定义计算即可.

【详解】

将这组数据重新由小到大排列为:12223

、、、、

平均数为:12223

2

5

++++

=

2出现的次数最多,众数为:2中位数为:2

方差为:

()()()()()

22222

2

1222222232

0.4

5

s

-+-+-+-

=

+

-

=

故选:D

【点睛】

本题考查了确定数据众数,中位数,方差的能力,解题的关键是熟悉它们的定义和计算方法.

10.(11·大连)某农科院对甲、乙两种甜玉米各用10块相同条件的试验田进行试验,

得到两个品种每公顷产量的两组数据,其方差分别为s甲2=0.002、s乙2=0.03,则 ( ) A.甲比乙的产量稳定B.乙比甲的产量稳定

C.甲、乙的产量一样稳定D.无法确定哪一品种的产量更稳定

【答案】A

【解析】

【分析】方差是刻画波动大小的一个重要的数字.与平均数一样,仍采用样本的波动大小去估计总体的波动大小的方法,方差越小则波动越小,稳定性也越好.

【详解】因为s2

甲=0.002

=0.03,

所以,甲比乙的产量稳定.

故选A

【点睛】本题考核知识点:方差. 解题关键点:理解方差意义.

11.为了迎接2022年的冬奥会,中小学都积极开展冰上运动,小乙和小丁进行500米短道速滑比赛,他们的五次成绩(单位:秒)如表所示:

设两人的五次成绩的平均数依次为x 乙,x 丁,成绩的方差一次为2

S 乙,2

S 丁,则下列判断中

正确的是( )

A .x x =乙丁,22S S <乙丁

B .x x =乙丁,22

S S >乙丁

C .x x >乙丁,22

S S >乙丁 D .x x <乙丁,22

S S <乙丁

【答案】B 【解析】 【分析】

根据平均数的计算公式先求出甲和乙的平均数,再根据方差的意义即可得出答案. 【详解】

4563555260

555

x ++++=

=乙,

则()()()()()22222

2

1455563555555525560555S ??=

?-+-+-+-+-?

?乙39.6=,

5153585657

555

x ++++=

=丁,

则()()()()()22222

2

1515553555855565557555S ??=

?-+-+-+-+-?

?丁 6.8=,

所以x x =乙丁,22

S S >乙丁,

故选B . 【点睛】

本题考查方差的定义与意义:一般地设n 个数据,1x ,2x ,…n x 的平均数为x ,则方差

()()()

2222

121n S x x x x x x n ?

?=-+-+???+-?

???,它反映了一组数据的波动大小,方差越

大,波动性越大,反之也成立.

12.对于两组数据A ,B ,如果s A 2>s B 2,且A B x x =,则( ) A .这两组数据的波动相同 B .数据B 的波动小一些 C .它们的平均水平不相同 D .数据A 的波动小一些

【答案】B 【解析】

试题解析:方差越小,波动越小.

22,A B s s >Q

数据B 的波动小一些. 故选B.

点睛:本题考查方差的意义.方差是用来衡量一组数据波动大小的量,方差越大,表明这组数据偏离平均数越大,即波动越大,数据越不稳定;反之,方差越小,表明这组数据分布比较集中,各数据偏离平均数越小,即波动越小,数据越稳定.

13.在一次数学答题比赛中,五位同学答对题目的个数分别为7,5,3,5,10,则关于这组数据的说法不正确的是()

A.众数是5 B.中位数是5 C.平均数是6 D.方差是3.6

【答案】D

【解析】

【分析】

根据平均数、中位数、众数以及方差的定义判断各选项正误即可.

【详解】

A、数据中5出现2次,所以众数为5,此选项正确;

B、数据重新排列为3、5、5、7、10,则中位数为5,此选项正确;

C、平均数为(7+5+3+5+10)÷5=6,此选项正确;

D、方差为1

5

×[(7﹣6)2+(5﹣6)2×2+(3﹣6)2+(10﹣6)2]=5.6,此选项错误;

故选:D.

【点睛】

本题主要考查了方差、平均数、中位数以及众数的知识,解答本题的关键是熟练掌握各个知识点的定义以及计算公式,此题难度不大.

14.立定跳远是体育中考选考项目之一,体育课上老师记录了某同学的一组立定跳远成绩如表:

则下列关于这组数据的说法,正确的是()

A.众数是2.3 B.平均数是2.4

C.中位数是2.5 D.方差是0.01

【答案】B

【解析】

【分析】

一组数据中出现次数最多的数据叫做众数;

平均数是指在一组数据中所有数据之和再除以数据的个数.它是反映数据集中趋势的一项指标;

将一组数据按照从小到大(或从大到小)的顺序排列,如果数据的个数是奇数,则处于中间位置的数就是这组数据的中位数.如果这组数据的个数是偶数,则中间两个数据的平均数就是这组数据的中位数;

一组数据中各数据与它们的平均数的差的平方的平均数,叫做这组数据的方差.

【详解】

这组数据中出现次数最多的是2.4,众数是2.4,选项A不符合题意;

∵(2.3+2.4+2.5+2.4+2.4)÷5

=12÷5

=2.4

∴这组数据的平均数是2.4,

∴选项B符合题意.

15.在趣味运动会“定点投篮”项目中,我校七年级八个班的投篮成绩(单位:个)分别为:24,20,19,20,22,23,20,22.则这组数据中的众数和中位数分别是()A.22个、20个B.22个、21个C.20个、21个D.20个、22个

【答案】C

【解析】

【分析】

找中位数要把数据按从小到大的顺序排列,位于最中间的一个数或两个数的平均数为中位数,众数是一组数据中出现次数最多的数据,注意众数可以不止一个.

【详解】

在这一组数据中20出现了3次,次数最多,故众数是20;

把数据按从小到大的顺序排列:19,20,20,20,22,22,23,24,

处于这组数据中间位置的数20和22,那么由中位数的定义可知,这组数据的中位数是21.

故选C.

【点睛】

本题为统计题,考查众数与中位数的意义,中位数是将一组数据从小到大(或从大到小)重新排列后,最中间的那个数(最中间两个数的平均数),叫做这组数据的中位数,如果中位数的概念掌握得不好,不把数据按要求重新排列,就会出错.

16.在一次中学生田径运动会上,参加男子跳高的15名运动员的成绩如下表所示:

则这些运动员成绩的中位数、众数分别为()

A.1.70,1.75 B.1.70,1.70 C.1.65,1.75 D.1.65,1.70

【答案】A

【解析】

分析:找中位数要把数据按从小到大的顺序排列,位于最中间的一个数或两个数的平均数为中位数;众数是一组数据中出现次数最多的数据,注意众数可以不止一个.

详解:共15名学生,中位数落在第8名学生处,第8名学生的跳高成绩为1.70m,故中位数为1.70;

跳高成绩为1.75m的人数最多,故跳高成绩的众数为1.75;

故选A.

点睛:本题为统计题,考查众数与中位数的意义.众数是一组数据中出现次数最多的数.中位数是将一组数据从小到大(或从大到小)重新排列后,最中间的那个数(最中间两个数的平均数),叫做这组数据的中位数.

17.甲、乙两班举行电脑汉字输入比赛,参赛学生每分输入汉字的个数统计结果如下表:

某同学分析上表后得到如下结论:

①甲、乙两班学生平均成绩相同;

为优秀)

②乙班优秀的人数多于甲班优秀的人数(每分输入汉字个数150

③甲班成绩的波动比乙班大.

上述结论中正确的是()

A.①②③B.①②C.①③D.②③

【答案】A

【解析】

【分析】

平均水平的判断主要分析平均数;优秀人数的判断从中位数不同可以得到;波动大小比较方差的大小.

【详解】

从表中可知,平均字数都是135,①正确;

甲班的中位数是149,乙班的中位数是151,比甲的多,而平均数都要为135,说明乙的优秀人数多于甲班的,②正确;

甲班的方差大于乙班的,又说明甲班的波动情况大,所以③也正确.

①②③都正确.

故选:A.

【点睛】

此题考查平均数,中位数,方差的意义.解题关键在于掌握平均数表示一组数据的平均程度.中位数是将一组数据从小到大(或从大到小)重新排列后,最中间的那个数(或最中间两个数的平均数);方差是用来衡量一组数据波动大小的量.

18.某中学篮球队12名队员的年龄如表:

关于这12名队员年龄的数据,下列说法正确的是()

A.中位数是14.5 B.年龄小于15岁的频率是

5 12

C.众数是5 D.平均数是14.8

【答案】A

【解析】

【分析】

根据表中数据,求出这组数据的众数、频率、中位数和平均数即可.【详解】

解:A、中位数为第6、7个数的平均数,为1415

2

+

=14.5,此选项正确;

B、年龄小于15岁的频率是151

122

+

=,此选项错误;

C、14岁出现次数最多,即众数为14,此选项错误;

D、平均数为:131145154162175

=

1212

?+?+?+?

,此选项错误;

【点睛】

本题考查了众数、中位数、平均数与频率的计算问题,是基础题.解题的关键是掌握众数、中位数、平均数与频率的定义进行解题.

19.一组数据0、-1、3、2、1的极差是()

A.4 B.3 C.2 D.1

【答案】A

【解析】

【分析】

根据极差的概念最大值减去最小值即可求解.

【详解】

解:这组数据:0、-1、3、2、1的极差是:3-(-1)=4.

故选A.

【点睛】

本题考查了极差的知识,极差是指一组数据中最大数据与最小数据的差.

20.在5轮“中国汉字听写大赛”选拔赛中,甲、乙两位同学的平均分都是90分,甲的成绩方差是15,乙的成绩的方差是3,下列说法正确的是()

A.甲的成绩比乙的成绩稳定B.乙的成绩比甲的成绩稳定

C.甲、乙两人的成绩一样稳定D.无法确定甲、乙的成绩谁更稳定

【答案】B

【解析】

【分析】

根据方差的意义求解可得.

【详解】

∵乙的成绩方差<甲成绩的方差,

∴乙的成绩比甲的成绩稳定,

故选B.

【点睛】

本题主要考查方差,方差是反映一组数据的波动大小的一个量.方差越大,则平均值的离散程度越大,稳定性也越小;反之,则它与其平均值的离散程度越小,稳定性越好.

【分析】数据的分析单元测试题含答案供参考

【关键字】分析 第二十章《数据的分析》单元测试题 一、选择题) 1.为了了解参加某运动会的200名运动员的年龄情况,从中抽查了20名运动员的年龄,就这个问题来说,下面说法正确的是() A.200名运动员是总体B.每个运动员是总体 C.20名运动员是所抽取的一个样本D.样本容量是20 2.一城市准备选购一千株高度大约为的某种风景树来进行街道绿化,?有四个苗圃生产基地投标(单株树的价格都一样).?采购小组从四个苗圃中都任意抽查了20株树苗的高度,得到的数据如下: A.甲苗圃的树苗B.乙苗圃的树苗; C.丙苗圃的树苗D.丁苗圃的树苗3.将一组数据中的每一个数减去50后,所得新的一组数据的平均数是2,?则原来那组数据的平均数是() A.50 B..48 D.2 4.一个射手连续射靶22次,其中3次射中10环,7次射中9环,9次射中8环,3次射中7环.则射中环数的中位数和众数分别为() A.8,9 B.8,.8.5,8 D.8.5,9 5.为鼓励市民珍惜每一滴水,某居委会表扬了100个节约用水模范户,8月份节约用水的情况如下表: 那么,8月份这100() A.1.5t B.1.20t C.1.05t D.1t 6.已知一组数据-2,-2,3,-2,-x,-1的平均数是-0.5,?那么这组数据的众数与中位数分别是() A.-2和3 B.-2和.-2和-1 D.-2和-1.5 7.方差为2的是() A.1,2,3,4,5 B.0,1,2,3,5 C.2,2,2,2,2 D.2,2,2,3,3 8.甲、乙两班举行电脑汉字输入速度比赛,?参赛学生每分钟输入汉字的个数经统计计算后结果如下表: (1)甲、乙两班学生成绩的平均水平相同; (2)乙班优秀的人数多于甲班优秀的人数;(每分钟输入汉字≥150个为优秀) (3)甲班成绩的波动情况比乙班成绩的波动小

《数据分析》练习题

《数据分析》练习题 1.一个地区某月前两周从星期一到星期五各天的最低气温依次是(单位:℃):x 1, x 2, x 3, x 4, x 5和x 1+1, x 2+2, x 3+3, x 4+4, x 5+5,若第一周这五天的平均最低气温为7℃,则第二周这五天的平均最低气温为 。 2.有10个数据的平均数为12,另有20个数据的平均数为15,那么所有这30个数据的平均数是( ) A .12 B. 15 C. 1 3.5 D. 14 3.一组数据8,8,x ,6的众数与平均数相同,那么这组数据的中位数是 ( ) A. 6 B. 8 C.7 D. 10 4.某校在一次考试中,甲乙两班学生的数学成绩统计如下: 请根据表格提供的信息回答下列问题: (1)甲班众数为 分,乙班众数为 分,从众数看成绩较好的是 班; (2)甲班的中位数是 分,乙班的中位数是 分; (3)若成绩在80分以上为优秀,则成绩较好的是 班;、 (4)甲班的平均成绩是 分,乙班的平均成绩是 分,从平均分看成绩较好的是 班. 5.在方差的计算公式 ()()()222 21210120202010 s x x x ??= -+-+???+-??中, 数字10和20分别表示的意义可以是( ) A .数据的个数和方差 B .平均数和数据的个数 C .数据的个数和平均数 D .数据组的方差和平均数 6..如果将所给定的数据组中的每个数都减去一个非零常数,那么该数组的 ( ) A.平均数改变,方差不变 B.平均数改变,方差改变 C.平均输不变,方差改变 D.平均数不变,方差不变 7..已知7,4,3,,321x x x 的平均数是6,则_____________321=++x x x . 8..已知一组数据-3,-2,1,3,6,x 的中位数为1,则其方差为 . 9..已知一组数据x 1,x 2,x 3,x 4,x 5的平均数是2,方差是 3 1 ,那么另一组数据3x 1-2,3x 2-2,3x 3-2, 3x 4-2,3x 5-2的平均数是和方差分别是 . 10..关于一组数据的平均数、中位数、众数,下列说法中正确的是( ) A.平均数一定是这组数中的某个数 B. 中位数一定是这组数中的某个数 C.众数一定是这组数中的某个数 D.以上说法都不对 分数 50 60 70 80 90 100 人数 甲 1 6 12 11 15 5 乙 3 5 15 3 13 11

数据分析师常见的7道笔试题目及答案

数据分析师常见的7道笔试题目及答案 导读:探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧 重于已有假设的证实或证伪。以下是由小编J.L为您整理推荐的实用的应聘笔试题目和经验,欢迎参考阅读。 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把 整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用 hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000 个最大的IP中,找出那个频率最大的IP,即为所求。 或者如下阐述: 算法思想:分而治之+Hash 1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理; 2.可以考虑采用“分而治之”的思想,按照IP地址的Hash(IP)24值,把海量IP日 志分别存储到1024个小文件中。这样,每个小文件最多包含4MB个IP地址; 3.对于每一个小文件,可以构建一个IP为key,出现次数为value的Hash map,同时记录当前出现次数最多的那个IP地址; 4.可以得到1024个小文件中的出现次数最多的IP,再依据常规的排序算法得到总体上出现次数最多的IP; 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。 假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也 就是越热门。),请你统计最热门的10个查询串,要求使用的内存不能超过1G。 典型的Top K算法,还是在这篇文章里头有所阐述, 文中,给出的最终算法是: 第一步、先对这批海量数据预处理,在O(N)的时间内用Hash表完成统计(之前写成了排序,特此订正。July、2011.04.27); 第二步、借助堆这个数据结构,找出Top K,时间复杂度为N‘logK。 即,借助堆结构,我们可以在log量级的时间内查找和调整/移动。因此,维护一 个K(该题目中是10)大小的小根堆,然后遍历300万的Query,分别和根元素进行对比所以,我们最终的时间复杂度是:O(N) + N’*O(logK),(N为1000万,N’为300万)。ok,更多,详情,请参考原文。 或者:采用trie树,关键字域存该查询串出现的次数,没有出现为0。最后用10 个元素的最小推来对出现频率进行排序。 3、有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。 方案:顺序读文件中,对于每个词x,取hash(x)P00,然后按照该值存到5000 个小文件(记为x0,x1,…x4999)中。这样每个文件大概是200k左右。 如果其中的有的文件超过了1M大小,还可以按照类似的方法继续往下分,直到 分解得到的小文件的大小都不超过1M。 对每个小文件,统计每个文件中出现的词以及相应的频率(可以采用trie树 /hash_map等),并取出出现频率最大的100个词(可以用含100 个结点的最小堆),并把

深圳市高级中学二年级数学下册第一单元《数据收集整理》单元测试题(含答案解析)

深圳市高级中学二年级数学下册第一单元《数据收集整理》单元测试题(含答 案解析) 一、选择题 1.李兵和王芳做“石头、剪刀、布”的游戏。下面是李兵画“正”字记录的自己游戏的结果。那么王芳赢了()次。 A. 14 B. 6 C. 8 2.下面是三(1)班男生1分钟跳绳测试的成绩统计图。男生达标成绩是110个,达标的人数是()人。 A. 25 B. 20 C. 18 3.选一选 种类连环画故事书科技书其他 人数(人)181284 A.连环画 B.故事书 C.科技书 D.其他 (2)喜欢()的人数最少。 A.连环画 B.故事书 C.科技书 D.其他 (3)喜欢故事书的比喜欢连环画的少()人。 A.10 B.6 C.4 D.8 (4)喜欢连环画的和喜欢科技书的一共()人。 A.30 B.20

C.26 D.12 4.心心幼儿园新进了一批玩具。 玩具 个数(个)812610 心心幼儿园新进的玩具一共有()个。 A. 20 B. 36 C. 18 D. 26 5.某班24名男生参加50米跑测试成绩如下图: 从上图中可以看出,得()的人最多。 A. 优秀 B. 良好 C. 合格 D. 不合格6.学校有8个班参加了回收废报纸活动。第一天回收废报纸43千克;第二天回收废报纸38千克;第三天回收废报纸39千克。平均每天回收废报纸()千克。 A. 39 B. 40 C. 41 D. 42 7.要反映长沙市一周内每天的最高气温的数据情况,宜采用()。 A. 条形统计图 B. 扇形统计图 C. 统计表 D. 频数分布直方图 8.下图中三角形有几个?() A. 5个 B. 3个 C. 4个 9.2012年伦敦奥运会金牌情况统计表。 国家中国英国美国巴西 数量(块)38294612 A. 中国 B. 英国 C. 美国 D. 巴西10.喜欢( )小组的人数最少。

数据分析期末试题及答案

数据分析期末试题及答案 一、人口现状.sav数据中是1992年亚洲各国家和地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)的数据,试用多元回归分析的方法分析各国家和地区平均寿命与人均GDP、成人识字率、一岁儿童疫苗接种率的关系。(25分) 解: 1.通过分别绘制地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间散点图初步分析他们之间的关系 上图是以人均GDP(x1)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系。尝试多种模型后采用曲线估计,得出 表示地区平均寿命(y)与人均GDP(x1)的对数有线性关系

上图是以成人识字率(x2)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间基本呈正线性关系。 上图是以疫苗接种率(x3)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系 。 x)为横轴,地区平均寿命(y)为纵轴的散点图,上图是以疫苗接种率(x3)的三次方(3 3 由图可知,他们之间呈正线性关系 所以可以采用如下的线性回归方法分析。

2.线性回归 先用强行进入的方式建立如下线性方程 设Y=β0+β1*(Xi1)+β2*Xi2+β3* X+εi i=1.2 (24) 3i 其中εi(i=1.2……22)相互独立,都服从正态分布N(0,σ^2)且假设其等于方差 R值为0.952,大于0.8,表示两变量间有较强的线性关系。且表示平均寿命(y)的95.2%的信息能由人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)一起表示出来。 建立总体性的假设检验 提出假设检验H0:β1=β2=β3=0,H1,:其中至少有一个非零 得如下方差分析表 上表是方差分析SAS输出结果。由表知,采用的是F分布,F=58.190,对应的检验概率P值是0.000.,小于显著性水平0.05,拒绝原假设,表示总体性假设检验通过了,平均寿命(y)与人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间有高度显著的的线性回归关系。

招行-DW-BI-数据面试题及答案

DW/BI 数据库面试题 一、基础题 1. 2.描述Tablespace和Datafile之间的关系. 3.描述日志的作用. 4. 5.

7. 8. 9.FACT Table上需要建立何种索引? 二、SQL试题

1.有一张表T(F1,F2,F3,F4),要根据字段F2排序后取第8-16条记录显示,请写 出SQL。 2.指出下面SQL语句的执行顺序: select a.column1 , COUNT(*) AS CountValue, SUM(b.column3) AS SumValue from TableAainnerjoinTableB b on a.column1 = b.column1 and a.column2 = 1 where b.column3 = 10 group by a.column1 having COUNT(*)> 10 order by a.column1 1. From 2. ON 3. INNER JOIN 4. WHERE 5. GROUP BY 6. having 7. SELECT8. ORDER BY 三、DW/BI 试题 1.描述ROLAP、MOLAP、HOLAP的区别与优势。

2.

3.描述一下DW设计架构,及ETL设计方法。 4.描述你所熟悉的数据模型,如一些行业的模型,实际参与的设计及主题。 财务数据模型, 主要是凭证,会计科目,供应商,客户,等 主事实表就是会计分录、凭证等。因为凭证有表头和表体。所以事实表由两个表组成,一个是存储表头一个是表体。会计科目、供应商、客户是作为单独维度表。其他维度作为辅助维度存储在在一张表中。

2020-2021八年级数学数据的分析单元测试题

一、选择题(每小题4分,共36分) 1、为了解我校八年级800名学生期中数学考试情况,从中抽取了200名学生的数学成绩进行统计.下列判断:①这种调查方式是抽样调查;②800名学生是总体;③每名学生的期中考试数学成绩是个体;④200名学生是总体的一个样本;⑤200名学生是样本容量.其中正确的判断有 ( ) A.1个 B.2个 C.3个 D.4个 2、人数相同的八年级甲、乙两班学生在同一次数学单元测试,班级平均分和方差如下:80==乙甲x x ,2402=甲 s ,1802=乙s ,则成绩较为稳定的班级是( ) A.甲班 B.乙班 C.两班成绩一样稳定 D.无法确定 3 这组数据的中位数和众数别是( ) A.24,25 B.24.5,25 C.25,24 D.23.5,24 4、在学校对学生进行的晨检体温测量中,学生甲连续10天的体温与36℃的上下波动数据为0.2,0.3,0.1,0.1,0,0.2,0.1,0.1,0, 0.1,则在这10天中该学生的体温波动数据中不正确的是( )

A.平均数为0.12 B.众数为0.1 C.中位数为 0.1 D. 方差为0.02 5、甲、乙、丙、丁四人的数学测验成绩分别为90分、90 分、x分、80分,若这组数据的众数与平均数恰好相等,则这组数据的中位数是() A.100分 B.95分 C.90分 D.85分 6、已知三年四班全班35人身高的算术平均数与中位数都是 150厘米,但后来发现其中有一位同学的身高登记错误,误将160厘米写成166厘米,正确的平均数为a厘米,中位数为b厘米关于平均数a的叙述,下列何者正确() A.大于158 B.小于158 C.等于158 D.无法确定 7、在上题中关于中位数b的叙述。下列何者正确() A.大于158 B.小于158 C.等于158 D.无法确定 8、已知一组数据1、2、y的平均数为4,那么() A.y=7 B.y=8 C.y=9 D.y=10 9、若一组数据a1,a2,…,a n的方差是5,则一组新数据2a1,2a2,…,2a n的方差是() A.5 B.10 C.20 D.50 二、填空题(每空3分,共45分) 10、数学期末总评成绩由作业分数,课堂参与分数,期考 分数三部分组成,并按3:3:4的比例确定。已知小明的期考80分,作业90分,课堂参与85分,则他的总评成绩为________

数据分析笔试题

数据分析笔试题 一、编程题(每小题20分)(四道题任意选择其中三道) 有一个计费表表名jifei 字段如下:phone(8位的电话号码),month(月份),expenses (月消费,费用为0表明该月没有产生费用) 下面是该表的一条记录:64262631,201011,30.6 这条记录的含义就是64262631的号码在2010年11月份产生了30.6元的话费。 按照要求写出满足下列条件的sql语句: 1、查找2010年6、7、8月有话费产生但9、10月没有使用并(6、7、8月话费均在51-100 元之间的用户。 2、查找2010年以来(截止到10月31日)所有后四位尾数符合AABB或者ABAB或者AAAA 的电话号码。(A、B 分别代表1—9中任意的一个数字) 3、删除jifei表中所有10月份出现的两条相同记录中的其中一条记录。

4、查询所有9月份、10月份月均使用金额在30元以上的用户号码(结果不能出现重复) 二、逻辑思维题(每小题10分)须写出简要计算过程和结果。 1、某人卖掉了两张面值为60元的电话卡,均是60元的价格成交的。其中一张赚了20%, 另一张赔了20%,问他总体是盈利还是亏损,盈/亏多少? 2、有个农场主雇了两个小工为他种小麦,其中A是一个耕地能手,但不擅长播种;而B 耕地很不熟练,但却是播种的能手。农场主决定种10亩地的小麦,让他俩各包一半,于是A从东头开始耕地,B从西头开始耕。A耕地一亩用20分钟,B却用40分钟,可是B播种的速度却比A快3倍。耕播结束后,庄园主根据他们的工作量给了他俩600元工钱。他俩怎样分才合理呢? 3、1 11 21 1211 111221 下一行是什么? 4、烧一根不均匀的绳,从头烧到尾总共需要1个小时。现在有若干条材质相同的绳子,问如何用烧绳的方法来计时一个小时十五分钟呢?(绳子分别为A 、B、C、D、E、F 。。。。。来代替)

20、第二十章《数据的分析》单元测试题(含答案)-

第二十章《数据的分析》单元测试题 一、选择题) 1.为了了解参加某运动会的200名运动员的年龄情况,从中抽查了20名运动员的年龄,就这个问题来说,下面说法正确的是() A.200名运动员是总体B.每个运动员是总体 C.20名运动员是所抽取的一个样本D.样本容量是20 2.一城市准备选购一千株高度大约为2m的某种风景树来进行街道绿化,?有四个苗圃生产基地投标(单株树的价格都一样).?采购小组从四个苗圃中都任意抽查了20株树苗的高度,得到的数据如下: 请你帮采购小组出谋划策,应选购() A.甲苗圃的树苗B.乙苗圃的树苗; C.丙苗圃的树苗D.丁苗圃的树苗 3.将一组数据中的每一个数减去50后,所得新的一组数据的平均数是2,?则原来那组数据的平均数是()A.50 B.52 C.48 D.2 4.一个射手连续射靶22次,其中3次射中10环,7次射中9环,9次射中8环,3次射中7环.则射中环数的中位数和众数分别为() A.8,9 B.8,8 C.8.5,8 D.8.5,9 5 那么,8月份这100 A.1.5t B.1.20t C.1.05t D.1t 6.已知一组数据-2,-2,3,-2,-x,-1的平均数是-0.5,?那么这组数据的众数与中位数分别是() A.-2和3 B.-2和0.5 C.-2和-1 D.-2和-1.5 7.方差为2的是() A.1,2,3,4,5 B.0,1,2,3,5 C.2,2,2,2,2 D.2,2,2,3,3 8 某同学根据上表分析得出如下结论: (1)甲、乙两班学生成绩的平均水平相同; (2)乙班优秀的人数多于甲班优秀的人数;(每分钟输入汉字≥150个为优秀) (3)甲班成绩的波动情况比乙班成绩的波动小 上述结论中正确的是() A.(1)(2)(3)B.(1)(2)C.(1)(3)D.(2)(3) 9.某校把学生的纸笔测试、实践能力、成长纪录三项成绩分别按50%、20%?、?30%的比例计入学期总评成绩,90分以上为优秀.甲、乙、?丙三人的各项成绩如下表(单位:分),学期总评成绩优秀的是()

2016年数据分析面试常见问题

1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的IP中,找出那个频率最大的IP,即为所求。 或者如下阐述: 算法思想:分而治之+Hash 1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理; 2.可以考虑采用“分而治之”的思想,按照IP地址的Hash(IP)24值,把海量IP日志分别存储到1024个小文件中。这样,每个小文件最多包含4MB个IP地址; 3.对于每一个小文件,可以构建一个IP为key,出现次数为value的Hash map,同时记录当前出现次数最多的那个IP地址; 4.可以得到1024个小文件中的出现次数最多的IP,再依据常规的排序算法得到总体上出现次数最多的IP; 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。 假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就是越热门。),请你统计最热门的10个查询串,要求使用的内存不能超过1G。 典型的Top K算法,还是在这篇文章里头有所阐述, 文中,给出的最终算法是:

第一步、先对这批海量数据预处理,在O(N)的时间内用Hash表完成统计(之前写成了排序,特此订正。July、2011.04.27); 第二步、借助堆这个数据结构,找出Top K,时间复杂度为N‘logK。 即,借助堆结构,我们可以在log量级的时间内查找和调整/移动。因此,维护一个K(该题目中是10)大小的小根堆,然后遍历300万的Query,分别和根元素进行对比所以,我们最终的时间复杂度是:O(N)+ N’*O(logK),(N为1000万,N’为300万)。ok,更多,详情,请参考原文。 或者:采用trie树,关键字域存该查询串出现的次数,没有出现为0。最后用10个元素的最小推来对出现频率进行排序。 3、有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。 方案:顺序读文件中,对于每个词x,取hash(x)P00,然后按照该值存到5000个小文件(记为x0,x1,…x4999)中。这样每个文件大概是200k左右。 如果其中的有的文件超过了1M大小,还可以按照类似的方法继续往下分,直到分解得到的小文件的大小都不超过1M。 对每个小文件,统计每个文件中出现的词以及相应的频率(可以采用trie树/hash_map 等),并取出出现频率最大的100个词(可以用含100个结点的最小堆),并把100个词及相应的频率存入文件,这样又得到了5000个文件。下一步就是把这5000个文件进行归并(类似与归并排序)的过程了。 4、有10个文件,每个文件1G,每个文件的每一行存放的都是用户的query,每个

21个必知数据科学面试题和答案

21个必知数据科学题和答案 2016-03-10分类:其他 最近KDnuggets上发的“20个问题来分辨真假数据科学家”这篇文章非常热门,获得了一月的阅读量排行首位。 但是这些问题并没有提供答案,所以KDnuggets的小编们聚在一起写出了这些问题的答案。我还加了一个特别提问——第21问,是20个问题里没有的。 下面是答案。 Q1.解释什么是正则化,以及它为什么有用。 回答者:Matthew Mayo 正则化是添加一个调优参数的过程模型来引导平滑以防止过拟合。(参加KDnuggets文章《过拟合》) 这通常是通过添加一个常数到现有的权向量。这个常数通常要么是L1(Lasso)要么是L2(ridge),但实际上可以是任何标准。该模型的测算结果的下一步应该是将正则化训练集计算的损失函数的均值最小化。 Xavier Amatriain在这里向那些感兴趣的人清楚的展示了L1和L2正则化之间的比较。 图1.Lp球:p的值减少,相应的L-p空间的大小也会减少。 Q2.你最崇拜哪些数据科学家和创业公司? 回答者:Gregory Piatetsky 这个问题没有标准答案,下面是我个人最崇拜的12名数据科学家,排名不分先后。 Geoff Hinton, Yann LeCun, 和 Yoshua Bengio-因他们对神经网络的坚持不懈的研究,和开启了当前深度学习的革命。 Demis Hassabis,因他在DeepMind的杰出表现——在Atari游戏中实现了人或超人的表现和最近Go的表现。来自datakind的Jake Porway和芝加哥大学DSSG的Rayid Ghani因他们让数据科学对社会产生贡献。 DJ Patil,美国第一首席数据科学家,利用数据科学使美国政府工作效率更高。 Kirk D. Borne,因其在大众传媒中的影响力和领导力。

最新整理数据分析培训提纲.doc

数据分析培训提纲 1.概论 1.1数据分析的重要性 (1)贯彻质量管理8项原则的需要 QM的8项原则之一为:基于事实的决策方法。要避免决策失误必须提供足够的信息,以及进行科学决策。 信息:有意义的数据。 数据:能客观反映事实的资料和数字。 要使数据提升为信息,才能将其增值。为此,必须从数据收集和分析上运用科学的方法,使之便于利用。 (2)通过数据的收集和分析可证实QMS是否适宜和有效。 (3)帮助识别和评价QMS持续改进的机会。 (4)增强对各种意见和决策的分析、判断、评审、质疑能力 因此,数据分析是保障QMS有效运行的重要手段。 1.2数据分析的一般过程 1.2.1数据收集 (1)收集范围 产品、体系和过程的数据,如:产品检测中的不合格,QMS质量目标完成情况、持续改进情况、过程监视和测量情况等。 事实上在QMS的各个过程中,都会产生一些数据,在管理中必须根据当前及长远目标的需要,确定应收集那些数据,重点如何。 (2)收集方法 1)各种报表和原始记录(注意分类) 2)区域网中的数据库 3)注意明确收集人、收集时间、收集方式、传递方式。 (3)收集的要求 1)及时 2)准确数据的质量,“进来的是垃圾,出去的还是垃圾” 3)完整数据项目齐全,数量符合要求。 1.2.2数据分析、处理 (1)数据的审查和筛选 剔除奇异点,确定数据是否充分 (2)数据排序 按其重要度进行排序,以确定分析处理的对象和顺序 (3)确定分析内容,进行统计分析 (4)分析判断 在统计分析的基础上,以目标值或标准为依据,对统计分析结果(绘图或计算)作进一步分析,以获得指导过程改进的明确信息,找出主要问题和薄弱环节,并提出相应的改进建议。 (5)编写报告 对分析判断得出的规律、趋势整理成报告(附有直观的图表)

毕业生笔试题:阿里巴巴数据分析笔试题

《毕业生:阿里巴巴数据分析师笔试题》 最近,网上放出了IT大佬们的一些考题出来,让人竞相争看,倒地这些大牛公司的择贤条件是如何的呢?大圣众包(https://www.360docs.net/doc/283241224.html,)威客平台从网上整理了阿里巴巴招募数据分析师实习生的一道笔试题,让大家提前试试水。答案在最后,可不要提前偷看哦。 ———————————————问题分割线——————————————— 一、异常值是指什么?请列举1种识别连续型变量异常值的方法? 二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。 三、根据要求写出SQL 表A结构如下: Member_ID(用户的ID,字符型) Log_time(用户访问页面时间,日期型(只有一天的数据)) URL(访问的页面地址,字符型)

要求:提取出每个用户访问的第一个URL(按时间最早),形成一个新表(新表名为B,表结构和表A一致) 四、销售数据分析 根据某一家B2C电子商务网站的一周销售数据,该网站主要用户群是办公室女性,销售额主要集中在5种产品上,如果你是这家公司的分析师, a)从数据中,你看到了什么问题?你觉得背后的原因是什么? b)如果你的老板要求你提出一个运营改进计划,你会怎么做? 五、用户调研 某公司针对A、B、C三类客户,提出了一种统一的改进计划,用于提升客户的周消费次数,需要你来制定一个事前试验方案,来支持决策,请你思考下列问题: a)试验需要为决策提供什么样的信息? b)按照上述目的,请写出你的数据抽样方法、需要采集的数据指标项,以及你选择的统计方法。

———————————————答案分割线——————————————— 一、 异常值(Outlier)是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test(是以FrankE.Grubbs命名的),又叫maximumnormedresidualtest,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。 未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。 【点评】考察的内容是统计学基础功底。 二、 聚类分析(clusteranalysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classificationanalysis)或数值分类(numericaltaxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。 聚类分析计算方法主要有:层次的方法(hierarchicalmethod)、划分方法(partitioningmethod)、基于密度的方法(density-basedmethod)、基于网格的方法(grid-basedmethod)、基于模型的方法(model-basedmethod)等。其中,前两种算法是利用统计学定义的距离进行度量。 k-means算法的工作过程说明如下:首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后

数据分析经典测试题含答案解析

数据分析经典测试题含答案解析 一、选择题 1.某校九年级数学模拟测试中,六名学生的数学成绩如下表所示,下列关于这组数据描述正确的是() A.众数是110 B.方差是16 C.平均数是109.5 D.中位数是109 【答案】A 【解析】 【分析】 根据众数、中位数的概念求出众数和中位数,根据平均数和方差的计算公式求出平均数和方差. 【详解】 解:这组数据的众数是110,A正确; 1 6 x=×(110+106+109+111+108+110)=109,C错误; 21 S 6 = [(110﹣109)2+(106﹣109)2+(109﹣109)2+(111﹣109)2+(108﹣109)2+ (110﹣109)2]=8 3 ,B错误; 中位数是109.5,D错误; 故选A. 【点睛】 本题考查的是众数、平均数、方差、中位数,掌握它们的概念和计算公式是解题的关键. 2.一组数据2,x,6,3,3,5的众数是3和5,则这组数据的中位数是() A.3 B.4 C.5 D.6 【答案】B 【解析】 【分析】 由众数的定义求出x=5,再根据中位数的定义即可解答. 【详解】 解:∵数据2,x,3,3,5的众数是3和5, ∴x=5,

则数据为2、3、3、5、5、6,这组数据为35 2 =4. 故答案为B. 【点睛】 本题主要考查众数和中位数,根据题意确定x的值以及求中位数的方法是解答本题的关键. 3.如图,是根据九年级某班50名同学一周的锻炼情况绘制的条形统计图,下面关于该班50名同学一周锻炼时间的说法错误的是() A.平均数是6 B.中位数是6.5 C.众数是7 D.平均每周锻炼超过6小时的人数占该班人数的一半 【答案】A 【解析】 【分析】 根据中位数、众数和平均数的概念分别求得这组数据的中位数、众数和平均数,由图可知锻炼时间超过6小时的有20+5=25人.即可判断四个选项的正确与否. 【详解】 A、平均数为1 50 ×(5×7+18×6+20×7+5×8)=6.46,故本选项错误,符合题意; B、∵一共有50个数据, ∴按从小到大排列,第25,26个数据的平均值是中位数, ∴中位数是6.5,故此选项正确,不合题意; C、因为7出现了20次,出现的次数最多,所以众数为:7,故此选项正确,不合题意; D、由图可知锻炼时间超过6小时的有20+5=25人,故平均每周锻炼超过6小时的人占总数的一半,故此选项正确,不合题意; 故选A. 【点睛】 此题考查了中位数、众数和平均数的概念等知识,中位数是将一组数据从小到大(或从大到小)重新排列后,最中间的那个数(最中间两个数的平均数),叫做这组数据的中位数,如果中位数的概念掌握得不好,不把数据按要求重新排列,就会错误地将这组数据最中间的那个数当作中位数.

电子商务数据分析试卷及答案3

《电子商务数据分析》试卷 班级: _______________ 姓名:_______________________ 一、填空题(共10 题,每题 1 分。) 1.单击生意参谋上方导航栏中的“ __________ ”超链接可进入实时直播版块,此功能会将店铺的实时数据、来源、榜单、访客等数据进行汇总显示。 2.要选定相邻的多张工作表,先单击所需的第一张工作表的标签,并按住____________ 键不放,然后单击要选定的最后一张工作表的标签即可。 3.选择单元格区域,录入相应的数据后,按_____________________ 键可将选择的每个单元格中录入相同数据。 4.进入生意参谋后,单击顶部导航栏中的“ ___________ ”版块即可配置竞争对手,并对竞店、竞品和竞争品牌进行分析。 5 .提高转化率是提高销售额最有效的途径,计算公式为: 6.外链出现的方式有直接链接和__________ 两种。 7.若要输入分数,则应在前面加上_____________________ 。 8.筛选是一种用于查找符合条件的数据的快速方法,Excel中有 ________ 和___________ 两种方法。 9. _____________ 是指利用各种电商平台和工具对数据的分析功能,直接观察出数据的发 展趋势,找出异常数据,对消费者进行分群等。 10.行业稳定性涉及 ________ 和极差两个指标。 二、单项选择题(共10 题,每题 1 分。) 1.用于收集市场信息并进行整理与分析,提出可行的市场推广方案,再跟据收集到的信息进行市场推广活动的效果评估,做好市场推广预算,控制活动成本,完善市场推广方案的数据分析岗位是()。 A.推广类岗位 B.客服类岗位 C.采编类岗位 D.美工类岗位 2.在Excel 中,已知某单元格的格式为000.00,值为23.785,则显示的内容为()。A.23.78 B.23.79 C.23.785 D.023.79 3.采用()定价策略可能会带来价格竞争。 A.基于成本的定价

大数据面试题剖析讲课稿

单项选择题 1. 下面哪个程序负责 HDFS 数据存储。 a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker 2. HDfS 中的 block 默认保存几份? a)3 份 b)2 份 c)1 份 d)不确定 3. 下列哪个程序通常与 NameNode 在一个节点启动? a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker

4. Hadoop 作者 a)Martin Fowler b)Kent Beck c)Doug cutting 5. HDFS 默认 Block Size a)32MB b)64MB c)128MB 6. 下列哪项通常是集群的最主要瓶颈 a)CPU b)网络 c)磁盘 d)内存 7. 关于 SecondaryNameNode 哪项是正确的? a)它是 NameNode 的热备 b)它对内存没有要求

c)它的目的是帮助NameNode 合并编辑日志,减少NameNode 启动时间 d)SecondaryNameNode 应与 NameNode 部署到一个节点 多选题 8. 下列哪项可以作为集群的管理工具 a)Puppet b)Pdsh c)Cloudera Manager d)d)Zookeeper 9. 配置机架感知的下面哪项正确 a)如果一个机架出问题,不会影响数据读写 b)写入数据的时候会写到不同机架的 DataNode 中 c)MapReduce 会根据机架获取离自己比较近的网络数据 10. Client 端上传文件的时候下列哪项正确 a)数据经过 NameNode 传递给 DataNode b)Client 端将文件切分为 Block,依次上传

长沙市二年级数学下册第一单元《数据收集整理》单元测试题(含答案解析)

长沙市二年级数学下册第一单元《数据收集整理》单元测试题(含答案解析) 一、选择题 1.下面是三(1)班男生1分钟跳绳测试的成绩统计图。男生达标成绩是110个,达标的人数是()人。 A. 25 B. 20 C. 18 2.选一选 种类连环画故事书科技书其他 人数(人)181284 A.连环画 B.故事书 C.科技书 D.其他 (2)喜欢()的人数最少。 A.连环画 B.故事书 C.科技书 D.其他 (3)喜欢故事书的比喜欢连环画的少()人。 A.10 B.6 C.4 D.8 (4)喜欢连环画的和喜欢科技书的一共()人。 A.30 B.20 C.26 D.12 3.下面是三(一)班5个同学踢毽子情况统计表。 小丽小红小明小强小鹏 3334302819 A.小丽 B.小红

C.小明 D.小鹏 (2)()踢得最少。 A.小丽 B.小红 C.小明 D.小鹏 4.下表是某城市6月份天气情况。 天气晴天雨天阴天多云 天数(天)17247 A. 晴天 B. 雨天 C. 阴天 D. 多云5.选一选。 小动物举行运动会,四种动物参加50米跑,它们的比赛如小表。 运动员小猫小狗小熊小兔 成绩13秒9秒20秒11秒 A.小猫 B.小狗 C.小熊 (2)给它们排个名次:()。 A.小猫、小狗、小熊、小兔 B.小狗、小兔、小猫、小熊 C.小熊、小猫、小兔、小狗 D.小熊、小猫、小狗、小兔 6.红红调查同学们最喜欢吃的水果,结果如下。喜欢吃香蕉的有()人。 A. 12 B. 8 C. 7 D. 15 7.按邮票的分值来分可以分为几类?()

A. 3类 B. 2类 C. 4类 8.下表是二(2)班每天看电视时间情况统计表,从图中可知每天看电视在30分钟以下的有多少人?() 时间30分钟以下30分-----1小时1小时以上 人数正正正正正正正正正正 A. 35人 B. 5人 C. 10人 9.下图中三角形有几个?() A. 5个 B. 3个 C. 4个 10.三年一班采用不记名的方式投票选举班长,小明得到的票数是“正正正正正”,小杨得到的票数是“正正正正丅”,小芳得到的票数是“正正正正”则最终选举的班长是() A. 小芳 B. 小杨 C. 小明 11.为了让学生全方位的发展,学校欲开放折纸课、航模课、阅读课,通过对学生的调查发现,学生对各课的喜爱程度分布如下:

生意参谋数据分析师考试题复习(三)

《生意参谋数据分析师》考试 1、 单选题 分值: 1 王家杂货铺的掌柜在复盘上月数据时发现客服小甲有12个咨询是没回复;如果小甲上个月总共有100个咨询量,那么他当时的回复率是多少? A: 0.12 B: 0.58 C: 0.82 D: 0.88 答案解析:"参考章节:店铺客服转化率诊断本题考点:客服回复率答案解析:客服回复率是指客服对于咨询他的客户进行回复的百分占比,如果有100个咨询量,其中12个没有回复,那么回复率就是(10 0-12)/100=88%" 2、 单选题 分值: 1 小芳根据数据分析发现主推宝贝标题里很多关键词没有带来访客数和转化率,于是想要替换这些关键词,她应该替换什么关键词进去? A: 从生意参谋的搜索词里面找到自己叶子类目的相关性强转化率高流量大的核心关键词,如果标题里没有的,就可以找出来替换进去。 B: 看看别人标题都用什么词,自己没有的,加进来 C: 加类目大词进来引流量 D: 选一些长尾词转化率高

答案解析:参考章节:快速优化标题提升手淘搜索流量本题考点:优质关键词寻找和标题优化答案解析:生意参谋—市场—搜索排行—搜索词里面找到自己叶子类目的相关性强转化率高流量大的核心关键词。 3、 单选题 分值: 1 小明是吹风机类目的商家,他想做类目趋势对比表,为此他需要收集近几年的相关数据作为参考? A: 近5年 B: 近4年 C: 近3年 D: 近2年 答案解析:参考章节:品类罗盘—商品年度规划(一)本题考点:市场趋势表格制作试题解析:在大数据的背景下,我们做类目数据对比时,会去抓取近3年子类目数据为参考维度。 4、 单选题 分值: 1 小明店铺的无线首页,模块1跳转店内爆款,每天点击量200,模块2跳转店内新品,每天点击量80;因为新品数据良好,有次爆款潜力,小明决定交换模块1和模块2跳转商品! A: 正确 B: 错误 答案解析:参考章节:页面效果如何提升?本题考点:页面数据分析答案解析:根据页面板块的点击数、点击率、转化率等数据来确定优化方向 5、 单选题 分值: 1 为了尽量减少花费,小李想选择免费方法实现新品破0 ;以下那种破0 方法不是免费的?

SQL数据库对于海量数据面试题及答案

本文整理和大家分享一些SQL数据库对于海量数据面试题及答案给大家,很不错哦,喜欢请收藏一下。 1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 s 遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为)中。这样每个小文件的大约为300M。 s 遍历文件b,采取和a相同的方式将url分别存储到1000各小文件(记为)。这样处理后,所有可能相同的url都在对应的小文件()中,不对应的小文件不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。 s 求每对小文件中相同的url时,可以把其中一个小文件的url存储到hash_set中。然后遍历另一个小文件的每个url,看其是否在刚才构建的hash_set中,如果是,那么就是共同的url,存到文件里面就可以了。 方案2:如果允许有一定的错误率,可以使用Bloom filter,4G内存大概可以表示340亿bit。将其中一个文件中的url使用Bloom filter映射为这340亿bit,然后挨个读取另外一个文件的url,检查是否与Bloom filter,如果是,那么该url应该是共同的url(注意会有一定的错误率)。 2. 有10个文件,每个文件1G,每个文件的每一行存放的都是用户的query,每个文件的query 都可能重复。要求你按照query的频度排序。 方案1: s 顺序读取10个文件,按照hash(query)%10的结果将query写入到另外10个文件(记为)中。这样新生成的文件每个的大小大约也1G(假设hash函数是随机的)。 s 找一台内存在2G左右的机器,依次对用hash_map(query, query_count)来统计每个query 出现的次数。利用快速/堆/归并排序按照出现次数进行排序。将排序好的query和对应的query_cout输出到文件中。这样得到了10个排好序的文件(记为)。 s 对这10个文件进行归并排序(内排序与外排序相结合)。 方案2: 一般query的总量是有限的,只是重复的次数比较多而已,可能对于所有的query,一次性就可以加入到内存了。这样,我们就可以采用trie树/hash_map等直接来统计每个query出现的次数,然后按出现次数做快速/堆/归并排序就可以了。

相关文档
最新文档