定型数据分析习题答案

定型数据分析习题答案
定型数据分析习题答案

作业中的一些错误情况

1:解题过程不完整,没有明确指出所检验的假设和检验统计量。 2:算错检验统计量的值,或算错检验的p 值。

(P27Ex2)

解法一:总体总共分3类,要检验顾客是否对这三种肉食的喜好程度相同,这是一个分布的拟合优度检验问题。

(1)要检验的原假设为 0H :顾客对这三种肉食的喜好程度相同,

即要检验0H :顾客对这三种肉食的喜好程度的分布为?

??

?? ??31313

1羊肉牛肉猪肉,

(2)取检验统计量

∑=-=3

1

02

2)(i i i i np np n χ,检验分布为)13(2

-χ;

(3)题中200=n ,3,2,1,3

200

0==

i np i ,则检验统计量的值为(计算过程略) 73.153

200)320074(3200)320041(3200)320085(2

222≈-+-+-=χ

(4)计算P 值为: 05.0000384.0)73.15)2((2

<≈≥=χP p 值,

故在水平05.0=α下拒绝0H ,即调查数据不符合该均匀分布.

解法二(采用似然比检验+p 值形式)

(1)要检验的原假设为 0H :顾客对这三种肉食的喜好程度相同,

即要检验0H :顾客对这三种肉食的喜好程度的分布为?

??

?? ??31313

1羊肉牛肉猪肉,

(2)选取似然比检验统计量

∑∑==-=-=Λ-=r

i i i i r

i i i i n np

n n n p n G 10102

ln 2ln 2ln 2,检验分布为)1(2-r χ;

(3)题中200=n ,3,2,1,3

200

0==

i np i ,则检验统计量的值为(计算过程略)

88.16ln

23

1

2

≈=-=∑= i i

i i n np n G (4)计算P 值为: 05.000022.0)88.16)2((2

<≈≥=χP p 值,

故在水平05.0=α下拒绝0H ,即

顾客对这三种肉食的喜好程度的分布不是均匀分布.

注:若显著性水平取05.0=α,则临界值为99.5)2()13(2

95.02

05.01≈=--χχ。

(P27Ex3)

解法一:总体总共分10类,这是一个分布的拟合优度检验问题。 (1)要检验的原假设为:学生对这十门课的选择没有倾向性,

即要检验0H :学生选择这十门课的人数分布为?

??

?? ??10110101210

11课程课程课程 , (2)取检验统计量∑=-=10

1

02

02

)(i i i i np np n χ,检验分布为)110(2

-χ;

(3)题中800=n ,10,,1,8010

800

0 ===i np i ,则检验统计量的值为(计算过程略)

125.580

)8091(80)8074(2

22

=-++-= χ

(4)计算P 值为: 05.0823.0)125.5)9((2

>≈≥=χP p 值,

故在水平05.0=α下不能拒绝0H ,即认为学生对这十门课的选择没有倾向性.

解法二(采用似然比检验+ p 值形式)

(1)要检验的原假设为:学生对这十门课的选择没有倾向性,

即要检验0H :学生选择这十门课的人数分布为???

?? ??10110101210

11课程课程课程 。

(2)选取似然比检验统计量

∑∑==-=-=Λ-=10

1010

102

ln 2ln 2ln 2i i i i i i i i n np

n n n p n G ,检验分布为)110(2-χ;

(3)题中800=n ,10,,1,8010

800

0 ===i np i ,则检验统计量的值为(计算过程略)

017.5ln

210

1

2

≈=-=∑= i i

i i n np n G (4)计算P 值为: 05.0833.0)017.5)9((2

>≈≥=χP p 值,

故在水平05.0=α下不能拒绝0H ,即认为学生对这十门课的选择没有倾向性.

注:若采用拒绝域法,临界值为92.16)9()110(2

95.02

05.01≈=--χχ。

(P27Ex4)

解法一:(采用卡方拟合优度检验法+拒绝域形式) (一)

总体总共分3类,这是一个不含未知参数的分布检验问题。 (1)要检验的原假设为

0H :股票投资的盈亏分布为????

??7.02.01.0亏持平盈,

统计得到的频数分别为1697,1780,2129。

(2)取检验统计量

∑=-=3

1

2

2?)?(i i i

i p n p n n χ,拒绝域为)}13({212-≥-αχχ,

(3)对显著性水平05.0=α,临界值为99.)2(2

95.05=χ,

(4)题中5606=n ,则检验统计量的值为

99.596.35112

.3924)2.39242129(2.1121)2.11211780(6.560)6.5601697(2222

>≈-+-+-=χ

故在水平05.0=α下拒绝0H ,即调查数据不符合该偏好分布.

(二)

总体总共分3类,这是一个不含未知参数的分布检验问题。 (1)要检验的原假设仍为

0H :股票投资的盈亏分布为?

??

?

??7.02.01.0亏持平盈, 统计得到的频数分别为151+122,240,517+240。

(2)取检验统计量

∑=-=3

1

22?)?(i i i

i p n p n n χ,拒绝域为)}13({212-≥-αχχ,

(3)对显著性水平05.0=α,临界值为991.5)2(2

95.0=χ,

(4)题中5606=n ,则检验统计量的值为

991.52.188889

)889757(254)254240(127)127273(2222

>≈-+-+-=χ

故在水平05.0=α下拒绝0H ,即调查数据不符合该偏好分布.

解法二:(采用似然比检验法+拒绝域形式) (一)

总体总共分3类,这是一个不含未知参数的分布检验问题。 (1)要检验的原假设为

0H :股票投资的盈亏分布为????

??7.02.01.0亏持平盈,

统计得到的频数分别为1697,1780,2129。

(2)选取似然比检验统计量∑∑==-=-=Λ-=3

1

3

102

ln 2ln 2ln 2i i i i i i i i n np n n

n p n G ,

检验分布为)13(2-χ,拒绝域为)}2({2

12αχ-≥G

(3)对显著性水平05.0=α,临界值为991.5)2(2

95.0=χ, (4)题中5606=n ,则检验统计量的值为

991.59.28002129

2

.3924ln 212917802.1121ln 178016976.560ln 169722>≈++-=)(G

故在水平05.0=α下拒绝0H ,即调查数据不符合该偏好分布.

(二)

总体总共分3类,这是一个不含未知参数的分布检验问题。 (1)要检验的原假设仍为

0H :股票投资的盈亏分布为????

??7.02.01.0亏持平盈,

统计得到的频数分别为273,240,757。

(2)选取似然比检验统计量∑∑==-=-=Λ-=3

1

3

102

ln 2ln 2ln 2i i i i i i i i n np n n

n p n G ,

检验分布为)13(2-χ,拒绝域为)}2({2

12αχ-≥G

(3)对显著性水平05.0=α,临界值为991.5)2(2

95.0=χ, (4)题中5606=n ,则检验统计量的值为

991.53.147757

889

ln 757240254ln 240273127ln 27322>≈++-=)(G

故在水平05.0=α下拒绝0H ,即调查数据不符合该偏好分布.

注1:有同学混淆了两种解法(卡方拟合优度检验法与似然比检验法)的记号与称呼。

注2:本题中两种方法得到的检验统计量的值相差很大。

(P28Ex5)

解法一:(卡方拟合优度检验)

总体总共分3类,分布中有1个未知参数,这是一个含参数的分布检验问题。 (1)要检验的原假设为

0H :红、白、粉红色花的分布为?

??

?

??pq q p 222粉红白红,其中1=+q p 。 (2)先在0H 为真时,似然函数为

1

0,)1(2)1(2)2()(13210860222232313321<<-=-==++p p p p p pq q p p L n n n n n n n n 取对数得

)1ln(132)ln(1082ln 60)(ln p p p L -++=

求关于p 的导数,并令之为0得对数似然方程为:

0132)1(10801132

108=--?=--p p p

p

解得p 的极大似然估计值为20

9

240108?=

=p

(3)算出0H 的分布列中

321,,p p p 的极大似然估计值

400

81

??21==p p

; 400

121

)2011()?1(?222==-=p p ;

200

99

20112092)?1(?2?3==-=p p p

(4)取检验统计量

∑=-=3

1

2

2?)?(i i i

i p n p n n χ,拒绝域为)}113({212--≥-αχχ,

(5)对显著性水平05.0=α,临界值为 3.84146)1(2

95.0=χ, (6)题中120=n ,,4.59200

99

120?,3.36400121120?,3.2440081120?321=?==?==?=p n p n p n ,

则检验统计量的值为

84.301224.04

.59)4.5960(3.36)3.3636(3.24)3.2424(2

222

<≈-+-+-=χ

故在水平05.0=α下不能拒绝0H ,即调查数据符合该偏好分布.

注:有同学误认为检验的临界值为991.5)2(2

95.0=χ。

解法二:(采用似然比检验) (1) (2) (3)步骤同上。 (4)算出无假定条件下诸

i p 的极大似然估计:

2.012024~11===n n p ,

3.012036~222===n n p ,5.0120

60~33===n n p ,

(5)选取似然比检验统计量

∑=-=Λ-=3

1

2

~?ln 2ln 2i i i i p p

n G ,拒绝域为)}1()113({21212ααχχ--=--≥G ,

(6)对显著性水平05.0=α,临界值为 3.84146)1(2

95.0=χ,

(7)则检验统计量的值为

01225

.0)5.020099

ln 603.0400121ln 362.040081ln 24(2~?ln 2ln 23

1

2

≈++-=-=Λ-=∑=i i i i p p n G

故在水平05.0=α下不能拒绝0H ,即调查数据符合该偏好分布.

注:p 值05.091.0)01225.0)1((2>≈≥χP

(P28Ex6)

解法一:(卡方拟合优度检验)

总体总共分4类,分布中有2个参数,这是一个含参数的分布拟合检验问题。 (1)要检验的原假设为

0H :人的血型分布为???

? ??

++pq qr q pr p r AB B A O 222222”型“”型“”型“”型“,其中1=++r q p

(2)先在0H 为真时,算出似然函数

58

1322436

2748

222)

()2()

2()()2()2(),,(4

321pq qr q pr p r

pq qr q pr p r r q p L n n n n ++=++=

在约束条件

1=++r q p 下,取r p q --=1,化似然函数为无约束二元函数:

58132224362748))1(())1(()2(),(r p p r p pr p r r p L ----+=

取对数得

))

1(ln(58))1ln((132)2ln(436ln 748),(ln 222r p p r p pr p r r p L --+--+++=注意到用微分法很难求出极大似然估计值的精确解,我们考虑近似计算。 首先由“O ”型和“B ”型两类的矩估计算出参数向量),(r p 的初始估计:

???≈≈??????≈=-≈=??????=--=2887.0?6116.0?7113.0506.0?16116.0374.0?132.0?)?1(374.0?222p r p

r

r p r 然后参照课本25页利用EXCEL 算得),(r p 的极大似然估计值

??

?≈≈611379.0?288632.0?r

p

(3)算出诸

r

p p ,

,1 的极大似然估计值

0.373784611379.0??2

21≈≈=r p

0.436236611379.0288632.02288632.0??2??2

22≈??+≈+=r p p p

0.132********.0)288632.01(?)?1(?2

2223≈--≈--=r p p

0.05772)611379.0288632.01(288632.02)??1(?2?4≈--??≈--=r p p p

且在0H 为真时,对数似然函数的最大值为-1162.1971)?,?(ln ≈r p

L 。

(4)取检验统计量

∑=-=4

1

2

2?)?(i i i

i p n p n n χ,拒绝域为)}214({212--≥-αχχ,

(5)对显著性水平05.0=α,临界值为 3.84146)1(2

95.0=χ,

(6)题中1000=n ,72.5705772.01000?,,784.373373784.01000?41=?==?=p n p

n , 则检验统计量的值为(计算过程略)

84.3002121.072

.57)72.5758(78.373)78.373374(222

<≈-++-= χ

故在水平05.0=α下不能拒绝0H ,即调查数据符合该偏好分布.

解法二:(采用似然比检验) (1) (2) (3)步骤同上。 (4)算出无假定条件下诸

i p 的极大似然估计:

数据分析基础测试题含答案

数据分析基础测试题含答案 一、选择题 1.已知一组数据a,b,c的平均数为5,方差为4,那么数据a﹣2,b﹣2,c﹣2的平均数和方差分别是.() A.3,2 B.3,4 C.5,2 D.5,4 【答案】B 【解析】 试题分析:平均数为(a?2 + b?2 + c?2 )=(3×5-6)=3;原来的方差: ;新的方差: ,故选 B. 考点:平均数;方差. 2.甲、乙、丙三个不同品种的苹果树在同一地区进行对比试验,从每个品种的苹果树中随机各抽取10棵,对它们的产量进行统计,绘制统计表如下: 品种甲乙丙 平均产量/(千克/棵)9090 方差10.224.88.5 若从这三个品种中选择一个在该地区推广,则应选择的品种是() A.甲B.乙C.丙D.甲、乙中任选一个【答案】A 【解析】 【分析】 根据平均数、方差等数据的进行判断即可. 【详解】 根据平均数、方差等数据的比较可以得出甲品种更适在该地区推广. 故选:A 【点睛】 本题考查了平均数、方差,掌握平均数、方差的定义是解题的关键. 3.某射击俱乐部将11名成员在某次射击训练中取得的成绩制成如图所示的条形统计图,由图可知,11名成员射击成绩的众数和中位数分别是()

A.8,9 B.8,8 C.8,10 D.9,8 【答案】B 【解析】 分析:中位数,因图中是按从小到大的顺序排列的,所以只要找出最中间的一个数(或最中间的两个数)即可,本题是最中间的那个数;对于众数可由条形统计图中出现频数最大或条形最高的数据写出. 详解:由条形统计图知8环的人数最多, 所以众数为8环, 由于共有11个数据, 所以中位数为第6个数据,即中位数为8环, 故选B. 点睛:本题主要考查了确定一组数据的中位数和众数的能力.注意找中位数的时候一定要先排好顺序,然后再根据奇数和偶数个来确定中位数,如果数据有奇数个,则正中间的数字即为所求.如果是偶数个,则找中间两个数的平均数. 4.已知一组数据a、b、c的平均数为5,方差为4,那么数据a+2、b+2、c+2的平均数和方差分别为() A.7,6 B.7,4 C.5,4 D.以上都不对 【答案】B 【解析】 【分析】 根据数据a,b,c的平均数为5可知a+b+c=5×3,据此可得出1 3 (-2+b-2+c-2)的值;再由 方差为4可得出数据a-2,b-2,c-2的方差. 【详解】 解:∵数据a,b,c的平均数为5,∴a+b+c=5×3=15, ∴1 3 (a-2+b-2+c-2)=3, ∴数据a-2,b-2,c-2的平均数是3;∵数据a,b,c的方差为4, ∴1 3 [(a-5)2+(b-5)2+(c-5)2]=4,

《数据分析》练习题

《数据分析》练习题 1.一个地区某月前两周从星期一到星期五各天的最低气温依次是(单位:℃):x 1, x 2, x 3, x 4, x 5和x 1+1, x 2+2, x 3+3, x 4+4, x 5+5,若第一周这五天的平均最低气温为7℃,则第二周这五天的平均最低气温为 。 2.有10个数据的平均数为12,另有20个数据的平均数为15,那么所有这30个数据的平均数是( ) A .12 B. 15 C. 1 3.5 D. 14 3.一组数据8,8,x ,6的众数与平均数相同,那么这组数据的中位数是 ( ) A. 6 B. 8 C.7 D. 10 4.某校在一次考试中,甲乙两班学生的数学成绩统计如下: 请根据表格提供的信息回答下列问题: (1)甲班众数为 分,乙班众数为 分,从众数看成绩较好的是 班; (2)甲班的中位数是 分,乙班的中位数是 分; (3)若成绩在80分以上为优秀,则成绩较好的是 班;、 (4)甲班的平均成绩是 分,乙班的平均成绩是 分,从平均分看成绩较好的是 班. 5.在方差的计算公式 ()()()222 21210120202010 s x x x ??= -+-+???+-??中, 数字10和20分别表示的意义可以是( ) A .数据的个数和方差 B .平均数和数据的个数 C .数据的个数和平均数 D .数据组的方差和平均数 6..如果将所给定的数据组中的每个数都减去一个非零常数,那么该数组的 ( ) A.平均数改变,方差不变 B.平均数改变,方差改变 C.平均输不变,方差改变 D.平均数不变,方差不变 7..已知7,4,3,,321x x x 的平均数是6,则_____________321=++x x x . 8..已知一组数据-3,-2,1,3,6,x 的中位数为1,则其方差为 . 9..已知一组数据x 1,x 2,x 3,x 4,x 5的平均数是2,方差是 3 1 ,那么另一组数据3x 1-2,3x 2-2,3x 3-2, 3x 4-2,3x 5-2的平均数是和方差分别是 . 10..关于一组数据的平均数、中位数、众数,下列说法中正确的是( ) A.平均数一定是这组数中的某个数 B. 中位数一定是这组数中的某个数 C.众数一定是这组数中的某个数 D.以上说法都不对 分数 50 60 70 80 90 100 人数 甲 1 6 12 11 15 5 乙 3 5 15 3 13 11

求动点的轨迹方程方法例题习题答案

求动点的轨迹方程(例题,习题与答案) 在中学数学教学和高考数学考试中,求动点轨迹的方程和曲线的方程是一个难 点和重点内容(求轨迹方程和求曲线方程的区别主要在于:求轨迹方程时,题目中 没有直接告知轨迹的形状类型;而求曲线的方程时,题目中明确告知动点轨迹的形 状类型)。求动点轨迹方程的常用方法有:直接法、定义法、相关点法、参数法与 交轨法等;求曲线的方程常用“待定系数法”。 求动点轨迹的常用方法 动点P 的轨迹方程是指点P 的坐标(x, y )满足的关系式。 1. 直接法 (1)依题意,列出动点满足的几何等量关系; (2)将几何等量关系转化为点的坐标满足的代数方程。 例题 已知直角坐标平面上点Q (2,0)和圆C :122=+y x ,动点M 到圆C 的切线长等与MQ ,求动点M 的轨迹方程,说明它表示什么曲线. 解:设动点M(x,y),直线MN 切圆C 于N 。 依题意:MN MQ =,即22MN MQ = 而222NO MO MN -=,所以 (x-2)2+y 2=x 2+y 2-1 化简得:x=45 。动点M 的轨迹是一条直线。 2. 定义法 分析图形的几何性质得出动点所满足的几何条件,由动点满足的几何条件可以判断出动点 的轨迹满足圆(或椭圆、双曲线、抛物线)的定义。依题意求出曲线的相关参数,进一步写出 轨迹方程。 例题:动圆M 过定点P (-4,0),且与圆C :082 2=-+x y x 相切,求动圆圆心M 的轨迹 方程。 解:设M(x,y),动圆M的半径为r 。 若圆M 与圆C 相外切,则有 ∣M C ∣=r +4 若圆M 与圆C 相内切,则有 ∣M C ∣=r-4 而∣M P ∣=r, 所以 ∣M C ∣-∣M P ∣=±4 动点M 到两定点P(-4,0),C(4,0)的距离差的绝对值为4,所以动点M 的轨迹为双曲线。其中a=2, c=4。 动点的轨迹方程为: 3. 相关点法 若动点P(x ,y)随已知曲线上的点Q(x 0,y 0)的变动而变动,且x 0、y 0可用x 、y 表示,则 将Q 点坐标表达式代入已知曲线方程,即得点P 的轨迹方程。这种方法称为相关点法。

数据分析与处理答案

数据分析与处理答案 Prepared on 24 November 2020

一、简答题(5×2分, 共10分) 1、请解释质量控制图中三条主要控制线的意义:CL 、UCL 、LCL 未学,不考 2、请解释正交设计表“L 934” 这个符号所指代的意义。如果要做6因素4水平实验,应该选择以下哪一个正交表(不考虑交互作用):L 1645,L 3249 L: 正交; 9:9行或9次实验; 3:3个水平 ; 4:4列或4个因素 选L 3249 二、计算题(90分) 1、某分析人员分别进行4次平行测定,得铅含量分别是、、、、,试分别用3s 法、Dixon 法和Grubbs 检验法判断是否为离群值。(,4=, ,5=)(12分) x =, s=, 3s 法:∣ 应保留 Dixon :70.6360.08 0.89671.8560.08 Q -= =-> ,5=, 应舍去 Grubbs: G 计= 60.0868.455/5.61-=> ,4,应舍去· ·· 2、4次测定结果为:%、%、%、%,根据这些数据估计此样品中铬的含量范围(P=95%)(8分) ( 2.353%903,10.0=?=t P , 3.182%9530.05=?=,t P , 5.841%9930.01=?=,t P ) x =%, s=% 3、用一种新方法测定标准试样中的氧化铁含量(%),得到以下8个数 据:、、、、、、、。标准偏差为%,标准值为%问这种新方法是否可靠(P=95%,,7=)(10分)

x = 34.3034.33 1.770.048 t -==< ,7,所以新方法可靠 4、某小组做加标回收试验考查方法的准确性,测得加标前1000mL 样品浓度为L ,加入浓度为1000mg/L 的标准样品后,测得样品总浓度为L ,求回收率是多少。(8分) 没讲,不考 5、两分析人员测定某试样中铁的含量,得到如下结果: 已知A 的标准偏差s 1=,B 的标准偏差s 2=,请比较两个人测定结果的精密度和准确的有无显着性差异。(12分) F (,4,4)=, t (,8)= F==< F (,4,4),故精密度无显着性差异 t=< t (,8),故准确度无显着性差异 5. 拟考察茶多酚浓度、浸泡时间、维生素C 等3个因素对米粉保鲜效果的影响,实验因素水平表如下表。 请完成下列正交表格,并指出各因素的主次顺序,求出最优水平组合,并做方差分析,填方差分析表,并对实验结果做出讨论(可结合因素指标变化图)。(25分)

数据分析期末试题及答案

数据分析期末试题及答案 一、人口现状.sav数据中是1992年亚洲各国家和地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)的数据,试用多元回归分析的方法分析各国家和地区平均寿命与人均GDP、成人识字率、一岁儿童疫苗接种率的关系。(25分) 解: 1.通过分别绘制地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间散点图初步分析他们之间的关系 上图是以人均GDP(x1)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系。尝试多种模型后采用曲线估计,得出 表示地区平均寿命(y)与人均GDP(x1)的对数有线性关系

上图是以成人识字率(x2)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间基本呈正线性关系。 上图是以疫苗接种率(x3)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系 。 x)为横轴,地区平均寿命(y)为纵轴的散点图,上图是以疫苗接种率(x3)的三次方(3 3 由图可知,他们之间呈正线性关系 所以可以采用如下的线性回归方法分析。

2.线性回归 先用强行进入的方式建立如下线性方程 设Y=β0+β1*(Xi1)+β2*Xi2+β3* X+εi i=1.2 (24) 3i 其中εi(i=1.2……22)相互独立,都服从正态分布N(0,σ^2)且假设其等于方差 R值为0.952,大于0.8,表示两变量间有较强的线性关系。且表示平均寿命(y)的95.2%的信息能由人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)一起表示出来。 建立总体性的假设检验 提出假设检验H0:β1=β2=β3=0,H1,:其中至少有一个非零 得如下方差分析表 上表是方差分析SAS输出结果。由表知,采用的是F分布,F=58.190,对应的检验概率P值是0.000.,小于显著性水平0.05,拒绝原假设,表示总体性假设检验通过了,平均寿命(y)与人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间有高度显著的的线性回归关系。

数据分析(梅长林)习题

第五章习题 1.习题 解:假定两总体服从正态分布,且协方差矩阵21∑=∑,误判损失相同又先验概 即:0.4285711=P 0.5714292=P 又计算可得: (1)(2)25.31622.025,2.416 1.187x x ????==--???????? 并且:-2.38145ln =S 计算广义平方距离函数: 2()1 ()()()()ln 2ln j T j j j j j d p -=--+-x x x S x x S 并计算后验概率: 2 2 2 ??0.5()0.5()1 ?(|)e e j k d d j k P G --==∑x x x 1,2j = 回代判别结果如下:

由此可见误判的回代估计: 0.07141/14* ==r P 若按照交叉确认法,定义广义平方距离如下: 2()1() ()()()()()()()ln 2ln j j j T j j x x x x j d p -=--+-x x x S x x S 逐个剔除, 交叉判别,后验概率按下式计算: 2 2 2 ??0.5()0.5()1 ?(|)e e j k d d j k P G --==∑x x x 1,2j = 通过SAS 计算得到表所示结果。发现同样也是属于G1的4号被误判为G2,因此误判率的交 叉确认估计为* ?1/140.0714c p ==

*121p p p ΦΦ?? =+- ?? ? 其中(1) (2)1(1)(2)?()()T λ -=--x x S x x =, 2 1(1|2)ln (2|1)c p d c p =,又因为(1|2)(2|1)c c c ==,所以288.0ln 1 2==P P d , 最后可得后验概率p 为: 习题 解:(1)在21∑≠∑并且先验概率相同的的假设前提下,建立矩离判别的线性判别函数。利用SAS 的proc discrim 过程首先计算得到总体的协方差矩阵,如表:

动点例题解析及答案

初中数学动点问题及练习题附参考答案 所谓“动点型问题”是指题设图形中存在一个或多个动点,它们在线段、射线或弧线上运动的一类开放性题目.解决这类问题的关键是动中求静,灵活运用有关数学知识解决问题. 关键:动中求静. 数学思想:分类思想函数思想方程思想数形结合思想转化思想 注重对几何图形运动变化能力的考查。 从变换的角度和运动变化来研究三角形、四边形、函数图像等图形,通过“对称、动点的运动”等研究手段和方法,来探索与发现图形性质及图形变化,在解题过程中渗透空间观念和合情推理。选择基本的几何图形,让学生经历探索的过程,以能力立意,考查学生的自主探究能力,促进培养学生解决问题的能力.图形在动点的运动过程中观察图形的变化情况,需要理解图形在不同位置的情况,才能做好计算推理的过程。在变化中找到不变的性质是解决数学“动点”探究题的基本思路,这也是动态几何数学问题中最核心的数学本质。 二期课改后数学卷中的数学压轴性题正逐步转向数形结合、动态几何、动手操作、实验探究等方向发展.这些压轴题题型繁多、题意创新,目的是考察学生的分析问题、解决问题的能力,内容包括空间观念、应用意识、推理能力等.从数学思想的层面上讲:(1)运动观点;(2)方程思想;(3)数形结合思想;(4)分类思想;(5)转化思想等.研究历年来各区的压轴性试题,就能找到今年中考数学试题的热点的形成和命题的动向,它有利于我们教师在教学中研究对策,把握方向.只的这样,才能更好的培养学生解题素养,在素质教育的背景下更明确地体现课程标准的导向.本文拟就压轴题的题型背景和区分度测量点的存在性和区分度小题处理手法提出自己的观点. 专题一:建立动点问题的函数解析式 函数揭示了运动变化过程中量与量之间的变化规律,是初中数学的重要内容.动点问题反映的是一种函数思想,由于某一个点或某图形的有条件地运动变化,引起未知量与已知量间的一种变化关系,这种变化关系就是动点问题中的函数关系.那么,我们怎样建立这种函数解析式呢?下面结合中考试题举例分析. 一、应用勾股定理建立函数解析式。 二、应用比例式建立函数解析式。 三、应用求图形面积的方法建立函数关系式。 专题二:动态几何型压轴题 动态几何特点----问题背景是特殊图形,考查问题也是特殊图形,所以要把握好一般与特殊的关系;分析过程中,特别要关注图形的特性(特殊角、特殊图形的性质、图形的特殊位置。)动点问题一直是中考热点,近几年考查探究运动中的特殊性:等腰三角形、直角三角形、相似三角形、平行四边形、梯形、特殊角或其三角函数、线段或面积的最值。下面就此问题的常见题型作简单介绍,解题方法、关键给以点拨。 一、以动态几何为主线的压轴题。 (一)点动问题。(二)线动问题。(三)面动问题。 二、解决动态几何问题的常见方法有: 1、特殊探路,一般推证。 2、动手实践,操作确认。 3、建立联系,计算说明。

数据分析专项训练及解析答案

数据分析专项训练及解析答案 一、选择题 1.分析题中数据,将15名运动员的成绩按从小到大的顺序依次排列,处在中间位置的一个数即为运动员跳高成绩的中位数; 2.对于一组统计数据:1,1,4,1,3,下列说法中错误的是() A.中位数是1 B.众数是1 C.平均数是1.5 D.方差是1.6 【答案】C 【解析】 【分析】 将数据从小到大排列,再根据中位数、众数、平均数及方差的定义依次计算可得答案.【详解】 解:将数据重新排列为:1、1、1、3、4, 则这组数据的中位数1,A选项正确; 众数是1,B选项正确; 平均数为11134 5 ++++ =2,C选项错误; 方差为1 5 ×[(1﹣2)2×3+(3﹣2)2+(4﹣2)2]=1.6,D选项正确; 故选:C. 【点睛】 本题主要考查中位数、众数、平均数及方差,解题的关键是掌握中位数、众数、平均数及方差的定义与计算公式. 3.有甲、乙两种糖果,原价分别为每千克a元和b元.根据调查,将两种糖果按甲种糖果x千克与乙种糖果y千克的比例混合,取得了较好的销售效果.现在糖果价格有了调整:甲种糖果单价下降15%,乙种糖果单价上涨20%,但按原比例混合的糖果单价恰好不 变,则x y 等于() A.3 4 a b B. 4 3 a b C. 3 4 b a D. 4 3 b a 【答案】D 【解析】 【分析】 根据已知条件表示出价格变化前后两种糖果的平均价格,进而得出等式求出即可.【详解】 解:∵甲、乙两种糖果,原价分别为每千克a元和b元, 两种糖果按甲种糖果x千克与乙种糖果y千克的比例混合,

∴两种糖果的平均价格为:ax by x y + + , ∵甲种糖果单价下降15%,乙种糖果单价上涨20%, ∴两种糖果的平均价格为: 1520 (1)(1) 100100 a x b y x y -?++ + , ∵按原比例混合的糖果单价恰好不变, ∴ax by x y + + = 1520 (1)(1) 100100 a x b y x y -?++ + , 整理,得15ax=20by ∴ 4 3 x b y a =, 故选:D. 【点睛】 本题考查了加权平均数,解决本题的关键是表示出价格变化前后两种糖果的平均价格.4.某青年排球队12名队员的年龄情况如下: 则12名队员的年龄() A.众数是20岁,中位数是19岁B.众数是19岁,中位数是19岁 C.众数是19岁,中位数是20.5岁D.众数是19岁,中位数是20岁 【答案】D 【解析】 【分析】 中位数是指将统计总体当中的各个变量值按大小顺序排列起来,形成一个数列,处于变量数列中间位置的变量值就称为中位数;众数是指在统计分布上具有明显集中趋势点的数值,代表数据的一般水平(众数可以不存在或多于一个). 【详解】 解:在这一组数据中19岁是出现次数最多的,故众数是19岁;将这组数据从小到大的顺序排列后,处于中间位置的数是20岁,那么由中位数的定义可知,这组数据中的中位数是20岁.故选:D. 【点睛】 理解中位数和众数的定义是解题的关键.

第2章 数据分析(梅长林)习题题答案

第2章 习 题 一、习题 (1)回归模型 15,2,1,22110 =+++=i x x y i i i i εβββ 调用proc reg : ] 由此输出得到的回归方程为: 2100920.049600.045261.3X X y ++=∧ 由最后一列可以看出,使用化妆品的人数X1和月收入X2对化妆品的销售数量有着显著影响。46521.30=∧ β可以理解为该化妆品作为一种必需品每个月的销售量。当购买该化妆品的人数固定时,月收入没增加一个一个单位,改化妆品的销售数量将增加个单位。同理,当购买该化妆品的人均月收入固定时,购买该化妆品的人数每增加一千人,该化妆品的销售数量将增加个单位。 p n SSE -= ∧2 σ 是2σ的无偏估计,所以2σ的估计值是. (2)调用 由此可到线性回归关系显著性检验: 0至少有一个为0:2,1:1210ββββH H ?==

的统计量/(1)/()SSR p MSR F SSE n p MSE -= =-的观测值47.56790=F ,检验的p 值 0001.0)(000<>==F F p p H 另外9989.053902 53845 2=== SST SSR R ,2R 描述了由自由变量的线性关系函数值所能反映的Y 的总变化量的比例。2R 越大,表明线性关系越明显。这些结果均表明Y 与X1,X2之间的回归关系高度显著。 (3)若置信水平05.0=α,由17881.2)12(975.0=t ,利用参数估计值得 到21,0,βββ的置信区间分别为: 对,0β2942.54516.343065.21781.245216.3±=?±,即)7458.8,8426.1(-) 对1β:01318.049600.000605.01781.249600.0±=?±,即)50198.0,48282.0( ) 2β:0021 .000920.00009681.01781.200920.0±=?±,即)00113.0,0071.0(- (4)首先检验X1对Y 是否有显著性影: 假设其约简模型为:15,2, 1,220 =++=i x y i i i εββ 由观测数据并利用proc reg 过程拟合此模型求得: 88137.484)(=R SSE 13215=-=R f 88357.56)(=F SSE 12315=-=R f 由[()()]() ()/R F F SSE R SSE F f f F SSE F f --= 求得检验统计量的值为: 3 .9012/88357.5688357 .5688137.4840=-= F 05.0))13,1(()(0000<>==>==F F P F F p p H 由此拒绝原假设,所以x2对Y 有显著影响。 ~ 同理检验X2对Y 是否有显著性影: 假设其约简模型为:15,2, 1,110 =++=i x y i i i εββ 由观测数据并利用proc reg 过程拟合此模型求得: 31872)(=R SSE 13215=-=R f 88357.56)(=F SSE 12315=-=R f 由[()()]() ()/R F F SSE R SSE F f f F SSE F f --= 求得检验统计量的值为: 12/88357.5688357.56318720-= F 05.0))13,1(()(0000<>==>==F F P F F p p H 由此拒绝原假设,所以x2对Y 有显著影响。

动点问题中的最值、最短路径问题(解析版)

专题01 动点问题中的最值、最短路径问题 动点问题是初中数学阶段的难点,它贯穿于整个初中数学,自数轴起始,至几何图形的存在性、几何 图形的长度及面积的最值,函数的综合类题目,无不包含其中. 其中尤以几何图形的长度及面积的最值、最短路径问题的求解最为繁琐且灵活多变,而其中又有一些 技巧性很强的数学思想(转化思想),本专题以几个基本的知识点为经,以历年来中考真题为纬,由浅入深探讨此类题目的求解技巧及方法. 一、基础知识点综述 1. 两点之间,线段最短; 2. 垂线段最短; 3. 若A 、B 是平面直角坐标系内两定点,P 是某直线上一动点,当P 、A 、B 在一条直线上时,PA PB 最大,最大值为线段AB 的长(如下图所示); (1)单动点模型 作图方法:作已知点关于动点所在直线的对称点,连接成线段与动点所在直线的交点即为所求点的位 置. 如下图所示,P 是x 轴上一动点,求PA +PB 的最小值的作图.

(2)双动点模型 P 是∠AOB 内一点,M 、N 分别是边OA 、OB 上动点,求作△PMN 周长最小值. 作图方法:作已知点P 关于动点所在直线OA 、OB 的对称点P ’、P ’’,连接P ’P ’’与动点所在直线的交点 M 、N 即为所求. O B P P' P''M N 5. 二次函数的最大(小)值 ()2 y a x h k =-+,当a >0时,y 有最小值k ;当a <0时,y 有最大值k . 二、主要思想方法 利用勾股定理、三角函数、相似性质等转化为以上基本图形解答. (详见精品例题解析) 三、精品例题解析 例1. (2019·凉山州)如图,正方形ABCD 中,AB =12,AE =3,点P 在BC 上运动(不与B 、C 重合),过点P 作PQ ⊥EP ,交CD 于点Q ,则CQ 的最大值为 例2. (2019·凉山州)如图,已知A 、B 两点的坐标分别为(8,0),(0,8). 点C 、F 分别是直线x =-5 和x 轴上的动点,CF =10,点D 是线段CF 的中点,连接AD 交y 轴于点E ,当△ABE 面积取最小值时,tan ∠BAD =( )

(专题精选)初中数学数据分析真题汇编及答案

(专题精选)初中数学数据分析真题汇编及答案 一、选择题 1.校团委组织开展“医助武汉捐款”活动,小慧所在的九年级(1)班共40名同学进行了捐款,已知该班同学捐款的平均金额为10元,二小慧捐款11元,下列说法错误的是( ) A.10元是该班同学捐款金额的平均水平B.班上比小慧捐款金额多的人数可能超过20人 C.班上捐款金额的中位数一定是10元D.班上捐款金额数据的众数不一定是10元【答案】C 【解析】 【分析】 根据平均数,中位数及众数的定义依次判断. 【详解】 ∵该班同学捐款的平均金额为10元, ∴10元是该班同学捐款金额的平均水平,故A正确; ∵九年级(1)班共40名同学进行了捐款,捐款的平均金额为10元, ∴班上比小慧捐款金额多的人数可能超过20人,故B正确; 班上捐款金额的中位数不一定是10元,故C错误; 班上捐款金额数据的众数不一定是10元,故D正确, 故选:C. 【点睛】 此题考查数据统计中的平均数,中位数及众数的定义,正确理解定义是解题的关键. 2.已知一组数据a、b、c的平均数为5,方差为4,那么数据a+2、b+2、c+2的平均数和方差分别为() A.7,6 B.7,4 C.5,4 D.以上都不对 【答案】B 【解析】 【分析】 根据数据a,b,c的平均数为5可知a+b+c=5×3,据此可得出1 3 (-2+b-2+c-2)的值;再由 方差为4可得出数据a-2,b-2,c-2的方差. 【详解】 解:∵数据a,b,c的平均数为5,∴a+b+c=5×3=15, ∴1 3 (a-2+b-2+c-2)=3, ∴数据a-2,b-2,c-2的平均数是3;∵数据a,b,c的方差为4, ∴1 3 [(a-5)2+(b-5)2+(c-5)2]=4,

圆的动点问题--经典习题及答案

圆的动点问题 25.(本题满分14分,第(1)小题4分,第(2)小题5分,第(3)小题5分) 已知:在Rt ABC △中,∠ACB =90°,BC =6,AC =8,过点A 作直线MN ⊥AC ,点E 是直线 MN 上的一个动点, (1)如图1,如果点E 是射线AM 上的一个动点(不与点A 重合),联结CE 交AB 于点P .若 AE 为x ,AP 为y ,求y 关于x 的函数解析式,并写出它的定义域; (2) 在射线AM 上是否存在一点E ,使以点E 、A 、P 组成的三角形与△ABC 相似,若存在求 AE 的长,若不存在,请说明理由; (3)如图2,过点B 作BD ⊥MN ,垂足为D ,以点C 为圆心,若以AC 为半径的⊙C 与以ED 为半径的⊙E 相切,求⊙E 的半径. A B C P E M 第25题图1 D A B C M 第25题图2 N

25.(本题满分14分,第(1)小题6分,第(2)小题2分,第(3)小题6分) 在半径为4的⊙O 中,点C 是以AB 为直径的半圆的中点,OD ⊥AC ,垂足为D ,点E 是射线AB 上的任意一点,DF //AB ,DF 与CE 相交于点F ,设EF =x ,DF =y . (1) 如图1,当点E 在射线OB 上时,求y 关于x 的函数解析式,并写出函数定义域; (2) 如图2,当点F 在⊙O 上时,求线段DF 的长; (3) 如果以点E 为圆心、EF 为半径的圆与⊙O 相切,求线段DF 的长. A B E F C D O A B E F C D O

25.如图,在半径为5的⊙O中,点A、B在⊙O上,∠AOB=90°,点C是弧AB上的一个动点,AC与OB的延长线相交于点D,设AC=x,BD=y. (1)求y关于x的函数解析式,并写出它的定义域; (2)如果⊙O1与⊙O相交于点A、C,且⊙O1与⊙O的圆心距为2,当BD=OB时,求⊙O1 的半径; (3)是否存在点C,使得△DCB∽△DOC?如果存在,请证明;如果不存在,请简要说明理由.

第三章 误差和分析数据的处理作业及答案(1)

第三章 误差和分析数据的处理 作业及答案 一、选择题(每题只有1个正确答案) 1. 用加热挥发法测定BaCl 2·2H 2O 中结晶水的质量分数时,使用万分之一的分析天平称样0.5000g ,问测定结果应以几位有效数字报出?( D ) [ D ] A. 一位 B. 二位 C .三位 D. 四位 2. 按照有效数字修约规则25.4507保留三位有效数字应为( B )。 [ B ] A. 25.4 B. 25.5 C. 25.0 D. 25.6 3. 在定量分析中,精密度与准确度之间的关系是( C )。 [ C ] A. 精密度高,准确度必然高 B. 准确度高,精密度不一定高 C. 精密度是保证准确度的前提 D. 准确度是保证精密度的前提 4. 以下关于随机误差的叙述正确的是( B )。 [ B ] A. 大小误差出现的概率相等 B. 正负误差出现的概率相等 C. 正误差出现的概率大于负误差 D. 负误差出现的概率大于正误差 5. 可用下列何种方法减免分析测试中的随机误差( D )。 [ D ] A. 对照实验 B. 空白实验 C. 仪器校正 D. 增加平行实验的次数 6. 在进行样品称量时,由于汽车经过天平室附近引起天平震动产生的误差属于( B )。 [ B ] A. 系统误差 B. 随机误差 C. 过失误差 D. 操作误差 7. 下列表述中,最能说明随机误差小的是( A )。 [ A ] A. 高精密度 B. 与已知含量的试样多次分析结果的平均值一致 C. 标准偏差大 D. 仔细校正所用砝码和容量仪器 8. 对置信区间的正确理解是( B )。 [ B ] A. 一定置信度下以真值为中心包括测定平均值的区间 B. 一定置信度下以测定平均值为中心包括真值的范围 C. 真值落在某一可靠区间的概率 D. 一定置信度下以真值为中心的可靠范围 9. 有一组测定数据,其总体标准偏差σ未知,要检验得到这组分析数据的分析方法是否准确可靠,应该用( C )。 [ C ] A. Q 检验法 B. G(格鲁布斯)检验法 C. t 检验法 D. F 检验法 答:t 检验法用于测量平均值与标准值之间是否存在显著性差异的检验------准确度检验 F 检验法用于两组测量内部是否存在显著性差异的检验-----精密度检验 10 某组分的质量分数按下式计算:10 ???= m M V c w 样,若c =0.1020±0.0001,V=30.02±0.02, M=50.00±0.01,m =0.2020±0.0001,则对w 样的误差来说( A )。 [ A ] A. 由“c ”项引入的最大 B. 由“V ”项引入的最大

定性数据分析第二章课后答案资料

定性数据分析第二章 课后答案

第二章课后作业 【第1题】 解:由题可知消费者对糖果颜色的偏好情况(即糖果颜色的概率分布),调查 者取500块糖果作为研究对象,则以消费者对糖果颜色的偏好作为依据,500块糖果的颜色分布如下表1.1所示: 表1.1 理论上糖果的各颜色数 由题知r=6,n=500,我们假设这些数据与消费者对糖果颜色的偏好分布是相符,所以我们进行以下假设: 原假设::0H 类i A 所占的比例为)6,...,1(0==i p p i i 其中i A 为对应的糖果颜色,)6,...,1(0=i p i 已知,16 10=∑=i i p 则2χ检验的计算过程如下表所示: 在这里6=r 。检验的p 值等于自由度为5的2χ变量大于等于18.0567的概率。在Excel 中输入“)5,0567.18(chidist =”,得出对应的p 值为

05.00028762.0<<=p ,故拒绝原假设,即这些数据与消费者对糖果颜色的偏好 分布不相符。 【第2题】 解:由题可知 ,r=3,n=200,假设顾客对这三种肉食的喜好程度相同,即顾 客选择这三种肉食的概率是相同的。所以我们可以进行以下假设: 原假设 )3,2,1(3 1 :0==i p H i 则2χ检验的计算过程如下表所示: 在这里3=r 。检验的p 值等于自由度为2的2χ变量大于等于15.72921的概率。在Excel 中输入“)2,72921.15(chidist =”,得出对应的p 值为 05.00003841.0<<=p ,故拒绝原假设,即认为顾客对这三种肉食的喜好程度是 不相同的。 【第3题】 解:由题可知 ,r=10,n=800,假设学生对这些课程的选择没有倾向性,即选 各门课的人数的比例相同,则十门课程每门课程被选择的概率都相等。所以我们可以进行以下假设: 原假设)10,...,2,1(1.0:0==i p H i 则2χ检验的计算过程如下表所示:

中考动点问题专题 教师讲义带答案

中考动点型问题专题 一、中考专题诠释 所谓“动点型问题”是指题设图形中存在一个或多个动点,它们在线段、射线或弧线上运动的一类开放性题目.解决这类问题的关键是动中求静,灵活运用有关数学知识解决问题. “动点型问题”题型繁多、题意创新,考察学生的分析问题、解决问题的能力,内容包括空间观念、应用意识、推理能力等,是近几年中考题的热点和难点。 二、解题策略和解法精讲 解决动点问题的关键是“动中求静”. 从变换的角度和运动变化来研究三角形、四边形、函数图像等图形,通过“对称、动点的运动”等研究手段和方法,来探索与发现图形性质及图形变化,在解题过程中渗透空间观念和合情推理。在动点的运动过程中观察图形的变化情况,理解图形在不同位置的情况,做好计算推理的过程。在变化中找到不变的性质是解决数学“动点”探究题的基本思路,这也是动态几何数学问题中最核心的数学本质。 三、中考考点精讲 考点一:建立动点问题的函数解析式(或函数图像) 函数揭示了运动变化过程中量与量之间的变化规律,是初中数学的重要内容.动点问题反映的是一种函数思想,由于某一个点或某图形的有条件地运动变化,引起未知量与已知量间的一种变化关系,这种变化关系就是动点问题中的函数关系.例1 (2015?兰州)如图,动点P从点A出发,沿线段AB运动至点B后,立即按原路返回,点P在运动过程中速度不变,则以点B为圆心,线段BP长为半

径的圆的面积S与点P的运动时间t的函数图象大致为() A.B.C.D. 思路分析:分析动点P的运动过程,采用定量分析手段,求出S与t的函数关系式,根据关系式可以得出结论. 解:不妨设线段AB长度为1个单位,点P的运动速度为1个单位,则: (1)当点P在A→B段运动时,PB=1-t,S=π(1-t)2(0≤t<1); (2)当点P在B→A段运动时,PB=t-1,S=π(t-1)2(1≤t≤2). 综上,整个运动过程中,S与t的函数关系式为:S=π(t-1)2(0≤t≤2), 这是一个二次函数,其图象为开口向上的一段抛物线.结合题中各选项,只有B 符合要求. 故选B. 点评:本题结合动点问题考查了二次函数的图象.解题过程中求出了函数关系式,这是定量的分析方法,适用于本题,如果仅仅用定性分析方法则难以作出正确选择. 对应训练 1.(2015?白银)如图,⊙O的圆心在定角∠α(0°<α<180°)的角平分线上运动,且⊙O与∠α的两边相切,图中阴影部分的面积S关于⊙O的半径r(r>0)变化的函数图象大致是() A.B.C.D.

数据分析师常见的7道笔试题目及答案

数据分析师常见的7道笔试题目及答案 导读:探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证实或证伪。以下是由小编为您整理推荐的实用的应聘笔试题目和经验,欢迎参考阅读。 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map 进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的IP 中,找出那个频率最大的IP,即为所求。 或者如下阐述: 算法思想:分而治之+Hash 地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理; 2.可以考虑采用“分而治之”的思想,按照IP地址的Hash(IP)24值,把海量IP 日志分别存储到1024个小文件中。这样,每个小文件最多包含4MB个IP地址; 3.对于每一个小文件,可以构建一个IP为key,出现次数为value的Hash map,同时记录当前出现次数最多的那个IP地址; 4.可以得到1024个小文件中的出现次数最多的IP,再依据常规的排序算法得到总体上出现次数最多的IP; 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。 假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就是越热门。),请你统计最热门的10个查询串,要求使用的内存不能超过1G。 典型的Top K算法,还是在这篇文章里头有所阐述, 文中,给出的最终算法是: 第一步、先对这批海量数据预处理,在O(N)的时间内用Hash表完成统计(之前写成了排序,特此订正。July、第二步、借助堆这个数据结构,找出Top K,时间复杂度为N‘logK。 即,借助堆结构,我们可以在log量级的时间内查找和调整/移动。因此,维护一个K(该题目中是10)大小的小根堆,然后遍历300万的Query,分别和根元素进行对比所以,我们最终的时间复杂度是:O(N) + N’*O(logK),(N为1000万,N’为300万)。ok,更多,详情,请参考原文。 或者:采用trie树,关键字域存该查询串出现的次数,没有出现为0。最后用10个元素的最小推来对出现频率进行排序。 3、有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。 方案:顺序读文件中,对于每个词x,取hash(x)P00,然后按照该值存到5000个小文件(记为x0,x1,…x4999)中。这样每个文件大概是200k左右。 如果其中的有的文件超过了1M大小,还可以按照类似的方法继续往下分,直到分解得到的小文件的大小都不超过1M。 对每个小文件,统计每个文件中出现的词以及相应的频率(可以采用trie树 /hash_map等),并取出出现频率最大的100个词(可以用含 100 个结点的最小堆),并把100

最新初中数学数据分析经典测试题附答案

最新初中数学数据分析经典测试题附答案 一、选择题 1.已知一组数据a,b,c的平均数为5,方差为4,那么数据a﹣2,b﹣2,c﹣2的平均数和方差分别是.() A.3,2 B.3,4 C.5,2 D.5,4 【答案】B 【解析】 试题分析:平均数为(a?2 + b?2 + c?2 )=(3×5-6)=3;原来的方差: ;新的方差: ,故选 B. 考点:平均数;方差. 2.已知一组数据a、b、c的平均数为5,方差为4,那么数据a+2、b+2、c+2的平均数和方差分别为() A.7,6 B.7,4 C.5,4 D.以上都不对 【答案】B 【解析】 【分析】 根据数据a,b,c的平均数为5可知a+b+c=5×3,据此可得出1 3 (-2+b-2+c-2)的值;再由 方差为4可得出数据a-2,b-2,c-2的方差. 【详解】 解:∵数据a,b,c的平均数为5,∴a+b+c=5×3=15, ∴1 3 (a-2+b-2+c-2)=3, ∴数据a-2,b-2,c-2的平均数是3;∵数据a,b,c的方差为4, ∴1 3 [(a-5)2+(b-5)2+(c-5)2]=4, ∴a-2,b-2,c-2的方差=1 3 [(a-2-3)2+(b-2-3)2+(c--2-3)2] = 1 3 [(a-5)2+(b-5)2+(c-5)2]=4, 故选B.【点睛】

本题考查了平均数、方差,熟练掌握平均数以及方差的计算公式是解题的关键. 3.对于一组统计数据:1,1,4,1,3,下列说法中错误的是() A.中位数是1 B.众数是1 C.平均数是1.5 D.方差是1.6 【答案】C 【解析】 【分析】 将数据从小到大排列,再根据中位数、众数、平均数及方差的定义依次计算可得答案.【详解】 解:将数据重新排列为:1、1、1、3、4, 则这组数据的中位数1,A选项正确; 众数是1,B选项正确; 平均数为11134 5 ++++ =2,C选项错误; 方差为1 5 ×[(1﹣2)2×3+(3﹣2)2+(4﹣2)2]=1.6,D选项正确; 故选:C. 【点睛】 本题主要考查中位数、众数、平均数及方差,解题的关键是掌握中位数、众数、平均数及方差的定义与计算公式. 4.2022年将在北京﹣﹣张家口举办冬季奥运会,很多学校为此开设了相关的课程,下表记录了某校4名同学短道速滑成绩的平均数x和方差S2,根据表中数据,要选一名成绩好又发挥稳定的运动员参加比赛,应选择() A.队员1 B.队员2 C.队员3 D.队员4 【答案】B 【解析】 【分析】 根据方差的意义先比较出4名同学短道速滑成绩的稳定性,再根据平均数的意义即可求出答案.

(完整版)Excel数据分析课后测试答案

Excel数据分析 单选题 ?1、数据透视表被形象地形容为企业经营管理中的什么部分?(10 分) ?A 血液 ?B 骨架 ?C 皮肤 ?D 肌肉 正确答案:A ?2、需要选择整张报表进行透视表计算时,可以怎样操作?(10 分) ?A Ctrl+a快选整张表格 ?B 鼠标在最左行,变为黑色箭头时可以全选行 ?C 鼠标移动至报表内部可自动选择整张报表 正确答案:C ?3、在数据透视表中,需要对某一字段进行对比分析时,应将该数据放在哪类标签中更便利? (10 分)

?A 报表筛选 ?B 列标签 ?C 行标签 ?D 西格玛数值(∑) 正确答案:B ?4、需要为单元格中的信息添加单位时,在设置单元格选项卡中,选择哪个功能项操作?(10 分) ?A 常规 ?B 文本 ?C 特殊 ?D 自定义 正确答案:D ?5、需要为数据进行比重分析时,选择值字段设置中的哪个选项?(10 分) ?A

值汇总方式 ?B 值显示方式 正确答案:B ?6、如何对汇总表中的单个数据进行核查操作?(10 分) ?A 在原明细表中生成新的汇总数据 ?B 双击该单元格查看对应汇总数据 ?C 以上方法都可以 正确答案:C ?7、汇总表中的标题字段可以自定义吗?(10 分) ?A 可以 ?B 不可以 正确答案:A 多选题 ?1、创建数据透视表的方式?(10 分) A 创建一个新工作表,点击“数据透视表”,选择一个表或区域

B 创建一个新工作表,点击“数据透视表”,选择外部数据源 C 点选明细表中有效单元格,再点击“数据透视表”选项 D 点选明细表中任意单元格,再点击“数据透视表”选项 正确答案:B C 判断题 ?1、数据透视表是Excel中一种交互式的工作表,可以根据用户的需要按照不同关键字段来提取组织和分析数据。(10 分) ?A 正确 ?B 错误 正确答案:正确 ?2、汇总表中的数据如果需要修正时,不可以直接更改,必须返回原明细表修改对应的原始数据。(10分) ?A 正确 ?B 错误 正确答案:正确

相关文档
最新文档