2020版高中数学 第三章 统计案例 3.2 独立性检验的基本思想及其初步应用学案 新人教A版选修2-3

2020版高中数学 第三章 统计案例 3.2 独立性检验的基本思想及其初步应用学案 新人教A版选修2-3
2020版高中数学 第三章 统计案例 3.2 独立性检验的基本思想及其初步应用学案 新人教A版选修2-3

§3.2 独立性检验的基本思想及其初步应用

学习目标 1.了解分类变量的意义.2.了解2×2列联表的意义.3.了解随机变量K 2

的意义.4.通过对典型案例分析,了解独立性检验的基本思想和方法.

知识点一 分类变量及2×2列联表

思考 山东省教育厅大力推行素质教育,增加了高中生的课外活动时间,某校调查了学生的课外活动方式,结果整理成下表:

体育 文娱 合计 男生 210 230 440 女生 60 290 350 合计

270

520

790

如何判定“喜欢体育还是文娱与性别是否有联系”?

答案 可通过表格与图形进行直观分析,也可通过统计分析定量判断. 梳理 (1)分类变量

变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量. (2)列联表

①定义:列出的两个分类变量的频数表,称为列联表. ②2×2列联表

一般地,假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(也称为2×2列联表)为下表.

y 1 y 2 总计

x 1 a b a +b x 2

c d c +d 总计

a +c

b +d

a +

b +

c +d

知识点二 等高条形图

1.与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.

2.如果通过直接计算或等高条形图发现a

a +

b 和

c

c +d

相差很大,就判断两个分类变量之间有关系.

知识点三 独立性检验

1.定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.

2.K2=n(ad-bc)2

(a+b)(c+d)(a+c)(b+d)

,其中n=a+b+c+d为样本容量.

3.独立性检验的具体做法

(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.

(2)利用公式计算随机变量K2的观测值k.

(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.

1.列联表中的数据是两个分类变量的频数.( √)

2.事件A与B的独立性检验无关,即两个事件互不影响.( ×)

3.K2的大小是判断事件A与B是否相关的统计量.( √)

类型一等高条形图的应用

例1 为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:

组别阳性数阴性数总计

铅中毒病人29736

对照组92837

总计383573

试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?

考点定性分析的两类方法

题点利用图形定性分析

解等高条形图如图所示:

其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.

由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.

反思与感悟在等高条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例

a

a+b

,也可以估

计满足条件X=x2的个体中具有Y=y1的个体所占的比例c

c+d

.两个比例的值相差越大,X与Y有关系成立的可能性就越大.

跟踪训练1 网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1 000人调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格.利用图形判断学生经常上网与学习成绩有关吗?

考点定性分析的两类方法

题点利用图形定性分析

解根据题目所给的数据得到如下2×2列联表:

经常上网不经常上网总计

不及格80120200

及格120680800

总计200800 1 000

得出等高条形图如图所示:

比较图中阴影部分的高可以发现经常上网不及格的频率明显高于经常上网及格的频率,因此可以认为经常上网与学习成绩有关.

类型二独立性检验

例2 某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:

喜欢甜品不喜欢甜品合计

南方学生602080

北方学生101020

合计7030100

根据表中数据,问是否在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.

考点独立性检验及其基本思想

题点独立性检验的方法

解 将2×2列联表中的数据代入公式计算,得

K 2

的观测值k =n (ad -bc )2

(a +b )(c +d )(a +c )(b +d )

=100×(60×10-20×10)2

70×30×80×20

100

21

≈4.762. 因为4.762>3.841,所以在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.

反思与感悟 (1)独立性检验的关注点

在2×2列联表中,如果两个分类变量没有关系,则应满足ad -bc ≈0,因此|ad -bc |越小,关系越弱;|ad -bc |越大,关系越强. (2)独立性检验的具体做法

①根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界α,然后查表确定临界值k 0.

②利用公式K 2

=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )

计算随机变量K 2的观测值k .

③如果k ≥k 0,推断“X 与Y 有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够的证据支持结论“X 与Y 有关系”. 跟踪训练2 某省进行高中新课程改革已经四年了,为了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.

(1)根据以上数据建立一个2×2列联表;

(2)判断是否有99%的把握说明对新课程教学模式的赞同情况与教师年龄有关系. 考点 独立性检验及其基本思想 题点 独立性检验的方法 解 (1)2×2列联表如下所示:

(2)假设“对新课程教学模式的赞同情况与教师年龄无关”. 由公式得K 2

=50×(10×6-24×10)

2

34×16×20×30

≈4.963<6.635,

所以没有99%的把握认为对新课程教学模式的赞同情况与教师年龄有关. 类型三 独立性检验的综合应用

例3 (2017·全国Ⅱ改编)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如图:

(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;

(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关.

箱产量<50 kg箱产量≥50 kg

旧养殖法

新养殖法

附:

P(K2≥k0)0.0500.0100.001

k0 3.841 6.63510.828

K2=n(ad-bc)2

(a+b)(c+d)(a+c)(b+d)

.

考点独立性检验思想的应用

题点分类变量与统计、概率的综合性问题

解(1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”,

由P (A )=P (BC )=P (B )P (C ),

则旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P (B )的估计值为0.62,

新养殖法的箱产量不低于50 kg 的频率为(0.068+0.046+0.010+0.008)×5=0.66, 故P (C )的估计值为0.66,

则事件A 的概率估计值为P (A )=P (B )P (C )=0.62×0.66=0.409 2, ∴A 发生的概率为0.409 2.

(2)根据箱产量的频率分布直方图得到列联表:

则K 2

=200×(62×66-38×34)

2

100×100×96×104

≈15.705,

由15.705>6.635,

故有99%的把握认为箱产量与养殖方法有关. 反思与感悟 两个分类变量相关关系的判断

(1)等高条形图法:在等高条形图中,可以估计满足条件X =x 1的个体中具有Y =y 1的个体所占的比例a

a +b

,也可

以估计满足条件X =x 2的个体中具有Y =y 1的个体所占的比例c

c +d

.两个比例的值相差越大,X 与Y 有关系成立的

可能性就越大.

(2)观测值法:通过2×2列联表,先计算K 2

的观测值k ,然后借助k 的含义判断“两个分类变量有关系”这一结论成立的可信程度.

跟踪训练3 为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查得到了如下的2×2列联表:

已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为2

3.

(1)请将上面的2×2列联表补充完整(不用写计算过程);

(2)能否在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关?说明你的理由;

(3)现从女生中抽取2人进一步调查,设其中喜爱打篮球的女生人数为X ,求X 的分布列与均值. 考点 独立性检验思想的应用

题点 分类变量与统计、概率的综合性问题 解 (1)列联表补充如下:

喜爱打篮球

不喜爱打篮球

合计 男生 22 6 28 女生 10 10 20 合计

32

16

48

(2)由K 2

=48×(220-60)

2

28×20×32×16

≈4.286.

因为4.286>3.841,所以,能在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关. (3)喜爱打篮球的女生人数X 的可能取值为0,1,2. 其概率分别为 P (X =0)=C 2

10C 220=9

38,

P (X =1)=C 1

10C 110C 220=10

19,

P (X =2)=C 210C 220=9

38,

故X 的分布列为

X 0 1 2 P

938

1019

938

X 的均值为E (X )=0+1019+919

=1.

1.某机构调查中学生的近视情况,了解到某校150名男生中有80名近视,140名女生中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( ) A .平均数 B .方差 C .回归分析 D .独立性检验 考点 独立性检验及其基本思想 题点 独立性检验的思想 答案 D

2.对于分类变量X 与Y 的随机变量K 2

的观测值k ,下列说法正确的是( )

A.k越大,“X与Y有关系”的可信程度越小

B.k越小,“X与Y有关系”的可信程度越小

C.k越接近于0,“X与Y没有关系”的可信程度越小

D.k越大,“X与Y没有关系”的可信程度越大

考点独立性检验及其基本思想

题点独立性检验的思想

答案 B

解析k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,k越小,“X与Y有关系”的可信程度越小.

3.用等高条形图粗略估计两个分类变量是否相关,观察下列各图,其中两个分类变量关系最强的是( )

考点定性分析的两类方法

题点利用图形定性分析

答案 D

解析由等高条形图易知,D选项两个分类变量关系最强.

4.若在研究吸烟与患肺癌的关系中,通过收集、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的是( )

A.100个吸烟者中至少有99人患有肺癌

B.1个人吸烟,那么这个人有99%的概率患有肺癌

C.在100个吸烟者中一定有患肺癌的人

D.在100个吸烟者中可能一个患肺癌的人也没有

考点独立性检验及其基本思想

题点独立性检验的方法

答案 D

解析独立性检验的结论是一个统计量,统计的结果只是说明事件发生的可能性的大小,具体到一个个体,则不一定发生.

5.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据.

总成绩好 总成绩不好 总计 数学成绩好 478 a

490 数学成绩不好

399

24

423 总计

b c

913

(1)计算a ,b ,c 的值;

(2)文科学生总成绩不好与数学成绩不好有关系吗? 考点 独立性检验及其基本思想 题点 独立性检验的方法

解 (1)由478+a =490,得a =12. 由a +24=c ,得c =12+24=36. 由b +c =913,得b =913-36=877. (2)计算随机变量K 2

的观测值

k =913×(478×24-399×12)2

490×423×877×36≈6.233>5.024,

因为P (K 2

≥5.024)≈0.025,

所以在犯错误的概率不超过0.025的前提下,认为文科学生总成绩不好与数学成绩不好有关系.

1.列联表与等高条形图

列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有相关关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有相关关系. 2.对独立性检验思想的理解

独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K 2

的值,如果K 2

的值很大,说明假设不合理.K 2

越大,两个分类变量有关系的可能性越大.

一、选择题

1.下面是一个2×2列联表:

y 1 y 2

总计 x 1 a

21 73 x 2

8

25 33 总计

b

46

106

则表中a ,b 的值分别为( ) A .94,96 B .52,50 C .52,60

D .54,52

考点 分类变量与列联表 题点 求列联表中的数据 答案 C

2.为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,经计算得K 2

=7.01,则认为“喜欢乡村音乐与性别有关系”的把握约为( ) A .0.1% B .1% C .99% D .99.9% 考点 独立性检验及其基本思想 题点 独立性检验的方法 答案 C

解析 易知K 2

=7.01>6.635,对照临界值表知,有99%的把握认为喜欢乡村音乐与性别有关系.

3.在独立性检验中,两个分类变量“X 与Y 有关系”的可信度为99%,则随机变量K 2

的观测值k 的取值范围是( ) A .[3.841,5.024) B .[5.024,6.635) C .[6.635,7.879) D .[7.879,10.828)

考点 分类变量与列联表 题点 求观测值 答案 C

4.高二第二学期期中考试,按照甲、乙两个班学生的数学成绩优秀和及格统计人数后,得到如下列联表:

则随机变量K 2

的观测值约为( ) A .0.600 B .0.828 C .2.712

D .6.004

考点 分类变量与列联表 题点 求观测值 答案 A

解析 根据列联表中的数据,可得随机变量K 2

的观测值k =90×(11×37-34×8)2

45×45×19×71

≈0.600.故选A.

5.在2×2列联表中,两个比值相差越大,两个分类变量有关系的可能性就越大,那么这两个比值为( )

A.a a +b 与

c c +

d B.a c +d 与

c a +b C.

a

a +d 与

c

b +c

D.

a

b +d 与

c

a +c

考点 定性分析的两类方法 题点 利用图形定性分析 答案 A 解析 由题意,??

????a a +b -c c +d =??????ac +ad -ac -bc (a +b )(c +d )=????

?

?ad -bc (a +b )(c +d ),因为|ad -bc |的值越大,两个分类变量有

关系的可能性就越大,故选A.

6.有两个分类变量X ,Y ,其列联表如下所示,

其中a,15-a 均为大于5的整数,若在犯错误的概率不超过0.05的前提下认为X ,Y 有关,则a 的值为( ) A .8 B .9 C .8或9

D .6或8

考点 分类变量与列联表 题点 求列联表中的数据 答案 C

解析 根据公式,得K 2

的观测值 k =65×[a (30+a )-(15-a )(20-a )]2

20×45×15×50

=13×(13a -60)2

20×45×3×2

>3.841,根据a >5且15-a >5, a ∈Z ,求得当a =8或9时满足题意.

7.某班主任对全班50名学生进行了作业量的调查,数据如下表:

则推断“学生的性别与认为作业量大有关”这种推断犯错误的概率不超过( ) A .0.01 B .0.025 C .0.005 D .0.001 考点 独立性检验及其基本思想 题点 独立性检验的方法

答案 B

解析 由公式得K 2

的观测值k =50×(18×15-8×9)2

26×24×27×23

≈5.059>5.024.∵P (K 2

≥5.024)=0.025,∴犯错误的概率不

超过0.025. 二、填空题

8.在吸烟与患肺病是否相关的判断中,有下面的说法:①若K 2

的观测值k >6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;

②从独立性检验可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;

③从独立性检验可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.

其中说法正确的是________. 考点 独立性检验及其基本思想 题点 独立性检验的思想 答案 ③

解析 K 2

是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说法③正确. 9.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体数据如下表:

为了判断主修统计专业是否与性别有关系,根据表中的数据,得到K 2

=50×(13×20-10×7)2

23×27×20×30

≈4.844,因为

K 2>3.841,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性最大为__________.

考点 独立性检验及其基本思想 题点 独立性检验的方法 答案 5%

解析 因为K 2

>3.841,所以有95%的把握认为主修统计专业与性别有关,出错的可能性为5%.

10.2014年世界杯期间,某一电视台对年龄高于40岁和不高于40岁的人是否喜欢西班牙队进行调查,对高于40岁的调查了50人,不高于40岁的调查了50人,所得数据制成如下列联表:

若工作人员从所有统计结果中任取一个,取到喜欢西班牙队的人的概率为3

5,则有超过________的把握认为年龄

与西班牙队的被喜欢程度有关.

附:K 2

=n (ad -bc )2

(a +b )(c +d )(a +c )(b +d )

.

考点 独立性检验及其基本思想 题点 独立性检验的方法 答案 95%

解析 设“从所有人中任意抽取一个,取到喜欢西班牙队的人”为事件A ,由已知得P (A )=q +35100

=3

5

所以q =25,p =25,a =40,b =60.

K 2

=100×(25×35-25×15)2

40×60×50×50=256

≈4.167>3.841.

故有超过95%的把握认为年龄与西班牙队的被喜欢程度有关. 三、解答题

11.研究人员选取170名青年男女大学生的样本,对他们进行一种心理测验.发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的有22名,否定的有38名;男生110名在相同的项目上作肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?分别用条形图和独立性检验的方法判断. 考点 定性分析的两类方法 题点 利用图形定性分析

解 建立性别与态度的2×2列联表如下:

根据列联表中所给的数据,可求出男生中作肯定态度的频率为

110=0.2,女生中作肯定态度的频率为22

60

≈0.37.作等高条形图如图,其中两个深色条形的高分别表示男生和女生中作肯定态度的频率,比较图中深色条形的高可以发现,女生中作肯定态度的频率明显高于男生中作肯定态度的频率,因此可以认为性别与态度有关系.

根据列联表中的数据得到K 2

的观测值k =170×(22×38-22×88)

2

110×60×44×126

≈5.622>5.024.

因此,在犯错误的概率不超过0.025的前提下认为性别和态度有关系.

12.某旅行社为调查市民喜欢“人文景观”景点是否与年龄有关,随机抽取了55名市民,得到数据如下表所示:

喜欢 不喜欢 合计 大于40岁 20 5 25 20岁至40岁

10 20 30 合计

30

25

55

(1)判断是否有99.5%的把握认为喜欢“人文景观”景点与年龄有关?

(2)用分层抽样的方法从喜欢“人文景观”景点的市民中随机抽取6人作进一步调查,将这6名市民作为一个样本,从中任选2人,求恰有1位大于40岁的市民和1位20岁至40岁的市民的概率. 考点 独立性检验思想的应用

题点 分类变量与统计、概率的综合性问题

解 (1)由公式K 2

=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )

得,观测值k ≈11.978>7.879,所以有99.5%以上的把握认为喜欢“人

文景观”景点与年龄有关.

(2)由题意知抽取的6人中大于40岁的市民有4个,20岁至40岁的市民有2个,分别记为B 1,B 2,B 3,B 4,C 1,

C 2,

从中任选2人的基本事件有(B 1,B 2),(B 1,B 3),(B 1,B 4),(B 1,C 1),(B 1,C 2),(B 2,B 3),(B 2,B 4),(B 2,C 1),(B 2,

C 2),(B 3,B 4),(B 3,C 1),(B 3,C 2),(B 4,C 1),(B 4,C 2),(C 1,C 2),共15个,其中恰有1位大于40岁的市民和1

位20岁至40岁的市民的事件有(B 1,C 1),(B 1,C 2),(B 2,C 1),(B 2,C 2),(B 3,C 1),(B 3,C 2),(B 4,C 1),(B 4,C 2),共8个,所以恰有1位大于40岁的市民和1位20岁至40岁的市民的概率为8

15.

四、探究与拓展

13.假设有两个分类变量X 和Y ,它们的值域分别为{x 1,x 2}和{y 1,y 2},其中2×2列联表为:

y 1 y 2 总计

x 1 a b a +b x 2

c d c +d 总计

a +c

b +d

a +

b +

c +d

对同一样本,以下数据能说明X 与Y 有关的可能性最大的一组是( ) A .a =5,b =4,c =3,d =2 B .a =5,b =3,c =4,d =2 C .a =2,b =3,c =4,d =5 D .a =3,b =2,c =4,d =5

考点 分类变量与列联表 题点 求列联表中的数据 答案 D

解析 对于同一样本,|ad -bc |越小,说明x 与y 相关性越弱,而|ad -bc |越大,说明x 与y 相关性越强,通过计算知,对于A ,B ,C 都有|ad -bc |=|10-12|=2.对于选项D ,有|ad -bc |=|15-8|=7,显然7>2. 14.2017年世界第一届轮滑运动会(the first edtion of Roller Games)在南京举行,为了搞好接待工作,组委会招募了16名男志愿者和14名女志愿者.调查发现,男、女志愿者分别有10人和6人喜爱轮滑,其余不喜爱.得到2×2列联表如下.

(1)根据2×2列联表,判断能否在犯错误的概率不超过0.10的前提下认为性别与喜爱轮滑有关? (2)从女志愿者中抽取2人参加接待工作,若其中喜爱轮滑的人数为ξ,求ξ的分布列和均值. 考点 独立性检验思想的应用

题点 独立性检验与线性回归方程、均值的综合应用

解 (1)假设:是否喜爱轮滑与性别无关.由已知数据可求得K 2

的观测值为 k =30×(10×8-6×6)2

16×14×16×14

≈1.157 5<2.706.

因此不能在犯错误的概率不超过0.10的前提下认为喜爱轮滑与性别有关. (2)喜爱轮滑的人数ξ的可能取值为0,1,2, 则P (ξ=0)=C 06C 2

8C 214=2891=4

13,

P (ξ=1)=C 16C 1

8C 214=48

91,

P (ξ=2)=C 26C 08C 214=15

91

.

所以喜爱轮滑的人数ξ的分布列为

4 13+1×

48

91

+2×

15

91

6

7

.

所以喜爱轮滑的人数ξ的均值为E(ξ)=0×

高中数学第三章统计案例3.1独立性检验假设检验(hypothesistesting素材苏教版选修2_3202012251102

假设检验(hypothesis testing) 方法演变:t检验、z检验、F检验、卡方检验,方差分析( ANOVA) ?概述 假设检验是分析数据的一种方法。回答此类问题:“随机发生的事件的概率是多少?”另一方面的问题是:“我们从数据中发现的结果是真的吗?”当问题是有关大的总体而只能得到总体的一个样本时用假设检验。这种方法被用来回答在质量改进中一系列重要的问题,如“我们在过程中所做的改变对产出创造了有意义的差别吗?”或”顾客对场地A的满意度是不是比其他场地高?” 最常用的检验是:z检验、t检验、F检验、卡方(χ2)检验和方差分析。这些检验和其他的检验都是基于均值、方差、比例及其他统计量所形成的具有常见模式的频率分布。最有名的分布就是正态分布,它是:检验的基础。t检验、F检验和卡方(χ2)检验是基于t分布、F分布和卡方分布。 ?适用场合 ·想知道一组或更多组数据的平均值、比例、方差或其他特征时; ·当结论是基于更大总体中所取得的样本时。 例如: ·想确定一个过程的均值或方差有否改变; ·想确定很多数据集的均值或方差是否不同: ·想确定两组不同的数据集的比例是否不同; ·想确定真正的比例、均值或方差是否和一个定值相等(或大于或小于)。 ?实施步骤 假设检验的步骤由三部分组成:理解要解决的问题并安排检验(以下步骤1~3);数字计算通常由计算机完成(步骤4和步骤5);应用数值结果到实际问题中(步骤6)。虽然计算机能处理数字,但理解假没检验隐含的观念对第1部分和第3部分至关重要。 如果第一次接触假设检验,那么从看“注意事项”中的术语和定义开始。这些定义解释了假设检验的慨念,然后再回来看这个步骤。 本书不可能详细地涉及假设检验。这个步骤是个综述和快速参考。要得到更多的信息,查阅统计学参考书或请教统计学家。 1确定要从数据中获得的结论。选择适当的检验方法。用哪种检验取决于检验的目的和数据的种类。可以用表5.7和表5.8概括的常用的假设检验,或者请教统计学家以得到帮助。 2建立零假设和备择假设。确定问题是属于双尾检验、左尾检验还是右尾检验。 3选择显著性水平。。 4计算检验统计量,可借助计算机软件。 5用统计分布的统计表或计算机程序等来确定检验统计量的P值。对于z检验可用表A.1正态曲线以下的曲线。 6把P值与左尾或右尾检验的α或者双尾检验的α/2作比较,如果P值较小,那么拒绝零假设并会得到备择假设可能正确的结论。否则,不能拒绝零假设,并得出没有足够证据支持备择假设的结论。 ?备择步骤 步骤1~4同上。然后: 5用统计表或计算机程序确定如下所示的检验统计量的临界值和拒绝域。以z检验作为示例,对t检验、F检验或卡方检验,用统计量f、F或χ2来替换z。 6比较检验统计量和拒绝域。如果检验统计量值落在拒绝域内,拒绝零假设,结论是备择假设可能止确。否则,不拒绝零假设,结论是没有足够的证据支持备择假设。 ?示例:t检验

人教版高中数学必修3知识点和练习题

人教版高中数学必修3知识点和练习题 第一章算法初步 1.1.1算法的概念 1、算法概念: 在数学上,现代意义上的“算法”通常是指可以用计算机来解决的某一类问题是程序或步骤,这些程序或步骤必须是明确和有效的,而且能够在有限步之内完成. 2. 算法的特点: (1)有限性:一个算法的步骤序列是有限的,必须在有限操作之后停止,不能是无限的. (2)确定性:算法中的每一步应该是确定的并且能有效地执行且得到确定的结果,而不应当是模棱两可. (3)顺序性与正确性:算法从初始步骤开始,分为若干明确的步骤,每一个步骤只能有一个确定的后继步骤,前一步是后一步的前提,只有执行完前一步才能进行下一步,并且每一步都准确无误,才能完成问题. (4)不唯一性:求解某一个问题的解法不一定是唯一的,对于一个问题可以有不同的算法. (5)普遍性:很多具体的问题,都可以设计合理的算法去解决,如心算、计算器计算都要经过有限、事先设计好的步骤加以解决. 1.1.2程序框图 1、程序框图基本概念: (一)程序构图的概念:程序框图又称流程图,是一种用规定的图形、指向线及文字说明来准确、直观地表示算法的图形。 一个程序框图包括以下几部分:表示相应操作的程序框;带箭头的流程线;程序框外必要文字说明。

(二)构成程序框的图形符号及其作用 学习这部分知识的时候,要掌握各个图形的形状、作用及使用规则,画程序框图的规则如下: 1、使用标准的图形符号。 2、框图一般按从上到下、从左到右的方向画。 3、除判断框外,大多数流程图符号只有一个进入点和一个退出点。判断框具有超过一个退出点的唯一符号。 4、判断框分两大类,一类判断框“是”与“否”两分支的判断,而且有且仅有两个结果;另一类是多分支判断,有几种不同的结果。 5、在图形符号内描述的语言要非常简练清楚。 (三)、算法的三种基本逻辑结构:顺序结构、条件结构、循环结构。 1、顺序结构:顺序结构是最简单的算法结构,语句与语句之间,框与框之间是按从上到下的顺序进行的,它是由若干个依次执行的处理步骤组成的,它是任何一个算法都离不开的一种基本算法结构。 顺序结构在程序框图中的体现就是用流程线将程序框自上而 下地连接起来,按顺序执行算法步骤。如在示意图中,A框和B

高中数学 专题 统计与统计案例

一、选择题 1.利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽出一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为( ) A .73 B .78 C .77 D .76 解析:样本的分段间隔为80 16=5,所以13号在第三组,则最大的编号为13+(16-3)×5 =78.故选B. 答案:B 2.某课外小组的同学们在社会实践活动中调查了20户家庭某月的用电量如下表所示: 则这20A .180,170 B .160,180 C .160,170 D .180,160 解析:用电量为180度的家庭最多,有8户,故这20户家庭该月用电量的众数是180,排除B ,C ;将用电量按从小到大的顺序排列后,处于最中间位置的两个数是160,180,故这20户家庭该月用电量的中位数是170.故选A. 答案:A 3.(2017·高考全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图,根据该折线图,下列结论错误的是( ) A .月接待游客量逐月增加 B .年接待游客量逐年增加 C .各年的月接待游客量高峰期大致在7,8月 D .各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳

解析:根据折线图可知,2014年8月到9月、2014年10月到11月等月接待游客量都在减少,所以A 错误.由图可知,B 、C 、D 正确. 答案:A 4.(2018·宝鸡质检)对一批产品的长度(单位:毫米)进行抽样检测,样本容量为200,如图为检测结果的频率分布直方图,根据产品标准,单件产品长度在区间[25,30)的为一等品,在区间[20,25)和[30,35)的为二等品,其余均为三等品,则该样本中三等品的件数为( ) A .5 B .7 C .10 D .50 解析:根据题中的频率分布直方图可知,三等品的频率为1-(0.050 0+0.062 5+0.037 5)×5=0.25,因此该样本中三等品的件数为200×0.25=50. 答案:D 5.(2018·兰州模拟)已知某种商品的广告费支出x (单位:万元)与销售额y (单位:万元)之间有如下对应数据: 根据表中提供的全部数据,用最小二乘法得出y 与x 的线性回归方程为y ^ =6.5x +17.5,则表中m 的值为( ) A .45 B .50 C .55 D .60 解析:∵x =2+4+5+6+8 5=5, y = 30+40+50+m +705=190+m 5 , ∴当x =5时,y =6.5×5+17.5=50, ∴190+m 5=50,解得m =60. 答案:D

高中数学第三章统计案例2独立性检验教学案北师大版选修2_3

§2独立性检验 [对应学生用书P40] 1.2×2列联表 设A ,B 为两个变量,每个变量都可以取两个值,变量A :A 1,A 2=A - 1;变量B :B 1,B 2 =B - 1,用下表表示抽样数据 并将此表称为2.χ2 的计算公式 χ2 = n ad -bc 2a +b c + d a +c b +d . 3.独立性判断的方法 (1)当χ2 ≤2.706时,没有充分的证据判定变量A ,B 有关联,可以认为变量A ,B 是没有关联的; (2)当χ2>2.706时,有90%的把握判定变量A ,B 有关联; (3)当χ2>3.841时,有95%的把握判定变量A ,B 有关联; (4)当χ2>6.635时,有99%的把握判定变量A ,B 有关联. (1)独立性检验是一种假设检验,在对总体的估计中,通过抽取样本,构造合适的统计量,对假设的正确性进行判断. (2)使用χ2统计量作2×2列联表的独立性检验时,一般要求表中的4个数据都大于5,数据越大,越能说明结果的普遍性. [对应学生用书P41]

[例1] 在调查的6名患有色盲,试作出性别与色盲的列联表. [思路点拨] 在2×2列联表中,共有两类变量,每一类变量都有两个不同的取值,然后出相应的数据,列表即可. [精解详析] 根据题目所给的数据作出如下的列联表: [一点通] 1.下面是一个2×2列联表:则表中a ,b 处的值分别为( ) A.32,40 B C .74,82 D .64,72 解析:a =53-21=32,b =a +8=40. 答案:A 2.某学校对高三学生作一项调查后发现:在平时的模拟考试中,性格内向的426名学生中有332名在考前心情紧张,性格外向的594名学生中在考前心情紧张的有213人.试作出2×2列联表. 解:列联表如下:

(新)高中数学第一章统计案例1_1独立性检验假设检验素材新人教B版选修1-21

假设检验 1、某厂生产的化纤纤度服从正态分布 )04.0,(2 μN 。某天测得25根纤维的纤度的均值39.1=x ,问与原设计的标准值1.40有无显著差异?(取05.0=α) 解 设厂生产的化纤纤度为X ,则总体)04.0,(~2μN X ,且总体方差2204.0=σ已 知。顾客提出要检验的假设为 40 .1:0=μH , 40.1:1≠μH 因为已知总体标准差04.0=σ,所以选用U 检验,且在0H 成立的条件下有 )1,0(~25 04.00 N X U μ-= 针对备择假设40.1:1≠μH ,拒绝域的形式可取为 } /{0 c n X U W >-= =σμ 为使犯第一类错误的概率不超过05.0=α,就要在40.10 =μ时,使临界值c 满足 ()05 .0=>c U P 成立。由此,在给定显著性水平05.0=α时,得到临界值为 96 .1975.02/1===-u u c α 故相应的拒绝域为

{} 96.1>=U W 利用来自总体的样本值求得 25 .125 /04.040.139.1-=-= u 即 975 .096.125.1u u =<= 成立。显然,样本未落在拒绝域内,因此在05.0=α水平上认为纤维的纤度与原设计的标准值1.40没有显著差异。 2、设某厂生产的洗衣机的使用寿命(单位:小时)X 服从正态分布),(2σu N 但2 ,σu 未 知。随机抽取20台,算得样本均值1832=X ,样本标准差=S 497,检验该厂生产的洗衣机的平均使用时数“2000=μ”是否成立?(取检验水平05.0=α) 解 待检验假设 2000 0=μ:H 20001≠μ:H H 的拒绝域: 21α - >t T =2.093 T 的观测值 512 .1/2000 -=-=n S X T W ∈ 不能拒绝 H ,可以认为洗衣机的平均使用时数“2000=u ”. 3、在正常情况下,某炼钢厂的铁水含碳量(%)X ~ ),.(2 554σN (σ未知)。一日测得5炉铁水含碳量如下:

高中数学专题――概率统计专题.

专题二概率统计专题 【命题趋向】概率与统计是高中数学的重要学习内容,它是一种处理或然问题的方法,在工农业生产和社会生活中有着广泛的应用,渗透到社会的方方面面,概率与统计的基础知识成为每个公民的必备常识.概率与统计的引入,拓广了应用问题取材的范围,概率的计算、离散型随机变量的分布列和数学期望的计算及应用都是考查应用意识的良好素材.在高考试卷中,概率与统计的内容每年都有所涉及,以解答题形式出现的试题常常设计成包含离散型随机变量的分布列与期望、统计图表的识别等知识为主的综合题,以考生比较熟悉的实际应用问题为载体,以排列组合和概率统计等基础知识为工具,考查对概率事件的识别及概率计算.解答概率统计试题时要注意分类与整合、化归与转化、或然与必然思想的运用.由于中学数学中所学习的概率与统计内容是最基础的,高考对这一部分内容的考查注重考查基础知识和基本方法.该部分在高考试卷中,一般是2—3个小题和一个解答题. 【考点透析】概率统计的考点主要有:概率与统计包括随机事件,等可能性事件的概率,互斥事件有一个发生的概率,古典概型,几何概型,条件概率,独立重复试验与二项分布,超几何分布,离散型随机变量的分布列,离散型随机变量的期望和方差,抽样方法,总体分布的估计,正态分布,线性回归等.【例题解析】 题型1 抽样方法 -)中,在公证部门监督下按照随机抽取的方法确【例1】在1000个有机会中奖的号码(编号为000999 定后两位数为的号码为中奖号码,该抽样运用的抽样方法是() A.简单随机抽样B.系统抽样C.分层抽样D.以上均不对 分析:实际“间隔距离相等”的抽取,属于系统抽样. 解析:题中运用了系统抽样的方法采确定中奖号码,中奖号码依次为:088,188,288,388,488,588,688,788,888,988.答案B. 点评:关于系统抽样要注意如下几个问题:(1)系统抽样是将总体分成均衡几个部分,然按照预先定出的规则从每一部分抽取一个个体,得到所需要的样本的一种抽样方法.(2)系统抽样的步骤:①将总体中的个体随机编号;②将编号分段;③在第一段中用简单随机抽样确定起始的个体编号;④按事先研究的规则抽取样本.(3)适用范围:个体数较多的总体. 例2(2008年高考广东卷理3)某校共有学生2000名,各年级男、女生人数如表.已知在全校学生中随机抽取1名,抽到二年级女生的概率是0.19.现用分层抽样的方法在全校抽取64名学生,则应在三年级抽取的学生人数为() A.24B.18C.16D.12 Array 分析:根据给出的概率先求出x的值,这样就可以知道三年级的学生人数,问题就解决了. x=?=,这样一年级和二年级学生的解析:C 二年级女生占全校学生总数的19%,即20000.19380 +++=,三年级学生有500人,用分层抽样抽取的三年级学生应是总数是3733773803701500 64 50016 ?=.答案C. 2000 点评:本题考查概率统计最基础的知识,还涉及到一点分析问题的能力和运算能力,题目以抽样的等可能性为出发点考查随机抽样和分层抽样的知识. 例3.(2009江苏泰州期末第2题)一个社会调查机构就某地居民的月收入调查了10000人,并根据所得数据画了样本的频率分布直方图(如下图).为了分析居民的收入与年龄、学历、职业等方面的关系, 2500,3500(元)月收入段应抽要从这10000人中再用分层抽样方法抽出100人作进一步调查,则在[) 出人.

高中数学必修3第一章知识点总结及练习

高中数学必修3知识点总结 第一章算法初步 1.1.1算法的概念 1、算法概念: 在数学上,现代意义上的“算法”通常是指可以用计算机来解决的某一类问题是程序或步骤,这些程序或步骤必须是明确和有效的,而且能够在有限步之内完成. 2. 算法的特点: (1)有限性:一个算法的步骤序列是有限的,必须在有限操作之后停止,不能是无限的. (2)确定性:算法中的每一步应该是确定的并且能有效地执行且得到确定的结果,而不应当是模棱两可. (3)顺序性与正确性:算法从初始步骤开始,分为若干明确的步骤,每一个步骤只能有一个确定的后继步骤,前一步是后一步的前提,只有执行完前一步才能进行下一步,并且每一步都准确无误,才能完成问题. (4)不唯一性:求解某一个问题的解法不一定是唯一的,对于一个问

题可以有不同的算法. (5)普遍性:很多具体的问题,都可以设计合理的算法去解决,如心算、计算器计算都要经过有限、事先设计好的步骤加以解决. 1.1.2程序框图 1、程序框图基本概念: (一)程序构图的概念:程序框图又称流程图,是一种用规定的图形、指向线及文字说明来准确、直观地表示算法的图形。 一个程序框图包括以下几部分:表示相应操作的程序框;带箭头的流程线;程序框外必要文字说明。学习这部分知识的时候,要掌握各个图形的形状、作用及使用规则,画程序框图的规则如下: 1、使用标准的图形符号。 2、框图一般按从上到下、从左到右的方向画。 3、除判断框外,大多数流程图符号只有一个进入点和一个退出点。判断框具有超过一个退出点的唯一符号。 4、判断框分两大类,一类判断框“是”与“否”两分支的判断,而且有且仅有两个结果;另一类是多分支判断,有几种不同的结果。 5、在图形符号内描述的语言要非常简练清楚。 (二)构成程序框的图形符号及其作用

高中数学第三章统计案例章末小结知识整合与阶段检测教学案北师大版选修2_334.doc

第三章统计案例 知识整合与阶段检测 [ 对应学生用书P42] 一、回归分析 1.线性回归分析 对于一组具有线性相关关系的数据( x1,y1) , ( x2,y2) ,, ( x n,y n) ,其线性回归直线方程为 y= a+bx, n n x i- xy i- y x i y i- n x · y i = 1 i =1 其中 b==, n n x i- x 2 2 2 x i- n x i = 1 i = 1 a= y - b x . 2.相关系数 n x i- x y i- y i = 1 r = n n x i- x 2·y i- y 2 i = 1 i =1 n x i y i- n x · y i = 1 =, n n 2 2 2 - n y 2 x i- n x ·y i i =1 i = 1 | r | 值越大,相关性越高,| r | 值越接近0,线性相关程度越低. 二、独立性检验

独立性检验的一般步骤(1)列出 2×2列联表; (2) 代入公式计算 2 n ad- bc 2 χ =a+c a+ b b+d c+d ; (3)根据χ2的值的大小作出判断. 对应阶段质量检测三 见 8开试卷 ( 时间 90 分钟,满分120 分 ) 一、选择题 ( 本大题共10 小题,每小题 5 分,共50 分.在每小题给出的四个选项中, 只有一项是符合题目要求的) 1. ( 全国新课标 ) 在一组样本数据 ( x1,y1) , ( x2,y2) ,, ( x n,y n)( n≥2,x1,x2,, x 不全相等 ) 的散点图中,若所有样本点( x,y )( i=1,2 ,,n) 都在直线y=2x+ 1 上,则n i i 1 这组样本数据的样本相关系数为( ) A.- 1 B. 0 1 C. 2 D. 1 解析:因为所有的点都在直线上,所以它就是确定的函数关系,所以相关系数为 1. 答案: D 2.已知x与y之间的一组数据: x 0 1 2 3 y 1 3 5 7 则 y 与 x 的线性回归方程y= a+ bx 必过点( ) A. (2,2) B. (1.5,0) C. (1,2) D. (1.5,4) 解析:线性回归方程y=a+ bx 必过点--( x,y ) . 答案: D 3.下列现象的相关程度最高的是( ) A.某商店的职工人数与商品销售额之间的相关系数为0.87 B.流通费用率与商业利润之间的相关系数为-0.94 C.商品销售额与商业利润之间的相关系数为0.51 D.商品销售额与流通费用率之间的相关系数为-0.81

统计案例一_----独立性检验

统计案例一独立性检验 研修学院数学教研室闻岩 一、课标要求 学生将在必修课程学习统计的基础上,通过对典型案例的讨论,了解和使用一些常用的统计方法,进一步体会运用统计方法解决实际问题的基本思想,认识统计方法在决策中的作用。 内容与要求 1.统计案例(约14课时) 通过典型案例,学习下列一些常见的统计方法,并能初步应用这些方法解决一些实际问题。 (1)通过对典型案例(如“肺癌与吸烟有关吗”等)的探究,了解独立性检验(只要求22列联表)的基本思想、方法及初步应用。 (2)通过对典型案例(如“质量控制”“新药是否有效”等)的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用(参见例1)。------删掉了 (3)通过对典型案例(如“昆虫分类”等)的探究,了解聚类分析的基本思想、方法及初步应用。------删掉了 (4)通过对典型案例(如“人的体重与身高的关系”等)的探究,进一步了解回归的基本思想、方法及初步应用。 说明与建议 1.统计案例的教学中,应鼓励学生经历数据处理的过程,培养他们对数据的直观感觉,认识统计方法的特点(如统计推断可能犯错误,估计结果的随机性),体会统计方法应用的广泛性。应尽量给学生提供一定的实践活动机会,可结合数学建模的活动,选择1个案例,要求学生亲自实践。对于统计案例内容,只要求学生了解几种统计方法的基本思想及其初步应用,对于其理论基础不作要求,避免学生单纯记忆和机械套用公式进行计算。 2.教学中,应鼓励学生使用计算器、计算机等现代技术手段来处理数据,有条件的学校还可运用一些常见的统计软件解决实际问题。 例1某地区羊患某种病的概率是0.4,且每只羊患病与否是彼此独立的。今研制一种新的预防药,任选5只羊做实验,结果这5只羊服用此药后均未患病。问此药是否有效。 初看起来,会认为这药一定有效,因为服药的羊均未患病。但细想一下,会有问题,因为大部分羊不服药也不会患病,患病的羊只占0.4左右。这5只羊都未患病,未必是药的作用。分析这问题的一个自然想法是:若药无效,随机抽取5只羊都不患病的可能性大不大。若这件事发生的概率很小,几乎不会发生,那么现在我们这几只羊都未患病,应该是药的效果,即药有效。 现假设药无效,5只羊都不生病的概率是 (1-0.4)5≈0.078. 这个概率很小,该事件几乎不会发生,但现在它确实发生了,说明我们的假设不对,药是有效的。 这里的分析思想有些像反证法,但并不相同。给定假设后,我们发现,一个概率很小几乎不会发生的事件却发生了,从而否定我们的“假设”。 应该指出的是,当我们作出判断“药是有效的”时,是可能犯错误的。犯错误的概率是0.078。也就是说,我们有近92%的把握认为药是有效的。 二、全国考纲的要求 17.统计案例 了解下列一些常见的统计方法,并能应用这些方法解决一些实际问题. ①独立检验 列联表)的基本思想、方法及简单应用. 了解独立检验(只要求22

高中数学统计与概率知识点(原稿)

高中数学统计与概率知识点(文) 第一部分:统计 一、什么是众数。 一组数据中出现次数最多的那个数据,叫做这组数据的众数。 众数的特点。 ①众数在一组数据中出现的次数最多;②众数反映了一组数据的集中趋势,当众数出现的次数越多,它就越能代表这组数据的整体状况,并且它能比较直观地了解到一组数据的大致情况。但是,当一组数据大小不同,差异又很大时,就很难判断众数的准确值了。此外,当一组数据的那个众数出现的次数不具明显优势时,用它来反映一组数据的典型水平是不大可靠的。 3.众数与平均数的区别。 众数表示一组数据中出现次数最多的那个数据;平均数是一组数据中表示平均每份的数量。 二、.中位数的概念。 一组数据按大小顺序排列,位于最中间的一个数据(当有偶数个数据时,为最中间两个数据的平均数)叫做这组数据的中位数。 三 .众数、中位数及平均数的求法。 ①众数由所给数据可直接求出;②求中位数时,首先要先排序(从小到大或从大到小),然后根据数据的个数,当数据为奇数个时,最中间的一个数就是中位数;当数据为偶数个时,最中间两个数的平均数就是中位数。③求平均数时,就用各数据的总和除以数据的个数,得数就是这组数据的平均数。 四、中位数与众数的特点。 ⑴中位数是一组数据中唯一的,可能是这组数据中的数据,也可能不是这组数据中的数据; ⑵求中位数时,先将数据有小到大顺序排列,若这组数据是奇数个,则中间的数据是中位数;若这组数据是偶数个时,则中间的两个数据的平均数是中位数; ⑶中位数的单位与数据的单位相同; ⑷众数考察的是一组数据中出现的频数; ⑸众数的大小只与这组数的个别数据有关,它一定是一组数据中的某个数据,其单位与数据的单位相同; (6)众数可能是一个或多个甚至没有; (7)平均数、众数和中位数都是描述一组数据集中趋势的量。

高中数学统计案例分析及知识点归纳总结

统计 一、知识点归纳 1、抽样方法: ①简单随机抽样(总体个数较少) ②系统抽样(总体个数较多) ③分层抽样(总体中差异明显) 注意:在N 个个体的总体中抽取出n 个个体组成样本,每个个体被抽到的机会(概率)均为N n 。 2、总体分布的估计: ⑴一表二图: ①频率分布表——数据详实 ②频率分布直方图——分布直观 ③频率分布折线图——便于观察总体分布趋势 注:总体分布的密度曲线与横轴围成的面积为1。 ⑵茎叶图: ①茎叶图适用于数据较少的情况,从中便于看出数据的分布,以及中位数、众位数等。 ②个位数为叶,十位数为茎,右侧数据按照从小到大书写,相同的数据重复写。 3、总体特征数的估计: ⑴平均数:n x x x x x n ++++= 321; 取值为n x x x ,,,21 的频率分别为n p p p ,,,21 ,则其平均数为n n p x p x p x +++ 2211; 注意:频率分布表计算平均数要取组中值。 ⑵方差与标准差:一组样本数据n x x x ,,,21 方差:2 1 2)(1 ∑=-= n i i x x n s ; 标准差:2 1 )(1∑=-= n i i x x n s 注:方差与标准差越小,说明样本数据越稳定。 平均数反映数据总体水平;方差与标准差反映数据的稳定水平。 ⑶线性回归方程 ①变量之间的两类关系:函数关系与相关关系; ②制作散点图,判断线性相关关系 ③线性回归方程:a bx y +=∧ (最小二乘法) 1 221n i i i n i i x y nx y b x nx a y bx ==? -? ?=??-??=-??∑∑ 注意:线性回归直线经过定点),(y x 。

高中数学统计案例--独立性检验 同步练习

统计案例--独立性检验 同步练习 1、下列关于卡方2χ的说法正确的是( ) A.2χ在任何相互独立问题中都可用与检验是否相关 B. 2χ的值越大,两个事件的相关性越大 C.2χ是用来判断两个相互独立事件相关与否的一个统计量,它可以用来判断两个事件是否相关这类问题 D. ) )()()(() (2d b c a d c b a bc ad n ++++-= χ. 2、在吸烟与患肺病这两个分类变量的计算中,下列说法中正确的是( ) A. 若统计量635.62>χ,我们有99%的把握说吸烟与患肺病有关,则某人吸烟,那么他有99%的可能患有肺病 B. 若从统计中求出,有99%的把握说吸烟与患肺病有关,则在100个吸烟者中必有99人患有肺病 C. 若从统计量中求出有95%把握说吸烟与患肺病有关,是指有5%的可能性使得推断错误 D. 以上说法均错误 3 A. 种子经过处理跟是否生病有关 B. 种子经过处理跟是否生病无关 C. 种子是否经过处理决定是否生病 D. 以上都是错误的 4、若由一个22?列联表中的数据计算得013.42=χ,那么有 的把握认为两个变量有关系. 5、独立性检验所采用的思路是:要研究A 、B 两类型因子彼此相关,首先假设这两类因子彼此 ,在此假设下构造2χ统计量.如果2χ的观测值较大,那么在一定程度上说明假设 . 6、某大学在研究性别与职称(分正教授、副教授)之间是否有关系,你认为应该搜集那些数据? . 7、打鼾不仅影响别人休息,而且可能与患某种疾病有关,下表是一次调查所得数据,试问:每一晚都打与患心脏病有关吗?有多大把握认为你的结论成立?

8、为了研究某种新药的副作用(如恶心等),给50位患者服用此新药,另外50名患者服用 9、某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革的关系,随机抽取了189名员工进行调查,其中支持企业改革的调查者中,工作积极的54人,工作一般的32人,而不太赞成企业改革的调查者中,工作积极的40人,工作一般的63人. (1)根据以上数据建立一个2 2 的列联表; (2)对于人力资源部的研究项目,根据以上数据可以认为企业的全体员工对待企业改革的 态度与其工作积极性是否有关系?

(最全)高中数学概率统计知识点总结

概率与统计 一、普通的众数、平均数、中位数及方差 1、 众数:一组数据中,出现次数最多的数。 2、平均数:①、常规平均数:12n x x x x n ++???+= ②、加权平均数:112212n n n x x x x ωωωωωω++???+=++???+ 3、中位数:从大到小或者从小到大排列,最中间或最中间两个数的平均数。 4、方差:2222121 [()()()]n s x x x x x x n = -+-+???+- 二、频率直方分布图下的频率 1、频率 =小长方形面积:f S y d ==?距;频率=频数/总数 2、频率之和:121n f f f ++???+=;同时 121n S S S ++???+=; 三、频率直方分布图下的众数、平均数、中位数及方差 1、众数:最高小矩形底边的中点。 2、平均数: 112233n n x x f x f x f x f =+++???+ 112233n n x x S x S x S x S =+++???+ 3、中位数:从左到右或者从右到左累加,面积等于0.5时x 的值。 4、方差:22221122()()()n n s x x f x x f x x f =-+-+???+- 四、线性回归直线方程:???y bx a =+ 其中:1 1 2 22 1 1 ()() ?() n n i i i i i i n n i i i i x x y y x y nxy b x x x nx ====---∑∑== --∑∑ , ??a y bx =- 1、线性回归直线方程必过样本中心(,)x y ; 2、?0:b >正相关;?0:b <负相关。 3、线性回归直线方程:???y bx a =+的斜率?b 中,两个公式中分子、分母对应也相等;中间可以推导得到。 五、回归分析 1、残差:??i i i e y y =-(残差=真实值—预报值)。分析:?i e 越小越好; 2、残差平方和:21?()n i i i y y =-∑, 分析:①意义:越小越好; ②计算:222211221 ????()()()()n i i n n i y y y y y y y y =-=-+-+???+-∑ 3、拟合度(相关指数):221 2 1 ?()1() n i i i n i i y y R y y ==-∑=- -∑,分析:①.(]20,1R ∈的常数; ②.越大拟合度越高; 4、相关系数 :()() n n i i i i x x y y x y nx y r ---?∑∑= = 分析:①.[r ∈-的常数; ②.0:r >正相关;0:r <负相关 ③.[0,0.25]r ∈;相关性很弱; (0.25,0.75)r ∈;相关性一般; [0.75,1]r ∈;相关性很强; 六、独立性检验 1、2×2列联表: 2、独立性检验公式 ①.2 2() ()()()() n ad bc k a b c d a c b d -= ++++ ②.犯错误上界P 对照表 3、独立性检验步骤

人教版A版高中数学必修3全套经典教案第一套

人教版A版高中数学必修3全套教案 第一章算法初步 一、课标要求: 1、本章的课标要求包括算法的含义、程序框图、基本算法语句,通过阅读中国古代教学中的算法案例,体会中国古代数学世界数学发展的贡献。 2、算法就是解决问题的步骤,算法也是数学及其应用的重要组成部分,是计算机科学的基础,利用计算机解决问需要算法,在日常生活中做任何事情也都有算法,当然我们更关心的是计算机的算法,计算机可以解决多类信息处理问题,但人们必须事先用计算机熟悉的语言,也就是计算能够理解的语言(即程序设计语言)来详细描述解决问题的步骤,即首先设计程序,对稍复杂一些的问题,直接写出解决该问题的程序是困难的,因此,我们要首先研究解决问题的算法,再把算法转化为程序,所以算法设计是使用计算机解决具体问题的一个极为重要的环节。 3、通过对解决具体问题的过程与步骤的分析(如二元一次方程组的求解等问题),体会算法的思想,了解算法的含义。理解程序框图的三种基本逻辑结构:顺序结构、条件结构、循环结构。理解并掌握几种基本的算法语句——输入语句、输出语句、赋值语句、条件语句、循环语句。进一步体会算法的基本思想。 4、本章的重点是体会算法的思想,了解算法的含义,通过模仿、操作、探索,经过通过设计程序框图解决问题的过程。点是在具体问题的解决过程中,理解三种基本逻辑结构,经历将具体问题的程序框图转化为程序语句的过程,理解几种基本的算法语句。 二、编写意图与特色: 算法是数学及其应用的重要组成部分,是计算科学的重要基础。随着现代信息技术飞速发展,算法在科学技术、社会发展中发挥着越来越大的作用,并日益融入社会生活的许多方面,算法思想已经成为现代人应具备的一种数学素养。需要特别指出的是,中国古代数学中蕴涵了丰富的算法思想。在本模块中,学生将在义务教育阶段初步感受算法思想的基础上,结合对具体数学实例的分析,体验程序框图在解决问题中的作用;通过模仿、操作、探索,学习设计程序框图表达解决问题的过程;体会算法的基本思想以及算法的重要性和有效性,发展有条理的思考与表达的能力,提高逻辑思维能力。 1、结合熟悉的算法,把握算法的基本思想,学会用自然语言来描述算法。 2、通过模仿、操作和探索,经历设计程序流程图表达解决问题的过程。在具体问题的解决过程中理解程序流程图的三种基本逻辑结构:顺序结构、条件结构、循环结构。 3、通过实际问题的学习,了解构造算法的基本程序。 4、经历将具体问题的程序流程图转化为程序语句的过程,理解几种基本算法语句——输入语句、输出语句、赋值语句、条件语句、循环语句,体会算法的基本思想。 5、需要注意的问题 1) 从熟知的问题出发,体会算法的程序化思想,而不是简单呈现一些算法。 2) 变量和赋值是算法学习的重点之一,因为设置恰当的变量,学习给变量赋值,是构

人教版高中数学必修三教案(全套)

第一章算法初步 1.1.1算法的概念 一、教学目标: 1、知识与技能:(1)了解算法的含义,体会算法的思想。(2)能够用自然语言叙述算法。(3)掌握正确的算法应满足的要求。(4)会写出解线性方程(组)的算法。(5)会写出一个求有限整数序列中的最大值的算法。(6)会应用Scilab求解方程组。 2、过程与方法:通过求解二元一次方程组,体会解方程的一般性步骤,从而得到一个解二元一次方程组的步骤,这些步骤就是算法,不同的问题有不同的算法。由于思考问题的角度不同,同一个问题也可能有多个算法,能模仿求解二元一次方程组的步骤,写出一个求有限整数序列中的最大值的算法。 3、情感态度与价值观:通过本节的学习,使我们对计算机的算法语言有一个基本的了解,明确算法的要求,认识到计算机是人类征服自然的一各有力工具,进一步提高探索、认识世界的能力。 二、重点与难点: 重点:算法的含义、解二元一次方程组和判断一个数为质数的算法设计。 难点:把自然语言转化为算法语言。 三、学法与教学用具: 学法:1、写出的算法,必须能解决一类问题(如:判断一个整数n(n>1)是否为质数;求任意一个方程的近似解;……),并且能够重复使用。 2、要使算法尽量简单、步骤尽量少。 3、要保证算法正确,且计算机能够执行,如:让计算机计算1×2×3×4×5是可以做到的,但让计算机去执行“倒一杯水”“替我理发”等则是做不到的。 教学用具:电脑,计算器,图形计算器 四、教学设想: 1、创设情境: 算法作为一个名词,在中学教科书中并没有出现过,我们在基础教育阶段还没有接触算法概念。但是我们却从小学就开始接触算法,熟悉许多问题的算法。如,做四则运算要先乘除后加减,从里往外脱括弧,竖式笔算等都是算法,至于乘法口诀、珠算口诀更是算法的具体体现。我们知道解一元二次方程的算法,求解一元一次不等式、一元二次不等式的算法,解线性方程组的算法,求两个数的最大公因数的算法等。因此,算法其实是重要的数学对象。 2、探索研究 算法(algorithm)一词源于算术(algorism),即算术方法,是指一个由已知推求未知的运算过程。后来,人们把它推广到一般,把进行某一工作的方法和步骤称为算法。 广义地说,算法就是做某一件事的步骤或程序。菜谱是做菜肴的算法,洗衣机的使用说明书是操作洗衣机的算法,歌谱是一首歌曲的算法。在数学中,主要研究计算机能实现的算法,即按照某种机械程序步骤一定可以得到结果的解决问题的程序。比如解方程的算法、函数求值的算法、作图的算法,等等。

高中数学:统计与统计案例练习

高中数学:统计与统计案例练习 A组 一、选择题 1.某校为了解学生平均每周的上网时间(单位:h),从高一年级1 000名学生中随机抽取100名进行了调查,将所得数据整理后,画出频率分布直方图(如图),其中频率分布直方图从左到右前3个小矩形的面积之比为1∶3∶5,据此估计该校高一年级学生中平均每周上网时间少于4 h的学生人数为() A.200 B.240 C.400 D.480 解析:选C设频率分布直方图中从左到右前3个小矩形的面积分别为P,3P,5P.由频率分布直方图可知,最后2个小矩形的面积之和为(0.015+0.035)×2=0.1.因为频率分布直方图中各个小矩形的面积之和为1,所以P+3P+5P=0.9,即P=0.1.所以平均每周上网时间少于4 h的学生所占比例为P+3P=0.4,由此估计学生人数为0.4×1 000=400. 2.AQI(Air Quality Index,空气质量指数)是报告每日空气质量的参数,描述了空气清洁或污染的程度.AQI共分六级,一级优(0~50),二级良(51~100),三级轻度污染(101~150),四级中度污染(151~200),五级重度污染(201~300),六级严重污染(大于300).如图是昆明市2019年4月份随机抽取的10天的AQI茎叶图,利用该样本估计昆明市2020年4月份空气质量优的天数为() A.3 B.4 C.12 D.21

解析:选C从茎叶图知,10天中有4天空气质量为优,所以空气质量为优的频率为4 10= 2 5, 所以估计昆明市2020年4月份空气质量为优的天数为30×2 5=12,故选C. 3.(成都模拟)某城市收集并整理了该市2018年1月份至10月份各月最低气温与最高气温(单位:℃)的数据,绘制了下面的折线图. 已知该城市各月的最低气温与最高气温具有较好的线性关系,则根据折线图,下列结论错误的是() A.最低气温与最高气温为正相关 B.10月的最高气温不低于5月的最高气温 C.月温差(最高气温减最低气温)的最大值出现在1月 D.最低气温低于0 ℃的月份有4个 解析:选D在A中,最低气温与最高气温为正相关,故A正确;在B中,10月的最高气温不低于5月的最高气温,故B正确;在C中,月温差(最高气温减最低气温)的最大值出现在1月,故C正确;在D中,最低气温低于0 ℃的月份有3个,故D错误.故选D. 4.(承德模拟)为了解户籍、性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取了容量为100的样本,其中城镇户籍与农村户籍各50人;男性60人,女性40人,绘制不同群体中倾向选择生育二胎与倾向选择不生育二胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育二胎的对应比例,则下列叙述中错误的是() A.是否倾向选择生育二胎与户籍有关 B.是否倾向选择生育二胎与性别无关

高中数学 第三章 统计案例 3.1 独立性检验 卡方检验素材 苏教版选修2-3

2 χ 检验 (一) 掌握内容 1. 2χ检验的用途。 2. 四格表的2 χ检验。 (1) 四格表2 χ检验公式的应用条件; (2) 不满足应用条件时的解决办法; (3) 配对四格表的2 χ检验。 3. 行?列表的2 χ检验。 (二) 熟悉内容 频数分布拟合优度的2 χ检验。 (三) 了解内容 1.2 χ分布的图形。 2.四格表的确切概率法。 (一) 2χ检验的用途 2χ检验(Chi-square test )用途较广,主要用途如下: 1.推断两个率及多个总体率或总体构成比之间有无差别 2.两种属性或两个变量之间有无关联性 3.频数分布的拟合优度检验 (二) 2 χ检验的基本思想 1.2 χ检验的基本思想是以2 χ值的大小来反映理论频数与实际频数的吻合程度。在零假设0H (比如0H :21ππ=)成立的条件下,实际频数与理论频数相差不应该很大,即2 χ值不应该很大,若实际计算出的2 χ值较大,超过了设定的检验水准所对应的界值,则有理由怀疑0H 的真实性,从而拒绝0H ,接受H 1(比如1H :21ππ≠)。 2. 基本公式:()∑ -= T T A 2 2 χ,A 为实际频数(Actual Frequency ),T 为理论频数 (Theoretical Frequency )。四格表2 χ检验的专用公式正是由此公式推导出来的,用专用公 式与用基本公式计算出的2χ值是一致的。 (三)率的抽样误差与可信区间 1.率的抽样误差与标准误 样本率与总体率之间存在抽样误差,其度量方法: n p ) 1(ππσ-= ,π为总体率,或 (8-1) n p p S p ) 1(-= , p 为样本率; (8-2) 2.总体率的可信区间 当n 足够大,且p 和1-p 均不太小,p 的抽样分布逼近正态分布。 总体率的可信区间:(p p S u p S u p ?+?-2/2/,αα)。 (8-3) (四)2 χ检验的基本计算

高中数学必修三 概率与统计

高中数学必修三:概率与统计 1.要从已编号(1-50)的50枚最新研制的某型号导弹中随机抽取5枚来进行发射试验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的5枚导弹的编号可能是( ). A.5,10,15,20,25B.3,13,23,33,43C.1,2,3,4,5D.2,4,8,16,32 2.从鱼塘捕得同一时间放养的草鱼240尾,从中任选9尾,称得每尾鱼的质量分别是1.5,1.6,1.4,1.6,1.3,1.4,1.2,1.7,1.8(单位:千克).依此估计这240尾鱼的总质量大约是( ).A.300克B.360千克C.36千克D.30千克 3.以下茎叶图记录了甲.乙两组各五名学生在一次英语听力测试中的成绩(单位:分) 已知甲组数据的中位数为15,乙组数据的平均数为16.8,则,x y的值分别为()A.2,5B.5,5C.5,8D.8,8 4.为了考查两个变量x和y之间的线性关系,甲、乙两位同学各自独立作了10次和15次试验,并且利用线性回归方法,求得回归直线分别为l1,l2,已知两人得的试验数据中,变量x和y的数据的平均值都分别相等,且值分别为s与t,那么下列说法正确的是( ). A.直线l1和l2一定有公共点(s,t)B.直线l1和l2相交,但交点不一定是(s,t) C.必有直线l1∥l2 D.直线l1和l2必定重合 5..设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i,y i)(i=1,2,…,n),用最小二乘法建立的回归方程为$y=0.85x-85.71,则下列结论中不正确的是( ).A.y与x具有正的线性相关关系B.回归直线过样本点的中心(x,y)C.若该大学某女生身高增加1cm,则其体重约增加0.85kgD.若该大学某女生身高为170cm,则可断定其体重比为58.79kg

相关文档
最新文档