统计与统计案例学案专题

统计与统计案例学案专题
统计与统计案例学案专题

统计与统计案例

【考纲要求】

1.随机抽样

(1)理解随机抽样的必要性和重要性;

(2)会用简单随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样方法.

2.用样本估计总体

(1)了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率折线图、茎叶图,理解它们各自的特点.

(2)理解样本数据标准差的意义和作用,会计算数据标准差.

(3)能从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释.

(4)会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.

(5)会用随机抽样的基本方法和样本估计总体的思想,解决一些简单的实际问题.

3.变量的相关性

(1)会作两个有关联变量数据的散点图,会利用散点图认识变量间的相关关系;

(2)了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆).

【知识网络】

统计图表 用样本估计总体 统计 简单随机抽样 数据的整 理分析 数据的数字特征 分层抽样 系统抽样

变量的相关性

【考点梳理】

考点一、随机抽样

从调查的对象中按照一定的方法抽取一部分,进行调查或观测,获取数据,并以此对调查对象的某项指标做出推断,这就是抽样调查.调查对象的全体称为总体,被抽取的一部分称为样本.

1.简单的随机抽样

简单随机抽样的概念:

设一个总体的个体数为N.如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样.

①用简单随机抽样从含有N个个体的总体中抽取一个容量为n的样本时,每次抽取一个个体时,任一个体被抽到的概率为1

;在整个抽样过程中各个个

N

体被抽到的概率为n

N

②简单随机抽样的特点是:不放回抽样,逐个地进行抽取,各个个体被抽到的概率相等;

③简单随机抽样方法体现了抽样的客观性与公平性,是其他更复杂抽样方法的基础.

简单抽样常用方法:

①抽签法:先将总体中的所有个体(共有N个)编号(号码可从1到N),并把号码写在形状、大小相同的号签上(号签可用小球、卡片、纸条等制作),然后将这些号签放在同一个箱子里,进行均匀搅拌,抽签时每次从中抽一个号签,连续抽取n次,就得到一个容量为n的样本.

适用范围:总体的个体数不多.

优点:抽签法简便易行,当总体的个体数不太多时适宜采用抽签法.

②随机数表法:随机数表抽样“三步曲”:第一步,将总体中的个体编号;第二步,选定开始的数字;第三步,获取样本号码.

2.系统抽样:

当总体中的个体数较多时,可将总体分成均衡的几个部分,然后按预先制定

出的规则,从每一部分抽取一个个体,得到需要的样本,这种抽样叫做系统抽样.系统抽样的步骤:

①采用随机的方式将总体中的个体编号,为简便起见,有时可直接采用个体所带有的号码,如考生的准考证号、街道上各户的门牌号等等.

②为将整个的编号分段 (即分成几个部分),要确定分段的间隔k.当N

n

整数时(N为总体中的个体的个数,n为样本容量),

N

k

n

=;当

N

n

不是整数时,

通过从总体中剔除一些个体使剩下的总体中个体的个数'

N能被n整除,这时'

N

k

n

=.

③在第一段用简单随机抽样确定起始的个体编号l.

④按照事先确定的规则抽取样本(通常是将l加上间隔k,得到第2个编号l k

+,第3个编号2

l k

+,这样继续下去,直到获取整个样本).要点诠释:

①系统抽样适用于总体中的个体数较多的情况,它与简单随机抽样的联系在于:将总体均分后的每一部分进行抽样时,采用的是简单随机抽样;

②与简单随机抽样一样,系统抽样是等概率抽样,它是客观的、公平的

③总体中的个体数恰好能被样本容量整除时,可用它们的比值作为系统抽样的间隔;当总体中的个体数不能被样本容量整除时,可用简单随机抽样先从总体中剔除少量个体,使剩下的个体数能被样本容量整除再进行系统抽样.3.分层抽样:

当已知总体由差异明显的几部分组成时,为了使样本更充分地反映总体的情况,常将总体分成几部分,然后按照各部分所占的比例进行抽样,这种抽样叫做分层抽样,所分成的部分叫做层.

4.常用的三种抽样方法的比较:

要点诠释:

(1)各种抽样的个体被抽到的概率相等;

(2)抽样过程中个体被抽到的概率相等.

5.不放回抽样和放回抽样:

在抽样中,如果每次抽出个体后不再将它放回总体,称这样的抽样为不放回抽样;如果每次抽出个体后再将它放回总体,称这样的抽样为放回抽样随机抽样、系统抽样、分层抽样都是不放回抽样

考点二、用样本估计总体

1. 统计图表包括条形图、折线图、饼图、茎叶图.

2.作频率分布直方图的步骤

(1)求极差(即一组数据中最大值与最小值的差)

(2)决定组距与组数

(3)将数据分组

(4)列频率分布表

(5)画频率分布表

3.频率分布折线图和总体密度曲线

(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得频率分布折线图

(2)总体密度曲线:随着样本容量的增加,作图所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,即总体密度曲线

4.标准差和方差

(1)标准差是样本数据到平均数的一种平均距离,

s =(2)方差: 2222121[()()...()]n s x x x x x x n

=-+-++- (n x 是样本数据,n 是样本容量,x 是样本平均数)

要点诠释:现实中的总体所包含个体数往往是很多的,如何求得总体的平均数和标准差呢?(通常的做法是用样本的平均数和标准差去估计总体的平均数与标准差,这与有样本的频率分布近似代替总体分布是类似的,只要样本的代表性好,这样做就是合理的,也是可以接受的.)

5.利用频率分布直方图估计样本的数字特征

(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值

(2)平均数:平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和

(3)众数:在频率分布直方图中,众数是最高的矩形的中点的横坐标

6. 频率分布直方图反映样本的频率分布

(1)频率分布直方图中横坐标表示组距,纵坐标表示

组距

频率,频率=组距×组距频率 (2)频率分布直方图中各小长方形的面积之和为1,因此在频率分布直方图中组距是一个固定值,所以各小长方形高的比也就是频率比.

(3)频率分布表和频率分布直方图是一组数据频率分布的两种形式,前者准确,后者直观.

(4)众数为最高矩形中点的横坐标.

(5)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标.

考点三、变量的相关性

1. 散点图

将两个变量所对应的点描在直角坐标系中,这些点组成了变量之间的一个图,

数学选修2-3第三章-统计案例阶段测试3(含详

数学选修2-3第三章-统计案例阶段测试3(含详细答案)

阶段测试三 (第三章统计案例) (时间:120分钟,满分:150分) 一、选择题(每小题5分,共60分) 1.下列关系中是相关关系的是() ①路程与时间、速度的关系; ②加速度与力的关系; ③产品成本与产量的关系; ④圆周长与面积的关系; ⑤广告费支出与销售额的关系. A.①②④B.①③⑤ C.③⑤D.③④⑤ 2.下列说法中表述恰当的个数为() ①相关指数R2可以刻画回归模型的拟合效果,R2越接近于1,说明模型的拟合效果越好; ②在线性回归模型中,R2表示解释变量对预报变量的贡献率,R2越接近于1,表示解释变量

和预报变量的线性相关关系越强; ③若残差图中个别点的残差比较大,则应确认在采集样本点的过程中是否有人为的错误或模型是否恰当. A.0 B.1 C.2 D.3 3.(2016·重庆南开中学期末)巧克力很甜、很好吃,数学很妙、很有趣,某中学统计了部分同学“爱吃巧克力”与“数学成绩好”的关系,得到下表: 经计算得k≈4.167,由此可以判断()

参考数据: A.至少有99%的把握认为“数学成绩好” 与“爱吃巧克力”有关 B .至少有95%的把握认为“数学成绩好” 与“爱吃巧克力”有关 C . 至少有99%的把握认为“数学成绩好” 与“爱吃巧克力”无关 D .至少有95%的把握认为“数学成绩好” 与“爱吃巧克力”无关 4.某车间为了规定工时定额,需要确定加 工零件所花费的时间,为此进行了5次试验,收集数据如下:

经检验,这组样本数据具有线性相关关系,那么对于加工零件的个数x与加工时间y这两个变量,下列判断正确的是() A.成正相关,其回归直线经过点(30,75) B.成正相关,其回归直线经过点(30,76) C.成负相关,其回归直线经过点(30,76) D.成负相关,其回归直线经过点(30,75) 5.下列关于等高条形图说法正确的是() A.等高条形图表示高度相对的条形图 B.等高条形图表示的是分类变量的频数 C.等高条形图表示的是分类变量的百分比 D.等高条形图表示的是分类变量的实际高度 6.下面是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从下图可以看出()

新人教版选修12《统计案例》、《推理与证明》单元测试题

选修1-2《统计案例》、《推理与证明》单元测试 可能用到的公式:回归直线的方程是:a bx y +=?,其中1 2 2 1 ,n i i i n i i x y nxy b a y bx x nx ==-==--∑∑; 相关指数2 1 122 )()?(1∑∑==--- =n i i n i i i y y y y R ,总偏差平方和: 2 1 () n i i y y =-∑,残差平方和: 2 1 ?()n i i i y y =-∑. 随机变量() ()()()() 2 2 n ad bc K a b c d a c b d -=++++ 一、选择题 (每小题 5分,共 10小题,共 50分) 1. 工人月工资 (元) 依劳动生产率 (千元) 变化的回归直线方程为6090y x =+, 下列判断正确的是 ( ). A. 劳动生产率为 1000元时,工资为 50 元 B. 劳动生产率提高 1000 元时,工资提高 150元 C. 劳动生产率提高 1000 元时,工资提高 90 元 D. 劳动生产率为 1000元时,工资为 90 元 2. 在画两个变量的散点图时,下面哪个叙述是正确的( ). A. 预报变量在x 轴上,解释变量在 y 轴上 B. 解释变量在x 轴上,预报变量在 y 轴上 C. 可以选择两个变量中任意一个变量在x 轴上 D. 可以选择两个变量中任意一个变量在 y 轴上 3. 已知回归直线的斜率的估计值是 1.23,样本点的中心为(4,5),则回归直线的方程是 ( ). A. 1.234y x =+ B. 1.235y x =+ C. 1.230.08y x =+ D. 0.08 1.23y x =+ 4. 在两个变量 y 与 x 的回归模型中,分别选择了 4 个不同的模型,它们的相关指数2 R 如下,其中拟合效果最好的模型是( ) A. 模型 1 的相关指数 2 R 为 0.95 B. 模型 2的相关指数2 R 为 0.80 C. 模型 3 的相关指数2 R 为 0.50 D. 模型 4的相关指数2 R 为 0.25 5. 已知x 与y 则y 与x 的线性回归方程为y bx a =+必过点( ). A. (2,2) B. (1.5,3) C. (1,2) D. (1.5,4) 6.下面使用类比推理正确的是 ( ).

统计与统计案例真题与解析

统计与统计案例 A 级 基础 一、选择题 1.某校为了解学生学习的情况,采用分层抽样的方法从高一1 000人、高二1 200人、高三n 人中抽取81人进行问卷调查,已知高二被抽取的人数为30,那么n =( ) A .860 B .720 C .1 020 D .1 040 2.为规范学校办学,某省教育厅督察组对某所高中进行了抽样调查.抽到的班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,已知7号、33号、46号同学在样本中,那么样本中还有一位同学的编号应是( ) A .13 B .19 C .20 D .51 3.“关注夕阳、爱老敬老”——某爱心协会从2013年开始每年向敬老院捐赠物资和现金,下表记录了第x 年(2013年是第一年)与捐赠的现金y (单位:万元)的对应数据,由此表中的数据得到了y 关于x 的线性回归方程y ^ =mx +0.35,则预测2019年捐赠的现金大约是( ) A.5万元 C .5.25万元 D .5.5万元 4.如图所示的茎叶图记录了甲乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x 和y 的值分别为( )

A.3,5 B.5,5 C.3,7 D.5,7 5.(2019·衡水中学检测)某超市从2019年甲、乙两种酸奶的日销售量(单位:箱)的数据中分别随机抽取100个,并按(0,10],(10,20],(20,30],(30,40],(40,50]分组,得到频率分布直方图如下: 记甲种酸奶与乙种酸奶的日销售量(单位:箱)的方差分别为s21,s22,则频率分布直方图(甲)中的a的值及s21与s22的大小关系分别是() A.a=0.015,s21s22 C.a=0.015,s21>s22D.a=0.15,s21

2019年高考数学统计案例(文科) 含解析

统计案例 一、选择题 1.(2018·长春一模)完成下列两项调查:①从某社区125户高收入家庭、280户中等收入家庭、95户低收入家庭中选出100户,调查社会购买能力的某项指标;②从某中学的15名艺术特长生中选出3名调查学习负担情况.宜采用的抽样方法依次是( ) A .①简单随机抽样,②系统抽样 B .①分层抽样,②简单随机抽样 C .①系统抽样,②分层抽样 D .①②都用分层抽样 答案:B 解析:因为社会购买能力的某项指标受到家庭收入的影响,而社区中各个家庭收入差别明显,所以①用分层抽样法;从某中学的15名艺术特长生中选出3名调查学习负担情况,个体之间差别不大,且总体和样本容量较小,所以②用简单随机抽样法,故选B. 2.(2018·贵州遵义联考)某校高三年级有1 000名学生,随机编号为0001,0002,…,1 000.现按系统抽样方法,从中抽出200人,若0122号被抽到了,则下列编号也被抽到的是( ) A .0927 B .0834 C .0726 D .0116 答案:A 解析:系统抽样就是等距抽样,被抽到的编号满足0122+5k ,k ∈Z .因为0927=0122+5×161,故选A. 3.(2018·江西九校联考(一))一组数据共有7个数,其中有10,2,5,2,4,2,还有一个数没记清,但知道这组数据的平均数、中位数、众数依次成等差数列,则这个数的所有可能值的和为( ) A .3 B .17 C .-11 D .9 答案:D 解析:设这个数是x ,则平均数为25+x 7,众数为2,若x ≤2,则

中位数为2,此时x =-11,若2

应用统计学案例——市场调查分析

市场调查分析案例 市场调查分析是市场调查的重要组成部分。通过市场调查收集到的原始资料,是处于一种零散、模糊、浅显的状态,只有经过进一步的处理和分析,才能使零散变为系统、模糊走向清晰、浅显发展为深刻,分析研究其规律性,达到正确认识社会现象目的,为准确的市场预测提供参考依据,最终为调查者正确决策提供有力的依据。 市场调查分析的原则:从全部事实出发,坚持事实求实的观点;全面分析问题,坚持一分为二的观点;必须从事物的相互联系,相互制约中分析问题; 市场调查分析方法:单变量统计量分析、单变量频数分析、多变量统计量分析、多变量频数分析、相关分析、聚类分析、判别分析、因子分析等。 案例:某市家用汽车消费情况调查分析案例 随着居民生活水平的提高,私车消费人群的职业层次正在从中高层管理人员和私营企业主向中层管理人员和一般职员转移,汽车正从少数人拥有的奢侈品转变为能够被更多普通家庭所接受的交通工具。了解该市家用汽车消费者的构成、消费者购买时对汽车的关注因素、消费者对汽车市场的满意程度等对汽车产业的发展具有重要意义。 本次调研活动中共发放问卷400份,回收有效问卷368份,根据整理资料分析如下。 一、消费者构成分析 1 、有车用户家庭月收入分析

5000元以上8.69 100.00 目前该市有车用户家庭月收入在2000?3000元间的最多;有车用户平均月收入为2914.55元,与该市民平均月收入相比,有车用户普遍属于收入较高人群。61.96%的有车用户月收入在3000元以下,属于高收入人群中的中低收入档次。因此,目前该市用户的需求一般是每辆10?15万元的经济车型。 2、有车用户家庭结构分析 表2: 有车用户家庭结构 Di nk家庭(double in come no kid ),即夫妻二人无小孩的家庭,占有车家 庭的比重大,为36.96%。其家庭收入较高,负担较轻、支付能力较强,文化层次高、观念前卫,因此Dink家庭成为有车族中最为重要的家庭结构模式。核心家庭,即夫妻二人加上小孩的家庭,比重为34.78%。核心家庭是当前社会中最普遍的家庭结构模式,因此比重较高不足为奇。联合家庭,即与父母同住的家庭, 仅有8.70%。单身族占17.39%,这部分人个人收入高,且时尚前卫,在有车用户中占据一定比重。另外已婚用户比重达到了81.5%,而未婚用户仅为18.5%。 3、有车用户职业分析 调查显示有29%勺消费者在企业工作,20%勺消费者是公务员,另外还有自由职业者、机关工作人员和教师等。目前企业单位的从业人员,包括私营业主、高级主管、白领阶层仍是最主要的汽车使用者。而自由职业者由于收入较高及其工作性质,也在有车族中占据了较 高比重。详见图1。

数学选修23第三章统计案例教案

第三章 统计案例 §3.1 独立性检验(1) 1. 某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人, 不吸烟者295人.调查结果是:吸烟的220人中有37人患呼吸道疾病(简称患病),183人未患呼吸道疾病(简称未患病);不吸烟的295人中有21人患病,274人未患病. 问题:根据这些数据能否断定“患呼吸道疾病与吸烟有关”? 为了研究这个问题,(1)引导学生将上述数据用下表来表示: 一.建构数学 1.独立性检验: (1)假设0H :患病与吸烟没有关系. 若将表中“观测值”用字母表示,则得下表: 如果实际观测值与假设求得的估计值相差不大,就可以认为所给数据(观测值)不能否定假设0H .否则,应认为假设0H 不能接受,即可作出与假设0H 相反的结论. (2)卡方统计量: 为了消除样本对上式的影响,通常用卡方统计量(χ22 ()-=∑ 观测值预期值预期值 )来进行估计. 卡方χ2统计量公式: χ2() ()()()() 2 n ad bc a b c d a c b d -=++++(其中n a b c d =+++) 由此若0H 成立,即患病与吸烟没有关系,则χ2的值应该很小.把37,183,21,274a b c d ====代入计算得 χ211.8634=,统计学中有明确的结论,在0H 成立的情况下,随机事件“2 6.635χ≥” 发生的概率约为0.01,即2 ( 6.635)0.01P χ ≥≈,也就是说,在0H 成立的情况下,对统计量χ2进行多次观测, 观测值超过6.635的频率约为0.01.由此,我们有99%的把握认为0H 不成立,即有99%的把握认为“患病与吸烟有关系”. 象以上这种用2 χ统计量研究吸烟与患呼吸道疾病是否有关等问题的方法称为独立性检验.

高中数学北师大版选修12第一章统计案例第3课时条件概率与独立事件精品学案

第3课时条件概率与独立事件 1.理解相互独立事件的定义,掌握相互独立事件同时发生的概率的计算方法. 2.理解条件概率的概念,会应用条件概率的计算公式求概率. 3.培养学生分析问题和解决问题的能力. 重点:条件概率与独立事件的概念、特征以及求其概率的方法. 难点:条件概率的求法. 某人有两个孩子,那么他的两个孩子都是女孩的概率是.如果在已知他的一个孩子是女孩的情况下,他的两个孩子都是女孩的概率还是吗? 问题1:在创设情境中,已知他的一个孩子是女孩,求他的两个孩子都是女孩的概率是一个条件概率问题. 一般地,设A,B为两个事件,且P(A)>0,称P(B|A)=为在事件A发生的条件下,事件B 发生的条件概率.P(B|A)读作A发生的条件下B发生的概率. 问题2:相互独立事件 事件的相互独立性:事件A(或B)是否发生,对事件B(或A)发生的概率没有影响,即P(B|A)=P(B),这样两个事件叫作相互独立事件. 问题3:如果A、B相互独立,那么A、B、、中相互独立的有哪些? 如果A,B相互独立,可以得如下3对:A与,与B,与也相互独立. 问题4:相互独立事件的性质以及事件独立性的推广 (1)两个相互独立事件同时发生的概率等于每个事件发生的概率之积,即P(AB)=P(A)·P(B). (2)如果事件A1,A2,A3,…,A n是相互独立的,那么这n个事件同时发生的概率等于每个事件发生的概率之积,即P(A1A2A3…A n)=P(A1)P(A2)P(A3)…P(A n). 互斥事件与相互独立事件的区别 两事件互斥是指同一次试验中两事件不能同时发生;两事件相互独立是指不同试验下,二者互不影响.两个相互独立事件不一定互斥,即可能同时发生,而互斥事件不可能同时发生. 1.已知P(B|A)=,P(A)=,则P(AB)等于(). A.B.C.D. 【解析】P(AB)=P(A)·P(B|A)=×=. 【答案】D 2.将两枚质地均匀的骰子各掷一次,设事件A={两个点数互不相同},B={出现一个5点},则P(B|A)等于(). A. B. C. D. 【解析】出现点数互不相同的共有6×5=30种,出现一个5点共有5×2=10种, ∴P(B|A)==. 【答案】A 3.设P(A|B)=P(B|A),P(A)=,则P(B)的值为. 【解析】∵P(A|B)=,P(B|A)=,∴P(B)=P(A)=. 【答案】 4.某班有学生40人,其中共青团员15人,全班分成四个小组,第一小组有学生10人,其中共青团员4人.现在要在班内任选一名共青团员当团员代表,求这个代表恰好在第一小组的概率. 【解析】设在班内任选一名学生,该学生是共青团员为事件A,在班内任选一名学生,该学生恰好在第一小组为事件B,则所求概率为P(B|A).又P(B|A)===. 所以所求概率为.

高中数学 专题 统计与统计案例

一、选择题 1.利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽出一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为( ) A .73 B .78 C .77 D .76 解析:样本的分段间隔为80 16=5,所以13号在第三组,则最大的编号为13+(16-3)×5 =78.故选B. 答案:B 2.某课外小组的同学们在社会实践活动中调查了20户家庭某月的用电量如下表所示: 则这20A .180,170 B .160,180 C .160,170 D .180,160 解析:用电量为180度的家庭最多,有8户,故这20户家庭该月用电量的众数是180,排除B ,C ;将用电量按从小到大的顺序排列后,处于最中间位置的两个数是160,180,故这20户家庭该月用电量的中位数是170.故选A. 答案:A 3.(2017·高考全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图,根据该折线图,下列结论错误的是( ) A .月接待游客量逐月增加 B .年接待游客量逐年增加 C .各年的月接待游客量高峰期大致在7,8月 D .各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳

解析:根据折线图可知,2014年8月到9月、2014年10月到11月等月接待游客量都在减少,所以A 错误.由图可知,B 、C 、D 正确. 答案:A 4.(2018·宝鸡质检)对一批产品的长度(单位:毫米)进行抽样检测,样本容量为200,如图为检测结果的频率分布直方图,根据产品标准,单件产品长度在区间[25,30)的为一等品,在区间[20,25)和[30,35)的为二等品,其余均为三等品,则该样本中三等品的件数为( ) A .5 B .7 C .10 D .50 解析:根据题中的频率分布直方图可知,三等品的频率为1-(0.050 0+0.062 5+0.037 5)×5=0.25,因此该样本中三等品的件数为200×0.25=50. 答案:D 5.(2018·兰州模拟)已知某种商品的广告费支出x (单位:万元)与销售额y (单位:万元)之间有如下对应数据: 根据表中提供的全部数据,用最小二乘法得出y 与x 的线性回归方程为y ^ =6.5x +17.5,则表中m 的值为( ) A .45 B .50 C .55 D .60 解析:∵x =2+4+5+6+8 5=5, y = 30+40+50+m +705=190+m 5 , ∴当x =5时,y =6.5×5+17.5=50, ∴190+m 5=50,解得m =60. 答案:D

高中数学统计与统计案例概率知识点上课讲义

高中数学统计与统计案例概率知识点

统计与统计案例概率(文科) 知识点 1.抽样调查 (1)抽样调查 通常情况下,从调查对象中按照一定的方法抽取一部分,进行______,获取数据,并以此对调查对象的某项指标作出______,这就是抽样调查. (2)总体和样本 调查对象的称为总______体,被抽取的称为样______本. (3)抽样调查与普查相比有很多优点,最突出的有两点: ①______ ②节约人力、物力和财力. 2.简单随机抽样 (1)简单随机抽样时,要保证每个个体被抽到的概率. (2)通常采用的简单随机抽样的方法:_____ 3.分层抽样 (1)定义:将总体按其属性特征分成若干类型(有时称作层),然后在每个类型中按照所占比例随机抽取一定的样本.这种抽样方法通常叫作分层抽样,有时也称为类型抽样. (2)分层抽样的应用范围: 当总体是由差异明显的几个部分组成时,往往选用分层抽样. 4.系统抽样 系统抽样是将总体中的个体进行编号,等距分组,在第一组中按照简单随机抽样抽取第一个样本,然后按______(称为抽样距)抽取其他样本.这种抽样方法有时也叫等距抽样或机

械抽样. 5.统计图表 统计图表是______数据的重要工具,常用的统计图表有______ 6.数据的数字特征 (1)众数、中位数、平均数 众数:在一组数据中,出现次数最多的数据叫作这组数据的众数. 中位数:将一组数据按大小依次排列,把处在______位置的一个数据(或最中间两个数据的平均数)叫作这组数据的中位数. 平均数:样本数据的算术平均数,即x =1n (x 1+x 2+…+x n ). 在频率分布直方图中,中位数左边和右边的直方图的面积应该______ (2)样本方差 标准差s = 1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2], 其中x n 是样本数据的第n 项,n 是,______x 是______ 标准差是刻画数据的离散程度的特征数,样本方差是标准差的______.通常用样本方差估计总体方差,当______时,样本方差很接近总体方差. 7.用样本估计总体 (1)通常我们对总体作出的估计一般分成两种,一种是______,另一种______. (2)在频率分布直方图中,纵轴表示,______数据落在各小组内的频率用______表示,各小长方形的面积总和等于.______ (3)在频率分布直方图中,按照分组原则,再在左边和右边各加一个区间.从所加的左边区间的中点开始,用线段依次连接各个矩形的顶端中点,直至右边所加区间的中点,就可以得到一条折线,称之为频率折线图. (4)当样本数据较少时,用茎叶图表示数据的效果较好,它没有信息的缺失,而且______,方便表示与比较.

统计学案例

第13章时间序列分析和预测案例一 新华印刷厂1990—2004年的利润资料如下表所示: 单位:万元 年份利润年份利润年份利润 1990 1991 1992 1993 1994 54 47 54 103 170 1995 1996 1997 1998 1999 152 142 175 182 159 2000 2001 2002 2003 2004 187 213 256 273 292 (1)试用移动平均法对该时间序列进行修匀,以反映利润的长期趋势(注:分别作三项和四项移动平均)。 (2)采用最小平方法拟合直线趋势方程,并预测新华印刷厂2005年和2006年的利润。[参考答案](1) 年份利润 Y 三项移动 总和 三项移动 平均 四项移动 总和 四项移动 平均 二项移正 平均(1)(2)(3)=(2)÷3 (4) (5)=(4)÷4 (6) 1990 54 1991 47 155 51.67 258 64.5 1992 54 204 68 79 374 93.5 1993 103 327 109 106.63 479 119.75 1994 170 425 141.67 130.75 567 141.75 1995 152 464 154.67 150.75 639 159.75 1996 142 469 156.33 161.25 651 162.75 1997 175 499 166.33 163.63 658 164.5 1998 182 516 172 170.13 703 175.75 1999 159 528 176 180.5 741 185.25 2000 187 559 186.33 194.5 815 203.75 2001 213 656 218.67 218 929 232.25 2002 256 742 247.33 245.38

2020版高中数学 第三章 统计案例 3.2 独立性检验的基本思想及其初步应用学案 新人教A版选修2-3

§3.2 独立性检验的基本思想及其初步应用 学习目标 1.了解分类变量的意义.2.了解2×2列联表的意义.3.了解随机变量K 2 的意义.4.通过对典型案例分析,了解独立性检验的基本思想和方法. 知识点一 分类变量及2×2列联表 思考 山东省教育厅大力推行素质教育,增加了高中生的课外活动时间,某校调查了学生的课外活动方式,结果整理成下表: 体育 文娱 合计 男生 210 230 440 女生 60 290 350 合计 270 520 790 如何判定“喜欢体育还是文娱与性别是否有联系”? 答案 可通过表格与图形进行直观分析,也可通过统计分析定量判断. 梳理 (1)分类变量 变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量. (2)列联表 ①定义:列出的两个分类变量的频数表,称为列联表. ②2×2列联表 一般地,假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(也称为2×2列联表)为下表. y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计 a +c b +d a + b + c +d 知识点二 等高条形图 1.与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征. 2.如果通过直接计算或等高条形图发现a a + b 和 c c +d 相差很大,就判断两个分类变量之间有关系. 知识点三 独立性检验

1.定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验. 2.K2=n(ad-bc)2 (a+b)(c+d)(a+c)(b+d) ,其中n=a+b+c+d为样本容量. 3.独立性检验的具体做法 (1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0. (2)利用公式计算随机变量K2的观测值k. (3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”. 1.列联表中的数据是两个分类变量的频数.( √) 2.事件A与B的独立性检验无关,即两个事件互不影响.( ×) 3.K2的大小是判断事件A与B是否相关的统计量.( √) 类型一等高条形图的应用 例1 为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下: 组别阳性数阴性数总计 铅中毒病人29736 对照组92837 总计383573 试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系? 考点定性分析的两类方法 题点利用图形定性分析 解等高条形图如图所示: 其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率. 由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.

高中数学选修2-3第三章《统计案例》测试题

高中数学选修2-3第三章《统计案例》测试题 姓名___________学号______(满分100分,时间90分钟) 一、选择题:(每题5分,共50分,请将准确答案填在答题卡内) 1.已知一个线性回归方程为?y =1.5x +45(x i ∈{1,7,5,13,19}),则y =( ) A .58.5 B .58.6 C .58 D .57.5 2.对有线性相关关系的两个变量建立的回归直线方程 ???y a bx =+中,回归系数? b ( ) A .能等于0 B .小于0 C .可以小于0 D .只能等于0 3.能表示n 个点与相应直线在整体上的接近程度的是( ) A.1 ()n i i y i =-∑ B 1 ()n i i i y =-∑ C. 2 1 () n i i y i =-∑ D. 21 ()n i i y y =-∑ 4.通过随机询问110名不同的大学生是否爱好某项运动,得到如下的列联表: 男 女 总计 爱好 40 20 60 不爱好 20 30 50 总计 60 50 110 由K 2 = ()()()()() n ad bc a b c d a c b d -++++算得K 2 =2 110(40302030)7.860506050 ??-?≈???附表: P (K 2≥k ) 0.10 0.05 0.025 0.01 0.005 0.001 k 2.706 3.841 5.024 6.635 7.879 10.828 参照附表,得到的正确结论是( ) A.有99%以上的把握认为“爱好该项运动与性别有关” B.有99%以上的把握认为“爱好该项运动与性别无关” C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关” D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 5.已知变量x ,y 之间具有线性相关关系,其回归方程为y ^ =-3+bx ,若∑i =1 10x i =17,∑i =1 10 y i =4,则b 的值为( ) A .2 B .1 C .-2 D .-1 6.在一次试验中,测得(x ,y )的四组值分别是A (1,2),B (2,3),C (3,4),D (4,5),则y 与x 间的线性回归方程为( ) A. y ^ =x +1 B. y ^=x +2 C. y ^=2x +1 D . y ^ =x -1 7.有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:

专题突破练20 统计与统计案例

专题突破练20 统计与统计案例 1. (2020吉林辽源高三检测,18)某城市在进行创建文明城市的活动中,为了解居民对“创建文明城市”的满意程度,组织居民给活动打分(分数为整数.满分为100分).从中随机抽取一个容量为120的样本.发现所有数据均在[40,100]内.现将这些分数分成以下6组并画出了样本的频率分布直方图,但不小心污损了部分图形,如图所示.观察图形,回答下列问题: (1)算出第三组[60,70)的频数,并补全频率分布直方图; (2)请根据频率分布直方图,估计样本的众数、中位数和平均数.(每组数据以区间的中点值为代表) 2.下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图. 为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①;y ^ =-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^ =99+17.5t. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.

3.(2020河南郑州高三检测,19)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图: (1)根据茎叶图判断哪种生产方式的效率更高?并说明理由; (2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m 的工人数填入下面的列联表: (3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异? 附:K2=n(ad-bc)2 (a+b)(c+d)(a+c)(b+d) ,其中n=a+b+c+d.

统计与统计案例(文科)

统计与统计案例 第一节随机抽样 1.下面的抽样方法是简单随机抽样的是( ) A.在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式确定号码的后四位为2709的为三等奖 B.某车间包装一种产品,在自动包装的传送带上,每隔30分钟抽一包产品,称其重量是否合格 C.某学校分别从行政人员、教师、后勤人员中抽取2人、14人、4人了解对学校机构改革的意见 D.用抽签方法从10件产品中选取3件进行质量检验 答案:D 2.总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( ) 答案:D 3.为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为( ) A.50 B.40 C.25 D.20 答案:C 4.某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( ) A.11 B.12 C.13 D.14 答案:B 5.在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示. 若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________. 答案:4 6.某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在

抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( ) A.90 B.100 C.180 D.300 答案:C 7.某校高一年级有900名学生,其中女生400名,按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为________. 答案:5 8.某工厂生产甲、乙、丙三种型号的产品,产品数量之比为3∶5∶7,现用分层抽样的方法抽出容量为n的样本,其中甲种产品有18件,则样本容量n=() A.54 B.90 C.45 D.126 答案:B 9.某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人). 从参加这三个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a的值为________. 答案:30 10.甲、乙两套设备生产的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为________件. 答案:1800 11.某市有A、B、C三所学校,共有高三文科学生1 500人,且A、B、C三所学校的高三文科学生人数成等差数列,在三月进行全市联考后,准备用分层抽样的方法从所有高三文科学生中抽取容量为120的样本,进行成绩分析,则应从B校学生中抽取________人. 答案:40

统计学案例集

统计学教学案例集统计学精品课建设小组 2004年11月

【案例一】全国电视观众抽样调查抽样方案 一、调查目的、范围和对象 1.1 调查目的 准确获取全国电视观众群体规模、构成以及分布情况;获取这些观众的收视习惯,对电视频道和栏目的选择倾向、收视人数、收视率与喜爱程度,为改进电视频道和栏目、开展电视观众行为研究提供新的依据。 1.2 调查范围 全国31个省、自治区、直辖市(港澳台除外)中所有电视信号覆盖区域。 1.3 调查对象 全国城乡家庭户中的13岁以上可视居民以及4-12岁的儿童。包括有户籍的正式住户也包括所有临时的或其他的住户,只要已在本居(村)委会内居住满6个月或预计居住6个月以上,都包括在内。不包括住在军营内的现役军人、集体户及无固定住所的人口。 二、抽样方案设计的原则与特点 2.1 设计原则 抽样设计按照科学、效率、便利的原则。首先,作为一项全国性抽样调查,整体方案必须是严格的概率抽样,要求样本对全国及某些指定的城市或地区有代表性。其次,抽样方案必须保证有较高的效率,即在相同样本量的条件下,方案设计应使调查精度尽可能高,也即目标量估计的抽样误差尽可能小。第三,方案必须有较强的可操作性,不仅便于具体抽样的实施,也要求便于后期的数据处理。 2.2 需要考虑的具体问题、特殊要求及相应的处理方法 2.2.1 城乡区分 城市与农村的电视观众的收视习惯与爱好有很大的区别。理所当然地应分别研究,

以便于对比。最方便的处理是将他们作为两个研究域进行独立抽样,但代价是,这样做的样本点数量较大,调查的地域较为分散,相应的费用也就较高。另一种处理方式是在第一阶抽样中不考虑区分城乡,统一抽取抽样单元(例如区、县),在其后的抽样中再区分城、乡。这样做的优点是样本点相对集中,但数据处理较为复杂。综合考虑各种因素,本方案采用第二种处理方式。 在样本区、县中,以居委会的数据代表城市;以村委会的数据代表农村。2.2.2 抽样方案的类型与抽样单元的确定 全国性抽样必须采用多阶抽样,而多阶抽样中设计的关键是各阶抽样单元的选择,其中尤以第一阶抽样单元最为重要。本项调查除个别直辖市及城市外,不要求对省、自治区进行推断,从而可不考虑样本对省的代表性。在这种情况下,选择区、县作为初级抽样单元最为适宜。因为全国区、县的总数量很大,区、县样本量也会比较大,因而第一阶的抽样误差比较小。另外对区、县的分层也可分得更为精细。 本抽样方案采用分层五阶抽样。各阶抽样单元确定为: 第一阶抽样:区(地级市以上城市的市辖区)、县(包括县级市等); 第二阶抽样:街道、乡、镇; 第三阶抽样:居委会、村委会; 第四阶抽样:家庭户; 第五阶抽样:个人。 为提高抽样效率,减少抽样误差, 在第一阶抽样中对区、县采用按地域及类别分层。在每一层内前三阶抽样均采用按与人口成正比的不等概率系统抽样(PPS系统抽样),而第四阶抽样采用等概率系统抽样,即等距抽样,第五阶抽样采用简单随机抽样。 2.2.3 自我代表层的设立 根据要求,本次调查需要对北京、上海两个直辖市以及广州、成都、长沙与西安四个省会城市进行独立分析,因而在处理上将这些城市(包括下辖的所有区、县)每个都作为单独的一层处理。为方便起见,以下把这样的层称为自我代表层。考虑到在这样处理后,全国其他区县在分层中的一些具体问题以及各地的特殊情况,将天津市也作为自我代表层处理。另外,鉴于西藏情况特殊,所属区县与其它省(自治区)的差别很大,因此也将它作为自我代表层处理。这样自我代表层共有8个,包括以下城市与地区:

高中数学第三章统计案例2独立性检验教学案北师大版选修2_3

§2独立性检验 [对应学生用书P40] 1.2×2列联表 设A ,B 为两个变量,每个变量都可以取两个值,变量A :A 1,A 2=A - 1;变量B :B 1,B 2 =B - 1,用下表表示抽样数据 并将此表称为2.χ2 的计算公式 χ2 = n ad -bc 2a +b c + d a +c b +d . 3.独立性判断的方法 (1)当χ2 ≤2.706时,没有充分的证据判定变量A ,B 有关联,可以认为变量A ,B 是没有关联的; (2)当χ2>2.706时,有90%的把握判定变量A ,B 有关联; (3)当χ2>3.841时,有95%的把握判定变量A ,B 有关联; (4)当χ2>6.635时,有99%的把握判定变量A ,B 有关联. (1)独立性检验是一种假设检验,在对总体的估计中,通过抽取样本,构造合适的统计量,对假设的正确性进行判断. (2)使用χ2统计量作2×2列联表的独立性检验时,一般要求表中的4个数据都大于5,数据越大,越能说明结果的普遍性. [对应学生用书P41]

[例1] 在调查的6名患有色盲,试作出性别与色盲的列联表. [思路点拨] 在2×2列联表中,共有两类变量,每一类变量都有两个不同的取值,然后出相应的数据,列表即可. [精解详析] 根据题目所给的数据作出如下的列联表: [一点通] 1.下面是一个2×2列联表:则表中a ,b 处的值分别为( ) A.32,40 B C .74,82 D .64,72 解析:a =53-21=32,b =a +8=40. 答案:A 2.某学校对高三学生作一项调查后发现:在平时的模拟考试中,性格内向的426名学生中有332名在考前心情紧张,性格外向的594名学生中在考前心情紧张的有213人.试作出2×2列联表. 解:列联表如下:

统计与统计案例(文科)教程文件

统计与统计案例(文科)

统计与统计案例 第一节随机抽样 1.下面的抽样方法是简单随机抽样的是( ) A.在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式确定号码的后四位为2709的为三等奖 B.某车间包装一种产品,在自动包装的传送带上,每隔30分钟抽一包产品,称其重量是否合格 C.某学校分别从行政人员、教师、后勤人员中抽取2人、14人、4人了解对学校机构改革的意见 D.用抽签方法从10件产品中选取3件进行质量检验 答案:D 2.总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( ) 答案:D 3.为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为( ) A.50 B.40 C.25 D.20 答案: C 4.某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( ) A.11 B.12 C.13 D.14 答案:B 5.在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示. 若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________. 答案:4 6.某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,

在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( ) A.90 B.100 C.180 D.300 答案:C 7.某校高一年级有900名学生,其中女生400名,按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为________. 答案:5 8.某工厂生产甲、乙、丙三种型号的产品,产品数量之比为3∶5∶7,现用分层抽样的方法抽出容量为n的样本,其中甲种产品有18件,则样本容量n=() A.54 B.90 C.45 D.126 答案:B 9.某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人). 个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a的值为________. 答案:30 10.甲、乙两套设备生产的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为________件. 答案:1800 11.某市有A、B、C三所学校,共有高三文科学生1 500人,且A、B、C三所学校的高三文科学生人数成等差数列,在三月进行全市联考后,准备用分层抽样的方法从所有高三文科学生中抽取容量为120的样本,进行成绩分析,则应从B校学生中抽取________人. 答案:40

相关文档
最新文档