成对对比统计分析
第八章 成对数据的统计分析高二数学课件(人教A版2019选择性必修第三册)

(2)由(1)知, <m></m> , <m></m> ,∴所求的线性回归方程是 <m></m> .当特征量 <m></m> 为12时,可预测特征量 <m></m> .(3)由(1)知 <m></m> ,又由 <m></m> ,得 <m></m> ,从而 <m></m> .
解决回归分析问题的一般步骤(1)画散点图.根据已知数据画出散点图.(2)判断变量的相关性并求经验回归方程.通过观察散点图,直观感知两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出经验回归方程.(3)回归分析.画残差图或计算R2,进行残差分析.(4)实际应用.依据求得的经验回归方程解决实际问题.
(3)设特征量 <m></m> ,其中 <m></m> 为样本平均数 <m></m> , <m></m> 为样本方差 <m></m> ,求 <m></m> .
参考数据: <m></m> , <m></m> , <m></m> .若 <m></m> ,则 <m></m> , <m></m> .
解:(1)由题意,得 <m></m> , <m></m> , <m></m> , <m></m> , <m></m> , ∴相关系数 <m></m> .由于 <m></m> 很接近1,说明 <m></m> , <m></m> 的线性相关性很强,因而可以用线性回归模型拟合 <m></m> 与 <m></m> 的关系.由于 <m></m> ,故其关系为负相关.
第11章第3成对数据的统计分析

基本思想、方法及其简单应用.
出线性回归直线
3.回归分析
(2)利用独立性检验判
了解回归的基本思想、方法及其简单应 断两个变量是否有关
用.
讲
课
人
:
邢
启
强
2
两个变量有关系,但又没有确切到可由其中的一个去精确地决
定另一个的程度,这种关系称为相关关系.
不一定是因果关系,也可能是伴随关系
3
1.散点图:成对样本数据都可用直角坐标系中的点表示出来,由这些点组
成了统计图.我们我们把这样的统计图叫做散点图
2.两个变量的线性相关
(1)正相关
在散点图中,点散布在从 左下角 到 右上角 的区域,对于两个变量的
这种相关关系,我们将它称为正相关.
(2)负相关
在散点图中,点散布在从 左上角 到 右下角 的区域,两个变量的这种
2
ˆ
(
y
y
)
i i
i 1
n
2
(
y
y
)
i
残差平方和
1
。
总偏差平方和
i 1
在使用经验回归方程进行预测时,需要注意下列问题:
(1)经验回归方程只适用于所研究的样本的总体,例如,根据我国父亲身高与儿子身高
的数据建立的经验回归方程,不能用来描述美国父亲身高与儿子身高之间的关系,同
样,根据生长在南方多雨地区的树高与胸径的数据建立的经验回归方程,不能用来描
,利用 χ2 的取值推断分类
(a+b)(c+d)(a+c)(b+d)
变量 X 和 Y 是否独立 的方法称为 χ2 独立性检验.
2024届高考数学一轮复习 第九章《统计与成对数据的统计分析》第三节 成对数据的统计分析

2. 已知变量 和 满足关系式 ,变量 与 正相关,则下列结论中正确的是( )
A. 与 正相关, 与 负相关 B. 与 正相关, 与 正相关C. 与 负相关, 与 负相关 D. 与 负相关, 与 正相关
C
3. 变量 与 相对应的一组数据为 , , , , ;变量 与 相对应的一组数据为 , , , , 表示变量 与 之间的线性相关系数, 表示变量 与 之间的线性相关系数,则( )
1
2
3
4
5
32.0
31.0
33.0
36.0
37.0
25.0
30.0
34.0
37.0
39.0
6
7
8
9
10
38.0
39.0
43.0
45.0
41.0
42.0
44.0
48.0
(1) 求第10年该城市的居民年收入 ;
[解析] 因为 ,所以 ,解得 .
(2) 若该城市的居民年收入 与该种商品的销售额 之间满足经验回归方程 .
3. (新教材改编题)如图所示的散点图中,两个变量的相关关系为正相关的是________.
图(4)
[解析] 只有题图(4)中随着 的增大, 值也呈现增加的趋势,故题图(4)中变量关系为正相关.
A. B. C. D.
C
4. 一位同学分别对甲、乙、丙、丁四组变量进行线性相关试验,并分别计算出决定系数 ,则线性相关程度最高的一组变量是( )
甲
乙
丙
丁
0.87
0.91
0.58
0.83
A. 甲 B. 乙 C. 丙 D. 丁
B
[解析] 越大,两个变量的线性相关程度越高. ,则线性相关程度最高的是乙,故选B.
成对数据的统计分析(题型归纳)

成对数据的统计分析【考情分析】1.考查特点:(1)统计知识主要考查:抽样方法、样本数字特征、统计图表等,以选择题、填空题形式命题,难度较小;(2)回归分析与独立性检验常与概率交汇命题,也是近年的热点,常出现在第19或20题的位置,以中档题为主.2.关键能力:逻辑思维能力、运算求解能力、数学建模能力、创新能力.3.学科素养:数学抽象、逻辑推理、数学建模、数学运算、数据分析.【题型一】回归分析在实际问题中的应用【典例分析】【例1】(2021·长沙统考)某互联网公司为了确定下一季度的前期广告投入计划,收集了近6个月广告投入量x (单位:万元)和收益y (单位:万元)的数据如下表:月份123456广告投入量/万元24681012收益/万元14.2120.3131.831.1837.8344.67他们用两种模型①y ^=b ^x +a ^,②y =a e bx 分别进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值:x -y-∑6i =1x i y i∑6i =1x 2i 7301464.24364(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由.(2)残差绝对值大于2的数据被认为是异常数据,需要剔除:(ⅰ)剔除异常数据后,求出(1)中所选模型的回归方程;(ⅱ)广告投入量x =18时,(1)中所选模型收益的预报值是多少?附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2=∑ni =1x i y i -nx -y -∑n i =1x 2i -nx -2,a ^=y --b ^x -.【解析】(1)应该选择模型①,因为模型①的残差点比较均匀地落在水平的带状区域中,且模型①的带状区域比模型②的带状区域窄,所以模型①的拟合精度高,回归方程的预报精度高.(2)(ⅰ)剔除异常数据,即3月份的数据后,得x -=15×(7×6-6)=7.2,y -=15×(30×6-31.8)=29.64.∑5i =1x i y i =1464.24-6×31.8=1273.44,∑5i =1x 2i =364-62=328.b ^=∑5i =1x i y i -5x -y -∑5i =1x 2i -5x -2=1273.44-5×7.2×29.64328-5×7.2×7.2=206.468.8=3,a ^=y --b ^x -=29.64-3×7.2=8.04.所以y 关于x 的回归方程为y ^=3x +8.04.(ⅱ)把x =18代入(ⅰ)中所求回归方程得y ^=3×18+8.04=62.04,故预报值为62.04万元.【例2】一个国家的数学实力往往影响着国家的科技发展,几乎所有的重大科技进展都与数学息息相关,我国第五代通讯技术(5)G 的进步就是源于数学算法的优化.华为公司所研发的Single RAN 算法在部署5G 基站时可以把原来的4G 、3G 基站利用起来以节省开支,华为创始人任正非将之归功于“数学的力量”,近年来,我国加大5G 基站建设力度,基站已覆盖所有地级市,并逐步延伸到乡村.(1)现抽样调查英市所轴的A 地和B 地5G 基站覆盖情况,各取100个村,调查情况如下表:已覆盖未覆盖A 地2080B 地2575视样本的频率为总体的概率,假设从A 地和B 地所有村中各随机抽取2个村,求这4个村中A 地5G 已覆盖的村比B 地多的概率;(2)该市2020年已建成的5G 基站数y 与月份x 的数据如下表:x123456789101112y283340428547701905115114231721210926013381探究上表中的数据发现,因年初受新冠疫情影响,5G 基站建设进度比较慢,随着疫情得到有效控制,5G 基站建设进度越来越快,根据散点图分析,已建成的5G 基站数呈现先慢后快的非线性变化趋势,采用非线性回归模型ˆˆe bx y a =拟合比较合理,请结合参考数据,求5G 基站数y 关于月份x 的回归方程.(b 的值精确到0.01).附:设ln u y =,则ln i i u y =,(1,2,,12)i = ,1299.17y ≈, 6.88u ≈,()1221143i i x x =-=∑,()()12137238iii x x y y =--=∑,()()12132.42iii x x u u =--≈∑,对于样本(),i i x y ,(1,2,,)i n = 的线性回归方程ˆˆˆybx a =+有()()()121ˆniii ni i x x y y b x x ==--=-∑∑,ˆˆa y bx=-.【解析】(1)用样本估计总体,抽到A 地5G 覆盖的村概率为15,抽到B 地5G 覆盖的村概率为14,A 地抽到的2个村中5G 基站覆盖的村个数为X ,则X 满足二项分布12,5B ⎛⎫ ⎪⎝⎭2214()55i i iP X i C -⎛⎫⎛⎫== ⎪ ⎪⎝⎭⎝⎭,0,1,2i =B 地抽到的2个村中5G 基站覆盖的村个数为Y ,则Y 满足二项分布12,4B ⎛⎫ ⎪⎝⎭2213()44iii P Y i C -⎛⎫⎛⎫== ⎪⎪⎝⎭⎝⎭,0,1,2i =,从A 地和B 地各随机抽取2个村,这4个村中A 地5G 覆盖的村比B 地5G 覆盖的村多的概率为(1)(0)(2)(0)(2)(1)P P X P Y P X P Y P X P Y ===+==+==22221122143131138755454544400C C ⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫=++=⎪⎪⎪ ⎪ ⎪ ⎪ ⎪⎪⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭.(2)由指数模型ˆˆˆbx y ae =,设ln u y =,则ln u a bx =+,则u 与x 是线性相关关系.因为123126.512x +++⋯⋯+==, 6.88u ≈,()()12132.42i i i x x u u =--≈∑,()1221143i i x x =-=∑,所以()()()212132.420.23143ni i n i i x x uu b x x ==--=≈≈-∑∑,ln 6.880.23 6.5 5.39a u bx ≈-≈-⨯≈,即 5.390.23u x =+,即 5.390.23x y e +=.【提分秘籍】1.对于非线性回归分析问题,应先进行变量代换,求出代换后的回归直线方程,再求非线性回归方程.2.回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.【变式演练】1.(2021·贵州凯里一中高三开学考试(理))越接近高考学生焦虑程度越强,四个高三学生中大约有一个有焦虑症,经有关机构调查,得出距离高考周数与焦虑程度对应的正常值变化情况如下表周数周数x 65432 1.正常值y 556372809099其中121ˆni ii nii x y nxybxnx ==-=-∑∑,11452niii x y==∑,2191ni i x ==∑,ˆˆa y bx=-(1)作出散点图;(2)根据上表数据用最小二乘法求出y 关于x 的经验回归方程ˆˆy bx a =+(精确到0.01)(3)根据经验观测值为正常值的0.85~1.06为正常,若1.06~1.12为轻度焦虑,1.12~1.20为中度焦虑,1.20及以上为重度焦虑.若为中度焦虑及以上,则要进行心理疏导.若一个学生在距高考第二周时观测值为103,则该学生是否需要进行心理疏导?【解析】(1)散点图如下:(2)因为654321 3.56x +++++==,55637280909976.56y +++++==214526 3.576.5ˆ916 3.5b -⨯⨯=-⨯≈8.83-,ˆˆ76.5(8.83) 3.5a y bx =-=--⨯107.4=,所以所求经验回归方程为:8.83107.4y x =-+.(3)因为1031.14 1.1290≈>,为中度焦虑,所以该学生需要进行心理疏导.2.(2021·济南市历城第二中学高三月考)某公司为了预测下月产品销售情况,找出了近7个月的产品销售量y (单位:万件)的统计表:月份代码t1234567销售量y (万件)1y 2y 3y 4y 5y 6y 7y 但其中数据污损不清,经查证719.32ii y==∑,7140.17i i i t y ==∑0.55=.(1)请用相关系数说明销售量y 与月份代码t 有很强的线性相关关系;(2)求y 关于t 的回归方程(系数精确到0.01);(3)公司经营期间的广告宣传费i x =(1,2,,7i= ),每件产品的销售价为10元,预测第8个月的毛利润能否突破15万元,请说明理由.(毛利润等于销售金额减去广告宣传费)参考公式及数据: 2.646≈,相关系数()()niitty y r --=∑||0.75r >时认为两个变量有很强的线性相关关系,回归方程^^^y bt a =+中斜率和截距的最小二乘估计公式分别为^121(()nii i nii tt y y b tt ==--=-∑∑,^^a y bt =-.【解析】(1)由折线图中的数据和附注中的参考数据得4t =,()72128i i t t=-=∑0.55=,()()77711140.1749.32 2.89ii i i i i i i tty y t y t y ===--=-=-⨯=∑∑∑∴ 2.890.992 2.6460.55r =≈≈⨯⨯,因为0.990.75>所以销售量y 与月份代码t 有很强的线性相关关系.(2)由9.32 1.3317y =≈及(Ⅰ)得()()()717212.89ˆ0.10328ii i i i tty y b t t ==--==≈-∑∑ˆˆ 1.3310.10340.92ay bt =-≈-⨯≈所以y 关于t 的回归方程为ˆ0.100.92yt =+(3)当8t =时,代入回归方程得ˆ0.1080.92 1.72y=⨯+=(万件)第8个月的毛利润为10 1.7217.22 1.41414.372z =⨯=-⨯=14.37215<,预测第8个月的毛利润不能突破15万元.【题型二】独立性检验在实际问题中的应用【典例分析】【例3】(2021·山东青岛市·高三二模)现对某市工薪阶层对于“楼市限购令”的态度进行调查,随机抽调了50人,他们月收入(单位:百元)的频数分布及对“楼市限购令”赞成人数如下表:月收入[)25,35[)35,45[)45,55[)55,65[)65,75[)75,85频数510151055赞成人数4812521(1)根据以上统计数据完成下面的22⨯列联表,根据小概率值α=0.025的χ2独立性检验,判断能否有97.5%的把握认为“某市工薪阶层对于‘楼市限购令’的态度与月收入以6500元为分界点有关”?月收入不低于65百元的人数月收入低于65百元的人数合计赞成不赞成合计(2)若对月收入在[)55,65和[)65,75的被调查人中各随机选取两人进行追踪调查,求在选中的4人中有人不赞成的条件下,赞成“楼市限购令”的人数ξ的分布列及数学期望.附:()()()()()22n ad bc a b c d a c b d χ-=++++,n a b c d =+++.()2P k ϕ≥0.0500.0250.0100.0050.001k3.841 5.024 6.6357.87910.828【解析】(1)由题意列联表如下:月收入不低于65百元的人数月收入低于65百元的人数合计赞成32932不赞成71118合计104050220.02550(311729) 6.27 5.024********K x ⨯⨯-⨯=≈>=⨯⨯⨯,根据小概率值α=0.025的χ2独立性检验,有97.5%的把握认为“某市工薪阶层对于‘楼市限购令’的态度与月收入以6500元为分界点有关”(2)ξ的取值分别是0,1,2,3,4,2235225101(0)15C C P C C ξ==⨯=,11221132535522225105103(1)10C C C C C C P C C C C ξ⨯==⨯+=12522111132552222222510505125304519(2)C C C C C C C C P C C C C C C ξ==⨯+⨯+=,2112112555322205117(3)90P C C C C C C C C ξ===+⨯,2252221051(4)45C C P C C ξ===,记4人中有人不赞成为事件A ,则44()1(4)45P A P ξ=-==,1(0)315(0|)44()4445P P A P A ξξ=====,同理27(1|)88P A ξ==,19(2|)44P A ξ==,17(3|)88P A ξ==,(4|)0P A ξ==,所以ξ的分布列为:ξ01234P34427881944178843271917012340448844887E ξ=⨯+⨯+⨯+⨯+⨯=.【提分秘籍】独立性检验的具体做法(1)根据实际问题的需要确定容许推断“两个随机事件有关系”犯错误概率的显著性水平α,然后查表确定分位数k .(2)利用公式,计算随机变量χ2.(3)如果χ2>k ,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够证据支持结论“X 与Y 有关系”.【变式演练】1.(2021·吉林长春市·东北师大附中高三其他模拟(理))近日,为进一步做好新冠肺炎疫情防控工作,某社区以网上调查问卷形式对辖区内部分居民做了新冠疫苗免费接种的宣传和调查.调查数据如下:共95份有效问卷,40名男性中有10名不愿意接种疫苗,55名女性中有5名不愿意接种疫苗.(1)根据所给数据,完成下面的2×2列联表,并根据列联表,根据小概率值α=0.050的χ2独立性检验,判断判断是否有95%的把握认为是否愿意接种疫苗与性别有关?愿意接种不愿意接种合计男女合计(2)从不愿意接种的15份调查问卷中得到拒绝接种新冠疫苗的原因:有3份身体原因不能接种;有2份认为新冠肺炎已得到控制,无需接种:有4份担心疫苗的有效性:有6份担心疫苗的安全性.求从这15份问卷中随机选出2份,在已知至少有一份担心疫苗安全性的条件下,另一份是担心疫苗有效性的概率.附:()()()()()22n ad bc x a b c d a c b d -=++++()2P k χ>0.0500.0100.005k3.841 6.6357.879【解析】(1)愿意接种不愿意接种合计男301040女50555合计801595()()()()()()2220.050953055010 4.408 3.84140558015n ad bc x a b c d a c b d χ-⨯⨯-⨯====++++⨯⨯⨯根据小概率值α=0.050的χ2独立性检验,有0095的把握认为是否愿意接种疫苗与性别有关.(2)设事件A 为至少有一份担心疫苗安全性,事件B 为另一份担心疫苗有效性,则()2921523135C P A C =-=,()1164215835C C P AB C ==,所以()()()8835|232335P AB P B A P A ===.【题型三】有关预测与决策问题【典例分析】【例4】(2021·山东淄博市·实验中学高三模拟)某市在司法知识宣传周活动中,举办了一场司法知识网上答题考试,要求本市所有机关、企事业单位工作人员均要参加考试,试题满分为100分,考试成绩大于等于90分的为优秀.考试结束后,组织部门从所有参加考试的人员中随机抽取了200人的成绩作为统计样本,得到样本平均数为82、方差为64.假设该市机关、企事业单位工作人员有20万人,考试成绩ξ服从正态分布()82,64N .(1)估计该市此次司法考试成绩优秀者的人数有多少万人?(2)该市组织部门为调动机关、企事业单位工作人员学习司法知识的积极性,制定了如下奖励方案:所有参加考试者,均可参与网上“抽奖赢手机流量”活动,并且成绩优秀者可有两次抽奖机会,其余参加者抽奖一次.抽奖者点击抽奖按钮,即随机产生一个两位数()10,11,,99L ,若产生的两位数的数字相同,则可获赠手机流量5G ,否则获赠手机流量1G .假设参加考试的所有人均参加了抽奖活动,试估计此次抽奖活动赠予的手机流量总共有多少G ?参考数据:若()2,N ξμσ,则()0.68P μσξμσ-<<+=【解析】(1)由题意,随机抽取了200人的成绩作为统计样本,得到样本平均数为82、方差为64,即82,8μσ==,所以考试成绩优秀者得分90ξ≥,即ξμσ≥+.又由()0.68P μσξμσ-<<+≈,得()()110.680.162P ξμσ≥+≈-=.所以估计该市此次司法考试成绩优秀者人数可达200.16 3.2⨯=万人.(2)设每位抽奖者获赠的手机流量为X G ,则X 的值为1,2,5,6,10.可得()()9756110.16101000P X ==-⨯=,()29129620.161010000P X ⎛⎫==⨯=⎪⎝⎭,()()184510.16101000P X ==-⨯=,()9128860.162101010000P X ==⨯⨯⨯=,()2116100.161010000P X ⎛⎫==⨯=⎪⎝⎭.所以随机变量X 的分布列为:X125610P75610001296100008410000288100001610000所以()75612968428816125610 1.62410001000010001000010000E X =⨯+⨯+⨯+⨯+⨯=(G ).因此,估计此次抽奖活动赠予的手机流量总值为20 1.62432.48⨯=(万G ).【变式演练】(2021•青羊区校级模拟)2021年3•15期间,某家具城举办了一次家具有奖促销活动,消费每超过1万元(含1万元),均可抽奖一次,抽奖方案有两种,顾客只能选择其中的一种.方案一:从装有10个形状与大小完全相同的小球(其中红球2个,白球1个,黑球7个)的抽奖盒中,一次性摸出3个球,其中奖规则为:若摸到2个红球和1个白球,则打5折;若摸出2个红球和1个黑球则打7折;若摸出1个白球2个黑球,则打9折:其余情况不打折.方案二:从装有10个形状与大小完全相同的小球(其中红球2个,黑球8个)的抽奖盒中,有放回每次摸取1球,连摸3次,每摸到1次红球,立减2000元.(1)若一位顾客消费了1万元,且选择抽奖方案一,试求该顾客享受7折优惠的概率;(2)若某顾客消费恰好满1万元,试从数学期望的角度比较该顾客选择哪一种抽奖方案更合算?【分析】(1)利用古典概型的概率公式求解即可;(2)先求出方案一的随机变量X 的可能取值,然后求出其对应的概率,列出分布列,由数学期望的计算公式求解,然后再利用方案二满足二项分布,由二项分布的数学期望公式求解,最后进行比较即可得到答案.【解答】解:(1)选择方案一,若享受到7折,则需要摸出2个红球和1个黑球,故该顾客享受7折优惠的概率为=;(2)若选择方案一,设付款金额为X元,则X的可能取值为5000,7000,9000,10000,所以P(X=5000)==,P(X=7000)==,P(X=9000)==,P(X=10000)=1﹣﹣﹣=,故E(X)=5000×+7000×+9000×+10000×=元;若选择方案二,设摸到红球的个数为Y,付款金额为Z,则Z=10000﹣2000Y,由已知可得Y~B(3,),所以E(Y)=3×=,故E(Z)=E(10000﹣2000Y)=10000﹣2000E(Y)=8800元.因为E(X)>E(Z),故该顾客选择第二种抽奖方案更合算.1.春节是中国人的团圆节,2021年春节期间,某超市为了给“就地过年”的外来务工人员营造温馨的新春佳节氛围,在2月11日至2月17日期间举行购物抽奖活动,活动规定:凡是一次性购物满300元的顾客就可以从装有8个球(其中3个球上写有“牛转乾坤”,另5个球上写有“谢谢惠顾”,每个球除写的字不同外,其他都相同)的抽奖箱中一次性摸出3个球,只有摸到“牛转乾坤”才能获奖,若3个球都是“牛转乾坤”,则获一等奖,奖励20元;若有2个球是“牛转乾坤”,则获二等奖,奖励5元;若只有1个球是“牛转乾坤”,则获三等奖,奖励2元.(1)若一位顾客在此活动期间购物满300元并且参加抽奖,求这位顾客中奖的概率;(2)经统计,2月11日有1400人次购物满300元,其中有280人次没有参加抽奖,设参加一次抽奖所得奖金的金额为X 元,试求X 的分布列,并求2月11日该超市发放奖金总金额的数学期望.【解析】(1)解法一:设一位顾客在此活动期间购物满300元参加抽奖且中奖为事件A ,参加抽奖且中一等奖为事件1A ,参加抽奖且中二等奖为事件2A ,参加抽奖且中三等奖为事件3A ,则123A A A A = ,()()()()()32112335351231233338882328C C C C C P A P A A A P A P A P A C C C =⋃⋃=++=++=.∴一位顾客在此活动期间购物满300元参加抽奖且中奖的概率为2328.解法二:一位顾客在此活动期间购物满300元且参加抽奖,设中奖为事件A ,则事件A 的对立事件为A ,A 为一位顾客在此活动期间购物满300元参加抽奖且没有中奖,即摸出的3个球都是“谢谢惠顾”,()()3538231128C P A P A C ∴=-=-=,∴一位顾客在此活动期间购物满300元参加抽奖且中奖的概率为2328;(2)依题意得:X 的所有可能取值为0,2,5,20,()35385028C P X C ∴===,()12353815228C C P X C ===,()21353815556C C P X C ===,()333812056C P X C ===,X ∴的分布列为:X2520P52815281556156∴数学期望()515151155025202828565656E X =⨯+⨯+⨯+⨯=,∴2月11日该超市发放奖金总金额的数学期望为()()15514002801120310056E X -⋅=⨯=元.2.(2021·海南中学高三模拟)从去年开始,全国各地积极开展“一盔一带”安全守护行动,倡导群众佩戴安全头盔、使用安全带.为了解相关的情况,某学习小组统计了国内20个城市的电动自行车头盔佩戴率(%)x 和电动自行车驾乘人员交通事故死亡率(%)y ,并整理得到下面的散点图.(1)求这20个城市的电动自行车头盔佩戴率大于50%的概率;(2)通过散点图分析y 与x 的相关关系,说明佩戴安全头盔的必要性;(3)有四名同学通过计算得到y 与x 的相关系数分别为0.97,0.62,0.45-,0.98-,请你从中选出最有可能正确的结果,并以此求出y 关于x 的线性回归方程.参考数据:2011000i i x ==∑,2011080i i y ==∑,()20216800i i x x =-=∑,()20211700i i y y =-=∑.参考公式:相关系数()()()()12211niii nni i i i x x y y r x x y y ===--=--∑∑∑,回归方程ˆˆˆy a bx=+中斜率和截距的最小二乘估计公式分别为:()()()121ˆniii nii x x y y bx x ==--=-∑∑, ˆay bx =-.【解析】(1)电动自行车头盔佩戴率大于50%的城市有10个,故所求的概率为12.(2)由散点图可知y 与x 有较强的负相关关系,提高电动自行车头盔佩戴率能有效降低驾乘人员交通事故死亡率,所以佩戴安全头盔十分有必要.(3)最有可能正确的结果为0.98-.根据参考数据得20115020i i x x ===∑,20115420i i y y ===∑,所以()()()()()2020211202022111700ˆ0.980.496800i i ii i i i i i y y x x yy br x x x x ====---==⨯-⨯---∑∑∑∑,ˆˆ540.495078.5ay bx =-=+⨯=,所以y 关于x 的线性回归方程为ˆ0.4978.5yx =-+.3.中国探月工程自2004年立项以来,聚焦“自主创新、重点跨越、支撑发展、引领未来”的目标,创造了许多项中国首次.2020年12月17日凌晨,嫦娥五号返回器携带“月壤”着陆地球,又首次实现了我国地外天体无人采样返回.为了了解某中学高三学生对此新闻事件的关注程度,从该校高三学生中随机抽取了100名学生进行调查,调查样本中有40名女生.如图是根据样本的调查结果绘制的等高条形图(阴影区域表示关注“嫦娥五号”的部分).关注没关注合计男女合计附:()20P K k ≥0.1500.1000.0500.0100.005k 2.072 2.706 3.841 6.6357.879()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d=+++(1)完成上面的2×2列联表,并计算回答是否有95%的把握认为“对‘嫦娥五号’关注程度与性别有关”?(2)若将频率视为概率,现从该中学高三的女生中随机抽取3人.记被抽取的3名女生中对“嫦娥五号”新闻关注的人数为随机变量X,求X的分布列及数学期望.【解析】(1)22⨯列联表如下:关注没关注合计男303060女122840合计4258100所以()()()()()()222100302812308003.941 3.84142584060203n ad bcKa b c d a c b d-⨯⨯-⨯===≈> ++++⨯⨯⨯,所以有95%的把握认为“对‘嫦娥五号’关注程度与性别有关”;(2)因为随机选一个高三的女生,对此事关注的概率为1234010 P==,又因为33,10X B⎛⎫⎪⎝⎭,所以随机变量X的分布列为:X0123P 343100044110001891000271000故()9 10E X np==.4.随着5G通讯技术的发展成熟,移动互联网短视频变得越来越普及,人们也越来越热衷于通过短视频获取资讯和学习成长.某短视频创作平台,为了鼓励短视频创作者生产出更多高质量的短视频,会对创作者上传的短视频进行审核,通过审核后的短视频,会对用户进行重点的分发推荐.短视频创作者上传一条短视频后,先由短视频创作平台的智能机器人进行第一阶段审核,短视频审核通过的概率为35,通过智能机器人审核后,进入第二阶段的人工审核,人工审核部门会随机分配3名员工对该条短视频进行审核,同一条短视频每名员工审核通过的概率均为12,若该视频获得2名或者2名以上员工审核通过,则该短视频获得重点分发推荐.(1)某创作者上传一条短视频,求该短视频获得重点分发推荐的概率;(2)若某创作者一次性上传3条短视频作品,求其获得重点分发推荐的短视频个数的分布列与数学期望.【解析】(1)设“该短视频获得重点分发推荐”为事件A ,则22133033311113()[C ()(1)C ()(1)]5222210P A =⨯⨯-+⨯-=.(2)设其获得重点分发推荐的短视频个数为随机变量X ,X 可取0,1,2,3.则3(3,10X B ,003333343(0)C ()(110101000P X ==⨯-=;112333441(1)C ((110101000P X ==⨯-=;221333189(2)C ()(1)10101000P X ==⨯-=;33033327(3)C ()(1)10101000P X ==⨯-=,随机变量X 的分布列如下:X123P343100044110001891000271000343441189279()0123100010001000100010E X =⨯+⨯+⨯+⨯=.(或39()31010E X =⨯=)5.(2021·东北育才学校高三模拟)学校食品安全问题关系着师生的身心健康,一直受到社会各界的高度关注.为进一步加强学校食堂安全管理,某市卫生监督部门决定对本市所有学校进行一次食品安全抽查.某中学按照要求,将卫生监督部门当天检查的所售菜品取样分成甲、乙两组,甲组菜品有不同的荤菜n 份和不同的素菜2份,乙组菜品有荤菜1份和不同的素菜4份,已知从甲组菜品中随机任取两份菜样,在第一次抽到素菜的条件下,第二次抽到荤菜的概率是34.(1)求n 的值;(2)若卫生监督部门第一次从甲组中随机抽取一份菜样,从第二次抽样开始,若前一次抽到荤菜,则再从甲组中抽取一份;若前一次抽到素菜,则再从乙组中抽取一份,第三次抽样后结束,每次抽取菜样都不放回.已知荤菜检测费用为80元/份,素菜检测费用为60元/份,求本次抽查检测费用的分布列和数学期望.【解析】(1)设第一次抽到素菜为事件A ,第二次抽到荤菜为事件B ,∴2()2P A n =+,22()21(2)(1)n n P AB n n n n =⨯=++++,∵()3(|)()14P AB n P B A P A n ===+,∴3n =.(2)设卫生监督部门抽样结束后,抽取荤菜的份数为Y ,检测费用为Z ,其中Y 可以取0,1,2,3,则Z 的可能取值为180,200,220,240.111243111554C C C 6(180)C C C 25P Z ===,111111111324241211111111111554554545C C C C C C C C C 17(200)+C C C C C C C C C 50P Z ==+=,111111111213321322111111111554545543C C C C C C C C C 8(220)+C C C C C C C C C 25P Z ==+=,111321111543C C C 1(240)C C C 10P Z ===.所以检测费用的分布列为Z 180200220240P6251750825110所以检测费用的数学期望为61781180200220240205.625502510⨯+⨯+⨯+⨯=(元).6.某病毒在进入人体后有潜伏期,患者在潜伏期内无任何症状,但已具传染性.假设一位病毒携带者在潜伏期内每天有n 位密接者,每位密接者被感染的概率为p ,(1)若3n =,13p =,求一天内被一位病毒携带者直接感染人数X 的分布列和均值:(2)某定点医院为筛查某些人员是否感染此病毒,需要检测血液样本是否为阳性,有以下两种检验方式:①逐份检验,即k 份血液样本需要检验k 次;②混合检验,即将k 份(*k N ∈且2k ≥)血液样本分别取样混合在一起检验,若检验结果为阴性,则这k 份血液样本全为阴性,因而这k 份血液样本只要检验一次就够了:如果检验结果为阳性,为了明确这k 份血液样本究竞哪份为阳性,就要对k 份血液样本再逐份检验,此时这k 份血液样本的检验次数为k +1次.假设样本的检验结果相互独立,且每份样本检验结果是阳性的概率为1p =ς的期望值比逐份检验的总次数η的期望值更少,求k 的取值范围.参考数据:ln 20.6931≈,ln 3 1.0986≈,ln 4 1.3863≈,ln 5 1.6094≈,ln 6 1.7918≈.【解析】(1)若n =3,p =13,依题意可知X 服从二项分布,即X ~B (3,13),从而3-312()()()33iiiP X i C ==,i =0,1,2,3.随机变量X 的分布列为:X 0123P8274929127随机变量X 的均值为1()313E X =⨯=.(2)由题意知ζ的所有可能取值为1,1k+,且()(11)k P p ζ==-,()1)+11(k P k p ζ==--,∴()()()()()1++111+11k k kE p k p k k p ζ⎡⎤=---=--⎣⎦,又∵E (η)=k ,依题意E (ζ)<E (η),即:k +1-k (1-p )k <k ,∴1k<(1-p )k ,∵p =1,∴1k <()k ,∴ln k >13k .设()1ln 3f x x x =-,则()'11333x f x x x -=-=,所以03x <<时,()'>0f x ,>3x 时,()'0f x <,所以f (x )在(0,3)上单调递增,在(3,+∞)上单调递减,由于f (1)=13-<0,f (2)=ln2-23>0,f (4)=ln4-43=0.0530>0,f (5)=ln5-53=-0.0573<0,故k 的取值范围为24k ≤≤且k ∈N *.。
成对数据的统计分析 单元整体设计

第八章成对数据的统计分析单元整体设计一、单元整体目标1.通过具体案例,引导学生理解两个随机变量的相关性可以通过成对样本数据进行分析,了解样本相关系数的统计含义.2.理解利用一元线性回归模型可以研究变量之间的相关关系,并进行预测.3.了解2x2列联表,理解利用2x2列联表可以检验两个随机变量的独立性.4.运用散点图、相关系数、最小二乘思想、小概率原理、频率估计概率、假设检验基本原理等解决简单的实际问题,会利用统计软件进行数据分析.二、内容与要求2.1内容根据普通高中《数学课程标准(2017年版)》的要求,人教A版数学选择性必修第三册第八章包括成对数据的统计相关性、一元线性回归模型及其应用、2x2列联表与独立性检验三部分内容.本章知识结构图如下:成时柞Rcjftg第8.1节,成对数据的统计相关性.第8.1.1小节主要是引入变量之间相关关系的概念,并根据成对样本数据的散点图直观推断变量之间的相关关系.通过案例“一个人身高与体重的关系”引人相关关系的概念,让学生感受到研究此类问题的必要性.结合“人体的脂防含量和年龄之间关系”,介绍成对样本数据的散点图,据此直观推断变量之间的相关关系,并引入正相关、负相关、线性相关三种特殊且重要的相关关系.第8.1.2小节主要是引入样本相关系数的概念.样本相关系数不仅可以反映成对样本数据相关的正负性,而且可以定量地刻画成对样本数据线性相关的程度.通过对散点图无法定量刻画成对样本数据相关程度的分析,让学生感受引入样本相关系数的必要性.从统计直观出发,先初步建立刻画相关性的数学表达式,再通过逐步优化表达式得到样本相关系数公式,让学生体会样本相关系数定义的合理性,积累数据分析的经验.再对样本相关系数的性质进行讨论,明确样本相关系数的正负性可以反映成对样本数据相关的正负性,样本相关系数绝对值的大小可以刻画成对样本数据线性相关程度的强弱.第8.2节,一元线性回归模型及其应用.第8.2.1小节主要结合具体案例“儿子身高与父亲身高的关系”,在一次函数模型的基础上,通过引入随机误差项,建立一元线性回归模型刻画两个数值变量之间的相关关系,并讨论了回归模型中随机误差产生的原因.第&2.2小节主要是用最小二乘法估计一元线性回归模型中的参数,得到经验回归方程,进而根据解释变量的取值预测响应变量的取值.结合案例“儿子身高与父亲身高的关系”,完整呈现了从直现寻找与散点整体接近的直线,到用定量刻画整体接近的程度,最后得到参数估计的数学化过程,让学生体会最小二乘法的思想,积累数据分析的经验.再结合具体案例,利用回归方程进行预测,并对结果进行合理解释,解释参数。
第九章 概率与统计-9.2 成对数据的统计分析

9.2 成对数据的统计分析
课程标准
必备知识
自主评价
核心考点
课时作业
1.结合实例,了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹
角的关系.
2.结合实例,会通过相关系数比较多组成对数据的相关性.
3.结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小
= =1
∑ −ҧ 2
=1
= ത − ҧ
时, = ∑ − − 2 达到最小.
=1
经验回归方程
+ 称为关于的______________,也称经验回归函数或经验回归
我们把ො =
ො
最小二乘法
公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做____________,求
返回至目录
(2)样本相关系数.
①样本相关系数的计算公式.
=
∑ − −
=1
∑ − 2
=1
.
∑ − 2
=1
样本相关系数
我们称为变量和变量的______________.
②与标准化数据向量夹角的关系
令′ = ′1 , ′2 , ⋯ , ′ ,′ = ′1 , ′2 , ⋯ , ′ ,
+ 之间的__________.如果______,那么与之间的关系就
可用一元线性函数模型来描述.
返回至目录
(2)一元线性回归模型参数的最小二乘估计.
设满足一元线性回归模型的两个变量的对样本数据为 1 , 1 , 2 , 2 ,⋯ ,
∑ −ҧ −ത
, ,当,的取值为
高考数学一轮复习成对数据的统计分析

i=1
i=1
i=1
i=1
i=1
[解] (1)由散点图可知,这些数据集中在图中曲线的附近, 而曲线的形状与函数 y= x的图象很相似, 因此可以用类似的表达式^y=^b x+^a来描述 y 与 x 的关系, 即三个函数中^y=^b x+^a的图象是拟合 y 与 x 的关系“最好”的曲线.
令 u=
x,则^y=^bu+^a,根据已知数据,得
n
ui- u 2
i=1
7
7
[解] (1)因为 x =4, y =17,所以 (xi- x )(yi- y )=xiyi-7 x y
i=1
i=1
=532-7×4×17=56,
所以 r=
7
xi- x yi- y
i=1 7
7
≈5576.5≈0.97,
xi- x 2 yi- y 2
i=1
i=1
因为样本相关系数|r|接近于 1,所以可以推断 x 和 y 这两个变量线性 相关,且相关程度很强.
3.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,
xn 不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直
线 y=12x+1 上,则这组样本数据的样本相关系数为
()
A.-1
B.0
1 C.2
D.1
解析:所有样本点均在同一条斜率为正数的直线上,则样本相关
Ⅱ.基础小题的即时强化
一、教材经典小题的回顾拓展
1.(人教 A 版选择性必修③P103·T1 改编)下列四个散点图中,变量 x 与
y 之间具有负的线性相关关系的是
()
答案:D
2.(苏教版选择性必修②P144·例 2 改编)甲、乙、丙、丁四位同学各自对
成对数据的统计分析 2025年高考数学基础专项复习

正确,D错误.故选ACD.
3.[人A选必三P101例1变式]某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,
通常把它的使用价值逐年减少的“量”换算成费用,称为失效费.该种机械设备的使用年限(单位:年)与失效费
较弱)
附: =
∑ − −
=1
∑ − 2
=1
∑ − 2
=1
, 2 ≈ 1.41.
1
【解析】 解法一 由题表知, = 5 × 2 + 4 + 5 + 6 + 8 = 5,
1
5
= × 3 + 4 + 5 + 6 + 7 = 5,
5
∑ − − = 2 − 5 × 3 − 5) + (4 − 5 × 4 − 5 + (5 − 5) × 5 − 5 + 6 − 5 × 6 − 5 + 8 − 5 × (7
3.[链接人A选必三P116知识]近年来,我国云计算市场规模持续增长.某科技公司云计算市场规模与年份代码
的关系可以用模型 = 10 拟合,设 = lg ,2018年至2022年的数据统计如表所示:
年份
年份代码
2018年
2019年
2020年
2021年
2022年
1
2
3
4
5
云计算市场规模
4.[苏教选必二P164例4变式]某公司为了预测下个月产品的销售情况,找出了近7个月的产品的销售量(单位:
万件)的统计表如下.
月份代码
销售量/万件
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
成对对比统计分析
看sig值,也就是P值,小于0.05就是显著
spss是一个很强大的统计软件。
但是里面的功能也有些复杂。
究竟如何进行两组变量对比分析呢?现在我来简单分享一下,以我做过的一道关于”学校足球队冲甲前后社会对学校了解”做例子,如何在spss里做两组变量的对比分析。
方法/步骤
打开数据,找到要对比的两组数据量。
一组变量是冲甲前了解学校,一组变量是冲甲后了解学校。
数据如下图所示。
然后点击分析-比较均值-配对样本T检验。
然后将冲甲前了解学校和冲甲之后了解学校放进Variable1和Variable2之中。
然后按确定。
之后就会出现以下的数据列表。
但是对比反映得还不够直观明显。
.
第一个表示样本基本统计信息
第二个表是两组数据的相关性,sig小于0.05,说明有显著相关
第三个表是关键的t检验结果,同样是看sig的值,小于0.05,说明两组的均值有显著差异
根据表中的两组均值大小可以判断第一组的均值显著低于第二组的均值
那t值是负的表示什么意思?
T值同样与均值的大小有关的
第一个均值小,第二个均值大,所以t值也是负的,没什么特别含义
然后双击成对样本统计量。
会出现设置栏工具模式。
然后按最右边的统计图的图标。
可以选择不同的形状来显示。
.
然后会出现如图所示的条形图。
双击条形图。
会弹出一个单独的窗口。
我们按编辑-选择X轴。
可以看到不同的参考值。
这一题只需要对比到均值,所以我们把其他的删除掉就好。
然后按确定。
.
.
然后按编辑-选择Y轴,填变量的范围。
就可以变成图二一样,然后再按元素,显示数据,就可以看到它所对应的数值。
这样的对比图就很清晰地反映两组变量的关系。
.
.。