统计案例线性回归方程

合集下载

多元线性回归分析案例

多元线性回归分析案例

多元线性回归分析案例1. 引言多元线性回归分析是一种用于探究多个自变量与一个连续型因变量之间关系的统计分析方法。

本文将以一个虚构的案例来介绍多元线性回归分析的应用。

2. 背景假设我们是一家电子产品制造公司,我们想了解哪些因素会对产品销售额产生影响。

为了解决这个问题,我们收集了一些数据,包括产品的价格、广告费用、竞争对手的产品价格和销售额。

3. 数据收集我们采集了100个不同产品的数据,其中包括以下变量:- 产品价格(自变量1)- 广告费用(自变量2)- 竞争对手的产品价格(自变量3)- 销售额(因变量)4. 数据分析为了进行多元线性回归分析,我们首先需要对数据进行预处理。

我们检查了数据的缺失情况和异常值,并进行了相应的处理。

接下来,我们使用多元线性回归模型来分析数据。

模型的方程可以表示为:销售额= β0 + β1 × 产品价格+ β2 × 广告费用+ β3 × 竞争对手的产品价格+ ε其中,β0、β1、β2、β3是回归系数,ε是误差项。

5. 结果解释我们使用统计软件进行回归分析,并得到了以下结果:- 回归系数的估计值:β0 = 1000, β1 = 10, β2 = 20, β3 = -5- 拟合优度:R² = 0.8根据回归系数的估计值,我们可以解释模型的结果:- β0表示当产品价格、广告费用和竞争对手的产品价格都为0时,销售额的估计值为1000。

- β1表示产品价格每增加1单位,销售额平均增加10单位。

- β2表示广告费用每增加1单位,销售额平均增加20单位。

- β3表示竞争对手的产品价格每增加1单位,销售额平均减少5单位。

拟合优度R²的值为0.8,说明模型可以解释销售额的80%变异程度。

这意味着模型对数据的拟合程度较好。

6. 结论根据我们的多元线性回归分析结果,我们可以得出以下结论:- 产品价格、广告费用和竞争对手的产品价格对销售额有显著影响。

统计案例(精讲)(提升版)(原卷版)

统计案例(精讲)(提升版)(原卷版)

8.5 统计案例(精讲)(提升版)思维导图考点一独立性检验【例1】(2022·吉林·梅河口市第五中学高三开学考试)某中学准备组建“文科”兴趣特长社团,由课外活动小组对高一学生进行了问卷调查,问卷共100道题,每题1分,总分100分,该课外活动小组随机抽取了100名学生的问卷成绩(单位:分)进行统计,将数据按照[0,20),[20,40),[40,60),[60,80),[80,100]分成5组,绘制的频率分布直方图如图所示,若将不低于60分的称为“文科方向”学生,低于60分的称为“理科方向”学生.(1)根据已知条件完成下面2×2列联表,并据此判断是否有99.5%的把握认为“文科方向”与性别有关?理科方向文科方向总计男40女45考点呈现例题剖析总计 1001人,共抽取4次,记被抽取的4人中“文科方向”的人数为X ,若每次抽取的结果是相互独立的,求X 的分布列和数学期望.参考公式:()()()()22()n ad bc a b c d a c b d χ-=++++,其中n a b c d =+++.参考临界值:()2P k αχ=0.10 0.05 0.025 0.010 0.005 0.001k2.7063.841 5.024 6.635 7.879 10.828【一隅三反】1.(2022·白山模拟)十三届全国人大四次会议表决通过了关于国民经济和社会发展第十四个五年规划和2035年远景目标纲要的决议,决定批准这个规划纲要,纲要指出:“加强原创性引领性科技攻关”.某企业集中科研骨干,攻克系列“卡脖子”技术,已成功实现离子注入机全谱系产品国产化,包括中束流、大束流、高能、特种应用及第三代半导体等离子注入机,工艺段覆盖至28nm,为我国芯片制造产业链补上重要一环,为全球芯片制造企业提供离子注入机一站式解决方案.此次技术的突破可以说为国产芯片的制造做出了重大贡献.该企业使用新技术对某款芯片进行试生产,在试产初期,生产一件该款芯片有三道工序,每道工序的生产互不影响,这三道工序的次品率分别为118,119,120.附:()()()()()22n ad bcKa b c d a c b d-=++++,n a b c d=+++.()2P K k≥0.0500.0100.0050.001 k 3.841 6.6357.87910.828(①P①100X(2)某手机生产厂商将该款芯片投入到某新款手机上使用,并对部分芯片做了技术改良,推出了两种型号的手机,甲型号手机采用没有改良的芯片,乙型号手机采用改良了的芯片,现对使用这两种型号的手机用户进行回访,就他们对开机速度进行满意度调查.据统计,回访的100名用户中,使用甲型号手机的有30人,其中对开机速度满意的有15人;使用乙型号手机的有70人,其中对开机速度满意的有55人.完成下列22⨯列联表,并判断是否有99.5%的把握认为该项技术改良与用户对开机速度的满意度有关.甲型号乙型号合计满意不满意合计2.(2022·陕西咸阳·三模(理))2022年北京冬奥组委发布的《北京2022年冬奥会和冬残奥会经济遗产报告(2022)》显示,北京冬奥会已签约45家赞助企业,冬奥会赞助成为一项跨度时间较长的营销方式.为了解该45家赞助企业每天销售额与每天线上销售时间之间的相关关系,某平台对45家赞助企业进行跟踪调查,其中每天线上销售时间不少于8小时的企业有20家,余下的企业中,每天的销售额不足30万元的企业占35,统计后得到如下22⨯列联表:销售额不少于30万元销售额不足30万元合计线上销售时间不少于8小时 17 20 线上销售时间不足8小时合计45售时间有关?(2)按销售额在上述赞助企业中采用分层抽样方法抽取5家企业.在销售额不足30万元的企业中抽取时,记“抽到线上销售时间不少于8小时的企业数”为X ,求X 的分布列和数学期望. 附: ()20P K k ≥0.050 0.010 0.001 0k3.841 6.635 10.828参考公式:()()()()2 n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.考点二 线性回归方程【例2-1】(2022·齐齐哈尔模拟)某单位为了解夏季用电量与月份的关系,对本单位2021年5月份到8月份的日平均用电量y (单位:千度)进行了统计分析,得出下表数据:月份(x )5 6 7 8 日平均用电量(y )1.93.4t7.11.7877ˆ.0y x =-t 的值为( )A .5.8B .5.6C .5.4D .5.2【例2-2】(2022·湖南模拟)《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是21世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴.为助力乡村振兴,某电商平台为某地的农副特色产品开设直播带货专场.为了对该产品进行合理定价,用不同的单价在平台试销,得到如下数据:单价x (元/件) 8 8.2 8.4 8.6 8.8 9 销量y (万件)908483807568附:参考公式:回归方程ˆˆˆybx a =+,其中()()()iii ii 1i 1222iii 1i 1ˆnnx x y y x y nxyb x x xnx ====---==--∑∑∑∑,ˆˆay bx =-. 参考数据:614066i ii x y==∑,621434.2i i x ==∑.(1)(i )根据以上数据,求y 关于x 的线性回归方程;(ii )若该产品成本是7元/件,假设该产品全部卖出,预测把单价定为多少时,工厂获得最大利润.(2)为了解该产品的价格是否合理,在试销平台上购买了该产品的顾客中随机抽了400人,阅读“购买后的评价”得知:对价格满意的有300人,基本满意的有50人,不满意的有50人.为进一步了解顾客对该产品价格满意度形成的原因,在购买该产品的顾客中随机抽取4人进行电话回访,记抽取的4人中对价格满意的人数为随机变量X ,求随机变量X 的分布列和数学期望.(视频率为相应事件发生的概率)【一隅三反】1.(2022·安徽三模)对某位同学5次体育测试的成绩(单位:分)进行统计得到如下表格:第x 次 1 2 3 4 5 测试成绩y3940484850根据上表,可得关于的线性回归方程为ˆ3ˆy x a =+,下列结论不正确的是( )A .ˆ36a= B .这5次测试成绩的方差为20.8 C .y 与x 的线性相关系数0r < D .预测第6次体育测试的成绩约为542.(2022·安徽模拟)新冠疫情期间,口罩的消耗量日益增加,某药店出于口罩进货量的考虑,连续9天统计了第i (i 1239)x =,,,,天的口罩的销售量i y (百件),得到的数据如下:99i i i=1i=145171x y ==∑∑,,()99922ii i i i=1i=1i=1312528510953x x y y y ==-=∑∑∑,,. 参考公式:相关系数()()()()iii=122iii=1i=1nnnx x y y r x x y y --=--∑∑∑数据()i i ()i 123x y n =,,,,,,其回归直线ˆˆˆy bx a =+的斜率和截距的最小二乘估计分别为()()()iii i1222i i11ˆˆˆnn i inni i x x y y x y nxybay bx x x xnx ===---===---∑∑∑∑, (1)若用线性回归模型ˆˆˆybx a =+拟合y 与x 之间的关系,求该回归直线的方程; (2)统计学家甲认为用(1)中的线性回归模型(下面简称模型1)进行拟合,不够精确,于是尝试使用非线性模型(下面简称模型2)得到i x 与i y 之间的关系,且模型2的相关系数20989r =.,试通过计算说明模型1,2中,哪一个模型的拟合效果更好. 3.(2022·湖南模拟)《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是21世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴.为助力乡村振兴,某电商平台为某地的农副特色产品开设直播带货专场.为了对该产品进行合理定价,用不同的单价在平台试销,得到如下数据:单价x (元/件) 8 8.2 8.4 8.6 8.8 9 销量y (万件)908483807568附:参考公式:回归方程ˆˆˆybx a =+,其中()()()iiiii 1i 1222iii 1i 1ˆnnx x y y x y nxyb x x xnx ====---==--∑∑∑∑,ˆˆay bx =-. 参考数据:614066i ii x y==∑,621434.2i i x ==∑.(1)(i )根据以上数据,求y 关于x 的线性回归方程;(ii )若该产品成本是7元/件,假设该产品全部卖出,预测把单价定为多少时,工厂获得最大利润.(2)为了解该产品的价格是否合理,在试销平台上购买了该产品的顾客中随机抽了400人,阅读“购买后的评价”得知:对价格满意的有300人,基本满意的有50人,不满意的有50人.为进一步了解顾客对该产品价格满意度形成的原因,在购买该产品的顾客中随机抽取4人进行电话回访,记抽取的4人中对价格满意的人数为随机变量X,求随机变量X的分布列和数学期望.(视频率为相应事件发生的概率)考点三非线性回归方程【例3】(2022·福建·三明一中模拟预测)当前,新一轮科技革命和产业变革蓬勃兴起,以区块链为代表的新一代信息技术迅猛发展,现收集某地近5年区块链企业总数量相关数据,如下表年份20172018201920202021编号x12345企业总数量y(单位:千个) 2.156 3.7278.30524.27936.224(1)根据表中数据判断,y a bx=+与e dxy c=(其中 2.71828e=…为自然对数的底数),哪一个回归方程类型适宜预测未来几年我国区块链企业总数量?(给出结果即可,不必说明理由),并根据你的判断结果求y关于x的回归方程;(2)为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比赛,邀请甲、乙、丙三家区块链公司参赛.比赛规则如下:①每场比赛有两个公司参加,并决出胜负;①每场比赛获胜的公司与未参加此场比赛的公司进行下一场的比赛;①在比赛中,若有一个公司首先获胜两场,则本次比赛结束,该公司获得此次信息化比赛的“优胜公司”.已知在每场比赛中,甲胜乙的概率为12,甲胜丙的概率为13,乙胜丙的概率为35,若首场由甲乙比赛,求甲公司获得“优胜公司”的概率.参考数据:5174.691i i y ==∑,51312.761i i i x y ==∑,5110.980i i z ==∑,5140.457i i i x z ==∑(其中ln z y =). 附:样本(),(1,2,,)i i x y i n =的最小二乘法估计公式为1221ˆni ii nii x y nx ybxnx==-=-∑∑,ˆa y bx=-.【一隅三反】1.(2022·山西二模)数据显示,中国在线直播用户规模及在线直播购物规模近几年都保持高速增长态势,下表为2017-2021年中国在线直播用户规模(单位:亿人),其中2017年-2021年对应的代码依次为1-5.年份代码x 1 2 3 4 5 市场规模y3.984.565.045.866.36参考数据: 5.16y =, 1.68v =,145.10i ii v y==∑,其中i i v x =.参考公式:对于一组数据()11v y ,,()22v y ,,…,()n n v y ,,其回归直线ˆˆˆybv a =+的斜率和截距的最小二乘估计公式分别为1221ˆni ii ni i v y nvybv nv ==-=-∑∑,ˆˆay bv =-. (1)由上表数据可知,可用函数模型ˆˆyx a =拟合y 与x 的关系,请建立y 关于x 的回归方程(ˆa ,ˆb 的值精确到0.01);(2)已知中国在线直播购物用户选择在品牌官方直播间购物的概率为p ,现从中国在线直播购物用户中随机抽取4人,记这4人中选择在品牌官方直播间购物的人数为X ,若()()34P X P X ===,求X 的分布列与期望.2.(2022·广东广州·一模)人们用大数据来描述和定义信息时代产生的海量数据,并利用这些数据处理事务和做出决策,某公司通过大数据收集到该公司销售的某电子产品1月至5月的销售量如下表. 月份x1 2 3 4 5 销售量y (万件)4.95.86.88.310.2该公司为了预测未来几个月的销售量,建立了y 关于x 的回归模型:ˆv . (1)根据所给数据与回归模型,求y 关于x 的回归方程(ˆu 的值精确到0.1);(2)已知该公司的月利润z (单位:万元)与x ,y 的关系为z x x=,根据(1)的结果,问该公司哪一个月的月利润预报值最大? 参考公式:对于一组数据()()()1122,,,,,,n n x y x y x y ,其回归直线ˆˆˆy bx a =+的斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y bx x ==--=-∑∑,ˆˆay bx =-.11 / 113.(2022·广东肇庆·二模)下表是我国从2016年到2020年能源消费总量近似值y (单位:千万吨标准煤)的数据表格: 年份2016 2017 2018 2019 2020 年份代号x1 2 3 4 5 能源消费总量近似值y (单位:千万吨标准煤) 442 456 472 488 498以x 为解释变量,y 为预报变量,若以11为回归方程,则相关指数210.9946R ≈,若以22ˆln ya b x =+为回归方程,则相关指数220.9568R ≈. (1)判断11ˆyb x a =+与22ˆln y a b x =+哪一个更适宜作为能源消费总量近似值y 关于年份代号x 的回归方程,并说明理由;(2)根据(1)的判断结果及表中数据,求出y 关于年份代号x 的回归方程.参考数据:512356i i y ==∑,517212i i i x y ==∑.参考公式:回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为:()()()1122211ˆn ni i i ii i n n ii i i x x y y x y nxy b x x x nx ====---==--∑∑∑∑,ˆˆa y bx =-.。

统计案例分析报告及典型例题

统计案例分析报告及典型例题

统计案例分析及典型例题§11.1 抽样方法1.为了了解所加工的一批零件的长度,抽取其中200个零件并测量了其长度,在这个问题中,总体的一个样本是 . 答案 200个零件的长度2.某城区有农民、工人、知识分子家庭共计2 004户,其中农民家庭1 600户,工人家庭303户,现要从中抽取容量为40的样本,则在整个抽样过程中,可以用到下列抽样方法:①简单随机抽样,②系统抽样,③分层抽样中的 . 答案 ①②③3.某企业共有职工150人,其中高级职称15人,中级职称45人,初级职称90人.现采用分层抽样抽取容量为30的样本,则抽取的各职称的人数分别为 . 答案 3,9,184.某工厂生产A 、B 、C 三种不同型号的产品,其相应产品数量之比为2∶3∶5,现用分层抽样方法抽出一个容量为n 的样本,样本中A 型号产品有16件,那么此样本的容量n= . 答案 80例1 某大学为了支援我国西部教育事业,决定从2007应届毕业生报名的18名志愿者中,选取6人组成志愿小组.请用抽签法和随机数表法设计抽样方案. 解 抽签法:第一步:将18名志愿者编号,编号为1,2,3, (18)第二步:将18个号码分别写在18张外形完全相同的纸条上,并揉成团,制成号签; 第三步:将18个号签放入一个不透明的盒子里,充分搅匀; 第四步:从盒子中逐个抽取6个号签,并记录上面的编号;基础自测第五步:所得号码对应的志愿者,就是志愿小组的成员. 随机数表法:第一步:将18名志愿者编号,编号为01,02,03, (18)第二步:在随机数表中任选一数作为开始,按任意方向读数,比如第8行第29列的数7开始,向右读;第三步:从数7开始,向右读,每次取两位,凡不在01—18中的数,或已读过的数,都跳过去不作记录,依次可得到12,07,15,13,02,09.第四步:找出以上号码对应的志愿者,就是志愿小组的成员.例2 某工厂有1 003名工人,从中抽取10人参加体检,试用系统抽样进行具体实施. 解 (1)将每个人随机编一个号由0001至1003. (2)利用随机数法找到3个号将这3名工人剔除. (3)将剩余的1 000名工人重新随机编号由0001至1000. (4)分段,取间隔k=100001=100将总体均分为10段,每段含100个工人.(5)从第一段即为0001号到0100号中随机抽取一个号l.(6)按编号将l ,100+l ,200+l,…,900+l 共10个号码选出,这10个号码所对应的工人组成样本. 例3 (14分)某一个地区共有5个乡镇,人口3万人,其中人口比例为3∶2∶5∶2∶3,从3万人中抽取一个300人的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法?并写出具体过程.解 应采取分层抽样的方法.3分过程如下:(1)将3万人分为五层,其中一个乡镇为一层.5分(2)按照样本容量的比例随机抽取各乡镇应抽取的样本. 300×153=60(人);300×152=40(人); 300×155=100(人);300×152=40(人); 300×153=60(人),10分因此各乡镇抽取人数分别为60人,40人,100人,40人,60人.12分(3)将300人组到一起即得到一个样本.14分练习:一、填空题1.(安庆模拟)某校高中生共有900人,其中高一年级300人,高二年级200人,高三年级400人,现分层抽取容量为45的样本,那么高一、高二、高三年级抽取的人数分别为 .答案15,10,202.某牛奶生产线上每隔30分钟抽取一袋进行检验,则该抽样方法为①;从某中学的30名数学爱好者中抽取3人了解学习负担情况,则该抽样方法为②.那么①,②分别为 .答案系统抽样,简单随机抽样3.下列抽样实验中,最适宜用系统抽样的是(填序号).①某市的4个区共有2 000名学生,且4个区的学生人数之比为3∶2∶8∶2,从中抽取200人入样②某厂生产的2 000个电子元件中随机抽取5个入样③从某厂生产的2 000个电子元件中随机抽取200个入样④从某厂生产的20个电子元件中随机抽取5个入样答案③4.(2013·重庆文)某校高三年级有男生500人,女生400人,为了解该年级学生的健康情况,从男生中任意抽取25人,从女生中任意抽取20人进行调查,这种抽样方法是 .答案分层抽样法5.某中学有高一学生400人,高二学生300人,高三学生200人,学校团委欲用分层抽样的方法抽取18名学生进行问卷调查,则下列判断不正确的是(填序号).①高一学生被抽到的概率最大②高三学生被抽到的概率最大③高三学生被抽到的概率最小④每名学生被抽到的概率相等答案①②③6.某商场有四类食品,其中粮食类、植物油类、动物性食品类及果蔬类分别有40种、10种、30种、20种,现从中抽取一个容量为20的样本进行食品安全检测,若采用分层抽样的方法抽取样本,则抽取的植物油类与果蔬类食品种数之和是 .答案 67.(天津文,11)一个单位共有职工200人,其中不超过45岁的有120人,超过45岁的有80人.为了调查职工的健康状况,用分层抽样的方法从全体职工中抽取一个容量为25的样本,应抽取超过45岁的职工 人. 答案 108.将参加数学竞赛的1 000名学生编号如下0001,0002,0003,…,1000,打算从中抽取一个容量为50的样本,按系统抽样的方法分成50个部分,如果第一部分编号为0001,0002,…,0020,从第一部分随机抽取一个号码为0015,则第40个号码为 . 答案 07959.某政府机关有在编人员100人,其中副处级以上干部10人,一般干部70人,工人20人,上级机关为了了解政府机构改革意见,要从中抽取一个容量为20的样本,试确定用何种方法抽取,如何抽取? 解 用分层抽样抽取. (1)∵20∶100=1∶5, ∴510=2,570=14,520=4∴从副处级以上干部中抽取2人,一般干部中抽取14人,从工人中抽取4人.(2)因副处级以上干部与工人人数较少,可用抽签法从中分别抽取2人和4人;对一般干部可用随机数表法抽取14人.(3)将2人、4人、14人编号汇合在一起就得到了容量为20的样本.10.某单位有工程师6人,技术员12人,技工18人,要从这些人中抽取一个容量为n 的样本.如果采用系统抽样法和分层抽样法抽取,不用剔除个体;如果样本容量增加一个,则在采用系统抽样时,需要在总体中先剔除1个个体,求样本容量n.解 总体容量为6+12+18=36.当样本容量是n 时,由题意知,系统抽样的间隔为n36,分层抽样的比例是36n ,抽取工程师36n ×6=6n (人),抽取技术人员36n ×12=3n (人),抽取技工36n×18=2n (人).所以n 应是6的倍数,36的约数即n=6,12,18,36.当样本容量为(n+1)时,在总体中剔除1人后还剩35人,系统抽样的间隔为135+n ,因为135+n 必须是整数,所以n 只能取6,即样本容量为6.总体分布的估计与总体特征数的估计1.一个容量为20的样本,已知某组的频率为0.25,则该组的频数为 . 答案 52.(2008·山东理)右图是根据《山东统计年鉴2007》中的资料作成的1997年至2006年我省城镇居民百户家庭人口数的茎叶图.图中左边的数字从左到右分别表示城镇居民百户家庭人口数的百位数字和十位数字,右边的数字表示城镇居民百户家庭人口数的个位数字.从图中可以得到1997年至2006年我省城镇居民百户家庭人口数的平均数为 . 答案 303.63.在抽查产品的尺寸过程中,将其尺寸分成若干组,[a ,b )是其中的一组,抽查出的个体在该组上的频率为m,该组在频率分布直方图的高为h ,则|a-b|= . 答案 hm4.(2008·山东文,9)从某项综合能力测试中抽取100人的成绩,统计如表,则这100人成绩的标准差为 .答案 51025.为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为17.5岁~18岁的男生体重(kg ),得到频率分布直方图如下:根据上图可得这100名学生中体重在[56.5,64.5)的学生人数是 . 答案 40基础自测典型例题:例1 在学校开展的综合实践活动中,某班进行了小制作评比,作品上交时间为5月1日至30日,评委会把同学们上交 作品的件数按5天一组分组统计,绘制了频率分布直方图(如图所示),已知从左到右各长方形高的比为2∶3∶4∶6∶4∶1,第三组的频数为12,请解答下列问题: (1)本次活动共有多少件作品参加评比? (2)哪组上交的作品数量最多?有多少件?(3)经过评比,第四组和第六组分别有10件、2件作品获奖,问这两组哪组获奖率高? 解 (1)第三组的频率为1464324+++++=51又因为第三组的频数为12,∴参评作品数为5112=60.(2)根据频率分布直方图,可以看出第四组上交的作品数量最多,共有60×1464326+++++=18(件).(3)第四组的获奖率是1810=95,第六组上交的作品数量为60×1464321+++++=3(件),∴第六组的获奖率为32=96,显然第六组的获奖率高.例4(14分)某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30 min 抽取一包产品,称其重量,分别 记录抽查数据如下: 甲:102, 101, 99, 98, 103, 98,99;乙:110, 115, 90,85,75,115, 110.(1)这种抽样方法是哪一种? (2)将这两组数据用茎叶图表示;(3)将两组数据比较,说明哪个车间产品较稳定. 解 (1)因为间隔时间相同,故是系统抽样. 2分(2)茎叶图如下:5分(3)甲车间: 平均值:1x =71(102+101+99+98+103+98+99)=100,7分方差:s 12=71[(102-100)2+(101-100)2+…+(99-100)2]≈3.428 6.9分乙车间:平均值:2x =71(110+115+90+85+75+115+110)=100,11分方差:s 22=71[(110-100)2+(115-100)2+…+(110-100)2]≈228.571 4.13分∵1x =2x ,s 12<s 22,∴甲车间产品稳定.14分练习:1.为了了解小学生的体能情况,抽取了某小学同年级部分学生进行跳绳测试,将所得数据整理后,画出频率分布直方图如图所示,已知图中从左到右前三个小组的频率分别是0.1,0.3,0.4,第一小组的频数为5.(1)求第四小组的频率;(2)参加这次测试的学生人数是多少?(3)在这次测试中,学生跳绳次数的中位数落在第几小组内? 解 (1)第四小组的频率=1-(0.1+0.3+0.4)=0.2. (2)设参加这次测试的学生人数是n, 则有n=第一小组频率第一小组频数=5÷0.1=50(人).(3)因为0.1×50=5,0.3×50=15,0.4×50=20,0.2×50=10,即第一、第二、第三、第四小组的频数分别为5、15、20、10,所以学生跳绳次数的中位数落在第三小组内. 练习:一、填空题1.下列关于频率分布直方图的说法中不正确的是 . ①直方图的高表示取某数的频率②直方图的高表示该组上的个体在样本中出现的频率 ③直方图的高表示该组上的个体数与组距的比值④直方图的高表示该组上的个体在样本中出现的频率与组距的比值 答案 ①②③2.甲、乙两名新兵在同样条件下进行射击练习,每人打5发子弹,命中环数如下:甲:6,8,9,9,8;乙:10,7,7,7,9.则这两人的射击成绩 比 稳定. 答案 甲 乙4.某班50名学生在一次百米测试中,成绩全部介于13秒与19秒之间,将测试结果分成六组:右图是得到的频率分布直方图.设成绩小于17秒的学生人数占全班总人数的百分比为x,成绩大于等于15秒且小于17秒的学生人数为y ,则从频率分布直方图中可分析出x 和y 分别为 . 答案 0.9, 356.甲、乙两名同学在5次体育测试中的成绩统计的茎叶图如图所示,若甲、乙两人的平均成绩分别是x 甲、x 乙,则x 甲 x 乙, 比 稳定. 答案 < 乙 甲7.(上海,9)已知总体的各个体的值由小到大依次为2,3,3,7,a ,b ,12,13.7,18.3,20,且总体的中位数为10.5.若要使该总体的方差最小,则a 、b 的取值分别是 . 答案 10.5、10.5二、解答题10.为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图所示),图中从左到右各小长方形面积之比为2∶4∶17∶15∶9∶3,第二小组频数为12.(1)第二小组的频率是多少?样本容量是多少?(2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少? (3)在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由. 解 (1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小, 因此第二小组的频率为:391517424+++++=0.08.又因为频率=样本容量第二小组频数, 所以样本容量=第二小组频率第二小组频数=08.012=150. (2)由图可估计该学校高一学生的达标率约为39151742391517++++++++×100%=88%.(3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内.线性回归方程1.下列关系中,是相关关系的为 (填序号). ①学生的学习态度与学习成绩之间的关系;基础自测②教师的执教水平与学生的学习成绩之间的关系;③学生的身高与学生的学习成绩之间的关系;④家庭的经济条件与学生的学习成绩之间的关系.答案①②2.为了考察两个变量x、y之间的线性相关关系,甲、乙两同学各自独立地做10次和15次试验,并利用最小二乘法求得回归直线分别为l1和l2.已知在两人的试验中发现变量x的观测数据的平均值恰好相等,都为s,变量y的观测数据的平均值也恰好相等,都为t,那么下列说法中正确的是(填序号).①直线l1,l2有交点(s,t)②直线l1,l2相交,但是交点未必是(s,t)③直线l1,l2由于斜率相等,所以必定平行④直线l1,l2必定重合答案①3.下列有关线性回归的说法,正确的是(填序号).①相关关系的两个变量不一定是因果关系②散点图能直观地反映数据的相关程度③回归直线最能代表线性相关的两个变量之间的关系④任一组数据都有回归直线方程答案①②③4.下列命题:①线性回归方法就是由样本点去寻找一条贴近这些样本点的直线的数学方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;③通过回归直线yˆ=bˆx+aˆ及回归系数bˆ,可以估计和预测变量的取值和变化趋势. 其中正确命题的序号是 .答案①②③5.已知回归方程为yˆ=0.50x-0.81,则x=25时,yˆ的估计值为 .答案11.69例1下面是水稻产量与施化肥量的一组观测数据:施化肥量15 20 25 30 35 40 45水稻产量320 330 360 410 460 470 480(1)将上述数据制成散点图;(2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水稻产量会一直随施化肥量的增加而增长吗?解(1)散点图如下:(2)从图中可以发现施化肥量与水稻产量具有线性相关关系,当施化肥量由小到大变化时,水稻产量由小变大,图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系,但水稻产量只是在一定范围内随着化肥施用量的增加而增长.例2(14分)随着我国经济的快速发展,城乡居民的生活水平不断提高,为研究某市家庭平均收入与月平均生活支出的关系,该市统计部门随机调查了10个家庭,得数据如下:(1)判断家庭平均收入与月平均生活支出是否相关?(2)若二者线性相关,求回归直线方程.解(1)作出散点图:5分观察发现各个数据对应的点都在一条直线附近,所以二者呈线性相关关系. 7分(2)x =101 (0.8+1.1+1.3+1.5+1.5+1.8+2.0+2.2+2.4+2.8)=1.74,y=101(0.7+1.0+1.2+1.0+1.3+1.5+1.3+1.7+2.0+2.5)=1.42,9分bˆ=∑∑==-∙-ni ini i i x n xyx n y x 1221≈0.813 6,aˆ=1.42-1.74×0.813 6≈0.004 3,13分 ∴回归方程yˆ=0.813 6x+0.004 3.14分例3 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y (吨)标准煤的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程yˆ=b ˆx+a ˆ; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解 (1)散点图如下图:(2)x =46543+++=4.5,y =45.4435.2+++=3.5∑=41i ii yx =3×2.5+4×3+4×5+6×4.5=66.5.∑=412i ix=32+42+52+62=86∴bˆ=24124144x x yx yx i i i ii -∙-∑∑===25.44865.45.345.66⨯-⨯⨯-=0.7aˆ =y -bˆx =3.5-0.7×4.5=0.35. ∴所求的线性回归方程为yˆ=0.7x+0.35. (3)现在生产100吨甲产品用煤 y=0.7×100+0.35=70.35,∴降低90-70.35=19.65(吨)标准煤.1.科研人员为了全面掌握棉花新品种的生产情况,查看了气象局对该地区年降雨量与年平均气温的统计数据(单位分别是mm,℃),并作了统计.(1)试画出散点图;(2)判断两个变量是否具有相关关系. 解 (1)作出散点图如图所示,(2)由散点图可知,各点并不在一条直线附近,所以两个变量是非线性相关关系.2.在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如下:由资料看y 与x 呈线性相关,试求回归方程. 解 x =30,y =50.1283.1120.850.767.66++++=93.6.bˆ=25125155x xyx yx i ii ii -∙-∑∑==≈0.880 9.aˆ=y -bˆx =93.6-0.880 9×30=67.173. ∴回归方程为yˆ=0.880 9x+67.173.3.某企业上半年产品产量与单位成本资料如下:(1)求出线性回归方程;(2)指出产量每增加1 000件时,单位成本平均变动多少? (3)假定产量为6 000件时,单位成本为多少元? 解 (1)n=6,∑=61i i x =21,∑=61i i y =426,x =3.5,y =71,∑=612i i x =79,∑=61i i i y x =1 481,bˆ=26126166x xyx yx i ii ii -∙-∑∑===25.3679715.364811⨯-⨯⨯-=-1.82.aˆ=y-bˆx=71+1.82×3.5=77.37.回归方程为yˆ=aˆ+bˆx=77.37-1.82x.(2)因为单位成本平均变动bˆ=-1.82<0,且产量x的计量单位是千件,所以根据回归系数b的意义有: 产量每增加一个单位即1 000件时,单位成本平均减少1.82元.(3)当产量为6 000件时,即x=6,代入回归方程:yˆ=77.37-1.82×6=66.45(元)当产量为6 000件时,单位成本为66.45元.一、填空题1.观察下列散点图,则①正相关;②负相关;③不相关.它们的排列顺序与图形对应顺序是 .答案a,c,b2.回归方程yˆ=1.5x-15,则下列说法正确的有个.①y=1.5x-15②15是回归系数a③1.5是回归系数a④x=10时,y=0答案 13.(2009.湛江模拟)某地区调查了2~9岁儿童的身高,由此建立的身高y(cm)与年龄x(岁)的回归模型为yˆ=8.25x+60.13,下列叙述正确的是 .①该地区一个10岁儿童的身高为142.63 cm②该地区2~9岁的儿童每年身高约增加8.25 cm③该地区9岁儿童的平均身高是134.38 cm④利用这个模型可以准确地预算该地区每个2~9岁儿童的身高答案 ②4.三点(3,10),(7,20),(11,24)的回归方程是 .答案 yˆ=1.75x+5.75 5.某人对一地区人均工资x(千元)与该地区人均消费y(千元)进行统计调查,y 与x 有相关关系,得到回归直线方程yˆ=0.66x+1.562.若该地区的人均消费水平为7.675千元,估计该地区的人均消费额占人均工资收入的百分比约为 . 答案 83%6.某化工厂为预测产品的回收率y,需要研究它和原料有效成分含量x 之间的相关关系,现取8对观测值,计算,得∑=81i i x =52, ∑=81i i y =228, ∑=812i i x =478, ∑=81i i i y x =1 849,则其线性回归方程为 .答案 yˆ=11.47+2.62x 7.有下列关系:①人的年龄与他(她)拥有的财富之间的关系;②曲线上的点与该点的坐标之间的关系;③苹果的产量与气候之间的关系;④森林中的同一种树木,其断面直径与高度之间的关系.其中,具有相关关系的是 . 答案 ①③④8.已知关于某设备的使用年限x 与所支出的维修费用y(万元),有如下统计资料:若y 对x 呈线性相关关系,则回归直线方程yˆ=b ˆx+a ˆ表示的直线一定过定点 . 答案 (4,5) 二、解答题9.期中考试结束后,记录了5名同学的数学和物理成绩,如下表:(1)数学成绩和物理成绩具有相关关系吗?(2)请你画出两科成绩的散点图,结合散点图,认识(1)的结论的特点. 解 (1)数学成绩和物理成绩具有相关关系.(2)以x 轴表示数学成绩,y 轴表示物理成绩,可得相应的散点图如下:由散点图可以看出,物理成绩和数学成绩对应的点不分散,大致分布在一条直线附近. 10.以下是某地搜集到的新房屋的销售价格y 和房屋的面积x 的数据:(1)画出数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线. 解 (1)数据对应的散点图如图所示:(2)x =109,y =23.2,∑=512i i x =60 975,∑=51i iiy x=12 952,bˆ=25125155x xyx yx i ii ii -∙-∑∑==≈0.196 2aˆ=y -bˆx ≈1.814 2 ∴所求回归直线方程为yˆ=0.196 2x+1.814 2.11.某公司利润y 与销售总额x(单位:千万元)之间有如下对应数据:(1)画出散点图; (2)求回归直线方程;(3)估计销售总额为24千万元时的利润. 解 (1)散点图如图所示:(2)x =71(10+15+17+20+25+28+32)=21,y=71(1+1.3+1.8+2+2.6+2.7+3.3)=2.1,∑=712i ix=102+152+172+202+252+282+322=3 447,∑=71i iiy x=10×1+15×1.3+17×1.8+20×2+25×2.6+28×2.7+32×3.3=346.3,bˆ=27127177x x yx yx i i i ii -∙-∑∑===221744731.22173.346⨯-⨯⨯-≈0.104, aˆ=y -bˆx =2.1-0.104×21=-0.084, ∴yˆ=0.104x-0.084. (3)把x=24(千万元)代入方程得,yˆ=2.412(千万元).∴估计销售总额为24千万元时,利润为2.412千万元.12.某种产品的广告费支出x 与销售额y(单位:百万元)之间有如下对应数据:(1)画出散点图;(2)求回归直线方程;(3)试预测广告费支出为10百万元时,销售额多大? 解 (1)根据表中所列数据可得散点图如下:(2)列出下表,并用科学计算器进行有关计算:因此,x =525=5,y =5250 =50,∑=512i i x =145, ∑=512i i y =13 500, ∑=51i i i y x =1 380.于是可得:bˆ=25125155x xyx yx i ii ii -∙-∑∑===55514550553801⨯⨯-⨯⨯-=6.5;aˆ=y -bˆx =50-6.5×5=17.5. 因此,所求回归直线方程为:yˆ=6.5x+17.5. (3)根据上面求得的回归直线方程,当广告费支出为10百万元时,yˆ=6.5×10+17.5=82.5(百万元),即这种产品的销售收入大约为82.5百万元.§11.4 统计案例1.对有线性相关关系的两个变量建立的回归直线方程y ˆ=a ˆ+b ˆx 中,回归系数bˆ与0的大小关系为 .(填序号) ①大于或小于 ②大于 ③小于 ④不小于答案 ①2.如果有90%的把握说事件A 和B 有关系,那么具体计算出的数据 2 2.706.(用“>”,“<”,“=”填空) 答案 >3.对两个变量y 与x 进行回归分析,分别选择不同的模型,它们的相关系数r 如下,其中拟合效果最好的模型是 .①模型Ⅰ的相关系数r 为0.98 ②模型Ⅱ的相关系数r 为0.80 ③模型Ⅲ的相关系数r 为0.50 ④模型Ⅳ的相关系数r 为0.25 答案 ①4.下列说法中正确的有:①若r >0,则x 增大时,y 也相应增大;②若r <0,则x 增大时,y 也相应增大;③若r=1或r=-1,则x 与y 的关系完全对应(有函数关系),在散点图上各个点均在一条直线上 . 答案 ①③基础自测例1 (14分)调查339名50岁以上人的吸烟习惯与患慢性气管炎的情况,获数据如下:试问:(1)吸烟习惯与患慢性气管炎是否有关? (2)用假设检验的思想给予证明. (1)解 根据列联表的数据,得到χ2=))()()(()(2c d b d c a b a bc ad n ++++-2分 =13428356205)1316212143(3392⨯⨯⨯⨯-⨯⨯=7.469>6.6356分 所以有99%的把握认为“吸烟与患慢性气管炎有关”.9分(2)证明 假设“吸烟与患慢性气管炎之间没有关系”,由于事件A={χ2≥6.635}≈0.01,即A 为小概率事件,而小概率事件发生了,进而得假设错误,这种推断出错的可能性约有1%.14分例2 一台机器使用时间较长,但还可以使用.它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有 缺点零件的多少,随机器运转的速度而变化,下表为抽样试验结果:(1)对变量y 与x 进行相关性检验;(2)如果y 与x 有线性相关关系,求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么,机器的运转速度应控制在什么范围内?解 (1)x =12.5,y =8.25,∑=41i iiy x=438,4x y =412.5,∑=412i i x =660,∑=412i i y =291,所以r=)4)(4(42412241241y yx xyx yx i ii ii ii --∙-∑∑∑====)25.272291()625660(5.412438-⨯--=25.6565.25≈62.2550.25≈0.995 4.因为r >r 0.05,所以y 与x 有很强的线性相关关系.(2)yˆ=0.728 6x-0.857 1. (3)要使yˆ≤10⇒0.728 6x-0.857 1≤10, 所以x ≤14.901 3.所以机器的转速应控制在14.901 3转/秒以下.例3 下表是某年美国旧轿车价格的调查资料,今以x 表示轿车的使用年数,y 表示相应的年均价格,求y 关于x 的回归 方程.解 作出散点图如图所示.可以发现,各点并不是基本处于一条直线附近,因此,y 与x 之间应是非线性相关关系.与已学函数图象比较,用y ˆ=e a x b ˆˆ来刻画题中模型更为合理,令zˆ=ln y ˆ,则z ˆ=b ˆx+a ˆ,题中数据变成如下表所示:相应的散点图如图所示,从图中可以看出,变换的样本点分布在一条直线附近,因此可以用线性回归方程拟合.由表中数据可得r ≈-0.996.|r|>r 0.05.认为x 与z之间具有线性相关关系,由表中数据得bˆ≈-0.298,a ˆ≈8.165,所以z ˆ=-0.298x+8.165,最后回代z ˆ=ln y ˆ,即y ˆ=e -0.298x+8.165为所求.1.某班主任对全班50名学生学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是多少?抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少?(2)试运用独立性检验的思想方法分析:学生的学习积极性与对待班级工作的态度是否有关系?说明理由.解 (1)随机抽查这个班的一名学生,有50种不同的抽查方法,由于积极参加班级工作的学生有18+6=24人,所以有24种不同的抽法,因此由古典概型的计算公式可得抽到积极参加班级工作的学生的概率是P 1=5024=2512,又因为不太主动 参加班级工作且学习积极性一般的学生有19人,所以抽到不太主动参加班级工作且学习积极性一般的学生的概率是P 2=5019.(2)由2χ统计量的计算公式得2χ=25252624)761918(502⨯⨯⨯⨯-⨯⨯≈11.538,由于11.538>10.828,所以可以有99.9%的把握认为“学生的学习积极性与对待班级工作的态度有关系”.2.某个体服装店经营某种服装,一周内获纯利y (元)与该周每天销售这种服装的件数x 之间的一组数据如下:已知∑=712i i x =280, ∑=712i i y =45 309, ∑=71i i i y x =3 487,此时r 0.05=0.754.(1)求x ,y ;(2)判断一周内获纯利润y 与该周每天销售件数x 之间是否线性相关,如果线性相关,求出回归直线方程.解 (1)x =71(3+4+5+6+7+8+9)=6,y=71 (66+69+73+81+89+90+91)≈79.86.(2)根据已知∑=712i i x =280, ∑=712i i y =45 309, ∑=71i i i y x =3 487,得相关系数 r=)86.79730945)(67280(86.7967487322⨯-⨯-⨯⨯-≈0.973.由于0.973>0.754,所以纯利润y与每天销售件数x 之间具有显著线性相关关系. 利用已知数据可求得回归直线方程为yˆ=4.746x+51.386.3.某种书每册的成本费y (元)与印刷册数x (千册)有关,经统计得到数据如下:检验每册书的成本费y 与印刷册数的倒数x1之间是否具有线性相关关系,如有,求出y 对x 的回归方程.解 首先作变量置换,令u=x1,题目所给数据变成如下表所示的10对数据:然后作相关性检验.经计算得r ≈0.999 8>0.75,从而认为u 与y 之间具有线性相关关系.由公式得aˆ≈1.125,b ˆ≈8.973, 所以yˆ=1.125+8.973u, 最后回代u=x1,可得y ˆ=1.125+x973.8,这就是题目要求的y 对x 的回归曲线方程.回归曲线的图形如图所示,它是经过平移的反比例函数图象的一个分支.一、填空题1.对于独立性检验,下列说法中正确的是 . ①2χ的值越大,说明两事件相关程度越大 ②2χ的值越小,说明两事件相关程度越小 ③2χ≤2.706时,有90%的把握说事件A 与B 无关 ④2χ>6.635时,有99%的把握说事件A 与B 有关 答案 ①②④2.工人月工资y (元)依劳动生产率x(千元)变化的回归方程为y ˆ=50+80x ,下列判断正确的是 .①劳动生产率为1 000元时,工资为130元。

11线性回归方程的求法

11线性回归方程的求法

根据最小二乘法估计a 和 b就是未知参数a和b的最好估计,
i xi 1 2 y i x i2
2 , x i i=1 n
x
, y
, xi yi
i=1
n
.
例1 从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。
1 编号 身高/cm 165 体重/kg 48
2 3 4 5 6 7 8 165 157 170 175 165 155 170 57 50 54 64 61 43 59
求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为 ( x, y)称为 172cm的女大学生的体重。
n
样本点的中心 根据最小二乘法估计a 和 b就是未知参数 a和b的最好估计,
例1 从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。
1 编号 身高/cm 165 体重/kg 48
2 3 4 5 6 7 8 165 157 170 175 165 155 170 57 50 54 64 61 43 59
求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为 172cm的女大学生的体重。
施化肥量x 15
20
25
30
35
40
45
水稻产量y 330 345 365 y
500 450 400 350 300 10
405 445
450 455
散点图
水稻产量
··
20
·
·
· · ·
施化肥量
30 40 50
x
探索2:在这些点附近可画直线不止一条, 哪条直线最能代表x与y之间的关系呢? 发现:图中各点,大致分布在某条直线附近。

—多元线性回归分析案例

—多元线性回归分析案例

—多元线性回归分析案例多元线性回归分析是一种广泛使用的统计分析方法,用于研究多个自变量对一个因变量的影响程度。

在实际应用中,多元线性回归可以帮助我们理解变量之间的相互关系,并预测因变量的数值。

下面我们将以一个实际案例来介绍多元线性回归分析的应用。

假设我们是一家电子产品制造商,我们想研究影响手机销量的因素,并尝试通过多元线性回归模型来预测手机的销量。

我们选择了三个自变量作为影响因素:广告投入、价格和市场份额。

我们收集了一段时间内的数据,包括这三个因素以及对应的手机销量。

现在我们将利用这些数据来进行多元线性回归分析。

首先,我们需要将数据进行预处理和清洗。

我们检查数据的完整性和准确性,并去除可能存在的异常值和缺失值。

然后,我们对数据进行描述性统计分析,以了解数据的整体情况和变量之间的关系。

接下来,我们将建立多元线性回归模型。

我们将销量作为因变量,而广告投入、价格和市场份额作为自变量。

通过引入这些自变量,我们可以预测手机销量,并分析它们对销量的影响程度。

为了进行回归分析,我们需要估计模型的系数。

这可以通过最小二乘法来实现,该方法将使得模型的预测结果与实际观测值之间的残差平方和最小化。

接下来,我们将进行统计检验,以确定自变量对因变量的显著影响。

常见的统计指标包括回归系数的显著性水平、t值和p值。

在我们的案例中,假设多元线性回归模型的方程为:销量=β0+β1×广告投入+β2×价格+β3×市场份额+ε。

其中,β0、β1、β2和β3为回归系数,ε为误差项。

完成回归分析后,我们可以进行模型的诊断和评估。

我们可以检查模型的残差是否呈正态分布,以及模型的拟合程度如何。

此外,我们还可以通过交叉验证等方法评估模型的准确性和可靠性。

最后,我们可以利用训练好的多元线性回归模型来进行预测。

通过输入新的广告投入、价格和市场份额的数值,我们可以预测手机的销量,并根据预测结果制定相应的市场策略。

综上所述,多元线性回归分析是一种强大的统计工具,可用于分析多个自变量对一个因变量的影响。

计量经济学_三元线性回归模型案例分析

计量经济学_三元线性回归模型案例分析

选择“国内生产总值(GDP)”作为经济整体增长水平的代表;选择中央和地方“财政支出”作为公共财政需求的代表;选择“商品零售物价指数”作为物价水平的代表。

由于税制改革难以量化,而且1985年以后财税体制改革对税收增长影响不是很大,可暂不考虑。

所以解释变量设定为可观测“国内生产总值(GDP)”、“财政支出”、“商品零售物价指数”一,数理经济学方程Y = C(1) + C(2)*XY i=β0+β2X2+β3X3+β4X4二,计量经济学方程设定线性回归模型为:Y i=β0+β2X2+β3X3+β4X4+μ三,数据收集从《国家统计局》获取以下数据:年份财政收入(亿元)Y 国内生产总值(亿元)X2财政支出(亿元)X3商品零售价格指数(%)X41978 519.28 3624.1 1122.09 100.7 1979 537.82 4038.2 1281.79 102 1980 571.7 4517.8 1228.83 106 1981 629.89 4862.4 1138.41 102.4 1982 700.02 5294.7 1229.98 101.9 1983 775.59 5934.5 1409.52 101.5 1984 947.35 7171 1701.02 102.8 1985 2040.79 8964.4 2004.25 108.8 1986 2090.73 10202.2 2204.91 106 1987 2140.36 11962.5 2262.18 107.3 1988 2390.47 14928.3 2491.21 118.5 1989 2727.4 16909.2 2823.78 117.81990 2821.86 18547.9 3083.59 102.1 1991 2990.17 21617.8 3386.62 102.9 1992 3296.91 26638.1 3742.2 105.4 1993 4255.3 34636.4 4642.3 113.2 1994 5126.88 46759.4 5792.62 121.7 1995 6038.04 58478.1 6823.72 114.8 1996 6909.82 67884.6 7937.55 106.1 1997 8234.04 74462.6 9233.56 100.8 1998 9262.8 78345.2 10798.18 97.4 1999 10682.58 82067.5 13187.67 97 2000 12581.51 89468.1 15886.5 98.5 2001 15301.38 97314.8 18902.58 99.2 2002 17636.45 104790.6 22053.15 98.7四,参数估计利用eviews软件可以得到Y关于X2的散点图:可以看出Y和X2成线性相关关系Y关于X3的散点图:可以看出Y和X3成线性相关关系Y关于X1的散点图:Dependent Variable: YMethod: Least SquaresDate: 01/09/10 Time: 13:16Sample: 1978 2002Included observations: 25Variable Coefficient Std. Error t-Statistic Prob.C -2582.755 940.6119 -2.745825 0.0121X2 0.022067 0.005577 3.956633 0.0007X3 0.702104 0.033236 21.12474 0.0000X4 23.98506 8.738296 2.744821 0.0121R-squared 0.997430 Mean dependent var 4848.366Adjusted R-squared 0.997063 S.D. dependent var 4870.971S.E. of regression 263.9591 Akaike info criterion 14.13511Sum squared resid 1463163. Schwarz criterion 14.33013Log likelihood -172.6889 F-statistic 2717.254Durbin-Watson stat 0.948521 Prob(F-statistic) 0.000000模型估计的结果为:Y i=-2582.755+0.022067X2+0.702104X3+23.98506X4(940.6119) (0.0056) (0.0332) (8.7383)t={-2.7458} {3.9567} {21.1247} {2.7449}R2=0.997 R2=0.997 F=2717.254 df=21五,相关检验1.经济意义检验模型估计结果说明,在假定其他变量不变的情况下,当年GDP 每增长1亿元,税收收入就会增长0.02207亿元;在假定其他变量不变的情况下,当年财政支出每增长1亿元,税收收入就会增长0.7021亿元;在假定其他变量不变的情况下,当零售商品物价指数上涨一个百分点,税收收入就会增长23.985亿元。

同步优化设计2021年高中数学第七章统计案例1一元线性回归课件北师大版选择性必修第一册2021061

同步优化设计2021年高中数学第七章统计案例1一元线性回归课件北师大版选择性必修第一册2021061
8
436
=54.5,
8

^
165×48+165×57+157×50+170×54+175×64+165×61+155×43+170×59-8×165.25×54.5
=
266
=313.5
^
1652 +1652 +1572 +1702 +1752 +1652 +1552 +1702 -8×165.252
探究一
直线拟合
例1下面4个散点图中,不适合用直线拟合其中两个变量的是(
)
答案 A
解析 根据题意知,适合用直线拟合其中两个变量的散点图,必须是散点分
布比较集中,且大体接近于某一条直线,分析选项中的4个散点图可得,A中
的散点杂乱无章,最不符合条件.
反思感悟 一般地,直观地判断线性相关性就是观察散点图是否近似成一条
系.故选D
微思考
相关关系与函数关系有什么异同点?
提示相同点:两者均是指两个变量的关系.
不同点:①函数关系是一种确定的关系,如圆的面积S与半径r的关系,它可
以用函数关系式S=πr2来表示;相关关系是一种非确定的关系,如人的体重y
与身高x有关,一般来说,身高越高,体重越重,但不能用一个函数关系式来严
格地表示它们之间的关系.②函数关系是一种因果关系,而相关关系不一定
所以线性回归方程为Y=0.7X+1.05.
当堂检测
1.已知变量X,Y之间具有线性相关关系,其散点图如图所示,则其线性回归
方程可能为(
)
A.y=1.5x+2
B.y=-1.5x-2
C.y=1.5x-2

一元线性回归分析案例

一元线性回归分析案例
课题:选修2-3 8.5 回归分析案例
数学3——统计内容
再冷的石头,坐上三年也会暖 !
1. 画散点图
2. 了解最小二乘法的思想
3. 求回归直线方程
y=bx+a
4. 用回归直线方程解决应用问题
课题:选修2-3 8.5 回归分析案例
复习 变量之间的两种关系
再冷的石头,坐上三年也会暖 !
问题1:正方形的面积y与正方形的边长x之间
选修2-3——统计案例
5. 引入线性回归模型
y=bx+a+e
6. 了解模型中随机误差项e产 生的原因
7. 了解相关指数 R2 和模型拟 合的效果之间的关系
8. 了解残差图的作用 9. 利用线性回归模型解决一类
非线性回归问题 10. 正确理解分析方法与结果
课题:选修2-3 8.5 回归分析案例
再冷的石头,坐上三年也会暖 !
课题:选修2-3 8.5 回归分析案例
解:(1)列出下表,并计算
再冷的石头,坐上三年也会暖 !
i
1
2
3
4
5
6
7
8
9
10
xi 104 180 190 177 147 134 150 191 204 121 yi 100 200 210 185 155 135 170 205 235 125 xiyi 10400 36000 39900 32745 22785 18090 25500 39155 47940 15125
现实生活中存在着大量的相关关系。 如:人的身高与年龄; 产品的成本与生产数量; 商品的销售额与广告费; 家庭的支出与收入。等等
探索:水稻产量y与施肥量x之间大致有何规 律?
课题:选修2-3 8.5 回归分析案例
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

yi- ^yi2 =
= 0.845 , R 2 乙=1-
2
n
i=1 n
yi- ^yi2

i=1
n
i=1
yi- y
yi- y 2甲 模源自拟合的效果更好. 0.82,则________
返回
◆数学•选修2-3•(配人教A版)◆
自测自评
1.下列变量是相关关系的是( D ) A.人的身高与视力
◆数学•选修2-3•(配人教A版)◆
统计案例
3.1 回归分析的基本思想及其初步应用
3.1.1 线性回归方程
◆数学•选修2-3•(配人教A版)◆
基础梳理
1.回归分析是对具有________ 相关关系的两个变量进行统计分析 的一种常用方法. 例如:身高与体重有关系可以用 ______分析的方法来研 究.( B ) A.残差 C.二维条形图 B.回归 D.独立检验
返回
◆数学•选修2-3•(配人教A版)◆
4.(2012年江门一模)有人收集了春节期间平均气温x与某取 暖商品销售额y的有关数据如下表: 平均气温/℃ 销售额/万元 -2 20 -3 23 -5 27 -6 30
根据以上数据,用线性回归的方法,求得销售额y与平均 ˆ =-2.4.则预测平 ˆ x+ a ˆ 的系数 b 气温x之间线性回归方程y= b 均气温为-8 ℃时该商品销售额为( )
B.角的大小与所对的圆弧长
C.收入水平与消费水平
^ 2.若线性回归方程中的回归系数 b =0,则相关系数为 ________ . 0 D.人的年龄与身高
返回
◆数学•选修2-3•(配人教A版)◆
3.(2011年长沙一中月考)在对两个变量x、y进行线性回归 分析时一般有下列步骤: ①对所求出的回归方程作出解释;②收集数据(xi,yi),i = 1,2 , … , n ;③求线性回归方程;④求相关系数;⑤根据 所搜集的数据绘制散点图.如果根据可靠性要求能够判定变 量x,y具有线性相关性,则在下列操作顺序中正确的是( D ) A.①②⑤③④ B.③②④⑤① C.②④③①⑤ D.②⑤④③①
返回
◆数学•选修2-3•(配人教A版)◆
分析:从散点图可以直观地 看出变量x与y之间有无线性相关 关系,为此把这8对数据描绘在平 面直角坐标系中,得到平面上8个 点,如下图所示. 由图容易看出,x与y之间有线性相关关系.故可用线性 回归模型解决.
解析:数据列表如下:
序号 1 x y x2 xy
1.40
n
n
R2=1-
相关指数: ____________________ , R2 的值越大,说明 i=1 ____________ 越好 . 残差平方和 越小,模型的拟合效果________ 例如:在两个变量 y与 x 的回归模型中,分别选择了甲、 乙两个不同的模型,它们的相关指数R2如下:
i 1 2 R甲 =1- n
165 48
165 57
157 50
170 54
175 64
165 61
155 43
170 59
返回
◆数学•选修2-3•(配人教A版)◆
由此建立的身高与体重的回归模型为 y = 0.849x - 85.712 , 用这个模型预报一名身高为172 cm的女大学生的体重,则正 确的叙述是( ) C A.体重一定是60.316 kg B.体重在60.316 kg以上 C.体重在60.316 kg左右 D.体重在60.316 kg以下 3.相关系数:r=
返回
◆数学•选修2-3•(配人教A版)◆
跟踪练习 1.在一段时间内,分5次测得某种商品的价格x(万元)和 需求量y(t)之间的一组数据为: 价格x 需求量y
5
1 1.4 12
5
2 1.6 10
3 1.8 7
4 2 5
5 2.2 3
2 已知∑ x y = 62 ,∑ x =16.6. i=1 i i i=1 i
故所求的回归直线方程为y=34.67+0.29x. 当 x=56.7 时,y=34.67+0.29×56.7=51.113. 估计成熟期有效穗为 51.113.
^ ^ ^ ^
(3)由于 y =bx +a+e ,可以算出ei=yi -yi,分别为e 1= 0.38,e2=0.748,e3=-0.47,e4=-2.184,e5=1.654.
1.70
1.96
2.380
返回
◆数学•选修2-3•(配人教A版)◆
2 3 1.50 1.60 1.79 1.88 2.25 2.56 2.685 3.008
4 5 6 7 8

1.70 1.80 1.90 2.00 2.10 14.00
1.95 2.03 2.10 2.16 2.21 15.82
2.89 3.24 3.61 4.00 4.41 24.92
i=1
残差平方和 回归平方和 回归值与样 总偏差平方和-残差平 本值差的平 方和 方和
i=1
(yi- y )
n
2

n
2 (yi- y )2- (yi- ^yi)2 (yi- ^ ) yi i=1 i=1
n
n
返回
◆数学•选修2-3•(配人教A版)◆
i =1
yi- ^yi2 yi- y 2
x· y =1 320.66, y 2=1 892.25, x 2=921.729 6, ∑ x y =6 746.76. i=1 i i
∑ x y -5 x y ^ ^ i =1 i i 由b= ≈0.29,a= y -b x ≈34.67, 5 2 2 ∑ x -5 x i =1 i
^ 5
返回
◆数学•选修2-3•(配人教A版)◆
- - x y + x y +…+ x y - n x · y ^ 1 1 2 2 n n ^= ^ x. , = y - b a b x2+x2+…+x2-n x 2
1 2 n
例如:从某大学中随机选取8名女大学生,其身高和体重 数据如下表所示: 编号 身高/cm 体重/kg 1 2 3 4 5 6 7 8
A.34.6万元
C.36.6万元
B.35.6万元
D.37.6万元
返回
◆数学•选修2-3•(配人教A版)◆
-16 100 解析: x = =-4, y = =25,由题意知, 4 4 ^ =-2.4x+^ y a过(-4,25),25=-2.4×(-4)+^ a,得 ^ ^=-2.4x+15.4.当 x=-8 时, a=25-9.6=15.4.所以y y=19.2+15.4=34.6,故选 A. 答案:A
3.315 3.654 3.990 4.320 4.641 27.993
1 于是, x = ×14.00=1.75, 8 1 y = ×15.82=1.977 5. 8
返回
◆数学•选修2-3•(配人教A版)◆
^ =27.993-8×1.75×1.977 5=11≈0.733. b 15 24.92-8×1.752 ^ =1.977 5-11×1.75≈0.694. a 15 ^=0.694+0.733x. y对x的回归直线方程为y 回归系数 ^ b = 0.733 的含义是,在此灌溉渠道中,水深每
^=0.694可以解释 增加0.1 m,水的流速平均增加0.733 m/s, a 为水的流速中不受水深影响的部分. (2) 由 (1) 中求出的回归直线方程,把 x = 1.95 代入,易得 ^=0.694+0.733×1.95≈2.12(m/s). y 计算结果表明,当水深为1.95 m时可以预测渠水的流速 约为2.12 m/s.
返回
◆数学•选修2-3•(配人教A版)◆
解析:(1)散点图如下: (2)由图看出,样本点呈条状分布, 有比较好的线性相关关系,因此可以用 线性回归方程刻画它们之间的关系.
设回归方程为y=bx+a, x =30.36, y =43.5,
2 ∑ x =5 i=1 i 5 5 2 101.56,∑ y =9 511.43. i=1 i 5 ^ ^ ^
返回
◆数学•选修2-3•(配人教A版)◆
2.从散点图看,若样本点集中在某一条直线附近,则可 用下面的线性回归模型来表示:________________. 其中a和b y=bx+a+e ^和^ 为模型的未知参数, e 称为________ b称为未知参数 a 随机误差.把 a 和b的________ 最好估计,
返回
◆数学•选修2-3•(配人教A版)◆
线性回归分析
研究某灌溉渠道水的流速 y 与水深 x 之 间的关系, 测得一组数据如下: 水深x/m 1.40 1.50 1.60 1.70 1.80 1.90 2.00 2.10 流速y/ 1.70 1.79 1.88 1.95 2.03 2.10 2.16 2.21 (m·s-1) (1)求y对x的回归直线方程; (2)预测水深为1.95 m时水的流速是多少?
2 残差平方和:∑ e ≈8.43. i=1 i 2 (4)∑ ( y - y ) =50.18, i i=1 8.43 2 ∴R =1- ≈0.832. 50.18 所以解释变量小麦基本苗数对总效应约贡献了 83.2%.残 差变量贡献了约 1-83.2%=16.8%. 5 5 ^ ^ ^ ^ ^
^
^ ^
^
^
返回
◆数学•选修2-3•(配人教A版)◆
残差分析
假定小麦基本苗数x与成熟期有效穗y之间存在相关 关系,今测得5组数据如下: x y 15.0 25.8 30.0 36.6 44.4 39.4 42.9 42.9 43.1 49.2
(1)以x为解释变量,y为预报变量,作出散点图; (2) 求 y 与 x 之间的回归方程,并对于基本苗数 56.7 预报有 效穗; (3)计算各组残差,并计算残差平方和; (4)求相关指数R2,并说明残差变量对有效穗的影响占百 分之几.
相关文档
最新文档