相关系数临界值表
Spearmen相关系数和Pearson相关系数及其MATLAB实现

Spearmen 相关系数和Pearson 相关系数及其MATLAB 实现Spearmen 相关系数,Spearman 秩相关系数是一种无参数(与分布无关)检验方法,用于度量变量之间联系的强弱。
在没有重复数据的情况下,如果一个变量是另外一个变量的严格单调函数,则Spearman 秩相关系数就是+1或-1,称变量完全Spearman 秩相关。
表达式如下:式中,n 为样方数,对原始数据i x ,i y 按从大到小排序,记'i x ,'i y 为原始i x ,i y 在排序后列表中的位置,'i x ,'i y 称为i x ,i y 的秩次,秩次差'i 'i i y -x d 。
使用Pearson 线性相关系数有2个局限:1) 必须假设数据是成对地从正态分布中取得的。
2) 数据至少在逻辑范围内是等距的。
位置n 原始X 排序后 秩次 原始Y 排序后 秩次 秩次差 1 12 546 5 1 78 6 1 2 546 45 1 78 46 1 0 3 13 32 4 2 45 5 1 4 45 13 2 46 6 2 0 5 32 12 3 6 2 4 1 62264513-3对于上表数据,算出Spearman 秩相关系数为:r=1-6*(1+1+1+9)/(6*35)=0.6571 图1 秩相关系数检验的临界值表上图为秩相关系数检验的临界值表。
对相关系数r (-1<r<1):A.当|r|越接近1则表示样本之间的相关程度越高;B.当|r|越接近0则表示样本之间的相关程度越低。
因为n=6,若|r|>0.829,则样本之间存在相关性,反之则不存在显着相关性,若|r|>0.943,则样本之间存在极显着相关性。
程序:%%%%%%%%%%%%将以下程序存为mySpearman.m 文件%%%%%%%%%function coeff = mySpearman(X , Y) if length(X) ~= length(Y)error('两个数值数列的维数不相等'); return; endN = length(X); %得到序列的长度Xrank = zeros(1 , N); %存储X 中各元素的排行 Yrank = zeros(1 , N); %存储Y 中各元素的排行 %计算Xrank 中的各个值 for i = 1 : Ncont1 = 1; %记录大于特定元素的元素个数cont2 = -1; %记录与特定元素相同的元素个数for j = 1 : Nif X(i) < X(j)cont1 = cont1 + 1;elseif X(i) == X(j)cont2 = cont2 + 1;endendXrank(i) = cont1 + mean([0 : cont2]);end%计算Yrank中的各个值for i = 1 : Ncont1 = 1; %记录大于特定元素的元素个数cont2 = -1; %记录与特定元素相同的元素个数for j = 1 : Nif Y(i) < Y(j)cont1 = cont1 + 1;elseif Y(i) == Y(j)cont2 = cont2 + 1;endendYrank(i) = cont1 + mean([0 : cont2]);end%利用差分等级(或排行)序列计算斯皮尔曼等级相关系数coeff = 1 - (6 * sum((Xrank - Yrank).^2)) /(N * (N^2 - 1));end%函数mySpearman结束%%%%%%%%%%运行下面这个程序%%%%%%%%%%%%%%%%X=[12,546,13,45,32,2];Y=[1,78,2,46,6,45];S=mySpearman(X,Y);%根据以上程序可以算出Spearman秩相关系数为0.6571 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%matlab自带程序coeff?=?corr(X?,?Y?,?'type'?,?'Spearman');?Pearson相关系数(Pearson correlation coefficient)也叫皮尔森积差相关系数(Pearson product-moment correlation coefficient),是用来反应两个变量相似程度的统计量。
标准曲线的最小二乘法拟合和相关系数

标准曲线的最小二乘法拟合和相关系数(合肥工业大学控释药物研究室尹情胜)1 目的用最小二乘法拟合一组变量(,,i=1-n)之间的线性方程(y=ax+b),表示两变量间的函数关系;(开创者:德国数学家高斯)一组数据(,,i=1-n)中,两变量之间的相关性用相关系数(R)来表示。
(开创者:英国统计学家卡尔·皮尔逊)2 最小二乘法原理用最小二乘法拟合线性方程时,其目标是使拟合值()与实测值()差值的平方和(Q)最小。
式(1)3 拟合方程的计算公式与推导当Q最小时,;得到式(2)、式(3):式(2)式(3)由式(3)和式(4),得出式(4)和式(5):式(4)式(5)式(4)乘以n,式(5)乘以,两式相减并整理得斜率a:斜率(k=xy/xx,n*积和-和积)式(6)截距b的计算公式为公式(5),也即:截距b=(y-x)/n,差平均差)式(7)4 相关系数的意义与计算公式相关系数(相关系数的平方称为判定系数)是用以反映变量之间相关关系密切程度的统计指标。
相关系数(也称积差相关系数)是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。
相关系数r xy取值在-1到1之间。
r xy = 0时,称x,y不相关;| r xy | = 1时,称x,y完全相关,此时,x,y之间具有线性函数关系;| r xy | < 1时,X的变动引起Y的部分变动,r xy的绝对值越大,x的变动引起y的变动就越大,|r xy | > 0.8时称为高度相关,当0.5< | r xy|<0.8时称为显著相关,当0.3<| r xy |<0.5时,成为低度相关,当| r xy | < 0.3时,称为无相关。
(式(7)5 临界相关系数的意义5.1 临界相关系数中显著性水平(α)与置信度(P)的关系显著性水平取0.05,表示置信度为95%;取0.01,置信度就是99%。
临界相关系数

临界相关系数一、介绍临界相关系数是统计学中的一个重要概念,用于衡量两个变量之间的相关程度。
在统计分析中,我们经常需要确定两个变量之间的关联性,以便更好地理解和解释数据。
临界相关系数提供了一种衡量这种关联性的方法,可以帮助我们确定变量之间是否存在显著的相关性。
二、相关系数的定义相关系数是用来度量两个变量之间关联程度的统计量。
在实际应用中,最常用的相关系数是皮尔逊相关系数,也叫做线性相关系数。
皮尔逊相关系数的取值范围是-1到1,其中1表示完全正相关,-1表示完全负相关,0表示没有线性相关关系。
三、临界相关系数的概念临界相关系数是一种对皮尔逊相关系数进行显著性检验的方法。
在统计学中,我们通常希望判断观察到的相关系数是否具有统计显著性,即是否可以推断出变量之间的相关关系不是由于随机因素引起的。
临界相关系数提供了一个临界值,如果观察到的相关系数超过了这个临界值,我们可以认为这个相关系数是显著的。
四、计算临界相关系数计算临界相关系数需要先确定显著性水平,通常用α表示。
常见的显著性水平有0.05和0.01。
然后,根据样本量n和自由度df,查找对应的临界值。
临界相关系数可以在统计表格中找到,也可以使用统计软件进行计算。
五、临界相关系数的应用临界相关系数的应用非常广泛。
在社会科学研究中,临界相关系数可以用来分析调查问卷数据,帮助研究人员了解变量之间的关联性。
在金融领域,临界相关系数可以用来分析股票之间的关联性,帮助投资者进行风险管理和资产配置。
在医学研究中,临界相关系数可以用来分析疾病和遗传因素之间的关系,帮助医生制定治疗方案。
六、临界相关系数的局限性临界相关系数虽然在统计分析中起着重要作用,但也存在一些局限性。
首先,临界相关系数只能用来衡量线性关系,对于非线性关系无法准确判断。
其次,临界相关系数只能用来判断变量之间的关联性,无法确定因果关系。
最后,临界相关系数只能用来判断两个变量之间的关联性,对于多个变量之间的关系无法进行分析。
环境监测 第九章_环境监测质量保证_例题和习题

第九章 环境监测质量保证例题1 有一氟化物的标准水样浓度为l00mg/L 经测量7次,其值为103mg/L 、107mg/L 、104mg/L 、105mg/L 、103mg/L 、102mg/L 、108mg/L 。
求算术均数、众数、中位数、绝对误差、相对误差、绝对偏差、平均偏差、极差、样本差方和、方差、标准偏差和变异系数。
解:算术均数L mg x /1057108102103105104107103=++++++=众数=103mg/L 中位数=104mg/L绝对误差=测量值一真值:3mg/L ,7mg/L ,4mg/L ,5mg/L ,3mg/L ,2mg/L ,8mg/L 相对误差=%100⨯真值绝对误差=3%,7%,4%,5%,3%,2%,8% 绝对偏差(d i )=测量值一多次测量值的均值=-2mg/L ,2mg/L ,―lmg/L ,0mg/L ,―2mg/L ,-3mg/L ,3mg/L 平均偏差L mg d n d n i i /86.173320122||11=++++++==∑= 极差R =Xmax 一Xmin =108—102=6mg/L样本差方和S =221)/(74.29)(L mg x x n i i =-∑=方差s 2=221)/(95.41)(L m g n x x n i i =--∑=标准偏差s=)/(22.21)(21L mg n x x n i i =--∑= 变异系数(相对标准偏差)=%11.2%100=⨯xs 例题2 四川省某年水质技术考核数据如表所示,试用4d 检验法对可能的离群值进行处理。
解: 先将数据按大小排列:15.88,17.71,18.54,19.80,19.86,19.86,19.92,19.93,19.94,20.01,20.08,20.26,21.23,21.26,21.49,22.22,22.34,22.54,22.78,29.16。
f检验临界值表怎么查

F检验临界值表0.01n是数据量k是自变量数目1、找到相关系数显著性检验表;2、然后确定自由度(n-m-1),n,m 分别代表样本个数和未知量维度;3、查找a0.01 ,a0.05,a.010对应的值;4、将相关系数r与a比较,确定显著性水平.我要提问t检验查表0.05和0.01怎么选择匿名分享到微博提交回答1 问: Excel相关系数的假设检验答: 详情>> 2 相关系数的假设检验回答2 3 eviews多元回归t检验和F检验临界值问题回答2 4 t 检验差1、首先我要拿出F检验表了解自由度是多少,例如当a=0.01时,找到a=0.01的表;2、下图红线所圈出的是以分位数为0.90,自由度为(6,8)的F分布为例.首先选择分位数为0.90的分位数表,然后找到上方一行的6,对应6下方的一列.3、然后我们还要找到左侧一列中的8,对应8的那一行.4、最后两者相交的那个数字就是需要查找的分位数为0.90,自由度为(6,8)的F分布的值.需要注意的是:F是一种非对称分布,有两个自由度,且位置不可互换.F分布表横坐标是x,纵坐标是y,一个分位点一张表,F0.05(7,9)就查分位点是0.05的那张表横坐标为7,纵坐标为9处的值.=FINV(0.05,因子自由度,误差项自由度)一般取a=0.05,也可以取0.01,取决于你容忍的错误率.求出临界值后,再和F值比较如果F值>临界值表示此因子贡献显著,否则,不显著就看sig值就可以了,代表的就是显著性结果P值,P=0.756>0.05,表明结果没有统计学差异.这个由你所需要的置信区间(通俗的说就是要求的准确率)来确定,一般是选择0.05,也就是你的置信几率是95%.回归的检验首先看anova那个表,也就是f检验,那个表代表的是对你进行回归的所有自变量的回归系数的一个总体检验,如果sig<0.05,说明至少有一个自变量能够有效预测因变量,这个在写数据分析结果时一般可以不报告然后看系数表,看标准化的回归系数是否显著,每个自变量都有一个对应的回归系数以及显著性检验F大概接近200,相伴概率几乎为0,已经足够说明y与这三个变量总体上的线性回归关系很显著了.因为我们做假设检验时,通常选择显著性水平α= 0.05或者0.01,如果是查F统计量表,会得到一个临界值,只要计算所得的F值大于那个临界值,就说明总体线性关系显著.此处,你的模型F值接近200,非常大了,所以其相伴概率当然很小(几乎为0),关于这个F检验,你可以再看看概率统计书复习一下.。
地理学中的经典统计分析方法——第1节相关分析

著负相关,在专业
意义上为假相关。
32
(二)秩相关系数的计算与检验
➢秩相关系数,又称等级相关系数,或顺序 相关系数,是将两要素的样本值按数据的大 小顺序排列位次,以各要素样本值的位次代 替实际数据而求得的一种统计量。
n
6 d i 2
rxy
1
i 1
n(n 2
1)
(3.1.4)
33
示例:
➢书中表3.1.4给出了2003年中国大陆各省(直辖 市、自治区)的GDP(x)和总人口(y)数据及 其位次,将数据代入公式(3.1.4),就可以计 算它们之间的秩相关系数:
达尔文的表弟高尔顿(Francis Galton, 1822-1911),是回归分 析的奠基人,是一个著名的统计学家,但他在地理学、气象学、 心理学和生物学(特别是遗传学和优生学)等多个领域有突出贡 献。此人智力早熟,很小就学习数学,但没有完成学业;然后学 习医学,也没有完成学业。在一些世俗的观念里面,这个人简直 是一个不成器的家伙。在 20岁出头的时候,他继承了父亲的一 笔遗产,然后外出旅行探险:沿着多瑙河到黑海、到埃及,然后 逐步深入到当时尚未开发的非洲西南部的一些地区……。最后, 他定居英国伦敦,从事科学研究。获得英国皇家地理学会的金质
气温(T)与降水量(P)之间的相关系
数:
12
rTP
(ti t)(pi p)
i1
12
12
(ti t)2 (pi p)2
30.901 25.50515.0384
i1
i1
30.901 0.4895 1.5833.884
➢计算结果表明,伦敦市的月平均气温 (t)与降水量(p)之间呈负相关,即 异向相关。
表内的数值代表不同的置信水平下相关系数的临界值;公式
新人教版高中数学选修三第三单元《成对数据的统计分析》测试(含答案解析)(2)
一、选择题1.某车间加工零件的数量x 与加工时间y 的统计数据如表:该车间的负责人作出散点图,发现x ,y 是线性相关的,并求出y 关于x 的线性回归方程23517=+y bx (其中b 是常数),据此回归模型可以预测,加工20个零件所需要的加工时间约为( ) A .45分钟 B .46分钟 C .47分钟 D .48分钟2.在生物学上,有隔代遗传的现象.已知某数学老师的体重为62kg ,他的曾祖父、祖父、父亲、儿子的体重分别为58kg 、64kg 、58kg 、60kg .如果体重是隔代遗传,且呈线性相关,根据以上数据可得解释变量x 与预报变量y 的回归方程为y bx a =+,其中0.5b =,据此模型预测他的孙子的体重约为( )A .58kgB .61kgC .65kgD .68kg3.已知()()()()()22n ad bc K a b c d a c b d -=++++,n a b c d =+++.在“数学文化大讲堂”活动中,某老师对“学生性别和喜欢数学文化是否有关”作了一次调查,其中被调查的女生人数是男生人数的12,男生喜欢数学文化的人数占男生人数的16,女生喜欢数学文化的人数占女生人数23,若有99%的把握认为是否喜欢数学文化和性别有关,则男生至少有( ) A .24人 B .22人C .20人D .18人4.某公司在2014~2018年的收入与支出情况如下表所示:支出y (亿元)0.2 1.5 2.0 2.5 3.8根据表中数据可得回归直线方程为0.7y x a =+,依此估计如果2019年该公司收入为8亿元时的支出为( ) A .4.502亿元 B .4.404亿元 C .4.358亿元D .4.856亿元5.下列命题不正确的是( )A .研究两个变量相关关系时,相关系数r 为负数,说明两个变量线性负相关B .研究两个变量相关关系时,相关指数R 2越大,说明回归方程拟合效果越好.C .命题“∀x ∈R ,cos x ≤1”的否定命题为“∃x 0∈R ,cos x 0>1”D .实数a ,b ,a >b 成立的一个充分不必要条件是a 3>b 3 6.已知具有线性相关的两个变量,x y 之间的一组数据如下表所示:x0 1 2 3 4 y 2.24.34.54.86.7若,x y 满足回归方程 1.5ˆˆyx a =+,则以下为真命题的是( ) A .x 每增加1个单位长度,则y 一定增加1.5个单位长度 B .x 每增加1个单位长度,y 就减少1.5个单位长度 C .所有样本点的中心为(1,4.5) D .当8x =时,y 的预测值为13.57.为预测某种产品的回收率y ,需要研究它和原料有效成分的含量x 之间的相关关系,现取了8组观察值.计算得8152ii x==∑,81228i i y ==∑,821478ii x ==∑,811849i i i x y ==∑,则y对x 的回归方程是( ) A .y =11.47+2.62x B .y =-11.47+2.62x C .y =2.62+11.47x D .y =11.47-2.62x8.一个车间为了规定工时定额,需要确定加工零件所花费的时间,由此进行了5次实验,收集数据如下: 零件数:个 10 20 30 40 50 加工时间:分钟5971758189由以上数据的线性回归方程估计加工100个零件所花费的时间为( ) 附:回归直线的斜率和截距的最小二乘估计公式分别为1122211()(),()nniii ii i nni ii i x x y y x y nxyb a y bx x x xnx ====---===---∑∑∑∑A .124分钟B .150分钟C .162分钟D .178分钟9.下列有关统计知识的四个命题正确的是( )A .衡量两变量之间线性相关关系的相关系数r 越接近1,说明两变量间线性关系越密切B .在回归分析中,可以用卡方2x 来刻画回归的效果,2x 越大,模型的拟合效果越差C .线性回归方程对应的直线ˆˆˆy bx a =+至少经过其样本数据点中的一个点D .线性回归方程0.51y x =+中,变量x 每增加一个单位时,变量y 平均增加1个单位 10.已知,x y 的对应值表为:且,x y 线性相关,由于表格污损,y 的对应值看不到了,若6119.2ii y==∑,且线性回归直线方程为0.6y x a =+,则8x =时,y 的预报值为( ) A .6.1B .22.1C .12.6D .3.511.陕西关中的秦腔表演朴实,粗犷,细腻,深刻,再有电子布景的独有特效,深得观众喜爱.戏曲相关部门特意进行了“喜爱看秦腔”调查,发现年龄段与爱看秦腔的人数比存在较好的线性相关关系,年龄在[]40,44,[]45,49,[]50,54,[]55,59的爱看人数比分别是0.10,0.18,0.20,0.30.现用各年龄段的中间值代表年龄段,如42代表[]40,44.由此求得爱看人数比y 关于年龄段x 的线性回归方程为0.4188y kx =-.那么,年龄在[]60,64的爱看人数比为( ) A .0.42B .0.39C .0.37D .0.3512.在某次试验中,实数x ,y 的取值如下表:若x 与y 之间具有较好的线性相关关系,且求得线性回归方程为1y x =+,则实数m 的值为()A .1.6B .1.7C .1.8D .1.913.有一散点图如图所示,在5个(,)x y 数据中去掉(3,10)D 后,下列说法正确的是( )A .残差平方和变小B .相关系数r 变小C .相关指数2R 变小D .解释变量x 与预报变量y 的相关性变弱二、解答题14.某省即将实行新高考,不再实行文理分科.某校为了研究数学成绩优秀是否对选择物理有影响,对该校2018级的1000名学生进行调查,收集到相关数据如下: (1)根据以上提供的信息,完成22⨯列联表,并完善等高条形图;选物理 不选物理 总计数学成绩优秀数学成绩不优秀260 总计6001000(2)能否在犯错误的概率不超过0.05的前提下认为数学成绩优秀与选物理有关?附:22()()()()()n ad bc K a b c d a c b d -=++++临界值表:()20P K k0.10 0.05 0.010 0.005 0.00115.“每天锻炼一小时,健康工作五十年,幸福生活一辈子.”一科研单位为了解员工爱好运动是否与性别有关,从单位随机抽取30名员工进行了问卷调查,得到了如下列联表:已知在这30人中随机抽取1人抽到爱好运动的员工的概率是815. (1)请将上面的列联表补充完整,并据此资料分析能否有把握认为爱好运动与性别有关? (2)若从这30人中的女性员工中随机抽取2人参加一活动,记爱好运动的人数为X ,求X 的分布列、数学期望.16.某电脑公司有5名产品推销员,其工作年限与年推销金额的数据如表:(1)求年推销金额y 关于工作年限x 的线性回归方程; (2)判断变量x 与y 之间是正相关还是负相关;(3)若第6名推销员的工作年限是11年,试估计他的年推销金额.参考公式:线性回归方程y bx a =+中,a y bx =-,其中,x y 为样本平均数,1221ni ii nii x ynx y b xnx==-=-∑∑)17.调查某桑场采桑员和辅助工桑毛虫皮炎发病情况结果如下表:利用22⨯列联表的独立性检验估计,“患桑毛虫皮炎病与采桑”是否有关?认为两者有关系会犯错误的概率是多少?随机量变22()()()()()n ad bcKa b c d a c b d-=++++(其中n a b c d=+++)临界值表18.为调查某地区老人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?(3)根据(2)的结论,能否提供更好的调查方法来估计该地区老年人中,需要志愿帮助的老年人的比例?说明理由.19.某车间为了规定工时额定,需要确定加工零件所花费的时间,为此作了6次试验,得到数据如下:(1)试对上述变量x 与y 的关系进行相关性检验,如果x 与y 具有线性相关关系,求出y 对x 的回归直线方程;(2)根据(1)的结论,你认为每小时加工零件的数量额定为多少(四舍五入为整数)比较合理?附:相关性检验的临界值表()()nniii ix x y y x y nx yr---==∑∑()()()1122211n niii ii i nniii i x x y y x y nx yb x x xnx====---==--∑∑∑∑,y a bx =+42.0≈27.5≈20.一只药用昆虫的产卵数y 与一定范围内的温度x 有关,现收集了该种药用昆虫的6组观测数据如下表:经计算得:61()()557iii x x y y =--=∑,621()84ii x x =-=∑,621()3930i i y y =-=∑线性回归模型的残差平方和621()236.64iii y y =-=∑,8.06053167e ≈,其中,i i x y 分别为观测数据中的温度和产卵数,1,2,3,4,5,6i =(1)若用线性回归模型,求y 关于x 的回归方程ˆˆˆybx a =+(精确到0.1); (2)若用非线性回归模型求得y 关于x 的回归方程为0.2303ˆ0.06x ye =,且相关指数20.9522R =.①试与1中的回归模型相比,用2R 说明哪种模型的拟合效果更好.②用拟合效果好的模型预测温度为35℃时该用哪种药用昆虫的产卵数(结果取整数) 附:一组数据1122(,),(,)(,)n n x y x y x y 其回归直线ˆˆˆy bx a =+的斜率和截距的最小二乘估计为121()()ˆ()ni i i nii x x y y bx x ==--=-∑∑,ˆˆay bx =-;相关指数22121ˆ()1()niii nii y yR y y ==-=--∑∑.21.根据教育部高考改革指导意见,广东省从2021年正式实施“312++”新的高考考试方案.为尽快了解学生的选科需求,及时调整学校人力资源配备.某校从高一学生中抽样调查了100名同学,在模拟分科选择中,一半同学(其中男生38人)选择了物理,另一半(其中男生14人)选择了历史.请完成以下22⨯列联表,并判断能否有99.9%的把握说选科与性别有关?参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++为样本容量.22.某种产品的广告费支出x (百万元)与销售额y (百万元)之间有如下对应数据:(1)画出散点图;(2)求出线性回归方程,并预测广告费支出为1千万时销售额为多少万.(参考公式):1122211()()()nni i ii i i nni ii i x y nxy xx y y x nx xx a y b====⎧---⎪⎪⎪⎨--⎪⎪=-⎪⎩∑∑∑∑23.假设关于某设备的使用年限x 和所支出的维修费用y (万元)有如下的统计资料:若由资料知y 对x 呈线性相关关系. (1)请画出上表数据的散点图;(2)请根据最小二乘法求出线性回归方程ˆybx a =+的回归系数a ,b ; (3)估计使用年限为10年时,维修费用是多少?24.某地区不同身高()x cm 的未成年男孩的体重平均值()y kg 如下表:已知ln y 与x 之间存在很强的线性相关性, (1)据此建立y 与x 之间的回归方程;(2)若体重超过相同身高男性体重平均值的1.2倍为偏胖,低于0.8倍为偏瘦,那么这个地区一名身高150cm 体重为45kg 的在校男生的体重是否正常? 参考数据:()51ln 940iii x y =⋅=∑,51ln 11.5ii y==∑, 3.740.5e ≈附:对于一组数据()11,v μ,()22,v μ,…,(),n n v μ,其回归直线v bx a =+中的斜率和截距的最小二乘估计分别为1221ˆni i i nii v n vbn μμμμ==-=-∑∑,ˆˆav b μ=-. 25.随着人们经济收入的不断增加,个人购买家庭轿车已不再是一种时尚.车的使用费用,尤其是随着使用年限的增多,所支出的费用到底会增长多少,一直是购车一族非常关心的问题.某汽车销售公司做了一次抽样调查,并统计得出某款车的使用年限x 与所支出的总费用y (万元)有如表的数据资料:(1)求线性回归方程ˆˆˆybx a =+; (2)估计使用年限为12年时,使用该款车的总费用是多少万元?线性回归方程ˆˆˆya bx =+中斜率和截距用最小二乘法估计计算公式如下:()()()1122211ˆn niii ii i nni ii i x x y y x y nxybx x xnx ====---==--∑∑∑∑,ˆa y bx=- 26.某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:22()()()()()n ad bc K a b c d a c b d -=++++.【参考答案】***试卷处理标记,请不要删除一、选择题 1.D 解析:D 【分析】求出样本数据的中心坐标(,)x y ,代入回归直线方程,求出ˆb,得到回归直线方程,然后求解加工20个零件所需要的加工时间,得到答案. 【详解】由题意,根据表中的数据,可得1(911141516)135x =++++=, 1(3032364042)365y =++++=,即样本中心点为(13,36),将样本中心点为(13,36)代入回归方程,可得235361317b =⨯+,解得2917b =, 所以回归方程为292351717y x =+, 当20x时,292358152047.9848171717y =⨯+=≈≈(分钟). 故选:D. 【点睛】本题主要考查了线性回归方程的求法及应用,其中解答中熟记回归直线方程经过样本中心点是解答的关键,着重考查推理与运算能力.2.B解析:B 【分析】由已知得出数据,()58,58,()64,62,()58,60,根据回归直线过样本中心点,可求得(),x y ,计算求得a ,代入62x =,即可得出结果.【详解】由已知,体重是隔代遗传,且呈线性相关,得出数据,()58,58,()64,62,()58,60, 所以()(),=60,60x y ,代入y bx a =+,其中0.5b =,求得=30a , 即0.530y x =+.62x =时, 0.56230y =⨯+=61.故选:B 【点睛】本题主要考查线性回归方程的相关计算,考查学生分析问题的能力,属于中档题.3.D解析:D 【分析】设男生至少有x 人,根据条件,列出22⨯联表,计算出2K ,令2K 6.635,即可求出.【详解】设男生至少有x 人,根据题意,可列出如下22⨯联表:则23111532663611822x x x x x K x x x x x , 若有99%的把握认为是否喜欢数学文化和性别有关, 则2 6.635K >,即36.6358x , 解得17.693x ,由于表中人数都为整数,所以18x =, 即男生至少有18人. 故选:D. 【点睛】本题考查独立性检验,属于基础题.4.D解析:D 【分析】先求 3.92x =,2y =,根据0.7a y x =-,求解0.744a =-,将8x =代入回归直线方程为0.7y x a =+,求解即可. 【详解】 2.2 2.4 3.8 5.2 6.03.925x ++++==,0.2 1.5 2.0 2.5 3.825y ++++==0.720.7 3.920.744a y x =-=-⨯=-即0.70.744y x =-令8x =,则0.780.744 4.856y =⨯-= 故选:D 【点睛】本题考查回归分析,样本中心点(),x y 满足回归直线方程,是解决本题的关键.属于中档题.5.D解析:D 【分析】根据相关系数、相关指数的知识、全称命题的否定的知识,充分、必要条件的知识对四个选项逐一分析,由此得出命题不正确的选项. 【详解】相关系数r 为负数,说明两个变量线性负相关,A 选项正确. 相关指数2R 越大,回归方程拟合效果越好,B 选项正确.根据全称命题的否定是特称命题的知识可知C 选项正确.对于D 选项,由于33a b a b >⇔>,所以33a b >是a b >的充分必要条件,故D 选项错误.所以选D. 【点睛】本小题主要考查相关系数、相关指数的知识,考查全称命题的否定是特称命题,考查充要条件的判断,属于基础题.6.D解析:D 【分析】利用回归直线过样本点中心可求回归方程,根据该方程可得正确的选项. 【详解】由 1.5y x a =+,得x 每增一个单位长度,y 不一定增加1.5,而是大约增加1.5个单位长度,故选项,A B 错误; 由已知表格中的数据,可知0123425x ++++==,2.2 4.3 4.5 4.8 6.74.55y ++++==,回归直线必过样本的中心点()2,4.5,故C 错误; 又4.5 1.52 1.5ˆˆaa =⨯+⇒=,∴回归方程为 1.5 1.5y x =+, 当8x =时,y 的预测值为1.58 1.513.5⨯+=,故D 正确, 故选:D. 【点睛】本题考查线性回归方程的性质及应用,注意回归直线过(),x y ,本题属于基础题.7.A解析:A【解析】分析:根据公式计算ˆb ≈2.62,ˆa ≈11.47,即得结果. 详解:由1221,()ˆˆˆni ii nii x y nxyba y bx xn x ==-==--∑∑,直接计算得ˆb ≈2.62,ˆa ≈11.47,所以ˆy=2.62x +11.47.选A.点睛:函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系.如果线性相关,则直接根据用公式求,a b ,写出回归方程,回归直线方程恒过点(,)x y .8.A解析:A 【解析】分析:先求出,x y ,再求出ˆˆ,ba 得到回归直线方程,再令x=100得到加工100个零件所花费的时间.详解:由题得30,75,x y ==121()()(20)(16)(10)(4)70074001000100400100010()niii ni i x x y y b x x ==---⨯-+-⨯-====++++-∑∑,所以775ˆ3054,10ay bx =-=-⨯= 所以754,10y x =+当x=100时,y=124.故答案为A 点睛:本题主要考查回归分析和回归方程的求法,意在考查学生对这些基础知识的掌握水平和基本的计算能力,考查学生解决实际问题的能力.9.A解析:A 【解析】分析:利用“卡方”的意义、相关指数的意义及回归分析的适用范围,逐一分析四个答案的真假,可得答案.详解:A. 衡量两变量之间线性相关关系的相关系数r 越接近1,说明两变量间线性关系越密切,正确;B. 在回归分析中,可以用卡方2x 来刻画回归的效果,2x 越大,模型的拟合效果越差,错误对分类变量X 与Y 的随机变量的2x 观测值来说, 2x 越大,“X 与Y 有关系”可信程度越大; 故B 错误;C. 线性回归方程对应的直线y bx a =+至少经过其样本数据点中的一个点,错误,回归直线y bx a =+可能不经过其样本数据点中的任何一个点;D. 线性回归方程0.51y x =+中,变量x 每增加一个单位时,变量y 平均增加1个单位,错误,由回归方程可知变量x 每增加一个单位时,变量y 平均增加0.5个单位. 故选A.点睛:本题考查回归分析的意义以及注意的问题.是对回归分析的思想、方法小结.要结合实例进行掌握.10.A解析:A 【分析】求出,x y ,由线性回归方程必经过点(,x y )即得a ,代入8x =求解即可. 【详解】 由表格知,196x =, 6119.2ii y==∑3.2y ∴=,代入0.6y x a =+得:193.20.66a =⨯+, 1.3a ∴=,则回归方程为0.6 1.3y x =+, 当8x =时,0.68 1.3 6.1y =⨯+=, 故选:A . 【点睛】本题主要考查了线性回归方程,线性回归方程的性质、应用, 属于中档题.11.D解析:D 【分析】根据题意,可列出y 关于x 的表格,求出,x y ,代入0.4188y kx =-,求出k ,即可求解 【详解】由题,对数据进行处理,得出如下表格: 求得49.5x =,0.195y =,因样本中心(,x y 过线性回归方程,将(,x y 代入0.4188y kx =-,得0.0124k =,即0.01240.4188y x =-,年龄在[]60,64对应的x 为62,将62x =代入0.01240.4188y x =-得:0.0124620.41880.35y =⨯-=,对应的爱看人数比为:0.35 故选:D 【点睛】本题考查线性回归方程的应用,样本中心(),x y 过线性回归方程是一个重要特征,属于中档题12.D解析:D 【分析】根据线性回归方程必过点(),x y ,可求出m 的值. 【详解】 因为14.333,5mx y +== 所以14.333145m+=+=,解得 1.9m = 故选D. 【点睛】本题主要考查了线性回归方程,样本中心点,属于容易题.13.A解析:A 【分析】由散点图可知,去掉(3,10)D 后,y 与x 的线性相关性加强,由相关系数r ,相关指数2R 及残差平方和与相关性的关系得出选项. 【详解】∵从散点图可分析得出:只有D 点偏离直线远,去掉D 点,变量x 与变量y 的线性相关性变强, ∴相关系数变大,相关指数变大,残差的平方和变小,故选A. 【点睛】该题考查的是有关三点图的问题,涉及到的知识点有利用散点图分析数据,判断相关系数,相关指数,残差的平方和的变化情况,属于简单题目.二、解答题14.(1)填表见解析,作图见解析(2)能在犯错误的概率不超过0.05的前提下认为数学成绩优秀与选物理有关【分析】(1)由题意计算出各组人数后即可完成列联表,进而可补全等高条形图;(2)代入公式计算出2K,与3.841比较即可得出结论.【详解】(1)根据题意填写列联表如下,选物理不选物理总计数学成绩优秀420320740数学成绩不优秀18080260总计6004001000(2)计算22 2()1000(42080180320) ()()()()600400740260n ad bcKa b c d a c b d-⨯⨯-⨯==++++⨯⨯⨯12.474 3.841≈>,所以能在犯错误的概率不超过0.05的前提下认为数学成绩优秀与选物理有关.【点睛】本题考查了独立性检验的应用,考查了计算能力,属于中档题.15.(1)没有把握认为爱好运动与性别有关;(2)6 7 .【分析】(1)由30人中随机抽取1人抽到爱好运动的员工的概率是815,故爱好运动的员工共有16人,即可补充完整,再根据独立性检验的临界值表,即可判断;(2)利用排列组合求出X 各个取值的概率,求出分布列,代入期望公式,即可得解. 【详解】(1)由30人中随机抽取1人抽到爱好运动的员工的概率是815, 故爱好运动的员工共有16人,由表中男爱好运动的员工为10人, 可得女爱好运动的员工有6人, 故列联表补充如下:230(10866) 1.158 3.84116141614k ⨯⨯-⨯=≈<⨯⨯⨯,所以没有把握认为爱好运动与性别有关; (2)X 的可能取值为0,1,2.282144(0)13C P X C ===,118621448(1)91C C P X C ===,2621415(2)=91C P X C ==,所以X 的分布列为: 448156()0121391917E X =⨯+⨯+⨯=. 【点睛】本题考查了独立性检验和超几何分布,考查了离散型随机变量概率和期望的计算,有一定的计算量,是常规题,属于中档题.16.(1)0.50.4y x =+;(2)正相关;(3)5.9万元. 【分析】(1)首先求出x ,y 的平均数,利用最小二乘法做出b 的值,再利用样本中心点满足线性回归方程和前面做出的横标和纵标的平均值,求出a 的值,写出线性回归方程. (2)根据0.50b =>,即可得出结论;(3)第6名推销员的工作年限为11年,即当11x =时,把自变量的值代入线性回归方程,得到y 的预报值,即估计出第6名推销员的年推销金额为5.9万元. 【详解】(1)由题意知:6x =, 3.4y =于是:211256 3.40.520056b -⨯⨯==-⨯, 3.40.560.4a =-⨯=,故:所求回归方程为0.50.4y x =+;(2)由于变量y 的值随着x 的值增加而增加(0.50)b =>,故变量x 与y 之间是正相关 (3)将11x =带入回归方程可以估计他的年推销金额为0.5110.4 5.9y =⨯+=万元. 【点睛】本题考查回归分析的初步应用,考查利用最小二乘法求线性回归方程,是一个综合题目. 17.有99%的把握认为“患桑毛虫皮炎病与采桑”有关系.认为两者有关系会犯错误的概率是1%. 【分析】本题先求合计的4个值,再根据公式计算随机变量,接着比较数值大小,判断即可. 【详解】1112212218,12,5,78n n n n ====,所以121230,83,23,90,113n n n n n ++++=====. 所以()21122122121212n n n n n n n n n χ++++-=2113(1878512)39.6 6.63530832390⨯⨯-⨯=≈>⨯⨯⨯.所以有99%的把握认为“患桑毛虫皮炎病与采桑”有关系.认为两者有关系会犯错误的概率是1%. 【点睛】本题考查独立性检验,是基础题18.(1)14%;(2)有;(3)能,理由见解析 【分析】(1) 由500位老年人中有40+30=70位需要志愿者提供帮助,即可求出需要志愿者提供帮助的老年人的比例;(2)通过列联表计算29.967K =,即可得出结论;(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,应该采用分层抽样的方法. 【详解】解:(1)∵调查的500位老年人中有40+30=70位需要志愿者提供帮助, ∴该地区老年人中需要帮助的老年人的比例的估算值为14%=.(2)根据列联表所给的数据,代入随机变量的观测值公式,29.967K =.∵9.967 6.635>,∴有99%的把握认为该地区的老年人是否需要帮助与性别有关.(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法比采用简单随机抽样方法更好. 【点睛】本题主要考查列联表,考查独立性检验的应用,同时考查了运算求解的能力,分析问题和解决问题的能力,难度一般. 19.(1)答案见解析.(2)96 【分析】(1)根据表中所给数据,计算出||r ,即可求得答案.(2)每小时加工零件的数量,即60x =,将60x =代入ˆ0.65757yx =+,即可求得答案. 【详解】(1)由表中数据得:6117950i ii x y==∑,6219100i i x ==∑,62139158i i y ==∑,35,80x y ==∴0.05||0.997r r ==>从而有95%的把握认为x 与y 之间具有线性相关关系,∴此求回归直线方程是有意义的.计算得:ˆˆ0.657,57ba== ∴ˆ0.65757yx =+ (2)每小时加工零件的数量,即60x =将60x =代入ˆ0.65757y x =+ ˆ96.42y= 故每小时加工零件的数量额定为96比较合理 【点睛】本题考查回归直线方程以及应用,考查基本分析与求解能力,属基本题.20.(1)ˆ 6.6138.6yx =- (2)①用非线性回归模型拟合效果更好;②190个 【分析】(1)求出x 、y 后代入公式直接计算得ˆb、ˆa ,即可得解; (2)求出线性回归模型的相关指数,与0.9522比较即可得解;(3)直接把35x =代入0.2303ˆ0.06x ye =,计算即可得解. 【详解】(1)由题意6n =,则611266i i x x ===∑,611336i i y x ===∑,61621()()557ˆ 6.684()iii ii x x y y bx x ==--==≈-∑∑,ˆ33 6.626138.6a =-⨯=-, y 关于x 的线性回归方程为ˆ 6.6138.6yx =-. (2)①对于线性回归模型,621()3930ii y y =-=∑,621()236.64i i i y y =-=∑,相关指数为621621()1()iii ii y y y y ==---∑∑236.6413930=-10.06020.9398≈-= 因为0.93980.9522<,所以用非线性回归模型拟合效果更好.②当35x =,时0.230335ˆ0.06ye ⨯=8.06050.06e =⨯0.063167190.02190=⨯=≈(个) 所以温度为35C ︒时,该种药用昆虫的产卵数估计为190个. 【点睛】本题考查了线性回归方程的求解、相关指数的应用以及非线性回归方程的应用,考查了计算能力,属于中档题.21.列联表见解析,有99.9%的把握说选科与性别有关. 【分析】选物理的男生38人,则女士12人,选历史的男生14人,则女士36人,即可完成22⨯列联表,做出假设0H :选科与性别没有关系,再由表中数据计算2K 的观测值,可得观测值大于10.828,所以在犯错误的概率不超过0.001的前提下认为选科与性别有关系,即有99.9%的把握有关系. 【详解】列出22⨯列联表如下:提出假设0:选科与性别没有关系. 根据列联表中的数据计算2K的观测值2100(38361412)30023.0775248505013k ⨯⨯-⨯==≈⨯⨯⨯.因为10.828k ≥,所以有99.9%的把握说选科与性别有关. 【点睛】本题考查独立性检验的基本应用,属于中档题.22.(1)作图见解析(2)线性回归方程为:^6.517.5y x =+,预测当广告费支出为1千万时销售额为8250万 【分析】(1)根据表格中的数据,描点作图即可;(2)根据求线性回归方程的公式,得到回归方程为 6.517.5y x =+,再根据数据预测即可. 【详解】 (1)散点图如下:(2)1(24568)55x =++++=,1(3040605070)505y =++++=, 512304405606508701380i ii x y==⨯+⨯+⨯+⨯+⨯=∑,521416253664145ii x==++++=∑,138055506.5145525b -⨯⨯==-⨯所以505 6.517.5a y bx =-=-⨯=, 故线性回归方程为: 6.517.5y x =+,当10x =时,82.5y =.故当广告费支出为1千万时销售额为8250万. 【点睛】本题考查了线性回归方程的求解及预测问题,考查了学生实际应用,数学运算的能力,属于中档题.23.(1)散点图见解析(2)1.23,0.08(3)12.38 【分析】(1)根据统计表,在平面直角坐标系中以x 为横坐标,以y 为纵坐标,作出点()()()()()2,2.2,3,3.8,4,5.5,5,6.5,6,7 可得散点图.(2)由表中数据先出x ,y ,51i ii x y =∑,521ii x =∑,然后根据公式求出b ,a .(3)由(2)知回归直线方程是 1.2308ˆ.0yx =+,再将10x =代入回归方程求解. 【详解】(1)根据统计表,在平面直角坐标系中以x 为横坐标,以y 为纵坐标,作出点()()()()()2,2.2,3,3.8,4,5.5,5,6.5,6,7 得散点图如下:(2)由上表知:2345645x ++++==,2.23.8 5.5 6.5755y ++++==512 2.23 3.83 5.54 6.567112.3i i ix y ==⨯+⨯+⨯+⨯+⨯=∑ 522222212345690i ix ==++++=∑51522215112.35451.2390545()i i i i ix y xyb x x ==--⨯⨯∴===-⨯-∑∑0.08a y bx ∴=-=(3)由(2)得 1.2308ˆ.0yx =+ 所以 1.23100.0812.3ˆ8y=⨯+= 所以估计使用年限为10年时,维修费用是12.38万元. 【点睛】本题主要考查散点图的画法和线性回归方程,还考查了数据处理的能力,属于难题. 24.(1) 0.020.7x y e +=. (2) 正常的. 【分析】 (1)先求得x 及521ii x=∑,即可求得52215i i xx =-∑.代入线性回归方程中即可求得ˆb.再由ˆˆav b μ=-即可求得ˆa ,进而得回归方程. (2)根据回归方程及参考数据,即可求得该男生的体重,进而判断该体重是否位于平均值的1.2倍与0.8倍之间. 【详解】 (1)由已知可得80x =,()522221100671033000i i x ==⨯+++=∑∴5221533000320001000i i xx =-=-=∑又()51ln 940iii x y =⋅=∑,11.52.35v == ∴9405 2.380ˆ0.021000b-⨯⨯== ˆ 2.30.02800.7a=-⨯= 所以ln 0.020.7y x =+ ∴回归方程为:0.020.7x y e +=(2)当150x =时, 3.7ˆ40.5ye =≈, 而40.5 1.248.645⨯=>,40.50.832.445⨯=<,∴这一在校男生的体重是正常的. 【点睛】本题考查了非线性回归方程在实际问题中的应用,计算量较为复杂,需要耐心计算,属于中档题.25.(1) 1.2308ˆ.0yx =+ (2) 14.84万元 【分析】(1)由已知表格中的数据求得,x y 进而求得b 与a 的值,则线性回归方程可求; (2)在(1)中求得的线性回归方程中,取x =12求得y 值即可. 【详解】 (1)由表可得1(23456)45x =++++=,1(2.2 3.8 5.5 6.57.0)55y =++++= 51112.3i i i x y ==∑,52190i i x ==∑,5152215112.3545ˆ 1.23905165i ii ii x yx ybxx =-=-⋅-⨯⨯===-⨯-∑∑ˆˆ5 1.2340.08ay bx =-=-⨯=,所求线性回归方程为 1.2308ˆ.0y x =+ (2)当12x =时,ˆ 1.23120.0814.84y=⨯+=,即使用12年的车的总费用大概为14.84万元.【点睛】本题考查线性回归方程的求法,考查计算能力,是基础题.26.(1)43 ,55;(2)能有95%的把握认为男、女顾客对该商场服务的评价有差异.【分析】(1)从题中所给的22⨯列联表中读出相关的数据,利用满意的人数除以总的人数,分别算出相应的频率,即估计得出的概率值;(2)利用公式求得观测值与临界值比较,得到能有95%的把握认为男、女顾客对该商场服务的评价有差异.【详解】(1)由题中表格可知,50名男顾客对商场服务满意的有40人,所以男顾客对商场服务满意率估计为1404 505P==, 50名女顾客对商场满意的有30人,所以女顾客对商场服务满意率估计为2303 505P==,(2)由列联表可知22100(40203010)1004.762 3.8417030505021K⨯-⨯==≈>⨯⨯⨯,所以能有95%的把握认为男、女顾客对该商场服务的评价有差异.【点睛】该题考查的是有关概率与统计的知识,涉及到的知识点有利用频率来估计概率,利用列联表计算2K的值,独立性检验,属于简单题目.。
两变量相关性分析
第十章 两变量关联性分析一、线性相关描述• 问题:两变量间是否存在相关或关联?n身高与体重n尿铅排出量与血铅含量n凝血时间与凝血酶浓度n血压与年龄第一节线性相关例101 在某地一项膳食调查中,随机抽取了14名40~60岁的 健康妇女,测得每人的基础代谢(kJ /d)与体重(kg)数 据,见表101。
据此数据如何判断这两变量间有无关联?表101 14例中年健康妇女的基础代谢与体重测量值编号 基础代谢(kJ /d)体重(kg)编号基础代谢(kJ /d)体重(kg)1 4175.6 50.7 8 3970.6 48.62 4435.0 53.7 9 3983.2 44.63 3460.2 37.1 10 5050.1 58.64 4020.8 51.7 11 5355.5 71.05 3987.4 47.8 12 4560.6 59.76 4970.6 62.8 13 4874.4 62.17 5359.7 67.3 14 5029.2 61.5n 散点图 (scatter plot)28003300 3800 4300 4800 5300 5800 303540455055 60 65 70 75体重 (kg)基础代谢 (K J /d a y )图101 14例中年健康妇女基础代谢与体重的散点图n 线性相关(linear correlation)n两变量关联类型正相关(positive correlation) 负相关(negative correlation) 线性无关n 线性相关系数 (linear correlation coefficient ,Pearson product moment coefficient)))( ( 的方差 的方差 的协方差 和 相关系数 Y X Y X =()121- - =å = n xx n i i的样本方差 X ( )121- - =å = n y y ni i的样本方差 Y ( )( )11- - - =å = n y y x xni i i的样本协方差 和Y X( )( )11- - - =å = n y y x xn i i i的样本协方差 和Y X( )( )( ) ( )å å å = = = - - - - ==n i ni iiini iyy xxxy y y x x y y x x l l l r 11221样本相关系数的定义n r 是表示两个随机变量之间线性相关强度和方向的统计量,它没有单位 n 1<r <1n r 的正负值表示两变量之间线性相关的方向n r 的绝对值大小则表示两变量之间线性相关的密切程度例102 计算例101中基础代谢Y 与体重X 之间的样本相关系数。
f检验临界值表怎么查
f检验临界值表怎么查请看统计实务P238页的附表1,是关于Z分布查表方法,注意表下面的图。
本表中,如果显著性水平a=0.05,则1-a=0.95,由于Z分布是对称图形,用0.95/2=0.475,到表中找0.475,可以看到表的行和列值是1.96,即为Z在0.05显著性水平上的临界值。
对于卡方分布,即附表2,行显示显著性水平,列显示自由度,所以如果显著水平为0.95,自由度为5,则卡方值为1.145,对于附表5,即t值表,如果a=0.10,因为从该表中可以看出行表示显著性水平,列表示自由度。
所以自由度为5时,t值为2.015。
本例中要求的相关系数临界值r0是多少?已知f=n-2=8-2=6,若α=0.05,则查表知r0=0.707.利用所求回归直线方程预测成本会存在一定的误差,为了鉴别回归直线对预测值的可能的波动范围,需要计算直线数值与实际值之间的标准差.标准差表明回归直线周围个体数据点的密集程度.标准差的计算公式为:在正常的分布条件下,一般要求实际值位于置信区间的概率应该在95%以上,这个区间应为Y±2S,从而置信区间的上下限为Y1=a+bX+2S,Y2=a+bX-2S.将有关数据代入标准差计算公式。
单尾和双尾取决于H0。
1、当H0使用等号而H1使用不等号时,进行双尾检查。
2、H0为定向时,单尾检查。
临界值是与当前t值相比的临界t值。
H0:零假设,零假设----零是相关系数为0,表示两个变量不相关。
部门H1:备用假设。
H0和H1是完整的事件组,彼此相对,并且仅建立了其中一个;建立假设时,首先确定备用设备H1,然后确定H0,并确保“ =”始终在H0上;通常需要反驳原始的H0,并且需要支持H1;假设检验仅提供反对原始假设的证据。