典型相关分析例题结果

合集下载

典型相关分析的实例

典型相关分析的实例

5组(标准化)典型变量系数(X)
U1 X1 X3 X4 X6 X2 -0.2175 0.5288 U2 0.0189 U3 0.7823 0.6032 U4 0.1289 0.1229 U5 1.5590 0.6988 1.0488 0.5852 -1.1443 0.0352 -0.8298
1.6213 -0.7370 -0.4066 -1.1704
0.3986 0.2919 0.5298 0.4586 0.3053 0.0912 0.0701 0.1669 0.1939 0.0007 0.2274 0.2739 0.5489 0.0840 0.5238 0.3877 0.2523 0.0966 0.0376 0.0510 0.0915 0.0979 0.0669 0.03770 0.0061 0.0948 0.1421 0.1757 0.0210 0.2171 * 此外,还应满足 5 a51 X 1* a56 X 6)的方差为。 U ( 1
简单相关系数矩阵
简单相关系数公式符号
Corr(X)=R11
Corr(X,Y)=R12
Corr(Y,X)=R21 R21 R12
Corr(Y)=R22
简单相关系数 描述两组变量的相关关系的缺点
只是孤立考虑单个X与单个Y间的相关 ,没有考虑X、Y变量组内部各变量间的 相关。 两组间有许多简单相关系数(实例为30 个),使问题显得复杂,难以从整体描 述。
i 1, 2, m, min(p, q) m典型相关系数 i Corr (Ui ,Vi ) 典型变量系数或典型权重 a、b
X*1,X*2,…,X*p和Y*1,Y*2,…,Y*q分别为X1, X2,…,Xp和Y1,Y2,…,Yq的正态离差标准化值。 记第一对典型相关变量间的典型相关系数为: 1 =Corr(U1,V1)(使U1与V1 间最大相关) 第二对典型相关变量间的典型相关系数为: 2 =Corr(U2,V2)(与U1、V1 无关; 使U2与V2 间最大相关) ..... ……

SPSS典型相关分析案例

SPSS典型相关分析案例

SPSS典型相关分析案例典型相关分析(Canonical Correlation Analysis,CCA)是一种统计方法,用于研究两组变量之间的相关性。

它可以帮助研究人员了解两组变量之间的关系,并提供有关这些关系的详细信息。

在SPSS中,可以使用典型相关分析来探索两个或多个变量之间的关系,并进一步理解这些变量如何相互影响。

下面我们将介绍一个典型相关分析的案例,以展示如何在SPSS中执行该分析。

案例背景:假设我们有一个医学研究数据集,包含30名患者的多个生物标记物和他们的疾病严重程度评分。

我们希望了解这些生物标记物与疾病严重程度之间的关系,并查看是否可以建立一个线性模型来预测疾病严重程度。

以下是执行这个案例的步骤:第1步:准备数据首先,我们需要准备数据,确保所有变量都是数值型。

在SPSS中,我们可以通过检查数据集的描述性统计信息或查看变量视图来做到这一点。

第2步:导入数据在SPSS中,我们可以通过选择菜单中的"File"选项,然后选择"Open"来导入数据集。

我们应该选择包含待分析数据的文件,并确保正确指定变量的类型。

第3步:执行典型相关分析要执行典型相关分析,我们可以选择菜单中的"Analyze"选项,然后选择"Canonical Correlation"。

在弹出的对话框中,我们应该选择我们希望研究的生物标记物变量和疾病严重程度评分变量。

然后,我们可以选择一些选项,如方差-协方差矩阵、相关矩阵和判别系数,并点击"OK"执行分析。

第4步:解释结果完成分析后,SPSS将提供几个输出表。

我们应该关注典型相关系数和标准化典型系数,以了解两组变量之间的关系。

我们可以使用这些系数来解释生物标记物如何与疾病严重程度相关联,并找到最重要的变量。

此外,我们还可以使用SPSS提供的其他统计结果来进一步解释模型的效果和预测能力。

典型相关分析的实例

典型相关分析的实例

吉他销售和声音质量之间的关系
我们将使用典型相关分析来判断吉他销量与声 音质量之间是否存在关系。
结论和要点
典型相关分析是一种重要的数据分析工具,可用于确定两组变量之间是否存 在高度关联性。它经常用于社会科学、金融市场和医学等领域。然而,要记 住,在开始分析之前,确保你的数据完整且充分。
典型相关分析的实例介绍
运动鞋销售与收入的关系
我们将使用典型相关分析来确定是否运动鞋的 销售与收入之间存在 Nhomakorabea著的关系。
通货膨胀率和道琼斯指数的关系
我们将使用典型相关分析来确定两者之间是否 存在高度相关性,以便制定股票投资策略。
脉搏和血压之间的关系
我们将使用典型相关分析来确定脉搏和血压之 间的关系,以帮助预测高血压的风险。
将两个变量矩阵相乘,找到相关系数矩阵。
第三步: 进行典型相关分析
找到总体典型变量并计算各个典型变量的权 重。
第四步: 分析结果
通过比较典型变量的权重来评估两组变量之 间的关系以及它们之间的模式.
典型相关分析的应用领域
1
社会科学
可以用于研究某些社会群体中不同变
心理学
2
量之间的关系,如社会经济状况和健 康状况之间的关系。
探索典型相关分析
典型相关分析是一种可用于研究两组变量之间关系的统计工具。在本次演示 中,我们将介绍典型相关分析的基础知识和实际应用。
典型相关分析的定义
典型相关分析是一种多元统计工具,用于确定两个变量集合之间的关系。其 主要目的是找到两组变量之间的模式,以便可以预测它们之间的关系。
典型相关分析的基本思想
变量之间的关系
如果两组变量之间存在关系,则它们的变化将 会同时发生。
寻找相关性

家庭人均收入与支出指标的典型相关分析

家庭人均收入与支出指标的典型相关分析

家庭人均收入与支出指标的典型相关分析家庭人均收入和支出指标是衡量一个家庭经济状况的重要指标。

收入决定了家庭的购买力和消费水平,而支出则决定了家庭的生活质量和储蓄能力。

人们普遍认为,收入和支出之间存在着一定的相关性,即收入增加时,家庭支出也会相应增加。

本文将通过典型相关分析,探究家庭人均收入与支出指标之间的相关性。

典型相关分析是一种统计方法,用于研究两个多维变量之间的相关性。

它通过将两组变量进行线性组合,得到新的综合指标,然后计算两个综合指标之间的相关系数。

在本次分析中,我们将使用典型相关分析来探究家庭人均收入和支出指标之间的相关性。

首先,我们需要收集一组包含家庭人均收入和支出指标的数据。

这些指标可以包括家庭总收入、家庭成员人数、家庭支出总额、食品支出、教育支出、医疗支出等多个方面的数据。

然后,我们可以利用典型相关分析来计算家庭收入和支出的综合指标。

在进行典型相关分析之前,我们需要对数据进行标准化处理,以消除不同指标之间的量纲差异。

标准化后,我们可以使用主成分分析方法,将家庭收入和支出指标分别转化为新的综合指标。

主成分分析可以将多个相关变量转化为少数几个无相关的综合指标,这些综合指标能够解释原始变量中大部分的方差。

然后,我们可以计算两个综合指标之间的相关系数,以衡量家庭收入和支出指标之间的相关性。

根据典型相关分析的结果,我们可以得到两个综合指标之间的相关系数,以及相关系数的显著性检验结果。

最后,我们可以通过解读相关系数的大小和显著性检验的结果来探究家庭人均收入和支出指标之间的相关性。

如果相关系数较高且显著性检验结果也显著,那么说明家庭人均收入和支出指标之间存在较强的相关性;如果相关系数较低且显著性检验结果不显著,那么说明家庭人均收入和支出指标之间的相关性较弱。

此外,我们还可以进一步分析这种相关性的原因。

例如,我们可以将家庭收入和支出指标进一步细分,探究不同收入和支出项目之间的相关性。

这样能够帮助我们更好地理解家庭人均收入和支出指标之间的相关性,并提出相应的政策建议。

代理的常见典型案例及相关分析

代理的常见典型案例及相关分析

代理的常见典型案例1. 章春芳诉章建华代理纠纷案「案情摘要」原告:章春芳,女,38岁,在上海制药机械二厂工作被告:章建华,男,44岁,在上海市食品进出口公司活畜禽经营部工作原告章春芳诉称:被告因工作原因经常往返于广州、上海。

她闻悉广州录像机价格低于上海,遂委托被告章建华代购。

为此交付被告人民币2600元,要求被告在四种型号中任选一台录像机。

数日后,被告交付给她录像机一台,她发现外观不好,商标贴纸折叠脱落,无产品说明书,经试放发现性能异常,请人打开机盖,发现内部零件锈迹斑斑,由此判定该机是旧机器、废机器、“海水机”,无修理和使用价值。

经她与被告交涉无结果,为此起诉要求被告退回录像机价款人民币2270 元。

审理中,原告变更诉讼请求,要求被告赔偿录像机修理费人民币1500元。

被告章建华辩称:原告主动要求他代购录像机,他按原告的委托要求,经挑选试放完好才购下录像机,原告得录像机时放弃试放要求。

现银货两讫,自己得代理行为已完车。

至于原告所称该机内部质量问题,他无义务予以确保,故不同意原告的赔偿要求。

「审理」上海市黄浦区人民法院经审理查明:被告章建华是原告章春芳母亲家的邻居。

被告因工作经常往返于广州上海。

原告耳闻广州市场上录像机价格低于上海,遂于 1991年10月3日交付被告人民币2600元,委托被告从松下J20、日立747、东芝95、TV660四种型号的录像机中,任选购一台新录像机,对质量、外观等并无其他要求。

10月9日,被告以广州市效区市场上的录像机价格较市区低,遂邀同事李茂章一起前往广东省增城县新塘镇购德松下J20录像机一台,经当场试放,未发现质量问题,遂付款人民币2270元。

商店出具发票,但无保修卡。

10月12日,被告在原告母亲家将录像机交付原告,并提出由原告当场开机试放。

原告表示无此必要。

双方当场按发票和车票结清了货款以及被告自广州市区至增城县新塘真的车旅费共计2285.60元。

被告找回原告 314.40元,原告当即以20元左右德礼品酬谢被告,并将录像机取回家。

典型相关分析及其应用实例

典型相关分析及其应用实例

摘要典型相关分析是多元统计分析的一个重要研究课题.它是研究两组变量之间相关的一种统计分析方法,能够有效地揭示两组变量之间的相互线性依赖关系.它借助主成分分析降维的思想,用少数几对综合变量来反映两组变量间的线性相关性质.目前它已经在众多领域的相关分析和预测分析中得到广泛应用.本文首先描述了典型相关分析的统计思想,定义了总体典型相关变量及典型相关系数,并简要概述了它们的求解思路,然后深入对样本典型相关分析的几种算法做了比较全面的论述.根据典型相关分析的推理,归纳总结了它的一些重要性质并给出了证明,接着推导了典型相关系数的显著性检验.最后通过理论与实例分析两个层面论证了典型相关分析的应用于实际生活中的可行性与优越性.【关键词】典型相关分析,样本典型相关,性质,实际应用ABSTRACTThe Canonical Correlation Analysis is an important studying topic of the Multivariate Statistical Analysis. It is the statistical analysis method which studies the correlation between two sets of variables. It can work to reveal the mutual line dependence relation availably between two sets of variables. With the help of the thought about the Principal Components, we can use a few comprehensive variables to reflect the linear relationship between two sets of variables. Nowadays It has already been used widely in the correlation analysis and forecasted analysis.This text describes the statistical thought of the Canonical Correlation Analysis firstly, and then defines the total canonical correlation variables and canonical correlation coefficient, and sum up their solution method briefly. After it I go deep into discuss some algorithm of the sample canonical correlation analysis thoroughly. According to the reasoning of the Canonical Correlation Analysis, sum up some of its important properties and give the identification, following it, I infer the significance testing about the canonical correlation coefficient. According to the analysis from the theories and the application, we can achieve the possibility and the superiority from canonical correlation analysis in the real life.【Key words】Canonical Correlation Analysis,Sample canonical correlation,Character,Practical applications目录前言 (1)第1章典型相关分析的数学描述 (2)第2章典型变量与典型相关系数 (3)2.1 总体典型相关 (3)2.2 样本典型相关 (4)2.2.1 第一对典型相关变量的解法 (4)2.2.2 典型相关变量的一般解法 (8)2.2.3 从相关矩阵出发计算典型相关 (9)第3章典型相关变量的性质 (11)第4章典型相关系数的显著性检验 (15)第5章典型相关分析的计算步骤及应用实例 (18)5.1 典型相关分析的计算步骤 (18)5.2 实例分析 (19)结语 (26)致谢 (27)参考文献 (28)附录 (29)前言典型相关分析(Canonical Correlation Analysis ,CCA)作为多元统计学的一个重要部分,是相关分析研究的一个主要内容.典型相关分析不仅其方法本身具有重要的理论意义,而且它还可以作为其他分析方法,如多重回归、判别分析和相应分析的工具,因此在多元分析方法中占有特殊的地位.典型相关的概念是在两个变量相关的基础上发展起来的.我们知道,两个随机变量的相关关系可以用它们的简单相关系数来衡量;一个随机变量与一组随机变量之间的相关关系可以用复相关系数来衡量.但考虑一组随机变量与另一组随机变量的关系时,如果运用两个变量的相关关系,分别考虑第一组每个变量和第二组中每个变量的相关,或者运用复相关关系,考虑一组变量中的每个变量和另一组变量的相关,这样做比较繁琐,抓不住要领.因此,为了用比较少的变量来反映两组变量之间的相关关系,一种考虑的思路就是类似主成分分析,考虑两组变量的线性组合,从这两个线性组合中找出最相关的综合变量,通过少数几个综合变量来反映两组变量的相关性质,这样便引出了典型相关分析.典型相关分析的基本思想是首先在每组变量中找出变量的线性组合,使其具有最大相关性,然后再在每组变量中找出第二对线性组合,使其分别与第一对线性组合不相关,而第二对本身具有最大的相关性,如此继续下去,直到两组变量之间的相关性被提取完毕为止.有了这样线性组合的最大相关,则讨论两组变量之间的相关,就转化为只研究这些线性组合的最大相关,从而减少研究变量的个数.典型相关分析是由Hotelling于1936年提出的.就目前而言,它的理论己经比较完善,计算机的发展解决了典型相关分析在应用中计算方面的困难,成为普遍应用的进行两组变量之间相关性分析技术.如在生态环境方面,用典型相关理论对预报场与因子场进行分析,实现了短期气象预测;借助典型相关,分析了植被与环境的关系;在社会生活领域,应用典型相关分析了物价指标和影响物价因素的相关关系等等.第1章 典型相关分析的数学描述一般地,假设有一组变量p X X X ,,,21 与另一组变量q Y Y Y ,,,21 ,我们要研究这两组变量之间的相关关系,如何给两组变量之间的相关性以数量的描述.当q p 1时,就是我们常见的研究两个变量X 与Y 之间的简单相关关系,其相关系数是最常见的度量,定义为:)()(),(Y Var X Var Y X Cov xy当1 p ,1 q (或1,1 p q )时,p 维随机向量'21),(p X X X X ,设),(~1p N Y X , 22211211,其中,11 是第一组变量的协方差阵,12 是第一组与第二组变量的协方差阵,22 是第二组变量的协方差阵.则称221211121R 为Y 与p X X X ,,,21 的全相关系数,全相关系数用于度量一个随机变量Y 与另一组随机变量p X X X ,,,21 的相关系数.当1, q p 时,利用主成分分析的思想,可以把多个变量与多个变量之间的相关化为两个新的综合变量之间的相关.也就是做两组变量的线性组合即X X X X U p p '2211 Y Y Y Y V q q '2211其中,'21),,,(p 和'21),,,(q 为任意非零向量,于是我们把研究两组变量之间的问题化为研究两个变量V U 与之间的相关问题,希望寻求 ,使U ,V 之间最大可能的相关,我们称这种相关为典型相关,基于这种原则的分析方法就是典型相关分析.第2章 典型变量与典型相关系数2.1 总体典型相关设有两组随机变量'21),,,(p X X X X ,'21),,,(q Y Y Y Y ,分别为维维和q p 随机向量,根据典型相关分析的思想,我们用X 和Y 的线性组合X ' 和Y ' 之间的相关性来研究两组随机变量X 和Y 之间的相关性.我们希望找到 和,使得)(‘Y X ', 最大.由相关系数的定义)()(),(),(''''''Y Var X Var Y X Cov Y X易得出对任意常数d c f e ,,,,均有),(])(,)([''''Y X d Y c f X e这说明使得相关系数最大的Y X '', 并不唯一.因此,为避免不必要的结果重复,我们在求综合变量时常常限定1)(' X Var , 1)(' Y Var于是,我们就有了下面的定义:设有两组随机变量'21),,(p X X X X ,'21),,(q Y Y Y Y ,q p 维随机向量Y X 的均值向量为零,协方差阵0 (不妨设q p ).如果存在'1111),,(p 和'1111),,(q ,使得在约束条件1)(' X Var ,1)(' Y Var 下,),(m ax ),('''1'1Y X Y X则称Y X '1'1, 是Y X ,的典型相关变量,它们之间的相关系数称为典型相关系数;其他典型相关变量定义如下:定义了前1 k 对典型相关变量之后,第k 对典型相关变量定义为:如果存在'1),,(pk k k 和'1),,(qk k k ,使得 ⑴ Y X k k '', 和前面的1 k 对典型相关变量都不相关;⑵ 1)(' X Var k ,1)(' Y Var k ; ⑶ Y X k k '' 和的相关系数最大,则称Y X k k '' 和是Y X ,的第k 对(组)典型相关变量,它们之间的相关系数称为第k 个典型相关系数(p k ,,2 ).2.2 样本典型相关以上是根据总体情况已知的情形进行,而实际研究中,总体均值向量 和协方差阵 通常是未知的,因而无法求得总体的典型相关变量和典型相关系数,首先需要根据观测到的样本数据阵对 进行估计. 2.2.1 第一对典型相关变量的解法设总体'11),,,,,(q p Y Y X X Z ,已知总体的n 次观测数据为:1)()()()(q p t t t Y X Z (n t ,,2,1 ), 于是样本数据阵为)(212122221222211121111211q p n nq n n np n n q p q p y y y x x x y y y x x xy y y x x x若假定),,(~ q p N Z 则由参考文献【2】中定理2.5.1知协方差阵 的最大似然估计为'1)()()()(1nt t t Z Z Z Z n其中Z = nt t Z n 1)(1,样本协方差矩阵S 为:22211211S S S SS 式中nj j j X X X X n S 1'11)()(1'112)()(1 Y Y X X n S j nj j 21S nj j j X X Y Y n 1')()(1 '122)()(1 Y Y Y Y n S j nj jn j j X n X 11, nj j Y n Y 11令j j X U ' ,j j Y V ' ,则样本的相关系数为nj jnj jj nj j j j V VU UV V U U V U r 1212'1)()()()(),(又因为:X X n X n U n U n j j n j j n j j '1'1'1111Y Y n Y n V n V n j j n j j n j j '1'1'111112''''1'''1)()(1)()(1S Y Y X X n V V U U n S j n j j j n j j V U jj 11''''1'''1)()(1)()(1S X X X X n U U U U n S j n j j j n j j U U jj 22''''1'''1)()(1)()(1S Y Y Y Y n V V V V n S j n j j j n j j V V jj 所以22'11'12'),(S S S V U r j j由于j U ,j V 乘以任意常数并不改变他们之间的相关系数,即不妨限定取标准化的j U 与j V ,即限定j U 及j V 的样本方差为1,故有:1 j j j j V V U U S S (2.2.1) 则 12'),(S V U r j j (2.2.2) 于是我们要求的问题就是在(2.2.1)的约束条件下,求p R ,q R ,使得式(2.2.2)达到最大.这是条件极值的问题,由拉格朗日乘子法,此问题等价于求 , ,使)1(2)1(2),(22'11'12'S S S(2.2.3) 达到最大.式中,,为拉格朗日乘数因子.对上式分别关于 , 求偏导并令其为0,得方程组:0022211112S S S S (2.2.4)分别用' ,' 左乘方程(2.2.4)得22'21'11'12'S S S S 又 '12')( S 21'S 所以'12'21')(S S也就是说,正好等于线性组合U 与V 之间的相关系数,于是(2.2.4)式可写为:0022211112 S S S S 或 022211211S S S S(2.2.5) 而式(2.2.5)有非零解的充要条件是:022211211S S S S (2.2.6)该方程左端是的q p 次多项式,因此有q p 个根.求解的高次方程(2.2.6),把求得的最大的代回方程组(2.2.5),再求得 和 ,从而得出第一对典型相关变量.具体计算时,因的高次方程(2.2.6)不易解,将其代入方程组(2.2.5)后还需求解q p 阶方程组.为了计算上的方便,我们做如下变换:用12212 S S 左乘方程组(2.2.5)的第二式,则有12212 SS 21S -02212212S S S 即 12212 S S 21S = 12S又由(2.2.5)的第一式,得 1112S S代入上式: 12212 SS 21S 0112S(0)1122112212 S S S S (2.2.7)再用111 S 左乘式(2.2.7),得(111S12212 SS 0)221p I S (2.2.8)因此,对2有p 个解,设为22221p r r r ,对 也有p 个解.类似地,用11121 S S 左乘式(2.2.5)中的第一式,则有011111211211121S S S S S S (2.2.9)又由(2.2.5)中的第二式,得2221S S代入到(2.2.8)式,有 11121( SS 12S 0)222S再以122 S 左乘上式,得0)(21211121122q I S S S S (2.2.10)因此对2有q 个解,对 也有q 个解,因此2为111S 12212 S S 21S 的特征根, 是对应于2的特征向量.同时2也是1211121122S S S S 的特征根, 为相应特征向量.而式(2.2.8)和(2.2.10)有非零解的充分必要条件为:002121112112222112212111q p I S S S S I S S S S (2.2.11)对于(2.2.11)式的第一式,由于011 S ,022 S ,所以0111S ,0122 S ,故有:2112212111S S S S 2121221221221112111S S S S S S 而2121221221221112111S S S S S S 与2111211222122122111 S S S S S S 有相同的特征根.如果记T 12212111 S S S则 2111211222122122111S S S SS S='T T类似的对式(2.2.11)的第二式,可得T T S S SSS S'21221221112111212122而'T T 与T T '有相同的非零特征根,从而推出(2.2.8)和(2.2.10)的非零特征根是相同的.设已求得'T T 的p 个特征根依次为: 022221p则T T '的q 个特征根中,除了上面的p 个外,其余的p q 个都为零.故p 个特征根排列是021 p ,, 1210 p p ,因此,只要取最大的1 ,代入方程组(2.2.5)即可求得相应的1 ,1 .令U =X '1 与Y V '1 为第一对典型相关变量,而1'112'1),( S V U r 为第一典型相关系数.可见求典型相关系数及典型相关变量的问题,就等价于求解'T T 的最大特征值及相应的特征向量. 2.2.2 典型相关变量的一般解法从样本典型相关变量的解法中,我们知道求典型相关变量和典型相关系数的问题,就是求解'T T 的最大特征值及相应的特征向量.不仅如此,求解第k 对典型相关变量和典型相关系数,类似的也是求'T T 的第k 大的特征值和相应的特征向量.下面引用参考文献【2】中定理10.1.1 来得出样本典型相关的一般求法.设总体的n 次观测数据为:1)()()()( q p t t t Y X Z (n t ,,2,1 ) 不妨设q p ,样本均值为0,协方差矩阵S 为:22211211S S S SS 0 记2122122111S S ST ,并设p 阶方阵'T T 的特征值依次为022221p (p i i ,,1,0 );而p l l l ,,,21 为相应的单位正交特征向量.令 kk l S2111,k k k S S 211221则X U k k ',Y V kk '为Y X ,第k 对典型相关变量,'k为第k 典型相关系数. 由上述分析不难看出,典型相关系数i 越大说明相应的典型变量之间的关系越密切,因此一般在实际中忽略典型相关系数很小的那些典型变量,按i 的大小只取前n 个典型变量及典型相关系数进行分析. 2.2.3 从相关矩阵出发计算典型相关以上我们从样本协方差阵S 出发,导出了样本典型相关变量和样本典型相关系数.下面我们从样本相关阵R 出发来求解样本典型相关变量和样本典型相关系数.设样本相关阵为)(ij r R ,其中jj ii ij ij s s s r / ,ij s 为样本协方差阵S 的i 行j 列元素.把R 相应剖分为22211211R R R R R 有时,Y X 和的各分量的单位不全相同,我们希望在对各分量作标准化变换之后再做典型相关.记)(1X E ,)(2Y Epp s s D 00111q p q p p p s s D ,1,1200则 111111D R D S ,222222D R D S 212112D R D S ,121221D R D S , 对Y X 和的各分量作标准化变换,即令)(111* X D X ,)(212* Y D Y现在来求*X 和*Y 的典型相关变量*'*X i ,*'*Y i ,m i ,,2,1 . **11111111X X S D S D R**11222222Y Y S D S D R **11112212X Y S D S D R **11221121Y X S D S D R于是1121122121111112112112221212121111111112112212111)()( D S S S S D D S D D S D D S D D S D R R R R因为 2112212111S S S S i i i r 2 1121122121111 D S S S S D )()(121i i i D r D 所以 2112212111R R R R *2*i i i r 式中*i i D 1 ,有111'1111'*11'* i i i i i i S D R D R同理: 1211121122R R R R *2*i i i r 式中*i i D 1 ,有122'2222'*22'* i i i i i i S D R D R ,由此可见*i ,*i 为**,Y X 的第i 对典型系数,其第i 个典型相关系数为i r ,在标准化变换下具有不变性.第3章 典型相关变量的性质根据典型相关分析的统计思想及推导,我们归纳总结了典型相关变量的一些重要性质并对总体与样本分别给出证明.性质1 同一组的典型变量互不相关 ⅰ总体典型相关设Y X 与的第i 对典型变量为X U i i ' ,Y V i i ' ,m i ,,2,1则有 0),( j i U U 0),( j i V V m j i 1 证明详见参考文献【5】. ⅱ样本典型相关设Y X 与的第i 对典型变量为X U i i ' ,Y V i i ' ,m i ,,2,1因为 '111i i U U i i S S ,'221i iVV i i S S ,m i ,,2,1 '11(,)0i j i j U U i j r U U S S ,m j i 1'22(,)0i ji j VV i j r V V S S ,m j i 1 表明由X 组成的第一组典型变量m U U U ,,,21 互不相关,且均有相同的方差1;同样,由Y 组成的第二组典型变量m V V V ,,,21 也互不相关,且也有相同的方差1.性质2 不同组的典型变量之间的相关性ⅰ总体典型相关i i i V U ),( m i ,,2,10),( j i V U m j i 1 证明详见参考文献【5】. ⅱ样本典型相关i i i i i r V U r S ),(12' , m i ,,2,1'1211''22111222(,)0,1i j i j U V i ji j j i j r U V S S S S S r i j m表明不同组的任意两个典型变量,当j i 时,相关系数为i r ;当j i 时是彼此不相关的.记'21),,,(m U U U U ,'21),,,(m V V V V ,则上述性质可用矩阵表示为 ,UU m VV m S I S IUV S或 mm IU S I V其中12(,,...,)m diag r r r性质3 原始变量与典型变量之间的关系 求出典型变量后,进一步计算原始变量与典型变量之间的相关系数矩阵,也称为典型结构.下面我们分别对总体与样本进行讨论.ⅰ总体典型相关的原始变量与典型变量的相关性详见参考文献【2】. ⅱ样本典型相关 记m p ij m A )(),,,(21 m q ij m B )(),,,(21S22211211S S S S =q p q p p q p pq p q p q p p p p p p p q p p p p pp p q p p p s s s s s s s s s s s s s s s s ,1,,1,,11,1,11,1,1,1,11,1111则A S X A X A X X n S n i i XU11'''1)()(1 B S X B X B X X n S n i i XV12'''1)()(1 A S X A X A Y Y n S n i i YU21'''1)()(1 B S Y B Y B Y Y n S n i i YV22'''1)()(1所以利用协方差进一步可以计算原始变量与典型变量之间的相关关系.若假定原始变量均为标准化变量,则通过以上计算所得到的原始变量与典型变量的协方差阵就是相关系数矩阵.1(,)pi j ik k r X U s,1(,)qi j i p k k r X V sp i ,,2,1 , m j ,,2,1,1(,)pi j i p k kjk r Y U s,1(,)qi j i p p k kjk r Y V s q i ,,2,1 , m j ,,2,1性质4 设Y X 和分别为维维和q p 随机向量,令d X C X '*,h Y G Y '*,其中C 为p p 阶非退化矩阵,d 为p 维常数向量,G 为q q 阶非退化矩阵,q h 为维常数向量.则:ⅰ对于总体典型相关有:⑴ **Y X 和的典型相关变量为*'*)(X a i 和*'*)(Y b i ,其中i i a C a 1* ,i i b G b 1* (p i ,,2,1 );而i i b a 和是Y X 和的第i 对典型相关变量的系数.⑵ ],[])(,)[(''*'**'*Y b X a Y b X a i i i i ,即线性变换不改变相关性. 证明详见参考文献【2】.ⅱ对于样本典型相关有:⑴ **Y X 和的典型相关变量为*'*)(X a i 和*'*)(Y b i ,其中i i a C a 1* ,i i b G b 1* (p i ,,2,1 );而i i b a 和是Y X 和的第i 对典型相关变量的系数.⑵ ],[])(,)[(''*'**'*Y b X a r Y b X a r i i i i ,即线性变换不改变相关性. 证明:⑴ 设**Y X 和的典型相关变量分别为*'*)(X a U i ,*'*)(Y b V i由于 i i a C a 1* ,i i b G b 1*d X C X '*,h Y G Y '*所以 d C a X a d X C C a d X C a C U i i i i '1''''1'''1)()()()()(h G b Y b h Y G G b h Y G b G V i i i i '1''''1'''1)()()()()(即有i i b a 和是Y X 和的第i 对典型相关变量的系数. ⑵ 由⑴的证明可知*'*)(X a U i d C a X a i i '1'')( *'1'''*)()(h G b Y b Y b V i i i由于d C a i '1')( 与h G b i '1')( 都是常数,所以],[])(,)([])(,)[('''1'''1''*'**'*Y b X a r h G b Y b d C a X a r Y b X a r i i i i i i i i 即有线性变换不改变相关性.性质5 简单相关、复相关和典型相关之间的关系当1 q p , Y X 与之间的(惟一)典型相关就是它们之间的简单相关;当Y X q p 与时或,11 之间的(惟一)典型相关就是它们的复相关.复相关是典型相关的一个特例,而简单相关又是复相关的一个特例.从第一个典型相关的定义可以看出,第一个典型相关系数至少同)(Y X 或的任一分量与)(X Y 或的复相关系数一样大,即使所有这些复相关系数都很小,第一个典型相关系数仍可能很大;同样,从复相关的定义也可以看出,当1 p (或1 q )时,)()(X Y Y X 或与或之间的复相关系数也不会小于)()(X Y Y X 或与或的任一分量之间的相关系数,即使所有这些相关系数都很小,复相关系数仍可能很大.第4章 典型相关系数的显著性检验设总体Z 的两组变量'21),,,(p X X X X ,'21),,,(q Y Y Y Y ,且'),(Y X Z ),(~ q p N ,在做两组变量X ,Y 的典型相关分析之前,首先应该检验两组变量是否相关,如果不相关,则讨论两组变量的典型相关就毫无意义. 1.考虑假设检验问题:0H :021 m1H :m ,,,21 至少有一个不为零其中 q p m ,m in .若检验接受0H ,则认为讨论两组变量之间的相关性没有意义;若检验拒绝0H ,则认为第一对典型变量是显著的.上式实际上等价于假设检验问题0H :0),(12 Y X Cov , 1H :012用似然比方法可导出检验0H 的似然比统计量||||||2211S S S其中q p 阶样本离差阵S 是 的最大似然估计,且S =22211211S S S S ,11S ,22S 分别是11 ,22 的最大似然估计.该似然比统计量 的精确分布已由霍特林(1936),Girshik (1939)和Anderson (1958)给出,但表达方式很复杂,又不易找到该分布的临界值表,下面我们采用 的近似分布.利用矩阵行列式及其分块行列式的关系,可得出:||·||||21122121122S S S S S S =|S S S S |·|S |·||21-12212-1111122 p S所以)1(001001||212212112212111ipi p p S S S S其中 2i是'TT 的特征值(2122122111S S S T ),按大小次序排列为 2122 02 p,当1 n 时,在0H 成立下 ln 0m Q 近似服从2f 分布,这里pq f ,)1(211 q p n m ,因此在给定检验水平 之下,若由样本算出的20 Q 临界值,则否定0H ,也就是说第一对典型变量1 U ,1V 具有相关性,其相关系数为1 ,即至少可以认为第一个典型相关系数1为显著的.将它除去之后,再检验其余1 p 个典型相关系数的显著性,这时用Bartlett 提出的大样本2 检验计算统计量:pi ip22223221)1()1()1)(1(则统计量11ln )]1(212[ q p n Q近似地服从(1 p )(1 q )个自由度的2分布,如果21 Q ,则认为2显著,即第二对典型变量2U ,2V 相关,以下逐个进行检验,直到某一个相关系数k检验为不显著时截止.这时我们就找出了反映两组变量相互关系的1 k 对典型变量.2.检验)(0k H : ),,2(0p k k当否定0H 时,表明Y X ,相关,进而可以得出至少第一个典型相关系数01 ,相应的第一对典型相关变量11,V U 可能已经提取了两组变量相关关系的绝大部分信息.两组变量余下的部分可认为不相关,这时0 k ),,2(p k ,故在否定0H 后,有必要再检验)(0k H ),,2(p k ,即第k 个及以后的所有典型相关系数均为0),,3,2(p k .为了减少计算量,下面我们采用二分法来减少检验次数,取检验统计量为p ki i k q p k n Q )1ln()]1(21[2它近似服从)1)(1( k q k p 个自由度的2 分布.在检验水平 下,若)]1)(1[(2k q k p Q k ,则拒绝0H ,即认为第k 对典型相关系数在显著性水平 下是显著的,否则不显著.从第2个典型相关系数到第p 个典型相关系数,共1 p 个数,所以根据二分法的原理,将它们分为一个区间 p ,2,然后先检验第 21p 个典型相关系数即中位数,当021p 时,即认为第 21p 个典型相关系数不相关,否定原假设,接着检验21,2p ;若当021p 时,则检验p p ,21.如此划分区间依次检验下去,由数学分析上的区间套定理,一定存在第k 个数),,3,2(p k ,使得01 k ,而0 k .以上的一系列检验实际上是一个序贯检验,检验直到对某个k 值0H 未被拒绝为止.事实上,检验的总显著性水平已不是 了,且难以确定.还有,检验的结果易受样本容量大小的影响.因此,检验的结果只宜作为确定典型变量个数的重要参考依据,而不宜作为惟一的依据.第5章 典型相关分析的计算步骤及应用实例5.1 典型相关分析的计算步骤设)()1(,,n X X 为取自正态总体的样本(实际上,相当广泛的情况下也对),每个样品测量两组指标,分别记为'1),,(p X X X ,'1),,(q Y Y Y ,原始资料矩阵为:)(212122221222211121111211q p n nq n n np n n q p q p y y y x x x y y y x x xy y y x x x第一步 计算相关矩阵R ,并将R 剖分为22211211R R R R R 其中11R ,22R 分别为第一组变量和第二组变量之间的相关系数矩阵,'2112R R 为第一组与第二组变量之间的相关系数.第二步 求典型相关系数及典型变量首先求2112212111R R R R A的特征根 2i,特征向量)(1i D;1211121122R R R R B的特征根2i,特征向量)(2i D.)()(111)(i i D D,)()(212)(i i D D写出样本的典型变量为 X U ’)1(1,Y V ’)1(1X U ’)2(2,Y V ’)2(2X U p p ’)(,Y V p p ’)(第三步 典型相关系数的显著性检验 首先,检验第一对典型变量的相关系数,即0H :0^1 ,1H :0^1它的似然比统计量为pi i p1^2^2^22^211)1()1()1)(1(则统计量11ln )]1(212[ q p n Q给定显著性水平 ,查表得2,若21 Q ,则否定0H ,认为第一对典型变量相关,否则不相关.如果相关则依次逐个检验其余典型相关系数,直到某一个相关系数^k ),,2(p k 检验为不显著时截止.5.2 实例分析例1:某康复俱乐部对20名中年人测量了三个生理指标:体重)(1x 、腰围(2x )、脉搏(3x )和三个训练指标:引体向上(1y )、起坐次数(2y )、跳跃次数(3y ).数据如附录1:解:记'321),,(x x x X ,'321),,(y y y Y ,其中样本容量20 n .附录1中的数据用SPSS 统计软件计算得六个变量之间的相关矩阵如下:n Sig.(2-tailed) .113 .127. .526 .340 .884 N 20 20 20 202020 Y1Pearson Correlatio n -.390 -.552(*) .1511 .696(**).496(*)Sig.(2-tailed) .089 .012.526 . .001 .026 N 20 20 20202020Y2PearsonCorrelatio n -.493(*)-.646(**).225 .696(**) 1 .669(**)Sig.(2-tailed) .027 .002.340 .001 . .001 N 20 20 20 202020 Y3Pearson Correlatio n -.226 -.191 .035.496(*) .669(**)1Sig.(2-tailed) .337 .419.884 .026 .001 . N 20 2020202020** Correlation is significant at the 0.01 level (2-tailed).* Correlation is significant at the 0.05 level (2-tailed).即样本相关矩阵为:11R =1353.0366.01870.0122R =1669.0496.01696.01'2112R R =035.0225.0151.0192.0646.0552.0226.0493.0390.0于是特征方程 022112212111 R R R R用Matlab 求得矩阵2112212111R R R R 的特征值分别为0.6630、0.0402和0.0053,于是 797.01 ,201.02 ,073.03下面我们进行典型相关系数的显著性检验,先检验第一对典型变量的相关系数,欲检验:0H :01 , 1H :01 它的似然比统计量为)1)(1)(1(2322211 =3504.0)0053.01)(0402.01)(6330.01( 255.163504.0ln 5.15ln )]333(2120[11 Q查2 分布表得,919.16)9(205.0 ,因此在05.0 的显著性水平下,)9(205.01 Q ,所以拒绝原假设0H ,也即认为第一对典型相关变量是显著相关的.然后检验第二对典型变量的相关系数,即进一步检验:0H :02 , 1H :02它的似然比统计量为9547.0)0053.01)(0402.01()1)(1(23222 )4(488.9745.09547.0ln 08.16ln ])333(21120[205.02212 Q 所以无法否定原假设0H ,故接受0H :02 ,即认为第二对典型相关变量不是显著相关的.由以上检验可知只需求第一对典型变量即可. 于是求797.01 的特征向量 *1,而*1*12112211R R ,解得059.0579.1775.0*1,716.0054.1350.0*1 , 因此,第一对样本典型变量为*3*2*1*1059.0579.1775.0x x x u *3*2*1*1716.0054.1350.0y y y vY X 与第一对典型变量的相关系数为797.01 ,可见两者的相关性较为密切,即可认为生理指标与训练指标之间存在显著相关性.例2:为了研究某企业不同部门人员工作时间的关系,随机选取25个企业进行入户调查,达到25个被访企业业务部门和技术部门经理每月工作时间和员工每月工作时间(单位为小时),具体数据如附表2分析:设业务部门经理和员工每月工作时间为(21,X X ),技术部门经理和员工每月工作时间为(21,Y Y ),利用典型相关分析研究企业业务部门和技术部门人员工作时间的关系.解:样本容量为25 n ,2 p ,2 q 分别为随机变量Y X 与的维数.⑴ 标准化随机变量'21),(X X X 与'21),(Y Y Y .根据样本均值i x与标准差ii S ,依照公式iiiki ki S x x x*,对数据标准化.⑵ 求解Y X 的相关矩阵R ,并将其分块yy yxxy xx R RR R R . 将数据输入SPSS 软件求得相关系数矩阵如下:Correlations** Correlation is significant at the 0.01 level (2-tailed).所以样本相关矩阵1834.0705.0705.01693.0711.01735.01R 分块后2222 yy yx xy xx R RR R R ⑶ 求解534949.0538840.0538840.0544309.011111yx yy xy xx R R R R M 的两个非零特征根,解得两个非零特征根为6218.021 ,0029.022 .⑷ 进行相关系数的显著性检验,取r m 个显著性检验不为0的特征根.Y X 与第一对典型变量的相关系数为7885.01 ,Y X 与第二对典型变量的相关系数为0537.02 .先检验第一对典型变量的相关系数,假设01H :01 (即第一对典型变量不相关),由典型相关系数的值可得3771.0)1)(1(22211计算统计量97.203771.0ln )5.224(ln )]1(21)1[(11 q p n Q 对于给定的显著性水平05.0488.9)4()1)(1(97.20205.021 m q m p Q所以否定零假设.01H :01 ,即第一对典型变量是显著相关的.然后检验第二对典型变量的相关系数,假设02H :02 (即第二对典型变量不相关),由典型相关系数的值可得9971.0)1(222 计算统计量05945.09971.0ln )5.224(ln )]1(21)2[(22 q p n Q 对于给定的显著性水平05.0841.3)1()1)(1(05945.0205.022 m q m p Q所以无法否定假设.02H :02 ,即第二对典型变量不是显著相关的.由以上检验可知,只需求第一对典型变量即可.⑸ 求1 m 个显著性检验不为0的特征根21 的特征向量1l ,而11111l R R m yx yy,解得'1)521548.0,55216.0( l ,'1)538134.0,504018.0( m .⑹ 求出r 对典型相关变量X l u j j ' ,Y m v j j ' ,.,,2,1m j 根据上面求得的特征向量11m l 和,得第一对典型相关变量为21'1121'11538134.0504018.0521548.055216.0Y Y Y m v X X X l u Y X 与第一对典型变量的相关系数为7885.01 ,可见其相关性较为密切.⑺ 由于21'11521548.055216.0X X X l u ,与业务部门经理和员工每月工作时间都成正比,而且系数差不多,所以u可以解释为业务部门人员工作时间.同1理v可以解释为技术部门人员的工作时间.可见一个企业技术部门和业务部门人1员月工作时间存在显著的相关性.典型相关分析是一种采用类似主成分分析的做法,在每一组变量中都选择若干个有代表性的综合指标(变量的线性组合),通过研究两组的综合指标之间的关系来反映两组变量之间的相关关系.在实际中,只须着重研究相关关系较大的那几对典型相关变量.本文首先根据典型相关分析的统计理论,初步探讨了总体典型相关变量和典型相关系数,然后重点讨论了样本典型相关分析,以及它们的一系列性质与显著性检验,并做了相应的实例分析.通过实例分析,我们进一步明确了典型相关分析是研究两组变量之间相关性的一种降维技术的统计分析方法.而复相关是典型相关的一个特例,简单相关是复相关的一个特例.第一对典型相关包含有最多的有关两组变量间相关的信息,第二对其次,其他对依次递减.各对典型相关变量所含的信息互不重复.并且经标准化的两组变量之间的典型相关系数与原始的两组变量间的相应典型相关系数是相同的.本文是在我的指导老师吴可法教授的精心指导和悉心关怀下完成的,在我的学习生涯和论文工作中无不倾注着老师的辛勤汗水和殷切关怀.吴老师宽厚的人格、敏捷的思维、严谨的治学态度、渊博的知识、积极向上的人生态度、平易近人的师长风范和两年来的谆谆教导,使我深受启迪,并永远铭记在心.从吴老师身上,我不仅学到了扎实的专业知识和技能,更学到了做人的道理,这些教诲必将成为惠及一生的宝贵财富.在此谨向吴老师致以最衷心的感谢和美好的祝愿!论文期间,我得到了许多老师和同学的帮助,本人在这里对他们致以衷心的感谢.我还要感谢我的家人,是他们的理解、支持和鼓励,使我的学习能够顺利进行.最后衷心感谢在百忙之中评审论文和参加答辩的各位专家、教授!。

统计案例分析报告及典型例题

统计案例分析报告及典型例题

统计案例分析及典型例题§11.1 抽样方法1.为了了解所加工的一批零件的长度,抽取其中200个零件并测量了其长度,在这个问题中,总体的一个样本是 . 答案 200个零件的长度2.某城区有农民、工人、知识分子家庭共计2 004户,其中农民家庭1 600户,工人家庭303户,现要从中抽取容量为40的样本,则在整个抽样过程中,可以用到下列抽样方法:①简单随机抽样,②系统抽样,③分层抽样中的 . 答案 ①②③3.某企业共有职工150人,其中高级职称15人,中级职称45人,初级职称90人.现采用分层抽样抽取容量为30的样本,则抽取的各职称的人数分别为 . 答案 3,9,184.某工厂生产A 、B 、C 三种不同型号的产品,其相应产品数量之比为2∶3∶5,现用分层抽样方法抽出一个容量为n 的样本,样本中A 型号产品有16件,那么此样本的容量n= . 答案 80例1 某大学为了支援我国西部教育事业,决定从2007应届毕业生报名的18名志愿者中,选取6人组成志愿小组.请用抽签法和随机数表法设计抽样方案. 解 抽签法:第一步:将18名志愿者编号,编号为1,2,3, (18)第二步:将18个号码分别写在18张外形完全相同的纸条上,并揉成团,制成号签; 第三步:将18个号签放入一个不透明的盒子里,充分搅匀; 第四步:从盒子中逐个抽取6个号签,并记录上面的编号;基础自测第五步:所得号码对应的志愿者,就是志愿小组的成员. 随机数表法:第一步:将18名志愿者编号,编号为01,02,03, (18)第二步:在随机数表中任选一数作为开始,按任意方向读数,比如第8行第29列的数7开始,向右读;第三步:从数7开始,向右读,每次取两位,凡不在01—18中的数,或已读过的数,都跳过去不作记录,依次可得到12,07,15,13,02,09.第四步:找出以上号码对应的志愿者,就是志愿小组的成员.例2 某工厂有1 003名工人,从中抽取10人参加体检,试用系统抽样进行具体实施. 解 (1)将每个人随机编一个号由0001至1003. (2)利用随机数法找到3个号将这3名工人剔除. (3)将剩余的1 000名工人重新随机编号由0001至1000. (4)分段,取间隔k=100001=100将总体均分为10段,每段含100个工人.(5)从第一段即为0001号到0100号中随机抽取一个号l.(6)按编号将l ,100+l ,200+l,…,900+l 共10个号码选出,这10个号码所对应的工人组成样本. 例3 (14分)某一个地区共有5个乡镇,人口3万人,其中人口比例为3∶2∶5∶2∶3,从3万人中抽取一个300人的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法?并写出具体过程.解 应采取分层抽样的方法.3分过程如下:(1)将3万人分为五层,其中一个乡镇为一层.5分(2)按照样本容量的比例随机抽取各乡镇应抽取的样本. 300×153=60(人);300×152=40(人); 300×155=100(人);300×152=40(人); 300×153=60(人),10分因此各乡镇抽取人数分别为60人,40人,100人,40人,60人.12分(3)将300人组到一起即得到一个样本.14分练习:一、填空题1.(安庆模拟)某校高中生共有900人,其中高一年级300人,高二年级200人,高三年级400人,现分层抽取容量为45的样本,那么高一、高二、高三年级抽取的人数分别为 .答案15,10,202.某牛奶生产线上每隔30分钟抽取一袋进行检验,则该抽样方法为①;从某中学的30名数学爱好者中抽取3人了解学习负担情况,则该抽样方法为②.那么①,②分别为 .答案系统抽样,简单随机抽样3.下列抽样实验中,最适宜用系统抽样的是(填序号).①某市的4个区共有2 000名学生,且4个区的学生人数之比为3∶2∶8∶2,从中抽取200人入样②某厂生产的2 000个电子元件中随机抽取5个入样③从某厂生产的2 000个电子元件中随机抽取200个入样④从某厂生产的20个电子元件中随机抽取5个入样答案③4.(2013·重庆文)某校高三年级有男生500人,女生400人,为了解该年级学生的健康情况,从男生中任意抽取25人,从女生中任意抽取20人进行调查,这种抽样方法是 .答案分层抽样法5.某中学有高一学生400人,高二学生300人,高三学生200人,学校团委欲用分层抽样的方法抽取18名学生进行问卷调查,则下列判断不正确的是(填序号).①高一学生被抽到的概率最大②高三学生被抽到的概率最大③高三学生被抽到的概率最小④每名学生被抽到的概率相等答案①②③6.某商场有四类食品,其中粮食类、植物油类、动物性食品类及果蔬类分别有40种、10种、30种、20种,现从中抽取一个容量为20的样本进行食品安全检测,若采用分层抽样的方法抽取样本,则抽取的植物油类与果蔬类食品种数之和是 .答案 67.(天津文,11)一个单位共有职工200人,其中不超过45岁的有120人,超过45岁的有80人.为了调查职工的健康状况,用分层抽样的方法从全体职工中抽取一个容量为25的样本,应抽取超过45岁的职工 人. 答案 108.将参加数学竞赛的1 000名学生编号如下0001,0002,0003,…,1000,打算从中抽取一个容量为50的样本,按系统抽样的方法分成50个部分,如果第一部分编号为0001,0002,…,0020,从第一部分随机抽取一个号码为0015,则第40个号码为 . 答案 07959.某政府机关有在编人员100人,其中副处级以上干部10人,一般干部70人,工人20人,上级机关为了了解政府机构改革意见,要从中抽取一个容量为20的样本,试确定用何种方法抽取,如何抽取? 解 用分层抽样抽取. (1)∵20∶100=1∶5, ∴510=2,570=14,520=4∴从副处级以上干部中抽取2人,一般干部中抽取14人,从工人中抽取4人.(2)因副处级以上干部与工人人数较少,可用抽签法从中分别抽取2人和4人;对一般干部可用随机数表法抽取14人.(3)将2人、4人、14人编号汇合在一起就得到了容量为20的样本.10.某单位有工程师6人,技术员12人,技工18人,要从这些人中抽取一个容量为n 的样本.如果采用系统抽样法和分层抽样法抽取,不用剔除个体;如果样本容量增加一个,则在采用系统抽样时,需要在总体中先剔除1个个体,求样本容量n.解 总体容量为6+12+18=36.当样本容量是n 时,由题意知,系统抽样的间隔为n36,分层抽样的比例是36n ,抽取工程师36n ×6=6n (人),抽取技术人员36n ×12=3n (人),抽取技工36n×18=2n (人).所以n 应是6的倍数,36的约数即n=6,12,18,36.当样本容量为(n+1)时,在总体中剔除1人后还剩35人,系统抽样的间隔为135+n ,因为135+n 必须是整数,所以n 只能取6,即样本容量为6.总体分布的估计与总体特征数的估计1.一个容量为20的样本,已知某组的频率为0.25,则该组的频数为 . 答案 52.(2008·山东理)右图是根据《山东统计年鉴2007》中的资料作成的1997年至2006年我省城镇居民百户家庭人口数的茎叶图.图中左边的数字从左到右分别表示城镇居民百户家庭人口数的百位数字和十位数字,右边的数字表示城镇居民百户家庭人口数的个位数字.从图中可以得到1997年至2006年我省城镇居民百户家庭人口数的平均数为 . 答案 303.63.在抽查产品的尺寸过程中,将其尺寸分成若干组,[a ,b )是其中的一组,抽查出的个体在该组上的频率为m,该组在频率分布直方图的高为h ,则|a-b|= . 答案 hm4.(2008·山东文,9)从某项综合能力测试中抽取100人的成绩,统计如表,则这100人成绩的标准差为 .答案 51025.为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为17.5岁~18岁的男生体重(kg ),得到频率分布直方图如下:根据上图可得这100名学生中体重在[56.5,64.5)的学生人数是 . 答案 40基础自测典型例题:例1 在学校开展的综合实践活动中,某班进行了小制作评比,作品上交时间为5月1日至30日,评委会把同学们上交 作品的件数按5天一组分组统计,绘制了频率分布直方图(如图所示),已知从左到右各长方形高的比为2∶3∶4∶6∶4∶1,第三组的频数为12,请解答下列问题: (1)本次活动共有多少件作品参加评比? (2)哪组上交的作品数量最多?有多少件?(3)经过评比,第四组和第六组分别有10件、2件作品获奖,问这两组哪组获奖率高? 解 (1)第三组的频率为1464324+++++=51又因为第三组的频数为12,∴参评作品数为5112=60.(2)根据频率分布直方图,可以看出第四组上交的作品数量最多,共有60×1464326+++++=18(件).(3)第四组的获奖率是1810=95,第六组上交的作品数量为60×1464321+++++=3(件),∴第六组的获奖率为32=96,显然第六组的获奖率高.例4(14分)某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30 min 抽取一包产品,称其重量,分别 记录抽查数据如下: 甲:102, 101, 99, 98, 103, 98,99;乙:110, 115, 90,85,75,115, 110.(1)这种抽样方法是哪一种? (2)将这两组数据用茎叶图表示;(3)将两组数据比较,说明哪个车间产品较稳定. 解 (1)因为间隔时间相同,故是系统抽样. 2分(2)茎叶图如下:5分(3)甲车间: 平均值:1x =71(102+101+99+98+103+98+99)=100,7分方差:s 12=71[(102-100)2+(101-100)2+…+(99-100)2]≈3.428 6.9分乙车间:平均值:2x =71(110+115+90+85+75+115+110)=100,11分方差:s 22=71[(110-100)2+(115-100)2+…+(110-100)2]≈228.571 4.13分∵1x =2x ,s 12<s 22,∴甲车间产品稳定.14分练习:1.为了了解小学生的体能情况,抽取了某小学同年级部分学生进行跳绳测试,将所得数据整理后,画出频率分布直方图如图所示,已知图中从左到右前三个小组的频率分别是0.1,0.3,0.4,第一小组的频数为5.(1)求第四小组的频率;(2)参加这次测试的学生人数是多少?(3)在这次测试中,学生跳绳次数的中位数落在第几小组内? 解 (1)第四小组的频率=1-(0.1+0.3+0.4)=0.2. (2)设参加这次测试的学生人数是n, 则有n=第一小组频率第一小组频数=5÷0.1=50(人).(3)因为0.1×50=5,0.3×50=15,0.4×50=20,0.2×50=10,即第一、第二、第三、第四小组的频数分别为5、15、20、10,所以学生跳绳次数的中位数落在第三小组内. 练习:一、填空题1.下列关于频率分布直方图的说法中不正确的是 . ①直方图的高表示取某数的频率②直方图的高表示该组上的个体在样本中出现的频率 ③直方图的高表示该组上的个体数与组距的比值④直方图的高表示该组上的个体在样本中出现的频率与组距的比值 答案 ①②③2.甲、乙两名新兵在同样条件下进行射击练习,每人打5发子弹,命中环数如下:甲:6,8,9,9,8;乙:10,7,7,7,9.则这两人的射击成绩 比 稳定. 答案 甲 乙4.某班50名学生在一次百米测试中,成绩全部介于13秒与19秒之间,将测试结果分成六组:右图是得到的频率分布直方图.设成绩小于17秒的学生人数占全班总人数的百分比为x,成绩大于等于15秒且小于17秒的学生人数为y ,则从频率分布直方图中可分析出x 和y 分别为 . 答案 0.9, 356.甲、乙两名同学在5次体育测试中的成绩统计的茎叶图如图所示,若甲、乙两人的平均成绩分别是x 甲、x 乙,则x 甲 x 乙, 比 稳定. 答案 < 乙 甲7.(上海,9)已知总体的各个体的值由小到大依次为2,3,3,7,a ,b ,12,13.7,18.3,20,且总体的中位数为10.5.若要使该总体的方差最小,则a 、b 的取值分别是 . 答案 10.5、10.5二、解答题10.为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图所示),图中从左到右各小长方形面积之比为2∶4∶17∶15∶9∶3,第二小组频数为12.(1)第二小组的频率是多少?样本容量是多少?(2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少? (3)在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由. 解 (1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小, 因此第二小组的频率为:391517424+++++=0.08.又因为频率=样本容量第二小组频数, 所以样本容量=第二小组频率第二小组频数=08.012=150. (2)由图可估计该学校高一学生的达标率约为39151742391517++++++++×100%=88%.(3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内.线性回归方程1.下列关系中,是相关关系的为 (填序号). ①学生的学习态度与学习成绩之间的关系;基础自测②教师的执教水平与学生的学习成绩之间的关系;③学生的身高与学生的学习成绩之间的关系;④家庭的经济条件与学生的学习成绩之间的关系.答案①②2.为了考察两个变量x、y之间的线性相关关系,甲、乙两同学各自独立地做10次和15次试验,并利用最小二乘法求得回归直线分别为l1和l2.已知在两人的试验中发现变量x的观测数据的平均值恰好相等,都为s,变量y的观测数据的平均值也恰好相等,都为t,那么下列说法中正确的是(填序号).①直线l1,l2有交点(s,t)②直线l1,l2相交,但是交点未必是(s,t)③直线l1,l2由于斜率相等,所以必定平行④直线l1,l2必定重合答案①3.下列有关线性回归的说法,正确的是(填序号).①相关关系的两个变量不一定是因果关系②散点图能直观地反映数据的相关程度③回归直线最能代表线性相关的两个变量之间的关系④任一组数据都有回归直线方程答案①②③4.下列命题:①线性回归方法就是由样本点去寻找一条贴近这些样本点的直线的数学方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;③通过回归直线yˆ=bˆx+aˆ及回归系数bˆ,可以估计和预测变量的取值和变化趋势. 其中正确命题的序号是 .答案①②③5.已知回归方程为yˆ=0.50x-0.81,则x=25时,yˆ的估计值为 .答案11.69例1下面是水稻产量与施化肥量的一组观测数据:施化肥量15 20 25 30 35 40 45水稻产量320 330 360 410 460 470 480(1)将上述数据制成散点图;(2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水稻产量会一直随施化肥量的增加而增长吗?解(1)散点图如下:(2)从图中可以发现施化肥量与水稻产量具有线性相关关系,当施化肥量由小到大变化时,水稻产量由小变大,图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系,但水稻产量只是在一定范围内随着化肥施用量的增加而增长.例2(14分)随着我国经济的快速发展,城乡居民的生活水平不断提高,为研究某市家庭平均收入与月平均生活支出的关系,该市统计部门随机调查了10个家庭,得数据如下:(1)判断家庭平均收入与月平均生活支出是否相关?(2)若二者线性相关,求回归直线方程.解(1)作出散点图:5分观察发现各个数据对应的点都在一条直线附近,所以二者呈线性相关关系. 7分(2)x =101 (0.8+1.1+1.3+1.5+1.5+1.8+2.0+2.2+2.4+2.8)=1.74,y=101(0.7+1.0+1.2+1.0+1.3+1.5+1.3+1.7+2.0+2.5)=1.42,9分bˆ=∑∑==-∙-ni ini i i x n xyx n y x 1221≈0.813 6,aˆ=1.42-1.74×0.813 6≈0.004 3,13分 ∴回归方程yˆ=0.813 6x+0.004 3.14分例3 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y (吨)标准煤的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程yˆ=b ˆx+a ˆ; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解 (1)散点图如下图:(2)x =46543+++=4.5,y =45.4435.2+++=3.5∑=41i ii yx =3×2.5+4×3+4×5+6×4.5=66.5.∑=412i ix=32+42+52+62=86∴bˆ=24124144x x yx yx i i i ii -∙-∑∑===25.44865.45.345.66⨯-⨯⨯-=0.7aˆ =y -bˆx =3.5-0.7×4.5=0.35. ∴所求的线性回归方程为yˆ=0.7x+0.35. (3)现在生产100吨甲产品用煤 y=0.7×100+0.35=70.35,∴降低90-70.35=19.65(吨)标准煤.1.科研人员为了全面掌握棉花新品种的生产情况,查看了气象局对该地区年降雨量与年平均气温的统计数据(单位分别是mm,℃),并作了统计.(1)试画出散点图;(2)判断两个变量是否具有相关关系. 解 (1)作出散点图如图所示,(2)由散点图可知,各点并不在一条直线附近,所以两个变量是非线性相关关系.2.在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如下:由资料看y 与x 呈线性相关,试求回归方程. 解 x =30,y =50.1283.1120.850.767.66++++=93.6.bˆ=25125155x xyx yx i ii ii -∙-∑∑==≈0.880 9.aˆ=y -bˆx =93.6-0.880 9×30=67.173. ∴回归方程为yˆ=0.880 9x+67.173.3.某企业上半年产品产量与单位成本资料如下:(1)求出线性回归方程;(2)指出产量每增加1 000件时,单位成本平均变动多少? (3)假定产量为6 000件时,单位成本为多少元? 解 (1)n=6,∑=61i i x =21,∑=61i i y =426,x =3.5,y =71,∑=612i i x =79,∑=61i i i y x =1 481,bˆ=26126166x xyx yx i ii ii -∙-∑∑===25.3679715.364811⨯-⨯⨯-=-1.82.aˆ=y-bˆx=71+1.82×3.5=77.37.回归方程为yˆ=aˆ+bˆx=77.37-1.82x.(2)因为单位成本平均变动bˆ=-1.82<0,且产量x的计量单位是千件,所以根据回归系数b的意义有: 产量每增加一个单位即1 000件时,单位成本平均减少1.82元.(3)当产量为6 000件时,即x=6,代入回归方程:yˆ=77.37-1.82×6=66.45(元)当产量为6 000件时,单位成本为66.45元.一、填空题1.观察下列散点图,则①正相关;②负相关;③不相关.它们的排列顺序与图形对应顺序是 .答案a,c,b2.回归方程yˆ=1.5x-15,则下列说法正确的有个.①y=1.5x-15②15是回归系数a③1.5是回归系数a④x=10时,y=0答案 13.(2009.湛江模拟)某地区调查了2~9岁儿童的身高,由此建立的身高y(cm)与年龄x(岁)的回归模型为yˆ=8.25x+60.13,下列叙述正确的是 .①该地区一个10岁儿童的身高为142.63 cm②该地区2~9岁的儿童每年身高约增加8.25 cm③该地区9岁儿童的平均身高是134.38 cm④利用这个模型可以准确地预算该地区每个2~9岁儿童的身高答案 ②4.三点(3,10),(7,20),(11,24)的回归方程是 .答案 yˆ=1.75x+5.75 5.某人对一地区人均工资x(千元)与该地区人均消费y(千元)进行统计调查,y 与x 有相关关系,得到回归直线方程yˆ=0.66x+1.562.若该地区的人均消费水平为7.675千元,估计该地区的人均消费额占人均工资收入的百分比约为 . 答案 83%6.某化工厂为预测产品的回收率y,需要研究它和原料有效成分含量x 之间的相关关系,现取8对观测值,计算,得∑=81i i x =52, ∑=81i i y =228, ∑=812i i x =478, ∑=81i i i y x =1 849,则其线性回归方程为 .答案 yˆ=11.47+2.62x 7.有下列关系:①人的年龄与他(她)拥有的财富之间的关系;②曲线上的点与该点的坐标之间的关系;③苹果的产量与气候之间的关系;④森林中的同一种树木,其断面直径与高度之间的关系.其中,具有相关关系的是 . 答案 ①③④8.已知关于某设备的使用年限x 与所支出的维修费用y(万元),有如下统计资料:若y 对x 呈线性相关关系,则回归直线方程yˆ=b ˆx+a ˆ表示的直线一定过定点 . 答案 (4,5) 二、解答题9.期中考试结束后,记录了5名同学的数学和物理成绩,如下表:(1)数学成绩和物理成绩具有相关关系吗?(2)请你画出两科成绩的散点图,结合散点图,认识(1)的结论的特点. 解 (1)数学成绩和物理成绩具有相关关系.(2)以x 轴表示数学成绩,y 轴表示物理成绩,可得相应的散点图如下:由散点图可以看出,物理成绩和数学成绩对应的点不分散,大致分布在一条直线附近. 10.以下是某地搜集到的新房屋的销售价格y 和房屋的面积x 的数据:(1)画出数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线. 解 (1)数据对应的散点图如图所示:(2)x =109,y =23.2,∑=512i i x =60 975,∑=51i iiy x=12 952,bˆ=25125155x xyx yx i ii ii -∙-∑∑==≈0.196 2aˆ=y -bˆx ≈1.814 2 ∴所求回归直线方程为yˆ=0.196 2x+1.814 2.11.某公司利润y 与销售总额x(单位:千万元)之间有如下对应数据:(1)画出散点图; (2)求回归直线方程;(3)估计销售总额为24千万元时的利润. 解 (1)散点图如图所示:(2)x =71(10+15+17+20+25+28+32)=21,y=71(1+1.3+1.8+2+2.6+2.7+3.3)=2.1,∑=712i ix=102+152+172+202+252+282+322=3 447,∑=71i iiy x=10×1+15×1.3+17×1.8+20×2+25×2.6+28×2.7+32×3.3=346.3,bˆ=27127177x x yx yx i i i ii -∙-∑∑===221744731.22173.346⨯-⨯⨯-≈0.104, aˆ=y -bˆx =2.1-0.104×21=-0.084, ∴yˆ=0.104x-0.084. (3)把x=24(千万元)代入方程得,yˆ=2.412(千万元).∴估计销售总额为24千万元时,利润为2.412千万元.12.某种产品的广告费支出x 与销售额y(单位:百万元)之间有如下对应数据:(1)画出散点图;(2)求回归直线方程;(3)试预测广告费支出为10百万元时,销售额多大? 解 (1)根据表中所列数据可得散点图如下:(2)列出下表,并用科学计算器进行有关计算:因此,x =525=5,y =5250 =50,∑=512i i x =145, ∑=512i i y =13 500, ∑=51i i i y x =1 380.于是可得:bˆ=25125155x xyx yx i ii ii -∙-∑∑===55514550553801⨯⨯-⨯⨯-=6.5;aˆ=y -bˆx =50-6.5×5=17.5. 因此,所求回归直线方程为:yˆ=6.5x+17.5. (3)根据上面求得的回归直线方程,当广告费支出为10百万元时,yˆ=6.5×10+17.5=82.5(百万元),即这种产品的销售收入大约为82.5百万元.§11.4 统计案例1.对有线性相关关系的两个变量建立的回归直线方程y ˆ=a ˆ+b ˆx 中,回归系数bˆ与0的大小关系为 .(填序号) ①大于或小于 ②大于 ③小于 ④不小于答案 ①2.如果有90%的把握说事件A 和B 有关系,那么具体计算出的数据 2 2.706.(用“>”,“<”,“=”填空) 答案 >3.对两个变量y 与x 进行回归分析,分别选择不同的模型,它们的相关系数r 如下,其中拟合效果最好的模型是 .①模型Ⅰ的相关系数r 为0.98 ②模型Ⅱ的相关系数r 为0.80 ③模型Ⅲ的相关系数r 为0.50 ④模型Ⅳ的相关系数r 为0.25 答案 ①4.下列说法中正确的有:①若r >0,则x 增大时,y 也相应增大;②若r <0,则x 增大时,y 也相应增大;③若r=1或r=-1,则x 与y 的关系完全对应(有函数关系),在散点图上各个点均在一条直线上 . 答案 ①③基础自测例1 (14分)调查339名50岁以上人的吸烟习惯与患慢性气管炎的情况,获数据如下:试问:(1)吸烟习惯与患慢性气管炎是否有关? (2)用假设检验的思想给予证明. (1)解 根据列联表的数据,得到χ2=))()()(()(2c d b d c a b a bc ad n ++++-2分 =13428356205)1316212143(3392⨯⨯⨯⨯-⨯⨯=7.469>6.6356分 所以有99%的把握认为“吸烟与患慢性气管炎有关”.9分(2)证明 假设“吸烟与患慢性气管炎之间没有关系”,由于事件A={χ2≥6.635}≈0.01,即A 为小概率事件,而小概率事件发生了,进而得假设错误,这种推断出错的可能性约有1%.14分例2 一台机器使用时间较长,但还可以使用.它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有 缺点零件的多少,随机器运转的速度而变化,下表为抽样试验结果:(1)对变量y 与x 进行相关性检验;(2)如果y 与x 有线性相关关系,求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么,机器的运转速度应控制在什么范围内?解 (1)x =12.5,y =8.25,∑=41i iiy x=438,4x y =412.5,∑=412i i x =660,∑=412i i y =291,所以r=)4)(4(42412241241y yx xyx yx i ii ii ii --∙-∑∑∑====)25.272291()625660(5.412438-⨯--=25.6565.25≈62.2550.25≈0.995 4.因为r >r 0.05,所以y 与x 有很强的线性相关关系.(2)yˆ=0.728 6x-0.857 1. (3)要使yˆ≤10⇒0.728 6x-0.857 1≤10, 所以x ≤14.901 3.所以机器的转速应控制在14.901 3转/秒以下.例3 下表是某年美国旧轿车价格的调查资料,今以x 表示轿车的使用年数,y 表示相应的年均价格,求y 关于x 的回归 方程.解 作出散点图如图所示.可以发现,各点并不是基本处于一条直线附近,因此,y 与x 之间应是非线性相关关系.与已学函数图象比较,用y ˆ=e a x b ˆˆ来刻画题中模型更为合理,令zˆ=ln y ˆ,则z ˆ=b ˆx+a ˆ,题中数据变成如下表所示:相应的散点图如图所示,从图中可以看出,变换的样本点分布在一条直线附近,因此可以用线性回归方程拟合.由表中数据可得r ≈-0.996.|r|>r 0.05.认为x 与z之间具有线性相关关系,由表中数据得bˆ≈-0.298,a ˆ≈8.165,所以z ˆ=-0.298x+8.165,最后回代z ˆ=ln y ˆ,即y ˆ=e -0.298x+8.165为所求.1.某班主任对全班50名学生学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是多少?抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少?(2)试运用独立性检验的思想方法分析:学生的学习积极性与对待班级工作的态度是否有关系?说明理由.解 (1)随机抽查这个班的一名学生,有50种不同的抽查方法,由于积极参加班级工作的学生有18+6=24人,所以有24种不同的抽法,因此由古典概型的计算公式可得抽到积极参加班级工作的学生的概率是P 1=5024=2512,又因为不太主动 参加班级工作且学习积极性一般的学生有19人,所以抽到不太主动参加班级工作且学习积极性一般的学生的概率是P 2=5019.(2)由2χ统计量的计算公式得2χ=25252624)761918(502⨯⨯⨯⨯-⨯⨯≈11.538,由于11.538>10.828,所以可以有99.9%的把握认为“学生的学习积极性与对待班级工作的态度有关系”.2.某个体服装店经营某种服装,一周内获纯利y (元)与该周每天销售这种服装的件数x 之间的一组数据如下:已知∑=712i i x =280, ∑=712i i y =45 309, ∑=71i i i y x =3 487,此时r 0.05=0.754.(1)求x ,y ;(2)判断一周内获纯利润y 与该周每天销售件数x 之间是否线性相关,如果线性相关,求出回归直线方程.解 (1)x =71(3+4+5+6+7+8+9)=6,y=71 (66+69+73+81+89+90+91)≈79.86.(2)根据已知∑=712i i x =280, ∑=712i i y =45 309, ∑=71i i i y x =3 487,得相关系数 r=)86.79730945)(67280(86.7967487322⨯-⨯-⨯⨯-≈0.973.由于0.973>0.754,所以纯利润y与每天销售件数x 之间具有显著线性相关关系. 利用已知数据可求得回归直线方程为yˆ=4.746x+51.386.3.某种书每册的成本费y (元)与印刷册数x (千册)有关,经统计得到数据如下:检验每册书的成本费y 与印刷册数的倒数x1之间是否具有线性相关关系,如有,求出y 对x 的回归方程.解 首先作变量置换,令u=x1,题目所给数据变成如下表所示的10对数据:然后作相关性检验.经计算得r ≈0.999 8>0.75,从而认为u 与y 之间具有线性相关关系.由公式得aˆ≈1.125,b ˆ≈8.973, 所以yˆ=1.125+8.973u, 最后回代u=x1,可得y ˆ=1.125+x973.8,这就是题目要求的y 对x 的回归曲线方程.回归曲线的图形如图所示,它是经过平移的反比例函数图象的一个分支.一、填空题1.对于独立性检验,下列说法中正确的是 . ①2χ的值越大,说明两事件相关程度越大 ②2χ的值越小,说明两事件相关程度越小 ③2χ≤2.706时,有90%的把握说事件A 与B 无关 ④2χ>6.635时,有99%的把握说事件A 与B 有关 答案 ①②④2.工人月工资y (元)依劳动生产率x(千元)变化的回归方程为y ˆ=50+80x ,下列判断正确的是 .①劳动生产率为1 000元时,工资为130元。

SPSS典型相关分析结果解读

SPSS典型相关分析结果解读

SPSS典型相关分析结果解读
典型相关分析是SPSS的一种统计分析方法,用于检验两变量之间的线性关系。

它的结果包括Pearson积差相关系数、Spearman等级相关系数以及Kendall tau-b相关系数。

a. Pearson积差相关系数:Pearson积差相关系数是最常用的相关分析指标,该系数介于-1~+1之间,表示两个变量之间的线性关系强度。

当其值接近1时,表明两个变量之间呈正相关;当其值接近-1时,表明两个变量之间呈负相关;而当其值接近0时,表明两个变量之间没有显著相关性。

b. Spearman等级相关系数:Spearman等级相关系数也是一种常用的相关分析指标,用于检验两个变量之间的非线性关系,通常情况下,该指标的取值范围在-1~+1之间,其余与Pearson积差相关系数的解释原理相同。

c. Kendall tau-b相关系数:Kendall tau-b相关系数也是一种常用的相关分析指标,用于检验两个变量之间的非线性关系,其取值范围也是-1~+1,当取值为正时,表明两个变量之间存在正相关性;当取值为负时,表明两个变量之间存在负相关性;而当取值为0时,表明两个变量之间没有显著相关性。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Run MATRIX procedure:
Correlations for Set-1
long1 width1
long1 1.0000 .7346
width1 .7346 1.0000
Correlations for Set-2 两组变量内部各自的相关阵long2 width2
long2 1.0000 .8393
width2 .8393 1.0000
Correlations Between Set-1 and Set-2
long2 width2
long1 .7108 .7040
width1 .6932 .7086
两组变量间各变量的两两相关阵,可见兄弟的头型指标间确实存在相关性,提取出综合指标来代表这种相关性。

Canonical Correlations
1 .789
2 .054
第一典型相关系数为0.789。

Test that remaining correlations are zero:
Wilk's Chi-SQ DF Sig.
1 .377 20.964 4.000 .000
2 .997 .062 1.000 .803
各典型相关系数的检验。

Standardized Canonical Coefficients for Set-1
1 2
long1 -.552 -1.366
width1 -.522 1.378
Raw Canonical Coefficients for Set-1
1 2
long1 -.057 -.140
width1 -.071 .187
上面两个表为各典型变量与变量组1中各变量间标化与未标化的系数列表,由此可写出典型变量的转化公式为(标化的): 120.55210.5221,
1.3661 1.3781L long width L long width =--=-+
Standardized Canonical Coefficients for Set-2
1 2
long2 -.504 -1.769
width2 -.538 1.759
Raw Canonical Coefficients for Set-2
1 2
long2 -.050 -.176
width2 -.080 .262
上面两个表为各典型变量与变量组2中各变量间标化与未标化的系数列表,同上可写出典型变量的转化公式为(标化的): 120.50420.5382,
1.7692 1.7592M long width M long width =--=-+
}}
Canonical Loadings for Set-1
1 2
long1 -.935 -.354
width1 -.927 .375
Cross Loadings for Set-1
1 2
long1 -.737 -.019
width1 -.731 .020
上表为第一变量组中各变量分别与自身、相对的典型变量的相关系数,可见它们主要和第一对典型变量的关系比较密切。

Canonical Loadings for Set-2
1 2
long2 -.956 -.293
width2 -.962 .274
Cross Loadings for Set-2
1 2
long2 -.754 -.016
width2 -.758 .015
上表为第二变量组中各变量分别与自身、相对的典型变量的相关系数,结论与前相同。

下面是冗余度(Redundancy)分析结果,它列出各典型变量相关系数}}
所能解释原变量变异的比例,可以用来辅助判断需要保留多少个典型相关系数。

Redundancy Analysis:
Proportion of Variance of Set-1 Explained by Its Own Can. Var.
Prop Var
CV1-1 .867
CV1-2 .133
是第一组变量的变异可被自身的典型变量所解释的比例。

第一典型变量解释了总变异的86.7%。

Proportion of Variance of Set-1 Explained by Opposite Can.Var.
Prop Var
CV2-1 .539
CV2-2 .000
第一组变量的变异能被它们相对的典型变量所解释的比例。

Proportion of Variance of Set-2 Explained by Its Own Can. Var.
Prop Var
CV2-1 .920
CV2-2 .080
是第二组变量的变异可被自身的典型变量所解释的比例。

Proportion of Variance of Set-2 Explained by Opposite Can. Var.
Prop Var
CV1-1 .572
CV1-2 .000
第二组变量的变异能被它们相对的典型变量所解释的比例。

综合上述冗余度分析结果,只需保留第一对典型变量。

相关文档
最新文档