现代统计分析方法与应用(人大 何晓群)第3章 定性数据的x2检验
《现代统计分析方法与应用》第三版

何晓群编著,《现代统计分析方法与应用》第三版,中国人民大学出版社,2012。
数据和部分程序下载第2章服装标准例程序利用R软件,运行如下R程序便可计算相应的条件均值和条件协方差矩阵:#均值向量m=matrix(c(154.98,83.39,70.26,61.32,91.52),nrow=5,ncol=1);m;#协方差矩阵sigma=matrix(c(29.66,6.51,1.85,9.36,10.34,6.51,30.53,25.54,3.54,19.53,1.85,25.54,39.86,2.23,20.70,9.36,3.54,2.23,7.03,5.21,10.34,19.53,20.70,5.21,27.36),5,5);sigma;#条件均值x5=85;m1=matrix(m[1:4,1],4,1)+matrix(sigma[1:4,5]*sigma[5,5]^(-1),4,1)%*%(x5-sigma[5,1]);m1;#条件协方差1(d[x1,x2,x3,x4|x5])d1=sigma[1:4,1:4]-matrix(sigma[1:4,5]*sigma[5,5]^(-1),4,1)%*%matrix(sigma[5,1:4],1,4);d1;#条件协方差2(d[x1,x2,x3|x4,x5])d2=d1[1:3,1:3]-matrix(d1[1:3,4]*d1[4,4]^(-1),3,1)%*%matrix(d1[4,1:3],1,3);d2;注:上面程序假定585X ,可以根据实际情况更改5X的值以计算相应的条件均值。
利用R软件,运行如下的R程序便可计算出偏相关系数:#均值向量m=matrix(c(154.98,83.39,70.26,61.32,91.52),nrow=5,ncol=1);m;#协方差矩阵sigma=matrix(c(29.66,6.51,1.85,9.36,10.34,6.51,30.53,25.54,3.54,19.53,1.85,25.54,39.86,2.23,20.70,9.36,3.54,2.23,7.03,5.21,10.34,19.53,20.70,5.21,27.36),5,5);sigma;#偏相关系数1(r[12.45])r1=d2[1,2]/sqrt(d2[1,1]*d2[2,2]); r1;#偏相关系数2(r[13.45])r2=d2[1,3]/sqrt(d2[1,1]*d2[3,3]); r2;#偏相关系数3(r[23.45])r3=d2[2,3]/sqrt(d2[2,2]*d2[3,3]); r3;第3章例3.1 某超市为了研究顾客对三种牌号的矿泉水的喜好比例,以便为下一次进货提供决策,随机观察了150名购买者,并记录下他们所买的品牌,统计出购买三种品牌的人数如表3-1。
《应用回归分析》部分课后习题答案-何晓群版

《应用回归分析》部分课后习题答案第一章回归分析概述1.1 变量间统计关系和函数关系的区别是什么?答:变量间的统计关系是指变量间具有密切关联而又不能由某一个或某一些变量唯一确定另外一个变量的关系,而变量间的函数关系是指由一个变量唯一确定另外一个变量的确定关系。
1.2 回归分析与相关分析的联系与区别是什么?答:联系有回归分析和相关分析都是研究变量间关系的统计学课题。
区别有 a.在回归分析中,变量y称为因变量,处在被解释的特殊地位。
在相关分析中,变量x和变量y处于平等的地位,即研究变量y与变量x的密切程度与研究变量x与变量y的密切程度是一回事。
b.相关分析中所涉及的变量y与变量x全是随机变量。
而在回归分析中,因变量y是随机变量,自变量x可以是随机变量也可以是非随机的确定变量。
C.相关分析的研究主要是为了刻画两类变量间线性相关的密切程度。
而回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。
1.3 回归模型中随机误差项ε的意义是什么?答:ε为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为一个随机方程,使得我们可以借助随机数学方法研究y与x1,x2…..xp的关系,由于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。
1.4 线性回归模型的基本假设是什么?答:线性回归模型的基本假设有:1.解释变量x1.x2….xp是非随机的,观测值xi1.xi2…..xip是常数。
2.等方差及不相关的假定条件为{E(εi)=0 i=1,2…. Cov(εi,εj)={σ^23.正态分布的假定条件为相互独立。
4.样本容量的个数要多于解释变量的个数,即n>p.1.5 回归变量的设置理论根据是什么?在回归变量设置时应注意哪些问题?答:理论判断某个变量应该作为解释变量,即便是不显著的,如果理论上无法判断那么可以采用统计方法来判断,解释变量和被解释变量存在统计关系。
定性资料常用的统计学方法

定性资料常用的统计学方法一、χ2检验χ2检验(chi-square test)是一种主要用于分析分类变量数据的假设检验方法,该方法主要目的是推断两个或多个总体率或构成比之间有无差别。
(一)四格表资料的χ2检验例17:为了解吲达帕胺片治疗原发性高血压的疗效,将70名高血压患者随机分为两组,试验组用吲达帕胺片加辅助治疗,对照组用安慰剂加辅助治疗,观察结果见表4 -5-1,试分析吲达帕胺片治疗原发性高血压的有效性。
表4 -5-1 两种疗法治疗原发性高血压的疗效1.四格表χ2检验的原理:对于四格表资料,χ2检验的基本公式为:式中,A为实际频数(actual frequency),T为理论频数(theoreticalfrequency)。
理论频数T根据检验假设H0:π1=π2确定,其中π1和π2分别为两组的总体率。
计算理论频数T的公式为:式中Tij 为第i行第j列的理论频数,ni+和n+j分别为相应行与列的周边合计数,n为总例数。
现以例17为例说明χ2检验的步骤:(1)建立检验假设并确定检验水准。
H0:π1=π2,即试验组与对照组的总体有效率相等H1:π1≠π2,即试验组与对照组的总体有效率不等α=0.05(2)计算检验统计量。
按式(4 -5-2)计算T11,然后利用四格表的各行列的合计数计算T12、T21和T22,即T11=(44×41)/70=25.77,T12=44-25.77=18.23T21=41-25.77=15.23,T22=26-15.23=10.77按式(4 -5-3)计算χ2值(3)确定P值,作出推断结论。
以ν=1查χ2分布界值表,得P<0.005。
按α=0.05水准,拒绝H,接受H1,可以认为两组治疗原发性高血压的总体有效率不等,即可以认为吲达帕胺片治疗原发性高血压优于对照组。
2.四格表资料χ2检验的专用公式:在对两样本率比较时,当总例数n≥40且所有格子的T≥5时,可用χ2检验的通用公式(4 -5-1)。
应用回归分析第三版·何晓群-第三章所有习题答案

应用回归分析第三章习题 3.1y x =β基本假定:(1) 诸1234n x ,x x ,x x ……非随机变量,rank (x )=p+1,X 为满秩矩阵(2) 误差项()()200i i j E ,i j cov ,,i j⎧ε=⎪⎧δ=⎨εε=⎨⎪≠⎩⎩(3)()20i i j ~N ,,⎧εδ⎪⎨εε⎪⎩诸相互独立3.2()10111ˆX X X X |rank(X X )p rank(X )p n p -'β'≠'=+≥+≥+存在,必须使存在。
即|则必有故3.3()()()()()22111221222211111111n nn i i ii i i i nii i ni i E e D e h n h n p ˆE E e n p n p n p =====⎛⎫==-δ ⎪⎝⎭⎛⎫=-δ=--δ ⎪⎝⎭⎛⎫∴δ==--δ=δ ⎪----⎝⎭∑∑∑∑∑3.4并不能这样武断地下结论。
2R 与回归方程中的自变量数目以及样本量n 有关,当样本量n 与自变量个数接近时,2R 易接近1,其中隐含着一些虚假成分。
因此,并不能仅凭很大的2R 就模型的优劣程度。
3.5首先,对回归方程的显著性进行整体上的检验——F 检验001230p H :β=β=β=β==β=……接受原假设:在显著水平α下,表示随机变量y 与诸x 之间的关系由线性模型表示不合适 拒绝原假设:认为在显著性水平α下,y 与诸x 之间有显著的线性关系第二,对单个自变量的回归系数进行显著性检验。
00i H :β=接受原假设:认为i β=0,自变量i x 对y 的线性效果并不显著3.6原始数据由于自变量的单位往往不同,会给分析带来一定的困难;又由于设计的数据量较大,可能会以为舍入误差而使得计算结果并不理想。
中心化和标准化回归系数有利于消除由于量纲不同、数量级不同带来的影响,避免不必要的误差。
3.71122011122201122ppp p p p p ˆˆˆˆˆy x x x ˆˆˆˆˆˆy y (x x )(x x )(x x )ˆˆˆˆy x x )x x )x x )y =β+β+β++β-=β+β-+β-++β--ββ=-+-++-=对最小二乘法求得一般回归方程:……对方程进行如下运算:…………*jjˆ+β=……即3.812132123313221231221233131231123233213231313*********111r r r r r r r r rr r r r r r r r r r r r ⎛⎫ ⎪= ⎪ ⎪⎝⎭∆==-∆==-∆==-即证3.9()()()()()1211121121211111j jj j j p j j j p yj j j p SSR /SSE F SSE /n p SSE /n p SSE x ,x ,,x ,x x SSE x ,x ,,x ,x ,x x r SSE x ,x ,,x ,x x -+-+-+∆∆==-----=……,?………,?…而……,?…由上两式可知,其考虑的都是通过j SSE ∆在总体中所占比例来衡量第j 个因素的重要程度,因而j F 与2yj r 是等价的。
应用回归分析第四版课后习题答案-全-何晓群-刘文卿

实用回归分析第四版 第一章 回归分析概述1.3 回归模型中随机误差项ε的意义是什么?答:ε为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为一个随机方程,使得我们可以借助随机数学方法研究y 与x1,x2…..xp 的关系,由于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。
1.4 线性回归模型的基本假设是什么?答:线性回归模型的基本假设有:1.解释变量x1.x2….xp 是非随机的,观测值xi1.xi2…..xip 是常数。
2.等方差及不相关的假定条件为{E(εi)=0 i=1,2…. Cov(εi,εj)={σ^23.正态分布的假定条件为相互独立。
4.样本容量的个数要多于解释变量的个数,即n>p.第二章 一元线性回归分析思考与练习参考答案2.1 一元线性回归有哪些基本假定?答: 假设1、解释变量X 是确定性变量,Y 是随机变量;假设2、随机误差项ε具有零均值、同方差和不序列相关性: E(εi )=0 i=1,2, …,n Var (εi )=σ2 i=1,2, …,n Cov(εi, εj )=0 i≠j i,j= 1,2, …,n 假设3、随机误差项ε与解释变量X 之间不相关: Cov(X i , εi )=0 i=1,2, …,n假设4、ε服从零均值、同方差、零协方差的正态分布 εi ~N(0, σ2 ) i=1,2, …,n 2.3 证明(2.27式),∑e i =0 ,∑e i X i =0 。
证明:其中:∑∑+-=-=nii i n i X Y Y Y Q 121021))ˆˆ(()ˆ(ββ01ˆˆˆˆi i i i iY X e Y Y ββ=+=-0100ˆˆQQββ∂∂==∂∂即: ∑e i =0 ,∑e i X i =02.5 证明0ˆβ是β0的无偏估计。
应用回归分析第三版·何晓群-第三章所有习题答案

应用回归分析第三章习题 3.1y x =β基本假定:(1) 诸1234n x ,x x ,x x ……非随机变量,rank (x )=p+1,X 为满秩矩阵(2) 误差项()()200i i j E ,i j cov ,,i j⎧ε=⎪⎧δ=⎨εε=⎨⎪≠⎩⎩(3)()20i i j ~N ,,⎧εδ⎪⎨εε⎪⎩诸相互独立3.2()10111ˆX X X X |rank(X X )p rank(X )p n p -'β'≠'=+≥+≥+存在,必须使存在。
即|则必有故3.3()()()()()22111221222211111111n nn i i ii i i i nii i ni i E e D e h n h n p ˆE E e n p n p n p =====⎛⎫==-δ ⎪⎝⎭⎛⎫=-δ=--δ ⎪⎝⎭⎛⎫∴δ==--δ=δ ⎪----⎝⎭∑∑∑∑∑3.4并不能这样武断地下结论。
2R 与回归方程中的自变量数目以及样本量n 有关,当样本量n 与自变量个数接近时,2R 易接近1,其中隐含着一些虚假成分。
因此,并不能仅凭很大的2R 就模型的优劣程度。
3.5首先,对回归方程的显著性进行整体上的检验——F 检验001230p H :β=β=β=β==β=……接受原假设:在显著水平α下,表示随机变量y 与诸x 之间的关系由线性模型表示不合适 拒绝原假设:认为在显著性水平α下,y 与诸x 之间有显著的线性关系第二,对单个自变量的回归系数进行显著性检验。
00i H :β=接受原假设:认为i β=0,自变量i x 对y 的线性效果并不显著3.6原始数据由于自变量的单位往往不同,会给分析带来一定的困难;又由于设计的数据量较大,可能会以为舍入误差而使得计算结果并不理想。
中心化和标准化回归系数有利于消除由于量纲不同、数量级不同带来的影响,避免不必要的误差。
3.71122011122201122ppp p p p p ˆˆˆˆˆy x x x ˆˆˆˆˆˆy y (x x )(x x )(x x )ˆˆˆˆy x x )x x )x x )y =β+β+β++β-=β+β-+β-++β--ββ=-+-++-=对最小二乘法求得一般回归方程:……对方程进行如下运算:…………*jjˆ+β=……即3.812132123313221231221233131231123233213231313*********111r r r r r r r r rr r r r r r r r r r r r ⎛⎫ ⎪= ⎪ ⎪⎝⎭∆==-∆==-∆==-即证3.9()()()()()1211121121211111j jj j j p j j j p yj j j p SSR /SSE F SSE /n p SSE /n p SSE x ,x ,,x ,x x SSE x ,x ,,x ,x ,x x r SSE x ,x ,,x ,x x -+-+-+∆∆==-----=……,?………,?…而……,?…由上两式可知,其考虑的都是通过j SSE ∆在总体中所占比例来衡量第j 个因素的重要程度,因而j F 与2yj r 是等价的。
《统计学》(贾俊平第七版)课后题及答案-统计学课后答案第七版

第一章导论1.什么是统计学?统计学是搜集、处理、分析、解释数据并从中得出结论的科学。
2.解释描述统计与推断统计。
描述统计研究的是数据搜集、处理、汇总、图表描述、概括与分析等统计方法。
推断统计研究的是如何利用样本数据来推断总体特征的统计方法。
3.统计数据可分为哪几种类型?不同类型的数据各有什么特点?按照计量尺度可分为分类数据、顺序数据和数值型数据;按照数据的搜集方法,可以分为观测数据和试验数据;按照被描述的现象与实践的关系,可以分为截面数据和时间序列数据。
4.解释分类数据、顺序数据和数值型数据的含义。
分类数据是只能归于某一类别的非数字型数据;顺序数据是只能归于某一有序类别的非数字型数据;数值型数据是按照数字尺度测量的观测值,其结果表现为具体的数值。
5.举例说明总体、样本、参数、统计量、变量这几个概念。
总体是包含所研究的全部个体的集合,样本是从总体中抽取的一部分元素的集合,参数是用来描述总体特征的概括性数字度量,统计量是用来描述样本特征的概括性数字度量,变量是用来说明现象某种特征的概念。
6.变量可分为哪几类?变量可分为分类变量、顺序变量和数值型变量。
分类变量是说明书屋类别的一个名称,其取值为分类数据;顺序变量是说明十五有序类别的一个名称,其取值是顺序数据;数值型变量是说明事物数字特征的一个名称,其取值是数值型数据。
7.举例说明离散型变量和连续型变量。
离散型变量是只能去可数值的变量,它只能取有限个值,而且其取值都以整位数断开,如“产品数量”;连续性变量是可以在一个或多个区间中取任何值的变量,它的取值是连续不断的,不能一一列举,如“温度”等。
第二章数据的搜集1.什么是二手资料?使用二手资料需要注意些什么?与研究内容有关、由别人调查和试验而来、已经存在并会被我们所利用的资料为二手资料。
使用时要评估资料的原始搜集人、搜集目的、搜集途径、搜集时间且使用时要注明数据来源。
2.比较概率抽样和非概率抽样的特点。
举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。
2024版统计学完整(贾俊平)人大课件ppt课件

统计学完整(贾俊平)人大课件ppt课件•引言•数据收集与整理•描述性统计分析目录•概率论基础•推断性统计分析•方差分析与回归分析•时间序列分析与预测•统计决策与风险管理目录•总结与展望01引言统计学是一门研究如何收集、整理、分析和解释数据的科学。
统计学的定义统计学的历史统计学的分支统计学的发展经历了古典统计学、近代统计学和现代统计学三个阶段。
统计学可以分为描述统计学和推断统计学两大分支。
030201统计学概述社会科学医学与健康工程与技术商业与经济统计学应用领域01020304在社会科学领域,统计学被广泛应用于调查研究、民意测验、市场分析等方面。
在医学和健康领域,统计学被用于临床试验、流行病学研究、健康风险评估等方面。
在工程和技术领域,统计学被用于质量控制、可靠性分析、信号处理等方面。
在商业和经济领域,统计学被用于市场分析、财务分析、经济预测等方面。
通过学习,学生应掌握统计学的基本概念和方法,包括数据收集、整理、描述和分析等方面的内容。
掌握统计学基本概念和方法具备数据处理和分析能力了解统计学的应用领域培养批判性思维学生应具备独立处理和分析数据的能力,能够运用适当的统计方法进行数据分析和解释。
学生应了解统计学的应用领域,能够运用所学知识解决实际问题。
学生应培养批判性思维,能够对统计结果进行合理的解释和评估。
学习目标与要求02数据收集与整理数据来源及类型数据来源包括原始数据和二手数据,原始数据是通过直接调查、实验或观察获得的数据;二手数据则是已经经过他人收集、整理和处理过的数据。
数据类型包括定性数据和定量数据,定性数据是描述性的、非数值的,如文字、图像等;定量数据则是可以用数值表示的,如年龄、收入等。
此外,还可以根据数据的测量尺度将其分为名义型数据、顺序型数据、间隔型数据和比率型数据。
调查法实验法观察法大数据收集数据收集方法通过问卷、访谈、电话调查等方式收集数据,可以获取大量的、详细的信息。
直接观察研究对象的行为、状态等,记录相关数据,适用于无法控制或干预的情况。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
12
2014-2-26
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
13
2014-2-26
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
14
利用统计分析软件可以大大简 化计算过程,提高分析效率, 在此我们利用SPSS11.5版本对 本例进行分析。首先将表3-1中 的数据按要求录入,如表3-2所 示。变量brand表示品牌,1、2 和3分别表示品牌甲、乙和丙; 变量freq表示购买人数。
2014-2-26
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
4
收集分类数据的目的是为了分析在各个类中数据 的分布。例如,我们为了估计消费者中喜欢三种 牙膏中每一种的比例,则统计购买这三种品牌牙 膏的顾客购买每一种的人数。在这里仅仅是根据 牙膏的种类来分类,我们称之为一维分类或一向 分类。而顾客的投资倾向与职业的关系中,分类 是按投资倾向和职业两个方向进行分类,我们称 之为二向分类或列联表。在本节,我们先分析一 向分类。下面通过例子来介绍一向分类数据的分 析。
目录 上页 下页 返回 结束
§3.2
列联表分析
2014-2-26
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
33
§3.2
列联表分析
2014-2-26
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
34
§3.2
列联表分析
条件是只要n足够 大,使每一类的 期望频数等于或 超过5即可。
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
46
§3.3 一致性检验
具体做法是,从我们感兴趣的若干个总体中 各抽一个随机样本,并确定每个样本中落在 每一个感兴趣的类目中的受试验对象数。这 一样本数据可列成像表3-2那样的列联表。在 表中,各个总体扮演一种分类准则的角色, 而我们感兴趣的那种特征则扮演另一种分类 准则的角色。在按这种方式收集的样本数据 所构成的列联表中,我们借以指示不同总体 的行或列都是固定的,因为样本容量是我们 事先确定的。
2014-2-26
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
36
§3.2 列联表分析
2014-2-26
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
37
§3.2
列联表分析
2014-2-26
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
38
15
目录 上页 下页 返回 结束
2014-2-26
中国人民大学六西格玛质量管理研究中心
2014-2-26
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
16
2014-2-26
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
17
2014-2-26
中国人民大学六西格玛质量管理研究中心
2014-2-26
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
35
§3.2
列联表分析
例3.4 某市商业系统为提高商业企业的服务质量, 对本市的四个大商场进行调查,征求顾客意见,共 收回有效问卷443张,每张问卷对某一商场按三种 服务质量(优、中、差)评价,其结果用列联表表 示出来,见表3-9。试分析四个商场的服务质量评 价是否一样。
2014-2-26
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
5
例3.1 某超市为了研究顾客对三种牌号的矿泉 水的喜好比例,以便为下一次进货提供决策,随 机观察了150名购买者,并记录下他们所买的品 牌,统计出购买三种品牌的人数如表3-1。
这些数据是否说明顾客对这三种矿泉水的喜好 确实存在差异? 解:为了解决这个问题,我们需要知道这些分 类分布。由于该问题有甲、乙、丙三类,所以, 这个分布称为多项概率分布,简称多项分布。
40
§3.2
列联表分析
2014-2-26
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
41
§3.2
列联表分析
2014-2-26
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
42
§3.2
列联表分析
2014-2-26
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
9
2014-2-26
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
10
2014-2-26
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
11
2014-2-26
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
2014-2-26
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
2
2014-2-26
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
3
一、问题的提出 统计学中通常要分析的数据大多是针对具有某一计量单位的计量数据, 诸如重量、时间、长度、强度、钱数等。但市场调查中,需要分析的 数据往往不是由计量值构成,而是由频数构成的。 例如,某市场研究部门为了研究顾客对目前市场上五种空调器的购买 选择倾向,随机调查200个购买者,记录下各自购买的品牌,得到购买 五种空调器的人数,根据调查结果来研究顾客购买是否有某种偏向; 社会学家研究各阶层的收入状况,将人们按收入分为五个等级就产生 与每个收入等级相对应的频数;证券公司希望调查顾客的投资倾向与 职业之间的关系,从其顾客中随机选取300人进行调查,并记下他们的 职业和投资的项目(股票,债券,国库券),从而可以得到一个二向 分类的频数分布;等等。以上这些都是我们获取的定性变量的频数数 据。对这种频数数据规律的深入研究就是现实对我们统计工作者提出 的要求。
2014-2-26
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
6
多项分布是二项分布的推广,可以看成是多项试 验得到的分布。多项试验有如下一些性质: 1.多项试验由n个相同的试验所组成。 2.每个试验的结果落在k组的某一组中。
4.试验是独立的。
2014-2-26
中国人民大学六西格玛质量管理研究中心
在这些例子中我们通常关心的是按照两个特性进行的分类的 方法之间是否相互依赖,或者说是否相互独立。如房地产商 关心的是顾客选择房子的类型是否与职业无关,或者说选择 何种房子与职业独立。在观众对电视广告的关注情况的调查 中,感兴趣的是每个观众对电视广告的关注情况是否与他来 自城市还是农村独立。
2014-2-26
目录 上页 下页 返回 结束
18
2014-2-26
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
19
§3.2
列联表分析
问卷调查中常常设计对某问题两个或多个不同的特征的分类。 例如房地产商考虑顾客选择房子设计的类型与职业的关系, 所调查的每个顾客都有两个特性,一个是选择的房子类型, 另一个是职业;广告公司为了调查城市和乡村的观众对电视 广告的关注情况,每位被调查者都有两个特性,一个是来自 城市还是乡村,另一个是对广告的态度。
目录 上页 下页 返回 结束
25
§3.2
列联表分析
2014-2-26
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
26
§3.2
列联表分析
2014-2-26
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
27
§3.2
列联表分析
2014-2-26
中国人民大学六西格玛质量管理研究中心
2014-2-26
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
23
§3.2
列联表分析
解:设不同地区居民对地板喜好的比例如表3-6。
2014-2-26
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
24
§3.2
列联表分析
2014-2-26
中国人民大学六西格玛质量管理研究中心
然后,选择 “Data”→“Weight Case”, 打开Weight Case对话框。 把“人数[freq]”放入 Frequency栏中,单击“OK”。 从 “Analyze”→“Nonparametr ic Tests”→“Chi-Square”, 打开Chi-Square test对话 框,把“人数[freq]”选入 Test Variable List栏中, 单击“OK”,得出分析结果 如下:
目录 上页 下页 返回 结束
28
§3.2
列联表分析
2014-2-26
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
29
§3.2
列联表分析
2014-2-26
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
30
§3.2
列联表分析
利用SPSS11.5进行分析,将表3-6数据按要求录 入,如表3-8所示。变量material表示地面材料, 1代表地板,2代表其他;变量place表示地区, 相应由1、2、3表示;变量freq表示喜好人数。
中国人民大学六西格玛质量管理研究中心