第十一章双变量统计分析

合集下载

资料的统计分析——双变量及多变量分析

资料的统计分析——双变量及多变量分析双变量及多变量分析是指在统计分析中，同时考察两个或多个变量之间的关系。

通过对多个变量进行综合分析，可以更全面地了解变量之间的相互作用和影响。

双变量分析是指考察两个变量之间的关系，常用的方法包括相关分析和回归分析。

相关分析是用来评价两个变量之间的线性关系的强度和方向。

常用的相关系数有皮尔逊相关系数和斯皮尔曼相关系数。

皮尔逊相关系数适用于两个变量都为连续型变量的情况，而斯皮尔曼相关系数适用于至少一个变量为有序分类变量或者两个变量都为有序分类变量的情况。

回归分析是用来探究一个变量（因变量）与一个或多个变量（自变量）之间的关系的强度和方向。

常用的回归分析方法有简单线性回归分析和多元线性回归分析。

简单线性回归分析是用来研究一个自变量与一个因变量之间的线性关系的情况，而多元线性回归分析则可以同时研究多个自变量与一个因变量之间的关系。

在进行双变量分析之前，需要先进行数据的描述性分析。

描述性分析是对数据的基本特征进行总结和描述，包括样本数量、均值、方差、最小值、最大值等。

多变量分析是指同时考虑多个变量之间的关系。

常用的方法包括多元方差分析、聚类分析和因子分析。

多元方差分析是用来比较多个因素对于一个或多个因变量的影响的强度和方向。

聚类分析是用来将样本按照其中一种相似度划分为不同的群组，从而研究变量之间的内部关系。

因子分析是用来探究多个变量之间的潜在结构，从而找出变量之间的共性和差异。

除了以上方法，还可以采用交叉表分析、卡方检验和回归分析等方法来研究多个变量之间的关系。

在进行双变量及多变量分析时，需要注意以下几个问题：首先，需要选择合适的统计方法，根据变量的类型和变量之间的关系特点来选择合适的分析方法。

其次，需要注意变量之间的相关性，避免多重共线性的问题。

此外，还需要注意样本的选择和样本量的大小，以及结果的解释和推断的注意事项。

总之，双变量及多变量分析是一种重要的统计方法，可以帮助我们更全面地了解变量之间的相互作用和影响。

第十一章定量资料分析

2 统计分析方法必须和其他分析方法结合运用数量关系只是客观事物存在的诸种关系中的一种，而不是全部。统计分析方法不是万能的，它有自身独特的长处。也有无法克服的局限性，它不能代替其他分析方法。其次，统计分析方法能够帮助发现社会现象中不易察觉的规律，但对规律的揭示要借助于有关学科的理论。
3 统计分析有一套专门的方法和技术统计学是对社会现象作定量研究和分析的科学武器；计算机技术是进行统计研究的技术工具；统计分析的数字成果是运用数字模型来描述、解释、预测社会现象。
第二节单变量统计分析
主要分为两个大的方面，主要分为两个大的方面，即描述统计和推论统计。统计。描述统计的主要目的在于用最简单的概括描述统计的主要目的在于用最简单的概括形式反映出大量数据资料所容纳的基本信包括集中趋势分析离散趋势分析等集中趋势分析、息。包括集中趋势分析、离散趋势分析等。推论统计的主要目的的主要目的，推论统计的主要目的，是从样本中所得到的数据资料来推断总体的情况，它主要包的数据资料来推断总体的情况，推断总体的情况区间估计和假设检验等括区间估计和假设检验等。
统计分析概述
统计分析就是运用统计学的方法对调查得到的数据资料进行定量分析，以揭示事物内在的数量关系、规律和发展的一种资料分析方法。其主要作用： 1 为研究提供一种清晰准确的形式化语言，对资料进行简化和描述。如对人们在一胎化政策实行前的行为进行研究，可以发现生育行为受文化程度的影响。从总体上看，文化程度高的妇女其子女数量少于文化程度低的妇女。用定性分析的方法只能得出这样一个概略的认识。采用定量方法进行分析就可以将这种关系提炼成一个数学方程式：Y=4.38－ 0.16X。Y代表任何一个妇女生育子女的数量，X代表文化程度。从这个方程中可以看出，每提高一组文化程度，就可以少生0.16个孩子。

第十一章统计分析和调查报告

• 2、定序变量 • 3、定距或定比变量
第十三章撰写研究报告
• 研究研究报告及其类型 • 研究报告是反映社会调查成果的一种书面报告，它以文字、图表等形式将调查研究的过程、方法和结果表现出来。其目的是告诉有关读者，对于所研究的问题是如何进行调查的，取得了哪些结果，这些结果对于认识和解决这一问题有哪些理论意义和实际意义等等
其它故事与发表情况
• 另外两种形式的故事叫做批判的故事（吸引读者对社会问题的注意和重视）和形式的故事（理论的表述）。 • 民族志写作惯例发生了变化。今天，被发表的现实主义的故事越来越少，而印象主义或坦白的故事则相对越来越多。 • 没有完美的理论，也没有完美的报告。
• 导言部分 • 普通调查报告的第一部分称作导言，它的主要任务是向读者简要地介绍整个调查的有关背景。其中，最主要的内容包括调查的目的、调查的内容、调查的对象、调查的时间、地点、调查的方法等等。导言的具体写法有下列几种常见的方式。 • (1)直述式 • 即开门见山,平铺直述,直接把调查的目的,内容,对象,范围等一一写出.例如: • 为了全面了解老年人的生活状况，加强老年人的社会保障工作，沈阳师范大学社会学系于2003年2月至4月，在辽宁省沈阳市调查了300位老年人的家庭与生活情况。下面是这次调查的方法及主要结果。 • (2)悬念式。 • 即先描述某种社会现象和社会问题，然后对这种社会现象和问题产生的原因、它的影响等等提出一系列疑问，最后介绍调查的基本情况.例如: • 老年人丧偶是生活中十分普遍的现象，而老年人再婚，则是近年来出现在我国社会中的一种新的社会现象。据有关部门统计，本市1980年再婚老年夫妇为68对，1984年为116对，1988年为302对；1991年为： 495对；1994年为623对。促使老年人再婚比例提高的原因是什么?；社会舆论对老年人再婚的评价如何?老年人再婚给他们的家庭及其生活带来了哪些变化?；为了弄清这些问题，沈阳师范大学社会学系于今年3—5月，对沈阳市180对再婚老年夫妇进行了调查。

双变量的统计分析之均值比较与检验

表6—3 按性别分组的描述性统计量
HB
SEX 1 2 Total
Mean 12.6529 10.1095 11.4448
血红R蛋e p白o r t* 性别
N 21 19 40
Std. Deviation
2.0531 1.6989 2.2690
Variance 4.215 2.886 5.148
Sum 265.71 192.08 457.79
输入置信区
间，一般取 90、95、99 等。
MEANS过程
一、 Means过程该过程实际上更倾向于对样本进
行描述，可以对需要比较的各组计算描述指标，包括均值、标准差、总和、观测量数、方差等一系列单变量统计量。二、完全窗口分析按Analyze—Compare Means— Means顺序，打开Means主对话框（如图6--1）。
统计项目。 • 4）单击OK完成。
选hb sex
图6—3 在主对话框选送变量
按Next,进入 layer 2of 2, 选age
图6—4 第二层变量框
选
择
统
复选此2
计
项,第一
项
按此
层次分
目
按钮
组选择
计算方
差分析
和线性
检验
图6—5 Options对话框
2. 结果及分析
表6—1 观测量摘要表
HB * SEX * AGE
表6—8 按年龄分组的eta统计量
HB * AGE
Measures of Association
R
R Squared
.172
.030
Eta Eta Squared
.286

社会研究方法(第四版)第十一章

.87 5.02
a 71.87 176 8212 . Y 8212 . .87 X
有了这一回归方程后，我们就可以由预测变量的值经回归方程计算出标准变量的预测值。如另一名大学生的身高为170厘米，则其体重的预测值为65.78公斤。
资料审核的方法主要有两种，即逻辑审核与计算审核。逻辑审核，即核查资料的内容是否合乎逻辑和常识，项目之间有无互相矛盾之处，与其他有关资料进行对照是否有明显出入等等。计算审核，是针对数字资料进行的审查。要检查计算有无错误。度量单位有没有错，前后数字之间有无相互矛盾之处等等。
二、资料的转换
2 定序层次：中位值（中位数）（单选）
其意义为按大小顺序排列，处在一群数据中央位置的数值。（1）原始资料，求中位值例如：有9个人，他们的月工资分别如下： 47，42，50，51，92，112，71，83，108 首先作排列处理，从小到大排列 42，47，50，51，71，83，92，108，112 其次求中央位置 Md的位置=（N+1）÷2=（9+1）÷2=5 最后求中位置Md=71
二、单变量推论统计
区间估计以样本统计量的抽样分布为理论依据，按一定概率要求，由样本统计量的值来估计总体参数的值所在的范围，叫做总体参数的区间估计。区间估计的实质就是在一定的可信度（置信度）下，用样本统计值的某个范围来估价总体的参数值。范围的大小反映的是这种估计的精确性问题，而可信度高低反映的是这种估计的可靠性或和握性问题。
a b
两个变量（预测变量X与标准变量Y）间的回归分析，是只有一个自变量的线性回归，也叫一元线性回归。其回归方程为：
Y a bX
其中a,b、对一对特定数据来说是常数：

《医学统计课件：双变量分析》

3
判定系数
表示自变量对因变量变异的解释程度，取值范围为0到1。
双变量分析中的回归分析
简单线性回归
研究一个自变量对因变量的影响，建立一条直线模型来解释二者之间的关系。
多元线性回归
研究多个自变量对因变量的影响，建立多个变量之间的线性模型。
逻辑回归
用于研究因变量是二分类变量的情况，可以预测概率或者类别。
深入了解数据
通过双变量分析，我们可以深入了解数据之间的联系，挖掘出隐藏的关联和规律。
预测和决策支持
基于双变量分析的结果，我们可以建立预测模型和决策模型，为决策提供科学依据。
发现因果关系
双变量分析可以帮助我们确定两个变量之间的因果关系，从而为进一步研究提供指导。
优化治疗方案
在医学领域，双变量分析可以用于优化治疗方案，寻找最佳的药物组合和剂量。
双变量分析的常见方法和工具
1 相关性分析
2 回归分析
通过计算相关系数，分析两个变量之间的线性相关程度。
建立回归模型，研究一个或多个自变量对因变量的影响。
3 方差分析
4 卡方检验
比较不同组别之间的均值差异，判断因素之间是否存在显著性差异。
用于比较观察频数和期望频数之间的差异，判断两个变量之间是否存在关联。
医学统计课件：双变量分析
双变量分析是一种研究两个变量之间关系的统计方法。通过该分析，我们可以了解变量之间的相关性、回归关系，以及不同组别之间的差异。
什么是双变量分析？
双变量分析是指研究两个变量之间关系的统计方法。通过分析两个变量之间的关联性和相关程度，可以揭示变量之间的内在关系。
双变量分析的意义和作用
回归分析模型的构建和评估

《卫生统计学》课后思考题答案

《卫生统计学》思考题参考答案第一章绪论1、统计资料可以分为那几种类型？举例说明不同类型资料之间是如何转换的？答：（1）1定量资料（离散型变量、连续型变量）、2无序分类资料（二项分类资料、无序多项分类资料）、3有序分类资料（即等级资料）；（2）例如人的健康状况可分为“非常好、较好、一般、差、非常差”5个等级，应归为等级资料，若将该五个等级赋值为5、4、3、2、1，就可按定量资料处理。

2、统计工作可分为那几个步骤？答：设计、收集资料、整理资料、分析资料四个步骤。

3、举例说明小概率事件的含义。

答：某人打靶100次，中靶次数少于等于5，那么该人一次打中靶的概率≤0.05，即可称该人一次打中靶的事件为小概率事件，可以视为很可能不发生。

第二章调查研究设计1、调查研究有何特点？答：（1）不能人为施加干预措施（2）不能随机分组（3）很难控制干扰因素（4）一般不能下因果结论2、四种常用的抽样方法各有什么特点？答：（1）单纯随机抽样：优点是操作简单，统计量的计算较简便；缺点是当总体观察单位数量庞大时，逐一编号繁复，有时难以做到。

（2）系统抽样：优点是易于理解、操作简便，被抽到的观察单位在总体中分布均匀，抽样误差较单纯随机抽样小；缺点是在某些情况下会出现偏性或周期性变化。

（3）分层抽样：优点是抽样误差小，各层可以独立进行统计分析，适合大规模统计；缺点是事先要进行分层，操作麻烦。

（4）整群抽样：优点是易于组织和操作大规模抽样调查；缺点是抽样误差大。

3、调查设计包括那些基本内容？答：（1）明确调查目的和指标（2）确定调查对象和观察单位（3）选择调查方法和技术（4）估计样本大小（5）编制调查表（6）评价问卷的信度和效度（7）制定资料的收集计划（8）指定资料的整理与分析计划（9）制定调查的组织措施4、调查表中包含那几种项目？答：（1）分析项目直接整理计算的必须的内容；（2）备查项目保证分析项目填写得完整和准确的内容；（3）其他项目大型调查表的前言和表底附注。

第十一章相关分析

第二节积差相关
计算积差相关系数的基本公式 • 运用标准差与离均差的计算公式
• n为成对数据的数目 • σx表示X变量的样本标准差 • σY 表示Y变量的样本标准差
第二节积差相关
通常把公式中的称为协方差。
所谓协方差就是两个变量离均差乘积的平均数，两列变量离均差的乘积大小，能够反映两列变量的一致性。但不能直接用协方差表示一致性，因为它有不同的测量单位，是一个很不稳定的量，为了克服这一缺点，分别用各变量的标准差去除各自的离均差，使其成为无实际测量单位的标准分数，然后求其协方差，这样，不同测量单位表示的两列变量的一致性便可测量，也便于比较。这就是求相关系数的公式中所以用比率的由来。相关系数的数值范围在正负1之间的证明
第二节积差相关
3、相关系数显著性检验当然步骤及方法
① H0:ρ =0条件下，相关系数的显著性检验对于总体相关系数ρ =0的零假设进行显著性检验时：当n≥50时，r的抽样分布接近正态，其标准误为：
当n<50时，可用费舍指出的t统计量来检验相关系数的显著性：
第二节积差相关
检验的步骤： • 提出假设
第四节质Байду номын сангаас量的相关
3、多列相关 1）适用资料两列正态变量资料，其中一列为等距或等比测量数据，另一列被认为划分为多种变量，称为名义变量。 2）计算公式
式中，Pi为每系列的次数比率，y1为每一名义变量下限的正态曲线高度，yh 为每一名义变量上线的正态曲线高度，为每一名义变量对偶的连续变量的平均数，St 为连续变量的标准差。注意：a）取值范围为－1至1，相关越高，绝对值越接近于1；b）原始数据代入积差相关的双列次数分布表计算公式，得到的值相等。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第十一章双变量统计分析在社会学研究中，不但要了解一个变量的情况，更要进一步了解一个变量与另一个变量之间的关系。

在这一讲中我们介绍几种双变量的统计分析方法。

一、交互分类表交互分类表又称列联表，是指同时依据两个变量的值，将所研究的个案分类。

交互分类的目的是将两变量分组，然后比较各组的分布状况，以寻找变量间的关系。

1、条件次数表：表10-1是交互分类表的一个例子：表10-1 500名工人的文化水平与工资收入交互分类表（人）（1）表中的次数分布是同时根据文化水平和工资收入而定，如大专以上高收入的有26人。

从表中可以清楚地知道每种文化水平的工资收入的次数分布，因此这样的表又称为条件次数表。

在表的最下一行和最右一列分别是不同文化水平和不同收入的总次数，称为边缘次数，它们的分布情况称为边缘分布；表中的其它次数，称为条件次数，每一条件下的分布称为条件分布。

(2)条件次数表有大小之分，计算的方法，通常是将因变量的数目乘上自变量的数目。

如果我们将因变量放在表的旁边，将自变量放于表的上端，则表的大小就是横行数目（rows简写r）乘上纵行数目（columns简写c），即表的大小=r ×c。

这个先后次序的用意是表示前者（因变量）是受后者（自变量）影响的。

要注意的是，3×2表不同于2×3表，因为前后两个数值代表不同的变量，包含不同类别数。

2、条件百分表：条件次数表中的数字是绝对数字，由于各个类别的基数不同，相互之间无法进行比较，因而不能看出两变量之间的关系。

为克服条件次数表的这一缺点，使各个类别之间可以比较，应将表中的绝对数字转变成相对数字——百分数，这样制成的表称为条件百分表。

如上表可改成百分表为：表10-2 500名工人文化水平与工资收入的交互百分表（%）在计算条件百分表时，最好能依据下列准则：（1）每个表的顶端要有表号和标题。

加上表号，可以方便讨论和减少混乱。

简明标题，能使读者容易领会表内统计数值的意义。

（2）绘表时所用的线条，要尽可能简短。

舍去不必要的线条，可以节省绘制的功夫，也会令人对表中的数值一目了然。

（3）在表上层的自变量每个值之下的%号，表示下列的数值是百分率。

如果表内每个数值都附有%符号，就太繁复了。

（4）计算百分比表通常是按照自变量的方向，因为研究的目的是要了解自变量对因变量的影响，理应计算在不同的自变量情况下，因变量的变化如何。

如上表是要分析教育水平对工资收入的影响，各个百分率所表示的，是在不同的教育水平中的工资收入情况。

如果教育水平不同，工资收入也不同，就表示教育对工资是有影响的了。

（5）表下层括弧内的数值，表示在计算百分率时所依据的个案总数。

写出这些数值，可以使我们知道各列百分率的基础，同时也使我们可以随时将百分率数值变回原来的次数值。

（6）表内百分率数值的小数位要保留多少，视乎研究的需要，但最好是有一致性。

例如上表既然用6.5与73.5，就要用20.0而不是20，这个小数点后的0是有意义的，它表示全部百分率的计算都是以保留一位小数作准则。

二、相关分析（一）统计相关的性质1、所谓相关，是指一个变量的值与另一个变量的值有连带性。

也就是一个变量的值发生变化，另一个变量的值也发生变化，则两个变量就是相关的了。

2、两个变量之间的相关程度有强弱之分，可用统计法予以测量。

大多数统计0代表无相关，1代表完全相关，介于0和1之间的数值越大，表示相关程度越强。

3、另一种值得注意的性质是相关方向，也可用统计法予以测量。

变量之间的关系可以分为正与负两个方向。

所谓正相关表示当一个变量的值增大时，另一个变量的值也增大；所谓负相关则表示当一个变量的值增加时，另一个变量的值却减少。

这里要注意，相关方向的分析只限于定序以上层次的变量，因为这些变量的值有高低或多少之分。

至于定类变量，则没有相关方向的问题。

4、虽然相关系数可以描述变量间关系的有无、大小和方向，但相关系数多大时才能断定两个变量有必然的、规律性的联系，是很难说的，在统计学中需要大于0．7以上，但社会现象间很少有这样密切的联系，所以研究人员一般要结合定性分析来断定事物内在的、本质的联系。

5、数据所显示的相关（或无关）关系，实际上也可能并不反映变量间存在（或不存在）有意义的关系。

（二）相关测量法1、相关测量法就是以一个统计值表示变量与变量间的关系，这个统计值称为相关系数。

相关测量法有很多种，我们在选择时首先要注意变量的测量层次，不同层次的变量要用不同的相关测量法。

其次，要注意两个变量之间的关系是否对称。

对称关系是指两个变量X与Y，我们不确定或不区分两变量之间影响的方向。

反之，如果我们认为X影响Y，而Y不会影响X，这种情况称为不对称关系。

有些相关测量法假定变量之间具有对程关系，有些则假定是不对称关系。

另一项选择标准，就是统计值的意义。

有些相关测量法所计算出来的统计值除相关程度外，还含有其它意义，我们最好选择统计值有意义的相关测量法。

在统计学中有一组相关测量法，其统计值具有消减误差比例的意义，称为PRE测量法。

这组测量法常用在社会学研究中。

2、消减误差比例社会学研究的主要目标是预测或解释社会现象的变化。

比如有一种社会现象是Y(例如工资收入)，我们就要预测或理解其变化的情况。

预测或解释时，难免会有误差（即错误）。

假定另一种社会现象X（例如文化水平）是与Y有关系的，如果我们根据X的值来预测Y的值（例如根据文化来估计其工资水平），理应可以减少若干误差。

而且，X与Y的关系愈强，所能减少的预测误差就会愈多。

换言之，所消减的误差有多少，可以反映X与Y的相关强弱程度。

现在假定不知道X的值，我们在预测Y值时所产生的全部误差是E1。

如果知道X的值，我们可以根据X的每个值来预测Y值；假定误差的总数是E2，则以X值来预测Y值时所减少的误差就是：E1—E2。

这个数值（E1—E2）与原来全部误差（E1）相比，就是消减误差比例。

可用下面的公式表示：PRE=121 E EEPRE的数值越大，就表示以X值预测Y值时能够减少的误差所占的比例愈大；也就是说，X与Y的关系愈强。

消减误差比例适用于各种测量层次的变量，但公式中的E1 与E2的具体定义在不同层次的变量间，或同一层次的变量内部有所不同。

3、相关测量法测量不同层次的变量有不同形式的相关系数。

下面介绍几种相关系数：（1）、λ相关：用于测量两个定类变量间的相关关系。

λ相关测量法的基本逻辑是计算以一个定类变量的值来预测另一个定类变量的值时，如果以众数作为预测的准则，可以减除多少误差。

消减的误差在全部误差中所占的比例愈大，就表示这两个变量的关系愈强。

λ相关测量法有两种形式：一种是对称形式，用λ表示，即用于测量的两个变量间的关系是对等的，没有自变量与因变量之分；另一种是非对等的，用λy 表示，即所测量的两个变量有自变量与因变量之分，X 是自变量，Y 是因变量。

公式如下：（公式写错了）λ=)(2)(y x y x y x M M n M M m m --+-+∑∑ λy =y yy M n M m --∑其中，My=Y 变量的众数次数Mx=X 变量的众数次数my=X 变量的每个值（类别）之下Y 变量的众数次数mx=Y 变量的每个值（类别）之下X 变量的众数次数n 全部个案数目例1：根据下表（表10-3）的资料计算λ系数表10-3性别与吸烟态度的交互分类（人）根据λy 系数公式有λy =y yy M n M m --∑=114200114)6296(--+=0．51 因此，我们可以说，性别与对吸烟态度之间存在中等程度的相关。

例2：研究青年人的志愿与他们的知心朋友的志愿是否相关，得到下表的统计资料。

试计算λ系数。

表4 青年人与其知心朋友的志愿由于青年人的志愿与他们的知心朋友的志愿可能是相互影响的，难于区分何者是自变量或因变量，故用λ相关测量法的对称形式。

根据λ系数公式有：λ=)(2)(y x y x y x M M n M M m m --+-+∑∑=2、G 相关：用于测量两个定序变量间的关系，用G 来表示。

G 系数值在－1至＋1之间，既表示相关的程度，也表示相关的方向，而且也都有消减误差比例的意义。

G 相关测量法的基本逻辑是：根据任何两个个案在某变量上的等级来预测他们在另一个变量上的等级时，可以减少的误差是多少。

换言之，G 相关测量法是以每对个案之间的相对等级作为预测的准则。

G 系数的计算公式是：G=ds d s N N N N +- 式中Ns 表示同序对数目，Nd 表示异序对数目。

所谓同序对是指某对个案在两个变量上的相对等级相同，如果不相同，则称为异序对。

下面举例说明Ns 和Nd 的计算方法。

例2：根据下表（10-4）的资料计算G 系数表10- 文化程度与收入的交互分类表表中计算同序对数量等于表内每个频数乘以其右下方全部频数之和，然后加总，而异序对数量则等于表内每个频数乘以其左下方全部频数之和，然后加总。

因而上例中：Ns=12（30+5+16+12）+10（5+12）+8（16+12）+30（12）=1510 Nd=3（30+8+16+4）+10（8+4）+5（4+16）+30（4）=514 G==d s d s N N N N +-=51415105141510+-=0．49 说明用文化程度去预测收入水平，可以消减49%的误差。