第四章 相关测量法预测量层次

合集下载

社会统计的应用 例题举要

社会统计的应用 例题举要

社会研究的统计应用 李沛良第二篇 统计叙述:单变项与双变项 2~3 简化一个、两个变项之分布1.关于数值中小数的取舍问题。

“四舍五入”之“四舍”没有问题,同时结合“前单五入”,即“五”前面是单数就进位,若是双数则舍掉(0算双数)。

2.所谓集中趋势测量法,就是找出一个数值来代表变项的分布,以反映资料的集结情况。

此法的意义在于,可以根据这个代表值(或称典型值)来估计或预测每个研究对象(即个案)的数值。

这样的估计或预测,当然会有错误,但由于所根据的数值最有代表性,故所发生之错误的总和理应是最小的。

众值 (Mo ):次数最多的值。

中位值(Md ):在一个序列的中央位置之值。

均值 ():变项的各个数值之和,求取一个平均数。

3.离散趋势测量法,是要求出一个值来表示个案与个案之间的差异情况。

该法与集中趋势测量法具有互相补充的作用。

集中趋势测量法所求出的是一个最能代表变项所有资料的值,但其代表性的高度却要视乎各个个案之间的差异情况。

如果个案之间的差异很大,则众值、中位值、均值的代表性就会甚低;此时以这三个值作估计或预测,所犯的错误就会很大。

离异比率(V ):非众值的次数与全部个案数目的比率。

质异指数(IQV ):其作用是求出各个类别之间在理论上最多的可能差异中实际上出现了多少差异。

(k=变项的类别数目,f=每个类别的实际次数)四分位差(Q ):将个案由低至高排列后分为四个等分,第一个四分位置的值Q1与第三个四分位置的值Q3的差异。

标准差(S ):将各数值(x )与其均值()之差的平方和除以全部个案数目,然后取其平方根。

公式中x 与相差,就是表示以均值作为代表值时会引起的偏差或错误。

总之,集中趋势测量法与离散趋势测量法并用,可以一方面知道资料的代表值,有助于估计或预测的工作,另一方面可以知道资料的差异情况,反映估计或预测时会犯的错误。

正态分布与标准值? 简化两个变项之分布 统计相关交互分类与百分表简化相关与消减误差相关测量与假设检定相关测量法,目的是要理解两个变项在“样本”(随机与非随机样本均可)中的相关“强弱”程度及方向。

社会统计学第四章相关测量法与变量层次

社会统计学第四章相关测量法与变量层次
▪ Lambda 相关测量法有两种形式。一种是对称形式 ,简写是λ系数,即不分自变量与因变量。另一种 是量不 ,对 一称 个形 是式 因, 变简量写。是λy系数,即要求一个是自变
2020/12/1
3
λ系数
E1的定义:
未知y与x有关之前,如果预测y值,唯一可资依据的就是y本 身的分布。由于y与x无关,所以只能根据y的行边缘和(与x 无关)去预测y,也即由y的行边缘和中最大者——众值,去 预测y,可能性最大。
2020/12/1
7
λ系数与尤拉Q系数
Q adbc 9 09-01 010 80 00.9 07 adbc 9 09 01 0108200
my My nMy
( 9 09) 0 -100 80 0 .8 20 -1 000100
2020/12/1
8
λ系数的缺点
Lambda相关测量法的特点是以众值作为预测的准则,不理会 众值以外的次数分布。因此,如果全部众值集中在条件次数 表的同一列或同一行中,则Lambda系数便会等于0.
Gamma系数
▪ 级序相关法的基本逻辑是要求出;根据任何两个 个案在某变量上的等级来预测他们在另一个变量 上的等级时,可以减少的误差是多少。
▪ 同序对与异序对:假设样本的全部个案数目是n ,就会组成1/2n(n-1)对个案。某对个案在两个变 量上的相对等级时相同,则成为同序对;如果是 不相同,则成为异序对。
表 青年人与其知心朋友的志愿
mx2n (m M yx(M Mxy)My) ( 2 8 4 ( 2 4 1 ) 1 ( 2 ) 0 ( - 5 8 4 0 4 5 7 1 ) ) ( -0 5 4 5) 0 0 .4
y
my My nMy
( 2 84 17 ) -5 02 60.52 10 -500 50

社会统计学 第四章 相关测量法与变量层次

社会统计学 第四章 相关测量法与变量层次

E1的定义:
λ系数
E2的定义: 当已知y与x有关之后,如果再去预测y值,则可借 助x预测y。即用各类x条件下,y的条件分布中的 众值去预测y,可能性最大。 E2 = n —∑max(nij) 分析: 1)E2 = 0 (即∑max(nij) = n,即各类x条件下的 众值皆为最大值) 2)E2 = n (即∑max(nij) = 0,即各类x条件下的 众值皆为最小值)
4
9 9 16 16 16 36 64 174
16
16 9 1 1 0 0 0 68
9( 4 7) (3 6) ( 18 ) 0.8 3 2 9( 174 ) (3 6) 1 8 ( 0 .8 3 ) (3 6) a 5 .3 2 9 Y 0 .8 3X 5 .3 2 b
dy的计算公式如下:
Ns Nd dy N s N d Ty
其中:Ns 是同序对数,Nd异序对数,Ty是 只在因变量上同分的对数。 假设积极性等级是x,产量是Y,求dy
计算列联表的同序对与异序对
高 高 中 低 n1 n2 n3 中 n4 n5 n6 低 n7 n8 n9 高 高 n1 中 n4 低 n7


n2
n3
n5
n6
n8
n9
同分对: Tx=n1(n2+n3)+n2(n3)+n4(n 5+n6)+n5(n6)+n7(n8+n9)+ n8(n9)
同分对:
n9 (n9 1) n ( ) 1 n1 1 Txy 2 2
例:计算G系数与dy系数
文化程度 婚姻美满
大学
中学
小学

4相关测量法与测量层次

4相关测量法与测量层次

第二节 两个定序变项: Gamma, dy
(1)Gamma系数适用于分析对称关系,dy系数适用于分析不对称关系。但两者 的系数值在-1至+1之间,既表示相关的程度,也表示相关的方向,而且都 具有消减误差的含义。
(2)Gamma系数与dy系数统称为级序相关法,该方法的基本逻辑是要求:根据 任何两个个案在某变项上的等级来预测他们在另一个变项上的等级时, 可以减少的误差是多少。
(3)同序对:某对个案在两个变项上的相对等级是相同的;Ns表同序对总数。 异序对:某对个案在两个变项上的相对等级是不同的;Nd表异序对总数。 如果Ns与Nd的相差愈大,表示两变项的相关愈强。如果Ns大于Nd,表示两变项
成正比,反之成反比。
1. Gamma相关测量法(对称) 基本逻辑:根据任何两个个案在某变量上的等级来预测他们在另一个变
则用测量不对称关系的萨默斯dy系数。 dy系数公式:dy = ( Ns – Nd ) / ( Ns + Nd + Ty ) dy的系数值通常
小于Gamma系数值,因为dy公式中分母的数值较大。 注意:原则上用dy分析不对称关系,Gamma分析对称关系。然而颇多社会
学研究即使是区分了自变量与依变量,也选用Gamma系数。这种做法,不 够严谨,但大致可以接受。一般来说,选择相关测量法的首要准则是变 量的测量层次。至于关系是否对称,是属于次要的考虑。
以上的相关测量法是根据条件次数表来计算统计值,而不是根据条件百分 表。但如果把根据条件次数表计算出来的相关统计值写在条件百分表上 ,会使我们的研究结果既详尽又精简。
分析一个定序变量与一个定距变量的相关时,除了可以应用相关比率系 数外,也有些社会学研究将定序变量看作时定距变量,因此采用皮尔逊 积距相关系数,甚至进行线性回归分析。

第四章 相关测量法与测量层次

第四章 相关测量法与测量层次

tau-y相关测量法(PRE)
不对称相关测量法 计算系数值时包括所有的边缘次数和条件次数 tau-y的敏感度高于Lambda;如果是不对称关系,最 好选用tau-y
第二节 两个定序变项:Gamma, dy
级序相关法
基本逻辑:根据任何两个 个案在某变项上的等级来 预测它们在另一个变项上 的等级时,可以减少的误 差比例 Gamma:对称关系(PRE) dy:不对称关系(PRE) 异序对Nd;同序对Ns ;同 分对T
第三节 两个定距变项: 简单线性回归与积距相关
简单线性回归分析
根据一个直线方程式, 以一个自变项X的数值 来预测依变项Y的数值 b:表示X对Y的影响 大小和方向
Yj
Yj
Xi
ห้องสมุดไป่ตู้
最佳拟合线
绘制回归线的准则:最小残差平方法
Yj
Yj
Xi
积距相关测量法
皮尔逊(Perarson)积距 相关系数r r与b的差异 r系数假定X与Y的关 系是对称的; r的统计值为[-1,1]; r2具有消减误差的含 义;r实际上就是b值 的标准化 R2:决定系数
Lambda测量法的不足
以众值作为预测的准则,没有考虑众值以外的次数分布 如果全部众值集中在条件次数表的同一列或同一行中, 在Lambda系数为0。不能真实反映变量间关系
教育水平 志 愿 快乐家庭 理想工作 增广见闻 总 数
高 中 低
5 0 5 10
30 30 0 60
5 20 5 30
是否采用简单线性回归分析?
首先,看散点图是否存在线性相关 其次,计算r值,由此判断线性回归方程式的预测力、 拟合度
r:只有当变项间为线性相关时才有意义

测量层次的含义与例子

测量层次的含义与例子

测量层次是指对某一概念或变量进行测量时,所采用的不同抽象程度或精细程度的级别。

测量层次从低到高依次为定类、定序、定距和定比。

- 定类:将研究对象分为不同的类别,但不关心各类别之间的大小关系。

例如,性别可以分为男性和女性两类。

- 定序:将研究对象按照某种特征的大小顺序排列,但不关心具体数值。

例如,将学生的成绩分为优秀、良好、中等和较差四类。

- 定距:将研究对象按照某种特征的具体数值进行测量,但不关心绝对数值。

例如,将学生的身高用厘米为单位进行测量。

- 定比:将研究对象按照某种特征的具体数值进行测量,并关心绝对数值。

例如,将学生的体重用千克为单位进行测量。

(完整word)几种相关测量法的总结,推荐文档

(完整word)几种相关测量法的总结,推荐文档
Gamma
-1~1
两个定序变量
最适合分析两个定序变量之间的对称关系
G=
Ns是同序对数,Nd是异序对数Ns是同序对数,Nd是异序对数,
Ty是只在依变项Y上同分的对数。因为dy系数是以X预测Y,如果两个个案在X上有高低之分,就要预测或估计他们在Y上的相对等级。因上分母要加上Ty。
Somer’s d
-1~1
备注:X与Y不对称关系,是假设X为自变量,Y是因变量的关系。
X与Y对称关系,是假设X与Y之间不分谁是自变量或因变量,因此在计算时即根据X值来预测Y,也根据Y值来预测X。
两个定序变量
只适合分析两变量不对称关系
dy=
Kendall tau-a/b/c
-1~1
两个定序变量
适合分析两变量对称关系;其中tau-c最适合社会学研究。
但是,由于tau-c没有消减误差比例的含义,所以在社会学中的应用不及Gamma与Somer’s d。
tau-a=
tau-b=
tau-c=
Spea的定距变量之间的关系
不区分哪个是自变量与因变量
rs=
Person相关系数
-1~1
两个定距变量
只适合分析两变量对称关系而且具有线性关系。
r2称为决定系数。
r=rxy=
相关比率(eta系数)
0~1
定类+定距;
定序+定距
只适合分析一个定类与一个定距的不对称关系
ni是每个自变项Xi的个案数目。 =每类的平均值, 每个竖列平方的和。E值无负值,因为是定类变项。

统计值
变量的测量层次
关系的对称与否
公式
Lambda ()
0~1
两个定类变量;一个定类与一个定序

社会统计学第四章(一)

社会统计学第四章(一)
4
5
例子1:
6
例子2:
7
λ和λy数值的含义:
①两个定类变量的相关强度。 ②用一个变量来预测另一个变量的时候,能够消减 的误差比例。
8
例子3:
9
二、tau-y相关测量法:tau-y
• • • • •
适用于分析两个定类变量的相关关系。 分析不对称关系。 具有消减误差比例的意义(PRE)。 取值范围:【0,1】。 逻辑:根据X的取值预测Y的取值时,所能 消减的误差比例。
21
本章结束!
22
3
第一节 两个定类变量: λ,tau-y
一、 Lambda相关测量法: λ和 λy
• • • • • 适用于分析两个定类变量的相关关系。 λ分析对称关系,λy分析不对称关系。 具有消减误差比例的意义(PRE)。 取值范围:【0,1】。 逻辑:根据一个变量的取值预测另一个变量的 众值时,所能消减的误差比例。
适用于分析两个定序变量的相关关系。 分析对称关系。 具有消减误差比例的意义(PRE)。 取值范围:【-1,1】。 逻辑:根据任何两个个案在某变量上的等级 来预测它们在另一个变量上的等级时,能减 少的误差比例。
20
G值的示用一个变量预测另一个变量时能够消减的误 差比例。
10
11
tau-y数值的含义:
①两个定类变量的相关强度。 ②用X来预测Y的时候,能够消减的误差比例。
12
• 对称关系可用Lambda测量法,而不对称关系最好 用tau-y测量法。
13
14
• 课堂作业: 以下是男、女青年对古典音乐是否喜爱的抽样调查: 请计算相关系数,并解释含义。


喜爱 无所谓 不喜爱
第二篇
统计叙述:单变量与双变量
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

LOGO
二、dy相关测量法(萨默斯Somers dy系数) Gamma系数属于对称相关测量法 如果认为某定序变项是自变项 (X), 另一个变项是因变项 (Y),最好采用 适宜于简化不对称关系的dy系数。
LOGO
N N dyx= N N T
s d s d
y
(x是自变量、y为因变量) 其中:Ns是同序对数 Nd是异序对数 Ty是只在因变量y上同分的对数
LOGO
①dyx 是非对称的测量 X Y ②-1dyx1 ③具有PRE意义
LOGO
个案众多时同序对、异序对及同分对的求法。 按X、Y由小到大排列的抽象的次数分布表: ns--同序对的数目;右下余子式 nd--异序对的数目;左下余子式 TY--Y的同分对的数目;同排后余子式
LOGO
dy=
Ns N d 6003 2204 N s N d Ty 6003 2204 4141
dy=0.308
LOGO
结论(1)婆媳冲突是与住户人口 密度成正比,即住户的人口密度 愈高会引起婆媳的冲突愈大,
(2)如果以住户人口密度的高低 预测估计婆媳冲突的大小,可以 消减30.8%的误差。
X 2 f12 f22 f32
Y
1 2 3
1
f11 f21 f31
3
f13 f23 f33
例:在某城市调查200户人家,想知道住户的人 口密度与婆媳冲突是否有关系。
交互分类之后的次数分布如下表:
LOGO
婆媳 冲突 高 中 低
住 高 23 11 8 中 20 55 27

密 低 4 28 24

LOGO
第一节 两个定类变量的相关
一、Lambda相关测量法(对称与不对称) 基本逻辑:以一个定类变量值来预测另一个变量 值时,若以众数作为预测的准则,则可减少的误 差是多少。
二、tau-y不对称相关测量法:
其特点是在计算系数值时会包括所有的边缘次数 和条件次数。
(一)Lambda的计算公式
LOGO
第四章 相关测量法与测量层次
如何选择相关测量法
1.考虑变量的测量层次; 2.注意两个变量的关系是否对称; 3.统计值的意义:
LOGO
具有“消减误差比例”(PRE)意义的统计 值在社会学研究中的应用比较广泛。 PRE也是一种相关测量法
LOGO
消减误差比例:
用一个现象来解释另一个现象时能够减少的错误的 比例;
婚姻状况 离婚 没离婚
社会流动 向上 向下 不变 20 10 8 2 2 58
合计 30 70
合计
30
10
60
100
LOGO
第二节 定序变量相关关系 Gamma, dy,rs
一、G系数
LOGO
Ns 同序对的数目 Nd异序对的数目
Ns Nd G Ns Nd
(一)G系数的特征
LOGO
D
E
3
1
1
2
“对”的概念
LOGO
1、总对数T=N(N-1)/2, N为个案数目。
当只有两个定序变量时,可能出现的对的种类有以下五 种(设:个案A在X上的等级为Xa,在Y上的等级为Ya, 个案B在X上的等级为Xb,在Y上的等级为Yb):
同序对Ns:Xa>Xb;Ya>Yb;
(1)只是要求X变化方向和Y的变化方向相同,不要求变化 的大小相同; (2)称变量A,B是同序对;
73 76 (50 54) 149 104 45 0.47 2 100 (50 54) 200 104 96
结论:如果以两个变项互相预测, 可以消减47%的误差。
LOGO
例2.
性别与某种社会态度的条件次数分布表
态度 容忍 反对 总数
性别 男 96 24 120 女 18 62 80

如果E2=0,说明以X来预测Y值不会产生任何的误差,二 者是全相关;


如果E2=E1,说明二者没有关系,则PRE取值为0
PRE数值的意义:表示用一个现象来解释另一个现象时, 能够减少百分之几的错误

PRE测量法的选择标准:变量测量层次
LOGO
两个变量关系的六种情况: 两个定类变量; 两个定序变量; 两个定距变量; 一个定类变量和一个定距变量; 一个定类变量和一个定序变量; 一个定序变量和一个定距变量;
价值取向 物质报酬 人情关系
制造业
职业 服务业
总数
105 40
45 25
150 65
总数
145
70
215
练习题: 为了研究饮食习惯与 地区之间的关系,做
LOGO
南方
北方
边缘 和
40
了共100人的抽样调
查,考察饮食习惯和 地区之间的关系程度
面食
10
30
如何(计算两个系
数)?并解释其PRE 意义?
米食
(3)如果单元A、B,变量x、y具有相同等级,则称为x、 y同分对;
LOGO
练习题: 列出右边单元数据的同序 对、异序对和同分对。
单元 A
B C D E
x 3
3 3 1 2
y 2
1 1 1 3
LOGO

总对数T=N(N-1)/2, N为个案数目。

当只有两个定序变量时,可能出现的对的种类有以下五
2、异序对Nd: Xa>Xb;Ya<Yb;
LOGO
(1)只是要求X变化方向和Y的变化方向相反,不要求变 化的大小相同; (2)称变量A,B是异序对; 3、X同分对Tx: Xa=Xb;Ya不等于Yb; (1)如果单元A、B,变量x具有相同等级,则称为x同 分对;
(2)如果单元A、B,变量y具有相同等级,则称为y同分 对;
种 (设:个案A在X上的等级为Xa,在Y上的等级为Ya,个 案B在X上的等级为Xb,在Y上的等级为Yb):
1.
同序对Ns:Xa大于Xb;Ya大于Yb;
2.
3. 4. 5.
异序对Nd: Xa大于Xb;Ya小于Yb;
X同分对Tx: Xa=Xb;Ya不等于Yb; Y同分对Ty: Xa不等于Xb;Ya=Yb; X与Y同分对Txy: Xa=Xb;Ya=Yb;
工作满足感与归属感
(G=0.28,dyx=0.19,dxy=0.18 )
归属感 工作满足感 低(1)中(2)高(3) 合计
低(1) 中(2) 高(3)
8 6 4
4 5 4
3 1 5
15 12 13
合计
18
13
9
40
Spss输入练习2 工人级别与月总收入(0.399)
LOGO
月总收入 高
高 67
级别 中 低 92 18
具有实际意义,常用于社会科学研究中;
基本公式:PRE=(E1-E2)/E1;
E1:当不知X值的分布时,仅以Y的集中趋势去
预测Y的每个值会产生的误差;
E2:用X预测Y,其误差E2会比E1小; 以X值预测Y值所减少的误差(E1-E2)与原误差
E1之比,就是PRE。
LOGO
PRE取值:
工种
技术工 非技术工 合计
二、Tau-y系数
LOGO
Tau-y系数属于不对称相关测量法,要求两个定类 变项中有一个是自变量(x)另一个是因变量(y)。其 数值介于0与1之间,具有消减误差比例意义。 即:(1) 不对称 (2) [0,1] (3) 具有PRE意义 (4) 定类测量层次
合计 177

低 合计
12
7 86
63
23 178
49
37 104
124
67 368
斯皮尔曼等级相关系数
LOGO
基本逻辑:求出在最大可能的等级差异总值中,实际 的等级差异所占的比例是多少; 对称相关测量法,要求同分的情况不多; 例题:见书上
LOGO
斯皮尔曼等级相关系数rs为:
rs 1
6 20 rs 1 2 1 2 0 n(n 1) 5(5 1)
可见,根据5户的资料计算,并不 存在等级相关
LOGO
例2. 为研究考试中学生交卷的名次是否 与成绩相关,进行12名学生的抽样调查:
交卷 1 名次 考试 成绩 2 3 4 5 6 7 8 9 10 11 12
行业 性别 轻工 重工 合计

男 合计
150
60 210
70
120 190
220
180 400
Lambda相关测量法(缺点)
LOGO
缺点:比较粗略,不够灵敏。它以众值为预测的准则,不 理会众值以外的次数分布。若众值集中在条件次数表上的 同一行或同一列,则Lambda相关系数为0。 工作岗位与工种 工作岗位 一线 二.三线 合计 160 7 167 129 61 190 289 68 357
LOGO
X与Y是非对称,选用dy Ns=23(55+28+27+24)+20(28+24)+11(27 +24)+55*24=6003 Nd=4(55+11+27+87)+20(11+8)+28(27+ 8)+55*8=2204 Ty=23(20+4)+20*4+11(55+28)+55*28+ 8(27+24)+27*24=4141
LOGO
LOGO
青年人与其知心朋友的志愿是相互影响 的,因此,自己志愿与知心朋友志愿是 对称关系。 已知 My=50, Mx=54,
相关文档
最新文档