社会统计学 第四章 相关测量法与变量层次

合集下载

社会统计学笔记

社会统计学笔记

1·社会学研究:就是运用科学的方法来搜集和分析社会事实,以理解社会现象之间的关系。

2·科学研究:就是运用客观的、逻辑的和系统的方法来搜集事实及分析事实。

3·社会学研究的整个历程,大致上可以分为三个阶段:(1)筹划,(2)执行,(3)总结。

4·初步探索步骤:(1)收集有关的文献,(2)咨询那些对研究的题目有经验、有知识的人,进行了解,(3)观察个案。

5·假设:就是根据我们对问题的了解,假定现象与现象之间的关系。

就是假定某一现象的变化与另一种现象的变化具有某种关系。

假设的方式:函数式(要求变项之数值有高低之分)、差异式(不存在高低之分)6·较为常用的研究方式:实验法、社会调查法。

(皆可验证假设)①实验法的逻辑:有意的改变A变项,然后看看B变项是否随着变化;如果B变项显然是随着A变项的变化而变化,就说明A变项对B变项有影响。

②社会调查法特点:在研究过程中不改变社会现状,只求就地取材,然后以统计方法推算变项与变项之间的关系。

7·能够有效地验证假设的实验法称为典型或理想实验法8·社会调查法可以分为两大类:一是叙述性调查(重点是报道社会事实,较少分析社会事实(即变项)之间的因果关系),一是解释性调查(目的是要证明不同的变项之间是否有因果关系)。

9·全体调查:就是从所有研究对象中搜集资料。

抽样调查:就是从全体的研究对象中科学的抽出一个数目较少的样本,然后据此样本的资料推论全体的情况。

10·个案研究:就是选择一个或几个个案(即研究对象),作深入的接触和观察,目的是对所研究的问题作深入的了解。

11·横剖研究:指的是在同一时期搜集资料,目的是理解各种社会现象(即变项)在某时期的相关情况的研究。

纵贯研究:是指在不同时期搜集的,目的在了解社会现象(即变项)在不同时期中的变动情况的研究。

12·纵贯研究分为两种:趋势研究、同组研究(指的是在不同时期调查相同的样本)。

社会统计学教学大纲

社会统计学教学大纲

社会统计学教学大纲课程名称:社会统计学英文名称:social statistics课程编号:12600722j使用专业:社会工作专业总学时数:48学时总学分:3学分大纲撰写人:文法学院社工系马永方内容简介社会统计学是社会学主干课之一,与社会学调查研究方法结合起来,完整地介绍了当代社会调查研究的科学方法和资料处理技术。

社会统计学则侧重介绍资料的收集、整理、分析和推论的处理技术。

从事社会工作研究理论和实践的人都有必要掌握社会统计学这门有用的工具。

本课程共7章。

第一章导论,介绍社会统计学和相关概念,第二章统计资料的搜集,第三章统计资料的整理,第四章到第七章是统计分析。

第四章和第五章是描述统计,第六到第七章是统计推断,第六章概率论是统计推断的基础,统计推断有两个基本内容:假设检验第七章。

一、讲授的主要内容第一章社会学研究和统计分析(2学时)第一节社会学研究的科学性第二节社会调查资料的特点和统计学的运用第二章单变量统计描述分析第一节分布统计表统计图第二节集中趋势测量法第三节离散趋势测量法第三章概率(3学时)第一节基础概率第二节概率分布、均值和方差第四章二项分布及其他离散型随机变量的分布(3学时)第一节二点分布第二节排列与组合第三节二项分布第四节多项分布第五节超几何分布第六节泊松分布第五章正态分布、常用统计分布和极限定理(3学时)第一节什么是正态分布第二节标准正态分布第三节标准正态分布表的使用第四节常用统计分布第五节大数定理和中心极限定理第六章参数估计(4学时)第一节名词解释第二节参数的点估计第四节正态总体的区间估计第五节大样本区间估计第七章假设检验(4学时)第一节统计假设第二节统计检验的基本步骤一、建立假设二、求抽样分布三、选择显著性水平和否定域四、计算检验统计量五、判定第八章单总体假设检验(4学时)第一节大样本假设检验第二节小样本假设检验第九章二总体假设检验第一节引言第二节大样本二总体假设检验第三节小样本二总体假设检验第十章列联表(4学时)第一节什么是列联表第二节列联表的检验第三节列联强度第十一章等级相关(定序变量之间)(4学时)第一节斯皮尔曼等级相关系数第二节Gamma等级相关第三节其他等级相关系数第十二章回归与相关(6学时)第一节回归研究的对象第二节回归直线方程的建立与最小二乘法第三节回归方程的假定与检验第四节相关第五节用回归方程进行预测第十三章方差分析(3学时)第一节引言第二节一元方差分析第三节二元方差分析第四节多元方差分析第十四章非参数检验(4学时)第一节非参数检验第二节符号检验第三节符号秩检验第四节累计频次检验第十五章抽样(4学时)第一节引言第二节抽样调查方法第四节样本容量的确定二、参考书目1. 社会统计学,卢淑华,北京大学出版社,2005年第三版.2.社会统计学,张彦,高等教育出版社,2005年第一版.3.社会统计学导论,周德民、贺翠微,中南大学出版社,2004年第一版.教学大纲说明一、教学目的与课程性质任务本课程属于专业限选课,是社会工作专业课程体系的重要组成部分。

统计学小知识四种测量尺度与变量状态

统计学小知识四种测量尺度与变量状态

统计学小知识四种测量尺度与变量状态在统计分析实际运用上,变量决定于所使用测量方法或测量尺度(scale),对于同一个测量对象,可以利用不同的测量尺度来测量,得到不同的测量结果,也就是不同的测量变量。

从测量的层次来看,测量尺度可以区分为名义、顺序、等距、比率四种层次,因此变量又可以分为名义变量、顺序变量、等距变量和比率变量。

这四种变量分别由四种对应的量尺所测得。

相同的变量名称,可以用不同的量尺来测量,反映出不同的测量内容。

01四种尺度的性质四种测量尺度中,最粗略者称为名义尺度(nominal scale)。

名义尺度的测量方式是针对被观察者的某一现象或特质,评估所属类型种类,并赋予一个特定的数值。

由名义尺度所测量到的变数,称为名义变量。

如性别(男、女)、籍贯(北京市、长春市等等)、种族(本省、外省、原住民)、婚姻状态(未婚、已婚、离婚、丧偶等)、就读学校等等。

较高一个等级的测量尺度是顺序尺度(ordinal scale),它是指对于被观察者其某一现象的测量内容,除了具有分类意义外,各类别间存在特定大小顺序关系。

以顺序尺度测量到的变量称为顺序变量,如大学教授等级(教授、副教授、助理教授、讲师)、教育程度(大学以上、大学、高中、初中、初中及以下)、社经地位(高、中、低)等,皆为顺序尺度所测得之顺序变量。

第三,等距尺度(interval scale)(或称间距尺度)的测量,是针对被观察者的某一现象或特质,依某特定的标准化单位,测定程度上的特性。

等距尺度测量得到的数值,除了具有分类、顺序意义外,数值大小反应了两个被观察者的差距或相对距离。

以等距尺度测量得到的变量,称为等距变量,其数值兼具分类、次序和差距的意义。

如以温度计量出的'温度’、以考试决定的'成绩’、以智力测验测得的'智商’等。

等距尺度的一个重要特性,是其单位只有相对的零点,而无绝对的零点。

相对零点的使用,使得数值与数值的比值,仅具有数学的意义,而缺乏实务意义,研究者应避免直接取用两个等距变量的数值相乘除比较。

社会统计学第四章相关测量法与变量层次

社会统计学第四章相关测量法与变量层次
▪ Lambda 相关测量法有两种形式。一种是对称形式 ,简写是λ系数,即不分自变量与因变量。另一种 是量不 ,对 一称 个形 是式 因, 变简量写。是λy系数,即要求一个是自变
2020/12/1
3
λ系数
E1的定义:
未知y与x有关之前,如果预测y值,唯一可资依据的就是y本 身的分布。由于y与x无关,所以只能根据y的行边缘和(与x 无关)去预测y,也即由y的行边缘和中最大者——众值,去 预测y,可能性最大。
2020/12/1
7
λ系数与尤拉Q系数
Q adbc 9 09-01 010 80 00.9 07 adbc 9 09 01 0108200
my My nMy
( 9 09) 0 -100 80 0 .8 20 -1 000100
2020/12/1
8
λ系数的缺点
Lambda相关测量法的特点是以众值作为预测的准则,不理会 众值以外的次数分布。因此,如果全部众值集中在条件次数 表的同一列或同一行中,则Lambda系数便会等于0.
Gamma系数
▪ 级序相关法的基本逻辑是要求出;根据任何两个 个案在某变量上的等级来预测他们在另一个变量 上的等级时,可以减少的误差是多少。
▪ 同序对与异序对:假设样本的全部个案数目是n ,就会组成1/2n(n-1)对个案。某对个案在两个变 量上的相对等级时相同,则成为同序对;如果是 不相同,则成为异序对。
表 青年人与其知心朋友的志愿
mx2n (m M yx(M Mxy)My) ( 2 8 4 ( 2 4 1 ) 1 ( 2 ) 0 ( - 5 8 4 0 4 5 7 1 ) ) ( -0 5 4 5) 0 0 .4
y
my My nMy
( 2 84 17 ) -5 02 60.52 10 -500 50

社会统计学复习整理

社会统计学复习整理

社会统计学复习整理一、变量的测量层次二、判断变量层次的技巧1.首先所有的变量都是定类变量。

2.其次看变量的取值能否比较大小,不能这个变量只能是定类变量。

3.最后如果这个变量能够比较大小,那么就看变量取值加减乘除是否有意义,如果有意义就是定距变量,如果没有意义就只能是定序变量。

三、变量层次的比较定类变量、定序变量和定比变量的数层次是从低到高排列的,高层次的变量同时具有低层次变量的功能。

四、相关分析方法第二节简化一个变项的分布一、定类变量1.统计表:用表格的形式来表示变量频次(或频率)分布的一种工具。

2.统计表必备的容:(1)表号、标题(2)标识行:变量名、对应数据说明(频次、频率)(3)主题行:变量取值的统计数据(4)表尾:如果是引用必须说明资料来源二、定序变量1.适合定序变量的简化资料的方法(1)累加次数:把次数逐渐相加起来,分为向上累加次数(cf↑)和向下累加次数(cf↓)。

(2)累加频率:把各级的百分率逐渐相加。

也分为向下累加百分率和向下累加百分率。

2.cf↑的计算方法就是按照变量取值的等级从低往高逐层相加。

3.cf↓计算方法就是按照变量取值的等级从高往低逐层相加。

➢cf↑表示低于某个等级的频数有多少➢cf↓表示高于某个等级的频数有多少三、定距变量1.定距变量的简化工具是:分组、直方图和折线图。

2.连续型定距变量的分组统计(1)组数:分组的数量,一般5到7组合适,分为等距分组和非等距分组。

(2)组限:包括上限(up)和下限(low)(3)标识下限和标识上限,例500—699(4)真实下限:标识下限—0.5;真实上限:标识上限+0.5.(5)组距:真实上限与真实下限之差。

(6)组中值:真实上限与真实下限的平均值。

第三节集中趋势测量法1.集中趋势:用一个典型的变量值或特征值来代表全体变量的问题,用这个数值来代表变项的资料分布,以反映资料的集结情况。

2.集中趋势测量的意义就是可以根据这个代表值来估计或预测每个研究对象的数值。

社会研究的统计应用常考内容

社会研究的统计应用常考内容

社会研究的统计应用常考内容社会研究的统计应用第一章科学方法与社会研究历程1、定类测量层次定类层次是指变项的值只能把研究对象分类,即只能决定研究对象是同类抑或不同类,具有=与≠的数学特质。

定类层次有两个原则,一是互斥性,即类与类之间要互相排斥,每个研究对象只能归入一类;另一个是无遗性,即所有研究对象均有归属,不可遗漏。

适用于简化一个定类变项资料的方法,有次数分布、比例、比率、图示和对比值等。

2、定序测量层次定序层次是指能确定值的次序,即变项的值能把研究对象排列高低或大小,具有>或<的数学特质。

定序层次包括了定类层次的特质。

3、定距测量层次定距层次是指能够确定值与值之间的距离,即变项之值与值间的距离是可以知道的,因为具有加与减的数学特质。

定距层次包括了定序与定类层次的特质。

4、定比测量层次定比测量层次是最高的测量层次,其数值中的零值是绝对的、固定的,因而除了具备分类、排序以及加减的特质外,还具有×与÷的数学特质。

第二章简化一个变项之分布第一节基本技术一、定类层次1、次数分布(f):变项内每一个值在原资料中出现的次数情况。

2、比例(p):就是将每类的次数(f)除以总数(N)。

3、比率:就是把计算比例时的所用的基数变大,使读者容易领会,如可转化为百分率、千分率、万分率等。

4、对比值:对比值就是将两类数值相除,得到一个比值。

二、定序层次1、累加次数(cf):就是把次数逐级相加起来。

分为两种,一种是向上累加,另一种是向下累加。

其作用是使我们容易知道某值以下或以上之次数总和。

2、累加百分率(c%):就是将各级的百分率逐级相加。

三、定距层次1、组限:就是每组的范围,包括上限和下限。

统计表上所标示的组限不是真实的组限。

真实下限=标示下限-0.5;真实上限=标示上限+0.5。

2、组距:就是每个组的宽度,即组的真实上限与真实下限之差。

3、组中点:就是真实上限与真实下限的平均数。

4、矩形图:以一个矩形的面积(长×宽)表示每组数值之次数或百分率的多少。

云南省考研社会学复习资料社会统计学重要概念梳理

云南省考研社会学复习资料社会统计学重要概念梳理

云南省考研社会学复习资料社会统计学重要概念梳理社会统计学是社会学研究的一项重要方法和工具,通过统计数据的采集、整理和分析,以及对社会现象的量化研究,帮助我们揭示社会规律和现象之间的关联。

在云南省考研的社会学复习中,社会统计学是一个重要的考点,下面将对社会统计学的核心概念进行梳理。

一、变量与测量在社会统计学中,变量是指可以被观察或测量的特征、属性或现象。

社会科学研究往往涉及到多个变量之间的关系。

因此,了解变量的类型以及如何进行测量是十分重要的。

1.1 变量的类型变量可以分为定量变量和定性变量两种类型。

定量变量是指在测量中能够表示数量或程度的变量,如年龄、收入等。

而定性变量是指在测量中只能表达品质或属性的变量,如性别、民族等。

1.2 测量尺度测量尺度是指用于测量变量的一种工具或方法。

常见的测量尺度包括名义尺度、顺序尺度、区间尺度和比例尺度。

- 名义尺度:仅适用于定性变量,用于分类和标记,如性别、宗教等。

- 顺序尺度:适用于定性变量,表达两个或多个属性间的排序关系,但不能确定差值大小,如教育程度的高低。

- 区间尺度:适用于定量变量,具有固定的单位间隔,但没有绝对零点,如温度。

- 比例尺度:适用于定量变量,具有固定的单位间隔和绝对零点,如年龄、收入等。

二、样本与总体在社会统计学中,样本和总体是进行统计推断和分析的重要概念。

2.1 样本样本是指从总体中选取出来的一部分个体或单位。

通过对样本的观察和测量,可以推论总体的特征和规律。

样本的选取应当具备随机性和代表性,以确保得到的结论具有普遍的可靠性。

2.2 总体总体是指研究对象的全部个体或单位的集合。

社会统计学的研究目标往往是推论总体特征和规律,因此必须对总体的构成和特征有所了解。

三、频数与频率频数和频率是社会统计学中描述变量分布情况的常用指标。

3.1 频数频数是指某个特定取值在样本或总体中出现的次数。

通过统计样本或总体中各个取值的频数,可以得到变量的分布情况。

社会统计学复习整理

社会统计学复习整理

社会统计学复习整理一、变量的测量层次二、判断变量层次的技巧1.首先所有的变量都是定类变量。

2.其次看变量的取值能否比拟大小,不能这个变量只能是定类变量。

3.最后如果这个变量能够比拟大小,那么就看变量取值加减乘除是否有意义,如果有意义就是定距变量,如果没有意义就只能是定序变量。

三、变量层次的比拟定类变量、定序变量和定比变量的数层次是从低到高排列的,高层次的变量同时具有低层次变量的功能。

四、相关分析方法第二节简化一个变项的分布一、定类变量1.统计表:用表格的形式来表示变量频次〔或频率〕分布的一种工具。

2.统计表必备的容:(1)表号、标题(2)标识行:变量名、对应数据说明〔频次、频率〕(3)主题行:变量取值的统计数据(4)表尾:如果是引用必须说明资料来源二、定序变量1.适合定序变量的简化资料的方法(1)累加次数:把次数逐渐相加起来,分为向上累加次数〔cf↑〕和向下累加次数(cf↓)。

(2)累加频率:把各级的百分率逐渐相加。

也分为向下累加百分率和向下累加百分率。

2.cf↑的计算方法就是按照变量取值的等级从低往高逐层相加。

3.cf↓计算方法就是按照变量取值的等级从高往低逐层相加。

➢cf↑表示低于某个等级的频数有多少➢cf↓表示高于某个等级的频数有多少三、定距变量1.定距变量的简化工具是:分组、直方图和折线图。

2.连续型定距变量的分组统计(1)组数:分组的数量,一般5到7组适宜,分为等距分组和非等距分组。

(2)组限:包括上限〔up〕和下限〔low〕(3)标识下限和标识上限,例500—699(4)真实下限:标识下限—0.5;真实上限:标识上限+0.5.(5)组距:真实上限与真实下限之差。

(6)组中值:真实上限与真实下限的平均值。

第三节集中趋势测量法1.集中趋势:用一个典型的变量值或特征值来代表全体变量的问题,用这个数值来代表变项的资料分布,以反映资料的集结情况。

2.集中趋势测量的意义就是可以根据这个代表值来估计或预测每个研究对象的数值。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

求下表G系数
工厂 A B C D
E
G
积极性等级 5 3 4 1.5
1.5
Ns Nd Ns Nd
产量等级 5 3 1 3
3
4-3 0.14 43
G系数是属于对称相关测量法。如果是非对称,即一个是 自变量,一个是因变量,则适宜于简化不对称关系的萨默 斯dy系数。
萨默斯dy系数
回归与相关
线性回归方程不仅具有简化资料的作用,而且可 以推广应用于预测或估计样本之外个案的数值。
回归系数(b)表示X对Y的影响有多少,指每增加一个单 位的X值时Y值的变化有多大。 B值是表示自变量对因变量的影响的大小与方向,它是不 对称关系的统计法。 回归方程不具有消减误差比例作用,一般在计算回归方 程时须进行相关系数测量。如果相关系数比较小,消减 误差比例太少,则不适合作线性回归方程。

图12-5(p.338)
社会统计学 卢淑华 北京大学出版社
计算公式
( x x )( y y ) n( xy ) ( x )( y ) 斜率 b ( x x ) n( x ) ( x )
2 2 2
y b( x ) 截距 a y bx n
E1的定义:
λ系数
E2的定义: 当已知y与x有关之后,如果再去预测y值,则可借 助x预测y。即用各类x条件下,y的条件分布中的 众值去预测y,可能性最大。 E2 = n —∑max(nij) 分析: 1)E2 = 0 (即∑max(nij) = n,即各类x条件下的 众值皆为最大值) 2)E2 = n (即∑max(nij) = 0,即各类x条件下的 众值皆为最小值)
肯德尔的tau系数
tau系数的基本逻辑是计算同序对数与异序对数之 差在全部的可能对数中所占的比例。公式如下:
Ns Nd tau - a 1 n(n 1) 2 tau - b Ns Nd N s N d Tx N s N d Ty
其中m是列联表中行数与列 数中的较小者。
求斯皮尔曼rho系数
参赛人 A B 2 2 0 0 C 4 3 1 1 D 3 4 -1 1 E 5 5 0 0 F 8 6 2 4 G 7 8 -1 1 H 6 7 -1 1 I 9 9 0 0 J 10 10 0 0
评判员1 1 评判员2 1 等级差 d d平方 0 0
6(8) 48 rs 1 1 1 0.95 2 2 10(10 1) 990 n(n 1)
My
nMy
(90 90) - 100 80 0.8 200 - 100 100
λ系数的缺点
Lambda相关测量法的特点是以众值作为预测的准则,不理会 众值以外的次数分布。因此,如果全部众值集中在条件次数 表的同一列或同一行中,则Lambda系数便会等于0.
南方
面食 米食 边缘次数 5 45 50
第四章
相关测量法与测量层次
1
相关测量的六种情况
两个定类变量 两个定序变量 两个定距变量 一个定类变量与定序变量 一个定类变量与定距变量 一个定序变量与定距变量
第一节 两个定类变量
Lambda 相关测量法
基本逻辑是计算以一个定类变量的值来预测另一个 定类变量的值时,如果以众值作为预测的准则,可 以减除多少误差。消减的误差在全部误差中所占的 比例愈大,就表示这两个变量的相关越强。 Lambda 相关测量法有两种形式。一种是对称形式 ,简写是λ系数,即不分自变量与因变量。另一种 是不对称形式,简写是λy系数,即要求一个是自变 量,一个是因变量。
其中X是自变量值, X 是自变量的均值,Y是因变 量值, Y 是因变量的均值,n是全部个案数目。
例1:计算回归方程
妇女 教育年期 劳动小时 XY 10 4 25
A
B C D E F G H I 总数
2
2 3 3 4 4 4 6 8 36
5
4 4 3 1 1 0 0 0 18
8
12 9 4 4 0 0 0 47
y
My
nMy
(28 41 7) - 50 26 0.52 100 - 50 50
λ系数与尤拉Q系数
爱好 篮球 跳绳 男 90 10 女 10 90
ad bc Q ad bc
m
y
90 90 - 10 10 8000 0.976 90 90 10 10 8200
2 m( N s N d ) tau - c n 2 (m 1)
斯皮尔曼rho系数
斯皮尔曼rho系数的特点是计算每个个案在两个变量上的 等级时,不仅要区别两者的高低差异,而且还要计算二者 差异的确切数值。
rs 1
n( n 2 1)
6 D 2
其中D表示每个个案在两列级序上的差异值,n表示全部 个案数目。D平方可以避免正负值抵消 rho系数是对称相关测量法,要求同分情况不多,统计值 在-1至1之间。其平方值可以有消减误差比例的意义。
工厂
A B 积极性 等级 5 3 产量等 级 5 3
C
D E
4
1.5 1.5
1
3 3
Gamma系数
Gamma系数的计算公式如下:
Ns Nd G Ns Nd
其中:Ns 是同序对数,Nd异序对数。 G的绝对值越大,就表示所犯的错误可能性越小 ,G是负值,则如果知道一对个案在某个变量的 相对等级,就应该估计他们在另一个变量上的相 对等级是相反的。反之亦然。
E1 E2 37.5 33 tau - y 0.12 E1 37.5
练习题1
题:以下是某高校对高、低年级学生求职意愿的抽 样调查。问:(1)计算不对称Lambda系数;(2) 计算tau-y系数;(3)建立条件百分表。
高年级 学校 10
低年级 10
企业 机关
20 10
10 20
第二节 两个定序变量
Gamma系数
级序相关法的基本逻辑是要求出;根据任何两个 个案在某变量上的等级来预测他们在另一个变量 上的等级时,可以减少的误差是多少。 同序对与异序对:假设样本的全部个案数目是n ,就会组成1/2n(n-1)对个案。某对个案在两个变 量上的相对等级时相同,则成为同序对;如果是 不相同,则成为异序对。


n2
n3
n5
n6
n8
n9
同分对: Tx=n1(n2+n3)+n2(n3)+n4(n 5+n6)+n5(n6)+n7(n8+n9)+ n8(n9)
同分对:
n9 (n9 1) n ( ) 1 n1 1 Txy 2 2
例:计算G系数与dy系数
文化程度 婚姻美满
大学
中学
小学
美满

( n Fy ) Fy
其中: n=全部个案书目, f=某条件次数 Fy=Y变量的某个边缘次数 Fx=X变量的某个边缘次数
再以饮食习惯表为例:
(100 25) 25 (100 75)75 E1 37.5 100 100
(50 5)5 (50 45)45 (50 20)20 (50 30)30 E2 33 50 50
同序对与异序对
x x1 x2 x3 x4 x x1 x2 x3 x4 y y1 y2 y3 y4 y y1 y2 y3 y4 x x1 x2 x3 x4 x x1 x2 x3 x4 y y1 y2 y3 y4 y y1 y2 y3 y4
同分对
两个个案在某变量上 次序相对,无法分高 低,即同分对。通常 以Tx代表只在X变量上 同分的对数,以Ty代 表只在Y变量上同分的 对数,而以Txy代表在 两个变量上都是同分 的对数。
λ系数计算公式
m
x
2n ( M x M y )
my (M x M y )
E1 E2 (n M y ) (n m y ) m y M y y E1 (n M y ) nMy
其中,My=Y变量的众值次数, Mx=X变量的众值次数 my=X变量的每个值(类别)之下Y变量的众值次数 mx=Y变量的每个值(类别)之下X变量的众值次数


n2
n3
n5
n6
n8
n9
同序对: n1(n5+n6+n8+n9)+n2(n6+ n8)+n4(n8+n9)+n5(n9)
异序对: n7(n2+n5+n3+n6)+n4(n2 +n3)+n8(n3+n6)+n5(n3)
计算列联表的同分对
高 高 中 低 n1 n2 n3 中 n4 n5 n6 低 n7 n8 n9 高 高 n1 中 n4 低 n7



未知y与x有关之前,如果预测y值,唯一可资依据的就是y本 身的分布。由于y与x无关,所以只能根据y的行边缘和(与x 无关)去预测y,也即由y的行边缘和中最大者——众值,去 预测y,可能性最大。 E1 = n – max(n*j) (即总频次n减去y的行边缘和中最大者) 分析: (1)E1 = 0 (E1最小)当 max(n*j) = n 时,E1 = 0。也即众 值极大,异众比率为0,此时众值代表性最高,故E1为0。 (2)E 1 = n (E1最大)当 max(n*j) = 0 时,E1 = n。也即 众值为0,异众比率最大,此时众值代表性最低,故E1为n。
6 D
2
第三节 两个定距变量
简单线性回归分析法
简单线性回归时根据一个直线方程式,以一个自变量X的 数值来预测一个因变量Y的数值。目的是要找出一个错误 最小的方法来预测因变量的数值。
相关文档
最新文档