社会统计学复习整理
社会统计学复习整理

社会统计学复习整理一、变量的测量层次二、判断变量层次的技巧1.首先所有的变量都是定类变量。
2.其次看变量的取值能否比较大小,不能这个变量只能是定类变量。
3.最后如果这个变量能够比较大小,那么就看变量取值加减乘除是否有意义,如果有意义就是定距变量,如果没有意义就只能是定序变量。
三、变量层次的比较定类变量、定序变量和定比变量的数层次是从低到高排列的,高层次的变量同时具有低层次变量的功能。
四、相关分析方法第二节简化一个变项的分布一、定类变量1.统计表:用表格的形式来表示变量频次(或频率)分布的一种工具。
2.统计表必备的内容:(1)表号、标题(2)标识行:变量名、对应数据说明(频次、频率)(3)主题行:变量取值的统计数据(4)表尾:如果是引用必须说明资料来源二、定序变量1.适合定序变量的简化资料的方法(1)累加次数:把次数逐渐相加起来,分为向上累加次数(cf↑)和向下累加次数(cf↓)。
(2)累加频率:把各级的百分率逐渐相加。
也分为向下累加百分率和向下累加百分率。
2.cf↑的计算方法就是按照变量取值的等级从低往高逐层相加。
3.cf↓计算方法就是按照变量取值的等级从高往低逐层相加。
cf↑表示低于某个等级的频数有多少cf↓表示高于某个等级的频数有多少三、定距变量1.定距变量的简化工具是:分组、直方图和折线图。
2.连续型定距变量的分组统计(1)组数:分组的数量,一般5到7组合适,分为等距分组和非等距分组。
(2)组限:包括上限(up)和下限(low)(3)标识下限和标识上限,例500—699(4)真实下限:标识下限—0.5;真实上限:标识上限+0.5.(5)组距:真实上限与真实下限之差。
(6)组中值:真实上限与真实下限的平均值。
第三节集中趋势测量法1.集中趋势:用一个典型的变量值或特征值来代表全体变量的问题,用这个数值来代表变项的资料分布,以反映资料的集结情况。
2.集中趋势测量的意义就是可以根据这个代表值来估计或预测每个研究对象的数值。
社会统计学重点

2.社会调查资料的特点:随机性和统计规律性。
3.怎样选用统计分析方法:1.全面调查和非全面调查。
2.单变量和多变量。
3.变量层次.4.分布概念:指一个概念或变量,它的各个情况出现的次数或频次,又称频次分布。
表现形式:数对的集合.5.变量取值的要求—⑴变量取值必须完备;⑵变量取值必须互斥。
6.统计表:是用表格形式来标识前面所说变量的分布。
它不需要文字叙述,就能反应出资料的特性以及资料之间的关系,在编印,传递方面有很大优点,比统计表更精确,但不及统计图直观。
7.统计表必须具备的内容:1.表号。
2.表头。
3.标识行。
4.主体行。
5.表尾。
8.根据变量的层次,可以选择以下不同的统计图形:定类变量:圆瓣图、条形图。
定序变量:条形图。
定距变量:直方图、折线图。
9.圆瓣图:是将资料展示在一个圆的平面上,通常用圆形代表现象的总体,用圆瓣代表现象中一种情况,其大小代表变量取值在总体中所占的百分数。
10.条形图:是用长条的高度来表示资料类别的次数或百分数。
定类:离散。
定序:离散或紧挨着的。
11.直方图:直方图从图形来看,也是紧挨着的长条形所组成,它与条形图不同,宽度有意义,一般来说,直方图是以长条的面积来表示频次或相对频次,而条形的长度。
即纵轴高度表示是频次密度或相对频次密度。
频次密度=频次/组距。
12.折线图:如果用直线连接直方图中条形顶端的中点,就是折线图。
折线图可使资料的频次分布趋势更一目了然。
13.累计图和累计表:表示的是大于某个变量值的频次是多少或小于某个变量值的频次是多少。
14.众值:就是用具有频数最多的变量值来表示变量的集中值。
15.中位值:是数据序列之中央位置之变量值。
未分组:N为奇数时:中位值等于n+1/2. N 为偶数时:中位值等于中间两变量和/2. 根据频次分布求中位值:中位值等于频次的和+1/2.中位值等于求出所对应值所在的区域。
分组:1.计算出累计频次,得到累计百分比。
2.确定最高频次所在组。
社会统计学复习整理

社会统计学复习整理一、变量的测量层次二、判断变量层次的技巧1.首先所有的变量都是定类变量。
2.其次看变量的取值能否比较大小,不能这个变量只能是定类变量。
3.最后如果这个变量能够比较大小,那么就看变量取值加减乘除是否有意义,如果有意义就是定距变量,如果没有意义就只能是定序变量。
三、变量层次的比较定类变量、定序变量和定比变量的数层次是从低到高排列的,高层次的变量同时具有低层次变量的功能。
四、相关分析方法第二节简化一个变项的分布一、定类变量1.统计表:用表格的形式来表示变量频次(或频率)分布的一种工具。
2.统计表必备的容:(1)表号、标题(2)标识行:变量名、对应数据说明(频次、频率)(3)主题行:变量取值的统计数据(4)表尾:如果是引用必须说明资料来源二、定序变量1.适合定序变量的简化资料的方法(1)累加次数:把次数逐渐相加起来,分为向上累加次数(cf↑)和向下累加次数(cf↓)。
(2)累加频率:把各级的百分率逐渐相加。
也分为向下累加百分率和向下累加百分率。
2.cf↑的计算方法就是按照变量取值的等级从低往高逐层相加。
3.cf↓计算方法就是按照变量取值的等级从高往低逐层相加。
➢cf↑表示低于某个等级的频数有多少➢cf↓表示高于某个等级的频数有多少三、定距变量1.定距变量的简化工具是:分组、直方图和折线图。
2.连续型定距变量的分组统计(1)组数:分组的数量,一般5到7组合适,分为等距分组和非等距分组。
(2)组限:包括上限(up)和下限(low)(3)标识下限和标识上限,例500—699(4)真实下限:标识下限—0.5;真实上限:标识上限+0.5.(5)组距:真实上限与真实下限之差。
(6)组中值:真实上限与真实下限的平均值。
第三节集中趋势测量法1.集中趋势:用一个典型的变量值或特征值来代表全体变量的问题,用这个数值来代表变项的资料分布,以反映资料的集结情况。
2.集中趋势测量的意义就是可以根据这个代表值来估计或预测每个研究对象的数值。
社会统计学重点知识梳理

《社会统计学》重点知识梳理第一章绪论[教学目的]:本章是对社会统计学这门课程对概要性介绍。
通过本章对学习,首先使学生熟悉到学习这门课程对重要意义和作用,激发其学习对踊跃性和主动性。
其次使学生对该课程有一个大体对了解,并掌握其中的一些基础性的知识,为后面对学习打下基础。
[教学重点]:变量及变量层次[教学难点]:统计和统计学对含义[教学方法和手段]:讲授法[学时分配]:4学时[教学内容]:统计和统计学的含义,统计学的产生和发展,变量及变量层次第一节统计和统计学的含义一统计的含义统计作为一种社会实践活动已有悠长的历史。
在外语中,统计一词与国家一词来自同一词源。
因此,可以说,自从有了国家就有了统计实践活动。
最初,统计只是为统治者管理国家对需要而搜集资料,弄清国家对人力、物力、财力,作为国家管理的依据。
(如早在古代奴隶制的国家,由于赋税、徭役、征兵对需要,就开始了人口、土地等的记录和简单的统计工作。
今天,统计一词已被人们赋予多种含义,在不同场合,其可以具有不同含义。
一般来说,统计一词包括以下三种含义:一指统计工作,即调查研究,包括资料的收集、整理和分析;二指统计资料,包括统计数据和分析报告;三指统计学这门学科,研究如何搜集、整理和分析数据资料。
其中,前两种含义统计工作和统计资料指的是统计的实践活动,统计学则指理论研究。
二统计学的含义一、概念统计学是一门收集、整理和分析统计数据的方法科学,其目的是探索数据的内在规律性,以达到对客观事物的科学认识。
统计数据的收集是取得统计数据的过程,它是进行统计分析对基础。
离开了统计数据,统计方法就失去了用武之地。
如何取得所需的统计数据是统计学研究的内容之一。
统计数据的整理是对统计数据的加工处理过程,目的是使统计数据系统化、条理化,符合统计分析的需要。
数据整理是介于数据收集与数据分析之间的一个必要环节。
统计数据的分析是统计学的核心内容,它是通过统计描述和统计推断的方法探索数据内在规律对过程。
自考 社会工作00278社会统计学 复习资料

00278社会统计学复习资料狭义的社会统计学的四环结构:社会统计、经济统计、科技统计和环境统计。
狭义的社会统计学的三环结构是指社会统计、经济统计和科技统计。
犯罪统计学属于社会秩序与公共安全统计领域的学科劳动力统计的主要更新的是非正规就业;社会时间构成统计领域的主要更新是时间利用调查。
社会生活统计的主要更新体现在贫困统计。
人口流量在时间和空间两个角度来看分别属于时期指标、状态转移;人口存量在时间和空间两个角度来看分别属于时点指标、当前状态年平均人口=[(年初人口)/2+第一季度末人口+第二季度末人口+第三季度末人口+(年末人口)/2]/4复合家庭的形式、直系家庭的形式;家庭划分的标准一夫一妻制家庭属于按家庭传袭规则来划分聘用新劳动力属于劳动力机械增减;劳动力生老病死属于劳动力自然增减极大值与极小值的比率分析是相对差异分析法;绝对差额分析法是指极大值与极小值的差额分析变量分为连续变量与离散变量。
众数、中位数和平均数恩格尔系数、基尼系数:每千人口医疗卫生机构数医疗社会保险统计指标、公安机关统计指标、检察院统计指标、衡量工作与生活平衡指标(如雇员工时过长比例)、联合国经社理事会社会指标体系衡量消除贫困的指标、衡量健康状况指标、社会发展水平指标(如人口总负担系数属于逆指标)弹性就业是不限时间、不限收入、不限场所的灵活多样的就业形式新生儿死亡率计算中的新生儿是指某地区一年内出生未满28天失业社会保险基金属于社会失业保险统计指标各级法院数、法院工作人员数、审判人员数属于法院统计指标根据贫困的程度,贫困可以分为绝对贫困和相对贫困新生儿死亡率属于衡量医疗卫生保健程度的指标因自然规律获某些不确定因素使劳动力总量发生增减变化的是自然增减学生巩固率是某一学年内自始至终读完一个学年的学生数与学年初开始时在校学生数的比率社会统计学新领域诞生的主要标志是非市场服务统计时间的划分:个人生活必须时间、自由支配时间等、家务劳动时间等。
社会统计学复习整理

社会统计学复习整理一、变量的测量层次 二判断变量层次的技巧1.首先所有的变量都是定类变量。
2.其次看变量的取值能否比较大小,不能这个变量只能是定类变量。
3.最后如果这个定距变量,如果没有意义就只能是定序变量。
三、变量层次的比较定类变量、定序变量和定比变量的数层次是从低到高排列的,高层次的变量同时具有低层次变量的功能。
四、相关分析方法第二节简化一个变项的分布一、定类变量1.统计表:用表格的形式来表示变量频次(或频率)分布的一种工具。
2.统计表必备的内容:(1)表号、标题(2)标识行:变量名、对应数据说明(频次、频率)(3)主题行:变量取值的统计数据(4)表尾:如果是引用必须说明资料来源二、定序变量1.适合定序变量的简化资料的方法(1)累加次数:把次数逐渐相加起来,分为向上累加次数(cf↑)和向下累加次数(cf↓)。
(2)累加频率:把各级的百分率逐渐相加。
也分为向下累加百分率和向下累加百分率。
2.cf↑的计算方法就是按照变量取值的等级从低往高逐层相加。
3.cf↓计算方法就是按照变量取值的等级从高往低逐层相加。
cf↑表示低于某个等级的频数有多少cf↓表示高于某个等级的频数有多少三、定距变量1.定距变量的简化工具是:分组、直方图和折线图。
2.连续型定距变量的分组统计(1)组数:分组的数量,一般5到7组合适,分为等距分组和非等距分组。
(2)组限:包括上限(up)和下限(low)(3)标识下限和标识上限,例500—699(4)真实下限:标识下限—0.5;真实上限:标识上限+0.5.(5)组距:真实上限与真实下限之差。
(6)组中值:真实上限与真实下限的平均值。
第三节集中趋势测量法1.集中趋势:用一个典型的变量值或特征值来代表全体变量的问题,用这个数值来代表变项的资料分布,以反映资料的集结情况。
2.集中趋势测量的意义就是可以根据这个代表值来估计或预测每个研究对象的数值。
一、定类变量1.众值(Mode)Mo:用具有频数最多的变量的取值来表示变量的集中值。
社会统计学复习题

社会统计学复习题一、名词解释1、社会统计学2、中位数3、众数4、点估计:所谓点估计,就是根据样本数据算出一个单一的估计值,用它来估计总体的参数值。
5、区间估计:所谓区间估计,就是计算抽样平均误差,指出估计的可信程度,进而在点估计的基础上,确定总体参数的所在范围或区间。
6、置信区间:置信区间就是我们为了增加参数被估计到的信心而在点估计两边设置的估计区间。
7、消减误差比例:变量间的相关程度,可以用不知Y 与X 有关系时预测Y 的误差0E ,减去知道Y 与X 有关系时预测Y 的误差1E ,再将其化为比例来度量。
将削减误差比例记为PRE 。
8、因果关系:变量之间的关系满足三个条件,才能断定是因果关系。
1)连个变量有共变关系,即一个变量的变化会伴随着另一个变量的变化;2)两个变量之间的关系不是由其他因素形成的,即因变量的变化是由自变量的变化引起的;3)两个变量的产生和变化有明确的时间顺序,即一个在前,另一个在后,前者称为自变量,后者称为因变量。
9、正相关与负相关:正相关是指一个变量的值增加时,另一变量的值也增加;负相关是指一个变量的值增加时,另一变量的值却减少。
10、散点图:将相关表所示的各个有对应关系的数据在直角坐标系上画出来,以直观地观察X 与Y 的相互关系,即得相关图,又称散点图。
11、同序对:在观察X 序列时,如果看到i j X X <,在Y 中看到的是i j Y Y <,则称这一配对是同序对。
12、异序对:在观察X 序列时,如果看到i j X X <,在Y 中看到的是i j Y >Y ,则称这一配对是异序对。
13、大数定理:当我们的观察次数n 趋向无限时,随机事件可能转换为不可能事件或必然事件。
即,在大量观察的前提下,观察结果具有稳定性。
二、选择题6.下面能进行除法运算的测量尺度是()A 定比尺度B 定类尺度C 定距尺度D 定序尺度7.教育程度是()的测量。
A 定比尺度B 定类尺度C 定距尺度D 定序尺度8.智商是()的测量。
社会统计学复习全资料

⑴简单线性回归
; ;
⑵协方差:
⑶积距相关系数: [-1,1]
5. 定类变项与定距变项
⑴相关比率( 平方系数,适用于不对称关系):
; [0,1]
四、参数估计
1. 点估计
⑴样本均值:
⑵样本方差:
⑶样本成数:
2. 区间估计
⑴正态分布总体的区间估计
①总体方差( )已知:
②总体方差( )未知:
⑵大样本区间估计( )
4.虚无假设与研究假设
虚无假设 又称原假设、零假设。是一种无差别假设,是一种已有的,具有稳定性的经验看法,没有充分根据,是不会被轻易否定的。研究假设 又称备择假设,是研究者所需证实的假设。否定 后可以认为 是对的。
5.甲种误差与乙种误差
甲种误差又称第一类错误,是指 为真,但小概率事件发生了,拒绝了 ,即把真的当成假的,它是在拒绝原假设时出现的错误。犯甲种误差的概率是显著性水平 。乙种误差即纳伪的错误,又称第二类错误,是指 为假,但小概率事件没有发生,接受即把假的当成真的,它是在接受原假设时出现的错误。犯乙种误差的概率为 , 的值随着真值 与原假设中 的偏离程度而变化, 越小, 的数值就越大。 大 就小, 小 就大。
2.点估计与区间估计
点估计指根据样本资料以一个最适当的样本统计值来代表总体的参数值,简单明确,但不能说明估计结果的抽样误差和把握程度;区间估计指以两个数值之间的间距来估计参数值。点估计是区间估计的基础。
3.置信度和置信度水平
置信度又称置信概率或置信系数,表示用置信区间估计的可靠性,即置信区间包含参数 的概率。置信度水平表示用置信区间估计不可靠的概率。置信度与置信度水平之和为1。
3. 定距层次
⑴间距:上、下限之差。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
社会统计学复习整理
一、变量的测量层次
二、判断变量层次的技巧
1.首先所有的变量都是定类变量。
2.其次看变量的取值能否比较大小,不能这个变量只能是定类变量。
3.最后如果这个变量能够比较大小,那么就看变量取值加减乘除是否有意义,如果有意义就是定距变量,如果没有意义就只能是定序变量。
三、变量层次的比较
定类变量、定序变量和定比变量的数层次是从低到高排列的,高层次的变量同
时具有低层次变量的功能。
第二节简化一个变项的分布
一、定类变量
1.统计表:用表格的形式来表示变量频次(或频率)分布的一种工具。
2.统计表必备的内容:
(1)表号、标题
(2)标识行:变量名、对应数据说明(频次、频率)
(3)主题行:变量取值的统计数据
(4)表尾:如果是引用必须说明资料来源
二、定序变量
1.适合定序变量的简化资料的方法
(1)累加次数:把次数逐渐相加起来,分为向上累加次数(cf↑)和向下累加次数(cf↓)。
(2)累加频率:把各级的百分率逐渐相加。
也分为向下累加百分率和向下累加百分率。
2.cf↑的计算方法就是按照变量取值的等级从低往高逐层相加。
3.cf↓计算方法就是按照变量取值的等级从高往低逐层相加。
➢cf↑表示低于某个等级的频数有多少
➢cf↓表示高于某个等级的频数有多少
三、定距变量
1.定距变量的简化工具是:分组、直方图和折线图。
2.连续型定距变量的分组统计
(1)组数:分组的数量,一般5到7组合适,分为等距分组和非等距分组。
(2)组限:包括上限(up)和下限(low)
(3)标识下限和标识上限,例500—699
(4)真实下限:标识下限—0.5;真实上限:标识上限+0.5.
(5)组距:真实上限与真实下限之差。
(6)组中值:真实上限与真实下限的平均值。
第三节集中趋势测量法
1.集中趋势:用一个典型的变量值或特征值来代表全体变量的问题,用这个数值
来代表变项的资料分布,以反映资料的集结情况。
2.集中趋势测量的意义就是可以根据这个代表值来估计或预测每个研究对象的数
值。
一、定类变量
1. 众值(Mode )Mo :用具有频数最多的变量的取值来表示变量的集中值。
2. 众值的特征:
(1):众值理论上可以用于定类、定序和定距三个层次的变量来描述集中趋势,但是由于众指不精确,一般只用于定类层次的变量。
(2):众值最好找,是最容易求出的值,但它精确度也是最差的。
二、定序变量
1.中位值(Md )。
2.分组数据求中位值公式:Md=L+(n/2- cf ↑/n)(U-L) L :中位值的真实下界值 U :中位值的真实上界值 n :中位值组的频数
cf ↑:低于中位值所在组的累加(向上)频次 N :调查总数 Md 位值:N/2 二、 定距变量
1. 均值(Mean ):将变量的各个数值相加起来,除以总个数,求取一个平均
值的数值,一般用¯x 来表示。
2. 均值的特征:
● 仅适合定距层次的变量
● 它最灵敏,预测的精确度最高
● 对资料所提供的信息运用得最充分 3. 均值的求法
(一) 原始数据求均值:X=∑X 1/N
(X 表示变量x 的均值;∑X1表示变量观察值的总和。
)
(二) 根据频次分布求均值:¯x=
∑n1X 1∑n2
(¯x 表示变量X 的均值;∑n1X 1表示变量的每一个取值和该变量频数相乘的和;∑n2表示把变量的每个取值下的频次都加
起来,即调查总数N)
(三) 分组数据求均值:¯x= ∑n1b1∑n1
(n 1表示每组次数,b 表示每组的组中值,∑n1表示个案数目)
第四节 离散趋势测量法
● 离散趋势测量法:是求出一个值来表示个案与个案之间的差异情况。
● 离散趋势或离散特征可以告诉我们估计值误差的大小。
一、 定类变量(异众比率V )
V 就是非众值的次数与全部个案数目的比率。
V=
N−fmo
N
(N-全部个案数目;fmo -众值的次数) V 值越小,众值代表性越好。
二、 定序变量
1. 极差(R )—观察的最大值与最小值之差。
2. 四分互差:将数值排序,分为四个等分,第一个四分位置的值与第三个
四分位置的值的差异。
四分位差Q =Q 75-Q 25
(一) 未分组数据:2 2 3 4 6 9 10 10 11 13 15
Md 的位置=N+1/2=11+1/2=6
Q25的位置=N+1/4=11+1/4=3(第三位数)
Q75的位置=34
(N+1)=34
(11+1)=9(第九位数)
所以,四分位差Q= Q75-Q25=11-3=8 (二) 分组数据
1. 中位值公式=Md=L+(N
2- cf ↑)/n(U-L) 2. Q25=L+(N
4- cf ↑)/n(U-L)
L :四分之一位值组的真实下界值 U :四分之一位值组的真实上界值 n :四分之一位值组的频数
cf ↑:低于四分之一位值组的向上累加频次 N :调查总数 Q25位置=N/4;
3. Q75=L+(3N
4- cf ↑)/n(U-L) L :四分之三位值组的真实下界值 U :四分之三位值组的真实上界值 n :四分之三位值组的频数
cf ↑:低于四分之三位值组的向上累加频次 N :调查总数 Q75位置=3N/4;
三、 定距变量
(一) 标准差σ与方差σ²
σ=1
N √N ∑Xi −(∑Xi)² (δ即对均值的偏差平方均值的平方根)σ²=
(Xi−。