卢淑华 《社会统计学》讲义

合集下载

社会统计学讲义

社会统计学讲义

《社会统计学》讲义教学目的和要求:通过本课程的学习,使学生熟悉常用的统计方法,并且学会如何将统计分析知识应用于社会调查研究之中,掌握统计方法的灵活运用。

本课程偏重统计方法的实际应用,而非其数理基础。

在教学过程中,注重对于不同统计分析方法适用条件的说明,统计公式的讲解,以及对于统计值意义的说明。

教学重点和难点:本课程的教学重点是不同统计分析方法所适用的条件以及统计值意义的解释。

难点是统计公式的讲解以及不同统计分析方法在实际社会调查研究中的应用。

教法特点说明:课堂讲授为主,注重对实例的讲解。

教材和参考书目:1、卢淑华著:《社会统计学(第三版)》,北京大学出版社,2007年。

2、李沛良著:《社会研究的统计应用》,社会科学文献出版社,2002年。

3、柯惠新等著:《调查研究中的统计分析法》,北京广播学院出版社,1992年。

4、风笑天著:《现代社会调查方法》,华中科技大学出版社,2001年。

5、袁方主编:《社会研究方法教程》,北京大学出版社,1997年。

第一章统计学简史教学目的和要求:通过本章的学习使学生了解统计学的产生、发展历程有初步的认识。

教学重点和难点:重点是国势学派与政治算数学派的差异,难点是文字记述与数字记述各自的特点。

教学方法:课堂讲授教学内容:一、统计学的起源统计技术:古埃及、古中国(大禹治水)统计学:17世纪中叶Status(拉丁词汇,国家、状态)——Statistics 研究国家的宏观状态①国势学②政治算术二、国势学(17世纪的德国)德国大学学派:H·Coring 用文字记录一个国家的状况和制度G·Achenwall 第一个定义——把国家的显著事项全部记录下来的学科三、政治算术(17世纪的英国)英国的经验主义者:用数量或数字的方法说明国家的特征J·Graunt 《关于伦敦死亡表的观察》用数量分析社会、政治问题William Petty 《政治算术》四、概率论(数理特征更加明显)1.J Bernoulli(贝努里)瑞士大数法则借助大数法则可以从社会现象复杂不定的偶然性中寻找规律,它说明了社会现象的稳定性2.Gauss(高斯)德国正态分布(中心极限定理的基础)五、数理统计学Adolphe Quetelet(阿道夫·凯特勒)法籍比利时人数理统计学派的创始人“经验社会学之父”《社会物理学》“平均人”六、描述统计高尔顿(F Galton)回归现象根据对1078对父、子身高的散布图发现,虽然身材高的父母比身材矮的父母倾向于有高的孩子。

社会统计学(卢淑华)_第六章

社会统计学(卢淑华)_第六章
第六章 参数估计
第一节 统计推论
一、统计推论:根据局部资料对总体特征进行推断 特点: 1、局部资料的特性在某种程度上能反映总体的特征 2、抽样结果不能恰好等于总体的结果
二、理论基础:概率论 三、内容:
1、通过样本对总体的未知参数进行估计(参数估计) 2、通过样本对总体的某种假设进行检验(假设检验)
第二节 名词解释
二、评价估计值的标准
1、无偏性:x 的均值等于待估参数μ
如果 Qˆ 是总体参数Q的估计值,且Qˆ 分布的均值有 E Qˆ 称 Qˆ 是Q的无偏估计。
Q,则
2、有效性:
1)方法:如果两个估计值Qˆ1 x1 x2 xn 及 Qˆ 2 x1 x2 xn ,它
都满足无偏性,那么当 Qˆ1 的方差比 Qˆ 2 的方差小时,则Q1 较 Q 2 更
有效。
2)增加样本容量可以有效的增加一次抽样接近待估参数的概率。
x 样本均值
2
的方差:Dx n

样本方差
S 2 的方差
:D2 S

4
n 2 1
3、一致性: 一个数的估计值要求随样本容量n的增大而以较
大的概率去接近被估计参数的值。
把样本容量为n时的估计值记作 Qˆ n ,如果 n
第五节 正态总体的区间估计
一、置信度、置信区间
如果用Qˆ x1 x2 xn 作为未知参数Q的估计值,那么区间
包含参数Q之概率为1
的关系表达式为

Q Q,
——置信区间(反映估计的准确性)
1
置信度(置信概率)(置信区间估计的可靠性)
显著性水平(置信区间不可靠的概率)

置信区间与置信度的关系:

社会统计学(卢淑华)-第三章

社会统计学(卢淑华)-第三章
逆概例:
接上例。某天,随机抽出一份表格,发现有错 误,办公室主管想知道由第一、第二、第三个 工作人员所造成的概率是多少?
第二节 概率分布、均值不方差
一、概率分布:
随机现象一共有多少种结果,以及每种结果伴随的概率。
1、离散型随机变量及其概率分布——分布列
概率分布:P X i Pi
例1:10人中,女性3人,抽3人,女性人数的概率分布。
③ 求[ E()]2P·( =xi)
④ 2=
5、方差的性质
① 常数的方差为0
② D(+C)= D()
③ D(C·)=DC2 ·()
④ 两个独立变量
D(+ )= D()+D( )
推广n个
例题
12名学生,3女,9男。任抽一人,如为女 生,则不放回,再抽一人,直到抽到男生 为止,求,抽到男生以前已抽出的女生人 数的数学期望与方差。
PAB PA P B A 或 PAB PB P A B
推论: PA1 A2 An PA1 AP1 A2PAn A1 A2 An
例题1
某城市中,有60%的家庭订阅日报,有80% 的家庭有电视机,假定这两个事件是独立 的,随机抽出一个家庭,发现既订日报又 有电视机的概率?
答案
PAi
B
PAi
• PB PB
Ai
其中
n
PB
i 1
PAi • PB Ai
全概例:
有三个工作人员被指定复制某种表格。某一人 复制了这种表格的40%,第二人复制了35%, 第三人复制了23%,第一人的错误率为0.04, 第二人的错误率为0.06,第三人的错误率为 0.03。随机抽一份表格,这份表格有错误的概 率为多少?

社会统计学(卢淑华),第十章

社会统计学(卢淑华),第十章

调查过程不应给被调查者带来身体或心理 上的伤害,避免涉及敏感或隐私问题。
数据处理与分析中的伦理问题
数据真实性
在处理和分析数据时,应确保数 据的真实性和完整性,避免篡改
、伪造或选择性使用数据。
数据安全性
采取必要的技术和管理措施, 确保数据的安全存储和传输, 防止数据泄露、损坏或丢失。
数据分析的客观性
报告统计结果时,应提供足够的信息 和数据支持结论,避免选择性报告或 隐瞒不利结果。
避免过度解读
在解释统计结果时,应避免过度解读 或夸大其意义,以免误导读者或产生 不必要的恐慌。
尊重被调查者的权益
在报告统计结果时,应注意保护被调 查者的隐私和权益,避免泄露个人信 息或造成不必要的伤害。
THANK YOU
社会问题调查
通过问卷调查、访谈、观察等方 法收集数据,了解社会问题的现
状、原因和影响。
社会问题分析
运用统计分析方法对调查数据进 行处理和分析,揭示社会问题的
本质和规律。
社会问题解决方案
基于分析结果,提出针对性的解 决方案和建议,为政府和社会各
界提供参考。
社会政策的制定与评估
社会政策制定
01
运用统计数据和分析结果,为政府制定社会政策提供科学依据
04
因子分析
一种通过降维技术,将多个相关变量简化为少数几个 综合变量的统计分析方法。
05
聚类分析
一种根据样本或变量之间的相似性或距离,将其分为 不同类别的统计分析方法。
02
描述性统计方法
频数分布与图形表示
频数分布表
将数据进行分类,并统计各类别出现的次数,形成 频数分布表,以直观展示数据的分布情况。
SAS是一款高级统计分析软件 ,具有强大的数据处理、分析 和可视化功能,适用于大规模 数据处理和复杂统计分析。

(完整word版)卢淑华 《社会统计学》讲义

(完整word版)卢淑华 《社会统计学》讲义

社会统计学讲义第一章导论一、社会统计学1、社会统计学是运用统计的一般原理,对社会各种静态结构与动态趋势进行定量描述或推断的一种专门方法和技术。

研究对象:概括而言是指社会现象的数量方面。

2、选择统计分析方法的原则是根据研究目的和资料本身的特点选择。

3、统计分析的作用:(1)可对资料进行简化和描述;(2)可对变量间的关系进行描述和深入地分析(统计分析通过事后解释使得探讨变量间复杂的因果联系成为可能);(3)可通过样本资料推断总体(通过参数估计和假设检验,将样本推论到总体并指出这种推论的误差及做出这种推论的把握有多大)。

4、社会统计的基本程序(1)制定计划;(2)统计调查;(3)统计整理;(4)统计分析;(5)统计报告。

5、几个基本概念(1)总体与单位总体又称母体,是作为统计研究对象的、由许多具有共性的单位构成的整体。

构成总体的每一个个体称为总体单位,简称单位或个体。

3个基本特征:大量性、同质性和变异性。

(2)标志与变量总体的每个单位都具有许多属性和特性,说明总体单位属性或数量特征的名称在统计上称为标志,分为数量标志和品质标志。

可变的品质标志无法用数值表示,我们称之为变项;可变的数量标志能够用数值表示,我们称之为变量。

(3)指标与指标体系统计指标是反映总体(或样本总体)的数量特征的概念或范畴。

一个完整的统计指标由两部分构成:指标名称和指标数值。

在社会统计中,如要全面把握对象总体情况,就不能单凭一个指标,而要靠一组相互联系的并与之相适应的指标来完整地反映对象总体。

指标体系就是一系列有内在联系的统计指标的集合体。

二、社会调查研究的程序社会学研究之阶段与步骤(1)确定课题:来源与社会学理论、当前社会现实和要解决的实际问题;具有强烈的时代感、为国家现代化服务;(2)了解情况:查阅文献和向有经验、有知识的人了解,运用个案调查、典型调查进行探索性研究;(3)提出一定的想法和建立假设:差异式、函数式;(4)建立概念和测量方法:采用适当的术语和概念;操作化定义;概念的表现形式往往具有多值性;(5)设计问卷:内容包括事实、态度与看法、行为趋向、理由;方式有固定答题式和自由答题式;(6)试填问卷:发现不周或遗漏之处在试填阶段予以纠正;(7)调查实施(抽样调查):从局部推论到全体(8)校核与登录(9)统计分析与命题的检验:检验最初研究阶段的命题或假设是否得到证实或部分证实,在此基础上对研究内容提出建议和确定进一步的研究方案。

社会统计学(卢淑华)-第三章

社会统计学(卢淑华)-第三章
A=该家庭订一份日报
B=该家庭有电视机 P(A)=0.60 P(B)=0.80 P(AB)=0.60*0.80=0.48
例题2
对同一目标进行3次射击,第一、二、三、 次射击命中的概率分别是:0.3,0.4,0.6,求 在这三次射击中恰有一次命中的概率。
答案
Ai=第i次射击命中 A=恰有一次命中 P(A)
x2
Px1 x2 x dx x1
概率密度 x 存在以下性质:
1)x 0
2)
xdx 1
3、分布函数
1)定义:F(x)=P( x) 意义:随机变量从最远的起点(- )到所研究的x点所有概率的总和。
2)对于离散型随机变量,则:依据概率的加法定理:例
F x P x P xi
1、离散型随机变量
方差:D E E 2 x E 2 Pi
ii
2、连续型随机变量
方差:D
x
E
2
xdx
标准差 : D
3、方差和标准差都反映了随机变量的可能值密集在数学 期望周围的程度。方差值越小,密集程度越高;反之则方
差值较大。
4、计算过程
① 利用公式求 E()=
② 求[ E()]2
例2:两名孕妇,生女婴的概率分布。
性质:1) Pk 0
2) PK 1 K 1
分布列表明全部概率在各可能取值之间的分布规律,全面描叙离散随机变量
的统计规律
2、连续型随机变量及其概率分布 ——概率密度函数
概率密度

x
P
lim
x 0
x
x 2
x
x
x
2
任意两点(X1,X2)之间的概率为:
三种情况:
1、不可能事件Ø 概率 P()=0 2、必然事件S 概率 P(S)=1 3、必然与不可能之间E 概率 0 P(E) 1

社会统计学(卢淑华)PPT培训课件

社会统计学(卢淑华)PPT培训课件

例:
根据生命表,年龄为60岁的人,可望活 到下年的概率P=0.95。设某单位年龄为 60岁的人共有10人,问:
(1)其中有9人活到下年的概率为多少 (2)至少有9人活到下年的概率为多少 (3)至多有9人活到下年的概率为多少
第四节 多项分布
以三项分布作为研究对象,依此类推
三项分布: P x1 , x2 , x3 n! P P P 1 x1 2 2x 3 x3
x
x nx
n
xa
例:
教师中吸烟的比例为50%,随机抽查教 师10人,求概率:
1、全不吸烟 2、1人吸烟 3、至少2人吸烟 4、2-4人吸烟
三、二项分布的数学期望
E


n

x

P

n
x



x
x
Cp q x
n
nx

n

p
x 0
x 0
5、二项分布的方差等于
2
2
6、查表方法
3、二点分布----一次贝努里试验的概率分布; 二项分布----n次贝努里试验的概率分布;
4、二点分布是二项分布的特殊情况
5、二点分布 :
变量的取值只有两类 ;
x
0
p
q
代码:0、1 ;
1
p
分布列:
6、二点分布的性质 1)P(=0)>0 P(=1) >0 2)P(=0)+ P(=1)=q+p=1 3)二点分布的期望与方差
如:同一地点的交通事故。

某城市一交叉路口每年平均发生交通事 故5起,如果交通事故的发生服从泊松分 布,在指定的一年内以下交通事故发生 的概率是多少?

社会统计学卢淑华版 ppt课件

社会统计学卢淑华版 ppt课件
作出对原假设H0的决策。
例(参见教材376页例1、383页例2)为了研究职业对家庭赡养 人数的影响,研究者抽查了某企业41名员工的家庭赡养人数(如 下表),试判断职业对家庭赡养人数是否有影响。
• 2、要检验m个水平(总体)的均值是否相等,需要提
出如下假设:
• H0 : 1 2 … m m 不全相等
H1 : 1 , 2 , ,
社会统计学卢淑华版
第二节:单因素方差分析/一元方差分析
• 一、数据结构
观察值 ( j ) 水平A1
因素(A) i
水平A2

水平Am
1
x11
x21

xm1
2
x12
组内平方和只包括随机误差。 • ②组间平方和 • 组间平方和是指因素的不同水平之间数据误差的平方
和,组间平方和既包括随机误差,也包括系统误差。
社会统计学卢淑华版
第一节 方差分析的原理
• ⑶均方—MS
自变量对因变量没有
影响,则没有系统性
• 均方是指平方和除以相应的自由度误。差,组间平方和中
只有随机误差。
组间方差MSB: MSB BSS m1
组内方差MSR:
MSR RSS nm
社会统计学卢淑华版
第二节:单因素方差分析/一元方差分析
3、计算检验统计量 F
F M B/ /S m n S m 1 S R M M~ S S F (m R B 1 ,n m )
4、统计决策
将统计量的值F与给定的显著性水平的临界值F进行比较,
• ⑺计算均方MS
• 各误差平方和的大小与观察值的多少有关,为消除观 察值多少对误差平方和大小的影响,需要将其平均,
这就是均方,也称为方差。均方由误差平方和除以相
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

社会统计学讲义
第一章导论
一、社会统计学
1、社会统计学是运用统计的一般原理,对社会各种静态结构与动态趋势进行定量描述或推断的一种专门方法和技术。

研究对象:概括而言是指社会现象的数量方面。

2、选择统计分析方法的原则是根据研究目的和资料本身的特点选择。

3、统计分析的作用:(1)可对资料进行简化和描述;(2)可对变量间的关系进行描述和深入地分析(统计分析通过事后解释使得探讨变量间复杂的因果联系成为可能);(3)可通过样本资料推断总体(通过参数估计和假设检验,将样本推论到总体并指出这种推论的误差及做出这种推论的把握有多大)。

4、社会统计的基本程序
(1)制定计划;(2)统计调查;(3)统计整理;(4)统计分析;(5)统计报告。

5、几个基本概念
(1)总体与单位
总体又称母体,是作为统计研究对象的、由许多具有共性的单位构成的整体。

构成总体的每一个个体称为总体单位,简称单位或个体。

3个基本特征:大量性、同质性和变异性。

(2)标志与变量
总体的每个单位都具有许多属性和特性,说明总体单位属性或数量特征的名称在统计上称为标志,分为数量标志和品质标志。

可变的品质标志无法用数值表示,我们称之为变项;可变的数量标志能够用数值表示,我们称之为变量。

(3)指标与指标体系
统计指标是反映总体(或样本总体)的数量特征的概念或范畴。

一个完整的统计指标由两部分构成:指标名称和指标数值。

在社会统计中,如要全面把握对象总体情况,就不能单凭一个指标,而要靠一组相互联系的并与之相适应的指标来完整地反映对象总体。

指标体系就是一系列有内在联系的统计指标的集合体。

二、社会调查研究的程序
社会学研究之阶段与步骤
(1)确定课题:来源与社会学理论、当前社会现实和要解决的实际问题;具有强烈的时代感、为国家现代化服务;
(2)了解情况:查阅文献和向有经验、有知识的人了解,运用个案调查、典型调查进行探
索性研究;
(3)提出一定的想法和建立假设:差异式、函数式;
(4)建立概念和测量方法:采用适当的术语和概念;操作化定义;概念的表现形式往往具有多值性;
(5)设计问卷:内容包括事实、态度与看法、行为趋向、理由;方式有固定答题式和自由答题式;
(6)试填问卷:发现不周或遗漏之处在试填阶段予以纠正;
(7)调查实施(抽样调查):从局部推论到全体
(8)校核与登录
(9)统计分析与命题的检验:检验最初研究阶段的命题或假设是否得到证实或部分证实,在此基础上对研究内容提出建议和确定进一步的研究方案。

科学研究方法
抽象层
经验层
概念命题理论
原则观察
量度
搜集测定测定
分析

究设计
分析
数据使用计算机对数据记录
储存、管理与分析
三、社会调查研究的特点和统计学的运用
1、社会调查资料的特点:随机性、统计规律性
2、统计学的运用:以概率论为基础的数理统计学
理论、假设、操作化是统计分析的前提。

作用主要表现在经验层次的大面积数据处理方面。

资料分析前要注意使用统计分析的前提是否满足:①资料的信度和效度;②资料收集的科学性;③资料在总体中的分布是否满足统计分析的要求etc.
3、统计分析的内容:统计描述和统计推论
在统计描述中,主要有资料的整理、分类和简化成特征研究;在统计推论中,主要有参数估计、假设检验、回归、列联、方差、等级相关等统计技术。

四、选用统计分析方法
1、全面调查与非全面调查
抽样调查就是在一定条件下,不是抽取总体的全部单位,而是科学、客观的抽取总体中的一部分单位来加以研究,其目的是获得对于总体性质的正确叙述。

对全面调查一般采用统计描述,是将所观察的数据、资料进行整理、归纳和分析,以期找出某种规律。

常用的方法有次数(频次)分布、统计图、统计表、集中趋势测量、离散趋势测量、相关等。

根据统计资料的统计规律性,运用概率论,正确的从局部推论到总体,这种根据不完全数
据对总体做出正确推论的方法称作统计推论,又称统计归纳。

2、单变量和多变量
3、变量层次
数学运算特性=,≠定类

定序


定距定比







>,<
+,-
×,÷
变量类型的划分不是唯一的。

离散型变量是变量只可能取有限个或者一串值。

连续型变量是它可能取某一区间内所有的值。

五、统计误差
第二章 单变量统计描述
一、分布、统计表和统计图
1、分布
(1)频次分布:就是变量的每一取值出现的次数。

对于连续性变量,如定距变量,频次的 计算必须分组进行。

其中每组上限即下一组的下限,通常将下限包括在本组中,每组用组中 值表示。

(2)频率分布:用变量每个取值的频次数除以总个案数,它是一个相对指标,排除了样本 规模的影响,因而可以用来比较不同的样本。

一般频率分布使用比率的形式表示的。

2、统计表就是以表格形式来表示变量的分布。

在制作统计表时,若有未回答或回答不合要
求的情况有两种处理方法:(A)仍以调查总数为基础计算频率,这时应加入一类:未详。

(B) 以有效回答为基数计算频率,这时应在表的下面、紧接着表的地方注明:未详****户。

3、统计图是以图形表示变量的分布情况。

统计图虽然不如统计表精确,但是更直观、生动、 醒目。

圆瓣图、条形图、直方图、折线图
4、累计图或累计表表示的是某个变量值的频次是多少或小于某个变量值的频次是多少。

通 常可以比较个体在总体中的位置。

5、分布图分析
(1)峰点研究:有几个峰点,单峰 o r 多峰
(2)对称研究:有无对称轴,左偏态(负向偏态)or 右偏态(正向偏态) (3)U 形曲线与 J 形曲线 二、集中趋势测量法
集中趋势分析是从一组数据中抽象出的一个代表值,以代表现象的共性和一般水平。

除可 以说明某一社会现象在一定条件下数量的一般水平外 ;集中趋势还可以对不同空间的同类现 象或同一现象在不同时间的状态进行比较;以及分析某些社会现象之间的依存关系。

1、众数 就是出现频率最高的变量值。

可适用于任何测量层次的变量,对于定类和定序变 量,众数可直接从变量的频率分布中观察到;对于定距变量,如果变量是在第 i 组具有最高的 频率密度,则用第 i 组的组中值表示变量的众数。

2、中位数
就是数据序列之中央位置的变量值。

(1)未分组数据:①根据原始资料:观察总数 N 为奇数时 中位值取居中位置左右两数的平均值为中位值。

②根据频次分布:中位值位置= +
= +;观察总数
N 为偶数时
(2)分组数据:计算方法:①根据统计表中的累计百分比,找出含有 50%的区间;②求出
含有 50%区间的上界值 U 、下界值 L 、上界累计百分数 U %、下界累计百分比 L%和组距;③。

相关文档
最新文档