社会统计学 卢淑华
社会统计学(卢淑华)_第六章

第一节 统计推论
一、统计推论:根据局部资料对总体特征进行推断 特点: 1、局部资料的特性在某种程度上能反映总体的特征 2、抽样结果不能恰好等于总体的结果
二、理论基础:概率论 三、内容:
1、通过样本对总体的未知参数进行估计(参数估计) 2、通过样本对总体的某种假设进行检验(假设检验)
第二节 名词解释
二、评价估计值的标准
1、无偏性:x 的均值等于待估参数μ
如果 Qˆ 是总体参数Q的估计值,且Qˆ 分布的均值有 E Qˆ 称 Qˆ 是Q的无偏估计。
Q,则
2、有效性:
1)方法:如果两个估计值Qˆ1 x1 x2 xn 及 Qˆ 2 x1 x2 xn ,它
都满足无偏性,那么当 Qˆ1 的方差比 Qˆ 2 的方差小时,则Q1 较 Q 2 更
有效。
2)增加样本容量可以有效的增加一次抽样接近待估参数的概率。
x 样本均值
2
的方差:Dx n
样本方差
S 2 的方差
:D2 S
4
n 2 1
3、一致性: 一个数的估计值要求随样本容量n的增大而以较
大的概率去接近被估计参数的值。
把样本容量为n时的估计值记作 Qˆ n ,如果 n
第五节 正态总体的区间估计
一、置信度、置信区间
如果用Qˆ x1 x2 xn 作为未知参数Q的估计值,那么区间
包含参数Q之概率为1
的关系表达式为
Q Q,
——置信区间(反映估计的准确性)
1
置信度(置信概率)(置信区间估计的可靠性)
显著性水平(置信区间不可靠的概率)
置信区间与置信度的关系:
社会统计学(卢淑华)-第三章

接上例。某天,随机抽出一份表格,发现有错 误,办公室主管想知道由第一、第二、第三个 工作人员所造成的概率是多少?
第二节 概率分布、均值不方差
一、概率分布:
随机现象一共有多少种结果,以及每种结果伴随的概率。
1、离散型随机变量及其概率分布——分布列
概率分布:P X i Pi
例1:10人中,女性3人,抽3人,女性人数的概率分布。
③ 求[ E()]2P·( =xi)
④ 2=
5、方差的性质
① 常数的方差为0
② D(+C)= D()
③ D(C·)=DC2 ·()
④ 两个独立变量
D(+ )= D()+D( )
推广n个
例题
12名学生,3女,9男。任抽一人,如为女 生,则不放回,再抽一人,直到抽到男生 为止,求,抽到男生以前已抽出的女生人 数的数学期望与方差。
PAB PA P B A 或 PAB PB P A B
推论: PA1 A2 An PA1 AP1 A2PAn A1 A2 An
例题1
某城市中,有60%的家庭订阅日报,有80% 的家庭有电视机,假定这两个事件是独立 的,随机抽出一个家庭,发现既订日报又 有电视机的概率?
答案
PAi
B
PAi
• PB PB
Ai
其中
n
PB
i 1
PAi • PB Ai
全概例:
有三个工作人员被指定复制某种表格。某一人 复制了这种表格的40%,第二人复制了35%, 第三人复制了23%,第一人的错误率为0.04, 第二人的错误率为0.06,第三人的错误率为 0.03。随机抽一份表格,这份表格有错误的概 率为多少?
集
社会统计学(卢淑华),第十章

调查过程不应给被调查者带来身体或心理 上的伤害,避免涉及敏感或隐私问题。
数据处理与分析中的伦理问题
数据真实性
在处理和分析数据时,应确保数 据的真实性和完整性,避免篡改
、伪造或选择性使用数据。
数据安全性
采取必要的技术和管理措施, 确保数据的安全存储和传输, 防止数据泄露、损坏或丢失。
数据分析的客观性
报告统计结果时,应提供足够的信息 和数据支持结论,避免选择性报告或 隐瞒不利结果。
避免过度解读
在解释统计结果时,应避免过度解读 或夸大其意义,以免误导读者或产生 不必要的恐慌。
尊重被调查者的权益
在报告统计结果时,应注意保护被调 查者的隐私和权益,避免泄露个人信 息或造成不必要的伤害。
THANK YOU
社会问题调查
通过问卷调查、访谈、观察等方 法收集数据,了解社会问题的现
状、原因和影响。
社会问题分析
运用统计分析方法对调查数据进 行处理和分析,揭示社会问题的
本质和规律。
社会问题解决方案
基于分析结果,提出针对性的解 决方案和建议,为政府和社会各
界提供参考。
社会政策的制定与评估
社会政策制定
01
运用统计数据和分析结果,为政府制定社会政策提供科学依据
04
因子分析
一种通过降维技术,将多个相关变量简化为少数几个 综合变量的统计分析方法。
05
聚类分析
一种根据样本或变量之间的相似性或距离,将其分为 不同类别的统计分析方法。
02
描述性统计方法
频数分布与图形表示
频数分布表
将数据进行分类,并统计各类别出现的次数,形成 频数分布表,以直观展示数据的分布情况。
SAS是一款高级统计分析软件 ,具有强大的数据处理、分析 和可视化功能,适用于大规模 数据处理和复杂统计分析。
社会统计学(卢淑华)PPT培训课件

例:
根据生命表,年龄为60岁的人,可望活 到下年的概率P=0.95。设某单位年龄为 60岁的人共有10人,问:
(1)其中有9人活到下年的概率为多少 (2)至少有9人活到下年的概率为多少 (3)至多有9人活到下年的概率为多少
第四节 多项分布
以三项分布作为研究对象,依此类推
三项分布: P x1 , x2 , x3 n! P P P 1 x1 2 2x 3 x3
x
x nx
n
xa
例:
教师中吸烟的比例为50%,随机抽查教 师10人,求概率:
1、全不吸烟 2、1人吸烟 3、至少2人吸烟 4、2-4人吸烟
三、二项分布的数学期望
E
n
x
P
n
x
x
x
Cp q x
n
nx
n
p
x 0
x 0
5、二项分布的方差等于
2
2
6、查表方法
3、二点分布----一次贝努里试验的概率分布; 二项分布----n次贝努里试验的概率分布;
4、二点分布是二项分布的特殊情况
5、二点分布 :
变量的取值只有两类 ;
x
0
p
q
代码:0、1 ;
1
p
分布列:
6、二点分布的性质 1)P(=0)>0 P(=1) >0 2)P(=0)+ P(=1)=q+p=1 3)二点分布的期望与方差
如:同一地点的交通事故。
例
某城市一交叉路口每年平均发生交通事 故5起,如果交通事故的发生服从泊松分 布,在指定的一年内以下交通事故发生 的概率是多少?
社会统计学(卢淑华),第五章

卡方分布性质
性质1 如果随机变量 1 , 2 ,…… k 相互独立,
2
量:
x
2
1
2
i
k 2 i 1
仍然服从自由度为k的 X2 的平方分布。
性质2:
如果随机变量 和 独立,并且分别服 从自由度为K1与K2的X2 分布,则其和 服从自由度为K1 + K2的X2分布。
,求
2)P 1.3 3)P1.3 2.3
2、ξ 满足N 0,1 ,P 0.05 ,求λ 值。 3、ξ 满足 N 50,52 ,求 P 61
第四节 常用统计分布
一、X2分布(卡方分布) 1、设随机变量 1,2, k 相互独立,且都服
三、切贝谢夫大数定理
1、定义:设随机变量 , …是相互独立服 从 同 一 分 布 , 并 且 有 数 学 期 望 E i 差 Di 2 ,那么对于任何一个正数 ,
1
2
有: n 为 1 , 2 …n个随即变量的平均值 2、含义:当实验次数n足够大时,n个随机变 量的平均值 与单个随机变量的数学期望 的 差可以任意的小,这个事实以接近于1的很大 概率来说是正确的,即 趋近于数学期望 3、实际:意义可以用抽样的均值 做为总体均
P 2 z 2 0.9546
P 3 z 3 0.9973
例:
例1:σ相同而µ 不同。学习成绩:甲位于一班, 乙位于二班。一班平均成绩80分,二班平均成绩 60分,甲成绩80分,乙成绩80分。σ相同,为 10,比较二者在班上的成绩。 例二: µ 相同而σ不同:如果 1 2 60
社会统计学(卢淑华),第一章资料

一、社会统计学的发展
统计学的两大流派:数理统计学派和社 会统计学派
数理统计学派的原创始人是比利时的A ·凯特靳, 其最大的贡献就是将法国的古典概率引入统计 学,用纯数学的方法对社会现象进行研究; 社会统计学派的首倡者是德国的K·克尼斯,他 认为统计研究的对象是社会现象,研究方法为 大量观察法。
例:中学升学率调查
课题确定:升学率差异较大;学生择校
初探:收集文献,前人研究;咨询相关人员; 典型个案观察(好坏各2-3所中学)
假设:构思影响因素:1、师资专业水平,2、 学生入学水平,3、父母教育水平;
师资水平高
升学率高
入学成绩好
升学率高
父母教育水平高
升学率高
续例
操作化定义:如,师资:学历、职称、 获奖等;学生水平:考分、地域、性别 等;父母水平:学历、职业、教育子女的 时间等(注意:每一个定义就是一个变量, 要注意变量的各种可能取值)
1、混淆统计联系与因果关系 根据观测数据得到的统计联系(如相关 关系)只是因果关系存在的必要条件, 而不是充分条件。
2、事后解释错误 将探测性研究或描述性研究得到的理论 假设反过来作为假设检验来看待。
统计分析中常见的错误
3、生态学错误 混淆宏观模式与微观模式。 如:教育、经济水平越高的地区生育水平 越低,不能引申为个人教育水平与生育 水平的关系。 4、还原论错误 根据较低层次研究单位的分析结果推断较 高层次单位的运行规律。
联合国有关组织规定: 若低于0.2表示收入绝对平均; 0.2-0.3表示比较平均; 0.3-0.4表示相对合理; 0.4-0.5表示收入差距较大; 0.6以上表示收入差距悬殊。
二、社会学不社会统计学
1、社会学研究的重要环节 ▲课题---了解课题---假设---术语---问卷---调查---校核---统计
社会统计学(卢淑华),第十一章
系数。
d yx
ns nd ns nd n y
d
xy
ns nd ns nd nx
d yx :仅考虑在y方向的同分对 d xy :仅考虑在x方向的同分对
.
三、s值检验
H0: s 0
H1: s 0
统计量:
S
z —N(0,1)
Se
s ns nd
Y\x
10
1
12
4
32
2
22
4
23
4
32
2
12
1
12
5
.
4、 Gamma系数的PRE性质:
PRE ns nd ns nd 与G系数相同
5、当定序变量只有两种等级 G
n1 n4 n3 n2
不计符号时(方向)与Q系数相同
.
三、 Gamma系数的检验
H0: r0
H1: r0
统计量:
z G 1 G2
ns nd n
.
例:在某地选取409名已婚男人,研究他们对 母亲的感情会否影响他们对婚姻的适应,并问 是否有总体推论价值。
婚姻适应
丈夫对母亲的感情
平淡 不错 良好 很好
差
32 41 26 28 127
一般
28 47 41 22 138
很好
15 69 61 59 204
75 157 128 109 409
.
每对父子(女)作为一个观测单元,将其等 级写成一个集合:如(1,2)
将等级差平方后求和 其极值会是怎样?
.
r 1、相关系数 s
以等级差的平方和为基础来讨论等级相关。
社会统计学(卢淑华),第二章
计量资料频数表的编制
计量资Байду номын сангаас频数表的编制
一般情况下,样本含量小于30的统计资料 无须编制频数表,但对于大样本含量的资料,
编制频数表有利于进一步的统计分析、且频
数表本身也具有统计描述的作用.
编制频数表的步骤
编制频数表的步骤
第一组段包括极小值,最后 一组段包括极大值,除最后 一组段可同时标出上下限,
续例
计量资料频数分布表
118 例 13 岁女孩身高(cm)资料频数表。 身高组段 (1) 129~ 132~ 135~ 138~ 141~ 144~ 147~ 150~ 153~ 156~ 159~162 合计 频数 (2) 2 2 8 20 26 25 20 9 3 2 1 118 组中值 (3) 130.5 133.5 136.5 139.5 142.5 145.5 148.5 151.5 154.5 157.5 160.5 —
*
144.9 145.5 139.3 146.2 145.2 155.2 148.7 148.7 137.5 146.7 152.3 149.5
152.2 149.5 144.8 146.8 146.8 138.9 139.5 153.2 143.5 139.2 141.8 147.5
145.0 141.1 147.5 142.3 148.9 140.9 140.6 146.5 150.0 142.6 150.8 140.3
%
20.0 27.6 52.4 100.0
干部 工人 农民 总数
二、统计表
统计表的制作 要注意的问题: 1、标题、内容简明 2、统计栏数多时,要加编号 3、数字填写要求:位数对准,同栏数字、小数位 要一致,相同数字不可以写“同上”,无数字栏 用 “—”,缺资料“…” 4、表中数字用同一单位时,标在右上角 5、表的左右两端不封闭 判断 练习:分别制作定类、定序、定距变量统计表 注意:统计表的分组科学性问题
卢淑华-《社会统计学》讲义
社会统计学讲义第一章导论一、社会统计学1、社会统计学是运用统计的一般原理,对社会各种静态结构与动态趋势进行定量描述或推断的一种专门方法和技术。
研究对象:概括而言是指社会现象的数量方面。
2、选择统计分析方法的原则是根据研究目的和资料本身的特点选择。
3、统计分析的作用:(1)可对资料进行简化和描述;(2)可对变量间的关系进行描述和深入地分析(统计分析通过事后解释使得探讨变量间复杂的因果联系成为可能);(3)可通过样本资料推断总体(通过参数估计和假设检验,将样本推论到总体并指出这种推论的误差及做出这种推论的把握有多大)。
4、社会统计的基本程序(1)制定计划;(2)统计调查;(3)统计整理;(4)统计分析;(5)统计报告。
5、几个基本概念(1)总体与单位总体又称母体,是作为统计研究对象的、由许多具有共性的单位构成的整体。
构成总体的每一个个体称为总体单位,简称单位或个体。
3个基本特征:大量性、同质性和变异性。
(2)标志与变量总体的每个单位都具有许多属性和特性,说明总体单位属性或数量特征的名称在统计上称为标志,分为数量标志和品质标志。
可变的品质标志无法用数值表示,我们称之为变项;可变的数量标志能够用数值表示,我们称之为变量。
(3)指标与指标体系统计指标是反映总体(或样本总体)的数量特征的概念或范畴。
一个完整的统计指标由两部分构成:指标名称和指标数值。
在社会统计中,如要全面把握对象总体情况,就不能单凭一个指标,而要靠一组相互联系的并与之相适应的指标来完整地反映对象总体。
指标体系就是一系列有内在联系的统计指标的集合体。
二、社会调查研究的程序社会学研究之阶段与步骤(1)确定课题:来源与社会学理论、当前社会现实和要解决的实际问题;具有强烈的时代感、为国家现代化服务;(2)了解情况:查阅文献和向有经验、有知识的人了解,运用个案调查、典型调查进行探索性研究;(3)提出一定的想法和建立假设:差异式、函数式;(4)建立概念和测量方法:采用适当的术语和概念;操作化定义;概念的表现形式往往具有多值性;(5)设计问卷:内容包括事实、态度与看法、行为趋向、理由;方式有固定答题式和自由答题式;(6)试填问卷:发现不周或遗漏之处在试填阶段予以纠正;(7)调查实施(抽样调查):从局部推论到全体(8)校核与登录(9)统计分析与命题的检验:检验最初研究阶段的命题或假设是否得到证实或部分证实,在此基础上对研究内容提出建议和确定进一步的研究方案。
社会统计学(卢淑华),第十章ppt课件
第十讲 列联表
第一节 概念 1、研究内容 1)研究两定类变量的关系 2)为研究y的分类是否与x之分类有关,将
可编辑课件
30
E1即为猜错人数之和。 推广:
E1 n*1 (1 n*1 ) n*2 (1 n*2 ) n*r (
n
n
n 1
n
r
2
n j1 * j
可编辑课件
31
知道x与y有关后:用y的条件分布来猜y值 当x=男生时 随机10人,猜对聊天的人数:10×10/50 猜错的人数:10-10×10/50 随机40人,猜对游戏的人数:40×40/50 猜错的人数:40-40×40/50 猜错二者相加:=(10-10×10/50)+(40-40×40/50)
在1,1之间。
可编辑课件
20
1、 系数
ad bc
a bc d a cb d
0 ——当两变量相互独立
1 —— b、c为零, 值最大1
a、d为零, 值最小-1
1 ——一般情况
前例中计算
可编辑课件
21
2、Q系数
Q ad - bc ad bc
当a、b、c、d中有一个是零时,则 Q 1
x2 i 1
ni Ei2 Ei
~
2
r 1
3、
4、比较
可编辑课件
16
例:以下是老、中、青三代对某影片的抽 样,能否认为三代人对该影片评价有显 著差异
老
中
青
很高
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
P n n! n
n mn
n! nn m m! 1
例:
任选5个数字,可组成多个编号?
30人的班级,任意安排2人担任正副班 长,有多少种排法?
5种户型的住房,分给5人,有多少种分 配方案?
二、组合:
Cm n
Pm n
Pm m
nn
1
m!
n
m
1 n! m!n
x
x 0 x!
D
2
E
E
x
x e 2
2
2
• x!
x0
泊松分布参数的实际内容为它是其分布的数学期望 或方 差。
应用:
设在填写居民身份证1000张卡片中,共发现错字300个, 问每张居民身份证出现错字数的概率分布如何?
续前
3、当P0.1,甚至在n不必很大的情况下, 这种近似也存在,当n10时,这种近似 程度就很好了
例题
已知某校有5%的学生是贫困生,随机抽 出50人,求下列情况的概率:
1、至多2位贫困生 2、至少1位贫困生
解
设贫困生数为X,则X~b(50,0.05), n很大,p很小,近似服从泊松分布。
m!
例: 家庭成员共8人,问有多少对人际关系? (2人形成一对人际关系,且与方向无关)
第三节 二项分布
一、二项分布 1、与二点分布的区别
将同样的实验或观察,独立的重复n次 例:连续投掷硬币四次
2、推广:P x Cnx • P x • 1 P n x
3、二次分布的定义:n次实验中事件A出现次 数的概
3、二点分布----一次贝努里试验的概率分布; 二项分布----n次贝努里试验的概率分布;
4、二点分布是二项分布的特殊情况
5、二点分布 :
变量的取值只有两类 ;
x
0
p
q
代码:0、1 ;
1
p
分布列:
6、二点分布的性质 1)P(=0)>0 P(=1) >0 2)P(=0)+ P(=1)=q+p=1 3)二点分布的期望与方差
E()=0 ·q+1 ·p=p
D()= E(2) ( E)2=02 ·q+12 ·p p2= p p2 7、二分变量中取值0和1 只表示定类变量的编码,这种变
量又称虚拟变量。
第二节 排列不组合
一、排列
1、重复排列:
R
m n
n
n
2、非重复排列:
Pm
n nn1
3、全排列
x
x
x•
Cp q x
n••
n
x 0
5、二项分布的方差等于
2
2
6、查表方法
例:
根据生命表,年龄为60岁的人,可望活 到下年的概率P=0.95。设某单位年龄为 60岁的人共有10人,问:
(1)其中有9人活到下年的概率为多少 (2)至少有9人活到下年的概率为多少 (3)至多有9人活到下年的概率为多少
n!
P P 1x1 2x2
1
P1
Pn 2
x
x
1
2
x1! x2 !n x1 x2
例:
1、某班有学员30名,其中兄弟民族 13 名。任抽5名,求其中兄弟民族 人数的概率分布。
2、一批产品共20件,其中6件不合 格。任抽3件,求不合格产品的概率 分布。
第五节 超几何分布
1、适用条件:小群体研究 2、例: 设小组共有10名成员,7男3女。从中任
抽3名,求其中男性人数的概率分布。
超几何分布的概念及公式
设总体性质共分为两类:A类和非A类。总体总 数N。A类共有m个,从中任抽n个(nN-m), 则n中含有A类个数“”的概率分布为
C C x
n x
P x m• N m
λ =50*0.05=2.5 1、查累积泊松分布表,p(x≤2)=0.5438 2、p(x≥1)=1-p(x=0)=0.9179
续泊松分布的性质
4、泊松分布适合稀少事件的研究,也就是P值都 很小的情况。对于事件流,如果满足以下三个 条件: 1)稳定性:概率规律在时间上是不变的 2)独立性:在不相交的时间间隔内,发生两 个以上事件是 相互独立的 3)普遍性:在同一瞬间内,发生两个以上事 件是不可能的。 则:随机事件发生次数的概率分布满足泊松 发分布。
第四节 多项分布
以三项分布作为研究对象,依此类推
三项分布: P x1 , x2 , x3 n! P P P 1 x1 2 2x 3 3x
x1! x2 ! x3!
因为:x1 x2 x3 n
P1 P2 P3 1 所以,三项分布也可写成:
Px1 , x2
Cn N
(x=0,1,……)
当N很大,n较小时,超几何分布近似二项分 布。
第六节 泊松分布
一、公式:
P
x • e
x!
它是二项分布(n,p)的极限分布,只有一
个参数λ 。
二、泊松分布的性质
1、泊松分布为离散型随机变量分布,取值为0和一切正整 数。X=0,1,2,……
2、泊松分布的数学期望和方差
x m
3)A出现次数不少于a不大于b的概率
C p q b
Pa b
x
x nx
n• •
x a
例:
教师中吸烟的比例为50%,随机抽查教 师10人,求概率:
1、全不吸烟 2、1人吸烟 3、至少2人吸烟 4、2-4人吸烟
三、二项分布的数学期望
E
n
x
•
P
n
率分布。简写为:Bn, p
(n:实验次数 P:A在每次实验中出现的概率)
二、变量在某一取值区间的概率
1)A至多出现m次的概率
C p q m
P0 m
x
x nx
n• •
x 0
2)A至少出现m次的概率
C p q n
P mn
x
x
nx
n• •
第四讲
二项分布及其它离散型随机变量的分布
第一节 二点分布
1、贝努里试验 指只有两个可能结果的随机试验。 在现实生活中许多随机现象只有两种结果, 如,男-女;出现-不出现;合格-不合格等。 关注的结果---“成功”;另一结果—“失败”
2、n重贝努里试验 如果试验在相同的条件下重复n次,并且每次 的试验结果相互独立,则称n重贝努里试验。
如:同一地点的交通事故。
例
某城市一交叉路口每年平均发生交通事 故5起,如果交通事故的发生服从泊松分 布,在指定的一年内以下交通事故发生 的概率是多少?
1、8次或以上 2、不多于2次 3、3-11之 间