社会统计学

社会统计学
社会统计学

社会统计学

第一章导论

一.社会统计学的产生与发展

1.国势学派:(又称记录学派或历史学派)对国家显著事迹的记录和比较。

“有名无实”

代表人物:阿享瓦尔(1719—1772)“统计学之父”、康令(1606—1681)

2.政治算术学派:对国家事项首创数字对比、分析。“有实无名”

代表人物:威廉 配第(1623—1687)“政治经济学之父”、格朗特(1620—1674)3.数理统计学派:将法国古典概率论引入统计学,用纯数学的方法对社会现象进

行研究。

代表人物:凯特勒(1796—1874)“现代统计学之父”

4.社会统计学派:研究社会现象

代表人物:克尼斯(1821—1898)、梅尔(1841—1925)、恩格尔(1821—1896)二.社会统计学的对象和特点

社会统计学:用于统计的一般原理,对社会各种静态结构和动态趋势进行定量描述或推断的一种方法与技术。研究对象概括而言是指社会现象的数

量方面。

社会统计学特点:就研究对象而言,社会统计学主要是从研究和反映一定经济基础之上的上层建筑方面去认识社会;就研究内容而言,社会统计需

要对人们的态度、观念、行为进行度量,测量这些社会现象目前还

没有一个精确而统一的尺度,只能以近似估算或词语表达等方式来

代替;就调查方法而言,社会统计中,由于其研究对象所具有的特

征,抽样调查更为常用。

三.社会统计学的方法

1.大量观察法:就总体中足够多的单位进行调查和综合分析,用以反映社会总体

的数量特征。

2.大数定理:是随机现象出现的基本规律,一般意义为:观察过程中每次取得的

结果可能不同(因为具有偶然性),但大量重复观察结果的平均值却几乎接近某个确定的数值。

3.综合指标法

4.统计推断法

四.社会统计学的几个基本概念

1.总体与单位

总体:作为统计研究对象的,由许多具有共性的单位构成的整体。

单位:构成整体的每一个个体。

2.标志与变量,

标志:总体的每个单位都具有许多属性和特性,说明总体单位属性或数量特征的名称在统计上称为标志。

数量标志:凡能用数量的多少来表示的标志,称为数量标志,如年龄,它们用以说明事物量的规定性。

品质标志:凡不能用数量的多少来表示而只能文字表述的标志称为品质标志,如性别,它们用以说明事物质的规定性。

变量:可变的数量标志能够用数值表示,我们称之为变量。

3.指标与指标体系

指标:反映总体数量特征的概念或范畴。

数量指标:说明总体在外延上的数量特征,如人口总数、居民收入、产品产量等,一般都以总量指标的形式出现。

质量指标:说明总体在内涵上的数量特征,如人口密度、劳动生产率、产品价格等,一般都以相对指标或平均指标的形式出现。

!数量指标数值的大小随总体范围的大小而增减变动,而质量指标数值的大小与总体范围的大小没有直接关系。

第二章社会统计资料的搜集

一.统计调查的方法

1.普查:即全面调查,就是对研究对象的全体作无一遗漏的逐个调查

2.重点调查就是在研究现象的总体中,选取其中的重点单位进行调查。所谓重点单位,就是在总体中虽然所占数目不多,但这些单位的被研究的标志总量在总体的标志总量中却占有很大比重。

3.典型调查就是根据调查的目的和要求,在对所研究对象进行初步全面分析的基础上,从中选择有代表性的单位,做周密细致的调查。

4.抽样调查:是按照科学的原理和计算,从若干单位组成的事物总体中,抽取部分样本单位来进行调查、观察,然后用所得到的调查结果来推断总体。

简单随机抽样,首先它对总体中所有单位不进行分组只进行编号;然后为组成样本,它赋予总体中每一个单位以相同的被抽中的机会。

!重点区分重点调查、典型调查、与抽样调查

二.概念的操作化与测量

测量水平:

1. 定类尺度:将调查对象的不同属性或特征加以区分,标以不同的名称或符号以确定其类别。具有对称性和传递性,常见的定类尺度有性别、血型、宗教信仰等。

2.定序尺度:按照某种逻辑顺序将调查对象排列出高低大小,确定其等级及次序。具有反对称性和传递性,也具有方向性。无法进行加减乘除运算,只能进行大于和小于的运算。

3.定距尺度:不仅能够将社会现象或事物区分为不同的类别,不同的等级,而且可以确定它们相互之间的间隔距离和数量差别。可进行减法运算,无法进行除法运算。

4.定比尺度:可以确定一个绝对的或非任意性的零点,特征是两个数可以组成一个有意义的比率。常见的定比尺度有身高、体重、人数、收入等。

三.统计误差

登记性误差:是指在调查和统计过程中,由于各种主客观因素而引起的技术性、操作性误差以及由于责任心缘故造成的误差等。

代表性误差:是指由调查方式本身所决定的统计指标和总体指标之间存在的差数。全面调查只产生登记性误差没有代表性误差,而进行非全面调查时两种误差都可能发生。

第三章社会统计资料的整理

一.统计分组的原则:

1.分组应使各类别构成之和等于总体。

首先,分组应当穷尽总体的全部单位,即“穷举”;其次,分组界限的选择应使划分后每一数据只归属一组,不能造成各组的重叠和混淆,即“互斥”。

2.分组设计应能反映统计总体的分布规律性。

二.频数分布数列:在统计资料收集的基础上,按分组原则,将总体中所有单位依一定顺序归类整理,即可得到能够表明总体单位总数在各组分配情况的频数(或次数)分布数列,简称数列。频数分布数列是统计分组工作的产物。

1.品质数列:按品质标志进行分组;与定类尺度与定序尺度相联系;

2.数量数列:按数量标志进行分组。与定距尺度和定比尺度相联系;

三.统计总体的性质:同质性、大量性、变异性

四.变量数列的两个构成要素:1.变量值――用来分组并按大小顺序排列的数量标志的具体数值,用符号X i表示;2.频数――总体单位在各组中出现的次数,用符号f i表示;将各组频数除以总体单位总数N就得到相对频数,简称频率,用符号P i表示。变量数列分为离散型变量数列和连续性变量数列。

1.离散变量数列所描述的对象的数量特征,可以按一定次序列出它的整数值,相邻两变量值不会出现小数。离散变量的整数值如果变动幅度较小,可以将每一个变量值列为一组,编制单项数列;整数值如果变动幅度较大,而且总体单位数N 又很大,则要编制组距数列。

2.连续变量数列因在一个区间可以有无限多数值,无法按顺序一一列举,只能编制组距数列,相邻两组交界处的组限重合。至于恰等于某一组限的数据,应按照“上限不包括在内”的原则处理。

五.累计频数一般用大写字母F来表示,累计又分为向上累计和向下累计。1.所谓向上累计,是以变量数列首组的频数为始点,逐个累计各组的频数,每组累计频数展示了小于该组上限的频数合计有多少。

2.所谓向下累积,则是以变量数列末组的频数为始点,逐个累计各组的频数,每组累计频数展示了大于该组下限的频数合计有多少。

六.直方图是用矩形(或长条)的高度来表示数列各组的频数或频率。(直方图含义及与频率之间的关系——张彦课本P39页)

七.偏态分布:按偏离方向不同,分为右偏(正偏)和左偏(负偏)。右偏,曲线向右拖较长尾巴;左偏,曲线向左拖较长尾巴。

第四章集中趋势测量法

一.算术平均数:表示某一总体之总体单位平均所得的标志值的水平。

算数平均数的性质:

1.各变量值与算术平均数的离差之和为0.即∑(x?x)=0

2.各变量值对算术平均数的离差的平方和小于它们对任何其他数偏差的平方和

3.受抽样变动的影响较小

4.受极端值影响较大

5.分组资料如果有开放组距时,不经特殊处理不能进行计算

二.中位数:

(1)性质:

1.各变量与中位数之差的绝对值总和小于他们对任何他数之差的绝对值

总和;

2.中位数不受极端值的影响;

3.对于分组资料有开放组距可以求出中位数;

4.中位数受抽样变动的影响与算术平均数相比较大。(2).按中位数所在组的下限求中位数:

组距数列M d=L+N

2

?F n?1

f n

×?

其中:L为中位数所在组的下限;

f n为中位数所在组的频数;

F n?1为小于中位数所在组的各组频数之和(向上累计);

N为总体单位数;

?为中位数所在组组距;

(3).按中位数所在组的上限求中位数:

组距数列:M d=U?F n?N/2

f n

×?

其中:u为中位数所在组的上限;

f n为中位数所在组的频数;

F n为包括中位数所在组的各组频数之和(向上累计);

N为总体单位;

h为中位数所在组的组距;

三.四分位数

第一四分位数:Q1=l1+N/4?F1

f1

×?1

第三四分位数:Q3=l3+3N/4?F3

f3

×?3

其中:F1为小于第一四分位数所在组的各组累计频数(向上累计);

l1为第一四分位数所在组的下限;

f1为第一四分位数所在组的频数;

?1为第一四分位数组所在组的组距;

N为总体单位数

第三四分位数各符号以此类推!

四.众数:频数出现的峰值

组距数列求众数:M0=L0+?1

?1+?2

×?0

其中:L0为众数所在组的下限;

?1为众数所在组频数与前一组频数之差;

?2为众数所在组频数于后一组频数之差;

?0为众数所在组组距;

第五章离散趋势测量

一.全距:最大变量值与最小变量值之差,用R表示。极差越大,表明变量值之间的差异越大。极差适用于定序变量和定比变量。

全距最大的优点是:计算简单,便于理解。缺点是:1.受极端值影响大,遇含开口组的资料时将无法计算;2.由于没有量度中间各个单位间的差异性,所以数据利用率很低,信息丧失严重;3.受抽样变动影响很大。

二.四分位差:第三四分位数和第一四分位数的半距。用Q D表示

Q D=Q3?Q1

2

四分位差的意义是去掉数列中四分之一最小的部分和四分之一最大的部分,再根据中间50%部分测定四分之一的全距为多少,四分位差的优点是避免了极端值变动的影响。

三.平均差:各变量值对其算术平均数(或中位数)离差绝对值的算术平均数。

用A D表示A D=∑|X?X|

N

对于分组资料。计算平均差需要加权式:A D=∑f|X?X|

∑f

四.标准差:各变量值对其算术平均数的离差平方的算术平均数的算术平方根,标准差是测定总体各单位标志值的离散状况和差异程度的最佳指标。对于未分组资料,求标准差公式:(总体标准差可用σ表示)

s(σ)=√∑(X?X)2

N =√∑X2

N

?(∑X

N

)

2

对于分组资料,要用加权式处理:σ(s)=√∑f(X?X)2

N

五.异众比率:指非众数出现的次数占总数的比率。用V R来表示

V R=N?f m0

N

其中:f m

为众数的频数,N为总体单位

异众比率的意义在于能够表明众数不能代表的那一部分变量值在总体中的比重,异众比率越大,各变量值相对于众数越离散;异众比率越小,各变量值相对于众数越集中

六.变异系数:用离势的绝对指标除以其平均指标来求离势的相对指标,就可以在计量单位或平均水平不一的对象之间进行直接比较,这种由绝对离势转化而来的相对离势称为变异系数,用符号V表示。变异系数越大表明离散程度越大。

1.全距系数:是众数据的全距与其算术平均数之比。计算公式为:V R=X

2.平均差系数:众数据的平均差与其算术平均数之比。计算公式:V A D=X

3.标准差系数:众数据的标准差与其算术平均数之比。计算公式:V S=X

第六章相关与回归分析

一.变量之间的相互关系

1.相关程度:完全相关、不完全相关、完全不相关

2.相关方向:(区分)

正相关关系:指一个变量的值增加时,另一个变量的值也增加

负相关关系:指一个变量的值增加时,另一个变量的值却减少

3.因果关系与对称关系:

因果关系满足条件:

(1)两个变量有共变关系,即一个变量的变化会伴随着另一个变量的变化。(2)两个变量之间的关系不是由其他因素形成的,即因变量的变化是由自变量的变化引起的。

(3)两个变量的产生和变化有明确的时间顺序,即一个在前,另一个在后,前者称为自变量,后者称为因变量。

对称关系:对于表现为对称关系的相关关系来讲,在两个变量之间分不清哪个是自变量,哪个是因变量,或者说自变量和因变量可以根据研究目的任

意选定。

二.定类变量的相关分析

(一)列联表是按品质标志把两个变量的频数分布进行交互分类,由于表内的每一个频数都需要同时满足两个变量的要求,所以列联表又称条件频数表。

(学会根据列联表进行分析——张彦课本P198页)

(二).消减误差比例(记为PRE):表示根据一个变量(自变量X)的值去预测另一个变量(因变量Y)的值时,所减少的误差比率。即减少了百分之多少的误

差。PRE=原来的误差?后来的误差

原来的误差

=E0?E1

E0

0≤PRE≤1

(三).λ系数,统计值域[0,1],0表示没有相关,1表示全相关。(1).对称的λ系数(假设X为自变量,Y为因变量)

λ=∑f X0+∑f Y0?(F X0+F Y0)

2n?(F X0+F Y0)

式中:f Y

为X的每一分类中Y分布的众数的频数

f X

为Y的每一分类中X分布的众数的频数

F X

为X边际分布中的众数的频数

F Y

为Y边际分布中的众数的频数

n为样本单位数

(2).不对称的λ系数(假设X为自变量,Y为因变量)

λ=∑f Y

?F Y

0 n?F Y

式中: f Y

为X的每一分类中Y分布的众数的频数

F Y

为Y边际分布中的众数的频数

n为样本单位数

(3).λ系数特征:

1.0<=λ<=1

2.具有PRE意义

3.对称与不对称公式不同

4.以众数为预测的准则,对众数以外的条件频数不予理会

5.如果众数频数集中在列联表的同一行时,λ=0.无法显示变量间相关性(四).τ系数,求值公式为:

τ=∑∑f

2

F X

?∑F Y

2

n n?∑F Y

2

n

式中:f为列联表中的诸条件频数

F X为X边际分布中的诸频数

F Y为Y边际分布中的诸频数

n为样本单位数

1.当众数很突出,且众数分布不在同一行、同一列时,用λ系数较好

2.当众数不突出时,用τ系数更好

3.若众数集中在某一行或某一列,一定用τ系数

六.定序变量的相关分析(区分同序对、异序对、同分对)

1.同序对:在观察X序列时如果我们看到X i

称这一配对为同序对。同序对只要求X变化方向和Y变化方向相同,并不要求其变化大小相同,同序对的总数用符号n s表示。

2.异序对:在观察X序列时如果我们看到X iY j.

则称这一配对为异序对。同样,异序对只要求X变化方向和Y变化方向相反,并不要求其变化大小相同,异序对的总数用符号n d表示

3.同分对:(参考张彦课本P212页)

七.Gamma系数,适用于测量两对称的定序变项的相关系数。

计算公式为G=n s?n d n s+n d

八.定比变量的相关分析

积差系数、皮尔逊相关系数或r系数,计算公式为:

γ=x?x)(y?y)

√∑(x?x)2∑(y?y)2=

2222

1.r的取值在-1到1之间,绝对值越大,相关程度越高;绝对值越小。相关程

度越小。一般认为:|γ|≤0.3表示不相关;0.3<|γ|≤0.5表示低度相关;0.5< |γ|≤0.8表示中度相关;|γ|>0.8表示高度相关。

2.积差系数不解释两变量之间的因果关系,在r公式中,变量X和Y的关系是

对等的。

3.R公式中的两个变量都是随机的,因而改变两者的位置并不影响r数值。八.回归分析

{

a=y?bx b=∑(x?x)(y?y)

∑(x?x)2

b值的意义:b值得大小反映了X对Y有多大影响,b的绝对值越大,表示X 对Y的影响也越大;b有正负之分,正值表示X对Y有正向影响,即X增加Y也增加,负值则是负向影响,即X增加Y却减少。

相关系数与回归系数的区分:

首先,b的大小不限于-1到1之间,而是取决于回归直线的斜率,b的单位取决于变量X和Y的测量单位;r的取值范围在-1到1之间,它也没有量纲,是个纯数;

其次,计算r时,公式中X和Y是对等的,即将二者位置互换,r的值不变,表明r是一种对称关系的测量;在估算b时。X与Y位置不能互换,b系数具有非对称性,只能用X预测Y,不能用Y预测X。

再次,r公式中的两个变量都是随机的,而回归方程要表示因果关系,因而自变量不是随机的,只有因变量才是随机的。

第七章概率与概率分布

一.概率与频率区分

频率是在一次试验中某一事件出现的次数与试验总数的比值.概率是某一事件所固有的性质;频率是变化的每次试验可能不同,概率是稳定值不变;在一定条件下频率可以近似代替概率.

二.概率分布:当随机变量(X)的取值(x1,x2,…)满足了完备性和互不相容性

时,其取值和概率对的集合(x1,p1)(x2,p2)…….就是随机变量的概率分布。

三.频率分布与概率分布的原则:

1.经验分布/理论分布

2.随样本不同而不同/是先验的,具有唯一性

3.有对应的频数分布/无频率分布所对应的频数分布

四.概率的数学性质:

1.非负性:(0≤P(A)≤1)

2.加法规则:P(A+B)=P(A)+P(B)?P(AB)

3.乘法规则:P(AB)=P(A)?P(B

A )=P(B)?P(A

B

)

P(A+B)为A或B发生的概率;P(AB)为A且B发生的概率;P(A

B

) 为B已经发生条件下A发生的概率。

五.离数型随机变量及其概率分布

如果随机变量x的所有可能的取值可以一一列举出来,即所有可能的取值为有限个,则称x为离散型随机变量。如果对x的每一个可能取值,计算其实现的概率P,我们便可得到离散型随机变量的概率分布。离散型随机变量的概率分布的表示方法有3种,即公式法、列表法和图示法。

如果随机变量x的所有可能的取值不能一一列举出来,而是连续地充满某个区间,则称x为连续型随机变量。

六.数学期望:是反映随机变量X取值的集中趋势的理论均值,记做E(X)

离散型随机变量数学期望计算公式:E(X)=∑XP

七.参数估计

(一).点估计:根据样本数据算出一个单一的估计值,用来估计总体的参数值。特性:1.无偏性

2.有效性

3.一致性

(二).区间估计:指在一定的置信概率下,用样本统计值的某个范围去估计未知的总体参数。

1.置信区间:我们为了增加参数被估计到的信心而在点估计两边设置的估计区间。

2.置信概率:表示总体参数在置信区间内的可能性有多大。用1?α表示

3.显著性水平:一个置信区间未包含总体参数的概率,也即进行参数的区间估计时犯错误的概率。用 α 表示

4.置信概率的高低反映了区间估计的可靠程度,置信区间的大小则反映了区间估计的精确程度。

5.(1)已知总体方差σ2,大样本总体均值μ的置信区间为[x±Zα2?

√n

],其中σ为总体标准差;n为样本规模;x为样本均值,即总体均值μ的点估计;值由置信概率决定,当置信概率等于0.95时,Zα2?=1.96;当置信概率等于0.99,Zα2?=2.58.

(2)未知总体方差σ2时,总体均值μ的置信区间变为[x±Zα2?

√n

],为了使样本方差成为总体方差的一个无偏估计值,样本方差的计算公式应为

s=√∑(x i?x)2

n?1

八.二项分布

结果中包含所有排列的方式数,用(x

n )表示,计算公式为:(x n)=n!

x!(n?x)!

二项实验中随机变量X的概率分布即:P(X=x)=(x

n

)p x(1?p)(n?x)

例:社区少数民族占10%,问抽6个人。其中有2个人是少数民族的概率?

解:p=1

10 n=6 x=2(26)=6!

2!(6?2)!

=6×5×4×3×2×1

(2×1)(4×3×2×1)

P(2)=(2

6

)p2(1?q)4=6!

2!4!

×()()

九.假设检验的一般步骤:

1.建立虚无假设和研究假设,通常是将原假设作为虚无假设;

2.从所研究的总体中抽出一个随机样本;

3.确定一个适当的检验统计量,并利用样本数据算出其具体数值;

4.确定一个适当的显著性水平,并计算出其临界值,指定否定域;(1)第一类错误:零假设H0实际上正确,却被否定了。

(2)第二类错误:零假设H0实际上错误,却没有被否定。

5.计算检验统计量,将统计量的值与临界值进行比较;

6.统计量的值落在否定域,拒绝H0,否则不拒绝H0。

判定:

1.当实验的规模很小,而作出维持原假设的问题,这可能只是数据太少,不是真的表明契合零假设

2.当实验规模很大,而得到否定零假设的结果,需要进一步考虑与零假设的偏离多大

3.若实验规模很大,仍能维持原假设,认为是对原假设的有力支持

统计学20个重点知识整理

一、统计的含义及其之间的关系 统计一词一般有三种含义,即统计工作、统计资料和统计学。 1、统计工作即统计实践活动,是指按照调查研究的任务,对社会经济现象的数量方面进行搜集资料、整理资料和分析运用资料等一系列调查研究的工作过程。 2、统计资料是指反映社会经济现象特征的各项数字资料以及与之有联系的其他资料,包括调查阶段搜集的原始资料,经过加工整理和分析后的图标和文字资料等系统资料。 3、统计学是研究怎样进行社会经济统计活动的方法论科学,它阐述了统计研究社会经济现象的数量和数量关系时应该遵循的原理、原则和采用的方法等,是系统化的知识体系。 4、关系:统计资料是统计工作的成果,是对社会经济现象进行统计研究的基础;统计学是统计活动经验的科学总结和理论概括,统计学来源于实践,又高于实践,对统计实践起着指导的作用;统计工作要以统计学的理论为指导,并检验和发展统计理论。 二、统计总体和统计单位及其之间的关系 1、统计总体:是由客观存在的、具有某种共同性质的许多个别单位所构成的整体,简称总体。 2、统计总体的特征:大量性、同质性、差异性 3、总体单位:构成统计总体的个别事物 4、例:要研究某一乡镇企业的职工素质情况,则该乡镇企业的全体人员构成一个总体,其中每一个职工就是总体单位。 5、关系:a.总体由总体单位组成; b.组成总体的个体是有差别的; C.根据统计研究目的的不同,总体与总体单位是可以相互转化的。 三、统计指标和统计标志之间的关系 两者之间既有明显的区别,又有密切的联系。主要区别在于: 1、指标说明总体特征;而标志则说明总体单位特征; 2、统计指标必须是可量的;统计标志未必都是可量的; 3、统计指标具有综合性;而统计标志一般不具有综合性; 两者之间的主要联系在于: 1、许多统计指标的指标数值是从总体单位的数量标志值汇总而来; 2、指标与标志之间存在着变换关系; 例如:要了解我国粮食生产状况,则我国的粮食总产量是指标,而某省的粮食总产量是标志。 四、一个完整的统计调查方案包括的内容 1、确定调查目的; 2、确定调查对象和调查单位; 3、确定调查项目,设计调查表; 4、确定调查时间和方法; 5、制定调查工作的组织实施计划 五、统计调查的分类 1、按统计调查方式的不同,可分为定期统计报表和专门调查; 2、按调查总体包括的范围不同,可分为全面调查和非全面调查; 3、按调查登记的时间是否具有连续性,可分为经常性调查和一次性调查; 4、按统计调查是否具有强制性,可分为政府统计调查、民间统计调查和涉外社会调查; 5、按收集资料的方法,可分为直接观察法、报告法、采访法和问卷法

广东财经社会统计学期末考试试卷(A卷)

广东财经社会统计学期末考试试卷(A卷) 一、单项选择题(请将正确选项的序号填在答题纸相应的位置。) 1.社会统计中的变量一般分四个层次,其中最高层次的变量是 D 。 A、定类变量 B、定序变量 C、定距变量 D、定比变量 2.标准正态分布的均值一定 C 。 A、等于1 B、等于-1 C、等于0 D、不等于0 3.计算中位值时,对于未分组资料,先把原始资料按大小顺序排列成数列,然后用公式 D 确定中位值所在位置。 A、n/2 B、(n-1)/2 C、(n+2)/2 D、(n+1)/2 4.下列统计指标中,对极端值的变化最不敏感的是 A 。 A、众值 B、中位值 C、四分位差 D、均值 5.如果原假设是总体参数不小于某一数值,即大于和等于某一数值,应采用的检验是。 A、两端检验 B、右端检验 C、左端检验 D、无法判断 6.在一个右偏的分布中,大于均值的数据个数将。 A、不到一半 B、等于一半 C、超过一半 D、视情况而定 7.下列关于“回归分析和相关分析的关系”的说法中不正确的是。 A、回归分析可用于估计和预测 B、相关分析是研究变量之间的相互依存关系的密切程度 C、相关分析不需区分自变量和因变量 D、回归分析是相关分析的基础 8.假定男性总是与比自己年轻3岁的女性结婚,那么夫妻年龄之间的积距相关系数r为。 A、-1 < r< 0 B、0 < r< 1 C、r = 1 D、r = -1 9.“4、6、8、10、12、26”这组数据的集中趋势宜用测量。 A、众值 B、中位值 C、均值 D、平均差 10.某校期末考试,全校语文平均成绩为80分,标准差为4.5分,数学平均成绩为87分,标准差为9.5分。某学生语文得了83分,数学得了92分,从相对名次的角度看,该生的成绩考得更好。 A、数学 B、语文 C、两门课程一样 D、无法判断 三、判断题(请在答题纸相应位置打√或?。) 1.无论分布曲线是正偏还是负偏,中位值都居于均值和众值之间。 2.一组数据的均值代表了该组数据中大多数的数据。 3.对于连续型随机变量,讨论某一点取值的概率是没有意义的。 4.异众比率越大,各变量值相对于众值越离散,众值的代表性越好。 5.只要样本量足够大,则不论总体分布如何,样本均值的抽样分布都服从正态分布。 6.检验均值差异时,独立样本采用“差的均值”、关联样本采用“均值的差”进行检验。 7.在显著性水平既定的情况下,一端检验比两端检验更容易拒绝H0。 8.不管相关关系表现形式如何,当r=1时,变量X和变量Y都是完全相关;当r=0时,变量X 和变量Y都是完全不相关。 9.方差分析就其内容来说,是分析或检验总体间的均值是否存在差异。 10.纳伪的概率β可以根据原假设H0所设的分布计算出来。 1

《概率论与数理统计》笔记

《概率论和数理统计》笔记 一、课程导读 “概率论和数理统计”是研究随机现象的规律性的一门学科 在自然界,在人们的实践活动中,所遇到的现象一般可以分为两类: 确定性现象随机现象 确定性现象 在一定的条件下,必然会出现某种确定的结果.例如,向上抛一枚硬币,由于受到地心引力的作用,硬币上升到某一高度后必定会下落.我们把这类现象称为确定性现象(或必然现象).同样,任何物体没有受到外力作用时,必定保持其原有的静止或等速运动状态;导线通电后,必定会发热;等等也都是确定性现象. 随机现象 在一定的条件下,可能会出现各种不同的结果,也就是说,在完全相同的条件下,进行一系列观测或实验,却未必出现相同的结果.例如,抛掷一枚硬币,当硬币落在地面上时,可能是正面(有国徽的一面)朝上,也可能是反面朝上,在硬币落地前我们不能预知究竟哪一面朝上.我们把这类现象称为随机现象(或偶然现象).同样,自动机床加工制造一个零件,可能是合格品,也可能是不合格品;射击运

动员一次射击,可能击中10环,也可能击中9环8环……甚至脱靶;等等也都是随机现象. 统计规律性 对随机现象,从表面上看,由于人们事先不能知道会出现哪一种结果,似乎是不可捉摸的;其实不然.人们通过实践观察到并且证明了,在相同的条件下,对随机现象进行大量的重复试验(观测),其结果总能呈现出某种规律性.例如,多次重复抛一枚硬币,正面 朝上和反面朝上的次数几乎相等;对某个靶进行多次射击,虽然各次弹着点不完全相同,但这些点却按一定的规律分布;等等.我们把随机现象的这种规律性称为统计规律性. ●使用例子 摸球游戏中谁是真正的赢家 在街头巷尾常见一类“摸球游戏”.游戏是这样的:一袋中装有16个大小、形状相同,光滑程度一致的玻璃球.其中8个红色、8个白色.游戏者从中一次摸出8个,8个球中.当红白两种颜色出现以下比数时.摸球者可得到相应的“奖励”或“处罚”: 结果(比数) A (8:0) B (7:1) C (6:2) D (5:3) E (4:4) 奖金(元)10 1 0.5 0.2 -2 注:表中“-2”表示受罚2元

社会统计学试卷A及答案解析

级专业2010学年第 1 学期《社会统计学》试卷 A 姓名:学号: (□开卷□闭卷) 一、选择题:2*10=20分 1、要了解400个学生的学习情况,则总体单位是( B ) 。 A 400个学生 B 每一个学生 C 400个学生的成绩 D 每一个学生的成绩 2、只与一个自由度有关的是( A ) 分布 B 超几何分布C 泊松分布 D F分布 A 2 3、将总体按与研究有关的标志进行分组,然后再随机地从各组中抽选单位组成样本。这种 抽样方式叫( B )。 A 简单随机抽样 B 类型抽样 C 等距抽样 D 整群抽样。 4、在方差分析中,自变量是(A )。 A 定类变量 B 定序变量 C 定距变量 D 定比变量 5、某城市男性青年27岁结婚的人最多,该城市男性青年结婚平均年龄为26.2岁,则该城 市男性青年结婚的年龄分布为(B)。 A.正偏B.负偏 C.对称D.不能作出结论 6、分析统计资料,可能不存在的平均指标是( A )。 A 众数 B 算术平均数 C 中位数 D 几何平均数 7、在一个左偏的分布中,小于平均数的数据个数将( C )。 A 超过一半 B 等于一半 C 不到一半 D 视情况而定 8、若P(A)=0.2,P(B)=0.6,P(A/B)=0.4,则) P =( D )。 A (B A 0.8 B 0.08 C 0.12 D 0.24。 9、关于学生t分布,下面哪种说法不正确(B )。 A 要求随机样本 B 适用于任何形式的总体分布

C 可用于小样本 D 可用样本标准差S 代替总体标准差σ 10、对于大样本双侧检验,如果根据显著性水平查正态分布表得 Z α/2=1.96,则当零假 设被否定时,犯第一类错误的概率是( C )。 A 20% B 10% C 5% D .1% 二、判断题:2*10=20分 1、所有的统计指标都是变量。 ( 对 ) 2、统计所研究的对象就是社会经济现象的数量方面。 (错 ) 3、随机变量在相同的条件下进行观测,其可能实现的值不止一个。 (对 ) 4、在社会现象中,即使相同的意识作用也完全可能有不确定的结果,这就提供了概率论应用的可能性。 ( 对 ) 5、成功次数的期望值λ是决定泊松分布的关键因素。 ( 对 ) 6、进行区间估计,置信水平总是预先给定的。 ( 对 ) 7、可以对置信水平作如下解释:“总体参数落在置信区间的概率是(1-α)”。(错 ) 8、将收集到得的数据分组,组数越多,丧失的信息越多。 (错 ) 9、N 个变量值连乘积的平方根,即为几何平均数。 (错 ) 10、当样本容量n 无限增大时,样本均值与总体均值的绝对离差小于任意正数的概率趋于零。 (错 ) 三、简答题:5*7=35分 1、大数规律 大数规律是随机现象出现的基本规律,它的一般意义是:观察过程中每次取得的结果可能不同(因为具有偶然性),但大量重复观察结果的平均值却几乎接近某个确定的数值。 2、配对样本 所谓配对样本,指只有一个总体,双样本是由于样本中的个体两两匹配成对而产生的。 3、消减误差比例 变量间的相关程度,可以用不知Y 与X 有关系时预测Y 的误差0E ,减去知道Y 与X 有关 系时预测Y 的误差1E ,再将其化为比例来度量。将削减误差比例记为PRE 。 4、同分对 如果在X 序列中,我们观察到i j X =X (此时Y 序列中无i j Y =Y ),则这个配对仅是X 方向而非Y 方向的同分对;如果在Y 序列中,我们观察到i j Y =Y (此时X 序列中无i j X =X ),则这个配对仅是Y 方向而非X 方向的同分对;我们观察到i j X =X ,也观察到i j Y =Y ,则称这个配对为X 与Y 同分对。 5、什么是分层抽样? 分层抽样也叫类型抽样,就是先将总体按某种特征或属性分若干类别或层次,再按照一定比 例在各个子类别或层次中随机抽取,最后将各抽取的单位合并成样本。 6、简述回归分析和相关分析之间的密切联系。 一般说来,只有当两个变量之间存在着较高程度的相关关系时,回归分析才变得有意义和有价值。相关程度越高,回归预测越准确。因此,往往先进行相关分析,然后才选用有明显相关关系的变量作回归分析。与此同时,相关关系往往要通过回归分析才能阐释清楚,例如皮尔逊相关系数的PRE 性质。回归分析具有推理的性质,而相关分析从本质上讲只是对客观事物的一种描述,知其然而不知其所以然。因而从分析层次上讲,回归分析更深刻一些。 7、P 值决策与统计量的比较 P 值是被称为观察到的(或实测的)显著性水平。用P 值进行检验比根据统计量检验提供更多

社会统计学复习题(有答案)复习课程

社会统计学复习题(有 答案)

社会统计学课程期末复习题 一、填空题(计算结果一般保留两位小数) 1、第五次人口普查南京市和上海市的人口总数之比为 比较 相对指标;某企业男女职工人数之比为 比例 相对指标;某产品的废品率为 结构 相对指标;某地区福利机构网点密度为 强度 相对指标。 2、各变量值与其算术平均数离差之和为 零 ;各变量值与其算术平均数离差的平方和为 最小值 。 3、在回归分析中,各实际观测值y 与估计值y ?的离差平方和称为 剩余 变差。 4、平均增长速度= 平均发展速度 —1(或100%)。 5、 正J 形 反J 形 曲线的特征是变量值分布的次数随变量值的增大而逐步增多; 曲线的特征是变量值分布的次数随变量值的增大而逐步减少。 6、调查宝钢、鞍钢等几家主要钢铁企业来了解我国钢铁生产的基本情况,这种调查方式属于 重点 调查。 7、要了解某市大学多媒体教学设备情况,则总体是 该市大学中的全部多媒体教学设备 ;总体单位是 该市大学中的每一套多媒体教学设备; 。 8、若某厂计划规定A 产品单位成本较上年降低6%,实际降低了7%,则A 产品单位成本计划超额完成程度为 100%7% A 100% 1.06%100%6% -=- =-产品单位成本计划超额完成程度 ;若某厂计划规定B 产 品产量较上年增长5%,实际增长了10%,则B 产品产量计划超额完成程度为 100%10% 100% 4.76%100%5% += -=+B 产品产量计划超额完成程度 。 9、按照标志表现划分,学生的民族、性别、籍贯属于 品质 标志;学生的体重、年龄、成绩属于 数量 标志。

统计学知识点汇总情况

统计学知识点汇总 一、统计学 统计学是一门关于数据资料的收集、整理、分析和推断的科学。 三、统计的特点 (1)数量性: 社会经济统计的认识对象是社会经济现象的数量方面,包括现象的数量表现、现象之间的数量关系和质量互变的数量界限。 (2)总体性: 社会经济统计的认识对象是社会经济现象的总体的数量方面。例如,国民经济总体的数量方面、社会总体的数量方面、地区国民经济和社会总体的数量方面、各企事业单位总体数量方面等等。 (3)具体性: 社会经济统计的认识对象是具体事物的数量方面,而不是抽象的量。这是统计与数学的区别。(4)社会性: 社会经济现象是人类有意识的社会活动,是人类社会活动的条件、过程和结果,社会经济统计以社会经济现象作为研究对象,自然具有明显的社会性。 四、统计工作过程 (1)统计设计 根据所要研究问题的性质,在有关学科理论的指导下,制定统计指标、指标体系和统计分类,给出统一的定义、标准。同时提出收集、整理和分析数据的方案和工作进度等。 (2)收集数据 统计数据的收集有两种基本方法,实验法和调查法。 (3)整理与分析

描述统计是指对采集的数据进行登记、审核、整理、归类,在此基础上进一步计算出各种能反映总体数量特征的综合指标,并用图表的形式表示经过归纳分析而得到的各种有用的统计信息。 推断统计是在对样本数据进行描述的基础上,利用一定的方法根据样本数据去估计或检验总体的数量特征。 (4)统计资料的积累、开发与应用 对于已经公布的统计资料需要加以积累,同时还可以进行进一步的加工,结合相关的实质性学科的理论知识去进行分析和利用。 五、统计总体的特点 (1)大量性 大量性是指构成总体的总体单位数要足够的多,总体应由大量的总体单位所构成,大量性是对统计总体的基本要求; (2)同质性 同质性是指总体中各单位至少有一个或一个以上不变标志,即至少有一个具有某一共同标志表现的标志,使它们可以结合起来构成总体,同质性是构成统计总体的前提条件; (3)变异性 变异性就是指总体中各单位至少有一个或一个以上变异标志,即至少有一个不同标志表现的标志,作为所要研究问题的对象。变异性是统计研究的重点。 六、标志与指标的区别与联系 ■区别: 标志是说明总体单位特征的;指标是说明总体特征的。 标志中的品质标志不能用数量表示;而所有的指标都能用数量表示。 标志(指数量标志)不一定经过汇总,可直接取得;而指标(指数量指标)一定要经过汇总才能取得。

社会统计学期末复习提纲

《社会统计学》课程期末复习提纲 ·考试题型: 一、填空题(10×1分=10分)二、判断题(10×1分=10分) 三、单项选择题(20×1分=20分)四、简答题(2×6分=12分)五、计算题(4题共48分) ·各章复习要点 第一章总论 P.2 统计的含义:统计工作·统计资料·统计学。其中:统计工作和统计资料是活动过程和成果的关系;统计学和统计工作是理论和实践的关系。 “统计”一词包含三种涵义,并且具有密切的联系。其中:统计工作和统计资料之间是工作与成果的关系;统计学和统计工作之间是理论和实践的关系。(y ) P.11—P.13 定类尺度;定序尺度;定距尺度;定比尺度(结合课件相关内容) 量化尺度特征功能举例 1、定类尺度确定类别分类民族的测量 2、定序尺度确定类别排列顺序分类排序考试成绩等级的测量 3、定距尺度确定类别排列顺序测数量差别和间隔距离无绝对零点分类排序加减智商的测量 4、定比尺度确定类别有序排序测数量差别和间隔距离有绝对零点分类排序加减乘除体重的测量何谓定类尺度和定序尺度?两者有何区别?1定类尺度是确定事物类别的计量尺度---高一个层次 2定类只能区分不同性质的现象并予以归类---可将所区分的类别按高低,大小,好坏,强弱,优劣等顺序做有序排列。 3定类不能进行数的比较和数学运算--能进行大小比较。 何谓定距尺度和定比尺度?两者区别定距尺度是确定研究对象之间某些数值相差的距离的尺度---最高的数据计量尺度 缺乏绝对零点---有,0 2. 0只表示一个值,即0值---0是绝对零点,表示没有 3.只能加减,不能乘除---加减乘除,高层次的各种统计分析。 P.13—P.14 总体和总体单位 一、总体和总体单位 (一)总体 1、概念总体(也称为统计总体)是指客观存在的、在同一性质基础上结合起来的许多个别单位的整体(同质个体的集团)。 2、特点·客观性·大量性同质性·差异性 1、总体单位除了必须具备同质性外,还必须具备1、差异性(或变异性)性,否则

贾俊平《统计学》复习笔记课后习题详解及典型题详解(数据的搜集)【圣才出品】

第2章数据的搜集 2.1 复习笔记 一、数据的来源 1.数据的直接来源 数据的直接来源是指通过直接调查或实验活动直接获得一手数据,直接来源的数据又分为调查数据和实验数据。它们的不同之处在于: (1)调查数据为通过调查方法得到的数据,而实验数据为通过实验方法得到的数据。 (2)调查数据通常是针对社会现象而获取的,而实验数据大多是针对自然现象而获取的; (3)调查数据通常取自有限总体,即总体所包含的个体单位是有限的;而实验数据是指在实验中通过控制实验对象所搜集到的变量的数据。 2.数据的间接来源 (1)间接来源的数据(二手资料) 如果与研究内容有关的原信息已经客观存在,只是对这些原信息重新加工、整理,使之成为进行统计分析可以使用的数据,则称为间接来源的数据。 (2)二手资料的优点 搜集方便;数据采集快;采集成本低。 (3)二手资料的作用

分析所要研究的问题;提供研究问题的背景,帮助研究者更好地定义问题,检验和回答某些假设和疑问,寻找研究问题的思路和途径。 (4)二手资料的局限性 针对性不够;资料的相关性不够;口径可能不一致;数据也许不准确,也许过时等。 (5)对二手资料进行评估的内容 ①资料是谁搜集的?数据搜集者的实力和社会信誉度会在一定程度上影响数据说服力; ②搜集的目的是什么?为了某种特殊的利益而搜集的数据是值得怀疑的; ③数据是怎样搜集的?搜集数据的方法有很多,不同方法所采集到的数据,其解释力和说服力都是不同的。如果不了解搜集数据所用的方法,很难对数据的质量做出客观的评价。数据的质量来源于数据的产生过程; ④什么时候搜集的?过时的数据的说服力会受到质疑。 (6)使用二手数据的注意事项 使用二手数据,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。在引用二手数据时,应注明数据的来源,以尊重他人的劳动成果。 二、调查方法 1.概率抽样和非概率抽样 (1)概率抽样 概率抽样(随机抽样):指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。 ①概率抽样的特点 a.抽样时是按一定的概率以随机原则抽取样本,随机原则就是在抽取样本时排除主观

2020年自考《社会统计学》模拟试题及答案

2020年自考《社会统计学》模拟试题及答案 一、填空题 1.统计数据分组的关键在于。 2.一般说来,统计分组具有三方面的作用:(1) ;(2) ;(3) 。 3.根据分组标志的不同,统计分组可以有分组和分组。 4.按每个变量值分别列组所编制的变量分布数列叫,其组数等于。 5.在组距式数列中,表示各组界限的变量值叫。各组中点位置上的变量值叫。 6.组距式变量数列,根据各组的组距是否相等可以分为和。 7.已知一个数列最后一组的下限为900,其相邻的组中值为850,则最后一组的上限和组中值分别为和。 8.统计资料的表现形式主要有和。 9.从形式上看,统计表主要由、、和四部分组成;从内容上看,统计表由和两部分组成。 10.统计数据整理就是对搜集得到的进行审核、分组、汇总,使之条理化、系统化,变成能反映总体特征的的工作过程。 11.数据的预处理是数据整理先行步骤,它是在对数据分类或分组之前对和所做的必要处理,包括对数据的、和。 12.直方图是用——的宽度和高度来表示频数分布的图形。 13.雷达图是一种的图示方法。 二、单项选择题

1.统计分组的关键问题是( ) A确定分组标志和划分各组界限B确定组距和组数 C确定组距和组中值D确定全距和组距 2.要准确地反映异距数列的实际分布情况,必须采用( ) A次数B累计频率C频率D次数密度 3.按品质标志分组,分组界限的确定有时会发生困难,这是由于( ) A组数较多B标志变异不明显C两种性质变异间存在过渡形态D分组有粗有细 4.某连续变量数列,其末组为开口组,下限为200,又知其邻组的组中值为170,则末组组中值为( ) A260 B 215 C 230 D 185 5.下列分组中按品质标志分组的是( ) A人口按年龄分组B产品按质量优劣分组 C企业按固定资产原值分组D乡镇按工业产值分组 6.对企业先按经济类型分组,再按企业规模分组,这样的分组,属于( ) A简单分组B平行分组C复合分组D再分组 7.用组中值代表各组内的一般水平的假定条件是( ) A各组的次数均相等B各组的组距均相等 C各组的变量值均相等D各组次数在本组内呈均匀分布 8.对统计总体按两个及以上标志分组后形成的统计表叫( )

社会统计学复习题(有答案)

社会统计学课程期末复习题 一、填空题(计算结果一般保留两位小数) 1、第五次人口普查南京市和上海市的人口总数之比为 比较 相对指标;某企业男女职工人数之比为 比例 相对指标;某产品的废品率为 结构 相对指标;某地区福利机构网点密度为 强度 相对指标。 2、各变量值与其算术平均数离差之和为 零 ;各变量值与其算术平均数离差的平方和为 最小值 。 3、在回归分析中,各实际观测值y 与估计值y ?的离差平方和称为 剩余 变差。 4、平均增长速度= 平均发展速度 —1(或100%)。 5、 正J 形 反J 形 曲线的特征是变量值分布的次数随变量值的增大而逐步增多; 曲线的特征是变量值分布的次数随变量值的增大而逐步减少。 6、调查宝钢、鞍钢等几家主要钢铁企业来了解我国钢铁生产的基本情况,这种调查方式属于 重点 调查。 7、要了解某市大学多媒体教学设备情况,则总体是 该市大学中的全部多媒体教学设备 ;总体单位是 该市大学中的每一套多媒体教学设备; 。 8、若某厂计划规定A 产品单位成本较上年降低6%,实际降低了7%,则A 产品单位成本计划超额完成程度为 100%7% A 100% 1.06%100%6% -=-=-产品单位成本计划超额完成程度 ;若某厂计划规定B 产品产量较上年增长5%,实际增长了10%,则B 产品产量计划超额完成程度为 100%10% 100% 4.76%100%5% +=-=+B 产品产量计划超额完成程度 。 9、按照标志表现划分,学生的民族、性别、籍贯属于 品质 标志;学生的体重、年龄、成绩属于 数量 标志。 10、从内容上看,统计表由 主词 和 宾词 两个部分组成;从格式上看,统计表由 总标题 、 横行标题 、 纵栏标题 和 指标数值(或统计数值); 四个部分组成。 11、从变量间的变化方向来看,企业广告费支出与销售额的相关关系,单位产品成本与单位产品原材料消耗量的相关关系属于 正 相关;而市场价格与消费者需求数量的相关关系,单位产品成本与产品产量的相关关系属于 负 相关。 12、按指标所反映的数量性质不同划分,国民生产总值属于 数量 指标;单位成本属于 质量 指标。 13、如果相关系数r=0,则表明两个变量之间 不存在线性相关关系 。 二、判断题

统计学笔记(精修版)

绪论 第一节统计学的含义和作用 一、什么是统计学 1.统计学的含义 统计学是有效收集、处理、分析和解释数据,发现规律,以便更好决策的一门方法论学科。 2. 分析数据的方法有描述统计、推断统计。 ⑴描述统计 ①描述统计是将所收集的数据处理后,用数值、表格或图形形式表现的有用信息。 ②描述统计是基础,它为推断统计、统计咨询、统计决策提供必要 ⑵推断统计就是根据样本数据特征去估计或检验总体的数据特征。 二、统计学的作用和重要性 1.统计学的作用 人们用数据发现的规律做出更好的决策。 2.要发现规律,对统计数据通常有要求:客观性、适用性、准确性和及时性。 三、统计学是如何解决实际问题的? 统计学解决实际问题的基本思路是: ①提出与统计有关的实际问题; ②建立有效的指标体系; ③收集数据; ④选用或创造有效的统计方法处理、显示所收集数据的特征; ⑤根据所收集数据的特征、结合定性、定量知识作出总体特征的合理推断; ⑥根据推断给出更好决策的建议; 不解决问题时,重复第②-⑥步。 第二节统计学的基本概念 一、总体、单位和样本 1.总体 统计总体是根据一定目的确定的,由客观存在的、具有某种同质性的许多个别事物构成的整体。 ⑴同质性是确定统计总体的基本标准,它是根据统计的研究目的而定的。研究目的不同,所确定的总体也不同,其同质性的意义也随之变化。 ⑵统计总体还应具备大量性,即统计总体应应该由足够数量的同质性单位构成。 2.总体单位(简称单位)是组成总体的各个个体。如典型案例1中英军的每架战机;事例4中的每个居民。 3.由总体的部分单位组成的集合称为样本(又称子样)。构成样本的单位称为样品,样本中样品的数目称为样本容量。 4. 统计学解决问题的目的是认识总体的数据特征。但是,当调查是破坏性的,或者出于成本、时间等因素考虑时,不必要或不可能对构成总体的所有单位都进行调查。

社会统计学重点

1.社会调查研究的步骤:1.确定课题。 2.了解情况。 3.建立假设。 4.确定概念和测量方法。 5.涉及问卷。 6.试填问卷。 7.调查实施。 8.校核与登录。 9.统计分析与命题的检验。资料的整理归纳分析以及如何收集资料正是统计分析所要谈论的内容。 2.社会调查资料的特点:随机性和统计规律性。 3.怎样选用统计分析方法:1.全面调查和非全面调查。2.单变量和多变量。3.变量层次. 4.分布概念:指一个概念或变量,它的各个情况出现的次数或频次,又称频次分布。表现形式:数对的集合. 5.变量取值的要求—⑴变量取值必须完备;⑵变量取值必须互斥。 6.统计表:是用表格形式来标识前面所说变量的分布。它不需要文字叙述,就能反应出资料的特性以及资料之间的关系,在编印,传递方面有很大优点,比统计表更精确,但不及统计图直观。 7.统计表必须具备的内容:1.表号。2.表头。3.标识行。4.主体行。5.表尾。 8.根据变量的层次,可以选择以下不同的统计图形:定类变量:圆瓣图、条形图。定序变量:条形图。定距变量:直方图、折线图。 9.圆瓣图:是将资料展示在一个圆的平面上,通常用圆形代表现象的总体,用圆瓣代表现象中一种情况,其大小代表变量取值在总体中所占的百分数。 10.条形图:是用长条的高度来表示资料类别的次数或百分数。定类:离散。定序:离散或紧挨着的。 11.直方图:直方图从图形来看,也是紧挨着的长条形所组成,它与条形图不同,宽度有意义,一般来说,直方图是以长条的面积来表示频次或相对频次,而条形的长度。即纵轴高度表示是频次密度或相对频次密度。频次密度=频次/组距。 12.折线图:如果用直线连接直方图中条形顶端的中点,就是折线图。折线图可使资料的频次分布趋势更一目了然。 13.累计图和累计表:表示的是大于某个变量值的频次是多少或小于某个变量值的频次是多少。 14.众值:就是用具有频数最多的变量值来表示变量的集中值。 15.中位值:是数据序列之中央位置之变量值。未分组:N为奇数时:中位值等于n+1/2. N 为偶数时:中位值等于中间两变量和/2. 根据频次分布求中位值:中位值等于频次的和+1/2.中位值等于求出所对应值所在的区域。分组:1.计算出累计频次,得到累计百分比。2.确定最高频次所在组。 均值:总体各单位数值之和除以总体单位数目所得之商。 统计分析中习惯以X 来表示。 离散趋势测量法:

2018年春社会统计学期末复习训练题 (4)

2018年春社会统计学期末复习题 一、单项选择题 1.以下关于因变量与自变量的表述不正确的是() A.自变量是引起其他变量变化的变量 B.因变量是由于其他变量的变化而导致自身发生变化的变量 C.自变量的变化是以因变量的变化为前提 D.因变量的变化是以自变量的变化为前提 2.在频数分布表中,将各个有序类别或组的百分比逐级累加起来称为() A.频率 B.累积频数 C.累积频率 D.比率 3.离散系数的主要目的是() A.反映一组数据的平均水平 B.比较多组数据的平均水平 C.反映一组数据的离散程度 D.比较多组数据的离散程度 4.经验法则表明,当一组数据正态分布时,在平均数加减2个标准差的范围之内大约有() A.50%的数据 B.68%的数据 C.95%的数据

D.99%的数据 5.在某市随机抽取10家企业,7月份利润额(单位:万元)分别为 72.0、63.1、20.0、23.0、54.7、54.3、23.9、25.0、26.9、29.0,那么这10家企业7月份利润额均值为() A.39.19 B.28.90 C.19.54 D.27.95 6.用样本统计量的值直接作为总体参数的估计值,这种方法称为() A.点估计 B.区间估计 C.有效估计 D.无偏估计 7.在频数分布表中,比率是指() A.各组频数与上一组频数之比 B.各组频数与下一组频数之比 C.各组频数与总频数之比 D.不同小组的频数之比 8.下面哪一项不是方差分析中的假定() A.每个总体都服从正态分布 B.观察值是相互独立的 C.各总体的方差相等 D.各总体的方差等于0

9.判断下列哪一个不可能是相关系数() A.-0.9 B.0 C.0.5 D.1.2 10.用于说明回归方程中拟合优度的统计量主要是() A.相关系数 B.离散系数 C.回归系数 D.判定系数 11.在假设检验中,不拒绝虚无假设意味着() A.虚无假设是肯定正确的 B.虚无假设肯定是错误的 C.没有证据证明虚无假设是正确的 D.没有证据证明虚无假设是错误的 12.下列变量属于数值型变量的是() A.工资收入 B.产品等级 C.学生对考试改革的态度 D.企业的类型 13.如果用一个图形描述比较两个或多个样本或总体的结构性问题时,适合选用哪种图形()

统计学原理读书笔记

统计学原理读书笔记 1、统计工作是指对社会经济现象数量方面进行搜集、整理和分析工作的总称,它是一种社会调查研究活动。统计资料也即统计信息,是统计部门或单位进行工作所搜集、整理、编制的各种统计数据资料的总称,它是进行国民经济宏观调控的决策依据,是社会公众了解国情、国力和社会经济发展状况的信息主题。统计学是关于统计过程的理论和方法的科学。 2、统计学在研究社会经济现象时,首先从定性研究开始,即在搜集原始统计资料(统计调查)之前,就要根据所要研究对象的性质和研究任务、目的,确定调查对象的范围,规定分析这个对象的统计指标、指标体系和分组方法。——定性工作,为定量分析做准备。在定量分析基础上再达到认识社会经济现象的本质、特征或规律。 3、质——量——质 4、统计学特点: ①数量性(用大量数字资料说明事物的规模、水平、结构、比例关系、差别程度、普遍程度、发展速度、平均规模和水平、平均发展速度等) ②总体性(针对总体,研究过程是从个体到总体,即必须对足够大量的个体进行登记、整理和综合,是它过度到总体的数量方面,从而把握社会经济现象的总规模、总水平及其变化与发展的总趋势。 ③具体性(一定的质规定一定的量,一定的量表现一定的质。) ④社会性 5、统计工作的基本任务 ①全面、准确、及时地提供有关社会经济发展情况的资料为决策管理服务。 会议记录 买单率X 客单价 ‖‖ 商圈人流X20%=进店客流X(买单人数/进店客流数)X(营收/买单人数)=营收 进店客流少——行销品牌问题 买单率低——产品组合问题 客单价高——商圈和选址问题 选址在远离市区,开大商场,要求开车来,这样买单率和客单价会高,件单价会低,一买一车。选址在市内,开便利店,要求件单价高,客单价低,客流大。 人口变项——目的是做市调 人口结构——消费结构。 人口 品 项

社会统计学习题和答案--相关与回归分析报告

第十二章 相关与回归分析 第一节 变量之间的相关关系 相关程度与方向·因果关系与对称关系 第二节 定类变量的相关 双变量交互分类(列联表)·削减误差比例(PRE )·λ系数与τ系数 第三节 定序变量的相关分析 同序对、异序对和同分对·Gamma 系数·肯德尔等级相关系数(τa 系数、τb 与τc 系数)·萨默斯系数(d 系数)·斯皮尔曼等级相关(ρ相关)·肯德尔和谐系数 第四节 定距变量的相关分析 相关表和相关图·积差系数的导出和计算·积差系数的性质 第五节 回归分析 线性回归·积差系数的PRE 性质·相关指数R 第六节 曲线相关与回归 可线性化的非线性函数·实例分析(二次曲线指数曲线) 一、填空 1.对于表现为因果关系的相关关系来说,自变量一般都是确定性变量,依变量则一般是( 随机性 )变量。 2.变量间的相关程度,可以用不知Y 与X 有关系时预测Y 的全部误差E 1,减去知道Y 与X 有关系时预测Y 的联系误差E 2,再将其化为比例来度量,这就是( 削减误差比例 )。 3.依据数理统计原理,在样本容量较大的情况下,可以作出以下两个假定:(1)实际观察值Y 围绕每个估计值c Y 是服从( );(2)分布中围绕每个可能的c Y 值的( )是相同的。 4.在数量上表现为现象依存关系的两个变量,通常称为自变量和因变量。自变量是作为( 变化根据 )的变量,因变量是随( 自变量 )的变化而发生相应变化的变量。 5.根据资料,分析现象之间是否存在相关关系,其表现形式或类型如何,并对具有相关关系的现象之间数量变化的议案关系进行测定,即建立一个相关的数学表达式,称为( 回归方程 ),并据以进行估计和预测。这种分析方法,通常又称为( 回归分析 )。 6.积差系数r 是( 协方差 )与X 和Y 的标准差的乘积之比。 二、单项选择 1.当x 按一定数额增加时,y 也近似地按一定数额随之增加,那么可以说x 与y 之间 存在( A )关系。 A 直线正相关 B 直线负相关 C 曲线正相关 D 曲线负相关

(完整版)社会统计学简答题与计算题复习资料

社会统计学复习材料 简答题 1、统计数据的质量要求: 1、精度:最低的抽样误差或随机误差; 2、准确性:最小的非抽样误差或偏差; 3、关联性:满足用户决策、管理和研究的需要; 4、及时性:在最短的时间里取得并公布数据; 5、一致性:保持时间序列的可比性; 6、最低成本:以最经济的方式取得数据。 2、抽样误差及其影响因素: 1、由于抽样的随机性所带来的误差; 2、所有样本可能的结果与总体真值之间的平均性差异; 3、影响抽样误差的大小的因素:样本量的大小,总体的变异性。 3、判断计量优劣的评判标准: 用样本的估计量直接作为总体参数的估计值, 无偏性:估计量抽样分布的数学期望等于被估计的总体参数; 有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效;一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数。4、假设检验的一般步骤: (1)陈述原假设和备择假设; (2)从所研究的总体中抽出一个随机样本; (3)确定一个适当的检验统计量,并利用样本数据算出其具体数值;

(4)确定一个适当的显著性水平,并计算出其临界值,指定拒绝域; (5)将统计量的值与临界值进行比较,作出决策; (6)统计量的值落在拒绝域,拒绝H0,否则不拒绝H0。 5、假设检验中的两类错误及其之间的关系 错误: 1、第Ⅰ类错误(弃真错误)原假设为真时拒绝原假设,第Ⅰ类错误的概率记为a ,即显著性 水平; 2、第Ⅱ类错误(取伪错误)原假设为假时未拒绝原假设,第Ⅱ类错误的概率记为b 。 a 和 b 的关系就像翘翘板,a 小b 就大,a 大b 就小。因此,在样本容量n 固定情况下, 不能同时减少两类错误!一般采用增加样本容量的办法来解决。 关系:当显著性水平a 减小时,由于拒绝域的减小,弃真的错误会减小,但由此而来的是 接受域增大了,因此纳伪的概率b 要增大。反之亦然(P235)。也就是说如果要减小b ,就 增大显著性水平a 。 6、置信区间与置信度的关系表达式: ()αεθθεθ -=+≤≤-1??P []εθεθ+-?,?称作置信区间。α-1称作置信度,可信度,或置信水平。α称置信水平。在样本容量一定的情况下,置信区间和置信度是相互制约的。置 信度愈大,则相应的置信区间也域宽。当把区间估计得小一些,估计的精确程度提高了,但换取的代价将是估错的可能性增加了,也就是可靠性或置信度 α-1下降了。(P201) 7、正态分布曲线的特征: (1)一个高峰:曲线是单峰,有一个最高点。 (2)一个对称轴。曲线的高峰处有一个对称轴,在轴的左右两边是对称的。

黄良文《统计学》(第2版)笔记和课后习题(含考研真题)详解 第1章 导 论【圣才出品】

第1章导论 1.1复习笔记 一、统计学的对象和方法 1.统计和统计学 (1)统计工作的产生和发展 统计工作就是通过社会调查或科学实验,搜集客观现象的现实数据,用来描述和分析自然、社会、经济、政治、文化现象的变化情况。其产生和发展过程包括: ①适应市场经济的发展以及国家对外扩张的需要,大大拓展了统计的活动范围。 ②设立统计专业机构,促成统计活动专业化、独立化。 ③统计方法的完善,大大提高了统计的认识能力。 ④电子计算技术为统计活动的现代化进程提供了手段。 (2)统计学的产生和发展 最初的统计学是作为国家重大事项的记述。这一学派称为国势学派或记述学派,其创始人是17、18世纪德国的海尔曼·康令(H.Conring,1606—1681)和高特弗洛里特·阿亨瓦尔(G.Achenwall,1719—1772)。 经历18世纪到19世纪中叶,把概率论引入统计学,使统计方法发生了重大的飞跃。其代表人物有法国的拉普拉斯(https://www.360docs.net/doc/15338153.html,place,1749—1827)和比利时统计学家阿道夫·凯特勒(A.Quetelet,1796—1874)。政治算术派是以总体数量比较的方法对社会经济问题进行分析,代表人物有威廉·配第(W.Petty,1623—1687)和约翰·格朗特(J.Graunt,1620—1674)。 此后,应用概率论研究随机现象数量规律的数理统计方法及其在各个领域的应用迅速得

到发展。描述统计学以卡尔·皮尔逊(K.Pearson,1857—1936)为代表,到了20世纪20年代的推断统计学以费歇尔(R.A.Fisher,1880一1962)为创始人。 2.统计学的研究对象 统计学的研究对象是指统计研究所要认识的事物客体。统计对象的特点包括数量性、总体性、单位的变异性的特点。而社会经济统计学的研究对象除了具有上述的数量性、总体性、变异性外还具有社会性。 3.统计学的研究方法 (1)统计的组织系统 ①统计的社会系统 统计活动系统包括统计主体、统计客体和统计宿体三个组成部分。其统计流程图,如图1-1所示。 图1-1统计流程图 ②统计工作系统 统计主体的认识活动,有一个严密的工作系统。这个系统具有明显的层次性和阶段性。 统计工作过程一般分为统计设计、统计资料搜集、统计资料整理、统计资料分析、统计资料提供和管理等阶段。 2.统计研究的方法 (1)大量观察法 大量观察法:统计研究客观现象和过程的规律,是从现象总体上加以考察,就总体中的

社会经济统计学原理试题及答案

社会经济统计学原理试题及答案 统计学原理试题( A ) 一、填空题 ( 每小题 1 分,共 10 分 ) 1. 标志按其特征的不同,可以分为品质标志与 ________ 。 2. 统计指标由指标名称和 ________ 。 3. 统计分组的关键在于选择分组标志和划分 ________ 。 4. 总量指标按其反映的内容不同,可进一步细分为标志总量和 ________ 。 5. 平均指标反映了总体分布的 ________ 。 6. 测定循环变动的常用方法称为 ________ 。 7. 如果用的是各年份季度资料,应采取 ________ 移动平均。 8. 三个或三个以上在经济上有联系,数量上保持一定对等关系的指数形成的一个整体,称为 ________ 。 9. 就方法来说,参数估计的基础是概率论中的大数法则和 ________ 。 10. 估计标准误差愈小,根据回归直线方程式计算的估计值就 ________ 。 二、单项选择题 ( 每小题 1 分,共 15 分 )在每小题列出的四个选项中只有一个选项是符合题目要求的,请将正确选项前的字母填在题后的括号内。 11. 社会经济统计学属于社会科学的 ( )

A. 实验论和理论性的学科 B. 方法论和应用性的学科 C. 系统论和全面性的学科 D. 信息论和社会性的学科 12. 下列属于数量标志的是 ( ) A. 职工的工龄 B. 职工的性别 C. 职工的政治面貌 D. 职工的籍贯 13. 某人的民族是汉族,则汉族是 ( ) A. 数量标志 B. 品质标志 C. 统计总体 D. 总体单位 14. 统计设计的中心内容是 ( ) A. 确定统计指标和指标体系 B确定统计分析的方法 C.确定统计分析的内容 D明确统计研究的目的 15. 调查项目的承担者是 ( ) A. 调查对象 B. 调查项目 C. 调查单位 D. 填报单位 16. 对连续型组距数列,凡是某单位的标志值刚好等于相邻两组上下限数值时,一般是 ( ) A将此值归入上限所在组 B将此值归入下限所在组 C将此值归入上限所在组或下限所在组 D. 另立一组 17. 某校 2001 年在校学生人数 6000 人,毕业生人数 1400 人,上述两个指标是 ( ) A. 均为时期指标 B. 均为时点指标 C. 前者为时期指标,后者为时点指标 D. 前者为时点指标,后者为时期指标 18. 第一组工人的平均工龄为 6 年,第二组为 8 年,第三组为 10 年,第一组工人数占总数的 30% ,第二组占 50% ,则三组工人的平均工龄为 ( ) A.8 年 B.7.55 年 C.32.5 年 D.7.8 年 19. 某企业有三个流水连续作业车间,某月份间产品合格率分别为 95% , 90% , 85 ,全厂平均合格

相关文档
最新文档