应用统计学.基础复习

第一章绪论

第一节研究对象

1统计学

1.1统计学分为数理统计与应用统计,

1.2应用统计分为心理统计、生物统计、医学统计、社会统计、经济统计等等…

1.3心理统计分为描述统计、推论统计、研究设计。

2.推论统计

2.1推论统计常用于从局部数据估计总体情况。

例:6岁儿童的男女身高差异问题的研究。从某地区随机抽取男生30人,平均身高为114cm;女生27名,平均身高为112.5cm。

能否根据这一次测量的结果下结论:6岁男生的身高比女生高?

2.2心理与教育类实证研究的结果,基本上都不能直接得出结论,而需要运用推论统计。

第二节为什么要学习统计学

一、发现随机现象的运动规律二、贯穿整个心理学研究过程的方法与技术

三、心理学研究资料分析的技术四、“行话”——方便交流、阅读与撰写

五、心理学专业的应用技术之一

第三节基础概念

一、总体、样本和个案

例:关于汽车限行制度,想了解A城市民对此事件的态度

调查对象:所有A城市民调查目的:赞成vs.反对,各自的比例

可以去问所有的A城市民吗?

不可能,只能问其中一部分,并根据该部分的观点来了解永川市民的总体观点

二、统计量(特征量)和参数

(一)总体的特性称为参数,用希腊字母表示; 样本的特性称为统计量,用英文字母表示(二)统计量(特征量)和参数

统计指标统计量参数

平均数

标准差

相关系数

回归系数

三、数据(变量)的类型

(1)根据数据反映的测量水平,可分为:

“称名”,特点:起名称作用,不同的数字没有大小之分(不可比较),不能加减乘除。“顺序”,特点:可比较,不能加减乘除。

“等距”,特点:可比较、可加减,不能乘除。

“比率”,特点:可比较、可加减乘除。

四种类型变量的数学关系比较

数据类型数学关系

=or≠>or< + or -×or ÷

称名√

顺序√√

等距√√√

等比√√√√

(2) 离散数据(又称间断数据)和连续数据

A.离散数据的特点:

a.离散数据,变量的数值在变化上是有限的,数值与数值之间无法找到跟小单位的数值(如人数、性别、国籍等)

b.离散数据的所有取值在数学上是不连续的,所有取值的数目是有限的,可以一一列举,相邻的两个取值之间不能再取中间值。

c.离散数据往往只能取整数,不能无限细分。

B.连续数据的特点:

a..连续数据, 如果技术允许,数值可以无限分割(如身高、体重等)

b.连续数据是指在一定范围内连续变化、取值无限多的变量,不能一一列举。

如人数是离散数据

c.长度、温度、重量、时间等都是连续数据

Q: 心理测验或教育考试中五分制得分和百分制得分属于哪一种数据(离散or连续)?A: 五分制是离散数据。一般将百分制近似地看作连续数据。

Q: 心理测验或教育考试中五分制得分和百分制得分分别属于哪一种数据(称名、顺序、等距、等比)?

A: 五分制是顺序数据。

一般将百分制近似地看作等距数据。

通常将量表分数也近似看作等距数据。

◆通常来说:

称名数据和顺序数据是离散型数据(不可任何运算)

等距数据和比率数据是连续型数据(可加、减)

?练习:

1.找出下列数据中与其他不同类的数据:A.60斤 B.60升 C.60米 D.60辆

2.通常的百分制考试分数属于()数据

3.通常将量表分数视为()数据

4.从变量水平的角度,找出下列数据中与其他不同类的变量取值

A.10厘米

B.10克

C.10毫升

D.10摄氏度

✧注意事项:

i.数据类型:是本门课程的基础,是心理学量化研究的基础,务必烂熟于心!!

ii.离散/连续:正确区分连续变量(等距与比率)与离散变量(称名与顺序),方能选用正确的统计方法。

2 统计图表

⏹注意事项:统计表的标题位于上方

统计图的图题位于下方

⏹常用统计图

(1)条形图→离散型data

(2)圆形图→间断性data

(3)线性图→连续性data

(4)散点图→两列变量均为连续性data

3 集中量数

●集中量,用来表现数据资料的典型水平或集中趋势(central tendency)。

●常用的集中量包括算术平均数、加权平均数、调和平均数、中(位)数和众数等等。

3.1 算术平均数

●算术平均数(arithmetic average )一般简称为平均数(average)或均数、均值(mean)。

●一般用M,或者用表示。

●算术平均数是应用最普遍的一种集中量。

3.1.1 算术平均数的计算公式

注:

3.1.2 平均数的性质

(1)

即:观测值与平均数之差(称为离差)的总和为零。

(2)每个观测值都加上一个常数C 后,计算得到的平均数等于原平均数加上这个常数。(3)每个观测值都乘以一个常数C 后,计算得到的平均数等于原平均数乘以这个常数。(4)一组数据中最小的是:

即:各观测值与算术平均数之差(离差)的平方和最小。

3.1.3 算术平均数的意义

a)算术平均数是是“真值”(true score)的最佳估计值。

b)真值是反映某种现象的真实水平的分数。由于测量过程中的各种偶然因素的影响,真值

往往很难得到。

c)在实际测量中,往往采用“多次测量,取平均数”的方法,用平均数去估计真值。

3.1.4 算术平均数的优缺点

A.算术平均数具备一个良好的集中量所应具备的一些特点:反应灵敏; 严密确定; 简明易

懂; 适合进一步代数运算;与中位数、众数相比,受抽样变动影响较小等等。

B.主要不足:容易受两极端数值的影响;如有模糊不清的数值时,无法计算。

3.1.5 计算和应用算术平均数的原则

a)同质性原则:算术平均数只能用于表示同类数据的集中趋势。

b)平均数与个体数值相结合的原则:在解释个体特征时,既要看平均数,也要结合个体的

数据。

c)平均数与标准差、方差相结合原则:描述一组数据时既要分析其集中趋势,也要分析离

散程度。

?练习:

现有原始数据96、91、88、82、80、79、74

①.计算它们的算术平均数;(84)

②.对每个数加以5,再计算它们的算术平均数;

③.对每个数乘以5,再计算它们的算术平均数;

根据以上各小题的计算结果可以得出什么规律?

3.2 中位数

●中位数(median)又称为中数,是按顺序排列的一组数据中位于中间位置的数。

●中位数是常用集中量的一种。一般用Md或Mdn表示。

3.2.1 中位数的计算方法

首先将一组数据按顺序排列:

3.2.2 中位数的优缺点

⏹中位数的优点

a)中位数是根据全部数据的个数来确定其位置的,意义简明;

b)对按顺序排列的数据来讲,计算中位数也比较容易;

c)中位数不受两端极端数据的影响

⏹中位数的缺点

A.反应不灵敏;

B.不适合进一步代数运算的要求。

3.2.3 中位数的适用条件

i.一组数据中有极端数据时;

ii.一组数据中有个别数据不确切、不清楚时;

iii.当需要快速估计一组数据的代表值时,也常用中数

iv.资料属于等级性质时。

3.3 众数

⏹众数(mode)用Mo表示,有两种定义:

a)理论众数是指与频数分布曲线最高点相对应的横坐标上的一点;

b)粗略众数是一组数据中出现次数最多的那个数。

⏹众数也是一种集中量,也可用来表示一组数据的集中趋势。

3.3.1 众数的计算方法

A.观察法寻找粗略众数: 数据中出现次数最多的数即为众数。

B.公式法计算理论众数的近似值: 用公式计算的众数称为理论众数。一般在心理与教育统

计中常用的公式有皮尔逊的经验公式和金氏插补法公式。

⏹皮尔逊经验公式:

a)皮尔逊经验公式只有当数据分布呈正态或接近正态时才能使用。

b)当数据分布呈偏态时,一般用金氏插补法计算众数。

?练习: 对于下列数据,使用何种集中量数表示集中趋势,其代表性更好?并计算出来。

4、5、6、7、29 (中数6)

3、4、5、5、7、5 (众数5)

2、3、5、6、7、8、9

第三节差异量数

1.变异性(variability):反映数值与数值之间的不同。

例如:第一组数据7,6,3,3,1

第二组数据3,4,4,4,5具有与之相同的均值(4),但变异性呢?

第三组数据4,4,4,4,4根本没有变异性——数值之间无差异,但和前面两组具有相同的均值。

2.变异性(离散程度、离散度、离中趋势)可被视为:对不同数值之间的差异性的测量。

2.1更精确地说:把变异性看作一组数据中每个数值与特定值的差异程度。

通常来说,这个“特定值”就是均值。

因此,变异性可看作一组数据中每一个数值与均值的差异性的量数。

3.1 集中量数(典型性/代表性),一组数据的代表数值

3.2 差异量数(变异性/离散度),不同数值和一个数值的差异性

3.3集中、差异量数可共同用于描述数据分布的特征,并说明数据分布的差异

第二章数据的图表描述与特征量

引子

某研究者得到以下两组成绩:

①.两组分数是否一样?为什么?

②.哪组均值的代表性更好?为什么?

一、全距、平均差和四分位差

(一)全距(range):

(二)平均差(average deviation),常用AD表示。

?练习:

1.条形图是以条形的长短表示各事物间数量的大小与数量之间的差异情况,主要用于表示()数据资料

2.用SCL-90调查某地区500名不同职业(工人、教师、公务员和商人)人员的心理健康状况,现得到他们的均值分别为110,112,122,145,问:

①.该研究中的职业类型属于()数据

②.每个人心理健康的得分属于()数据

③.是否可直接得出结论:该地区心理健康测试得分:“商人> 公务员> 教师> 工人”

3.直方图,主要用于表示()数据资料

4.直条图,主要用于表示()数据资料

5.要表明各个部分在总体中所占的比重(百分比),通常用()图?

6.什么是离差?

7.一组数据的离差和等于多少?

✧负偏态和正偏态

均数<中位数<众数众数<中位数<均数

一位教师计算了全班60个同学考试成绩的均值,中数和众数,发现大部分同学的考试成绩集中于高分段。下面说法不可能正确的是?

A.全班65%的同学的考试成绩高于均值

B.全班65%的同学的考试成绩高于中数

C.全班同学的考试成绩是负偏态分布

(三)四分(位)差

i.又称四分位距,常用Q表示。

ii.剔除掉整组观测值中最高的1/4和最低的1/4的数据,然后计算中间的一半数据的全距,再除以2而得到。

●Q2 正好是中位数

●Q1,Q2和Q3分别被称为第一、第二和第三四分位数。

练习:

计算过程:

二、方差与标准差

(一)定义

A.方差(又称为变异数、均方)。是表示一组数据离散程度的统计指标。

一般样本的方差用表示,总体的方差用表示。

B.标准差(standard deviation)是方差的算术平方根。

一般样本的标准差用S 表示,总体的标准差用表示。

C.标准差和方差是描述数据离散程度的最常用的差异量。

?练习:试估计49、50、51的均数和标准差。

(三)标准差的性质

标准差的性质1:每个观测值都加一个相同的常数C后,计算得到的标准差等于原标准差

标准差的性质2:每个观测值都乘以一个相同的常数C后,计算得到的标准差等于原标准差乘以这个常数

标准差的性质3:每一个观测值都乘以一个相同的常数C(C≠0),再加上一个常数d 所得的标准差等于原标准差乘以一个常数

?练习:已知一组数据6,5,7,4,6,8的标准差是1.29,把这组数中的每一个数据都加上5,再乘以2,得到的新数据组的标准差是()。

A 1.29

B 6.29

C 2.58

D 12.58

(四)方差与标准差的意义

标准差度量的是观测值与平均数间的平均距离。

∴S=0代表观测值完全没有散布(全都在同一点),否则必然有S﹥0 。

当观测值离平均数散布得越远,S就越大。

✧比较:平均数与标准差的性质

1. 由于记分错误,在一个心理课程的期末考试中每一个考试分数都被加上了10分。这个错误对于平均数和标准差分别有什么影响?

2.计算下面数列的标准差:1)20,1,2,5,4,4,4,0

2)5,5,5,5,5,5,5,5,5,5

(五)标准差的应用

典例:一个班级男生身高的平均数是1.75米,标准差是0.10米;体重的平均数是60千克,体重的标准差是5千克,问身高和体重哪个差异大?

答:单位不同,不能比较

典例:同样是跳远,大学生的平均成绩是4米,标准差为0.3米;一年级学生的平均成绩是1米,标准差为0.3米,这两个差异是一样大小吗?

答:显然也不是,因为大学生成绩的相对差异比较小,而小学生成绩的相对差异比较大。

1.差异系数

(1)当两组或几组数据资料单位不同时,不能直接用标准差来比较离散程度的大小;(2)当两组或几组数据资料单位相同时,但它们的平均数相差较大时,也不能直接根据标准差来比较它们的离散程度;

应用:

(1)比较测量单位不同事物的差异程度;

一个班级男生身高的平均数是1.75米,标准差是0.10米;体重的平均数是60千克,体重的标准差事千克问身高和体重哪个差异大?

(2)比较单位相同,均数悬殊者

例:初三甲乙两班的数学平均成绩分别为92和71,标准差分别为8.95和7.40。试问两班成绩谁的差异程度大一些?

第四节地位量数

●百分位数

●百分等级数

Q2 正好是中位数

Q1,Q2和Q3分别被称为第一、第二和第三四分位数。

如果将数据分为100段,Q1, Q2和Q3分别被称为第25、第50和第75百分位数。

一、百分位(分)数

定义:团体分数高低排序,计算某个百分位数位置所对应的数值(观测值)。

表示在该次数分布中,有20%的个案低于60

60就是该组数据的第20个百分位数

表示在该次数分布中,有75%的个案低于25

表示在该次数分布中,有30%的个案低于55

?练习:

李芳数学成绩班上排名15,你能对此成绩进行评价吗?为什么?

李芳数学成绩45分,你能对此成绩进行评价吗?为什么?

二、百分等级(分)数

定义:是百分位数的逆运算。

符号:

例:小张某次考试成绩为85分,且PR=90

含义是:此次考试有90%的人的成绩低于85分或此次考试中有10%的人成绩高于小张?练习:

设某次考试人数为10 000名,其中有6895人的成绩低于80分,请确定卷面80分这个成绩的百分等级。

卷面80分是一个什么地位量数,怎么读?含义是什么?

引子:概率 Probability

例:

①.你买彩票中500万的机会很小(接近0),但有人中大奖的概率几乎为1

②.你被流星击中的概率很小(接近0) ,但每分钟有流星击中地球的概率为1

③.今天你被汽车撞上的概率几乎是0 ,但在地球每天发生车祸的概率是1

第三章随机事件与概率分布

背景知识

●心理学研究要分析的数据具有不确定性

●只能在一定程度上用样本统计量去估计总体参数,并对这种估计的把握度进行分析说明●把握度:用概率指出做出某种推断,其正确或犯错误的百分比

第一节随机事件

一、随机现象和随机事件

(一)随机现象

1.什么是随机现象

2.随机现象的特点:偶然性、规律性

偶然性VS.规律性——死亡的概率

●我们能预测特定的人明年会死亡吗?如果我们观察好几百万人呢?

●据美国国家卫生统计中心,20-24岁的男性当中,在任一年中死亡的比例大约是0.0015。

同年龄层的女性,死亡概率大约是0.0005。(正因为男性理赔的比例要高一些,所以保险费会收得多一点)

(二)随机事件(Random events)

例:请判断下列事件是属于事件之和or事件之积:

共8个题目,6个选择,2个判断,随机从中抽出一个题

①.从中抽出选择题或判断题是属于事件之(和)

②.计算从中抽出选择题或判断题的概率是属于(互不相容)事件

?练习:请判断下列事件是否属于独立事件

①.抛一枚硬币然后再掷一个骰子(独立)

②.起床太晚和准时上课(非独立)

③.认真学习和拿奖学金(非独立)

?练习:1.判断题:被闪电击中的概率大于在一次彩票中500万的概率。

2.Person相关系数是用哪个人的名字命名的

A. Karl Marx B . Carl Friedrich

C. Karl Person

D. Mario Triola

?练习:如果一个人随机猜测这两个答案

同时猜对两题,是属于事件之()

计算同时猜对两题的概率,是属于()事件

例:

假设从2223名登上泰坦尼克号的乘客中随机选出1人,思考下列问题:

计算P(选出一个man或一个boy), 是属于事件之(),是属于()事件

提示:计算P:(1692+64)/2223=1756/2223

?练习:

①.将一枚硬币抛三次,得到的全部是国徽的概率是多少?

②.如果从一组包含10名男性和15名女性的组中没有放回地随机选出3个不同的人,则选

出3名男性的概率是多少?(提示:10/25 * 9/24 *8/23)

二、随机事件的概率

对随机事件的观测或试验可能有多种结果? 不仅想知道有哪些可能的结果,还想知某些结果出现的可能性的大小。这一可能性用数字来表示就是概率

(一)频率与概率

a)频率是大量试验的结果,随试验次数变化的值

b)概率是一个确定值

c)试验次数越多,频率将无限接近于概率

d)频率是事件发生的外在表现,概率体现事件发生的内在实质。

✧频率与概率间的关系:

A.样本频率总是围绕概率上下波动

B.样本含量n越大,波动幅度越小,频率越接近概率。

?练习:下面这些值中,不是概率的有那些?0,1,-1,2,0.0123,3/5,5/3

说明:随机变量

例:每次抛两个硬币,记录正、反面结果;结果可记录为:

硬币1正面朝上,硬币2正面朝上; 2个正面

硬币1正面朝上,硬币2反面朝上; 1个正面

硬币1反面朝上,硬币2正面朝上; 1个正面

硬币1反面朝上,硬币2反面朝上; 0个正面

正面出现的次数就是一个随机变量,记为x,我们通常对x的每个取值的概率感兴趣。对于本例,x的取值为0、1、2。

说明:离散型随机变量与连续型随机变量

①.离散型随机变量:数据间有缝隙,其取值可以列举。例如:抛硬币10次,正面的可能

取值x为0、1、2、3、4、5、6、7、8、9、10

②.连续型随机变量(continous random variable)数据间无缝隙,其取值充满整个区间,无

法一一列举每一可能值。例如:身高、体重、百分制考试成绩

三、概率分布(probability distribution)

概率分布:描述随机变量值及这些值对应概率的表格、公式或图形。

●离散型随机变量概率分布

●连续型随机变量概率分布

例:离散型随机变量的概率分布:

例:离散型随机变量的概率分布:

◆连续型随机变量的概率分布

◆变量的取值充满整个数值区间,无法一一列出其每一个可能值。

◆一般将连续型随机变量整理成频数表,对频数作直方图,直方图的每个矩形顶端连接的

阶梯形曲线来描述连续型变量的频数分布。

◆如果样本量很大,组段很多,矩形顶端组成的阶梯型曲线可变成光滑的分布曲线。大

多数情况下,可采用一个函数拟合这一光滑曲线。

引子:常用的概率分布

离散型随机变量分布:二项分布、泊松分布

连续型随机变量分布:正态分布

第二节

(一)二项分布

毒性试验:白鼠死亡——生存

临床试验:病人治愈——未愈

回答题目:判断题答对——答错

事件成功(A)——失败(非A)

这类“成功─失败型”试验称为Bernoulli试验

例:一位心理学家想了解儿童对于某种材料的再认能力。设计了10个记忆项目,先让儿童识记,然后进行再认测验。结果儿童能正确再认5个项目。

请判断:该儿童对这种材料究竟有没有再认能力。

答:10个项目认对了50%,完全可能是瞎猜的结果。可以认为该儿童对于这种材料完全没有什么再认能力。

思考:认对多少个项目才算有再认能力呢?6个?7个?……

◆作为研究者,不能凭感觉说话。

◆要研究类似上述问题有没有数量规律性,以便找出一个数字标准:

超过这个标准,就认为有再认能力,未达到这个标准,就认为没有再认能力。(二)二项试验

必须满足以下条件:

●这个过程包括一个固定次数的试验。

●每次试验的所有结果都可以分为两类;

●各次试验相互独立(即任何一次单独试验的结果都不影响其他试验中结果的概率);

●各次试验中概率必须是常数(即成功的概率恒定,失败的概率也恒定)。

例:114查号台声称,当用户查询电话号码时,90%的情况下会得到正确的电话号码。假设回答的正确率为90%,假如我们想在5次查询中有3次回答正确的概率。

(1)这个过程是一个二项分布吗?

(2)如果这个过程的结果是一个二项分布,请说明n,x,p和q的值。

解答:

✓试验次数5是固定的;

✓5次试验是独立的,使用的是不同的电话号码,接线员也不同;

✓5次试验中的每个试验都有两类结果:要么对,要么错;

✓5次试验中的每个试验,概率0.9(90%)是常数。

例:假设每年9月份的降水概率为0.4。假设30天的降水次数为X,20年中9月份降水的分布即为一个二项分布。

p =0.4, q =0.6, n =30; X 取值[0,30]

如果20年的X 值分别为:

15,18,11,12,11,16,14,12,10,12,

13,14,13,14,12,8,9,10,12,13

降水次数

时间

(三)二项分布函数

用n 次方的二项展开式来表达在n 次二项试验中成功事件出现的不同次数(X=0,1…)的概率分布,叫做二项分布函数。

1. 二项式概率分布函数:

2. 二项展开式的要点:

项数:二项展开式中共有n+1项。

方次:p的方次,从n→0为降幂;q的方次从0→n为升幂。每项p与q方次之和等于n。系数:各项系数是成功事件次数的组合数。

✧例:2道是非题的情况3道是非题的情况

4道是非题的情况

例:从男生占2/5的学校中随机抽取6个学生,问正好抽到4个男生的概率是多少?最多抽到2个男生的概率是多少?

解:将n=6,p=2/5,q=3/5,X=4代入公式,则恰好抽到4个男生的概率为

例:最多抽到2个男生的概率,等于1个也没有抽到、抽到1个和抽到两个男生的概率之和,即

3. 二项分布曲线

◆形成:以成功次数为X,组合数为Y绘制的多边图。

◆特点(二项分布的性质):

当时,不论n有多大,二项分布曲线都总是对称的;

当时,且n相当小,图形呈偏态;

当相当大(≥30)时,图形逐渐接近正态分布。

4. 二项分布的应用

(1)求成功事件恰好出现X次的概率

(2)在教育与心理中主要用来判断试验结果的机遇性与真实性的界限。

5.二项分布的平均数和标准差

如果二项分布满足p>q且nq≥5(或者p<q且np≥5时),二项分布接近于

正态分布。(应用前提)

可用下面的方法计算:

注意——应用前提:

应用——猜测性:

某测验中有10道判断题,试分析学生的掌握情况或猜测的可能性。

①条件分析:

②求均数和标准差:

③确定一定可信度时的掌握程度:

④结果解释

例:某测验有30个正误题,试问学生要做对多少题,才属掌握了所学的内容。

例:一个教师对8个学生的作业成绩进行猜测,如果教师猜对的可能性为1/3,问:假如规定猜对95%,才算这个教师有一定的评判能力,那么这个教师至少要猜对几个学生?

例:假设把一个质地均匀的硬币抛3次,这时你和朋友打赌:着地时出现“正面”会有2次,赌注为10元。如果这种结果出现了,你的朋友必须给你10元钱。谁更有可能赢呢?

例:有20道四择一题,试问学生要做对多少题,才属掌握了所学的内容。

思考:观察我们的生活,看看哪些现象是服从二项分布规律的?

6. 二项试验

必须满足的条件有:

a)这个过程包括一个固定次数的试验;

b)每次试验的所有结果都可以分为两类;

c)各次试验相互独立(即任何一次单独试验的结果都不影响其他试验中结果的概率);

d)各次试验中概率必须是常数(即成功的概率恒定,失败的概率也恒定)。

7. 二项(式概率)分布函数:

例:从男生占2/5的学校中随机抽取6个学生,问正好抽到4个男生的概率是多少?最多抽到2个男生的概率是多少?

解:将n=6,p=2/5,q=3/5,X=4代入公式,则恰好抽到4个男生的概率为

最多抽到2个男生的概率:等于1个也没有抽到、抽到1个和抽到两个男生的概率之和

例:一块均匀的硬币,A为正面朝上,B为反面朝上。假设n=2(抛两次),有多少可能的结果?

①两次正面朝上的p?②抛不到正面朝上的p?

③只有一次正面的p?④至少一次正面的p?

✓什么条件下,二项分布可以近似为正态分布?n足够大的时候

8. 二项分布曲线

◆形成:以成功次数为X,组合数为Y绘制的多边图。

◆特点(二项分布的性质):

当时,不论n有多大,二项分布曲线都总是对称的;

当时,且n相当小,图形呈偏态;

当相当大(≥30)时,图形逐渐接近正态分布。

9. 二项分布的应用

(1)求成功事件恰好出现X次的概率?

(2)在教育与心理中主要用来判断试验结果的机遇性与真实性的界限。

第三节正态分布(Normal D.)

一、正态分布的特征

二、标准正态分布表

利用积分公式可求出正态曲线下任何区间的面积,但需要计算,非常麻烦。

统计学家已编制好了标准正态分布表,使其使用非常方便。(见教材后的附表)1.正态分布表的使用:

Z→P ,P→Z,P→Y 或Z→Y

①Z→P

求某个Z值以上或以下的面积

-1.2~2.4 p = 0.87673

0.6~1.5 p = 0.20744

求某个Z值以上或以下的面积

Z=2.4以上P p = 0.0082

Z= - 1.2以下P p = 0.1151

②P→Z

查表法:近似结果

P= 0.80,Z=?

p = .29955 , Z = .84

p = .30234 , Z = .85

③P→Y

查表法:P=0.80,Y=?

P = .29955, Y = .28034

P = .30234, Y = .27798

④P R与Z的关系

例:在一正态分布中,若某人的标准分数为1,则他在该团体中的百分等级应当为

a. 34

b. 68

c. 84

d. 75

三、标准分数

◆标准分数(standard score)又称基分数或Z分数(Z-score)是相对位置量数。

◆标准分数从分数对平均数的相对地位、该组分数的离中趋势两个方面来表示原始分数的

地位。

◆计算公式:

(1)标准分数的实质: 把单位不等距和缺乏明确参照点的分数转换成以标准差为单位,以均数为参照点的量表分数。

(2)标准分数的优点:

可比性:标准分数以团体的平均数为基准(参照点),以标准差为单位,因而具有可比性。

可加性:标准分数使不同的原始分数具有相同的参照点。

明确性:标准分数较原始分数的意义更为明确。

合理性:标准分数保证了不同性质的分数在总分数中的权重相同,使分数更合理地反映事实。(3)标准分数的应用:

a)用于比较几个分属性质不同的观测值在各自数据分布中相对位置的高低。(比较测量单

位不同的变量的位置)

b)计算不同质的观测值的总和或平均值,以表示在团体中的相对位置。

c)表示测验分数

?练习:小学生A和B在毕业考试中,语文和数学两科的总分均为184。能否以此说明两人的学习水平相同?为什么?

d)比较单位不同变量的位置

例:

例:已知该班的成绩情况如下表

例:某高考中两生各科成绩如下表。

✓异常值的取舍:在一个正态分布中,平均数上下一定的标准差处,包含有确定百分数的数据个数。

✓在平均数上下各三个标准差的范围内,分布着全部数据的99.73%,反言之,在三个标准差之外的数据不足0.27%,因此常把“三个标准差”做为判断可疑值取舍的依据。

四、正态分布表及其应用:

①韦氏智商分数:②选拔性测验:

○3在能力分组或等级评定时确定人数○4测验分数的正态化

例:假设对100名报考大学的学生进行分班考试,要按能力将这些学生分为A、B、C、D、E五个小组(或等级),每组能力组距相等,若考试成绩所测得的分数是正态的,问A、B、C、D、E各组应当分布几名学生?

分析步骤:

统计学基础复习题

10级电商《应用统计学》期末复习 一、单选题 1.统计学的研究对象是( A ) A.客观事物的总体数量特征和数量关系 B.统计工作过程 C.总体与样本的关系 D.抽象数量的联系和空间形式 2.按某一标志分组的结果,表现出( A ) A.组内同质性和组间差异性 B.组内差异性和组间差异性 C.组内同质性和组间同质性 D.组内差异性和组间同质性 3.指出下面的数据哪一个属于顺序数据( D ) 个人的年龄分别是25,22,34,41,33 B.性别:男,女 C.上市公司所属行业:金融,房地产,医药,机械制造 D.员工对企业某项改革措施的态度:赞成,中立,反对 4.下列不属于描述统计问题的是( A ) A.根据样本信息对总体进行的推断 B.了解数据分布的特征 C.分析感兴趣的总体特征 D.利用图、表或其他数据汇总工具分析数据 5.我国六次人口普查规定的标准时间是2010年11月1日0时(截止时间),下列情况应计入人口数的是( D ) 年11月2日出生的婴儿年10月29日21时出生,10月31日23时死亡的婴儿 年10月29日23时死亡的人年11月1日3时死亡的人 6.某商场2010年空调销售量为10000台,库存年末比年初减少100台,这两个总量指标是( A ) A.时期指标 B.时点指标 C.前者是时期指标,后者是时点指标 D.前者是时点指标,后者是时期指标 7.某企业某年上半年月产量分别为410、420、380、410、420、420万件,则该企业上半年的平均月产量、中位数和众数分别为( A ) 、415、420、420、420 、420、420 、420、410 8.下列数列中属于时间序列数据的是( B ) 年我国的国内生产总值年我国的国内生产总值 年底我国的人口数年10月我国的进口额 9.下列关于相关系数的陈述中哪一个是错误的( A ) A.数值越大说明两个变量之间的关系就越强 B.仅仅是两个变量之间线性关系的一个度量,不能用于描述非线性关系 C.只是两个变量之间线性关系的一个度量,并不意味两个变量之间存在因果关系 D.绝对值不会大于1 10.如果报告期商品价格计划降低5%,销售额计划增加10%,则销售量应增加( D ) % % 同时研究居民的消费支出与居民货币收入和

《应用统计学》复习题库

第一章思考题及练习题 (一)填空题 1.统计工作与统计资料的关系是和的关系。 2.统计工作与统计学的关系是和的关系。 3.统计活动具有...和的职能。 4.统计指标反映的是的数量特征,数量标志反映的是的数量特征。 5.在人口总体中,个体是“”,“文化程度”是标志。 6.统计研究过程的各个阶段,运用着各种专门的方法,如大量观察法..综合指标法.和统计推断法等。 7.统计标志是总体中各个体所共同具有的属性或特征的名称。它分为和两种。 8.要了解一个企业的产品质量情况,总体是.个体是。9.性别是标志,标志表现则具体为或两种结果。 10.一件商品的价格在标志分类上属于。 11.一项完整的统计指标应该由....和等构成。 12.统计指标按所反映的数量特点不同,可以分为和。 13.反映社会经济现象相对水平或工作质量的指标称为指标。 14.统计活动过程通常被划分为.和三个阶段。 15.经过余年的发展,形成了今天的统计学。 16.古典统计学时期有两大学派,它们分别是和。 17.《关于死之表的自然和政治观察》一书的作者是,他第一次编制了“生命表”。 18.提出了著名的误差理论和“平均人”思想。 19.统计研究的数量性是指通过数来反映事物的量的.量的.量的和量的。 20.统计学包括和两部分内容。 21.总体中所包含的个体数量的多少称为;样本中所包含的个体数量的多少称为。 22.总体中的一个组或类,可被称为一个研究域或。 23.从总体中随机抽取的一部分个体所组成的集合称为。 24.统计理论与方法,事实上就是关于的理论和方法。 25.总体的三大特征是.和。 26.总体的差异性要求体现在至少具有一个用以说明个体特征的。 27.企业性质标志适用的测定尺度是,产品质量等级标志适用的测定尺度是,企业利润标志适用的测定尺度是,企业产量标志适用的测定尺度是。 28.可变的数量标志的抽象化称为。它按其所受影响因素不同,可分为和两种,按其数值的变化是否连续出现,可分为和两种。 29.个体是的承担者。 30.统计指标按其反映现象的时间状态不同,可以分为和两种。 31.若干互有联系的统计指标组成的有机整体称为,其中一个很重要的反映国民经济和社会发展状况的基本统计指标体系是。 32. 统计研究的一大任务就是要用的样本指标值去推断的总体指标值。 (二)单项选择题 1.社会经济统计的研究对象是()。 A.抽象的数量关系 B.社会经济现象的规律性 C.社会经济现象的数量方面 D.社会经济统计认识过程的规律和方法 2.某城市进行工业企业未安装设备普查,个体是()。 A.工业企业全部未安装设备 B.工业企业每一台未安装设备 C.每个工业企业的未安装设备 D.每一个工业企业

应用数理统计期末复习资料

应用数理统计期末复习指导 一、复习重点 第一章 绪 论 数理统计学是一门对客观不确定现象进行数据搜集、整理、表列和分析的科学,其目的是了解客观情况,探索数据内在结构及现象之间的规律性。 对搜集的全部数据加以整理来研究这些数据的特征,这称为描述统计。建立在样本数据的基础上对总体的特征做出估计和推断,这称为推断统计。 数理统计学的发展大致经历了古典统计学、近代统计学和现代统计学三个阶段。 第二章第二章 数据的搜集、整理与描述 统计表最主要的内容是指标名称与指标数值。 数据集中趋势的计量:(1)均值(算术平均数);(2)几何平均数;(3)中位数;(4)众数;(5)切尾均值。 离散趋势的计量:(1)极差,又称为全距。极差是数据中最大值和最小值之差;(2)四分位差;(3)平均差,它是数据值与其均值之差绝对值的平均数;(4)方差和标准差。方差是数据值与其均值离差平方和的平均数。方差不仅可以用来反映值代表性的高低,而且也是数据离散趋势的最主要的统计数量特征;(5)离散系数。 第三章 概率基础 凡是一个行动或过程会导致一毓可能的结果之一,但具体发生哪一个结果是不确定的,这种行动或过程统称为随机试验。随机试验所有可能结果的集合称作样本空间。随机试验的每一个可能的结果称为随机事件。 凡是必然发生的事件称为必然事件。必然不发生的事件称为不可能事件。如果事件A的发生必然导致事件B的发生,则称事件A包含于事件B,记作 。两个事件A、B中至少有一个发生称为两个事件的并,记作 。两个事件A、B中同时发生称为两个事件的交,记作 。事件A发生而事件B不发生称为两个事件的差,记作A-B或 。样本空间与事件A的差称为事件A的逆事件或对立事件,互补事件,记作 。事件A与事件B不可能同时发生称两个事件互不相容或互斥,记 。事件的运算满足: B A ?B A B A B A A A -Ω=? =B A

《应用统计学》复习题库

《应用统计学》复习题库 江技师校创协人人网公共主页倾情回馈:《应用统计学》复习题库编著/谢忠秋丁兴烁 19.三种商品的价格指数为110%,其绝对影响为500 元,则结果表明()A.三种商品价格平均上涨10% B.由于价格变动使销售额增长10% C.由于价格上涨使居民消费支出多了500 元D.由于价格上涨使商店多了500 元销售收入 E.报告期价格与基期价格绝对相差500 元 XXXX年按不变价格计算的工业总产值,甲地区为乙地区的115%,这个相对数是()A.质量指标指数B.静态指数C.总产值指数D.产量指数 E.数量指标指数21.某五金商店第四季度全部商品销售量为第三季度的108%,这个指数是() A.质量指标指数 B.总指数 C.季节指数D.比较指数 E.数量指标指数 22.某工业企业XXXX年两种不同产品的实际产量为计划产量的110%,这个指数是()A.静态指数 B.总指数 C.个体指数 D.数量指标指数E.质量指标指数 23.某工业企业总成本XXXX年比XXXX年增加了14%,其原因是平均成本和产量两个因素的变化,这两个因素的变动方向和程度为()A.平均成本增加4% B.平均成本下降5% C.产量增加10% D.产量增加XXXX年某省零售物价总水平是XXXX年的109.5%,

这一指标数值是() A.统计指数 B.个体指数 C.总指数 D.狭义涵义的指数E.质量指标指数26.某工厂XXXX年工业总产值(按1990 年不变价格计算)为XXXX年工业总产值的110%,这个指标是()A.产量总指数B.动态指数C.产品价格总指数D.数量指标指数E.质量指标指数(四) 判断题 1.指数是综合反映能直接相加的多因素所组成的社会经济现象总变动的相对数。( ) 2.按比较对象的不同,统计指数分为数量指标指数与质量指标指数。( ) 3.综合指数是总指数的一种形式,它是由两个总量指标或平均指标对比形成的指数。( 4.价格是价格指数的研究对象,习惯上把它称为指数化指标,而销售量则是销售量指数中的指数化指标。( ) 5.产量指数.销售量指数.出厂价格指数.种植面积指数都是说明总体各种数量变动情况的,都是数量指标指数。( ) 6.有时由于资料的限制,使综合指数的计 算产生困难,就需要采用综合指数的变形公式平均数指数。( 7.统计指数的作用是:①综合反映事物的变动方向和变动程度; ②进行因素分析;③研究事物长期变动趋势。( ) 8.综合指数的编制原则是:编制数量指标指数时,要选择其相应的质量指标为同度量因素,并把它固定在报告期上。( ) 9.指数体系不仅在反映相对变动的指数间存在数量对等关系,而且在各个指数所代表的绝对额变动之间也存在一定对等关系。( ) 10.用两个不同时期不同经济内容的平均指标值对比形成的指数就是平均指标指数。(

《应用统计学》网上复习题库

《应用统计学》课程网上考试题库 第一章数据与统计学 一、单项选择题 1、统计学具有()特点 A.数量性和总体性 B.数量性和差异性 C.总体性和差异性 D.数量性和 答案:A 2、“统计”作为社会经济生活中经常使用的名词,以下哪项不是其含义() A.统计工作 B.统计资料 C.统计数据 D.统计科学 答案:C 3、专业、性别属于以下哪项统计数据的计量尺度()。 A.定类尺度 B.定序尺度 C.定距尺度 D.定比尺度 答案:A 4、在对工业企业的生产设备进行普查时,调查对象是()。 A . 所有工业企业 B. 每一个工业企业 C . 工业企业的所有生产设备 D. 工业企业的每台生产设备 答案:C 5、统计有三种涵义,其中()是基础、是源。 A. 统计学 B. 统计资料 C. 统计工作 D. 统计方法 答案:C 6、要了解 100 个学生的学习情况,则总体单位()。 A. 100 个学生 B. 100 个学生的学习情况 C. 每一个学生 D. 每一个学生的学习情况 答案:C 二、多项选择题 1、下列哪项可以归于无限总体内。()

A.中国目前居民 B.电脑内所有零件 C.某快递公司所有订单 D.报警电话 E.美国现在的农业科研所数 答案:CD 2、要了解 100 个工业企业的生产情况,则统计指标有()。 A. 100 个工业企业的工业总产值 B. 每一个工人的月工资 C. 全部工业企业 D. 一个工业企业的工资总额 E.全部工业企业的劳动生产率 答案:AE 3、下面哪些属于变量()。 A、可变品质标志 B、质量指标 C、数量指标 D、可变的数量标志 E、某一指标数值 答案:BCD 三、判断题 1、总体性是统计研究的前提。() 答案:错 2、总体单位是构成统计总体的个别事物。() 答案:对 3、推断统计学是研究在一定的概率下,如何用样本资料去推断总体数量特征的方法。() 答案:对 4、全国人口数量是统计总体。() 答案:错 答案: 5、人口的性别是说明总体的品质标志。() 答案:错 6、人的年龄是离散变量。() 答案:错

应用统计学复习题

《统计学》复习题 一、单项选择题(将正确答案填写在题后括号内,多选或不选或选错,不得分。每小题1分,共20分) 1.社会经济统计的研究对象是(C ) A、抽象的数量关系 B、社会经济现象的规律性 C、社会经济现象的数量特征和数量关系 D、社会经济统计认识过程的规律和方法 2.对总体中的全部或足够多的单位进行调查观察并加以综合研究的方法称为 (A ) A、大量观察法 B、综合指标法 C、归纳推断法 D、模型法 3.几位学生某门课程的成绩分别是67分、78分、88分、96分,则“成绩”是(B ) A、品质标志 B、数量标志 C、标志值 D、数量指标 4.对某地区工业企业职工情况进行研究,统计总体是 (D ) A、每个工业企业 B、该地区全部工业企业 C、每个工业企业的全部职工 D、该地区全部工业企业的全部职工 5.要了解50名学生的学习情况,则总体单位是(B ) A、50名学生 B、每一名学生 C、50名学生的学习成绩 D、每一名学生的学习成绩 6.了解某地区工业企业职工情况,下面哪个是统计指标( C ) A、该地区每名职工的工资额 B、该地区职工的文化程度 C、该地区职工的工资总额 D、该地区职工从事的工种 7.在全国人口普查中( B ) A、男性是品质标志 B、人的年龄是变量 C、人口的平均寿命是数量标志 D、每个人的文化程度是统计指标 8.下列指标中,属于质量指标的是(C ) A、总成本 B、工资总额 C、平均成本 D、职工总数 9.下列指标中,属于数量指标的是(D ) A、人均粮食产量 B、男女人口数比例 C、劳动生产率 D、机器设备总数 10.一个统计总体( D ) A、只有一个标志 B、只有一个指标 C、可以有多个标志 D、可以有多个指标

甘肃省考研应用统计学复习资料统计方法与数据分析

甘肃省考研应用统计学复习资料统计方法与 数据分析 统计方法与数据分析在甘肃省考研应用统计学中起着至关重要的作用。本文将从统计方法的基本概念、数据分析的步骤、常用的统计方法以及数据可视化等方面进行论述,旨在为考生提供有关统计方法与数据分析的复习资料。 一、统计方法的基本概念 统计方法是研究数据收集、处理和分析的一种科学方法。在甘肃省考研应用统计学中,统计方法是理论与实践相结合的工具,通过对实际问题中的数据进行整理、分析和解释,来推断和判断相关问题。统计方法的基本概念主要包括描述统计和推断统计。 描述统计是对收集到的数据进行总结和描述的方法。它通过计算和总结数据的一些代表性指标,如均值、标准差等,来对数据进行描述和分析。推断统计是在样本数据的基础上,通过对总体的特性进行推断和推测的方法。它利用样本数据推断总体的参数,并给出相应的置信区间和假设检验等。 二、数据分析的步骤 数据分析是统计方法的应用过程,它对收集到的数据进行整理、判断和解释,得出相应的结论。在甘肃省考研应用统计学中,数据分析可以按照以下步骤进行:

1. 数据的收集与整理:收集与研究主题相关的数据,并进行整理, 以便进行后续的分析。 2. 数据的描述与总结:通过描述统计方法对数据进行整理和总结, 计算出各种代表性指标,并进行图表展示。 3. 数据的分析与推断:根据已有数据进行推断统计分析,对总体参 数进行估计,并进行假设检验和置信区间的计算。 4. 结果的解释与应用:对数据分析的结果进行解释,并将结果应用 到相关领域或实际问题中。 三、常用的统计方法 在甘肃省考研应用统计学中,常用的统计方法包括描述统计、假设 检验和回归分析等。 1. 描述统计:包括计算数据集的中心趋势(如均值、中位数)和离 散程度(如方差、标准差),以及数据的分布形态等。 2. 假设检验:用于判断样本数据是否可以推断总体参数的方法。通 过设立原假设和备择假设,并计算相应的统计量和p值来得出结论。 3. 回归分析:用于研究自变量与因变量之间的关系。通过建立回归 模型,并进行参数估计和显著性检验,来分析和预测变量之间的关系。 四、数据可视化

《应用统计学》课程网上考试复习章节题库及答案

一、单项选择题 1、统计学具有()特点 A.数量性和总体性 B.数量性和差异性 C.总体性和差异性 D.数量性和 答案:A 2、“统计”作为社会经济生活中经常使用的名词,以下哪项不是其含义() A.统计工作 B.统计资料 C.统计数据 D.统计科学 答案:C 3、专业、性别属于以下哪项统计数据的计量尺度()。 A.定类尺度 B.定序尺度 C.定距尺度 D.定比尺度 答案:A 4、在对工业企业的生产设备进行普查时,调查对象是()。 A.所有工业企业 B.每一个工业企业 C.工业企业的所有生产设备 D.工业企业的每台生产设备 答案:C 5、统计有三种涵义,其中()是基础、是源。 A.统计学 B.统计资料 C.统计工作 D.统计方法答案:C 6、要了解100个学生的学习情况,则总体单位()。 A.100个学生 B.100个学生的学习情况 C.每一个学生 D.每一个学生的学习情况答案:C 7、下列变量中属于连续变量的是()。 A.职工人数 B.设备台数 C.学生的年龄 D.工业企业数 答案:C 8、其数量随总体范围的大小而增减的指标是()。 A.数量指标 B.质量指标 C.品质指标 D.相对指标 答案:A

二、多项选择题 1、下列哪项可以归于无限总体内。() A.中国目前居民 B.电脑内所有零件 C.某快递公司所有订单 D.报警电话 E.美国现在的农业科研所数答案:CD 2、要了解100个工业企业的生产情况,则统计指标有()。 A.100个工业企业的工业总产值 B.每一个工人的月工资 C.全部工业企业 D.一个工业企业的工资总额 E.全部工业企业的劳动生产率 答案:AE 3、下面哪些属于变量()。 A、可变品质标志 B、质量指标 C、数量指标 D、可变的数量标志 E、某一指标数值 答案:BCD 4、指标是说明总体特征的,标志是说明总体单位特征的,则()。 A.数量指标可以用数值表示 B.质量指标不能用数值表示 C.数量标志可以用数值表示 D.品质标志不能用数值表示 E.品质标志和质量指标都可以用数值表示 答案:ACD 三、判断题 1、总体性是统计研究的前提。() 答案:错 2、总体单位是构成统计总体的个别事物。() 答案:对 3、推断统计学是研究在一定的概率下,如何用样本资料去推断总体数量特征的方法。() 答案:对 4、全国人口数量是统计总体。() 答案:错 答案: 5、人口的性别是说明总体的品质标志。() 答案:错 6、人的年龄是离散变量。() 答案:错

应用统计学-复习资料

《应用统计学》复习 一.选择题 1.调查某市职工家庭的生活状况时,统计总体是() A. 该市每个职工家庭 B.该市全部职工家庭 C.该市全部职工 D.该市职工家庭户数 2.在不同时间上收集到的数据是( )。 A.观测数据 B.实验数据 C.截面数据 D.时间序列数据3.调查某单位50名员工的收入情况,则总体单位是() A.该单位每一名员工 B.该单位50名员工 C.该单位50名员工的收入情况 D.该单位每一名员工的收入情况 4.对一批食品进行质量检验,最适宜采用的调查方式是( )。 A.全面调查 B. 重点调查 C.抽样调查 D.问卷调查5.某企业5月份计划销售收入比上月增长7%,实际增长了9%,该企业5月份销售收入计划完成程度( )。 A.1.87% B.128.57% C. 101.87% D.8.41% 6.总体中各组的数据个数与全部数据个数之比称为() A.频数 B.频率 C.累积频数 D.累积频率 8.下列属于离散变量的是() A. 某公司的销售额 B. 城乡居民储蓄存款余额 C. 职工的月收入 D. 家庭人口数 9.下列标志中属于品质标志的是() A. 产品等级 B. 人均收入 C.年龄 D.考试成绩 10.简单算术平均数作为加权算术平均数特例的条件是() A.各组标志值相等 B. 各组标志值不相等 C.各组权数相等 D.各组权数不相等 11.把基数抽象为100计算出来的相对数叫做() A.倍数B百分数 C.成数 D.有名数 12.一般来说,当居民收入减少时,居民消费也会相应减少,二者之间的关系是() A.负相关B.正相关C.零相关D.曲线相关

13.若按年收入分为10万以下,10万-30万元,30-50万元、50万元以上共4组。最末一组的组中值近似值为( ) A.30万元 B.35万元 C.55万元 D.60万元 14.适合比较研究总体内部结构的图形是( ) A. 雷达图 B. 箱线图 C.饼形图 D. 折线图 15.平均数反映了一组数据的( ) A.集中趋势 B.离中趋势 C.变动趋势 D.分布特征 16.下列标志中属于数量标志的是( ) A. 考试分数 B.工资级别 C. 人口性别 D.企业所有制性质 17.通过调查大庆.胜利等几大主要油田来了解我国石油生产的基本情况,这种调 查方式属于( ) A.普查 B. 典型调查 C. 重点调查 D.抽样调查 18.总体中某一部分数值与总体中另一部分数值之比是( )。 A.比例相对指标 B.比较相对指标 C.结构相对指标 D.动态相对指标 19.在全距一定的情况下,组距的大小与组数的多少成( ) A.正比 B.反比 C.无比例关系 D.有时成正比有时成反比 20.若按年收入分为10万以下,10万-30万元,30-50万元、50万元以上共4组。最末一组的组中值近似值为( ) A.30万元 B.35万元 C.55万元 D.60万元 21.适合比较研究两个或两个以上总体结构性问题的图形是( ) A.饼形图 B. 雷达图 C.环形图 D. 散点图 22.标准差反映了一组数据的( ) A.集中趋势 B.离中趋势 C.变动趋势 D.分布特征 23.下列指数中属于拉氏质量指数的是( )。 24.各变量值与其平均数离差平方的平均数称为( )。 A.极差 B.平均差 C. 标准差 D.方差 25.相关系数r 的取值范围是( ) A 、从0到1 B 、从-1到0 C 、从-1到1 D 、无范围限制 0100.p q A p q ∑∑1110.p q B p p ∑∑1000 .p q C p q ∑∑1101 . p q D p q ∑∑

应用统计学考点

应用统计学考点: 第一章绪论(重点:统计数据的分类,参数、统计量的定义) 一、统计数据的分类 1.(按计量尺度分) (1)分类数据:对事物进行分类的结果;数据表现为类别,用文字来表述;例如,人口按性别分为男、女两类。 (2)顺序数据:对事物类别顺序的测度;数据表现为类别,用文字来表述;例如,产品分为一等品、二等品、三等品、次品等 (3)数值型数据:对事物的精确测度;结果表现为具体的数值;例如:身高为175cm 、168cm 、183cm 2.(按收集方法分) (1)观测的数据:通过调查或观测而收集到的数据;在没有对事物人为控制的条件下而得到的;有关社会经济现象的统计数据几乎都是观测数据 (2)试验的数据:在试验中控制试验对象而收集到的数据;比如,对一种新药疗效的试验,对一种新的农作物品种的试验等;自然科学领域的数据大多数都为试验数据 3.(按时间状况分) (1)截面数据:在相同或近似相同的时间点上收集的数据;描述现象在某一时刻的变化情况;比如,2002年我国各地区的国内生产总值数据 (2)时间序列数据:在不同时间上收集到的数据;描述现象随时间变化的情况;比如,1996年至2002年国内生产总值数据 二、参数和统计量 1.参数:研究者想要了解的总体的某种特征值。所关心的参数主要有总体均值( )、标准差()、总体比例()等。 总体参数通常用希腊字母表示 。 2.统计量:根据样本数据计算出来的一个量。所关心的样本统计量有样本均值( x)、样本标准差(s)、样本比例(p)等。样本统计量通常用小写英文字母来表示 三、变量:说明现象某种特征的概念。如商品销售额、受教育程度、产品的质量等级等。变量的具体表现称为变量值,即数据 变量可以分为:1.分类变量:说明事物类别的一个名称;2.顺序变量:说明事物有序类别的一个名称;3.数值型变量:说明事物数字特征的一个名称(离散变量:取有限个值;连续变量:可以取无穷多个值 ) 第2章 统计数据的搜集(重点:五方法的区别、定义) 统计调查的五中方式: 1.抽样调查:从总体中随机抽取一部分单位(样本)进行调查;目的是推断总体的未知数字特征 ;最常用的调查方式;具有经济性、时效性强、适应面广、准确性高等特点 2.普查:为特定目的专门组织的非经常性全面调查。通常是一次性或周期性的。一般需要规定统一的标准调查时间;数据的规范化程度较高;应用范围比较狭窄 3.统计表报:统计调查方式之一。过去曾经是我国主要的数据收集方式。按照国家有关法规的规定,自上而下地统一布置、自下而上地逐级提供基本统计数据。有各种各样的类型。 4.重点调查:从调查对象的全部单位中选择少数重点单位进行调查。调查结果不能用于推断总体 5.典型调查:从调查对象的全部单位中选择少数典型单位进行调查。目的是描述和揭示事物的本质特征和规律。调查结果不能用于推断总体 第3章 统计数据的整理(重点:不同数据类型的展示方法。记住下图即可) 数据类型及图示: 条形图饼图环形图汇总表品质数据直方图折线图分组数据茎叶图箱线图原始数据线图 时序数据雷达图多元数据 数值型数据数据的类型

应用统计分析复习要点和答案

《应用统计学》复习要点 (要求:每人携带具有开方功能的计算器) 一、名词解释 (重复啦) 二、计算题 1. 在某地区随机抽取 计算120。解:

2.某银行为缩短顾客到银行办理业务等待的时间,准备了两种排队方式进行试验。为比较哪种排队方式使顾客等待的时间更短,两种排队方式各随机抽取9名顾客,得到第一种排队方式的平均等待时间为7.2分钟,标准差为1.97分钟,第二 (1) (2)比较两种排队方式等待时间的离散程度。 (3)如果让你选择一种排队方式,你会选择哪一种?试说明理由。 解: 3. 某大学为了解学生每天上网的时间,在全校学生中随机抽取36人,调查他们每天上网的时间(单位:小时),得到的数据如下: z(0.01)统计量值分别为1.65、1.96和2.58) 解: 4. 利用下面的信息,构建总体均值μ的置信区间。 (1)总体服从正态分布,且已知σ=500,n=15,=8900,置信水平为95%。(注:z统计量值为1.96)

(2)总体不服从正态分布,且已知σ=500,n=35,=8900,置信水平为95%。(注:z统计量值为1.96) (3)总体不服从正态分布,σ未知,n=35,=8900,s=500,置信水平为90%。(注:z统计量值为1.65) (4)总体不服从正态分布,σ未知,n=35,=8900,s=500,置信水平为99%。(注:z统计量值为2.58) 解: 5.对消费者的一项调查表明,17%的人早餐饮料是牛奶。某城市的牛奶生产商认为,该城市的人早餐饮用牛奶的比例更高。为验证这一说法,生产商随机抽取550人的一个随机样本,其中115人早餐饮用牛奶。在α=0.05的显著性水平下,检验该生产商的说法是否属实?(注:z统计量值为1.96) 解: 6.一项包括了200个家庭的调查显示,每个家庭每天看电视的平均时间为 7.25小时,标准差为2.5小时。据报道,10年前每天每个家庭看电视的平均时间是6.7小时。取显著性水平α=0.01,这个调查能否证明“如今每个家庭每天收看电视的平均时间增加了”?(注:z统计量值为1.96) 解:

应用统计学复习简答问题

应用统计学是研究如何应用统计方法去解决实际问题的。 统计学是一门收集和分析数据的科学。由于在自然科学及社会科学研究领域中,都需要通过数据分析来解决实际问题,因而,统计方法的应用几乎扩展到了所有的科学研究领域。例如,统计方法在生物学中的应用形成了生物统计学,在医学中的应用形成了医疗卫生统计学,在农业试验、育种等方面的应用形成了农业统计学。统计方法在经济和社会科学研究领域的应用也形成了若干分支学科。例如,统计方法在经济领域的应用形成了经济统计学及其若干分支,在管理领域的应用形成了管理统计学,在社会学研究和社会管理中的应用形成了社会统计学,在人口学中的应用形成了人口统计学,等等。以上这些应用统计学的不同分支所应用的基本统计方法都是一样的,即都是描述统计和推断统计的主要方法。但由于各应用领域都有其特殊性,统计方法在应用中又形成了一些不同的特点。 基本方法 一、定期统计报表制度 优点:a.保证数据的全面性和连续性; b.保证数据的统一性和及时性; 不足:a.存在虚假数据,影响数据质量; b.多重管理,报表多、重复影响效率。 适用范围:报表数据规范、完整等单位或对象的数据。 二、统计普查有哪些主要特点和应用意义? 答:普查是为了某种特定的目的而专门组织的一次性的全面调查。一般用来调查属性一定时点上社会经济现象数量的全面调查。 优点:所取得的资料都更全面、更系统、更详尽。 不足:费时、费力,周期长。 适用范围:不能或不适合采用定期报表方法等的数据。 普查的特点:(1)普查是一种不连续调查。因为普查的对象是时点现象,时点现象的数量在短期内往往变动不大,不需做连续登记。(2)普查是全面调查。它比任何其它调查方法都更能掌握全面、系统的反映国情国力方面的基本统计资料。(3)普查能解决全面统计报表不能解决的问题。因为普查所包括的单位、分组目录、指标内容比定期统计报表更广泛、更详细,所以能取得更详尽的全面资料。(4)普查要耗费较大的人力、物力和时间,因而不能经常进行。 其他特点:1.普查通常是一次性的和周期性的 2.规定统一的标准时点 3.规定统一的普查期限 4.规定普查的项目和指标 5.普查的数据一般比较准确、规范化程度比较高,因此可以为抽样调查提供基本依据。 普查存在的主要问题: 1、锁定普查对象非常困难。2、普查对象配合程度下降 3、登记时存在的问题。 4、基层统计工作人员容易出现厌战情绪。5.普查专业人员不足的矛盾突出。6.我国普查收集数据的方法的单一,不能满足统计数据广义的质量标准。

应用统计学期末复习参考

应用统计学期末复习参考 一、简答题(30分) 1、统计学研究的对象是什么? 答:统计学的研究对象是客观对象的数量方面,具体说,是研究总体现象的数量特征与规律性,以帮人们科学地认识客观事物。 2、在应用统计学研究实际问题时,需要兼备哪两方面的知识? 答:一方面要掌握统计学的基本理论与方法,另一方面要具有实际问题的知识背景。这样才能把定量分析与定性分析结合起来,在应用统计方法进行定量分析的基础上,再应用各学科的专业知识对统计分析的结果做出合理的解释。 3、统计学中总体、个体和样本的定义? 答:总体就是某一特定研究中所有单元的集合。通常由具有相同性质的许多单元构成,而构成总体的每个单元被称为个体。个体是我们借以收集数据的对象,可以由人、单位或物充当。样本是指从总体中抽取的部分个体构成的集合 4、统计研究中抽样的必要性? 答:统计研究的目的是认识总体的数量特征,但有时构成总体的个体数量很大,实际工作中不可能或不必要对每个个体的数量特征逐一调查,通常是以某种方式从总体中抽取一部分个体代表总体进行研究。样本是总体的代表,从统计中抽取样本的目的就是通过对样本特征的分析去推断总体的特征。 5、品质型变量和数值型变量的定义? 答:品质型变量又称定性变量,是指反映事物品质特征的变量,其表现为类别,通常是用文字来表示的;数值型变量又称定量变量,是指反映事物特征的变量,通常使用自然或度量衡单位进行计量,其结果表现为具体的数值。数值型变量根据其取值是否连续,又可以分为离散变量和连续变量两种形式。 6、参数与统计量的定义以及它们在统计研究中的关系? 答:参数是用来描述总体特征的概括性值,通常用大写字母表示,如总体均值,标准差,总体比例等;统计量是用来描述样本特征的概括性值,通常用小写字母表示,如样本均值,样本标准差,样本比例等。在进行统计推断时,总体数据通常是不完全的,所以参数是一个未知的常数,但样本是经过抽样所确定下来的,所以统计量总是可以计算出来的,通过样本统计量来对总体参数进行推断与检验。 7、统计研究的过程包括哪三个步骤? 答:统计研究包括以下三个过程——第一、统计数据的收集:统计数据的收集是指对现象总体中全部或足够多的单位进行调查,收集大量的以数字为主的信息资料,借以反映总体的数量特征;第二、统计数据的整理:统计数据的整理是对零星、分散的统计数据进行系统化、条理化的加工处理过程,使数据更加符合统计分析的需要;第三、统计数据的分解和解释:统计数据的分析和解释是统计

应用统计学复习提纲

应用统计学(贾俊平版)综合复习提纲-独家原创整理 [ 2010-5-9 18:51:00 | By: 梦翔儿 ] 应用统计学(贾俊平版)综合复习提纲-梦翔儿独家原创整理,全背下来,复习考试没有问题: 更多资料详见:https://www.360docs.net/doc/ae19193497.html, 1.统计学:收集处理分析解释数据并从数据中得出结论的科学。 2.描述统计:研究数据收集处理汇总图表描述概括与分析等统计方法。 3.推断统计:研究如何利用样本数据来推断总体特征的统计方法。 4.分类数据:只能归于某一类别的非数字型数据。 5.顺序数据:只能归于某一有序类别的非数字型数据。 6.数值型数据:按数字尺度测量的观察值。 7.观测数据:通过调查或观测而收集到的数据。 8.实验数据:在实验中控制实验对象而收集到的数据。 9.截面数据:在相同或近似相同的时间点上收集的数据。 10.时间序列数据:在不同时间上收集到的数据,这类数据按时间顺序收集到的。 11.抽样调查:从总体中随机抽取一部分单位作为样本进行调查,根据样本调查结果来推断总体特征的 数据收集方法。 12.普查:为特定目的而专门组织的全面调查。 13.总体:包含所研究的全部个体(数据)的集合。 14.样本:从总体中抽取的一部分元素的集合。 15.样本容量:也称样本量,是构成样本的元素数目。 16.参数:用来描述总体特征的概括性数字度量。 17.统计量:用来描述样本特征的概括性数字度量。 18.变量:说明现象某种特征的概念。 19.分类变量:说明事物类别的一个名称。 20.顺序变量:说明事物有序类别的一个名称。 21.数值型变量:说明事物数字特征的一个名称。 22.离散型变量:只能取可数值的变量。 25.实验数据:通过实验方法获得的数据 26.概率抽样:随机抽样,遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。 27.非概率抽样:不随机,根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施 调查。 28.简单随机抽样:从包括总体的N个单位的抽样框中随机,一个个抽取n个单位作为样本,每单位等 概论。 29.抽样框:用于抽选样本的总体单位信息,是概率抽样中所不可缺 30.分层抽样:将抽样单位按某种特征或某种规则划分为不同的层,然后从不同层中独立、随机地抽取 样本。 31.整群抽样:总体中若干单位合并为组,群,抽样时直接抽取群,然后对中选群中的所有单位全部实 施调查。 32.系统抽样:总体中所有单位按顺序排列,在规定范围内随机抽取一单位作为初始单位,然后按事先 规则确定其它样本单位。 33.多阶段抽样:首先抽取群,再进一步抽样,从选中的群中抽取出若干个单位进行计查,二阶段抽样。 34.方便抽样:依据方便原则,自行确定入抽样本的单位。 35.判段抽样:研究人员根据经验,判断研究对象的了解,有目的选择一些单位作为样本。 36.自愿样本:被调查者自愿参加,成为样本中一分子,向调查人员提供有关信息 37.滚雪球抽样:对稀少群体调查中,首选选择一组调查单位,调查后,请他们提供另外属于研究总体 的调查对象,调查人员根据所提供的线索,进行此后调查。 38.配额抽样:将总体中所有单位按一定的标志分若干类,然后每类采用方便抽样或判断抽样的方案选 取样本单位。 39.自填式:没有调查员协助,被调查者自已填写,完成调查问卷。 40.面访式:面对面,调查员提问,被调查者回答。 41.电话式:打电话方式调查。 42.抽样误差:由于抽样的随机性引起的样本结果与总体真值之的误差。 43.非抽样误差:相对抽样误差而言,除抽样误差之外的,由于其它原因引起的样本观察结果与总体真 值之间的差异。 44.抽样框误差:统计推论的错误是由于抽样框不完善造成的

应用统计学复习重点

应用统计学 定义:统计学是研究数据收集、整理、显示与分析方法(或公式)的科学.目的是探索数据内在数量规律性,以达到对客观事物总体的科学认识。 1、参数(parameter):指用于说明总体的指标。 均值—μ,标准差—σ,方差—σ2,率-P 2、统计量(statistics):指用于说明样本的指标。 均值—。标准差— s。方差- s2 ,率—p 数据的计量尺度 1列名尺度 nominal scale (1)定义:按事物的某种属性对事物进行平行分类或分组。 划分的各类别之间无大小或优劣之分,且次序可以改变. (2)适用:取值只能大体进行平行分类的品质型标志(变量)。 (3)记录方式: 变量名称:类别名罗列或用无意义数字表示。 例: 性别:男 / 女 性别:(1)男(2)女 2顺序尺度 ordinal scale (1)定义:按事物的某种属性对事物进行分类或分组基础 上,再将类别等级由大到小或由小到大排序。 (2)适用:取值可以进行分类且各类别具有等级差异的品质 型标志(变量)。 (3)记录方式: 品质变量名:类别名序号由大到小或由小到大排列. 例:文化程度(1)文盲(2)小学(3)初中(4)高中以上 3间隔尺度 interval scale (1)定义:选定一个测量单位,对数值变量在分类 排序基础上测量其间距(差距).测量出的数 值有加、减意义,无乘除意义。 (2)适用:可用数值记录其值而无比率意义的数值 型标志。 (3)记录形式: 数值变量名:________ 例:语文成绩: ________ **表述语:甲(60分)比乙(30分)高30分 4比例尺度 ratio scale (1)定义:选定一个测量单位,对数值型标 志(变量)在测量间距基础上,测量其比率。 (2)适用:可用数值记录其值且有比率意义的数值 型变量。 (3)记录形式: 数值变量名:_______ 例:家庭人口数: _______

应用统计学.基础复习

第一章绪论 第一节研究对象 1统计学 1.1统计学分为数理统计与应用统计, 1.2应用统计分为心理统计、生物统计、医学统计、社会统计、经济统计等等… 1.3心理统计分为描述统计、推论统计、研究设计。 2.推论统计 2.1推论统计常用于从局部数据估计总体情况。 例:6岁儿童的男女身高差异问题的研究。从某地区随机抽取男生30人,平均身高为114cm;女生27名,平均身高为112.5cm。 能否根据这一次测量的结果下结论:6岁男生的身高比女生高? 2.2心理与教育类实证研究的结果,基本上都不能直接得出结论,而需要运用推论统计。 第二节为什么要学习统计学 一、发现随机现象的运动规律二、贯穿整个心理学研究过程的方法与技术 三、心理学研究资料分析的技术四、“行话”——方便交流、阅读与撰写 五、心理学专业的应用技术之一 第三节基础概念 一、总体、样本和个案 例:关于汽车限行制度,想了解A城市民对此事件的态度 调查对象:所有A城市民调查目的:赞成vs.反对,各自的比例 可以去问所有的A城市民吗? →不可能,只能问其中一部分,并根据该部分的观点来了解永川市民的总体观点 二、统计量(特征量)和参数 (一)总体的特性称为参数,用希腊字母表示; 样本的特性称为统计量,用英文字母表示(二)统计量(特征量)和参数 统计指标统计量参数 平均数 标准差 相关系数 回归系数 三、数据(变量)的类型 (1)根据数据反映的测量水平,可分为: “称名”,特点:起名称作用,不同的数字没有大小之分(不可比较),不能加减乘除。“顺序”,特点:可比较,不能加减乘除。 “等距”,特点:可比较、可加减,不能乘除。 “比率”,特点:可比较、可加减乘除。 ◆四种类型变量的数学关系比较 数据类型数学关系 =or≠>or< + or -×or ÷ 称名√ 顺序√√ 等距√√√ 等比√√√√

相关主题
相关文档
最新文档