第2讲 统计描述
非正态分布的统计描述

非正态分布的统计描述从统计数据上来说,一般来讲,某个数值呈现出怎样的分布,就被称作这个数据是正态分布或者是非正态分布。
例如, X在n个对象中出现的概率为p( X=1)=0.05,那么这个分布就叫做正态分布。
正态分布经常用于检验某些统计量的性质,例如是否为正态分布、标准差是否相同等。
除了正态分布之外,其实还有很多别的分布。
下面,我们来认识一种非正态分布。
对于人来说,当你从小到大,遇到的人越来越多,彼此间的关系越来越复杂,对社会的理解越来越深入,那么你也会渐渐发现,你会有很多不知道的事情,而且很难找到答案,因为它们不是正态分布。
有一个词叫做非正态分布,那么非正态分布指的是什么呢?简单来说,非正态分布是随机变量的数据分布,既然是随机变量,那么自然无法确切地告诉我们这个分布具体的形状。
如果以单位矩形表示随机变量的数据分布,单位矩形内部的点都落在某个特定的区间,那么这个区间就叫做正态分布区间;如果这个矩形包含了所有的点,那么这个矩形就叫做正态分布。
非正态分布的例子是时间的不确定性,因为我们对时间有两种可能的分配方式:( 1)我们可以把这段时间都投入到工作里去,尽管也有空闲的时候,但是投入工作的时间总是比空闲的时间多。
而且这个时间间隔是确定的,那么这段时间就可以称作正态分布;( 2)如果我们把这段时间平均分成若干份,每天只工作一小段时间,那么这个时间长度是不固定的,我们根本没办法确定这段时间的起止点。
这种分配时间的方法叫做非正态分布。
除了时间之外,我们生活中的大部分东西都具有非正态分布的特征。
像素数量,男女比例,年龄分布,价格分布等等,非正态分布就好像是生活中各种数据的缩影。
非正态分布之所以能够成为统计学中的一个分支,是因为它与我们日常生活中的各种分布形式十分相似。
例如,随着你离婚姻殿堂越来越近,你会发现两个人不再合适,继续走下去会有更大的矛盾。
那么离婚之后你的下一段感情很可能会向正态分布靠拢,重新组建家庭的几率会越来越小,因为你们对婚姻产生了越来越多的怀疑和恐惧,再次结合的几率越来越低。
统计与决策

统计在线学习课件讲义《统计与决策》主讲人:袁卫制作单位:北京市统计局2007年5月第一部分绪论同志们,同学们,大家好!下面我们一起学习统计与决策。
这一部分共分3个单元,第一单元介绍统计的应用,我把它称为绪论;第二单元介绍描述统计,就是搜集数据、整理数据的一些基本知识;第三单元介绍如何应用统计方法来帮助我们进行管理,进行决策。
首先,我们看一下什么是统计。
我们每一个人在做每一项工作时都会有自己对统计的认识,比如,我们经常在报刊上看到类似这样的消息:“思科公司(Cisco)在纳期达克周一收盘时的市值为5550亿美元”,这条信息就是一个统计分析的结果,就是经济管理统计的一项工作。
再比如,“50家最大公司CEO的年均收入是930万美元”,这是2000年福布斯报道的一个消息,这又是一个统计,里边含有一个概念,即:什么是“平均收入”,它反映了什么样的问题,能够带给读者什么样的信息?再看第三个,“股票平均能够使75%的投资者盈利”,这样的一条信息又意味着什么?我们在国内的报刊上也经常看到这样一些信息,比如:股票的一个百分比。
对于每一位投资者,当你进行投资选择的时候,这个百分比会有什么样的作用呢?统计,简单地说就是搜集数据、整理数据、分析数据的一些简单方法。
如果用更简单的方法给它下个定义,统计就是处理数据的一门科学。
更简单地说,统计学就是数据的科学。
由于现在任何一项工作在信息时代都有很多数据,我们在日常的工作和生活中都离不开数据,因而,统计离我们的生活很近很近。
下面我就分别介绍统计在经济管理中的一些主要应用,这里叫做统计在商务中的应用。
首先我举一个财务会计方面的例子。
会计师事务所在对某公司进行审计的时候,并不是要对它的每一笔流水都进行核实,因为通常一个规模较大的公司,一年的经济往来会有几万、甚至几十万笔,如果对每一笔业务都做逐项核对,会花费大量的时间、精力、人力、物力。
他们所做的工作是选择一个抽样的方式,从有效的应收帐款账目中抽取一小部分进行核实。
第2讲 频数分布的集中趋势与离散趋势

第二讲 频数分布的集中趋势与离散趋势① 频数分布通过调查或试验取得原始资料后,要对全部资料进行检查和核对后,才能进行数据的整理。
根据样本资料的多少确定是否分组,一般样本容量n<30称为小样本,可直接进行统计描述分析,样本容量n>30称为大样本,此时须将数据分成若干组后进行描述分析。
1、频数分布表1)、频数表的编制相同观察结果出现的次数称为频数。
将所有观察结果的频数按一定顺序排列在一起便是频数表(frequency table)。
步骤:① 找出最大和最小值,计算极差 R=X max ―X min② 根据斯梯阶公式确定组距n RH log 322.31+=③ 扫描样本值,划记后获得频数 2)、频数表的用途① 大样本数据(不限于计量资料)常用的表达方式。
② 便于观察数据的分布类型。
③ 便于发现资料中远离群体的某些特大或特小的可疑值,必要时经检验后舍去。
④ 当样本含量足够大时,各组段的分布频率作为分布概率的估计值。
样本量与分组数量的关系样本量分组数30 ~ 60 5 ~ 860 ~ 100 7 ~ 10100 ~ 200 9 ~ 12200 ~ 500 10 ~ 18500以上15 ~ 30例1:某地随机检查了140名成年男性红细胞数(1012/L)4.765.26 5.61 5.95 4.46 4.57 4.31 5.18 4.92 4.27 4.77 4.885.00 4.73 4.47 5.34 4.70 4.81 4.93 5.04 4.40 5.27 4.63 5.50 5.24 4.97 4.71 4.44 4.94 5.05 4.78 4.52 4.63 5.51 5.24 4.98 4.33 4.83 4.56 5.44 4.79 4.91 4.26 4.38 4.87 4.99 5.60 4.46 4.95 5.07 4.80 5.30 4.65 4.77 4.50 5.37 5.49 5.22 4.58 5.074.81 4.54 3.82 4.01 4.89 4.625.12 4.85 4.59 5.08 4.82 4.935.05 4.40 4.14 5.01 4.37 5.24 4.60 4.71 4.82 4.94 5.05 4.79 4.52 4.64 4.37 4.87 4.60 4.72 4.83 5.33 4.68 4.80 4.15 4.65 4.76 4.88 4.61 3.97 4.08 4.58 4.31 4.05 4.16 5.04 5.15 4.50 4.62 4.73 4.47 4.58 4.70 4.81 4.55 4.28 4.78 4.51 4.63 4.36 4.48 4.59 5.09 5.20 5.32 5.05 4.41 4.52 4.64 4.75 4.49 4.22 4.71 5.21 4.94 4.68 5.17 4.91 5.02 4.76R= 5.95 ― 3.82 = 2.13连续型资料:红细胞数(1012/L)(1)频数f(2)组中值X(3)Fx(4)=(2)*(3)3.80~4.00~ 4.20~ 4.40~ 4.60~4.80~5.00~ 5.20~ 5.40~ 5.60~ 5.80~ 261125322717134213.904.104.304.504.704.905.105.305.505.705.907.824.647.3112.5150.4132.386.768.922.011.45.9合计140(∑f)669.8(∑fX)离散型资料:我国某地农村1995年已婚育龄妇女现有子女数的分布子女数(1)妇女数f(2)频率(%)(3)累计频数(4)累计频率(%)(5)0 1 2 3 4 5 6 7 8 9 ≥10 合计137512519130426285602171913695725532681513731561455259.4517.3020.9119.6214.929.414.982.250.100.260.11100.0013751389226934897908119627133322140577143845144996145369145525——9.4526.7547.6567.2882.2091.6196.6098.8599.6499.89100.00——(一)、均数(mean )的计算① 直接法n xn x x x x x in∑=+++=...32 1例2. 10名7岁男童体重(kg )分别为:17.3、 18.0、 19.4、 20.6、21.2、21.8、 22.5、 23.2、 24.0、 25.5,求平均体重。
计量资料的统计描述讲义

• 平均数反映同类现象的一般水平,是总体内 各单位参差不齐的标志值的代表值,也是对 变量分布集中趋势的测定。
常用的平均数有均数、几何均数、中 位数、众数等。
(一)均数(mean,average)
算术平均数(arithmetic mean),或称为 算术均数,简称为均数,是最重要的平 均数。
由频数表可看出频数分布的两个重要特
征:集中趋势(central tendency)和离 散程度(dispersion)。例如本例,身高有
高有矮,但中等身高居多,此为集中趋 势;由中等身高到较矮或较高的频数分 布逐渐减少,反映了离散程度。
对于数值变量资料,可从集中趋势 和离散程度两个侧面去分析其规律 性。
以例2.1说明其编制方法。
1.求全距(range)
2.定组段和组距: 3.列出频数表
二 频数表的特征
•三、频数表的用途
例2.1 某地1998年抽样调查了100名18岁男大 学生的身高(cm)资料如下,试编制频数表 。
某地1998年100名18岁男大学生的身高(cm)
173.6 165.8 168.7 173.6 173.7 177.8 180.3 173.1 173.0 172.6 173.6 175.3 178.4 181.5 170.5 176.4 170.8 171.8 180.7 170.7 173.8 164.4 170.0 175.0 177.7 171.4 162.9 179.0 174.9 178.3 174.5 174.3 170.4 173.2 174.5 173.7 173.4 173.9 172.9 177.9 168.3 175.0 172.1 166.9 172.7 172.2 168.0 172.7 172.3 175.2 171.9 168.6 167.6 169.1 166.8 172.0 168.4 166.2 172.8 166.1 173.5 168.6 172.4 175.7 178.8 169.1 175.5 170.8 171.7 164.6 171.2 177.1 170.7 173.6 167.2 170.7 174.7 171.8 167.3 174.8 168.5 178.7 177.3 165.9 174.0 170.2 169.5 172.1 178.2 170.9 171.3 176.1 169.7 177.9 171.1 179.3 183.5 168.5 175.5 175.9
第2讲用样本估计总体

栏目 导引
第十一章
统计、统计案例
2.样本的数字特征
出现次数最多 的那个数据,叫做这 (1)众数:一组数据中________________
组数据的众数.
最中间 位 (2)中位数:把 n 个数据按大小顺序排列,处于_________
置的一个数据(或最中间两个数据的平均数 )叫做这组数据的 中位数.
栏目 导引
频率分布表 ④列_______________________ ; 频率分布直方图 ⑤画_______________________ .
栏目 导引
第十一章
统计、统计案例
(2)频率分布折线图和总体密度曲线 ①频率分布折线图:连接频率分布直方图中各小长方形上端
中点 ,就得到频率分布折线图. 的_______
栏目 导引
第十一章
统计、统计案例
(2017· 高考全国卷Ⅰ)为评估一种农作物的种植效果,选了 n 块地作试验田.这 n 块地的亩产量(单位:kg)分别为 x1, x2,…,xn,下面给出的指标中可以用来评估这种农作物亩 产量稳定程度的是( )
A.x1,x2,…,xn 的平均数 B.x1,x2,…,xn 的标准差 C.x1,x2,…,xn 的最大值 D.x1,x2,…,xn 的中位数
栏目 导引
第十一章
统计、统计案例
解析: 选 D.把该组数据按从小到大的顺序排列为 10, 12, 14, 1 14,15,15,16,17,17,17,其平均数 a= ×(10+12+ 10 14 + 14 + 15 + 15 + 16 + 17 + 17 + 17) = 14.7 , 中位数 b = 15+15 =15,众数 c=17,则 a<b<c. 2
《统计理论知识》讲座

《统计理论知识》 讲 座
(一) 古典统计学时期
1787年,英国博士齐默尔曼(E.A.W.Zimmerman)根据语音,把 Statistik译成英语Statistic,后经英国爵士莘克莱(J.Sinclair, 1754—1835)的大力推广,“统计学”一词终于为英国广大学者所接 受。后来,不仅在英国,而且在其他语种的欧洲国家都陆续接受了 阿亨瓦尔首创的“统计学”。这些国家翻译的“统计学”,从字音 或字形上十分接近Statistic。19世纪后半叶,“统计学”传到日本, 日本学者根据意思采用汉字“统计学”来表示。之后,作为一门科 学名称的“统计学”一词又传到中国。
2013-2-28 5
《统计理论知识》 讲 座
(一) 古典统计学时期
威廉· 配第对于统计学的形成有着巨大的功绩,因此马克思称他 为“政治经济学之父,在某种程度上也可以说是统计学的创始 人”。该学派的另一个代表人物是约翰· 格朗特 (J.Graunt,1620—1674)它通过对伦敦市人口的出生和死亡资料 进行分类计算,出版了第一本关于人口统计的著作《关于死亡表 的自然和政治的观察》,证实了出生、死亡、男女性别比例等人 口动态存在一定的规律;编制了世界上第一张“死亡表”。 政治算术学派在统计发展史上有着重要的地位。它在搜集 资料方面,较明确地提出了大量观察法、典型调查、定期调查 等思想;在处理资料方面,较为广泛地运用了分类、制表及各 种指标来浓缩与显现数量资料的内容信息。它第一次运用可度 量的方法,力求把自己的论证建立在具体的、有说服力的数字 上面。但该学派的学者都还没有使用“统计学”这个名称,可 谓“有统计学之实,无统计学之名”。
2013-2-28 8
《统计理论知识》 讲 座
(二) 近代统计学时期
卫生统计学知识点汇总
● 表示符号:G
● 计算方法:直接法和加权法
(1)直接法:
适用范围:小样本资料
方法:将 n 个观察值(X1,X2,3,……Xn)直接相乘再开 n 次方。 公式:G n X1X2 Xn
用对数形式表示为: 举例:设有 5 份血清样品,滴度分别为: 1:1, 1:10, 1:100, 1:1000, 1:10000
G=lg-1 (Σf lgX/Σf ) 举例:有 95 名麻疹易感儿童,接种麻疹疫苗一个月后,血凝抑制抗体滴度见下表,试求平
均滴度(例)。 G=lg-1 (Σf lgX/Σf )=lg-195) =
即 95 名易感儿童接种疫苗一个月后,血凝抑制抗体的 平均滴度为 1:。
计算几何均数(G )注意事项:
(1)观察值不能为 0;
(2)观察值不能同时有正有负;
(3)同一组资料求得的几何均数小于算术均数。
练习:
1.有 8 份血清的抗体效价分别为:1:5, 1:10, 1:20, 1:40, 1:80, 1:160, 1:320, 1:640
G lg 1[(lg5 lg10 lg 640) / 8]
,,, , 求平均身高
178. 4 X
10
适用范围:小样本资料,n<30
169. 7
( cm )
方法:将观察值 X1、X2、X3、……、Xn 直接相加,再除以观察值的个数 n。
n
公式: X X X1 X 2 X n i1
n
n
(2)加权法:
适用范围:大样本含量的分组资料或频数表资料。
该研究方法叫抽样研究。 统计推断:样本的现象推断所研究总体的特征。即分析样本数据,获得关于总体的知识。 同质(homogeneity):指研究对象在一定范畴的各种可能影响主要观察指标的其它因素处
第2讲 相关分析
②欧氏距离平方(Squared Euclidean Distance) 计算公式为: k
SEUCLID xi yi
i 1
2
其中,k表示每个样本中有k个变量,xi表示第一个样本在第i个变 量上的取值,yi表示第二个样本在第i个变量上的取值。 ③Chebychev距离 计算公式为:
3.总体相关系数与样本相关系数γ之间的关系:
如果相关系数是根据总体全部数据计算的,称为总体相关系数, 记为;如果是根据样本数据计算而来的,则称为样本相关系数,记 为γ 。 在一般情况下,总体相关系数是未知的,我们往往是用样本相 关系数γ作为总体相关系数的估计值。但由于存在样本抽样的随机性, 样本相关系数并不能直接反映总体的相关程度。 为了判断γ对的代表性大小,需要对相关系数进行假设检验。 ⑴首先假设总体相关性为零,即H0为两总体无显著的线性相关 关系。 ⑵其次,计算相应的统计量,并得到对应的相伴概率值。如果 相伴概率值小于或等于指定的显著性水平,则拒绝H0,认为两总体存 在显著的线性相关关系;如果相伴概率值大于指定的显著性水平,则 不能拒绝H0,认为两总体不存在显著的线性相关关系。
如果个案数n >30,则计算Z统计量:Z
R n1
Kendall’s tua-b等级相关系数:
4V T 1 nn 1
V是利用变量的秩数据计算而得的非一致对数目。 对Kendall’s tua-b等级相关系数的统计检验,一般如果个案数n≤30, 将直接利用Kendall’s tua-b等级相关统计量表,SPSS将自动根据该表给 出对应的相伴概率值。 如果个案数n>30,则计算Z统计量:
在不相似性测量的距离分析中,根据不同类型的变量,采用不同的 统计量进行计算。 (1)对连续变量的样本(x,y)进行距离相关分析时,常用的统计量 有以下几种。 ①欧氏距离(Euclidean Distance) 计算公式为: k
第2讲随机事件的概率
A与B是相等集合
A与B无相同元素
A与B的并集
A与B的交集
A与B的差集
A的余(补)集
§1.2 随机事件的概率
• 1.直观定义 • 2.统计定义 • 3.古典定义; • 4.公理化定义; • 5.几何定义.
1.2.1 概率的统计定义
概率的直 在一次试验中事件A发生的可能性大小的 观定义: 量度称为事件A的概率。
B { 取到的两只球都是黑球}
C { 取到的两只球中至少有一只是白球 }
D { 取到的两只球颜色相同 }
显然C B, D A B
(1)
P( A)
P42 P62
12 30
2 5
(2)类似于(1),可求得
P(B)
P22 P62
1 15
由于AB ,Leabharlann 由概率的有限可加性,所求概率为:
P(D) P( A B) P( A) P(B) 2 1 7 5 15 15
加法原理
完成某件事情有 n 类途径, 在第一类途径中有m1种方 法,在第二类途径中有m2种方法,依次类推,在第 n 类 途径中有mn种方法,则完成这件事共有 m1+m2+…+mn种 不同的方法.
乘法原理
完成某件事情需先后分成 n 个步骤,做第一步有m1种 方法,第二步有 m2 种方法,依次类推,第 n 步有mn种方 法,则完成这件事共有 m1×m2×…×mn种不同的方法.
率的稳定值p,记做P(A)。概率是不变的
我们称这一定义为概率的统计定义 。
4 概率是事件的自然属性,有事件就一定有 概率。频率是概率的表现,频率的本质是概率
概率的公理化定义
• 非负性公理: P(A)0; • 正则性公理: P(Ω)=1; • 可列可加性公理:若A1, A2, ……,
第2讲OLS小样本性质
第2讲 OLS 小样本性质一、背景OLS 是最基本也是最常用的一个回归估计方法,其思想十分简单,就是使回归的残差平方和达到最小。
需要注意的是,应用OLS 离不开相应的假设条件,也就是所谓的古典假设。
在这些假设条件下,OLS 估计具有一系列优良的性质。
这个部分主要阐述对古典假设条件和理解并讨论在该条件下OLS 所具有的优良性质。
二、知识要点 1、对古典假设的理解 2、自变量的随机和非随机问题3、OLS 在古典假设下的无偏性和有效性4、OLS 的统计推断5、OLS 的预测6、约束OLS 三、要点细纲 1、对古典假设的理解最小二乘有限样本性质的推导是在古典假设下得到的,因此需要注意的是,一旦古典假设不能得到满足,OLS 的一系列有限样本的优良性质就不在具备了。
计量经济学中的假设很多,从现实角度出发,假设条件应该是越弱越好的。
这意味着模型的假设条件在现实中越容易得到满足,但是古典假设是一个很强的假设,虽然有其合理性,但是某些假设需要被放宽或者舍弃。
最强的两个假设条件是:自变量的强外生性假定,即(|)0E X ε= 随机扰动项服从正态分布,即2(0,)N εσ其中,强外生性条件(|)0E X ε=不仅意味ε与X 是不相关的,即()0E X ε=,也意味着ε与X 的任何函数形式()f X 是不相关的。
根据条件期望定理:若(|)y E y X ε=-,那么对于任意X 的函数()f X ,有[()]0E f X ε=。
(证明: (|)[((|))|](|)(|)0E X E y E y X X E y X E y X ε=-=-=[()]([()|])(()[|])0E f X E E f X X E f X E X εεε∴===)其次,随机扰动项服从正态分布也是一个过强,有时不够实际的假设条件,但是该假设是有限样本性质的核心内容,是进行构造统计量进行假设检验和统计推断的基础。
当然,在随机扰动项不服从正态分布的情况下,必须利用渐进理论讨论估计量的大样本性质。