第三讲描述统计

合集下载

描述统计名词解释

描述统计名词解释

描述统计名词解释
描述统计是指通过对数据进行收集、整理、汇总和分析,来描述和总结数据的统计方法。

它主要依靠描述性指标,即通过几个重要的统计量来揭示数据的特征和规律。

在描述统计中,常用的统计指标包括以下几个:
1. 中心趋势测度:用于描述数据集中的趋势,常见的指标有均值、中位数和众数。

均值是将所有数据加起来再除以数据的个数,中位数是将数据按大小顺序排列后的中间值,众数是数据集中出现次数最多的数值。

2. 离散程度测度:用于描述数据的分散程度,常见的指标有极差、标准差和方差。

极差是最大值与最小值之间的差异,标准差是数据围绕均值的平均差异程度,方差是标准差的平方。

3. 偏态和峰态测度:用于描述数据的偏斜程度和峰度程度,常见的指标有偏度和峰度。

偏度是数据分布的偏斜程度,峰度是数据分布的尖峰或平坦程度。

4. 百分位数:是指在一组有序数据中,某一特定百分比的数据所处的位置。

例如,第75百分位数表示75%的数据落在该数值以下。

除了以上常用的统计指标外,描述统计还可以通过图表来展示数据的分布和关系。

常见的图表包括直方图、饼图、线图和散点图等。

描述统计的目的是为了对数据进行概括和总结,通过对数据的描述性统计分析,可以帮助人们更好地理解数据的特征、趋势和规律,并为后续的推断统计提供基础。

同时,描述统计也广泛应用于各个领域的研究和实践中,如社会科学、自然科学、商业和医疗等。

描述性统计分析 ppt课件

描述性统计分析  ppt课件

PPT课件
23
【界面介绍】
⑴ 选 择 菜 单 【Analyze】→【Descriptive Statistics】→ 【Crosstabs】,进入列联表分析界面。
PPT课件
24
【实验案例】
例4-4 调查339名45岁以上吸烟习惯与患肺癌的关系,数 据见4-4-1.sav。试问吸烟者与不吸烟者患肺癌的概率是 否有所不同。
PPT课件
32
【实验案例】
例4-5 已知有2005年各省城乡居民消费水平数据,数据见45-1.sav。试按地区对各省城乡消费水平之比进行分析,并 比较不同地区城乡消费水平是否有较大差异。
PPT课件
33
PPT课件
8
【实验案例】 例4-1 测量20台液晶显示器的重量,数据见4-1-1.sav,对其进行 描述性统计分析。
PPT课件
9
4.2 频数分布表分析
频数分析统计的是每一组中观测点的个数,而不是 考虑其实际取值。
通过频数分析能够了解变量取值的情况,对于把握 数据的分布特征非常有用。当某变量的自然取值是局限 在有限的几个数值中,则频数分析就是统计该变量在各 个取值点的个数分布情况;如果某变量的取值是在某范 围内的离散值,则需要将其取值区域划分为几个取值区 间,频数分析就是统计该变量在各个取值区间观测点个 数的分布情况。
描述性统计分析
【学习提要】
对数据进行统计描述是统计分析中最基本的工作。对于 整理好的数据,通过描述性统计分析,可以挖掘出很多统计 量的特征。SPSS软件中,描述性统计分析功能主要集中在 “Descriptive Statistics”菜单。具体包括5个过程: Frequencies过程、Descriptives过程、Explore过程、 Crosstabs过程和Ratio过程。

第三讲统计表与统计图

第三讲统计表与统计图

✓ 统计图要用不同线条和颜色表达不同事物或对象的统计指标时,需要
在图的右上角空隙处或图的下方与图标题中间位置附图例加以说明。
✓ 按资料的性质和分析目的选用合适的图形。
资料的性质和分析目的
宜选用的统计图
比较分类资料各类别数值大小
条图
分析事物内部各组成部分所占比重(构成 比)
圆图或百分条图
描述事物随时间变化趋势或描述两现象相互变化趋势
线条
数字
备注
统计表的基本框架: 表号 横标目名称
横标目
合计
标题 纵标目名称
数字
✓ 标题: 概括表的主要内容。 一般包括研究资料的时间、地点、观察单位数和研究内容。 写在表的上端中央。
✓ 标目: 标目是表格内的项目,标目的文字应简明,有度量单位时应注明。 标目分横标目和纵标目。 横标目位于表最左侧,说明横行的数字涵义,是表的主语位置,是被研究对象的分组。 纵标目位于表的右上方,说明纵列数字的涵义,是表的谓语位置,是研究被研究对象 的各项指标。
➢ 统计表的编制要求: ✓ 要重点突出,一张表格一般只表达一个中心内容。 ✓ 要主谓分明,层次清楚。 ✓ 就简洁明了,一切文字、数字和线条应尽量从简。 ✓ 统计表编制完成后,从左向右读依次横标目(主语) 和纵标目(谓语),应构成完整的一句话。
§3.1.2统计表的种类 统计表可简单地分为简单表和组合表两大类。
✓ 表 3-2 某地某年不同年龄、性别的儿童青少年意外损伤情况
年龄(岁)
调查人数
男 损伤人数
损伤率(%)
调查人数
女 损伤人数
损伤率(%)
3.5~
447
66
14.77
424
29
6.84

描述统计的概念及主要方法

描述统计的概念及主要方法

描述统计的概念及主要方法描述统计是指对一组数据进行概括和描述的方法,其主要目的是揭示数据的集中趋势、离散程度和分布形态等信息。

描述统计的主要方法包括平均数、中位数、众数、标准差、方差、偏度、峰度等。

以下是这些方法的优缺点:1.平均数:优点:平均数能够反映数据的集中趋势,易于理解和计算,适用于各种数据类型。

缺点:平均数容易受到极端值的影响,对数据的波动敏感,不够稳定。

2.中位数:优点:中位数不受极端值影响,具有较好的稳定性,适用于各种数据类型。

缺点:中位数不能很好地反映数据的整体分布形态,对于对称分布的数据,中位数与平均数相近。

3.众数:优点:众数能够反映数据的最常出现的值,易于理解和计算。

缺点:众数适用于离散型数据,对于连续型数据不易计算;众数可能有多个,不能唯一确定数据的中心位置。

4.标准差:优点:标准差能够反映数据的离散程度,适用于各种数据类型。

缺点:标准差受样本大小影响较大,样本越大,标准差越小;此外,标准差不能反映数据的整体分布形态。

5.方差:优点:方差是标准差的平方,能够更精确地反映数据的离散程度。

缺点:方差同样受样本大小影响,且不能反映数据的整体分布形态。

6.偏度:优点:偏度能够反映数据分布的不对称性,适用于各种数据类型。

缺点:偏度仅能反映数据的分布形态,不能反映数据的离散程度。

7.峰度:优点:峰度能够反映数据分布的尖锐程度,适用于各种数据类型。

缺点:峰度仅能反映数据的分布形态,不能反映数据的离散程度。

总结来说,描述统计方法在分析数据时具有以下特点:1.揭示数据的集中趋势、离散程度和分布形态等信息。

2.为后续的推论统计和实际应用提供基础。

3.适用于各种数据类型,包括连续型和离散型数据。

然而,描述统计方法也存在一定的局限性,如不能完全反映数据的整体分布形态、受极端值和样本大小的影响等。

因此,在实际应用中,我们需要根据数据的特点和分析目的,选择合适的描述统计方法,并结合其他统计方法进行全面分析。

概率论与数理统计第3讲

概率论与数理统计第3讲
6
6
定义 1.2 设P(A)>0,则B对A的条件概率为
P( AB ) P( B | A) P( A) (1.10)
7
7
P( AB ) P( B | A) P( A)
(1.10)
但是不要以为通常的概率论问题都是根据式 (1.10)计算条件概率的,其实不然。在解 决许多问题时,条件概率是通过对试验 进行控制而更改了样本空间而得到的, 就是说,修改随机试验使得那个条件事 件A上升为必然事件或者新的样本空间, 然后再通过试验、思考或者计算得到 P(B|A)。
18
18
P( AB ) P( B | A) P( A)
(1.10)
因为如此,所以经常倒是利用式(1.10)来计算 P(AB),即有如下的乘法法则: 定理 1.7 (乘法法则) 对两个事件A,B, 设 P(A)>0,则下式成立: P(AB)=P(A)P(B|A) (1.11)
19
19
P(AB)=P(A)P(B|A) (1.11) 这样的乘法法则可以推广到三个甚至更 多个事件上去。例如对于事件A,B,C, 就有 P(ABC)=P(A)P(B|A)P(C|AB) 这是因为上式右边头两项的乘积就是 P(AB),再利用一次公式(1.11)就可得结 果。
22
22
而这道题当然也可以完全用古典概型的办法 来算,考虑上面的P(A)和P(B|A)乘到一起 5 4 就是 8 7 分母上正好是8个元素取两个的排列数, 是有次序地抽两个球的基本事件总数, 而分子上则是5个白球取两个的排列数, 这是在一个56个基本事件的试验中进行 计算,当然思考就复杂一些。
A C B
图1-3
28
28
从图中不难看出,事件A和B都是压住了内接 圆的一半,所以 1 P( A | C ) P( B | C ) 2

概率论与数理统计第3讲

概率论与数理统计第3讲

3
一般地, 对于A,B两个事件, P(A)>0, 在事件A发 生的条件下事件B发生的概率称为条件概率 条件概率, 条件概率 记为P(B|A).
4
例1 一个家庭中有两个小孩, 已知其中一个是 女孩, 问另一个也是女孩的概率是多少(假定 男生女生是等可能的)? 解 由题意, 样本空间为 Ω={(男,男),(男,女),(女,男),(女,女)} A表示事件"其中一个是女孩", B表示事件"两 个都是女孩", 则有 A={(男,女),(女,男),(女,女)} B={(女,女)} 由于事件A已经发生, 所以这时试验的所有可 能结果只有三种, 而事件B包含的基本事件只 占其中的一种, 所以有P(B|A)=1/3.
20
例5 已知某厂家的一批产品共100件, 其中有5 件废品. 为慎重起见, 某采购员对产品进行不 放回的抽样检查, 如果在被他抽查的5件产品 中至少有一件是废品, 则他拒绝购买这一产品. 求采购员拒绝购买这批产品的概率. 解设 Ai={被抽查的第i件产品是废品}, i=1,2,3,4,5, A={采购员拒绝购买}, 5 则 A= A
17
例3 活到50岁的概率为0.90718, 活到51岁的概 率为0.90135. 问现在已经50岁的人, 能够活到 51岁的概率是多少? 解 记A={活到50岁}, B={活到51岁}. 则B⊂A. 因此, AB=B. 要求P(B|A). 因为P(A)=0.90718, P(B)=0.90135, P(AB)=P(B)=0.90135, 从而 P ( AB ) 0.90135 P ( B | A) = = ≈ 0.99357 P ( A) 0.90718 由此可知, 该城市的人在50岁到51岁之间死亡 的概率约为0.00643. 在平均意义下, 该年龄段 中每千个人中约有6.43人死亡. 18

第3讲 统计、成对数据的统计分析

第3讲 统计、成对数据的统计分析
计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和
材积量(单位:m3),得到如下数据:
样本号i
1
2
3
4
5
6
7
8
9
10
总和



并计算得 ∑ =0.038, ∑ =1.615
=
=
根部横截面积xi
0.04
0.06
0.04
0.08
0.08
=
0.01×1.377=0.013 77,

所以样本相关系数 r=
∑ ( -)( -)
=



∑ ( -) ∑ ( -)
=
=

.
≈0.97.
.
3.[回归分析] (2022·全国乙卷,T19)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树
2
P(K2≥k)
k
0.100
2.706
0.050
3.841
0.010
6.635
解:(2)K

×(×-×)
=
≈3.205>2.706,
(+)×(+)×(+)×(+)
2
所以有 90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司
关程度越弱.
典例1 (2022·四川绵阳三模)随着科技进步,近来年,我国新能源汽车产业
迅速发展.以下是中国汽车工业协会2022年2月公布的近六年我国新能源乘用
车的年销售量数据:
年份
年份代码x
新能源
乘用车
年销售
Y(万辆)

统计学第3章描述性统计量

统计学第3章描述性统计量

► 2.选择变量“食品重量[spzl]”进入“Variable(s)”框内。
► 3.在此框内选择“Mean”; 在“Dispersion|”框内选中 “Std.deviation”、“Variance”、“Range”选项;在 “Distribution”框内,选中“Skewness”、“Kurtosis”选项。
3.1集中趋势描述性统计量
n
★ 3.1.1均值 ★

n
xi
x i 1 n
n
xi f i
x i 1 n fi i 1
★ 均值计算公式有两个重要的数学性质:
★ 所有观测值与其均值的离差之和等于0,即:
n
xi x 0
i 1
★ 所有观测值与其均值的离差平方和最小,即:

n

xi x2 最小。
313众数314均值中位数和众数的比较均值是全体观测值的重心均值是全体观测值的重心众数是全体观测值的重点众数是全体观测值的重点中位数是全体观测值的中心
第3章 描述性统计量
引例3
频 30 数
20
10
0 40.0 42.5 45.0 47.5 50.0 52.5 55.0 57.5 60.0 食品重量 图3.1 100袋食品重量频数分布
频数分布趋于集中的速度变化较慢,分布形态比较平坦;大于 0,称作尖顶峰,表明频数分布趋于集中的速度变化较快,分 布形态比较尖削或陡峭。
★ 3.3.2峰度
3.4运用SPSS进行统计量描述
★ 3.4.1由“Frequencies”计算描述性统计量
► 1.打开“表3.1”对应的SPSS数据集“data3.1”。
► 2.选择变量“食品重量[spzl]”进入“Variable(s)”框内。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
200 100 50 40 30 20 10 5 4 3 2 1 .5 .4 .3 1950 1952 1954 1956 1958 1960 1962 1964 1966 伤寒 结核病
死 亡 率 ( 1/10万 )
年份
3.3 圆图(饼图)
圆图(pie graph) 圆形图适用于百分构成比 资料,表示事物各组成部分所占的比重或构成。 以圆形的总面积代表100%,把面积按比例分成 若干部分,以角度大小来表示各部分所占的比 重。 教授 图:某医科 9.8% 副教授 助教 33.2% 大学公共卫生 10.2% 学院专业技术 讲师 21.4% 人员构成

当今社会(时代)被称为信息社会. 信息社会的主要特征: – 信息在各个领域的重要性; –信息数量庞大; –信息处理和传输迅速… 统计在信息社会中的重要作用: –提供搜集信息的理论方法; –提供加工处理信息的理论方法.
社会
统计学的重要地位
管理 从应用角度来 讲,任何专业都需 要。在专业学科中 ,处于基础地位, 属于基础专业课, 在学生的知识体系 中的地位,统计学 是为学生实践、实 际工作、生活能力 做准备。
2.频数表编制
[例]某地2004年抽样调查了100名18岁男大学生的身高 (cm),资料如下,试编制频数表。
173.6 173.6 173.8 174.5 168.3 171.9 173.5 171.2 168.5 171.3 165.8 175.3 164.4 174.3 175.0 168.6 168.6 177.1 178.7 176.1 168.7 178.4 170.0 170.4 172.1 167.6 172.4 170.7 177.3 169.7 173.6 181.5 175.0 173.2 166.9 169.1 175.7 173.6 165.9 177.9 173.7 170.5 177.7 174.5 172.7 166.8 178.8 167.2 174.0 171.1 177.8 176.4 171.4 173.7 172.2 172.0 169.1 170.7 170.2 179.3 180.3 170.8 162.9 173.4 168.0 168.4 175.5 174.7 169.5 183.5 173.1 171.8 179.0 173.9 172.7 166.2 170.8 171.8 172.1 168.5 173.0 180.7 174.9 172.9 172.3 172.8 171.7 167.3 178.2 175.5 172.6 170.7 178.3 177.9 175.2 166.1 164.6 174.8 170.9 175.9
3.频数分布图
3.1直方图(histogram) 直方图用于表达连续性资料 的频数分布。以不同直方形面积代表数量,各直方形 面积与各组的数量成正比关系。
2001年某地区居民受教育年限分布
800 600
人数
400 200 0 4 8 12 16 20
3.2 折线图
折线图适用于连续性 资料,以不同的线段 升降来表示资料的变 化,并可表明一事物 随另一事物(如时间) 而变动的情况。 图:某地1950-1966 年伤寒与结核病死亡 率
描述统计
测量的种类 统计描述
数据整理 变量集中趋势分析 变量离散趋势分析
测量的种类
社会测量按照其对测量对象数 量化程度由低到高的顺序,可分 为四个测量层次,即定类测量、 定序测量、定距测量和定比测量。
1.定类测量
也称类别测量或分类测量,它是对测量对象的性质或 类型的鉴别。 例如,对性别、职业、婚姻状况、所有制等按照事物 性质或类别来区分的社会现象的测量,就属于定类测 量,其测量结果只能分类,标以各种类别名称,如男 性和女性,工人和农民,已婚和未婚,全民所有制、 集体所有制和个体所有制等等。有时,也可用一定数 字来代表某类事物,如用“0”代表女性、“1”代表 男性;用“1”代表农业、“2”代表工业、“3”代表 商业等等。但是,这些数字都是人们赋予某类事物的 识别标志,它们丝毫不反映这些事物本身的数量状况, 不能作加、减、乘、除等数学运算。 定类测量的数量化程度最低,其测量结果只能用数学 符号“=”或“≠”来表示,只能作频率分布,在总 体中所占比例等有限的几种数量统计。
经济
医学
生活
工程
思维方法
….
计量
什么是统计学?
1.收集数据 (Collecting Data) 数据 例:问卷调查Survey 分析Data 2.表示数据 Analysis (Presenting Data) 例:图表Charts & Tables 3.描述数据 (Characterizing Data) 例:平均值Average
4.定比测量
也称比例测量,它是对测量对象之间的比例或比率关 系的测量。 例如,对出生率、死亡率、性比例、劳动力负担系数、 工资增长速度等反映两个数值之间比例或比率关系的 社会现象的测量,就属于定比测量,其测量结果一般 用百分比来表示,有时也可用绝对数来反映。如,甲 地出生率为20‰,乙地出生率为15‰,甲地出生率比 乙地出生率高25%;农村性比例为118,城市性比例为 102,前者比后者高16等等。 定比测量的数量化程度比定距测量更高一个层次,其 测量结果不仅能进行加减运算,而且能进行乘除运算, 并可作各种统计分析。
为什么?
做出决策 Decision -Making
?1984-1994 T/Maker Co.
《红楼梦》后40回出自谁的手笔?
众所周知,《红楼梦》一书共120回,一般认为前80回 为曹雪芹所写,后40回为高鹗所续,长期以来对这个问 题一直有争议。能否从数学上做出论证? 1985、1986复旦大学李贤平教授带领他的学生作了这项 有意义的工作,他们创造性想法是将120回看成是120个 样本,然后确定与情节无关的虚词作为变量(所以要抛 开情节,是因为在一般情况下,同一情节大家描述的都 差不多,但由于个人写作特点和习惯的不同,所用的虚 词是不会一样的),计算出每一回里变量出现的次数, 用多元分析中的聚类分析法进行分类,果然将120回分 成两类即前80回为一类,后40回为一类,很形象地证实 了不是出自同一人的手笔。
统计描述
关于统计的一些论断
“没有统计,其它科学可以存在,但是很 渺小” 一个医生说:“医学若无统计就不是科 学” 台湾辅仁大学一教授说“统计即生活,统 计即人生”. 外国某机构评论:“统计是20世纪对人类 社会贡献最大的四大学科之一”。
一位资深的海外统计学家说: 统计就和柴、米、油、盐、酱、 醋、茶一样,存பைடு நூலகம்的时候并不是 很突出,一旦不见了,人生就是 黑白的了。
2.频数表编制(续)
2.1求全距 R =183.5-162.9=20.6(cm) 2.2定组段和组距 (1)一般设8~13个组段 ,常用全距的1/10取整做组 距。 i= 20.6/10=2.06 取整,组距为2 (2)上限、下限、组距 (3)第一组段应包括全部观察值中的最小值;最末组 段 应包括全部观察值中的最大值 2.3列出频数表
三、描述统计学和推断统计学
从统计方法的构成看:描述统计学、推断 统计学。
描述统计学: 研究如何取得反映客观现象的数 据,并通过图表形式对所收集的数据进行加工 处理和显示,进而通过综合、概括与分析得出 反映客观现象的规律性数量特征。
四、数据整理
1.数据整理排序(升序和降序)
Ï ú Ê Û Í °ý Ê 10¡ ª 20¡ ª 30¡ ª 40¡ ª 50¡ ª 60¡ ª 70¡ ª 80¡ ª º Ï ¼ Æ 19 29 39 49 59 69 79 89 Æ Æ ¡ ¾ Ï ú Ê Û Á ¿ µ Ä À Û ¼ Æ ´ Î Ê ý £ ¨µ Æ Â Ê £ © í ± Æ ý µ Ê Ï à ¶ Ô µ Æ Ê ý ò Ï Ï É Û À Æ ¼ ò Ï Â Ï Û À Æ ¼ ¨%£ £ © Î Ê ´ ý µ Â Æ Ê Î Ê ´ ý µ Ê Æ Â 1 1.7 1 1.7 60 100 3 5 4 6.7 59 98.3 5 8.3 9 15 56 93.3 16 26.7 25 41.7 51 85 20 33.3 45 75 35 58.3 9 15 54 90 15 25 4 6.7 58 96.7 6 10 2 3.3 60 100 2 3.3 60 100 ¡ ª ¡ ª ¡ ª ¡ ª ¡ ª ¡ ª ¡ ª ¡ ª ¡ ª ¡ ª ¡ ª ¡ ª ª ¡ ¡ ª ¡ ª ¡ ª
一、统计数据
统计数据不是指单个的数字,是由多个数字构 成的数据集,单个数据无需统计方法,也无法 得到事物变化的规律;只有经过对同一事物进 行多次观察或计量得到大量数据,才能用统计 方法探索出事物的变化规律。
二、统计数据的规律与统计方法
问题:什么是数据的内在数量规律性?为什么 统计方法能通过对数据的分析找到其内在的规 律性? 例:新生婴儿的性别比例 表面看:某些家庭的新生婴儿性别为男或为女没 有一定规律 大量观察:男女婴比:107:100 上述比例由人类自然发展的内在规律所决定。 (男性死亡率略高于女性)
《红楼梦》后40回出自谁的手笔?(续)
之后,又进一步分析前80回是否为曹雪芹所写? 这时又找了一本曹雪芹的其它著作,做了类似 计算,结果证实了用词手法完全相同,断定为 曹雪芹一人手笔。 而后40回是否为高鹗写的呢?论证结果推翻了后 40回是高鹗一个人所写。这个论证在红学界轰 动很大,他们用多元统计分析方法支持了红学 界观点,使红学界大为赞叹。
3.定距测量
也称区间测量,它是对测量对象之间的数量差别或间 隔距离的测量。 例如,对人的智商、初婚年龄、人均生活费用、家庭 人数等可用某种基本单位表示数量差别或间隔距离的 社会现象的测量,就属于定距测量,其测量结果可用 具体数字来反映。如平均初婚年龄,城市为26岁,农 村为22岁,城市比农村大4岁;月人均生活费用,1980 年为60元,1990年为100元,1990年比1980年增加40元 等等。 定距测量不仅能反映社会现象的分类和顺序,而且能 反映社会现象的数量状况,计算出它们之间的距离, 因而其数量化程度比定序测量更高一个层次。定距测 量的结果一般用具体数字表示,并可进行加法或减法 等数学运算。
相关文档
最新文档