统计工作的步骤第一步研究设计第二步收集资料第三步整理

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
40
几何平均数
适用于变量为对数正态分布,经对数转换 后呈正态分布的资料
n
G n x1 x2 xn n xi i 1
41
极差(R)
它由两个极端观察值决定,受资料中不正常 的极端值的影响大,没有充分利用资料的全 部信息,不能精确表示资料的变异度。
R xmax xmin
42
每个观察值与平均数之差即离均差;表示观察值 偏离平均数的距离。 离均差的平方再求和简称平方和(sum of square)。 记为SS。 样本容量除离均差平均和,得到平均的平方和, 简称方差(variance)或均方(mean square,MS )。
选择 坐标 轴
修改坐标轴名称
坐标轴刻度内 外选择
坐标轴颜色 坐标轴粗细 刻度的长短
66
坐标轴单位(时
Tick Lables 间、日期…)
坐标轴尺度 (科学计数)
刻度下数字的字体
刻度下数字的颜色 刻度下数字的尺度
加粗
67
2)修改图像
特征点的大小
双击图像
特征点的形状
特征点的颜色
Symbol
68
Line: 线的链接形式 线的类型 线的粗细 线的颜色
24
4). 数据归组
100株湘菊梨单株产量的次数分布表
25
(三) 质量性状资料的次数分布表
例如,用某肥料处理后,红星苹果果实着色
果实着色分级 全红 >2/3果面红色 1/3-2/3果面红色 <1/3果面红色 全绿
代表值 5 4 3 2 1
果实数 14 36 97 53 7
26
统计图绘制的基本要求:
22
组限即各组的界限,常用 L 表示,同一组 中数值小者称为下限,数值大者称为上限。
本例的组限分别为: 47.01---50.00 50.01---53.00 53.01---56.00 | 71.01---74.00
23
❖为避免归组时出现差错,组限一定要 明确, 不能有重叠、交叉。 组限的小数位数比观察值多取一位;
3

中学
足月

2025783 29 154 57.0
7
干部
中学
足月


Quantitative data Qualitative data
计量资料
计数资料 5
2
质量性状是指只能观察而不能测量的性状。 如花药、茎、种子、果实、叶片的颜色、籽粒的 饱满度等。
质量性状本身不能用数值表示,要获得这类 性状的资料,须对其观察结果作数量化处理。 数量化方法可分为以下两种:
(1)标题简明扼要,列于图的下方; (2)纵、横两轴应有刻度,注明单位; (3)横轴由左至右,纵轴由下而上,数值由小到大;图
形长宽比例约5:4或6:5; (4)图中需用不同颜色或线条代表不同事物时,应有图
例说明。
27
28
1 条形图 (bar chart),又称柱形图
40 35 30 25 20 15 10
线下是否填充 线与特征点是否间断
69
70
71
72
73
1 N
N
xi
i 1
样本算术平均数
x
1 n
n i 1
xi
计算方法:
直接计算法
减去(或加上)常数法
加权平均法
x
1 n
n i 1
fi xi
38
中位数
观测值个数n的奇、偶性决定计算方法: n为奇数:第(n+1)/2位置的观测值 n为偶数:第n/2和n/2+1位置的观测值之和的1/2
39
众数
资料中出现次数最多的那个观测值 或次数最多一组的中间值(组中值)
6
(1)统计次数法
在一个样本内,分别统计具有某种性状、不具有 该性状的个体数,这种数量化的资料又叫次数资 料。 例如:分别统计红花豌豆与白花豌豆株数
7
(2)评分法
先根据性状的变异情况分级,给每级 分别赋予一 个适当的数值作代表值,然后统计样本中属于各 个级别的个体数。
例如: 调查作物受某种病虫害危害情况,将作物 性状分为免疫、高抗、中抗、中感、高感5个级别, 分别用1,2,3,4,5表示,统计样本内各种级别 的植株数。
51
作业
23页习题2.9 以上100个数据属于哪种资料? 任挑一组数据进行分组统计后制表并用绘图软件做成
直方图。
52
Chapter 2.2 Origin作图
53
启动后的界面
54
1. 导入数据
默认是纵轴 默认是横轴
55
多个纵轴的情况:
56
2. 作图
饼图 柱形图或直方图 折线图 散点图




























统 计 工 作 的 步 骤
1
Chapter 2 试验资料的整理与特征数的计算
一 试验资料的搜集与整理
(数据资料处理的首要环节)
二 试验资料特征数的计算
2
一、试验资料的搜集与整理
资料类型 资料搜集 资料整理
3
(一)数据类型
1. 计量资料 数量性状资料
确定适当的组数,应考虑: (1) 观察值个数的多少; (2) 极差(R)的大小; (3) 便于计算; (4) 能反映出资料的真实面貌。
19
确定组数
➢ 经验公式
或者 k=1+3.3log(n)
式中:n为总体单位数
组数 多
组距 小
统计数精确,计算不方便


统计数不精确,计算方便
20
组距是每个组区间的上限与下限之差, 常用 i 表示。
8
3. 三类资料间关系
例:一组2040岁成年人的血压
<8 低血压

8 正常血压
计量资料

12 轻度高血压

15 中度高血压

17 重度高血压
计数资料
以12kPa为界分为正常与异常两组,统计每组例数
9
(二)试验资料的搜集
调查
✓ 普查 ✓ 抽样调查
随机抽查的条件:概率相等、样本独立
试验
✓ 随机 ✓ 重复 ✓ 独立 无论哪种方式都力求完整、准确。
4、线条 多用三线表,上下两条边线略粗。
12
例:
13
(1)
变异较小的资料,可按观察值分组。
【例】某小麦品种的每穗粒数的次数分布。
每穗粒数
15 16 17 18 19 20
记数符号
次数
正一
6
正正正
15
正正正正正正T 32
正正正正正
25
正正正T
17

5
14
变异较大的计数资料,可分组统计。
【例】研究水稻品种的每穗粒数,共测115个穗,每 穗粒数的变幅在20 – 139,极差达119。
足月

2025830 25 158 68.0
6
管理员 大学
足月

2022543 23 161 69.0
5

中学
足月

2022466 25 159 62.0
11
2024535 27 157 68.0
2
2025834 20 158 66.0
4
商业 无 无
中学 小学 中学
足月 早产 早产
妊 娠
2019464 24 158 70.5
全距 制表
组数 归组
组距 组限
16
【例】100株湘菊梨的单株产量如表,其次数分布 表的制作方法如下:
17
1).求全距(极差)
全距为资料中的最大观察值与最小观察值 的差数,它表示了整个样本的变异幅度.
R=max{xi}-min{xi} 本例:R=73.7-47.9=25.8(kg)
18
2). 确定组数与组距
2. 计数资料 3. 质量资料 4. 三类资料间关系
4
观察单位 observations
Units;elements
变量 variables
住院号 年龄 身高 体重 住院天数
2025655 27 165 71.5
5
职业 无
文化程度 妊娠结局
中学
足月
某 医
2025653 22 160 74.0
5

小学
10
(三)试验资料的整理
1、次数分布表
✓计数资料次数分布表 ✓计量资料次数分布表 ✓质量性状资料次数分布表
2、次数分布图
✓柱形图 ✓直方图 ✓多边形图
11
统计表的结构和要求:
结构简单,层次分明,安排合理,重点突出,数据
准确。
表号 标题
总横标目 (或空白)
横标目1
纵标目1
纵标目2
……
横标目2
数字资料
两列 一定 要选 中!
57
58
59
60
61
62
63
3. 调整图
1)修改坐标轴 2)修改图像
64
1)修改坐标轴
双击坐标轴 坐标轴最小值
坐标轴最大值
坐标轴的取值(线性、 对数、指数…)
选择要 修改的 坐标轴
坐标轴上单位长度 每个单位长度 内端点的数目
坐标轴第一个数字
65
Title & Format
适用于表示连续性变异资料的次数分布。 31
32
3 饼图(pie chart)
17 11 12 16
13
15
计数资料 质量性状资料
14
来亨鸡月产蛋次数分布图
33
4 多边形图(polygon),又称折线图(broken-line chart)
45
40
体 35 长 30 厘 25 米 20
计量资料
15
组距、组数、极差有如下关系: i=R/
为了便于计算,组距一般取整数。
本例R=25.8,分为9组, 故组距: (i)=25.8/9=2.9≈3.0(kg)
21
3). 确定组中值与组限
组中值是各组区间的中点值,它可作为 各组的代表值,最好取整数或与观察值位数 一致。一般先确定第一组的组中值。 本例 九个组中值分别为: 48.5, 51.5, 54.5, 57.5, …, 72.5
(x x) 0
45
在估计其他统计数时,如该统计 数受k个条件限制,则自由度等于样 本观察值个数减去约束条件数k,即 样本自由度为n-k
46
统计学上把方差或均方的平方根取正值 称为标准差(standard deviation,Sd)。
总体标准差:
(x )2 x2 ( x)2 / N
N
N
样本标准差:
s (x x)2 x2 ( x)2 / n
n1
n1
47
对于已分组的资料,可采用加权的公 式进行计算:
s f ( x x)2 fx2 ( fx)2 / n
n1
n1
48
变异系数(coefficient of variation,CV)
统计上,为比较具有不同单位,或单位相 同但平均值差异相差悬殊的两个样本之间的变 异度,需用相对变异量。
CV s 100% x
49
【例】今测得金柑树冠直径平均数为132cm, 标准差为12cm,干周长的平均数为15cm, 标准差为2cm,试比较其变异孰大?
50
变异系数的计算: 冠径:CV=12/ 132×100%=9.09%
干周:CV=2/15×100%=13.33%
可见,虽然干周的平均数与标准差的绝 对数比树冠直径小得多,但相对变异程 度比冠径要大些。
43
总体方差通常无法得到,而由样本方差估
计,样本方差称为均方 s 2 :
s2
(x x)2
x2 (
x)2 n SS
n1
n1
df
自由度(degree of freedom) 指样本 内能独立自由变动观察值的个数。
44
【例】 有5个观察值,其中4个观察值的 离均差为3,-2,3,5,那么第5个观察值 的离均差必为-9,才能满足:
b. 负向直线关系
4 3 2 1
123456
c. 曲线关系
35
三 试验资料特征数的计算 以复习为主
反应资料集中性的特征数: 平均数; 反应其离散性的特征数: 变异数。
36
集中性
离散性
平均数
算 术 平
中众 几
位数 何






变异数
极 差
方 差
标 准

变 异 系 数
37
算术平均数
分类: 总体算术平均数μ=
5 0
11 12 13 14 15 16 17
图1 月产蛋数次数分布条形图
特点:柱形之间要间隔一定的距离
适用于计数资料和质量性状资料。
29
30
2 直方图 (histogram),又称矩形图
计量资料
特点:
各组之间没有距离
35 40 45 50 55 60 65 70 75 80 85 90
鲢鱼体长次数分布图
10
5
0
37.5 42.5 47.5 52.5 57.5 62.5 67.5 72.5 77.5 82.5 87.5
鲢鱼体长次数分布图
适用于计量资料的次数分布图,且在同一图 上可比较两组以上资料。
34
5 散点图(scatter)
4 3 2 1
123456
a. 正向直线关系
4 3 2 1
123456
……
1、标题 简明扼要、准确地说明表的内容,有时须注明时间、地点。
2、标目 标目分横标目和纵标目两项。横标目列在表的左侧 ,纵标目
列在表的上端,标目需注明计算单位,如%、kg、cm等等。
3、数字 一律用阿拉伯数字,数字以小数点对Hale Waihona Puke Baidu,小数位数一致, 无
数字的用“─”表示,数字是“0”的,则填写“0”。
分 20- 30- 40- 50- 60- 70- 80- 90- 100- 110- 120- 130组 29 39 49 59 69 79 89 99 109 119 129 139 次 数 1 4 9 14 15 18 22 14 7 7 3 1
15
(2) 计量资料分布表
计量资料一般采用组距式分组法。
相关文档
最新文档