第2章 变数的次数分布

合集下载

统计整理——统计资料的整理

统计整理——统计资料的整理
编号
16 17 18 19
教育程度
本科 高中 高中 本科
工资水平
7900 3700 3000 3800
教育程度
大专 本科 大专 研究生
工资水平
3000 6500 6000 8900
编号
31 32 33 34
教育程度
大专 高中 大专 初中
工资水平
2700 2700 6400 4900
5
6 7 8
初中
高中 高中 高中
统计分组应 达到的要求
同一组内的单位性质相同;
不同组所包括的单位性质相异。
看以下数据分组,有何不同?
分组标志的选 择 统计分组的关 键?
工业企业按地区分组,可分为以下几组: 工业企业按经济类型分组,可分为以下几组: 地区 经济类型 企业数(个) 企业数(个) 国有企业 10000 1000 北京市 合资企业 200 天津市 8000 合作经营企业 300 股份制企业 11000 500 上海市 工业企业按职工人数分组,可分为以下几组:
5000
4100 5200 2800
20
21 22 23
高中
大专 本科 高中
4900
4500 5500 9400
35
36 37 38
本科
本科 本科 研究生
4900
6300 5400 7500
9
10 11 12 13 14 15
高中
大专 高中 高中 大专 大专 大专
3500
4400 2500 4600 2400 5700 3400
本科
研究生 初中 初中 本科 大专 研究生 大专 高中
5400
7500 5800 4600 3100 11700 12999 2600 3600

2020年智慧树知道网课《田间试验与统计分析》课后章节测试满分答案

2020年智慧树知道网课《田间试验与统计分析》课后章节测试满分答案

第一章测试1【多选题】(10分)试验设计的基本原则()。

A.局部控制B.唯一差异C.重复D.随机排列2【多选题】(10分)顺序排列试验设计中小区的排列方式有()。

A.对比法设计B.逆向式C.正向式D.阶梯式3【多选题】(10分)随机排列试验设计包括()。

A.拉丁方设计B.随机区组设计C.裂区试验设计D.完全随机设计4【多选题】(10分)完全随机设计应用()两个基本原则。

A.局部控制B.唯一差异C.随机排列D.重复5【判断题】(10分)随机排列方式可以避免系统误差。

A.对B.错6【判断题】(10分)在完全随机设计中,每一处理的重复数必须相等。

A.对B.错7【判断题】(10分)随机区组设计应用重复、随机排列和唯一差异三个试验设计的基本原则。

A.错B.对8【判断题】(10分)第一横行和第一纵行均为顺序排列的拉丁方称为标准方。

A.对B.错9【判断题】(10分)在拉丁方设计中,每一处理在每一横行和每一纵行可出现多次。

A.对B.错10【判断题】(10分)裂区设计是多因素试验的一种设计方法。

A.对B.错第二章测试1【单选题】(10分)总体的样本容量为()A.MB.NC.HD.I2【单选题】(10分)下列样本容量中()是大样本。

A.30B.15C.5D.103【多选题】(10分)质量性状资料的统计方法有()A.给分法B.统计次数法C.统计法D.集团法4【判断题】(10分)参数是用来描述样本的特征数()A.错B.对5【判断题】(10分)制作连续性变数资料次数分布表时,数据必须从大到小排序。

()A.对B.错6【判断题】(10分)变异数是反映一组数据变异程度的特征数。

()A.错B.对7【单选题】(10分)下列哪项为均方的正确表示方法()。

A.B.C.D.8【多选题】(10分)常用的次数分布图有()。

A.方柱形图B.条形图C.多边形图D.饼图9【多选题】(10分)平均数的种类包括以下哪几种()。

A.几何平均数B.算数平均数C.中数D.众数10【单选题】(10分)总体平均数用()表示。

《试验设计与生物统计》作业一及参考答案

《试验设计与生物统计》作业一及参考答案

《试验设计与生物统计》作业一(第一到二章)1、什么是田间试验?田间试验的主要特点是什么?在田间土壤、自然气候等环境条件下栽培作物,并进行与作物有关的各种科学研究的试验。

田间试验有两个特点:(1)研究对象和材料是生物体本身,由农作物和其它生物体本身的反应来直接检测试验的效果,试验材料本身便存在产生试验误差的多种因素;(2)是在开放的自然条件下进行的,因而田间试验的环境条件存在导致试验产生误差。

2、对田间试验的要求有哪些?(1)试验目的要明确在大量阅读文献与社会调查的基础上,明确选题,制订合理的试验方案。

对试验的预期结果及其在农业生产和科学实验中的作用要做到心中有数。

(2)试验条件要有代表性:试验条件应能代表将来准备推广试验结果的地区的自然条件(如试验地土壤种类、地势、土壤肥力、气象条件等)与农业条件(如轮作制度、农业结构、施肥水平等)。

(3)试验结果要可靠:在田间试验中准确度是指试验中某一性状(小区产量或其它性状)的观察值与其理论真值的接近程度;越是接近,则试验越准确。

精确度是指试验中同一性状的重复观察值彼此接近的程度,即试验误差的大小,它是可以计算的。

试验误差越小,则处理间的比较越为精确。

(4)试验结果要能够重演:所谓重演性是指在相同条件下,再次进行试验或实验,应能获得与原试验相同的结果。

3、简述田间试验误差的来源田间试验的误差来源:1)试验材料固有的差异:包菜苗子大小、壮弱。

2)试验时农事操作和管理技术的不一致性所引起的差异:追肥不匀、浇水不均。

3)进行试验的外界条件的差异:如土壤肥力不均4、控制土壤差异的小区技术有哪些方面?(1)试验小区的面积试验小区面积的大小,一般变动范围为6—60m2。

而示范性试验的小区面积通常不小于330 m2。

(2)小区的形状 :在通常情形下,长方形尤其是狭长形小区,容易调匀土壤差异,使小区肥力接近于试验地的平均肥力水平。

亦便于观察记载及其农事操作。

(3)重复次数重复次数即每一处理的试验小区数,试验设置重复次数越多,试验误差越小。

算法设计与分析习题第二章分治与递归

算法设计与分析习题第二章分治与递归

2010-12-28
12
2.11 编写针对链表的快速排序程序。
需要保存指针信息。下面给出双向链表的快速排序算法 void fast_sort( Sdata *a, Sdata *f, Sdata *t ) { Sdata *i,*j,k,p; i = f; j = t; if ( t->lnext != f ) { k = a->data; //用于比较的基准数值 i = f; j = t; p = -1; while ( j != i )
7
2.7 按2.2.4节的描述,编写从二叉树中删除一个结点 的C语言程序 二叉树节点删除有三种情况: (1)*p是叶子(即它的孩子数为0):无须连接*p的子树, 只需将*p的双亲*parent中指向*p的指针域置空即可。 (2)*p只有一个孩子*child:只需将*child和*p的双亲直接 连接后,即可删去*p。注意:*p既可能是*parent的左孩 子也可能是其右孩子,而*child可能是*p的左孩子或右孩 子,故共有4种状态。 (3)*p有两个孩子:先令q=p,将被删结点的地址保存在q 中;然后找*q的中序后继*p,并在查找过程中仍用parent 记住*p的双亲位置。*q的中序后继*p一定是 *q的右子树 中最左下的结点,它无左子树。因此,可以将删去*q的 操作转换为删去的*p的操作,即在释放结点*p之前将其 数据复制到*q中,就相当于删去了*q.
算法设计与分析习题
第二章 分治与递归
2010-12-28
1
2.1 对于顺序查找算法,分析目标值存在于数组中的 概率p趋于0的含义,这种情况下平均查找次数有什么 样的变化?当p趋于1时呢? 见教材P12。平均比较次数为 n - p(n-1)/2。 p趋于0,平均次数趋于n;p趋于1时,平均次数趋于 (n+1)/2。(求极限)

中山概率2-1(3)

中山概率2-1(3)
n =1 ∞
∩ {ξ < n} = φ ,

故由概率的连续性 , 得
F ( ∞ ) = lim P (ξ < n) = P ( ∩ {ξ < n}) = P (φ ) = 0.
n→ +∞
n =1
类似地 ,由 , 且
n =1
∪ {ξ < n} = , 可证得F ( +∞ ) = 1.
0
x
⑶分布函数可以完整地描述随机变数取值的概率情况. 分布函数可以完整地描述随机变数取值的概率情况.

P { ≥ x} = 1 P { < x} = 1 F ( x ) ξ ξ
当 x 1 < x 2时 , ξ
x1

P ( x1 ≤ ξ < x2 ) = F ( x2 ) F ( x1 ).
0
0
y
1
1
2
3
4
5
x
一般地,设离散型随机变数ξ 一般地,设离散型随机变数ξ的分布列为
Pk = P (ξ = x k ) k = 1, 2 ,
xk < x
则ξ 的分布函数为 F ( x ) =
∑p
k
.
从图形上看,离散型随机变数的分布函数通常呈阶梯形. 阶梯形 从图形上看,离散型随机变数的分布函数通常呈阶梯形.
x → +∞

的特征性质. 注: 1)以上三条性质是 的特征性质. )以上三条性质是r.v.的特征性质 定理的证明. )显然,下证2), ),3) 定理的证明 1)显然,下证 ), )
为左连续, (2) F ( x )为左连续,即 F ( x 0) = F ( x ). 单调不降,故要证F(x)左连续,只需证 左连续, 证2)由于 )由于F(x) 单调不降,故要证 左连续 1 对x ∈ R, 有 lim F ( x ) = F ( x ). n→∞ n 1 1 事实上, F ( x ) = P (ξ < x ) n n 1 注意到 {ξ < x }( n = 1,2, )是单调增加集列 , 且 n ∞ 1 ∪ {ξ < x } = {ξ < x }, n =1 n 故由概率的连续性 , 得 1 1 lim F ( x ) = lim P (ξ < x ) n→∞ n n→∞ n ∞ 1 = P ( ∪ {ξ < x }) = P (ξ < x ) = F ( x ). n =1 n

2.样本数据的整理与显示

2.样本数据的整理与显示

5.2 样本数据的整理与显示教学目的:要求学生熟练掌握样本数据整理与显示的常用方法,并能用R软件来灵活地整理和显示样本数据,能用R软件来画分布的分布函数与密度函数曲线。

教学重点:熟练掌握求经验分布函数的方法,会用直方图和茎叶图的方法求频率分布。

教学难点:样本数据整理与显示的常用方法的灵活应用.数据资料整理的概念资料整理,就是根据调查研究的目的,运用科学的方法,对调查所获得的资料进行审核、检验、分类、汇编等初步加工,使之系统化和条理化,并以集中、简明的方式反映调查对象总体情况的工作过程。

通过调查或实验所得原始资料是分散的、零乱的,只有对这些原始资料进行科学整理,才能从中找出规律,实现由个体到全体、由特殊到一般、由现象到本质、由感性到理性的转化,弄清研究总体的特征。

数据资料整理过程包括:1.对搜集到的资料进行全面审核,发现问题,及时纠正;2.根据研究目的要求和统计分析的需要,对原始资料进行划类分组;3.在分组的基础上,将各项资料进行汇总,得出反映各组和总体的总量指标;4.将整理好的总量指标,通过统计表、统计图显现出来。

二、数据资料的检查与核实1.对原始数据进行审核在调查和研究过程中,受取样、分析测试条件及操作人员的因素的影响,存在记录不全、数据错误等现象,在对原始数据进行整理之前,必须对全部数据进行核对,保证检查原始资料的正确性、完整性和及时性。

这是一项非常重要的工作,只有经过检查与核对的数据才能进行统计分析,真实地反映出调查和试验的客观情况。

对资料完整性和及时性检查,主要是根据调查和研究方案的要求,检查各项资料是否齐全,是否按规定的份数、内容和时间上报等。

对资料正确性的检查,是数据检查与核实的核心,也是审核工作中的难点,主要看数据本身有无错误及调查数据的口径、计量单位等是否符合规定的要求。

对检查合适的方法有两种:逻辑检查和计算检查法。

逻辑检查是根据调查、研究指标间的内在联系,从理论上或常识上审核资料的内容是否合理,符合逻辑,相关指标之间有无相互矛盾之处等,如某企业上报的排水量仅占其新鲜用水量的20%,这是不合情理的。

平均数、变异数

R=254-75=179

140行水稻产量的次数布表
限 组中点值(y) 75 90 105 120 135 150 165 180 195 210 225 240 225 次数(f) 2 7 7 13 17 20 25 21 13 9 3 2 1 140 67.5-82.5 82.5-97.5 97.5-112.5 112.5-127.5 127.5-142.5 142.5-157.5 157.5-172.5 172.5-187.5 187.5-202.5 202.5-217.5 217.5-232.5 232.5-247.5 247.5-262.5 合计
2 2
n
计算公式:
S 2 SS /(n 1)
df=n-1=5-1=4 注意:样本方差不用 n 来除,而用 n-1来除,n-1称为样本方差的自由
度(degree of freedom,df or DF or ) 因为大多数情况下 y 根据平均数的第二个重要特性: ( y )2 ( y y )2
个性质知道:
为了解决资料中所有观测值的离均差正负抵消的问题,采用先平方 数多。
后再相加的办法。
离均差平方和:
( y y ) 0 这不公平,因为II班人
SS ( y y )
2
I班
上例中:第一组数据的平方和为:SS1 = (24-25)2 + (25-25)2 +(26-25)2 = 2 第二组数据的平方和为:SS2 = (1-25)2 + (25-25)2 +(49-25)2 = 1152
白非 17% 白糯 8% 红糯 54% 红非 21%
18个 25%
17个 32%
质量性状变数资料

第二章 资料分类


二、统计图
常用的统计图有长条图(bar chart)、饼图(pie chart)、直方 图(histogram)和折线图(broken-line chart)等,在统计软件中可 以作出各种需要的图形。图形的选择取决于研究资料的性质,一般情 况下,连续性资料采用直方图和折线图,离散性资料常用长条图、线 图或饼图。
Байду номын сангаас
第四节 平均数、标准差与变异系数
原始数据经过整理分组制成次数分布表或分布图,这 是统计分析的第一步。为了反映数据资料的集中趋势和离 散程度,必须求出数据资料这两方面的特征数。
二、资料的整理方法
当观测值不多(n≤30)时,不必分组,直接进行统计分析。
当观测值较多(n>30)时,宜将观测值分成若干组,以便统 计分析。将观测值分组后,制成次数分布表,即可看到资料 的集中和变异情况。
不同类型的资料,其整理的方法略有不同。
(一)离散性资料的整理
对于观察值较少,变异范围较小,以每一观察值(或 自然值)为一组,作次数分布表。 对于观察值较多,变异范围较大的离散性资料,可扩 大为以几个相邻观察值(或自然值)为一组,适当减少组 数,这样资料的规律性较明显,对资料进一步计算分析也 比较方便。 例1:以50枚受精种蛋孵化出雏鸡的天数为例,说明 计数料的整理。
小鸡出壳天数在19─24天范围内变动 ,有6个不同的 观察值。用各个不同观察值进行分组,共分为6组,可得 表2形式的次数分布表。
表2
50枚受精种蛋出雏天数的次数分布表
例:对100例断奶仔猪附红细胞体病例的血液涂片显微镜 下病变红细胞数资料进行整理分组。
(二)、连续性资料的整理
对于连续性资料的分组整理,常采用组距式分组法。 在分组前需要根据数据的多少确定组数、组距、各组的上 下限及组中值,然后将全部观测值按其数值大小归组,划 线计数,制成次数分布表。 例:将126头基础母羊的体重资料(见表3)整理成次数 分布表。

JD_61602《统计学——原理与SPSS应用 》_王浩(习题解答)裴泱

第1章习题答案三、练习题1. 判断题×××××√2. 单选题ABBDCD3. 多选题BCD CDE BCD CDE BDE ABCDE第2章习题答案三、练习题1.判断题√×√√×√2.单选题DCCDBC3.多选题ABCDE BE ABC ACDE第3章习题答案三、练习题1.判断题√√√√×√2.单选题DBDBBC3.多选题ABE CDE ABC ABC BCD BDE4.计算题(1)每周上网时间(小时)人数频率(%)5 2 6.676 5 16.677 11 36.678 7 23.339 3 10.0010 2 6.67合计30 100随机调查的30名学生中,每周上网7个小时的人数最多(11人),频率最高(36.67%)。

(2)次数分布表:商品销售额人数频率(%)累计频数累计频率(%)组中值(万元)70以下 3 10.00 3 10.00 65 70-80 8 26.67 11 36.67 75 80-90 12 40.00 23 76.67 85 90-100 5 16.67 28 93.33 95 100以上 2 6.67 30 100 105 合计30 100 - -1512199450210243818810020406080100120 80-9090-100100-110110-120120-130130-140合计织布工人生产定额完成情况频数分布人数频率(%)直方图: 折线图:(3)次数分布表:生产定额完成(%) 人数 频率(%)累计频数累计频率(%) 向上累计向下累计向上累计向下累计 80-90 1 2 1 50 2 100 90-100 5 10 6 49 12 98 100-110 12 24 18 44 36 88 110-120 19 38 37 32 74 64 120-130 9 18 46 13 92 26 130-140 4 8 50 4 100 8 合计50100----直方图:()()%9.97%1005896.57620176.576%716202017589%516202017=⨯==-⨯==-⨯=度年降低成本计划完成程元年成本实际数元年成本计划数分布类型为基本的正态分布。

西瓜书习题答案

西瓜书习题答案西瓜书习题答案西瓜书是一本经典的机器学习教材,被广大学生和从业者所喜爱。

它详细介绍了机器学习的基本概念、算法和应用。

然而,对于初学者来说,书中的习题往往是一个挑战。

在学习过程中,很多人都希望能够找到一份西瓜书习题的答案,以便更好地巩固所学知识。

本文将为大家提供一些西瓜书习题的答案,希望能够帮助大家更好地理解和应用机器学习。

第一章:绪论1.1 机器学习的定义和特点答案:机器学习是一种通过计算机算法从数据中学习模式和规律的方法。

其特点包括自动化、泛化、适应性和交互性。

1.2 机器学习的主要任务答案:机器学习的主要任务包括分类、回归、聚类、降维和关联规则挖掘等。

分类是将数据划分为不同类别,回归是预测数值型变量的取值,聚类是将数据分为不同的组,降维是减少数据的维度,关联规则挖掘是发现数据中的关联关系。

第二章:模型评估与选择2.1 经验误差与过拟合答案:经验误差是模型在训练集上的误差,过拟合是指模型在训练集上表现很好,但在测试集上表现较差的现象。

过拟合的原因可能是模型过于复杂,学习到了训练集中的噪声或异常值。

2.2 评估方法答案:评估方法包括留出法、交叉验证法和自助法。

留出法将数据集划分为训练集和测试集,交叉验证法将数据集划分为多个子集进行训练和测试,自助法通过有放回地从原始数据集中抽取样本训练模型。

第三章:线性模型3.1 线性回归答案:线性回归是一种用于预测数值型变量的线性模型。

其基本思想是通过拟合一条直线或超平面来建立输入特征和输出变量之间的关系。

3.2 对数几率回归答案:对数几率回归是一种用于分类的线性模型。

它通过将线性回归的结果映射到一个概率值,然后根据概率值进行分类。

第四章:决策树4.1 决策树的基本概念答案:决策树是一种基于树结构的分类模型。

它通过一系列的判断条件将数据集划分为不同的类别。

4.2 决策树的生成答案:决策树的生成包括特征选择和树的构建两个步骤。

特征选择的目标是找到对分类结果影响最大的特征,树的构建通过递归地划分数据集和生成子树来构建决策树。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章 变数的次数分布
第一节 总体及其样本
第二节 次数分布 第三节 理论总体(群体)的平均数和标准差
第一节
总体及其样本
总体( population ) ---- 具有共同性质的个体所组成的集团.
有限总体----总体所包含的个体数目有无穷多个.
无限总体----由有限个个体构成的总体.
观察值( observation ) ----每一个体的某一性状、特性的测
25
现以表3.6的140
20
行水稻产量的次数
15
分布表为例加以说
10
明。即成方柱形次
5
数分布图3.1。
60 75 90 105 120 135 150 165 180 195 210 225 240 255 270
y( 产 量 ,克 /行 )
图3.1 140行水稻产量次数分布方柱形图
(二) 多边形图 多边形图( polygon )也是表示连续性变数资料的一种普
次数或相对次数。
2. 给分法 给予每类性状以相对数量的方法
二、次ቤተ መጻሕፍቲ ባይዱ分布表
(一) 间断性变数资料的整理 (二) 连续性变数资料的整理
(三) 属性变数资料的整理
(一) 间断性变数资料的整理
现以某小麦品种的每穗小穗数为例,随机采取
100个麦穗,计数每穗小穗数,未加整理的资料列 成表3.1。
表3.1 100个麦穗的每穗小穗数 18 15 17 19 16 15 20 18 19 17
定数值. 变数( variable ) ----观察值集合起来,称为总体的变数。 变数又称为随机变数(random variable)。
样本( sample ) ----从总体中抽取若干个个体的集合称为样 本(sample)。 统计数( statistic ) ----测定样本中的各个体而得的样本特征 数,如平均数等,称为统计数(statistic)。
每穗小穗数 (y) 15 16 次数( f ) 6 15 表3.2 100个麦穗每穗小 穗数的次数分布表
3.2形式的次数分布表。
从表3.2中看到,一堆杂乱的原 始资料表3.1,经初步整理后,就 可了解资料的大致情况,另外,经 过整理的资料也便于进一步的分析。
17
18 19 20 总次数( n )
32
(三) 条形图 条形图(bar)适用于间断性变数和属性变数资料,用以 表示这些变数的次数分布状况。一般其横轴标出间断的中
点值或分类性状,纵轴标出次数。
f
120 100 80 60 40 20 0 红米非糯 红米糯稻 白米非糯 白米糯稻
现以表3.7水稻杂种第二 代米粒性状的分离情况为例, 可画成水稻杂种第二代植株4
占17%、21%和54%。
图3.4 水稻F2代米粒性状分离的饼图
通的方法,且在同一图上可比较两组以上的资料。
仍以140行水稻产量次 数分布为例,所成图形即 为次数多边形图(图3.2)。
30
25
20
15
10
5
0
60 75 90 105 120 135 150 165 180 195 210 225 240 255 270
y( 产 量 ,克 /行 )
图3.2 140行水稻产量次数分布多边形图
17
17 18 17 17 17 18 18
18
16 15 19 19 19 19 17
17
17 16 15 19 16 18 18
16
19 18 17 17 16 18 20
18
18 18 17 19 17 19 19
20
18 18 17 17 17 19 16
19
17 17 16 18 17 20 18
97 119 181 149 187 131 215 111 186 118 150 155 197
116 254 239 160 172 179 151 198 124 179 135 184 168 169
173 181 188 211 197 175 122 151 171 166 175 143 190 213 192 231 163 159 158 159 177 147 194 227 141 169 124 159
个次数分布表。

例如表3.4中第一个观察值177应归于表3.6中第8组,
组限为172.5—187.5;第二个观察值149应归于第6组,组 限为142.5—157.5;……。依次把140个观察值都进行归 组,即可制成140行水稻产量的次数分布表(表3.6)。
表3.6 140行水稻的次数分布
注:前面提到分为12组, 但由于第一组的中点值接近 于最小观察值,故第一组的 下限小于最小观察值,实际
数值之间可以有微量数值差异的第三个数值存在。
(二) 质量性状资料 质量性状( qualitative trait )指能观察而不能量测的状即
属性性状,如花药、子粒、颖壳等器官的颜色、芒的有
无、绒毛的有无等。要从这类性状获得数量资料,可采 用下列两种方法: 1. 统计次数法 于一定总体或样本内,统计其具有某个性 状的个体数目及具有不同性状的个体数目,按类别计其
组中点值减去1/2组距,即75-(15/2)=67.5g,上限为中
点值加1/2组距,即75+(15/2)=82.5g。故第一组的组限为 67.5—82.5g。按照此法计算其余各组的组限,就可写出 分组数列。
5. 把原始资料的各个观察值按分组数列的各组组限归组
组。 待全部观察值归组后,即可求得各组的次数,制成一 可按原始资料中各观察值的次序,逐个把数值归于各
161 214 125 175 219 118 192 176 175
97 129 143 179 174 159 165 136 108 101 141 148 168 91 142 140 154 152 163 123 205 149 155 131 209
163 176 102 194 145 173 131 189 183
25 17 5 100
(二) 连续性变数资料的整理
兹以表3.4的100行水稻试验的产量为例,说明整理方法。
表3.4 140行水稻产量(单位:克)
177 215 197
214 98 95 158
97 123 159 245 119 119 131 149 152 167 104
95 136 199 116 165 83 137 80 138 151 187 126 196 134 206 137 75 130 149 150 161 155 111 158
具体步骤: 1. 数据排序(sort) 首先对数据按从小到大排列(升序) 或从大到小排列(降序)。 2. 求极差(range) 所有数据中的最大观察值和最小
观察值的差数,称为极差,亦即整个样本的变异幅度。
从表3.4中查到最大观察值为254g,最小观察值为75g, 极差为254-75=179g。
3. 确定组数和组距( class interval ) 根据极差分为若
干组,每组的距离相等,称为组距。 在确定组数和组距 时应考虑: (1)观察值个数的多少; (2)极差的大小;
(3)便于计算;
(4)能反映出资料的真实面貌等方面。 样本大小(即样本内包含观察值的个数的多少)与组 数多少的关系可参照表3.5来确定。
组数确定后,还须 确定组距。组距=极差/ 组数。以表3.4中140行 水稻产量为例,样本内
17
17 20 17 16 15 17 19
16
17 19 18 18 17 16 17
18
18 18 18 17 16 19 16
15
16
18
17
18
17
17
16
19
17
上述资料为间断性变数资料,
每穗小穗数在15—20的范围内变动, 把所有观察值按每穗小穗数多少加 以归类,共分为6组,组与组间相差 为1小穗,称为组距。这样可得表


中点值 (y) 75 90 105 120 135
次数( f ) 2 7 7 13 17
67.5— 82.5 82.5— 97.5 97.5—112.5 112.5—127.5 127.5—142.5
上差不多增加了1/2组;这样
也使最后一组的中点值接近 于最大值,又增加了1/2组, 故实际的组数比原来确定的 要多一个组,为13组。
4. 选定组限( class limit )和组中点值( 组值,class value ) 以表3.4中140行水稻产量为例,选定第一组的中点
值为75g,与最小观察值75g相等;则第二组的中点值为
75+15=90g,余类推。 各组的中点值选定后,就可以求得各组组限。每组 有两个组限,数值小的称为下限( lower limit ),数值大的 称为上限( upper limit )。上述资料中,第一组的下限为该
表3.5 样本容量与组数多少的关系 样本内观察值的个数 分组时的组数
50
100
5—10
8—16
观察值的个数为140,
查表3.5可分为8—16组, 假定分为12组,
200
300 500 1000
10—20
12—24 15—30 20—40
则组距为179/12=14.9g,为分组方便起见,可以15g作为组距。
96 37
白米非糯
白米糯稻 合计( n )
31
15 179
即可得到属性分布的规律性认识。
例如,某水稻杂种第二代植株 米粒性状的分离情况,归于表3.7。
三、次数分布图
(一) 方柱形图 (二) 多边形图 (三) 条形图 (四) 饼图
(一) 方柱形图 方柱形图( histogram )适用于表示连续性变数的次数分布。
相关文档
最新文档