统计学名词解释

统计学名词解释
统计学名词解释

一、名词解释

总体:指在同一组条件下所有成员的某种状态变量的集合;或者说是某一变数的全部可能值的集合;或性质相同的个体组成的整个集团.

样本:从总体中取出来用作分析、研究的个体称样本。

随机样本:总体中的每个总体单位都有同等的机会被抽取为样本单位,由这种方法抽得的样本叫随机样本.(用随机抽样的方法,从总体中抽出一个部分;等概率抽取的样本。)随机抽样:保证总体中的每一个体在每一次抽样中都有同等的机会被取为样本。

复置抽样:保证总体中的每个个体在每次抽样中都有同等的概率被取为样本。

样本容量:样本中包含的单位数称为样本容量。(样本中变量的个数.)

观察值:每一个体的某一性状测定值叫做观察值。

变数:若干有变异的观察值叫随机变数,简称变数。

连续性变数:指在任意两个变量之间都有可能存在只有微量差异的第三个变量存在,这样一类变数称为连续性变数.

间断性变数:只能取整数的一类变数。

参数:由总体获得的代表总体的特征数.(描述总体的特征数,如μσ

.)统计数:由样本获得的代表样本的特征数。(描述样本的特征数。)

数量资料(数量性状资料):以测量或称重的方式获取的试验资料称为数量资料。

计量资料、质量性状资料

次数资料:凡是试验结果以次数表示的资料称为次数资料。

算术平均数、众数

几何平均数:变量对数的算术平均数的反对数,

(lg) lg

Y G

n

=

调和平均数:变量倒数的算术平均数的反倒数,

1

()

n

H

Y

=

中位数:将变量顺序排列,处在中间的变量称中位数,计作M d。极差:一组资料中最大值与最小值的差值为极差.

方差:变数变异程度的度量,对于总体

()2

2i

Y

N

μ

σ

-

=

,对于样本

2

2

()

1

Y y

s

n

-

=

-

(描述变量平均变异程度的统计量.定义为

2

1

2

()

1

n

j

j

Y y

s

n

=

-

=

-

。)

EMS:期望均方,是对均方MS的期望值。

标准差:变数变异程度的度量,总体标准差:

()

N

Y

∑-

=

2

μ

σ

,样本标准

差:

()

1

2

-

-

=

n

y

Y

s

.(变数的平均变异量.)

标准误:统计数变异度的度量,12

y y y

s s

-

==

。(统计数的标准差。)

乘积和:X 变数的离均差与Y 变数的离均差的乘积之和,

()()SP X x Y y =

--∑。

(1()()n

i i X Y

SP X x Y y XY n

=--=-

∑∑∑∑。)

平方和:离均差的平方和简称为平方和,定义为

2

1

()n

j j SS Y y ==-∑。(2

2

()y

Y y =-∑

∑)

变异系数:变数的相对变异量。

100s

CV y =

?

次数分布:由不同区间内变量出现的次数组成的分布.

次数分布图:根据变量的次数分布而绘制的图称为次数分布图,该图能直接的反应变量次数分布的情况。

样本单位:供作调查并从中得到一个观察值的由一个或多个个体组成的集团,它是一个统计单位。

样本配置:样本单位在调查区内的分布,是抽样方法研究的主要内容。 事件:把一次试验所有可能的结果称为事件.

互斥事件:如果事件A 1和A2不能同时发生,即A 1A 2为不可能事件,则称事件A 1和A 2互斥. 对立事件:如果事件A和事件A 1必发生其一,但不能同时发生,则称A 1为A 的对立事件.(如果事件A 1和A 2必发生其一,但不能同时发生。)

随机事件:一次试验中可能发生也可能不发生的结果称为随机事件.(在一定条件下,可能发生也可能不发生,可能这样发生,也可能那样发生的事件。)

随机抽样:保证总体中的每一个体,在每一次抽样中都有同等的概率被取为样本。 试验误差(Error ):试验中环境因素这样或那样的不一致而对处理产生的使观察值偏离真值的偶然效应,简称为误差.(因非处理因素的偶然干扰和影响而造成的试验结果与真值的偏差。)

随机误差:在试验过程中,某些人所难以控制的偶然因素的影响造成的,由这类原因引起的误差为随机误差。

系统误差:是由于可以察觉或可以鉴别的原因造成的偏差,这类误差叫系统误差。

无偏估计:在统计上,如果所有可能样本的某一统计数的平均数等于总体的相应参数,则称该统计数为总体相应参数的无偏估计。如:y 是μ的无偏估计。

标准误:样本平均数分布的标准差,

y σ=

概率的统计定义

小概率事件实际不可能性原理:若事件A 发生的概率较小,如小于0.05或0.01,则认为事件A 在一次试验中不太可能发生,这称为小概率事件实际不可能性原理,简称小概率原理。

正态分布、标准正态分布

t分布、2χ分布、F 分布

二项分布:每次独立抽取二项总体的n 个个体,则所得变量Y将可能有01

n ,,,,共

n+1种。这n+1种变量有它各自的概率而组成一个分布.这个分布就叫二项分布.

两尾概率、一尾概率

统计假设测验:根据某种实际需要,对未知或不完全知道的统计总体提出一些假设,然后由样本的实际结果,经过一定的计算,作出在概率的意义上应当接受或否定哪种假设的测验。

统计推断:根据抽样分布律和概率理论,由样本结果(统计数)来推论总体特征(参数). 显著性检验

β错误(Ⅱ型错误,第二类错误):如果0H 是不真实的,我们通过测验却接受了它,即

犯了一个接受不真实的

H 的错误。这种错误就叫β错误。(接受一个不真实假设时所犯的

错误.接受一个错误0H 时所犯的错误.)

α错误(Ⅰ型错误,第一类错误):否定真实假设的错误.(否定正确的H 0所犯的错误。)

无效假设:是对研究总体提出一个假想目标,所谓“无效”是指处理效应与假设值之间没有真实差异,试验结果所得的差异乃误差所致。

备择假设(Alter nat ive hypothe sis):与无效假设相反,记作HA ;认为试验结果所得的差异是由总体参数不同引起的.统计假设测验中,接受H0,就否定HA;接受HA ,就否定H0.

参数估计:由样本统计数对总体参数做出点估计和区间估计。 两尾测验(T wo —tailed test ):有两个否定区,分别位于分布的两尾的测验.(否定区在两尾的测验。)

单尾测验(一尾检验,On e-ta il ed test):否定区位于分布的一尾的测验。(只有一个否定区的假设测验。)

显著水平:否定无效假设H 0的概率标准。

V er y significan t:极显著.若试验结果由误差造成的概率0.01ρ=<,则称样本统计数的差异为极显著。

否定区:否定无效假设H 0的区间。 接受区:接受无效假设H 0的区间。

置信区间:在一定概率保证下,估计总体平均数可能存在的范围。(若使参数θ在[]

12,L L 中的概率为1α-,即:{}121P L L θα

≤≤=-,则区间

[]12,L L 叫做参数θ的1α-的置信

区间.)

置信度:总体平均数出现于置信区间的概率称为置信度.(若使总体参数θ在区间

[]12,L L 中的概率为1α-,即:{}121P L L θα≤≤=-,则称1α-为参数θ在区间[]

12,L L 的置信概率和置信度.)(保证一定区间能覆盖参数的概率。)(06B )

成对比较:如果两组样本的观察值可以根据某种联系而一一配对,则以之进行的两个样本平均数的比较称为成对比较。

非配对设计、配对设计、点估计、区间估计

合并均方:将具有同质的均方合并。

212

12

k

k

SS SS SS

s

df df df

+++

=

+++

.

适合性检验

适合性测验:是测验中观察的实际次数和根据于某种理论或需要预期的理论次数是否相符合。所作的假设是H0:相符;HA:不相符。

独立性检验

次数资料的独立性测验:这是测验两个因素的列联次数彼此独立还是相关的一种测验试验因素(因素):将作为试验研究对象的因素称试验因素。

精确度:指调查或试验中同一试验指标或性状的重复观测值彼此接近的程度.(重复同一试验各次试验结果之间相接近的程度;观察值之间的接近程度.)

边际效应:因边际环境条件引起的作物生长发育上的差异称边际效应.

因素水平(水平):将一个因素从质量方面和数量方面划分成的不同等级或状态。

水平:某一因素的不同数量或质量等级.

单因素试验:只研究一个因素的试验。

多因素试验:在一个试验中同时研究二个或两个以上的因素的试验叫多因素试验。

准确度:指在调查或试验中某一试验指标或性状的观测值与其真值接近的程度。(是指试验结果与真值相接近的程度。)

真值:试验处理的真实效果。

试验方案:根据试验目的与要求所拟订的要进行比较的一组试验处理的总称。

试验小区(小区):一个处理在田间所占有的地段或地块。

全面试验:对所有可能的处理组合都进行试验的多因素试验,称全面试验。

部分试验:根据生物统计原理选取一部分处理组合进行的多因素试验,称部分试验。

综合试验:根据试验目的和以往经验只对少数特定处理组合进行试验的多因素试验,称综合试验。

田间试验:就是在田间进行的试验。

交互作用效应:不同因素的不同水平搭配组合在一起时还将产生一些额外的效应,这种效应称交互作用效应,简称互作。

唯一差异原则:在试验中进行比较的各个处理,除了被研究的因素(处理因素)具有的不同水平外,其余各种环境因素均应保持在某一特定的水平上,即环境一致的条件下研究处理的效应。

(试验)处理:水平和水平的组合。(在试验小区上所实施的试验措施。)

处理效应:试验处理对所研究的性状所起到的增进或减少的作用称为处理效应。

重复:试验中同一处理种植的小区数或种植次数称为重复。

局部控制:是分范围分地段地控制非处理因素,使非处理因素对各处理的影响趋向最大程度的一致。

生长竞争:不同处理的相邻小区之间的影响。

随机排列:在一个重复内,试验方案所规定的每个处理安排在哪一个小区上要排除主观因素的影响,采取随机的方式来确定.

小区技术:一个试验处理所占据小区的面积、形状和提供试验处理较为均匀的环境的一些措施。

统计控制:利用统计方法对试验因素进行控制。

试验指标、样本容量

方差分析、多重比较

交叉分组、系统分组

主效应、简单效应、交互作用

自由度:在统计上指独立变量的个数.

PLSD 0.05:显著水平达到0。05的最小显著差数。

同质性假定:方差分析的基本假定之一,k个样本所估计的总体方差相等的假定。 正态性假定:方差分析的基本假定之一。是要求观察值Y 的误差项e ~2

(0,)e N σ。

)(x X i y =:矫正处理平均数,()()i X x i i y y be x x ==--

矫正处理平均数:把各处理的i x 矫正为x 时的i y ,即消除X 对Y 影响后的个处理的i y 。

()()i X x i e i y y b x x ==--。

均积:两个变数的互变异数,1

1()()1n

i i cov X x Y y n =

---∑ 偏回归系数:在其它自变数皆保持在一定数量水平时,任一自变数对依变数的效应。 拉丁方试验:将k 个不同的处理排成k 行k列,使得每个处理在每一行、列都仅出现一次的方阵,这种试验方法就叫拉丁方试验。

相关变量 回归模型与相关模型:在回归模型中,X 是固定的(试验时事先确定的),没有误差或误差很小,而Y则不仅随X 的变化而变化,并且有随机误差;在相关模型中,其X 和Y 变数是平行变化关系,皆具有随机误差,因而不能区别哪一个是自变数,哪一个是依变数。

回归分析、相关分析、直线回归分析、直线相关分析、离回归标准误

回归:是研究事物之间因果关系的规律性,探索原因和结果之间的数量关系,以便由原因能预测结果.

相关:是对事物之间相互关系密切程度的度量。

相关系数:对不能区分自变数和依变数的两个变数,统计分析的首要目标是计算表示Y和X相关密切程度和性质的统计数,并测定其显著性。这一统计数称为相关系数.(反映变数

间相关密切程度及其性质的统计数,

r SS =

环境相关系数:表示线性相关性质及其密切程度的统计数。

r =

回归系数:X 每增加1个单位,Y 平均地将要增加(0b >)或减小(0b <)的单位数。

X SP b SS =

回归截距:线性回归中直线在Y 轴上的截距,a y bx =-。

决定系数: 变数X 或Y 的总变异中可以相互以线性关系说明的部分所占的比

率,2

2

X Y SP r SS SS =

(在依变数Y 的变异中,因自变数X 的改变而引起Y线性改变的平方和

在Y变异中所占的比例。定义为

2/Y X

Y U r SS =

.)

偏相关:在M=m+1个变数中,没M-2个变数固定,其余两个变数之间的相关。(在M 个变数中,固定2-M 个变数,余下的两个变数间的相关。)

偏回归系数:在其它自变数皆保持在一定数量水平时,任一自变数对依变数的效应,即

i

X 每增加一个单位,Y 平均增加或减少的单位数。(i b ,当其他自变数都固定时,

i

X 每增加

一个单位,Y 平均增加或减少的单位数。)

离回归标准差:各个Xi 上的Y

总体都是一个分布,估计这些变异度的统计数。

Y

X

s =

多元相关:在1M m =+个变数中,m 个变数的综合和1个变数的相关,叫做多元相关或复相关。

多元相关系数:表示Y 12m 与x ,x ,,x 之间线性相关密切程度及其性质的统计.

12

/12

/Y m

Y m

y

R U SS ?=

多元决定系数:设一Y 变数依m 个X 变数的线性回归平方和为12Y m

U ?,则Y 依

1,,m

X X 的多元决定系数。

22

.1212Y m Y m R U Y ??=/∑

多元相关:在1M m =+个变数中,m 个变数的综合和1个变数的相关,叫做多元相关或复相关.

偏回归系数:任一自变数(在其他自变数皆保持一定数量水平时)对依变数的效应,即i

X 每增加一个单位,Y 平均增加或减少的单位数.

多元回归分析、多元线性回归分析、复相关系数、最优多元线性回归方程

相关主题
相关文档
最新文档