概率统计知识点全面总结
知识点总结:统计与概率
I 统计
1.三大抽样 (1)基本定义:
① 总体:在统计中,所有考查对象的全体叫做全体.
② 个体:在所有考查对象中的每一个考查对象都叫做个体. ③ 样本:从总体中抽取的一部分个体叫做总体的样本. ④ 样本容量:样本中个体的数目叫做样本容量. (2)抽样方法:
①简单随机抽样:逐个不放回、等可能性、有限性。=======★适用于总体较少★
抽签法:整体编号(
1~N )放入不透明的容器中搅拌均匀逐个抽取n 次,即可得样本容量为
n 的样本。 随机数表法:整体编号(等位数,如001、111不能是1、111) 从0~9中随机取一行一列然后初方向随机
(上、下、左、右)重复,超过范围则忽略不计直至取得以n 为样本容量的样本。
②系统抽样:容量大.等距,等可能。=======★适用于总体多★
用随机方法编号,若N 无法被整除,则剔除后再分组,n
N
k
。再用简单随机抽样法来抽取一个个体,设为l ,则编号为l ,k+l ,2k+l ……(n-1)k ,抽出容量为n 的样本。(每组编号相同)。
③分层抽样:总体差异明显.按所占比例抽取.等可能.=======★适用于由差异明显的几部分构成的总体★
总体有几个差异明显的部分构成,经总体分成几个部分,然后按照所占比例进行抽样.抽样比为:k =n
N
3.总体分布的估计: (1)一表二图:
①频率分布表——数据详实
②频率分布直方图——分布直观
③频率分布折线图——便于观察总体分布趋势
★注:总体分布的密度曲线与横轴围成的面积为1。
(2)茎叶图:
①茎叶图适用于数据较少的情况,从中便于看出数据的分布,以及中位数.众位数等。 ②个位数为叶,十位数为茎,右侧数据按照从小到大书写,相同的数据重复写。
4.样本分析
(1)在频率直方图中计算众数.平均数.中位数
众数 在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。(最多的那个)--忽视其他数据
中位数 在频率分布直方图中,中位数左边和右边的直方图的面积应该相等。(最中间的,若偶取平均)--对极端值不敏感
平均数 频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和 。--可靠性低 在频率分布直方图中,纵轴表示频率组距
,数据落在各小组内的频率用各小矩形的面积表示.各小矩形的面积总和等于1.
,此关系式的变形为频数
频率=样本容量,也可变形为样本容量×频率=频数。
(2)
① 算数平均数
方差
★注:特别地,对于连续型的随机变量在分好组后,其i 21 x , ... , x , x 应该取每一组的组中值近似的表示 ★注:方差与标准差越小,说明样本数据越稳定。
平均数反映数据总体水平;方差与标准差反映数据的稳定水平。
5.线性回归方程
①变量之间的两类关系:函数关系(确定性关系)与相关关系(非确定性关系); ②制作散点图,判断线性相关关系;
③线性回归方程: (最小二乘法)
注:当r >0时,表明两个变量正相关当r <0时,表明两个变量负相关.
r 的绝对值越接近于1r 的绝对值越接近于0通常|r |大于0.75时,认为两个变量有很强的线性相关性.6. 独立性检验
相关系数r =
极差(全距) 样本中最大值与最小值的差值
(1)2×2列联表:假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表为:
K2=n(ad-bc)2
(a+b)(a+c)(b+d)(c+d)
(其中n=a+b+c+d为样本容量).
(2)用K2的大小可以决定是否拒绝原来的统计假设H0,若K2值较大,就拒绝H0,即拒绝事件A与B无关.
(3)当K2≥2.706时,则有90%以上的把握说事件A与B有关;
当K2≥3.841时,则有95%以上的把握说事件A与B有关;
当K2≥6.635时,则有99%以上的把握说事件A与B有关.
II概率
1. 事件
必然事件 :在条件S下一定会发生的事件,叫作相对于条件S的必然事件(P=1)
不可能事件:在条件S下,一定不会发生的事件,叫作相对于条件S的不可能事件(P=0)
确定事件 :必然事件与不可能事件统称为相对于条件S的确定事件,简称确定事件
随机事件 :在条件S下,可能发生也可能不发生的事件,叫作相对于条件S的随机事件[P∈(0,1)] 2.事件的关系
3.概率模型
(1)古典概型(有限、等可能)的概率公式.
(2)几何概型(无限,等可能)的概率公式.
(3)条件概率. 在A 发生的条件下B
(4)相互独立事件同时发生的概率. 若A ,B 相互独立,则P (AB )=P (A )·P (B ). (5)若事件A ,B 互斥,则P (A ∪B )=P (A )+P (B )
,
4.独立重复试验与二项分布
若事件A 在一次试验发生的概率是p ,则它在n 次独立重复试验中恰好发生k 次的概率为:
P n (k )=C k n p k (1-p )n -
k
,k =0,1,2,…,n .用X 表示事件A 在n 次独立重复试验中发生的次数,
5.超几何分布
在含有M 件次品的N 件产品中,任取n 件,其中恰有X 件次品,,k =0,1,2,…,m ,其中m =min{M ,n },且n ≤N ,M ≤N ,n ,M ,N ∈N *
,此时称随机变量X 服从超几何分布.超几何分布的模型是不放回抽样,超几何分布中的参数是M ,N ,n . 6.离散型随机变量的均值、方差
(1)离散型随机变量ξ(读作:可系)的分布列为:
离散型随机变量ξi 12i p n =1(i =1,2,3,…,n). (2)E (ξ)=x 1p 1+x 2p 2+…+x i p i +…+x n p n 为随机变量ξ的数学期望或均值.
D (ξ)=(x 1-
E (ξ))2·p 1
+(x 2-E (
ξ))2·
p 2+…+(
x i -E (ξ))2·p i +…+(x n -E (ξ))2·p n 叫做随机变量ξ的方差. (3)数学期望、方差的性质.
①E (aξ+b )=aE (ξ)+b ,D (aξ+b )=a 2D (ξ).
②X 服从二项分布,即X ~B (n ,p ),则E (X )=np ,D (X )=np (1-p ). ③X 服从两点分布,则E (X )=p ,D (X )=p (1-p ).
7.正态分布
总体密度曲线: 频率分布直方图无限接近于一条光滑曲线(如P1下方)
22
()2,1
(),(,)
2x x e x μσμσ?πσ
--
=
∈-∞+∞ μ是均值,x=μ对称轴,σ(σ>0)是标准差,σ2是方差。
一般地,如果对于任何实数a b <,随机变量X 满足,
()()b
a
P a X B x dx μσ?<≤=
?,
则称 X 的分布为正态分布.正态分布完全由参数μ和σ(读作:习个么儿)确定, 因此正态分布常记作),(2σμN .如果随机变量 X 服从正态分布,则记为X ~),(2σμN
正态分布具有:两头低、中间高、左右对称的特点,在X 轴上方且与X 轴不相交,关于x=μ对称,x=μ为最高点。
σ越大,曲线越“矮胖”,总体分布越分散; σ越小.曲线越“瘦高”,总体分布越集中。
σ3原则:
6826.0)(=+≤<-σμσμX P 9544.0)22(=+≤<-σμσμX P 9974)33(=+≤<-σμσμX P
通常认为服从正态分布),(2σμN 的随机变量X 只取)3,3(σμσμ+-之间的值,并简称之为σ3原则