第四讲 统计分析及数据处理

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第四讲 统计分析及数据处理

一、描述性统计分析

在统计工具箱中,一般将向量视为随机样本,如果分析对象是矩阵,则将矩阵的每一列视为随机变量的样本。

mean(x) 当x 为向量,返回向量的均值,当x 为矩阵,返回矩阵每列元素均值构成的行向量。 特例

min 、max 、sort 、median 、std 、var 、sum 、prod 、cumsum 、cumprod 等函数的用法与mean 类似。

cov(x,y) 求样本x 与y 的协方差。(11()()1n x y i i i S x x y y n ==---∑)

cov(X) 这里X 是矩阵,将矩阵各列看成一个样本,求样本的协方差矩阵。

corrcoef 用法与cov 类似,求相关系数或相关系数矩阵。 (xy

xy x y S R s s =)

[y,I]=sort(x) 当x 为向量,y 返回x 的升序排列,I 返回y 各元素原来的位置,即y=x(I),当x 为矩阵,分别对各列排序。如果要按降序排列,[y,I]=sort(x,’descend ’),如果要将矩阵的各行排序,

[y,I]=sort(x,2)。

[y,I]=sortrows(x,k) 将矩阵x 的各行按第k 列的升序排列.

y=prctile(x,p) 当x 为向量,y 返回x 的p%下分位数,当x 为矩阵,分别求各列的下分位数。

相关知识:样本百分位数(percentiles ) 将样本()12,,,n x x x 按升

序排列为()(1)(2)(),,,n x x x ,则样本的p%下分位数表示这样一个值p x :比p x 小的样本占总样本数的p%,当p=50时的下分位数称为中位数。

trimmean(x,p) 剔除上下各(p/2)%数据以后的均值。

例4.1:data=[11 57 29;13 54 78;10 66 54;9 46 37;16 75 24;15 70 56;9 40 31];

观察下列指令的运行结果:

mean(data)

std(data)

var(data) %考虑var(data)与std(data)的关系

cov(data)

corrcoef(data)

[y,I]=sort(data)

[y,I]=sortrows(data ,2)

prctile(data,[25,50])

median(data)

trimmean(data,20)

二、概率函数

y=pdf(dist,x,p1,p2,…) 返回以p1,p2,…为参数的服从dist 分布的概率密度函数(Probability density functions )在x 处的值。

常用分布及相关参数为:

dist 说明 参数 ‘bino ’ or ‘Binomial ’ 二项分布B(n,p) n,p

‘chi2’or ‘Chisquare’χ2分布χ2(n) n

‘exp’or ‘Exponential’指数分布μ

‘f’or ‘F’F分布F(n1,n2) n1,n2

‘norm’or ‘Normal’正态分布N(μ,σ) μ,σ

‘poiss’or ‘Poisson’泊松分布P(λ),λ

‘t’or ‘T’t-分布T(n) n

‘unif’or ‘Uniform’连续型均匀分布U(a,b) a,b

‘unid’or ‘Discrete Uniform’离散型均匀分布U(n)

y=cdf(dist,x,p1,p2,…) 返回dist分布在x处的分布函数值

(Cumulative distribution functions)。

y=icdf(dist,x,p1,p2,…) 求逆分布函数值(即下分位数)

y=normpdf(x,mu,sigma) 正态分布N(mu,sigma)的概率密度值

p=normcdf(x,mu,sigma) 正态分布N(mu,sigma)的分布函数值x=norminv(p,mu,sigma) 正态分布N(mu,sigma)的p下分位数。例4.2:观察下列指令,并解释其概率意义。

>> a=normpdf(90,80,10)-normpdf(70,80,10)

>> b=normcdf(90,80,10)-normcdf(70,80,10)

>> p=(1-b)/2;c=norminv(p,80,10)

>> d=norminv(1-p,80,10)

>> pdf('norm',90,80,10)

>> p=cdf('norm',90,80,10)

>> icdf('norm',p,80,10)

>> icdf('t',0.95,20)

>> pdf('bino',5,10,0.5)

三、统计推断

1、参数估计

[mu,sigma,muci,sigmaci]=normfit(x,alpha) 正态总体N(μ, σ2)的参数估计,x 为样本数据,alpha 为显著性水平(缺省值为0.05),输出mu 和sigma 为总体均值和标准差的点估计值,muci 和sigmaci 为相应的区间估计。

phat=mle(data,’distribution ’,dist) 根据数据data ,求分布dist 中参数的极大似然估计phat 。

2、假设检验

ttest 单样本的t-检验,主要格式:

[h,p]=ttest(x,m,name,value) 检验零假设0:H m μ=,其中x 是来自方差未知的正态总体。输出h 的值为0或1,若h=1,则拒绝零假设,否则若h=0,则不能拒绝零假设;同样,p 值的大小也可以对假设进行推断,若p,tail=-1表示1:H m μ<。 ttest2 两个独立的正态总体的均值是否相等的假设检验。

[h,p]=ttest2(x,y,name,value) 其中x 是来自正态总体N(μ1, σ12)

相关文档
最新文档