(整理)数据分析总结

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

回归分析

1线性回归模型：

Y 为随机变量（可观测），受p-1个因素X1，X2，…X p-1的影响。随机误差ε的均值为0，方差δ2>0（即正态分布ε~N（0，δ2）），不可观测。

Y=Xβ+ε X为设计矩阵，且rank(X)=p；ε为误差项。

前提条件：ε的平方和尽量小：∑εi2=εTε=（Y-Xβ）T（Y-Xβ）偏导为0。

求得正规方程X T Xβ=X T Y

得到β的最小二乘估计值β^=(X T X)-1X T Y,易知E（β^）=β

拟合值Y^=Xβ^

残差向量e=Y-Y^=(I-H)Y

标准化残差（在0-1间取值）e i/

残差平方和e T e=εT(I-H) ε期望E（e T e）=δ2（n-p）

δ2的无偏估计δ^2= e T e/（n-p）

2线性回归方程的使用

2.1前提条件：

回归关系的显著性检验：

检验统计量F=MSR/MSE

F0≤Fα（p-1,n-p）,接受H0；则拒绝H0，认为y与x线性相关。其中α为显著性

水平，可以取0.8.

若检验P值，则P≤0.0001，线性相关。

2.2剔除对y影响小的X i

由Cov（β^）==δ2(X T X)-1

得S（β^）=δ^2(X T X)-1

t=k=0,1,…，p-1

其中为S（β^）在主对角线上的第k个元素的平方和。

若|t0|≤t a/2(n-p)，接受H0；否则拒绝，X i有交大影响。其中1-α为置信区间，一般取0.95.

2.3逐步回归法

用于一个个筛选自变量X i，直至得到所有对y有显著影响的X i。因为预报值的方差会随着自变量数目的增加而增大，且计算量大。

偏F检验统计量：F=A为现有自变量x集合

SSR(X k|A)=SSE(A)-SSE(A,X k) 为额外回归平方和，描述了引入一个X k到A中后，SSE

的相对减小量。

步骤：

1)先选取显著性水平αE（选取自变量），αD（剔除自变量）。（默认均为0.15）

2)假设每个X k自成一个A，分别计算它们的 k=1,2,…,P-1

找到最大的F，若F k1>FαE（1，n-1-1），(n后第一个1是A中元素个数)接受自

变量，对应X就是A中的第一个元素。

3)其余p-2个元素在现有A基础上计算）

找到最大值，若F k2>FαE（1，n-2-1），接受自变量。

判断是否剔除X k1:

）（即把X

k2放入A，看此时加入X k1时。F增大还是减小）。若≤FαD（1，n-2-1），则剔除X k1,否则保留。

4)接下来对其余p-3个元素计算，取最大值比较F k3>FαE（1，n-3-1），判

断是否接受X k3。

分别从A中取出X k1,X k2,计算F(2)，判断是否剔除X k1,X k2.

5)软件会自动标准化，转化成P值，可以直接与α比较

主成分分析

1原理

变量间有一定的相关性，即信息有重叠。主成分之间线性无关，没有重叠。原变量重新进行正交分解，分解到各个主成分上。这些主成分就是新的变量，它们互不相关，便于单独

分析每个变量对y 的影响。

设线性组合：Y =l T X l=(l ij )p*p

其中Y 为p 个主成分组成的向量，两位p 个常数向量组成的矩阵，X 为p 个原始变量组成的向量。

Y 构成主成分的条件是：Var(Y i ) = 达到最大(该值表示了Y 反映的X 的信息量，

离散程度越大，说明Y 随X 变化越剧烈，说明越能反映X)

Cov(Y i , Y j ) = =0 （说明Y i , Y j 不相关） i ≠j

i=1,2,….,p

总体主成分求法

2.1 求标准化的l (即 =1)

已知Σ是X 的协方差矩阵。

求得其特征值为λ1≥λ2≥…λp ≥0，对应的单位正交特征向量为e 1 ,e 2 ,…，e p

可证明：Var(Y i ) = =λi

=λi

Cov(Y i , Y j ) = =0 则Y i = i=1,2,….,p 即l=e

2.2 求标准化变量的主成分

由于X 的量纲不同，各变量的分散程度差异可能很大，用∑求主成分会优先照顾方差大的变量，这时主成分Y 的贡献率和和其与各X i 的相关系数都会有偏差。所以先将原始变量标准化，使其在0~1之间。步骤：

1) 令

i=1,2,…,p

其中μi=E(X i ), =Var(X i )

2) 此时X *的协方差矩阵便是X 的相关矩阵ρ=（ρij ）p*p ,其中 ρij =E （）=Cov(X i , X j )/ 3) =( X * 4) 此时

2.3

评估主成分

2.3.1 主成分的协方差矩阵和总方差：

Cov(Y )=Cov(P T X )=P T ∑P =Diag(λ1,……,λp ) 其中P =( e 1 ,e 2 ,…，e p )

即主成分分析是把p 个原始变量X 1，X 2,……X p 的总方差分解成p 个不相关变量Y 1,Y 2，……Yp 的方差之和。 2.3.2 评估参数：

贡献率：λ

描述了第k 个主成分提取的信息占总信息的份额。

累计贡献率: λ

前m 个Y 的贡献率之和。

通常选择m

Y i，X j的相关系数：ρYi，Xj ==λ

它给出了主成分Y i与原

始变量X j的关联性的度量。

3样本主成分求法

在实际问题中，∑（或ρ）未知，需要通过样本估计。

样本协方差矩阵：S=（s ij）p*p= 作为对∑的估计。

R= （r ij）p*p =作为对ρ的估计。

标准化的=(，，……，)T i=1,2,……,n

因子分析

1原理

1.1适用范围

因子分析是主成分分析的推广，是多元分析中降维的一种方法。它研究相关矩阵ρ或协方差矩阵∑的内部依赖关系。

主成分分析是探索性因子分析，而因子分析是验证性因子分析。首先要构建模型，先确定公共因子，可通过参数估计确定。

1.2因子分析模型：

多个变量综合成少数因子，用因子表达原始变量（这点与主成分刚好相反，主成分是用原始变量表达主成分）。

x=AF+ε

其中，x=(x1,x2,…，x p)T 为原始变量；

F=(F1,F2,…,F m)T为公共因子；

A为一个m行p列的矩阵，为载荷矩阵，其中元素为因子载荷；

ε为变量x的特殊因子。

1.3正交因子模型：

X-μ=AF+ε