统计建模与R软件课程报告
统计建模与R软件第八讲(2017)

Cov: covariance matrix (p x p) of the distribution.
R程序
discriminiant.distance<-function (TrnX1, TrnX2, TstX = NULL, var.equal = FALSE)
{if (is.null(TstX) == TRUE) TstX<-rbind(TrnX1,TrnX2) if (is.vector(TstX) == TRUE) TstX<-t(as.matrix(TstX))
x X1
x X2
d 2 (x, X 2 ) d 2 (x, X1) (x 2 )T 1(x 2 ) (x 1)T 1(x 1)
(xT 1x
2
xT
1 2
2T
1 2
)
(xT 1x
2
xT
1 1
1T 11)
2xT 1 1 2 1 2 T 1 1 2
2
x
1
2
2
Hale Waihona Puke T112
25 II
5.5
6 2.5
3
7 0.18 18
8I
7.5 52
1
6 12 0.16 40
26 II
8.4 113 3.5 4.5
6 0.15 75
9I
7.5 52 3.5 7.5
6 0.16 40
27 II
8.4 113 3.5 4.5
8 0.15 75
10 I
8.3 113
0 7.5 35 0.12 180
#根据第i个样本的wi值,返回样本类别结果
blong}理论中的样本按列排列X=(X1,X2,…,Xn) ,每列是一个样本,n列表示n个样
统计分析软件实训报告

一、引言随着社会经济的快速发展,数据已成为现代社会的重要资源。
统计分析作为数据分析的重要手段,在各个领域都发挥着重要作用。
为了提高自己的数据分析能力,我参加了统计分析软件实训课程。
通过本次实训,我对统计分析软件的功能和使用方法有了更加深入的了解,以下是对本次实训的总结报告。
二、实训目的1. 熟练掌握统计分析软件的使用方法;2. 提高数据分析能力,学会运用统计分析方法解决实际问题;3. 培养团队协作精神,提高沟通与表达能力。
三、实训内容本次实训主要使用SPSS软件进行统计分析。
实训内容主要包括以下几个方面:1. 数据录入与整理;2. 描述性统计分析;3. 假设检验;4. 相关性分析;5. 回归分析;6. 多元统计分析。
四、实训过程1. 数据录入与整理在实训过程中,我们首先学习了如何将数据录入SPSS软件。
通过示例数据,我们了解了数据录入的基本操作,包括变量的定义、数据录入、数据保存等。
接着,我们学习了如何对数据进行整理,包括变量的筛选、数据的排序、数据的合并等。
2. 描述性统计分析描述性统计分析是统计分析的基础。
我们学习了如何计算均值、标准差、方差、最大值、最小值等统计量,并掌握了如何使用SPSS软件绘制直方图、饼图、散点图等图表,以便直观地展示数据的分布情况。
3. 假设检验假设检验是统计分析的核心内容之一。
我们学习了如何进行单样本t检验、双样本t检验、方差分析等,并通过实例分析了这些检验方法在数据分析中的应用。
4. 相关性分析相关性分析用于研究变量之间的线性关系。
我们学习了如何计算相关系数,并掌握了如何使用SPSS软件进行皮尔逊相关分析和斯皮尔曼等级相关分析。
5. 回归分析回归分析是研究变量之间依赖关系的常用方法。
我们学习了如何进行一元线性回归、多元线性回归等,并通过实例分析了这些回归模型在数据分析中的应用。
6. 多元统计分析多元统计分析是研究多个变量之间关系的方法。
我们学习了如何进行因子分析、聚类分析、主成分分析等,并通过实例分析了这些分析方法在数据分析中的应用。
『原创』统计建模与R软件-第二章R软件的使用

『原创』统计建模与R软件-第⼆章R软件的使⽤统计建模与R软件-第⼆章2.1 建⽴⼀个R⽂件,在⽂件中输⼊变量x=(1,2,3)T, y=(4,5,6)T,并作以下运算。
(1)计算z=2x+y+e,其中e=(1,1,1)T;(2)计算x与y的内积;(3)计算x与y的外积。
x <- c(1, 2, 3)y <- c(4, 5, 6)e <- c(1, 1, 1)2 * x + y + e## [1] 7 10 13crossprod(x, y) #内积## [,1]## [1,] 32tcrossprod(x, y) #外积## [,1] [,2] [,3]## [1,] 4 5 6## [2,] 8 10 12## [3,] 12 15 182.2 将1,2,....,20构成两个4×5阶的矩阵,其中矩阵A是按列输⼊,矩阵B是按⾏输⼊,并作如下运算。
(1)C=A+B(2)D=AB(3)E=(e ij)n×n,其中e ij=a ij.b ij(4)F是由A的前3⾏和前3列构成的矩阵(5)G是由矩阵B的各列构成的矩阵,但不含B的第3列。
A <- matrix(1:20, nrow = 4, byrow = FALSE) #按列输⼊B <- matrix(1:20, nrow = 4, byrow = TRUE) #按⾏输⼊A## [,1] [,2] [,3] [,4] [,5]## [1,] 1 5 9 13 17## [2,] 2 6 10 14 18## [3,] 3 7 11 15 19## [4,] 4 8 12 16 20B## [,1] [,2] [,3] [,4] [,5]## [1,] 1 2 3 4 5## [2,] 6 7 8 9 10## [3,] 11 12 13 14 15## [4,] 16 17 18 19 20C <- A + BC## [,1] [,2] [,3] [,4] [,5]## [1,] 2 7 12 17 22## [2,] 8 13 18 23 28## [3,] 14 19 24 29 34## [4,] 20 25 30 35 40D <- A %*% B## Error: ⾮整合参数D## function (expr, name)## .Internal(D(expr, name))## <bytecode: 0x04cb6d4c>## <environment: namespace:stats>E <- A * BE## [,1] [,2] [,3] [,4] [,5]## [1,] 1 10 27 52 85## [2,] 12 42 80 126 180## [3,] 33 84 143 210 285## [4,] 64 136 216 304 400F <- A[1:3, 1:3]F## [,1] [,2] [,3]## [1,] 1 5 9## [2,] 2 6 10## [3,] 3 7 11G <- B[, -3]G## [,1] [,2] [,3] [,4]## [1,] 1 2 4 5## [2,] 6 7 9 10## [3,] 11 12 14 15## [4,] 16 17 19 202.3 构造⼀个向量x,向量是由5个1,3个2,4个3和2个4 构成,注意⽤到rep()函数c(rep(1, 5), rep(2, 3), rep(3, 4), rep(4, 2))## [1] 1 1 1 1 1 2 2 2 3 3 3 3 4 42.4 ⽣成⼀个5阶的Hilbert矩阵,H=(h ij)n×n,h ij=1i+j−1,i,j=1,2,…,n.(1)计算Hilbert矩阵H的⾏列式(2)求H的逆矩阵(3)求H的特征值和特征向量n <- 5H <- array(0, dim = c(n, n))for (i in 1:n) {for (j in 1:n) {H[i, j] <- 1/(i + j - 1)}}H## [,1] [,2] [,3] [,4] [,5]## [1,] 1.0000 0.5000 0.3333 0.2500 0.2000## [2,] 0.5000 0.3333 0.2500 0.2000 0.1667## [3,] 0.3333 0.2500 0.2000 0.1667 0.1429## [4,] 0.2500 0.2000 0.1667 0.1429 0.1250## [5,] 0.2000 0.1667 0.1429 0.1250 0.1111det(H) #⾏列式值## [1] 3.749e-12solve(H) #逆矩阵## [,1] [,2] [,3] [,4] [,5]## [1,] 25 -300 1050 -1400 630## [2,] -300 4800 -18900 26880 -12600## [3,] 1050 -18900 79380 -117600 56700## [4,] -1400 26880 -117600 179200 -88200## [5,] 630 -12600 56700 -88200 44100eigen(H) #特征值和特征向量## $values## [1] 1.567e+00 2.085e-01 1.141e-02 3.059e-04 3.288e-06 #### $vectors## [,1] [,2] [,3] [,4] [,5]## [1,] 0.7679 0.6019 -0.2142 0.04716 0.006174## [2,] 0.4458 -0.2759 0.7241 -0.43267 -0.116693## [3,] 0.3216 -0.4249 0.1205 0.66735 0.506164## [4,] 0.2534 -0.4439 -0.3096 0.23302 -0.767191## [5,] 0.2098 -0.4290 -0.5652 -0.55760 0.3762462.5 已知有5名学⽣的数据,如表2.3所⽰,⽤数据框的形式读⼊数据。
统计建模与R软件课程报告

统计建模与R软件课程报告对某地区农业生态经济的发展状况作主成分分析主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相关独立或不相关的变量。
通常是选出比原始变量个数少,又能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。
也就是说,主成分分析实际上是一种降维方法。
关键词:主成分分析相关矩阵相关R函数1 绪论 (2)1.1主成分方法简介 (2)2总体主成分 (2)2.1主成分的定义与导出 (2)2.2主成分的性质 (3)2.3从相关矩阵出发求主成分 (5)2.4相关的R函数 (6)3数据模拟 (7)4结论及对该模型的评价 (12)参考文献 (12)1.1主成分方法简介主成分分析(principal component analysis )是将多个指标化为少数几个 综合指标的一种统计分析方法,由Pearson( 1901)提出,后来被Hotelling ( 1933) 发展了。
主成分分析是一种通过降维技术把多个变量化成少数几个主成分的方法。
这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的线性 组合。
主成分分析也称主分量分析, 旨在利用降维的思想,把多指标转化为少数几个综合指标。
在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的 因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析 问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具。
2总体主成分2.1主成分的定义与导出易见var( ZJ 二 a TZa i , i=1,2,,p,我们希望乙的方差达到最大,即a 1是约束优化问题max a T las.ta T a = 11绪论设x 是p 维随机变量,并假设艺二var(X )。
统计建模与R软件-第三讲-(2019)

第三讲 数据描述性分析
郭广报
统计计算
主要内容
3.1 描述性统计量 3.2 数据的分布 3.3 R软件中的绘图命令 3.4多元数据的数据特征与相关分析 3.5多元数据的图表示方法
6.1 一元线性回归
3.1 描述性统计量
已知一组试验(或观测)数据为
x1, x2 ,, xn
它们可以是从所要研究的对象的全体—X中取出的,这n个 观测值就构成一个样本。在某些简单的实际问题中,这n个 观测值就是所要研究问题的全体。数据分析的任务就是要 对这全部n个数据进行分析,提取数据中包含的有用信息。
58.7, 63.5, 66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0) > quantile(w) 0% 25% 50% 75% 100% 47.40 57.85 63.50 66.75 75.00 quantile()函数的一般使用格式为 quantile(x, probs = seq(0, 1, 0.25), na.rm = FALSE, names = TRUE, type = 7, ...) 其中x是由数值构成的向量. probs是给出相应的百分位数, 缺省时
3.1.3 分布形状的度量
1. 偏度系数
பைடு நூலகம்
设总体X的中心矩 2 E(X E(X ))2, 3 E(X E(X ))3 存在,则称
3
Cs
3
/
2 2
(1.12)
为总体X的偏度系数(coefficient of skewness).
样本的偏度系数(记为g1)的计算公式为
统计建模与R软件课程报告

统计建模与R软件课程报告Document serial number【UU89WT-UU98YT-UU8CB-UUUT-UUT108】统计建模与R软件课程报告对某地区农业生态经济的发展状况作主成分分析摘要主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相关独立或不相关的变量。
通常是选出比原始变量个数少,又能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。
也就是说,主成分分析实际上是一种降维方法。
关键词:主成分分析相关矩阵相关R函数目录1 绪论主成分方法简介主成分分析(principal component analysis)是将多个指标化为少数几个综合指标的一种统计分析方法,由Pearson(1901)提出,后来被Hotelling(1933)发展了。
主成分分析是一种通过降维技术把多个变量化成少数几个主成分的方法。
这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的线性组合。
主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具。
2总体主成分主成分的定义与导出设Χ是p变换T pp Z ⎪⎪=⎩⎭aX()易见()()()成分。
主成分的性质关于主成分有如下性质:(1)主成分的均值和协方差阵。
记由于() 所以有(2)主成分的总方差 由于所以pp方差之和。
统计建模与r软件 课后习题答案

统计建模与r软件课后习题答案统计建模与R软件课后习题答案在统计建模与R软件课程中,学生们经常需要完成一系列的习题来巩固所学知识。
这些习题涉及到统计建模的理论和实践,以及如何使用R软件来进行数据分析和建模。
在本文中,我们将给出一些常见的统计建模与R软件课后习题的答案,希望能够帮助学生更好地理解课程内容。
1. 线性回归模型习题:使用R软件对给定数据集进行线性回归分析,并给出回归方程和相关系数。
答案:在R软件中,可以使用lm()函数来进行线性回归分析。
例如,对于数据集data,可以使用以下代码进行线性回归分析:```model <- lm(y ~ x, data=data)summary(model)```其中,y和x分别表示因变量和自变量。
通过summary()函数可以得到回归方程和相关系数等信息。
2. 逻辑回归模型习题:使用R软件对给定数据集进行逻辑回归分析,并给出回归方程和模型拟合度。
答案:逻辑回归分析可以使用glm()函数来进行。
例如,对于数据集data,可以使用以下代码进行逻辑回归分析:```model <- glm(y ~ x, data=data, family=binomial)summary(model)```其中,y和x分别表示因变量和自变量,family=binomial表示使用二项分布进行逻辑回归分析。
通过summary()函数可以得到回归方程和模型拟合度等信息。
3. 方差分析习题:使用R软件对给定数据集进行方差分析,并给出各组之间的差异是否显著。
答案:在R软件中,可以使用aov()函数来进行方差分析。
例如,对于数据集data,可以使用以下代码进行方差分析:```model <- aov(y ~ group, data=data)summary(model)```其中,y和group分别表示因变量和自变量。
通过summary()函数可以得到各组之间的差异是否显著等信息。
统计建模与R软件课程报告

统计建模与R软件课程报告对某地区农业生态经济的发展状况作主成分分析摘要主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相关独立或不相关的变量。
通常是选出比原始变量个数少,又能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。
也就是说,主成分分析实际上是一种降维方法。
关键词:主成分分析相关矩阵相关R函数目录1 绪论 (2)1.1主成分方法简介 (2)2总体主成分 (2)2.1主成分的定义与导出 (2)2.2主成分的性质 (3)2.3从相关矩阵出发求主成分 (5)2.4相关的R函数 (6)3 数据模拟 (7)4 结论及对该模型的评价 (12)参考文献 (12)1 绪论1.1主成分方法简介主成分分析(principal component analysis)是将多个指标化为少数几个综合指标的一种统计分析方法,由Pearson(1901)提出,后来被Hotelling(1933)发展了。
主成分分析是一种通过降维技术把多个变量化成少数几个主成分的方法。
这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的线性组合。
主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具。
2总体主成分2.1主成分的定义与导出设Χ是p22Tp pZ⎪⎪⎨⎬⎪⎪⎪⎪=⎩⎭a X(2.1)易见,(2.2)1,2,,,p i≠(2.3)的解。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计建模与R软件课程报告对某地区农业生态经济的发展状况作主成分分析摘要主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相关独立或不相关的变量。
通常是选出比原始变量个数少,又能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。
也就是说,主成分分析实际上是一种降维方法。
关键词:主成分分析相关矩阵相关R函数目录1 绪论 (2)1.1主成分方法简介 (2)2总体主成分 (2)2.1主成分的定义与导出 (2)2.2主成分的性质 (3)2.3从相关矩阵出发求主成分 (5)2.4相关的R函数 (6)3 数据模拟 (7)4 结论及对该模型的评价 (12)参考文献 (12)1 绪论1.1主成分方法简介主成分分析(principal component analysis )是将多个指标化为少数几个综合指标的一种统计分析方法,由Pearson (1901)提出,后来被Hotelling (1933)发展了。
主成分分析是一种通过降维技术把多个变量化成少数几个主成分的方法。
这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的线性组合。
主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具。
2总体主成分2.1主成分的定义与导出设Χ是p 维随机变量,并假设()=E μX ,var()=ΣX 。
考虑如下线性变换1122TT T pp Z Z Z ⎧⎫=⎪⎪=⎪⎪⎨⎬⎪⎪⎪⎪=⎩⎭a X a X a X (2.1)易见var()T i i i Z =∑a a ,1,2,,,i p = (2.2)cov(,)T i j i j Z Z a a =∑, ,1,2,,,.i j p i j =≠ (2.3)我们希望1Z 的方差达到最大,即1a 是约束优化问题 max T a Σa ..s t 1T =a a的解。
因此,1a 是Σ最大特征值(不妨设为1λ)的特征向量。
此时,称11TZ =a X 为第一主成分。
类似地,希望2Z 的方差达到最大,并且要求1212cov(,)0TZ Z ==a Σa 。
由于1a 是1λ的特征向量,所以,选择的2a 应与1a 正交。
类似于前面的推导,2a 是Σ第二大特征值(不妨设为2λ)的特征向量。
称22T Z =a X 为第二主成分。
一般情况下对于协方差阵Σ,存在正交阵Q ,将它化为对角阵,即1T P λλ⎛⎫⎪=Λ=⎪⎪⎝⎭Q ΣQ (2.4)且12p λλλ≥≥≥,则矩阵Q 的第i 列就对应于i a ,相应的i Z 为第i 主成分。
2.2主成分的性质关于主成分有如下性质:(1)主成分的均值和协方差阵。
记12=P ⎛⎫⎪⎪ ⎪ ⎪⎝⎭Z Z Z Z ,(),E =νZ 1P λλ⎛⎫⎪=⎪ ⎪⎝⎭Λ, 由于T =Z Q X (2.5) 所以有()()(),T T T E E E ====νZ Q X Q X Q μ var()var()T T ===Z Q X Q Q ΣQ Λ. (2)主成分的总方差由于()()()(),T T tr tr tr tr ===ΛQ ΣQ ΣQQ Σ 所以11ppi ii i i λσ===∑∑或11var()var()ppi i i i ===∑∑Z X ,其中ii σ是协方差阵Σ的第i 个对角元素。
由此可以看出,主成分分析把p 个原始变量12,,,P X X X 的总方差分解成了p 个不相关变量12,,,P Z Z Z 的方差之和。
称总方差中第i 主成分i Z 的比例1/pi i i λλ=∑为主成分i Z 的贡献率。
第一主成分1Z 的贡献率最大,表明它解释原始变量12,,,P X X X 的能力最强,而23,,,PZ Z Z 的解释能力依次减弱。
主成分分析的目的就是为了减少变量的个数,因而一般不会使用所有的p 个主成分,忽略一些较小方差的主成分,不会给总方差带来大的影响。
称前m 个主成分的贡献率之和11/pmi i i i λλ==∑∑为主成分12,,,m Z Z Z 的累积贡献率,它表明12,,,m Z Z Z 解释12,,,P X X X 的能力。
相对于p ,通常取较小的m ,使得累积贡献率达到一个较高的百分比(如80%~90%)。
此时,12,,,m Z Z Z 可用来代替12,,,P X X X ,达到降维的目的,而信息的损失却不多。
(3)原始变量j X 与主成分i Z 之间的相关系数 由式(1.5)知=X QZ (2.6) 即1122j j j jp p X q Z q Z q Z =+++, (2.7)所以,cov(,)cov(,)j i ji i i ji i X Z q Z Z q λ==,,,1,2,,,j i p = (2.8)cov(,)(,)j i ji X Z X Z ρ==, ,,1,2,,j i p =. (2.9) 在实际应用中,通常只对j X 与i Z 的相关系数感兴趣。
(4)m 个主成分对原始变量的贡献率前面提到的累积贡献率这个概念度量了m 个主成分12,,,m Z Z Z 从原始变量12,,,P X X X 中提取信息的多少,那么12,,,m Z Z Z 包含有j X ()1,2,,j p =的多少信息应该用什么指标来度量呢?这个指标就是j X 与12,,,m Z Z Z 的复相关系数的平方,称为m 个主成分12,,,m Z Z Z 对原始变量j X 的贡献率,记为21j mρ⋅,即222111=(,)/m mj mj i i ji jj i i X Z q ρρλσ⋅===∑∑. (2.10)对式(1.7)两边取方差,得到2221122jj j j jp p q q q σλλλ=+++, (2.11)由于222121j j jp q q q +++=,故jj σ实际上是12,,,p λλλ的加权平均。
由式(1.10)~式(1.11),可以得到12,,,p Z Z Z 对j X 的贡献率为222111=(,)/1ppj pj i i ji jj i i X Z q ρρλσ⋅====∑∑. (2.12)(5)原始变量对主成分的影响式(1.5)也可以写成 1122+++i i i pi p Z q X q X q X =,称ji q 为第i 主成分在第j 个原始变量j X 上的载荷,它度量了j X 对i Z 的重要程度。
2.3从相关矩阵出发求主成分当各变量的单位不完全相同,或虽单位相同,但变量间的数值大小相差较大时,直接从协方差阵Σ出发进行主成分分析就显得不妥。
为了使主成分分析能够均等地对待每一个原始变量,消除由于单位不同可能带来的影响,常常将原始 变量作标准化处理,即令*jX X μ-=,1,2,,.j p = (2.13)显然,****12,(,,)Tp X X X =X 的方差矩阵就是X 的相关矩阵R 。
从相关矩阵R 出发导出的主成分方法与从协方差Σ出发导出的主成分方法完全类似,并且得到的主成分的一些行之更加简洁。
设***120p λλλ≥≥≥≥为相关矩阵R 的p 个特征值,***12,,,p a a a 为相应的单位特征向量,且相互正交,则相应的p 个主成分为***T i i Z X =a ,1,2,,i p =。
令****12(,,,)TP Z Z Z =Z ,****12(,,,)p =Q a a a ,于是**T T =Z Q X .关于相关矩阵R 的主成分有如下性质:(1)***(),var()E ==Z 0Z Λ,其中****12(,,,)p diag λλλ=Λ.(2)*1pi i p λ==∑.(3)变量*j X 与主成分*i Z 之间的相关系数为***(,)j i ji X Z ρ=,,1,2,,j i p =.(4)主成分***12,,,m Z Z Z 对*j X 的贡献率为22****2111(,)m mj mjii ji i i X Z q ρρλ⋅====∑∑.(5)22****2111(,)1ppj pjii ji i i X Z q ρρλ⋅=====∑∑.2.4相关的R 函数与主成分分析有关的函数主要有以下一些: 1.princomp 函数作主成分分析最主要的函数是princomp ()函数,其使用格式为 princomp (formula ,data=NULL ,subset ,na.action ,. . .) 其中formula 是没有响应变量的公式(类似回归分析、方差分析,但无响应变量),data 是数据框。
或者princomp (x,cor=FALSE,scores=TRUE,covmat=NULL, subset=rep(TRUE,nrow(as.matrix(x))),…)其中x 是用于主成分分析的数据,以数值矩阵或数据框的形式给出;cor 是逻辑变量,当cor=TRUE 表示用样本的相关矩阵R 作主成分分析,当cor=FALSE (默认值)表示用样本的协方差阵S 作主成分分析;covmat 是协方差阵,如果数据不用x 提供,可由协方差阵提供。
2.summary 函数summary ()函数的目的是提取主成分信息,其使用格式为 summary (object, loadings=FALSE, cutoff=0.1,. . .)其中object 是由princomp ()得到的对象;loadings 是逻辑变量,当loadings=TRUE 表示显示loadings 的内容,当loadings=FALSE 则不显示。
3.loadings 函数Loadings ()函数是显示主成分分析loadings 的内容,该内容实际上是主成分对应的各列,即前面分析的正交矩阵Q 。
loadings (x ) 其中x 是由函数princomp ()得到的对象。
4.predict 函数predict ()函数是预测主成分的值,其使用格式为 predict (object ,newdata ,. . .) 其中object 是由princomp ()得到的对象,newdata 是由预测值构成的数据框,当newdata 为默认值时,预测已有数据的主成分值。