R语言判别分析实验报告

合集下载

R语言综合实验报告

学号：2013310200629姓名：王丹学院：理学院专业：信息与计算科学成绩：日期：年月日基于工业机器人能否准确完成操作的时间序列分析摘要：时间序列分析是预测领域研究的重要工具之一,它描述历史数据随时间变化的规律,并用于预测数据。

本文首先介绍了一些常用的时间序列模型，包括建模前对数据的预处理、模型的识别以及模型的预测等。

通过多种方法分析所得到的数据，实现准确建模，可以得出正确的结论。

关键词:自回归(AR)模型，滑动平均(MA)模型，自回归滑动平均(ARMA)模型，ARMA最优子集一、问题提出，问题分析随着社会日新月异的发展，不断创新的科技为我们的生活带来了越来越多的便利。

机器人也逐渐走向了我们的生活，工厂里使用机器人去工作也可以大大减少生产成本，但为了保证产品质量，工厂使用的机器人应该多次测试，确保动作准确无误。

现有一批数据，包含了来自工业机器人的时间序列（机器人需要完成一系列的动作，与目标终点的距离以英寸为单位被记录下来，重复324次得到该时间序列），对于这些离散的数据，我们期望从中发掘一些信息，以便对机器人做更好的改进或者确定机器人是否可以投入使用。

但我们从中并不能看出什么，需要借助工具做一些处理，对数据进行分析。

时间序列分析是通过直观的数据比较或作图观测,去寻找序列中包含的变化规律,这种分析方法称为描述性时序分析。

在物理、天文、海洋学等科学领域,这种描述性时序分析方法经常能够使人们发现一些意想不到的规律,操作起来十分简单而且直观有效,因此从史前到现在一直被人们广泛使用,它也是我们进行统计时序分析的第一步。

我们将利用自回归(AR)模型、滑动平均(MA)模型以及自回归滑动平均(ARMA)模型去解决遇到的问题。

二、数据描述和初步分析下面是我们接收到的数据，数据来源：/~kchan/TSA.htm0.0011 0.0011 0.0024 0.0000 -0.0018 0.0055 0.0055 -0.00150.0047 -0.0001 0.0031 0.0031 0.0052 0.0034 0.0027 0.00410.0041 0.0034 0.0067 0.0028 0.0083 0.0083 0.0030 0.00320.0035 0.0041 0.0041 0.0053 0.0026 0.0074 0.0011 0.0011-0.0001 0.0008 0.0004 0.0000 0.0000 -0.0009 0.0038 0.00540.0002 0.0002 0.0036 -0.0004 0.0017 0.0000 0.0000 0.00470.0021 0.0080 0.0029 0.0029 0.0042 0.0052 0.0056 0.00550.0055 0.0010 0.0043 0.0006 0.0013 0.0013 0.0008 0.00230.0043 0.0013 0.0013 0.0045 0.0037 0.0015 0.0013 0.00130.0029 0.0039 -0.0018 0.0016 0.0016 -0.0003 0.0000 0.00090.0017 0.0017 0.0030 -0.0001 0.0070 -0.0008 -0.0008 0.00090.0025 0.0031 0.0002 0.0002 0.0022 0.0020 0.0003 0.00330.0033 0.0044 -0.0010 0.0048 0.0019 0.0019 0.0031 0.00200.0017 0.0014 0.0014 0.0039 0.0052 0.0020 0.0012 0.00120.0031 0.0022 0.0040 0.0038 0.0038 0.0007 0.0016 0.00240.0003 0.0003 0.0057 0.0006 0.0009 0.0040 0.0040 0.00350.0032 0.0068 0.0028 0.0028 0.0048 0.0035 0.0042 -0.0020-0.0020 0.0023 -0.0011 0.0062 -0.0021 -0.0021 0.0000 -0.0019-0.0005 0.0048 0.0048 0.0027 0.0009 -0.0002 0.0079 0.00790.0017 0.0034 0.0030 0.0025 0.0025 0.0004 0.0031 0.0057-0.0003 -0.0003 0.0006 0.0018 0.0022 0.0042 0.0042 0.0055-0.0005 -0.0053 0.0028 0.0028 0.0005 0.0036 0.0017 -0.0043-0.0043 0.0066 -0.0016 0.0055 -0.0011 -0.0011 -0.0049 0.00470.0056 0.0057 0.0057 -0.0002 0.0056 0.0037 0.0012 0.00120.0018 -0.0025 -0.0011 0.0027 0.0027 0.0039 0.0058 0.00030.0040 0.0040 0.0042 0.0000 0.0056 -0.0029 -0.0029 -0.00260.0016 0.0019 0.0015 0.0015 0.0007 0.0007 -0.0044 -0.0030-0.0030 0.0013 0.0029 -0.0010 0.0009 0.0009 -0.0016 0.00000.0000 0.0014 0.0014 -0.0003 0.0009 -0.0068 0.0003 0.0003-0.0012 0.0037 -0.0019 0.0023 0.0023 -0.0033 -0.0002 -0.00100.0021 0.0021 0.0026 -0.0002 0.0011 0.0028 0.0028 -0.00040.0026 -0.0015 0.0002 0.0002 0.0018 -0.0005 0.0004 -0.0008-0.0008 0.0018 0.0019 0.0029 -0.0022 -0.0022 0.0010 -0.00330.0020 0.0000 0.0000 0.0003 0.0007 -0.0009 -0.0035 -0.00350.0010 0.0007 0.0028 -0.0008 -0.0008 -0.0034 -0.0010 -0.0018-0.0021 -0.0021 -0.0006 -0.0018 -0.0046 -0.0017 -0.0017 -0.0001-0.0029 0.0020 -0.0049 -0.0049 -0.0021 -0.0027 -0.0018 -0.0015-0.0015 0.0051 -0.0002 0.0000 -0.0006 -0.0006 -0.0012 0.00120.0000 0.0021 0.0021 -0.0001 0.0022 0.0055 -0.0010 -0.00100.0048 0.0006 0.0026 0.0004 0.0004 0.0000 0.0000 0.00080.0044 0.0044 0.0002 0.0036这一群数目庞大的数据，以我们直观的判断，它们错综复杂，且毫无规律可言，根本不能从中得到有用的消息。

R语言版应用多元统计分析判别分析

应用多元统计分析第4章判别分析- 1-•判别分析是用于判断样品所属类型的一种统计方法。

•判别分析方法处理的问题看起来与聚类分析方法有些类似，似乎都是要将观察值进行分类，但是它们的使用前提是不同的。

•判别分析是根据某些指标的已有数据（或称为训练样本）对所研究的对象建立判别函数，并进行分类的一种多变量分析方法，也称之为“有监督的分类方法”。

•进行判别归类时，由假设前提、判别依据及处理手法的不同可采用不同的判别方法。

如距离判别、贝叶斯(Bayes)判别、费希尔(Fisher)判别等。

概念和方法l判别分析概念l判别分析方法是在已知的分类之下，对新的样品，利用某判别准则，来判定其属于哪个类。

判别分析（Discriminat Analysis）是多元分析中用于判别样品所属类型的一种统计分析方法。

主要内容判别分析的目的和意义几种判别分析方法和性质包括：距离判别法、Bayes判别法、Fisher判别法R语言程序中有关判别分析的算法4•定义4.1设是从均值向量为 ,协方差阵为的总体G 中抽取的两个样品,则与之间的马氏距离定义为•样品与总体G 之间的马氏距离为•两总体的距离判别•设总体和的均值向量分别为和，协方差阵分别为和，x 是一个新样品，现在要判断x 来自哪一个总体。

可计算x 到两个总体的马氏距离的平方和，并按照下列进行判别• 当两个总体的方差相等，即时，该判别准则可以进行简化。

• 1. 当时的线性判别•此时•其中是两个总体均值的平均值。

令••其中，则。

因此判别准则可简化为：其中称为判别函数，由于它是的线性函数，故又称它为线性判别函数。

•在实际中，总体的均值向量和协方差阵一般都是未知的，此时可用样本均值向量和样本协方差阵来代替。

设是来自总体的样品，是来自总体的样品，则样品均值向量和样品离差阵为• 的由两个总体样品构成的无偏估计为• 2. 当时的非线性判别•此时判别函数为与之差，即•由于这个是x 的二次函数，故又称它为二次判别函数或非线性判别函数。

R语言中的线性判别分析_r语言

R语⾔中的线性判别分析_r语⾔线性判别分析在中，线性判别分析（Liner Discriminant Analysis，简称LDA），依靠软件包MASS中有线性判别函数lqa()来实现。

该函数有三种调⽤格式：1）当对象为数据框data.frame时lda(x,grouping,prior = propotions,tol = 1.0e-4,method,CV = FALSE,nu,…)2) 当对象为公式Formula时lda(formula,data,…,subnet,na.action)3) 当对象为矩阵Matrix时lda(x,group,…,subnet,na.action)对于第⼀种情况，grouping表⽰每个观测样本的所属类别；prior表⽰各类别的先验概率，默认取训练集中各样本的⽐例；tol表⽰筛选变量，默认取0.0001对于第⼆种情况，formula表⽰判别公式，⽐如，y~x1 x2 x3,或者y~x1*x1data表⽰数据集subnet表⽰样本na.action表⽰处理缺失值的⽅法，默认为“如果样本中有缺失值，则lda()函数⽆法运⾏”；如果设置为na.omit，则表⽰“⾃动删除样本中的缺失值，然后，进⾏计算”对于第三种情况，x表⽰矩阵data表⽰数据集subnet表⽰样本na.action表⽰处理缺失值的⽅法，默认为“如果样本中有缺失值，则lda()函数⽆法运⾏”；如果设置为na.omit，则表⽰“⾃动删除样本中的缺失值，然后，进⾏计算”下⾯，举⼀个例⼦，来说明线性判别分析。

我们选⽤kknn软件包中的miete数据集进⾏算法演⽰。

miete数据集记录了1994年慕尼⿊的住房佣⾦标准中⼀些有趣变量，⽐如房⼦的⾯积、是否有浴室、是否有中央供暖、是否供应热⽔等等，这些因素都影响着佣⾦的⾼低。

1.数据概况⾸先，简单了解⼀下，miete数据集。

> library(kknn) > data(miete) > head(miete)nm wfl bj bad0 zh ww0 badkach fenster kueche mvdauer bjkat wflkat1 693.29 50 1971.5 0 1 0 0 0 02 4 12 736.60 70 1971.5 0 1 0 0 0 0 26 4 23 732.23 50 1971.5 0 1 0 0 0 0 14 14 1295.14 55 1893.0 0 1 0 0 0 0 0 1 25 394.97 46 1957.0 0 0 1 0 0 0 27 3 16 1285.64 94 1971.5 0 1 0 1 0 0 2 4 3nmqm rooms nmkat adr wohn1 13.865800 1 32 22 10.5228573 3 2 23 14.644600 1 3 2 24 23.548000 35 2 25 8.586304 3 1 2 26 13.677021 4 5 2 2> dim(miete)[1] 1082 17我们看到，该数据集⼀共有1082条样本，和17个变量。

R语言实验十

实验十判别分析、聚类分析与主成分分析【实验类型】验证性【实验学时】2 学时【实验目的】1、掌握判别分析的基本原理及三种重要的判别法的使用条件；2、掌握聚类分析的基本原理及聚类方法的划分方法；3、掌握主成分分析的使用条件及其与逐步回归、岭估计的区别与联系。

【实验内容】1、判别分析的计算及其结果解释；2、聚类分析的计算及其结果解释；3、主成分分析的计算及其结果解释。

【实验结果】第一部分、课件例题：（第九章 1-3 节中的所有例题）#例9.1 的求解：# 按矩阵和因子形式输入数据train<-matrix(c(24.8, 24.1, 26.6, 23.5, 25.5, 27.4, 22.1, 21.6,22.0, 22.8, 22.7, 21.5, 22.1, 21.4, -2.0, -2.4, -3.0, -1.9, -2.1, -3.1, -0.7, -1.4, -0.8, -1.6, -1.5, -1.0, -1.2, -1.3), ncol=2)sp<-factor(rep(1:2, c(6,8)), labels=c("Have", "No"))library(MASS); lda.sol<-lda(train, sp) #判别分析tst<-c(23.5, -1.6); predict(lda.sol, tst)$class #预测table(sp, predict(lda.sol)$class) #回代预测的结果是无春旱；回代的结果说明，原本有6个春旱的年份只判断对了5个。

## 使用二次判别函数qda.sol<-qda(train, sp)predict(qda.sol, tst)$class #预测table(sp, predict(qda.sol)$class) #回代二次判别预测的结果是有春旱，这与前面线性判别的预测结果不同；从回代结果来看，可能是有春早更合理一些，因为二次判别的回代正确率是100%。

R语言中的多元统计之判别分析报告

前言判别分析（discriminant analysis）是多元统计分析中较为成熟的一种分类方法，它的核心思想是“分类与判断”，即根据已知类别的样本所提供的信息，总结出分类的规律性，并建立好判别公式和判别准则，在此基础上，新的样本点将按照此准则判断其所属类型。

例如，根据一年甚至更长时间的每天的湿度差及压差，我们可以建立一个用于判别是否会下雨的模型，当我们获取到某一天（建立模型以外的数据）的湿度差及压差后，使用已建立好的模型，就可以得出这一天是否会下雨的判断。

根据判别的组数来区分，判别分析可以分为两组判别和多组判别。

接下来，我们将学习三种常见的判别分析方法，分别是：•距离判别•Bayes判别•Fisher判别一、距离判别基本理论假设存在两个总体和，另有为一个维的样本值，计算得到该样本到两个总体的距离和,如果大于，则认为样本属于总体，反之样本则属于总体；若等于，则该样本待判。

这就是距离判别法的基本思想。

在距离判别法中，最核心的问题在于距离的计算，一般情况下我们最常用的是欧式距离，但由于该方法在计算多个总体之间的距离时并不考虑方差的影响，而马氏距离不受指标量纲及指标间相关性的影响，弥补了欧式距离在这方面的缺点，其计算公式如下：，为总体之间的协方差矩阵二、距离判别的R实现（训练样本）首先我们导入数据# 读取SAS数据> library(sas7bdat)> data1 <- read.sas7bdat('disl01.sas7bdat')# 截取所需列数据，用于计算马氏距离> testdata <- data1[2:5]> head(testdata,3)X1 X2 X3 X41 -0.45 -0.41 1.09 0.452 -0.56 -0.31 1.51 0.163 0.06 0.02 1.01 0.40# 计算列均值> colM <- colMeans(testdata)> colMX1 X2 X3 X4 0.096304348 -0.006956522 2.033478261 0.431739130 # 计算矩阵的协方差> cov_test <- cov(testdata)> cov_testX1 X2 X3 X4 X1 0.068183816 0.027767053 0.14996870 -0.002566763 X2 0.027767053 0.015363865 0.05878251 0.001252367X3 0.149968696 0.058782512 1.01309874 0.028607150X4 -0.002566763 0.001252367 0.02860715 0.033912464# 样本的马氏距离计算> distance <- mahalanobis(testdata,colM,cov_test)> head(distance,5)[1] 12.726465 11.224681 1.692702 1.347885 2.369820这样，我们得到了距离判别中最关键的马氏距离值，在此基础上就可以进行进一步的判别分析了。

统计分析及R语言建模(判别分析)

（1.5）
这里称W (X) 为两总体距离判别的判别函数，由于它是 X 的线性
函数，故又称为线性判别函数， α 称为判别系数。
在实际应用中，总体的均值和协方差矩阵一般是未知的，可由样
本均值和样本协方差矩阵分别进行估计。设
X(1) 1
,
,
X(1) n1
来自总
体
G1
的样本，
X(2) 1
,
,
X(2) n2
是来自总体
值个分总别体是。1和 2，对于一个新的样品X，要判断它来自哪一般的想法是计算新样品X到两个总体的马氏距离D2（X，
G1）和D2（X，G2），并按照如下的判别规则进行判断
这GXX2个的判距GG别离12,,规之则差如如的，果果等如价果描其DD述22值((XX为为,,G：G正11求))，新XDD属样22(于(品XXG,X,GG2到；22))G否1的则距X（属离1于与.3G）到1。
所谓判别分析法就是在已知分类的条件下，一旦遇到新的样品，可以利用此法选定判别标准，以判定将该新样品放置于哪个类中。
判别分析的理论基础是根据观测到的某些指标的数据，对所研究的对象建立判别函数，并进行分析的一种多变量分析方法。
判断分析按判别的总体数来区分，有两个总体判别分析和多总体判别分析；
按区分不同总体所用的数学模型来分，有线性判别和非线性判别；
按判别时所处理变量方法不同，有逐步判别和序贯判别等。
判别分析可以从不同角度提出问题，因此有不同的判别准则，如马氏距离最小准则、Fisher准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等，按判别准则的不同又提出多种判别方法。
我们考虑
D2 (X, G1) D2 (X, G2 )

R语言实验报告

R语言实验报告一、试验目的R是用于统计分析、绘图的语言和操作环境。

R是属于GNU系统的一个自由、免费、源代码开放的软件，它是一个用于统计计算和统计制图的优秀工具。

本次试验要求掌握了解R语言的各项功能和函数，能够通过完成试验内容对R语言有一定的了解，会运用软件对数据进行分析。

二、试验环境Windows系统，RGui（32-bit）三、试验内容模拟产生电商专业学生名单(学号区分)，记录高数、英语、网站开发三科成绩，然后进行统计分析。

假设有的100名学生，起始学号为210222001，各科成绩取整，高数成绩为均匀分布随机数，都在75分以上。

英语成绩为正态分布，平均成绩80，标准差为7。

网站开发成绩为正态分布，平均成绩83，标准差为18。

把正态分布中超过100分的成绩变成100分。

1把上述信息组合成数据框，并写到文本文件中;2计算各种指标:平均分，每个人的总分，最高分，最低分，（使用apply函数）3求总分最高的同学的学号4绘各科成绩直方图、散点图、柱状图丶饼图丶箱尾图（要求指定颜色和缺口）5画星相图，解释其含义6画脸谱图，解释其含义，7画茎叶图、qq图四、试验实现（一）按要求随机生成学号，和对于的高数、英语、网站开发三科成绩。

A、生成学号B、生成高数成绩高数成绩要求：高数成绩为均匀分布随机数，都在75分以上均匀分布函数：runif(n,min=0,max=1)其中，n为产生随机值个数（长度），min为最小值，max为最大值。

C、生成英语成绩英语成绩要求：正态分布，平均成绩80，标准差为7正态分布函数：rnorm(n,mean=0,sd=1)其中，n为产生随机值个数（长度），mean是平均数，sd是标准差。

D、生成网站开发成绩网站开发成绩要求：网站开发成绩为正态分布，平均成绩83，标准差为18。

其中大于100的都记为100。

（二）把上述信息组合成数据框，并写到文本文件中;计算各种指标:平均分，每个人的总分，最高分，最低分，（使用apply函数）A、生成文本文件B、打开数据框C、在数据框中命名变量D、计算各种指标:平均分，每个人的总分，最高分，最低分平均分（x4）：总分(x5)：最低分(x6)：最高分(x7)：（三）将生成成绩写入文本文件中（四）求总分最高的同学的学号（五）绘各科成绩直方图、散点图、柱状图丶饼图丶箱尾图（要求指定颜色和缺口）直方图散点图柱状图饼图箱尾图（要求指定颜色和缺口）（六）画星相图，解释其含义（七）画脸谱图，解释其含义（八）画茎叶图（九）qq图五、试验总结这次试验是我第一次接触R 语言，刚开始遇到了很多困难，对于R语言一窍不通，后来经过老师的悉心指导，以及自己积极的去查找资料，对R语言有了进一步的了解。

武汉理工大学R语言实验报告

第二部分：实验过程记录（可加页）（包括实验原始数据记录，实验现象
记录，实验过程发现的问题等）
原始数据（E：/fire.txt）：
xy
3.4 26.2
1.8 17.8
4.6 31.3
2.3 23.1
3.1 27.5
5.5 36
0.7 14.1
3 22.3
2.6 19.6
4.3 31.3
2.1 24
1.1 17.3
6.1 43.2
4.8 36.4
3.8 26.1
打开 R 软件后依次按一下程序输入函数命令进行回归分析
1.数据准备
fire <- read.table('E:/fire.txt', head = T)
#读取数据
2.回归分析
plot(fire$y ~ fire$x)
#散点图：
fire.reg <- lm(fire$y ~ fire$x, data = fire)
summary(fire.reg)
#回归分析表：
#回归拟合
anova(fire.reg)
#方差分析表
abline(fire.reg, col = 2, lty = 2)
#拟合直线
3.残差分析 fire.res <- residuals(fire.reg) #残差 fire.sre <- rstandard(fire.reg) #学生化残差 plot(fire.sre) abline(h = 0) text(11, fire.sre[11], label = 11, adj = (-0.3), col = 2) #标注点
2. 一旦我们将时间序列读入 R，下一步通常是用这些数据绘制时间序列图，我们可以使用 R 中的 plot.ts()函数。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

R语言判别分析实验报告
班级：应数1201
学号：
姓名：麦琼辉
时间：2014年11月28号
1 实验目的及要求
1)了解判别分析的目的和意义；
2)熟悉R语言中有关判别分析的算法基础。

2 实验设备（环境）及要求
个人计算机一台，装有R语言以及RStudio并且带有MASS包。

3 实验内容
企业财务状况的判别分析
4 实验主要步骤
1)数据管理：实验对21个破产的企业收集它们在前两年的财务数据，对25个
财务良好的企业也收集同一时期的数据。

数据涉及四个变量：CF_TD（现金/总债务）；NI_TA（净收入/总资产）；CA_CL（流动资产/流动债务）；CA_NS （流动资产/净销售额），一个分组变量：企业现状（1：非破产企业，2：破产企业）。

2)调入数据：对数据复制，然后在RStudio编辑器中执行如下命令。

case5=read.table(‘clipboard’,head=T)
head(case5)
3)Fisher判别效果（等方差，线性判别lda）：采用Bayes方式，即先验概率
为样本例数，相关的RStudio程序命令如下所示。

library(MASS)
ld=lda(G~.,data=case5);ld #线性判别
ZId=predict(ld)
addmargins(table(case5$G,ZId$class))
4)Fisher判别效果（异方差，非线性判别--二次判别qda）：再次采用Bayes
方式，相关的RStudio程序命令如下所示。

library(MASS)
qd=qda(G~.,data=case5);qd #二次判别
Zqd=predict(qd)
addmargins(table(case5$G ,Zqd$class))
5 实验结果
表1 线性判别lda 效果
原分类新分类 1 2 合计
1 24 1 25
2 3 18 21
合计 27 19 46
符合率 91.30% 由表1和表2
可知，qda （二次判别---非线性判
别）的效果比lda （一次判别）要好。

6 实验小结通过本次实验了解了判别分析的目的和意义，并熟悉R 语
言中有关判别分析的算法基础。

表2 二次判别qda 效果原分类新分类 1 2 合计
1 24 1 25
2 2 19 21
合计 26 20 46
符合率 93.50%。