统计学R语言实验

合集下载

RStudioR语言与统计分析实验报告

RStudioR语言与统计分析实验报告

RStudioR语言与统计分析实验报告1. 实验目的本实验旨在介绍RStudio软件和R语言在统计分析中的应用。

通过本实验,可以了解RStudio的基本功能和操作,掌握R语言的基本语法和常用函数,并在实际数据分析中应用所学知识。

2. 实验环境与工具本实验使用RStudio软件进行实验操作。

RStudio是一个集成开发环境(IDE),专门用于R语言编程和统计分析。

它提供了代码编辑器、调试器、数据可视化工具等一系列功能,便于用户进行数据处理和分析。

3. 实验步骤本实验分为以下几个步骤:3.1 安装R和RStudio在开始实验之前,需要先安装R语言和RStudio软件。

R语言是一种统计分析和数据挖掘的编程语言,而RStudio是R语言的集成开发环境。

3.2 RStudio界面介绍在打开RStudio后,可以看到主要分为四个区域:代码编辑器、控制台、环境和帮助。

代码编辑器用于编写R语言代码,控制台用于执行和查看代码运行结果,环境用于查看和管理数据对象,帮助用于查阅R语言文档和函数说明。

3.3 R语言基础研究R语言的基本语法和常用函数是使用RStudio进行统计分析的基础。

实验中将介绍R语言的数据类型、赋值操作、条件语句、循环语句等基本概念,并演示常用函数的使用方法。

3.4 实际数据分析应用通过实际数据分析案例,将R语言和RStudio运用到实际问题中。

根据给定的数据,使用R语言进行数据处理、探索性分析和统计模型建立,并通过可视化工具展示分析结果。

4. 实验总结通过完成本实验,我们了解了RStudio软件和R语言在统计分析中的应用。

掌握了RStudio的基本功能和操作,熟悉了R语言的基本语法和常用函数。

通过实际数据分析案例的应用,提高了数据处理和统计分析能力。

5. 参考资料。

如何用R语言进行统计分析

如何用R语言进行统计分析

如何用R语言进行统计分析R语言是一种流行的统计编程语言,广泛应用于数据分析和统计建模。

它具有强大的数据处理和可视化功能,使得统计分析变得更加高效和准确。

本文将介绍如何使用R语言进行统计分析,包括数据导入与清洗、描述性统计分析、统计推断和模型构建等方面。

一、数据导入与清洗在进行统计分析之前,首先需要将数据导入R语言的工作环境中,并进行数据清洗以保证数据的质量和可靠性。

R语言提供了多种导入数据的函数,可以根据数据的格式选择适合的导入方式。

常见的数据格式包括CSV、Excel、SPSS等,可以使用read.csv、read_excel、read.spss等函数进行导入。

在导入数据后,需要对数据进行清洗,包括处理缺失值、异常值和重复值等。

可以使用is.na、complete.cases、outliers等函数进行缺失值、完整观测和异常值的判断和处理,使用duplicated函数判断和处理重复值。

二、描述性统计分析描述性统计分析是对数据进行概括和总结的过程,旨在提供对数据集的基本了解。

常见的描述性统计分析方法包括计数、求和、均值、中位数、众数、标准差、方差、分位数、频数统计、交叉表和直方图等。

R语言中,可以使用summary、mean、median、sd、var、quantile、table、hist等函数进行常见的描述性统计分析。

这些函数可以对整个数据集或者指定的变量进行统计分析,并输出结果或者绘制图形。

三、统计推断统计推断是根据样本数据对总体特征进行估计和推断的过程。

常见的统计推断方法包括参数估计、假设检验和置信区间等。

在R语言中,可以使用t.test、chisq.test、cor.test等函数进行常见的假设检验。

这些函数可以根据数据类型和问题需求选择适当的统计方法,并输出检验结果。

四、模型构建在进行统计分析时,经常需要构建数学模型以描述变量之间的关系。

R语言提供了多种模型构建的函数和包,包括线性回归、逻辑回归、时间序列模型、聚类分析和因子分析等。

数据统计与分析实验-基于R语言的数据统计综合

数据统计与分析实验-基于R语言的数据统计综合

实验四基于R语言的数据统计综合实验一、实验目的1. 综合运用R语言,实现数据的收集、处理和分析。

2. 掌握R语言绘图方法。

二、实验内容1.已知15位学生的体重(kg):76.0, 65.0, 48.4, 67.9, 63.2, 63.2, 59.7, 64.5,67.6, 65, 58, 70, 57.9, 51, 73。

(共33分,得分)(1)求学生的平均体重。

答:(2)求学生体重的方差和标准差。

答:(3)将学生的体重从小到大排序。

答:(4)求学生体重的中位数。

答:(5)求学生体重的分位数,分位点分别是0, 0.25, 0.5, 0.75和1。

答:(6)画出茎叶图。

答:(7)判断学生体重是否服从正态分布。

答:Nμσ,其中μ和σ2均未知,2.某种元件的寿命X(小时),服从正态分布,()2,16只元件的寿命如下:(共18分,得分)159,280,101,212,224,379,179,264,222,362,168,250,149,260,485,170。

问是否有理由认为元件的平均寿命大于190小时(显著性水平α=0.05)。

答:在0.05显著性水平下,判断元件的平均寿命是否大于190小时。

时。

由于是对总体均值进行假设检验,且总体方差未知,故选择为统计量。

3.随机抽取某大学16名在校大学生,了解到他们每月的生活费平均为800元,标准差S为300元,假定该大学学生的每月平均生活费服从正态分布N(μ,σ2),试以95%的置信度估计该大学学生的月平均生活费及其标准差的置信区间。

(共34分,得分)答:在置信水平0.95下,月平均生活费μ的置信区间。

对均值进行区间估计,但总体方差未知,故选择作为统计量。

答:在置信水平0.95下,月生活费标准差σ的置信区间。

对总体标准差进行假设检验,选择作为统计量[221.6115, 464.3074]4.假设某国的货币供给量y与国民收入x的历史数据如表1所示。

(共15分,得分)(1)作出散点图,判断线性关系。

统计学R语言实验5

统计学R语言实验5

实验5 R绘图(二)一、实验目的:1.熟练掌握描述性统计分析中常用的统计量;2.掌握R语言的高水平作图命令;3.掌握R语言的低水平作图命令;4.掌握多元数据的三个数据特征:均值向量、协方差矩阵、相关系数矩阵。

二、实验内容:练习:要求:①完成练习并粘贴运行截图到文档相应位置(截图方法见下),并将所有自己输入文字的字体颜色设为红色(包括后面的思考及小结),②回答思考题,③简要书写实验小结。

④修改本文档名为“本人完整学号姓名1”,其中1表示第1次实验,以后更改为2,3,...。

如文件名为“09张立1”,表示学号为09的张立同学的第1次实验,注意文件名中没有空格及任何其它字符。

最后连同数据文件、源程序文件等(如果有的话,本次实验没有),一起压缩打包发给课代表,压缩包的文件名同上。

截图方法:法1:调整需要截图的窗口至合适的大小,并使该窗口为当前激活窗口(即该窗口在屏幕最前方),按住键盘Alt键(空格键两侧各有一个)不放,再按键盘右上角的截图键(通常印有“印屏幕”或“Pr Scrn”等字符),即完成截图。

再粘贴到word文档的相应位置即可。

法2:利用QQ输入法的截屏工具。

点击QQ输入法工具条最右边的“扳手”图标,选择其中的“截屏”工具。

)1.自行完成教材P130页开始的3.3-3.4节中的例题。

2.(习题3.5)小白鼠在接种了3种不同菌型的伤寒杆菌后的存活天数如下表所示,试绘出数据的箱线图(采用两种方法,一种是plot语句,另一种是boxplot语句)来判断小白鼠被注射3种菌型后的平均存活天数有无显著性差异?白鼠试验数据菌型存活天数1 2 4 3 2 4 7 7 2 2 5 42 5 6 8 5 10 7 12 12 6 63 7 11 6 6 7 9 5 5 10 6 3 10因此,这里考虑用箱线图中的中位数来进行比较。

解:源代码:y<-c(2,4,3,2,4,7,7,2,2,5,4,5,6,8,5,10,7,12,12,6,6,7,11,6,6,7,9,5,5,10,6,3,10)f<-factor(c(rep(1,11),rep(2,10),rep(3,12)))plot(f,y)A<-c(2,4,3,2,4,7,7,2,2,5,4)B<-c(5,6,8,5,10,7,12,12,6,6)C<-c(7,11,6,6,7,9,5,5,10,6,3,10)boxplot(A,B,C)运行截图:结论:从箱线图中可以看到,菌型2和3的平均存活天数无显著差异,但是与菌型1的有显著差异3.(习题3.6)绘出习题3.16关于3项指标的离散图,从图中分析例3.16的结论的合理性。

R语言数据可视化与统计实践

R语言数据可视化与统计实践

R语言数据可视化与统计实践R语言是一种广泛使用于数据分析和统计建模的编程语言。

它具有丰富的数据可视化和统计功能,能够帮助数据分析师和统计学家更好地理解和展现数据。

本文将介绍R语言的数据可视化和统计实践,以及如何使用R语言进行实际的数据分析和建模。

第一章:R语言基础知识和环境设置在开始学习R语言之前,需要了解R语言的基础知识和环境设置。

这包括安装R语言和RStudio,了解R语言的数据结构、变量和函数等基本概念。

同时,我们还可以通过安装和加载相关的包来扩展R语言的功能,使其更适用于数据可视化和统计分析的需求。

第二章:数据可视化基础数据可视化是将数据通过图表、图形和地图等形式直观地展现出来,以便更好地理解和发现数据中的模式和趋势。

在R语言中,我们可以使用ggplot2包来创建各种各样的图表和图形。

我们将学习如何使用ggplot2来创建散点图、直方图、箱线图和折线图等常见的图表类型,并学习如何添加标题、标签和注释等元素来增强图表的可读性和美观性。

第三章:数据预处理和清洗在进行数据可视化和统计分析之前,通常需要对原始数据进行预处理和清洗。

这包括数据的导入和导出、缺失值的处理和异常值的识别等操作。

R语言提供了一系列强大的函数和包,使得数据预处理和清洗变得简单和高效。

第四章:基本统计分析统计分析是通过对数据的描述和推断来揭示数据背后的规律和关系的方法。

在R语言中,我们可以使用各种统计方法和模型来进行基本的统计分析,如描述性统计、假设检验、方差分析和线性回归等。

我们将学习如何使用R语言进行这些统计分析,并学习如何解释和呈现统计分析的结果。

第五章:高级数据可视化除了基本的图表和图形外,R语言还提供了各种高级数据可视化技术,如热力图、树状图和网络图等。

这些高级数据可视化技术能够更好地展现复杂数据之间的关系和相互作用。

我们将学习如何使用相应的R包来创建和定制这些高级数据可视化图形,以及如何使用交互式可视化技术来探索和解释数据。

武汉理工大学R语言实验报告

武汉理工大学R语言实验报告

第二部分:实验过程记录(可加页)(包括实验原始数据记录,实验现象
记录,实验过程发现的问题等)
原始数据(E:/fire.txt):
xy
3.4 26.2
1.8 17.8
4.6 31.3
2.3 23.1
3.1 27.5
5.5 36
0.7 14.1
3 22.3
2.6 19.6
4.3 31.3
2.1 24
1.1 17.3
6.1 43.2
4.8 36.4
3.8 26.1
打开 R 软件后依次按一下程序输入函数命令进行回归分析
1.数据准备
fire <- read.table('E:/fire.txt', head = T)
#读取数据
2.回归分析
plot(fire$y ~ fire$x)
#散点图:
fire.reg <- lm(fire$y ~ fire$x, data = fire)
summary(fire.reg)
#回归分析表:
#回归拟合
anova(fire.reg)
#方差分析表
abline(fire.reg, col = 2, lty = 2)
#拟合直线
3.残差分析 fire.res <- residuals(fire.reg) #残差 fire.sre <- rstandard(fire.reg) #学生化残差 plot(fire.sre) abline(h = 0) text(11, fire.sre[11], label = 11, adj = (-0.3), col = 2) #标注点
2. 一旦我们将时间序列读入 R,下一步通常是用这些数据绘制时间序列图,我 们可以使用 R 中的 plot.ts()函数。

数据统计与分析实验-基于R语言的线性相关分析和

实验三 “基于R 语言的线性相关分析和一元线性回归模型”实验一、实验目的1. 掌握R 语言进行线性相关分析的方法。

2. 掌握R 语言建立一元线性回归模型的方法。

二、实验原理1. 线性相关分析线性相关分析是用相关系数来表示两个变量间相互的线性关系,并判断其密切程度的统计方法。

Pearson 相关系数用来反映两个变量的线性相关关系,其定义公式是:s l x x y y r --===Pearson 相关系数的取值范围是[-1, 1],当-1<r<0时,表示具有负线性相关,越接近-1,负相关性越强。

0<r<1,表示具有正线性相关,越接近1,正相关性越强。

r=-1表示完全负线性相关,r=1表示具有完全正线性相关,r=0表示两个变量不具有线性相关性。

相关系数的显著性可用t 检验来进行。

2. 一元线性回归模型给定一组数据点(x 1, y 1)、(x 2, y 2)、...、(x n , y n ),如果通过散点图可以观察出变量间大致存在线性函数关系,则可以建立如下模型:()20,Y a bX N εεσ=++⎧⎪⎨⎪⎩服从分布其中a,b 称为一元线性回归的回归系数;ε表示回归值与测量值之间的误差。

已知(x 1, y 1),(x 2 ,y 2),...,(x n , y n ),代入回归模型得到:()()2211min ,n ni i i i i Q a b y a bx ε====-+⎡⎤⎣⎦∑∑利用偏导数,可得()()()()11,20,20ni i i ni i i i Q a b y a bx a Q a b x y a bx b ==∂⎧=--+=⎡⎤⎪⎣⎦∂⎪⎨∂⎪=--+=⎡⎤⎣⎦⎪∂⎩∑∑ 即:11111221111ˆˆ1ˆ1n n i i i i n nni i i i i i i n n i i i i a y b x n n x y x y n b x x n =======⎧=-⎪⎪⎪-⎨⎪=⎪⎛⎫-⎪ ⎪⎝⎭⎩∑∑∑∑∑∑∑ 三、实验内容1. 线性相关分析(共65分,得X 分)教材152页,习题1(1)、习题1(2),习题2(1)、习题2(2)、习题2(3)、习题2(4)。

R语言实验报告.

一、试验目的R是用于统计分析、绘图的语言和操作环境。

R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。

本次试验要求掌握了解R语言的各项功能和函数,能够通过完成试验内容对R语言有一定的了解,会运用软件对数据进行分析。

二、试验环境Windows系统,RGui(32-bit)三、试验内容模拟产生电商专业学生名单(学号区分),记录高数、英语、网站开发三科成绩,然后进行统计分析。

假设有的100 名学生,起始学号为210222001,各科成绩取整,高数成绩为均匀分布随机数,都在75分以上。

英语成绩为正态分布,平均成绩80,标准差为7。

网站开发成绩为正态分布,平均成绩83,标准差为18。

把正态分布中超过100分的成绩变成100分。

1 把上述信息组合成数据框,并写到文本文件中;2计算各种指标:平均分,每个人的总分,最高分,最低分,(使用apply 函数)3求总分最高的同学的学号4绘各科成绩直方图、散点图、柱状图丶饼图丶箱尾图(要求指定颜色和缺口)5画星相图,解释其含义6画脸谱图,解释其含义,7画茎叶图、qq图四、试验实现(一)按要求随机生成学号,和对于的高数、英语、网站开发三科成绩。

A、生成学号B、生成高数成绩高数成绩要求:高数成绩为均匀分布随机数,都在75分以上均匀分布函数:runif(n,min=0,max=1)其中,n 为产生随机值个数(长度),min为最小值,max为最大值。

C、生成英语成绩英语成绩要求:正态分布,平均成绩80,标准差为7正态分布函数:rnorm(n, mean = 0, sd = 1)其中,n 为产生随机值个数(长度),mean 是平均数,sd 是标准差。

D、生成网站开发成绩网站开发成绩要求:网站开发成绩为正态分布,平均成绩83,标准差为18。

其中大于100的都记为100。

(二)把上述信息组合成数据框,并写到文本文件中; 计算各种指标:平均分,每个人的总分,最高分,最低分,(使用apply 函数)A、生成文本文件B、打开数据框C、在数据框中命名变量D、计算各种指标:平均分,每个人的总分,最高分,最低分平均分(x4):总分(x5):最低分(x6):最高分(x7):(三)将生成成绩写入文本文件中(四)求总分最高的同学的学号(五)绘各科成绩直方图、散点图、柱状图丶饼图丶箱尾图(要求指定颜色和缺口)直方图散点图柱状图饼图箱尾图(要求指定颜色和缺口)(六)画星相图,解释其含义(七)画脸谱图,解释其含义(八)画茎叶图(九)qq图五、试验总结这次试验是我第一次接触R语言,刚开始遇到了很多困难,对于R语言一窍不通,后来经过老师的悉心指导,以及自己积极的去查找资料,对R语言有了进一步的了解。

R语言在统计学中的应用与实践

R语言在统计学中的应用与实践章节一:R语言的介绍R语言是一种用于统计分析和作图的编程语言,它具有开源、易学易用以及丰富的统计分析功能等特点。

R语言具备丰富的数据处理和统计分析功能,既可以处理大规模数据集,也可以应用于小型实验数据的分析。

此外,R语言还提供了可视化功能,能够帮助统计学家更好地理解数据。

章节二:数据获取和导入在统计学中,数据的获取和导入是非常关键的一步。

R语言提供了多种方式来获取和导入数据,比如直接从文件读取数据、通过API访问在线数据源、从数据库中导入数据等等。

通过R语言的强大功能,统计学家可以轻松地获取所需的数据,为接下来的分析和建模做好准备。

章节三:数据预处理在进行数据分析之前,通常需要对数据进行预处理。

数据预处理包括数据清洗、缺失值处理、异常值处理、标准化、变量转换等步骤。

R语言提供了丰富的数据处理函数和包,能够帮助统计学家快速高效地进行数据预处理。

例如,通过使用dplyr包可以进行数据清洗和重塑,使用tidyr包可以处理缺失值,使用outliers包可以检测和处理异常值等。

章节四:描述性统计分析描述性统计分析是统计学中最基本的分析方法之一。

它通过计算、绘图等方式来揭示数据的基本特征,包括中心趋势、离散程度、分布形态等。

R语言提供了丰富的函数和包,可以用于计算和可视化各种描述性统计指标。

例如,通过使用summary函数可以计算数据的基本统计信息,使用ggplot2包可以绘制直方图、箱线图、散点图等。

章节五:统计推断统计推断是统计学中的重要内容,它通过对样本数据的分析和计算来对总体进行推断。

R语言提供了多种方法和函数来进行统计推断,包括假设检验、置信区间估计、方差分析等。

例如,通过使用t.test函数可以进行单样本或双样本的假设检验,使用confint函数可以计算置信区间,使用aov函数可以进行方差分析等。

章节六:回归分析回归分析是统计学中常用的分析方法,用于研究自变量与因变量之间的关系。

r语言实验报告

r语言实验报告R语言实验报告引言R语言是一种广泛应用于数据分析和统计建模的开源编程语言,具有丰富的包和函数库,适用于各种数据处理和可视化任务。

本实验旨在探讨R语言在数据处理和可视化方面的应用,通过实际案例展示其强大的功能和灵活性。

数据导入与处理我们需要导入数据集,并进行初步的处理。

在R语言中,可以使用read.csv()函数导入csv格式的数据文件,然后通过head()函数查看数据的前几行,以了解数据结构和内容。

接下来,可以使用subset()函数筛选出需要的数据列,并使用na.omit()函数删除缺失值,确保数据的完整性和准确性。

数据可视化数据可视化是数据分析的重要环节,可以帮助我们更直观地理解数据的分布和关系。

在R语言中,可以使用ggplot2包来绘制各种类型的图表,如散点图、折线图和直方图等。

通过设置不同的参数和颜色,可以定制化图表的样式,使其更具有美感和可读性。

统计分析除了数据可视化,R语言还提供了丰富的统计分析函数,可以帮助我们进行各种统计推断和建模分析。

例如,可以使用lm()函数进行线性回归分析,通过summary()函数查看回归模型的拟合效果和显著性检验结果。

此外,还可以使用t.test()函数进行假设检验,判断样本均值之间是否存在显著差异。

结果解释与总结我们需要对分析结果进行解释和总结。

在解释结果时,应该清晰地说明分析方法和推断过程,避免歧义和误导。

在总结部分,可以简要概括分析的主要发现和结论,指出数据分析对问题的解决和决策的重要性和价值。

结论通过本实验,我们深入探讨了R语言在数据处理和可视化方面的应用,展示了其强大的功能和灵活性。

R语言不仅可以帮助我们高效地处理和分析数据,还可以帮助我们更好地理解数据的特征和规律。

希望本实验可以帮助读者更好地掌握R语言的应用技巧,提升数据分析和统计建模的能力。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

实验5 R绘图(二)
一、实验目的:
1.熟练掌握描述性统计分析中常用的统计量;
2.掌握R语言的高水平作图命令;
3.掌握R语言的低水平作图命令;
4.掌握多元数据的三个数据特征:均值向量、协方差矩阵、相关系数矩阵。

二、实验容:
练习:
要求:①完成练习并粘贴运行截图到文档相应位置(截图方法见下),并将所有自己输入文字的字体颜色设为红色(包括后面的思考及小结),②回答思考题,③简要书写实验小结。

④修改本文档名为“本人完整学号1”,其中1表示第1次实验,以后更改为2,3,...。

如文件名为“1305543109立1”,表示学号为1305543109的立同学的第1次实验,注意文件名中没有空格及任何其它字符。

最后连同数据文件、源程序文件等(如果有的话,本次实验没有),一起压缩打包发给课代表,压缩包的文件名同上。

截图方法:
法1:调整需要截图的窗口至合适的大小,并使该窗口为当前激活窗口(即该窗口在屏幕最前方),按住键盘Alt键(空格键两侧各有一个)不放,再按键盘右上角的截图键(通常印有“印屏幕”或“Pr Scrn”等字符),即完成截图。

再粘贴到word文档的相应位置即可。

法2:利用QQ输入法的截屏工具。

点击QQ输入法工具条最右边的“扳手”图标,选择其中的“截屏”工具。


1.自行完成教材P130页开始的3.3-3.4节中的例题。

2.(习题
3.5)小白鼠在接种了3种不同菌型的伤寒杆菌后的存活天数如下表所示,
试绘出数据的箱线图(采用两种方法,一种是plot语句,另一种是boxplot语句)来判断小白鼠被注射3种菌型后的平均存活天数有无显著性差异?
白鼠试验数据
菌型存活天数
1 2 4 3 2 4 7 7 2 2 5 4
2 5 6 8 5 10 7 12 12 6 6
3 7 11 6 6 7 9 5 5 10 6 3 10
因此,这里考虑用箱线图中的中位数来进行比较。

解:源代码:
y<-c(2,4,3,2,4,7,7,2,2,5,4,
5,6,8,5,10,7,12,12,6,6,
7,11,6,6,7,9,5,5,10,6,3,10)
f<-factor(c(rep(1,11),rep(2,10),rep(3,12)))
plot(f,y)
A<-c(2,4,3,2,4,7,7,2,2,5,4)
B<-c(5,6,8,5,10,7,12,12,6,6)
C<-c(7,11,6,6,7,9,5,5,10,6,3,10)
boxplot(A,B,C)
运行截图:
结论:
从箱线图中可以看到,菌型2和3的平均存活天数无显著差异,但是与菌型1的有显著差异
3.(习题3.6)绘出习题3.16关于3项指标的离散图,从图中分析例3.16的结论的
合理性。

序号硬度X1 变形X2 弹性X3
1 65 45 27.6
2 70 45 30.7
3 70 48 31.8
4 69 46 32.6
5 6
6 50 31.0
6 6
7 46 31.3
7 68 47 37.0
8 72 43 33.6
9 66 47 33.1
10 68 48 34.2
注:1.
2. 把上述表格分复制到记事本中即可实现表格转化为文本,再用read.table()函
数存入到数据框中即可,避免输入麻烦。

解:源代码:
> df<-read.table("例3.6_data", header=T)
> df
> pairs(df)
运行截图:
结论:
具有相关关系的两个变量的散点图要么是从左下角到右上角(即正相关关系),要么是从左上角到右下角(即负相关关系)。

但从上图可知所有的图中都没有这样的趋势,故均不相关。

4.(习题3.7)某校测得19名学生的四项指标,性别、年龄、身高(cm)和体重(lb),
具体数据如下表所示。

(1)试绘出体重对于身高的散点图;
(2)绘出不同性别情况下,体重与身高的散点图;(coplot(a~b|c))
(3)绘出不同年龄段的体重与身高的散点图;
(4)绘出不同性别和不同年龄段的体重与身高的散点图。

(coplot(a~b|c+d))
解:源代码:
> ef<-read.table(file.choose(),header=T);ef
> attach(ef)
> plot(体重~身高)
> coplot(体重~身高|性别)
> coplot(体重~身高|年龄)
> coplot(体重~身高|年龄+性别)
运行截图:
5.(习题3.8)画出函数z = x4−2x2y + x2−2xy + 2y2 + 9x/2−4y + 4 在区域−2
≤ x ≤3,−1 ≤ y ≤7上的三维网格曲面和二维等值线,其中x与y各点之间的间隔为0.05,等值线的值分别为0, 1, 2, 3, 4, 5, 10, 15, 20, 30, 40, 50, 60, 80, 100,共15条。

(注:在三维图形中选择合适的角度)
解:源代码:
x<-seq(-2,3,0.05)
y<-seq(-1,7,0.05)
f<-function(x,y) x^4-2*x^2*y+x^2-2*x*y+2*y^2+9*x/2-4*y+4
z<-outer(x,y,f)
contour(x,y,z,levels=c(0, 1, 2, 3, 4, 5, 10, 15, 20, 30, 40, 50, 60, 80, 100),col="black")
> persp(x,y,z,theta=30,phi=30,expand=0.7,col="lightblue")
运行截图:
6.(习题3.9)用Pearson相关检验法检验习题3.7中的身高与体重是否相关。

解:源代码:
cor.test(身高,体重)
运行截图:
结论:
其P值为7.887e-07<0.05,拒绝原假设,认为变量身高与体重相关。

7.(习题3.10)绘出例3.17中48号求职者数据的星图。

(数据见文档最后)
(1)以15项自变量FL,APP,…,SUIT为星图的轴;
(2)以G1,G2,…,G5为星图的轴。

(提示:先)
通过这些星图,能否说明应选哪6名应聘者。

为使星图能够充分反映应聘者的情况,在作图中可适当调整各种参数。

提示:第(2)小题,先利用教材P153页的公式,计算出48个求职者这5个变量的值,公式如下:
G1<-(SC+LC+SMS+DRV+AMB+GSP+POT)/7
G2<-(FL+EXP+SUIT)/3
G3<-(LA+HON+KJ)/3
G4<-AA
G5<-APP
再将G1,…,G5这5个列向量(即48行5列数据)赋值一个新的数据框,再按第(1)小题的方法绘出星图。

解:源代码:
> X<-read.csv("applicant.csv")
> stars(X)
> attach(X)
> X$G1<-(SC+LC+SMS+DRV+AMB+GSP+POT)/7
>X$G2<-(FL+EXP+SUIT)/3
> X$G3<-(LA+HON+KJ)/3
> X$G4<-AA
> X$G5<-APP
>rt<-scale(X[,17:21])
>stars(rt)
运行截图:
思考:
1.R语言的高水平作图函数与低水平作图函数的主要区别是什么?
所谓高水平函数是与低水平作图函数相对应的,即所有的绘图函数均可产生图形,可以有坐标轴,以及图和坐标轴的说明文字。

2.plot()函数除了能画出散点图外,还能画什么图?能画出曲线图吗?
曲线图,箱线图;能
3.多元数据主要有哪三个数据特征指标?
均值向量、协方差矩阵、相关系数矩阵
4.相关检验的原假设是什么?
总体X,Y不相关
5.多元数据的图形表示方法主要有哪几种图?
轮廓图,星图,调和曲线图
三、实验小结(必写,但字数不限)
本次实验,主要是在星图方面有些阻碍,用不同的函数读取的结果会不一样,有时还读不出来,最终还是把数据存入excel中,才能成功。

要学会描述性统计分析中常用的统计量,高水平作图函数与低水平图函数的区别。

附:。

相关文档
最新文档