数据挖掘r语言总结报告

合集下载

RStudioR语言与统计分析实验报告

RStudioR语言与统计分析实验报告

RStudioR语言与统计分析实验报告1. 实验目的本实验旨在介绍RStudio软件和R语言在统计分析中的应用。

通过本实验,可以了解RStudio的基本功能和操作,掌握R语言的基本语法和常用函数,并在实际数据分析中应用所学知识。

2. 实验环境与工具本实验使用RStudio软件进行实验操作。

RStudio是一个集成开发环境(IDE),专门用于R语言编程和统计分析。

它提供了代码编辑器、调试器、数据可视化工具等一系列功能,便于用户进行数据处理和分析。

3. 实验步骤本实验分为以下几个步骤:3.1 安装R和RStudio在开始实验之前,需要先安装R语言和RStudio软件。

R语言是一种统计分析和数据挖掘的编程语言,而RStudio是R语言的集成开发环境。

3.2 RStudio界面介绍在打开RStudio后,可以看到主要分为四个区域:代码编辑器、控制台、环境和帮助。

代码编辑器用于编写R语言代码,控制台用于执行和查看代码运行结果,环境用于查看和管理数据对象,帮助用于查阅R语言文档和函数说明。

3.3 R语言基础研究R语言的基本语法和常用函数是使用RStudio进行统计分析的基础。

实验中将介绍R语言的数据类型、赋值操作、条件语句、循环语句等基本概念,并演示常用函数的使用方法。

3.4 实际数据分析应用通过实际数据分析案例,将R语言和RStudio运用到实际问题中。

根据给定的数据,使用R语言进行数据处理、探索性分析和统计模型建立,并通过可视化工具展示分析结果。

4. 实验总结通过完成本实验,我们了解了RStudio软件和R语言在统计分析中的应用。

掌握了RStudio的基本功能和操作,熟悉了R语言的基本语法和常用函数。

通过实际数据分析案例的应用,提高了数据处理和统计分析能力。

5. 参考资料。

数据挖掘_实习报告

数据挖掘_实习报告

数据挖掘_实习报告数据挖掘实习报告一、实习目的进入大学以来,我一直在学习数据挖掘的相关理论知识,包括统计学、机器学习、数据库管理等。

为了将理论应用于实践,提升自己的专业技能,我选择了在XX公司进行数据挖掘实习。

二、实习内容在实习期间,我主要参与了以下几个项目:1. 用户画像构建:通过对用户历史数据的分析,提取用户的特征和兴趣点,构建用户画像。

这涉及到数据清洗、特征工程、标签制定等环节。

2. 推荐系统开发:基于用户画像,开发推荐算法,为用户提供个性化的商品或服务推荐。

这需要对推荐算法有深入的理解,并熟悉相关工具和平台。

3. 广告投放策略优化:通过数据分析和机器学习算法,优化广告投放策略,提高广告的点击率和转化率。

这涉及到数据处理、模型训练、AB测试等环节。

三、实习过程在实习过程中,我遇到了很多挑战和问题。

其中最大的挑战是如何将理论知识与实际应用相结合,我对数据挖掘的知识有了深入的理解,但在实际应用中,却发现自己对某些概念的理解还不够深入。

为了解决这个问题,我主动向同事请教,并阅读了大量相关文档和资料。

我还积极参加团队讨论和分享会,与其他同事交流经验和看法,不断加深对数据挖掘的理解和应用。

除了技术层面的挑战外,我还面临了时间管理和工作压力的挑战。

由于项目进度紧张和任务繁重,我需要在有限的时间内完成大量的工作和学习任务。

为了应对这些挑战,我制定了详细的工作计划和时间表,并学会合理安排时间和优先级。

我也积极调整自己的心态和情绪,保持积极乐观的态度,以应对工作中的压力和挑战。

四、实习收获通过这次实习,我不仅提升了自己的专业技能和实践能力,还学会了如何将理论知识与实际应用相结合,解决实际问题。

我还培养了自己的团队协作能力和沟通能力,学会了如何与他人合作完成任务。

在未来的学习和工作中,我将更加注重理论与实践的结合,不断提升自己的专业素养和实践能力。

五、总结与展望这次实习是一次非常宝贵的学习和成长经历,通过这次实习,我不仅掌握了数据挖掘的基本理论和技能,还提升了自己的实践能力和团队协作能力。

R语言学习总结

R语言学习总结

R语言学习总结第一篇:R语言学习总结R语言学习总结经过接近一个学期的学习,从对R语言的完全陌生,到现在对其有了一些粗浅的认识,其中经历了遇到困难苦思冥想的艰辛,也有解决问题以后豁然开朗的畅快。

在学习的过程中,以前掌握的数理基础给我带来了不少便利,而认真地态度和踏实的性格也使我获益匪浅。

在这个学期中,我学会了R语言的基本操作和语法,以及针对具体的统计学问题相应的解决方法。

并按时完成老师布置的课后作业,以达到学以致用的目的,也加强了对R语言操作的熟练度。

一、初识R软件R软件是一套完整的数据处理、计算和制图软件系统。

其功能包括:据存储和处理,数组运算,完整连贯的统计分析工具,优秀的统计制图功能已及简便而强大编程语言。

接触R语言以后,我的第一感觉就是方便和强大。

R语言中有非常多的函数和包,我们几乎不用自己去编一些复杂的算法,而往往只需要短短几行代码就能解决很复杂的问题,这给我们的使用带来了极大地方便;于此同时,它又可操纵数据的输入输出,实习分支、循环,使用者可以自定义功能,这就意味着当找不到合适的函数或包来解决所遇的问题时,我们又可以自己编程去实现各种具体功能,这也正是R语言的强大之处。

二、学习心得在学习该书的过程中,我不仅加深了对统计学方法的理解,同时也掌握了R软件的编程方法和基本技巧,了解了各种函数的意义和用法,并能把两者结合起来,解决实际中的统计问题。

1、R语言的基本语法及技巧R语言不仅可以进行基础的数字、字符以及向量的运算,内置了许多与向量运算有关的函数。

而且还提供了十分灵活的访问向量元素和子集的功能。

R语言中经常出现数组,它可以看作是定义了维数(dim属性)的向量。

因此数组同样可以进行各种运算,以及访问数组元素和子集。

二维数组(矩阵)是比较重要和特殊的一类数组,R可以对矩阵进行内积、外积、乘法、求解、奇异值分解及最小二乘拟合等运算,以及进行矩阵的合并、拉直等。

apply()函数可以在对矩阵的一维或若干维进行某种计算,例如apply(A,1,mean)表示对A按行求和。

数据挖掘工具使用心得分享

数据挖掘工具使用心得分享

数据挖掘工具使用心得分享数据挖掘是现代信息时代的关键技术之一,而数据挖掘工具则是数据挖掘实现的重要途径。

数据挖掘工具越来越多,越来越强大,让数据挖掘变得越来越简单,也越来越普及。

在实际的应用中,不同的数据挖掘工具可以拥有不同的优势,这也就需要使用者有所取舍并掌握不同工具的使用技巧。

一、R语言R语言是自由软件,是一种适用于数据分析、统计建模的编程语言和软件环境。

它是许多统计模型的实现者之一,提供了许多的算法和统计方法。

R语言在统计分析和数据可视化方面能够发挥巨大的优势,很多数据科学家认为它在数据挖掘中发挥的作用是不可替代的。

R语言的学习曲线略高,但是只要你掌握好了它的实现方式,你就可以从中获得大量的选项和自由度。

二、PythonPython是另一种流行的用于数据挖掘和机器学习的编程语言,具有简单的语法和清晰的代码风格。

它的强大之处在于可以轻松访问和处理数据,并配备了各种语言库、工具和框架,可以针对各种不同的挖掘和模型训练算法。

Python拥有功能强大的数据分析库,例如NumPy、SciPy和Pandas,这些库可以支持数据的统计分析和处理,因此在数据分析领域中得到了广泛的使用。

三、SQLSQL(Structured Query Language)是一种标准化的数据库语言,几乎所有的数据库都支持SQL,这也就使SQL成为非常重要的数据挖掘工具之一。

通过SQL,可以对数据库进行许多数据运算和操作,例如数据提取、数据分析、数据整合和数据建模等。

SQL具有读取、分析和处理大量信息的能力,而这些信息可以来自不同的来源,例如企业的ERP和CRM系统,这使得它成为进行大规模数据挖掘的理想工具。

四、WEKAWEKA是一个开放源代码的数据挖掘工具,它提供了一系列的数据挖掘算法,例如分类、聚类、关联规则挖掘、数据预处理和可视化。

WEKA不仅能够自动化数据挖掘过程,而且可以支持自定义算法和数据处理流程,帮助让用户快速开发数据挖掘解决方案。

【原创】R语言UCI数据挖掘报告:先验知识对概念获取的影响:实验和计算结果

【原创】R语言UCI数据挖掘报告:先验知识对概念获取的影响:实验和计算结果

先验知识对概念获取的影响:实验和计算结果1.研究背景与目的以前的研究表明,背景知识对概念学习有明显的影响。

在本实验中,背景知识的作用被作为各种偶然的学习任务以及有意的学习任务的函数。

通过比较概念上相关的编码与概念上不相关的共现的编码来研究先验知识的影响。

通过偶然编码观察到的先验知识的精确影响,以及概念相关性,我们发现与有意的学习任务一样具有偶然的影响。

结果表明,许多类型的基于知识的影响不会作为编码策略的函数而变化。

我们讨论了背景知识对概念学习的影响的普遍性,通过决策树模型来分析气球试验的结果,最后证实背景知识对结果是否具有影响。

2.试验假设纯粹的经验发现技术在概念获取期间不利用先验知识。

仅仅依靠基于解释的学习的人类学习模型不能解释这样的事实,即在没有任何领域知识的情况下,受试者能够学习概念。

此外,当前的解释学习方法假定领域理论是完整的、正确的,这一假设不能对人类受试者的现有知识做出(Nisbett k Ross,1978)。

实验还指出当前基于解释的学习方法的不足。

基于解释的学习假设背景理论足够强,以证明为什么特定的结果发生。

相反,似乎并不出现对象的背景知识对于创建这样的证据是有效的。

换句话说,“背景知识似乎能够识别什么因素的情况可能影响膨胀气球的结果。

然而,受试者需要几个例子来确定这些因素中的哪些是相关的,以及这些因素是必要的还是适当的。

3.模型建立和理论背景为了开发学习任务的计算模型,必须理解领域理论是完整和正确的基于解释的学习的假设。

基于解释的学习中的完全,不完全和不正确的领域理论问题(Kajamoney k DeJong,不考虑,我认为决策树理论,是一种特定类型的不完全理论。

在这样的理论中,几个因素的影响是已知的,但领域理论没有指定一个系统的方法来组合这些因素。

此外,不假定域理论识别所有的影响因素。

决策树(decision tree)一般都是自上而下的来生成的。

每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。

R语言ablone数据集数据挖掘预测分析报告

R语言ablone数据集数据挖掘预测分析报告

R语言ablone数据集数据挖掘预测分析报告●介绍●数据集描述●检测异常值并构建清洁数据集●清洁数据分析●结论介绍鲍鱼是铁和泛酸的极佳来源,是澳大利亚,美国和东亚地区的营养食品资源和农业。

100克鲍鱼每日摄取这些营养素的量超过20%。

鲍鱼的经济价值与年龄呈正相关。

因此,准确检测鲍鱼的年龄对于农民和消费者确定其价格非常重要。

然而,目前用来决定年龄的技术是相当昂贵和低效的。

农民通常通过显微镜切割贝壳并计数环以估计鲍鱼的年龄。

这种复杂的方法增加了成本并限制了它的普及。

我们的目标是找出预测戒指的最佳指标,然后找出鲍鱼的年龄。

数据集描述数据集描述在这个项目中,数据集Abalone是从UCI Machine Learning Repository(1995)获得的。

该数据集包含1995年12月由澳大利亚塔斯马尼亚州主要工业和渔业部海洋研究实验室Taroona记录的4177只鲍鱼的物理测量结果。

有9个变量,分别是性别,长度,直径和身高,体重,体重,内脏重量,外壳重量和戒指。

随着年龄等于戒指数量,变量戒指与鲍鱼年龄呈线性相关加1.5。

检测异常值并构建清洁数据集library(ggplot2)library(plyr)library(nnet)library(MASS)library(gridExtra)## Loading required package: gridlibrary(lattice)library(RColorBrewer)library(xtable)Data = read.csv("abalone.csv")# Import Dataprint(str(Data))# Structure of the Data## 'data.frame': 4177 obs. of 9 variables:## $ Sex : Factor w/ 3 levels "F","I","M": 3 3 1 3 2 2 1 1 3 1 ...## $ Length : num 0.455 0.35 0.53 0.44 0.33 0.425 0.53 0.545 0.475 0.55 ...## $ Diameter : num 0.365 0.265 0.42 0.365 0.255 0.3 0.415 0.425 0.37 0.44 ...## $ Height : num 0.095 0.09 0.135 0.125 0.08 0.095 0.15 0.125 0.125 0.15 ...## $ Whole.weight : num 0.514 0.226 0.677 0.516 0.205 ...## $ Shucked.weight: num 0.2245 0.0995 0.2565 0.2155 0.0895 ...## $ Viscera.weight: num 0.101 0.0485 0.1415 0.114 0.0395 ...## $ Shell.weight : num 0.15 0.07 0.21 0.155 0.055 0.12 0.33 0.26 0.165 0.32 ...## $ Rings : int 15 7 9 10 7 8 20 16 9 19 ...## NULL有4种不同的体重衡量标准,即Whole.weight,Shucked.weight,Viscera.weight和Shell.weight。

基于R语言的数据分析和挖掘方法总结——中位数检验

基于R语言的数据分析和挖掘方法总结——中位数检验

基于R语⾔的数据分析和挖掘⽅法总结——中位数检验3.1 单组样本符号秩检验(Wilcoxon signed-rank test)3.1.1 ⽅法简介此处使⽤的统计分析⽅法为美国统计学家Frank Wilcoxon所提出的⾮参数⽅法,称为Wilcoxon符号秩 (signed-rank)检验,当数据中仅有单⼀组样本时,可⽤这种⽅法检验数据的中位数是否⼤于、⼩于或等于某⼀特定数值。

当你的样本数较⼤时(通常样本个数≧30的样本可视为样本数较⼤),建议改以单组样本均值t检验(one-sample t-test)检验总体均值。

注:总体中位数经常和均值⼀样, 因此检验中位数即检验均值。

3.1.2 公式3.1.3 实现范例1. 范例A-2:⽯油定价差异的分析物价不断上涨,各项与民⽣问题有关的物品都会受到关注,⽽每⽇上班需使⽤到交通⼯具使⽤的汽油与柴油也是⼤众⽣活的重要⽀出。

由于⽯油是⼀种同时具备战略考虑与民⽣问题双重属性的特殊物品,因此油价的波动会影响民⽣问题,为了推动国内油价市场的公平性与合理性,降低⾮经济因素的影响,使国内油价能回归市场机制,负责部门于2007年1⽉开始实施浮动油价的机制,经过多次的修订与调整,该计价制度推⾏⾄今。

由于近⼏个⽉来国际油价的波动剧烈,进⽽影响到⼀般百姓最关⼼的汽柴油价格,某研究民⽣议题的机构想了解该国主要两个⽯油公司A⽯油公司及B⽯化公司的浮动油价是否有差异,由北⾄南收集了A公司与B公司在该国9个地区的加油站油价(元/升),如下表所⽰。

问题:在浮动油价制度制定之前,国内的汽油价格为30元/升,研究机构想了解在实施浮动油价制度后,国内的平均油价是否⾼于实施之前,并以A 公司的数据加以⽐较。

问题解析:此问题可讨论A公司的平均油价与制度实施前油价加以⽐较,故讨论"A公司的平均油价是否⼤于30元/升?"。

统计⽅法:此问题中变量为⽯油公司的油价,为单⼀变量(⼀个变量,建议选择单变量分析);想了解A公司的油价,视为⼀组样本且仅有样本量9个,⼩于30笔;可采⽤分析⽅法:单组样本中位数检验(Wilcoxon signed-rank test),检验"A公司的平均油价是否⾼于30元/升?"。

r语言课程个人总结与心得

r语言课程个人总结与心得

:R语言课程个人总结与心得在过去的几个月里,我有幸参加了一门关于R语言的课程,这段学习经历不仅让我深入了解了数据分析和可视化的基本原理,还为我提供了一个强大的工具,使我能够更有效地处理和分析数据。

以下是我在这门课程中的个人总结与心得。

1. 入门与基础知识:一开始,我对R语言并不熟悉,但通过系统的学习,我迅速掌握了基础知识。

课程的前几周主要注重于语言的基本语法、数据结构和基本操作,为我打下了坚实的基础。

学习过程中,我发现R语言的语法清晰简洁,使得代码编写变得更加直观和易读。

2. 数据处理与清洗:课程的重点之一是数据处理和清洗。

通过学习R语言的相关函数和技巧,我学会了如何有效地导入、清理和处理各种类型的数据。

处理缺失值、重复值和异常值的技能,使我在实际工作中更加得心应手。

3. 数据分析与统计:R语言在数据分析和统计方面有着强大的功能,而课程也深入介绍了如何利用R进行常见的统计分析。

从描述性统计到假设检验,我逐渐掌握了如何使用R语言进行数据分析,从而更好地理解数据背后的信息。

4. 数据可视化:数据可视化是R语言的一项强项,通过学习相关的包如ggplot2,我学会了如何创建各种精美、具有信息传达能力的图表。

这不仅提高了我的数据沟通能力,还使我能够更好地向他人展示数据的洞察力。

5. 实际应用与项目实践:除了理论知识,课程还注重实际应用和项目实践。

通过参与真实场景的项目,我深刻理解了如何将所学知识应用到实际问题中,并通过与同学的合作,提高了团队协作的能力。

6. 持续学习与社区参与:R语言是一个不断发展的工具,我学到的知识只是冰山一角。

课程鼓励我们积极参与R语言社区,查阅文档、阅读博客,从其他人的经验中学到更多。

持续学习的态度将是我未来的方向。

总的来说,这门R语言课程让我受益匪浅。

通过系统学习和实际操作,我不仅掌握了R语言的基本技能,还培养了数据分析的思维方式。

这将对我的职业发展和学术研究产生深远的影响。

我深深感谢这门课程给予我的启发与指导,相信R语言将成为我未来数据领域探索的得力助手。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

总结报告课程名称:数据挖掘R语言任课教师:姓名:专业:计算机科学与技术班级:学号:计算机科学与技术学院2018 年 6 月19 日一、数据预处理针对不同分析目标,选择合适的字段,并将字段值处理成适于分析的形式。

必要时还需对原数据集进行统计变换后形成易于分析的形式。

为每条数据添加字段:所属地区。

根据下图中划分的美国四大地区,将每条数据中表示的案件发生地在该字段上划分为东北部、中西部、南部和西部四个值。

首先导入数据:gundata<-read.csv("d:/gun.csv",sep = ",",stringsAsFactors = FALSE,header = TRUE,quote=””)然后将需要的字段取出来,在这里取出了一下几个字段:gundata[,c("incident_id","date","state","city_or_county","n_killed","n_injured"," congressional_district","latitude","longitude","state_house_district","state_sen ate_district")]gd <- subset(gundata,select=c(incident_id,date,state,city_or_county,n_killed, n_injured,congressional_district,latitude,longitude,state_house_district,state_s enate_district))然后根据州字段将所有数据划分为四个地区阿拉巴马州Alabama阿拉斯加州Alaska亚利桑那州Arizona阿肯色州Arkansas加利福尼亚州California科罗拉多州Colorado哥伦比亚特区Columbia康涅狄格州Connecticut特拉华州Delaware佛罗里达州Florida佐治亚州Georgia夏威夷州Hawaii爱达荷州Idaho伊利诺州Illinois印弟安纳州Indiana爱荷华州Iowa堪萨斯州Kansas肯塔基州Kentucky路易斯安那州Louisiana缅因州Maine马里兰州Maryland麻塞诸塞州Massachusetts密歇根州Michigan明尼苏达州Minnesota密西西比州Mississippi密苏里州Missour蒙大拿州Montana内布拉斯加州Nebraska内华达州Nevada新罕布希尔州New Hampshire 新泽西州New Jersey新墨西哥州New Mexico纽约州New York北卡罗来纳州North Carolina 北达科他州North Dakota俄亥俄州Ohio奥克拉荷马州Oklahoma俄勒冈州Oregon宾西法尼亚州Pennsyivania罗德岛州Rhode Island南卡罗来纳州South Carolina南达科他州South Dakota田纳西州Tennessee德克萨斯州Texas犹他州Utah佛蒙特州Vermont弗吉尼亚州Virgina华盛顿州Washington西佛吉尼亚州West Virginia威斯康辛州Wisconsin怀俄明州Wyoming东北部Maine,New Hampshire,Vermont,Massachusetts,Rhode Island,Connecticut,New York,Pennsyivania,New Jersey中西部Wisconsin,Michigan,Illinois,Ohio,Indiana,Missour,North Dakota,South Dakota,Nebraska,Kansas,Minnesota,Iowa南部Delaware,Maryland,District of Columbia,Virgina,West Virginia,North Carolina,SouthCarolina,Georgia,Florida,Kentucky,Tennessee,Mississippi,Alabama,Oklahoma,T exas,Arkansas,Louisiana西部Iowa,Montana,Wyoming,Nevada,Utah,Colorado,NewMexico,Arizona,Alaska,Washington,Oregon,California,Hawaiifor (i in 1:length(gd[,1])){if (gd[i,3]=="Maine"|gd[i,3]=="New Hampshire"|gd[i,3]=="Vermont"|gd[i,3]=="Massachusetts"|gd[i,3]=="Rhode Island"|gd[i,3]=="Connecticut"|gd[i,3]=="NewYork"|gd[i,3]=="Pennsylvania"|gd[i,3]=="New Jersey"){gd[i,9]="东北部"}else if(gd[i,3]=="Wisconsin"|gd[i,3]=="Michigan"|gd[i,3]=="Illinois"|gd[i,3]=="Ohio "|gd[i,3]=="Indiana"|gd[i,3]=="Missouri"|gd[i,3]=="NorthDakota"|gd[i,3]=="SouthDakota"|gd[i,3]=="Nebraska"|gd[i,3]=="Kansas"|gd[i,3]=="Minnesota"|gd[i,3]=="Iowa"){gd[i,9]="中西部"}else if(gd[i,3]=="Delaware"|gd[i,3]=="Maryland"|gd[i,3]=="District of Columbia"|gd[i,3]=="Virginia"|gd[i,3]=="West Virginia"|gd[i,3]=="North Carolina"|gd[i,3]=="SouthCarolina"|gd[i,3]=="Georgia"|gd[i,3]=="Florida"|gd[i,3]=="Kentucky"|gd[i,3]= ="Tennessee"|gd[i,3]=="Mississippi"|gd[i,3]=="Alabama"|gd[i,3]=="Oklahom a"|gd[i,3]=="Texas"|gd[i,3]=="Arkansas"|gd[i,3]=="Louisiana"){gd[i,9]="南部"}elseif(gd[i,3]=="Iowa"|gd[i,3]=="Montana"|gd[i,3]=="Wyoming"|gd[i,3]=="Neva da"|gd[i,3]=="Utah"|gd[i,3]=="Colorado"|gd[i,3]=="NewMexico"|gd[i,3]=="Arizona"|gd[i,3]=="Alaska"|gd[i,3]=="Washington"|gd[i,3] =="Oregon"|gd[i,3]=="California"|gd[i,3]=="Hawaii"){gd[i,9]="西部"}}然后用fix(gd)将第九列的字段修改为part:最后处理完的数据为以下格式:最后将数据存储下来,备用:write.csv(gd,"f://GunData.csv",s = FALSE) .保存的数据格式如下:共有23w多条数据,其中部分数据有字段为空值,将在后续分析中删除。

二、基本统计分析1)统计各州发生枪支案件的总数。

2)统计各地区发生枪支案件的总数。

3)分析各地区枪支案件的分布特征。

4)按年度统计各州发生枪支案件的数目。

5)分析四大地区的经纬度范围2)推断性统计:选择合适的R函数进行如下假设检验,并得出结论。

1)分析死亡人数与受伤人数间是否具有相关性。

2)分析南部地区的案件数和其他地区的案件数是否具有显著差异。

3)分析死亡人数与案件数是否相关;受伤人数与案件数是否相关。

1、统计各州发生枪支案件的总数。

建立一个table,可以显示出各州的案件数然后绘制一个直方图,显示出各个州的案件数就可以直观的看出各个州的案件数量。

2、统计各地区发生枪支案件的总数:绘制一个条形图,可以直观的看出各个地区的案件总数。

首先建立一个table,counts<-table(gd$part),然后利用画图函数,绘制条形图barplot(counts,main="gunvolience",xlab="part",ylab="num",col=c("red","yellow","green","blue"),ylim = c(0,120000))结果如下图:可以看出南部人数最多,10w+,其次是中西部,东北部和西部的数量差不多。

相关文档
最新文档