第五讲-数据描述性分析与绘图
合集下载
描述性统计分析 ppt课件

PPT课件
23
【界面介绍】
⑴ 选 择 菜 单 【Analyze】→【Descriptive Statistics】→ 【Crosstabs】,进入列联表分析界面。
PPT课件
24
【实验案例】
例4-4 调查339名45岁以上吸烟习惯与患肺癌的关系,数 据见4-4-1.sav。试问吸烟者与不吸烟者患肺癌的概率是 否有所不同。
PPT课件
32
【实验案例】
例4-5 已知有2005年各省城乡居民消费水平数据,数据见45-1.sav。试按地区对各省城乡消费水平之比进行分析,并 比较不同地区城乡消费水平是否有较大差异。
PPT课件
33
PPT课件
8
【实验案例】 例4-1 测量20台液晶显示器的重量,数据见4-1-1.sav,对其进行 描述性统计分析。
PPT课件
9
4.2 频数分布表分析
频数分析统计的是每一组中观测点的个数,而不是 考虑其实际取值。
通过频数分析能够了解变量取值的情况,对于把握 数据的分布特征非常有用。当某变量的自然取值是局限 在有限的几个数值中,则频数分析就是统计该变量在各 个取值点的个数分布情况;如果某变量的取值是在某范 围内的离散值,则需要将其取值区域划分为几个取值区 间,频数分析就是统计该变量在各个取值区间观测点个 数的分布情况。
描述性统计分析
【学习提要】
对数据进行统计描述是统计分析中最基本的工作。对于 整理好的数据,通过描述性统计分析,可以挖掘出很多统计 量的特征。SPSS软件中,描述性统计分析功能主要集中在 “Descriptive Statistics”菜单。具体包括5个过程: Frequencies过程、Descriptives过程、Explore过程、 Crosstabs过程和Ratio过程。
第二章 数据的描述性分析 图表展示

例:对学生成绩的分组可以分为0~20分、20~40分、
40~60分、60~80分、80~100组
• 不等距分组 适用于变动很不均匀,且变动幅度大 例:学生成绩分组也可分为0~60(D)、 60~80(C) 80~90(B)、90~100(A) 关键问题:分组数目的确定/组距的确定
3.2.1 数据分组
21
7.0 300 100.0
99
33.0
120
40.0 279
93.0
78
26.0
198
66.0 180
60.0
64
21.3
262
87.3 102
34.0
38
12.7
300
100.0
38
12.7
300 100.0
—
—
—
—
顺序数据的图示—累计频数分布图
400 累 积 300 户 数 200
(户1)00
根据上述资料编制频数分布表,向上向下累计频数,频率 分布表
居民户月消费品 支出额
751~800 801~850 851~900 901~950 951~1000 1001~1050 1051~1100 1101~1150
合计
频数
1 4 12 18 8 4 1 2 50
频率%
2 8 24 36 16 8 2 4 100
(1)表中数据属于顺序数据
(2)
学历 初中 高中或中专 本科 研究生及以上 合计
频数(人) 13 31 27 29 100
(3) 绘制条形图
学历分布
31
27
29
13
初中
高中或中专
本科
研究生及以上
空间分析(56)空间点数据分析精品PPT课件

2.000
Var/Mean 1.111
随机
2 2 2 2 2
Quadrat # 1 2 3 4 5 6 7 8 9 10
2 2 2 2 2
x
Number of Points
Per Quadrat
2 2 2 2 2 2 2 2 2 2 20
(xi -xa )^2 0 0 0 0 0 0 0 0 0 0 0
Variance Mean
Var/Mean
0.000 2.000 0.000
均匀
0
0
0
0
10
10
0
0
0
0
x
Number of
Quadrat Points Per
#
Quadrat (xi -xa )^2
抢 劫 案
Data
城市发展的空间演变模式
星罗棋布的村庄
来源:USGS
Arp 272是两个螺旋星云——NGC 6050 和 IC 1179相撞形成的,这两个星云的螺旋 臂相互扭结在一起。它们是武仙座星群的一部分。武仙座星群是已知的宇宙中最 大的结构:所谓的长城的一部分。Arp 272距离地球大约4.5亿光年。
聚集分布:许多点集中在一个或少数几个区域, 大面积的区域没有或仅有少量点。总体中一个 或多个点的存在影响其它点在同一取样单位中 的出现概率。
点数据的三种基本空间分布模式
随机
均匀
聚集
怎样描述点模式?
一阶效应(First-Order Effects) – 事件间的绝对位置具有决定作用,单位面 积的事件数量在空间上有比较清楚的变化。 如,空间上平均值/密度的变化。
有影响 – 如果样方太大/小,那么 ……?
描述性统计分析教学课件

医生诊断和治疗提供参考。
案例三:股市数据的描述性统计分析及预测
• 总结词:通过股市数据,掌握描述性统计分析和预测的方法。
案例三:股市数据的描述性统计分析及预测
详细描述 1. 收集股市数据,包括股票代码、收盘价、成交量等信息。
2. 对数据进行清洗和整理,去除异常值和缺失值。
案例三:股市数据的描述性统计分析及预测
数据的分布形态分析
01
偏态
反映数据分布形态的指标,如果偏态为正,说明数据更倾向于较大值,
反之则更倾向于较小值。
02
峰态
反映数据分布形态的指标,如果峰态较高,说明数据分布的顶峰比较尖
锐,反之则比较平缓。
03
异常值检测
通过观察数据的离散程度和分布形态,可以识别出可能的异常值。例如,
如果某个数据点远高于或远低于其他数据点,那么它可能就是一个异常
利用先进技术 随着大数据和人工智能技术的不断发展,可以借助这些先 进技术来提高描述性统计分析的效率和精度,如利用机器 学习算法进行数据分类和预测。
培养分析思维 加强描述性统计分析思维的培养,提高分析人员的综合素 质和分析能力,以更好地应对复杂多变的数据分析需求。
07
案例分析与践操作
案例一:超市销售数据的描述性统计分析
产品定位。
消费者行为分析
通过描述性统计,可以分析消费者 的购买习惯、偏好和需求,从而为 产品开发和营销策略提供依据。
市场细分
描述性统计可以帮助市场调研人员 根据消费者的特征和需求,将市场 细分为不同的群体,以便更好地制 定营销策略。
在医学数据处理中的应用
诊断疾病
描述性统计可以帮助医生 了解患者的症状、体征和 实验室检查结果,从而对 疾病进行诊断和分类。
案例三:股市数据的描述性统计分析及预测
• 总结词:通过股市数据,掌握描述性统计分析和预测的方法。
案例三:股市数据的描述性统计分析及预测
详细描述 1. 收集股市数据,包括股票代码、收盘价、成交量等信息。
2. 对数据进行清洗和整理,去除异常值和缺失值。
案例三:股市数据的描述性统计分析及预测
数据的分布形态分析
01
偏态
反映数据分布形态的指标,如果偏态为正,说明数据更倾向于较大值,
反之则更倾向于较小值。
02
峰态
反映数据分布形态的指标,如果峰态较高,说明数据分布的顶峰比较尖
锐,反之则比较平缓。
03
异常值检测
通过观察数据的离散程度和分布形态,可以识别出可能的异常值。例如,
如果某个数据点远高于或远低于其他数据点,那么它可能就是一个异常
利用先进技术 随着大数据和人工智能技术的不断发展,可以借助这些先 进技术来提高描述性统计分析的效率和精度,如利用机器 学习算法进行数据分类和预测。
培养分析思维 加强描述性统计分析思维的培养,提高分析人员的综合素 质和分析能力,以更好地应对复杂多变的数据分析需求。
07
案例分析与践操作
案例一:超市销售数据的描述性统计分析
产品定位。
消费者行为分析
通过描述性统计,可以分析消费者 的购买习惯、偏好和需求,从而为 产品开发和营销策略提供依据。
市场细分
描述性统计可以帮助市场调研人员 根据消费者的特征和需求,将市场 细分为不同的群体,以便更好地制 定营销策略。
在医学数据处理中的应用
诊断疾病
描述性统计可以帮助医生 了解患者的症状、体征和 实验室检查结果,从而对 疾病进行诊断和分类。
第五讲-CRM中的数据分析PPT课件

营销子系统 销售子系统 售后子系统
11.04.2020
客户关系管理
21
整个数据仓库系统是一个包含四个层次的体系结构, 具体由下图表示。
11.04.2020
客户关系管理
22
二、数据仓库的多维模型
1. 星型模式
维度表 维度表
事实表
维度表 维度表
11.04.2020
客户关系管理
23
(1)以销售机会作为一个主题,可以同其他几个维表组 成一个星状的关系结构。
11.04.2020
客户关系管理
7
2.间接渠道
(1)各种媒介 (2)工商行政管理部门及驻外机构 (3)国内外金融机构及其分支机构 (4)国内外咨询公司及市场研究公司 (5)从已建立客户数据库的公司租用或购买 (6)其他渠道
11.04.2020
客户关系管理
8
第一节CRM的客户数据
1. 客户描述性数据
11.04.2020
客户关系管理
4
点评:
从本例可以看出,CRM运用的成功必须依靠客户数据, 对客户数据进行科学地分析,往往会带来意想不到的 商机:对客户数据进行初级处理,可以完成基本业务 过程;对数据进行高级处理(如数据挖掘),可以提供 企业决策支持,促进销售,保持消费群体的稳定。所 以说,客户数据是整个CRM运用的灵魂,本章内容就是 以客户数据管理与分析为主。
11.04.2020
客户关系管理
13
2.使用匿名身份信息 3.尽量使用汇总数据
11.04.2020
客户关系管理
14
三、构建客户数据库
(1)适当超前。
按照可预见未来所需的信息量,尽可能多地考虑预 期客户购买产品的情况和购买后的反应。
第五讲-数据描述性分析与绘图

• 若要计算数据的加权平均,可以用 weighted.mean()函数,其基本格式为: weighted.mean(x, w, na.rm=FALSE) • 其中w是数据x的权重系数,其维数与x相同,基 本用法与mean()相同,唯一有区别的地方是: weighted.mean()不适用于数据框,它作用在数据 框的时候,和作用于矩阵的时候,结果是一样的, 返回全部数据的加权平均 • 另外,对向量就平均等价于sum(x)/length(x), sum()的用法和mean类似,只不过前者是求和
• > w<-c(75, 64, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5, 66.6, 64, 57, 69, 56.9, 50, 72) • > w.mean <- mean(2, trim=0.1); w.mean [1] 62.53846 • trim的取值在0.1-0.5之间,可以消除极端值对均值的影 响。 • 若数据当中含有缺失值NA时,可以加na.rm来处理 • > w.na<-c(75, 64, 47.4, 66.9, 62.2, 62.2, 58.2, 63.5, 66.6, 64, 57, 69, 56.9, 50, 72, NA) > mean(w.na); NA > w.na.mean<-mean(w.na, na.rm=TRUE); [1] 62.36
x y Min. :36.97 Min. :9.044e-05 1st Qu.:49.08 1st Qu.:4.402e-03 Median :61.20 Median :1.603e-02 Mean :61.20 Mean :2.061e-02 3rd Qu.:73.32 3rd Qu.:3.409e-02 Max. :85.43 Max. :5.518e-02
数据图的绘制与解读

展览效果:通过展览,让观众了解到数据图在各领域的重要作用和应用价 值,提高数据可视化的意识和能力。
05 数据图的发展趋势
数据图的技术创新
可视化工具的进步:从传统的图表 绘制软件到现代的数据可视化工具, 如 Ta b l e a u 、 Powe r B I 等 , 提 供 了更多定制化和交互性的功能。
04 数据图的应用场景
商业分析
描述市场趋势, 预测未来发展
方向
分析消费者行 为,了解市场 需求和竞争状
况
评估产品或服 务的市场潜力, 制定营销策略
监测竞争对手 的动态,调整 自身经营策略
科学研究
描述科学实验数据, 帮助科学家理解实 验结果
展示科学现象,辅 助科研人员进行理 论推导
揭示科学规律,为 科学研究提供有力 支持
数据可视化:数据图能将大量数据以直观、易懂的方式呈现出来,帮助人们览目的:展示数据图在各领域的应用,提高人们对数据图的认识和了解。
展览内容:包括各种类型的数据图,如折线图、柱状图、饼图等,以及其 在商业、科技、教育等领域的应用案例。
展览形式:采用多媒体展示方式,包括现场讲解、互动体验等环节,让观 众更加深入地了解数据图的应用场景和优势。
使用R语言的 ggplot2库进行数 据图的绘制
使用Tableau软件 进行数据图的绘制
数据图的绘制步骤
收集数据: 确保数据的 准确性和完 整性
选择图表类 型:根据数 据特点和需 求选择合适 的图表类型, 如折线图、 柱状图、饼 图等
确定图表元 素:包括图 表标题、坐 标轴、数据 标签等,确 保图表易于 理解和解释
预测科学趋势,为 科研决策提供依据
数据分析报告
商业决策:数据图能直观地展示市场趋势和消费者行为,帮助企业做出更明智的商业决策。
05 数据图的发展趋势
数据图的技术创新
可视化工具的进步:从传统的图表 绘制软件到现代的数据可视化工具, 如 Ta b l e a u 、 Powe r B I 等 , 提 供 了更多定制化和交互性的功能。
04 数据图的应用场景
商业分析
描述市场趋势, 预测未来发展
方向
分析消费者行 为,了解市场 需求和竞争状
况
评估产品或服 务的市场潜力, 制定营销策略
监测竞争对手 的动态,调整 自身经营策略
科学研究
描述科学实验数据, 帮助科学家理解实 验结果
展示科学现象,辅 助科研人员进行理 论推导
揭示科学规律,为 科学研究提供有力 支持
数据可视化:数据图能将大量数据以直观、易懂的方式呈现出来,帮助人们览目的:展示数据图在各领域的应用,提高人们对数据图的认识和了解。
展览内容:包括各种类型的数据图,如折线图、柱状图、饼图等,以及其 在商业、科技、教育等领域的应用案例。
展览形式:采用多媒体展示方式,包括现场讲解、互动体验等环节,让观 众更加深入地了解数据图的应用场景和优势。
使用R语言的 ggplot2库进行数 据图的绘制
使用Tableau软件 进行数据图的绘制
数据图的绘制步骤
收集数据: 确保数据的 准确性和完 整性
选择图表类 型:根据数 据特点和需 求选择合适 的图表类型, 如折线图、 柱状图、饼 图等
确定图表元 素:包括图 表标题、坐 标轴、数据 标签等,确 保图表易于 理解和解释
预测科学趋势,为 科研决策提供依据
数据分析报告
商业决策:数据图能直观地展示市场趋势和消费者行为,帮助企业做出更明智的商业决策。
数据的描述性分析.ppt

2、几何平均数是算术平均数的变形。
例:某银行在10年内几次调整贷款利率(按复利计息), 第1至第2年为4%,第3至第5年为5%,第6至第9年为 6.5%,第10年为8%。求这10年银行贷款的平均年利率。
G 10 1.042 1.053 1.0654 1.08 10 1.7396 1.0569
1 2 3
6
(3)
3
3 3.48元/公斤
1 1 1 0.86
3 3.6 4
调和平均数 (Harmonic mean)
一、含义:调和平均数是变量值(标志值)倒数 的算术平均数的倒数,也称倒数平均数。
二、特点: ——变量值不能为零。 ——受极端数值的影响。
三、计算方法 四、应用
简单调和平均法 加权调和平均法
105.5%
95% 105% 115%
如何选择平均数的计算方法?
关键以基本公式为依据
当所掌握的是公式中的分母资料,就将其
作为权数,采用加权算术平均法;
原来只是计
算时使用了
当所掌握的是公式中的分子资料,就
不同的数据 !
将其作为权数,采用加权调和平均法。
流通费用率
流通费 销售额
价格
销售额 销售量
表2.某高校两专业报考及录取情况统计表
工程系
财经系
男生
女生
男生
女生
录取人数
300
100
50
100
未录取人数 300
100
150
300
报考人数
600
200
200
400
加权算术平均数受两个因素的影响
分布数列中各组变量值的大小(或组中值的大小)
例:某银行在10年内几次调整贷款利率(按复利计息), 第1至第2年为4%,第3至第5年为5%,第6至第9年为 6.5%,第10年为8%。求这10年银行贷款的平均年利率。
G 10 1.042 1.053 1.0654 1.08 10 1.7396 1.0569
1 2 3
6
(3)
3
3 3.48元/公斤
1 1 1 0.86
3 3.6 4
调和平均数 (Harmonic mean)
一、含义:调和平均数是变量值(标志值)倒数 的算术平均数的倒数,也称倒数平均数。
二、特点: ——变量值不能为零。 ——受极端数值的影响。
三、计算方法 四、应用
简单调和平均法 加权调和平均法
105.5%
95% 105% 115%
如何选择平均数的计算方法?
关键以基本公式为依据
当所掌握的是公式中的分母资料,就将其
作为权数,采用加权算术平均法;
原来只是计
算时使用了
当所掌握的是公式中的分子资料,就
不同的数据 !
将其作为权数,采用加权调和平均法。
流通费用率
流通费 销售额
价格
销售额 销售量
表2.某高校两专业报考及录取情况统计表
工程系
财经系
男生
女生
男生
女生
录取人数
300
100
50
100
未录取人数 300
100
150
300
报考人数
600
200
200
400
加权算术平均数受两个因素的影响
分布数列中各组变量值的大小(或组中值的大小)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计描述与绘图 统计 Nhomakorabea述与绘图
授课目的
学习如何应用R软件的统计描述与绘图 学习如何应用 软件的统计描述与绘图
授课内容
1、统计描述 2、绘图方法 3、实验练习
• R的统计分析分为统计描述和统计推断两部分。 统计描述是通过绘制统计图形、编制统计表、计 算统计量等方法来表述数据的分布特征。 • 描述统计量包括了均值、中位数、次序统计量、 百分数、方差、标准差、变异系数、极差、偏度 系数等,是数据的位置度量、分散程度和分布形 状的体现。 • 还包括分布函数、直方图、经验分布图、QQ图、 茎叶图、箱线图等等。
• 百分数是中位数的推广,将数据按从小到大的顺序排 列后,取p分位数,若np是整数,则取第np和第np加 一个数的平均;若np不是整数,取第[np]+1那个数。 • 计算百分数要用到的函数是quantile(),基本格式为: quantile(x, probs=seq(0,1,0.25), na.rm=FALSE, names=TRUE, type=7, …) • probs给出相应的百分位数,默认值是0,0.25,0.5, 0.75,1;na.rm是处理缺失数据的,na.rm=TRUE时, NA和NaN将从数据中移走,向量取值中若有NA或 NaN,要添加这一参数,否则会出错;names若为 TRUE,返回值当中有names这个属性"; type是取值19的整数,选择了九种分位数算法(具体算法见帮助文 件)中的一种。
• QQ图是用来鉴别样本的分布是否近似于某种类 型的分布
• qqnorm()和qqline()提供了画正态QQ图和相 应直线的方法
• > qqnorm(y, ylim, xlab=" ", ylab=" ", plot.it=TRUE, datax=FALSE) • plot.it是逻辑变量,TRUE时将结果画出来;datax 是将样本数据放x轴,默认值是FALSE。 • > qqplot(x, y, plot.it=TRUE); • 比较x和y的分布接近程度
• > w<-c(75, 64, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5, 66.6, 64, 57, 69, 56.9, 50, 72) • > hist(w, freq=F); • >w.density <- density(w); w.density Call: density.default(x = w) Data: w (15 obs.); Bandwidth 'bw' = 3.478
x y Min. :36.97 Min. :9.044e-05 1st Qu.:49.08 1st Qu.:4.402e-03 Median :61.20 Median :1.603e-02 Mean :61.20 Mean :2.061e-02 3rd Qu.:73.32 3rd Qu.:3.409e-02 Max. :85.43 Max. :5.518e-02
> hist(Weight)
• 用density()函数可以绘制与直方图配套的核密度 估计。
• density的一般用法为:
• density(x, bw="nrd0", adjust=1, kernel=c("gaussian", "…"), window=kernel, width… ) • bw是带宽,默认值R画出光滑图形;kernel是核 函数;adjust表示实际带宽是adjust*bw。其他参 数详见帮助文档。
• > w<-c(75, 64, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5, 66.6, 64, 57, 69, 56.9, 50, 72) • > w.mean <- mean(2, trim=0.1); w.mean [1] 62.53846 • trim的取值在0.1-0.5之间,可以消除极端值对均值的影 响。 • 若数据当中含有缺失值NA时,可以加na.rm来处理 • > w.na<-c(75, 64, 47.4, 66.9, 62.2, 62.2, 58.2, 63.5, 66.6, 64, 57, 69, 56.9, 50, 72, NA) > mean(w.na); NA > w.na.mean<-mean(w.na, na.rm=TRUE); [1] 62.36
• 若要计算数据的加权平均,可以用 weighted.mean()函数,其基本格式为: weighted.mean(x, w, na.rm=FALSE) • 其中w是数据x的权重系数,其维数与x相同,基 本用法与mean()相同,唯一有区别的地方是: weighted.mean()不适用于数据框,它作用在数据 框的时候,和作用于矩阵的时候,结果是一样的, 返回全部数据的加权平均 • 另外,对向量就平均等价于sum(x)/length(x), sum()的用法和mean类似,只不过前者是求和
• > x<-c(75, 64, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5) • > sort(x, decreasing=TRUE) [1] 75 66.9 64.0 63.5 62.2 62.2 58.7 47.4 • 若数据当中含有缺失值NA时,可以加na.rm来处理,注 意体会其用法 • > x.na<- c(75, 64, 47.4, NA, 66.9, 62.2, 62.2, 58.7, 63.5) > sort(x.na); [1] 47.4 58.7 62.2 62.2 63.5 64.0 66.9 75.0 > sort(x.na, st=T) [1] 47.4 58.7 62.2 62.2 63.5 64.0 66.9 75.0 NA > sort(x.na, st=F) [1] NA 47.4 58.7 62.2 62.2 63.5 64.0 66.9 75.0
• >plot(ecdf(x), ylab="Fn(x)", verticals=FALSE, col.01line="gray70") • verticals是逻辑变量,TRUE时表示画竖线,否则 不画竖线;col.01line是0-1线的颜色。 • > plot(ecdf(w), verticals=T, do.p=F); 不画点 > x<-44:78; > lines(x, pnorm(x, mean(w), sd(w)))
> qqnorm(w);qqline(w)
茎叶图、 茎叶图、箱线图及五数总括
• 茎叶图stem()可以细致地看出数据分布的结构。
• stem()的一般用法为:
• > stem(x, scale=1, width=80, atom=1e-08) • scale控制了茎叶图的长度,默认值是1,如果 scale=2,则表示将0-9这10个个位数分成两段, 0~4为一段,5~9为一段;width是绘图的宽度; atom是容差,一般选择默认值即可。
• > w.quantile <- quantile(w); w.quantile 0% 25% 50% 75% 100% 47.40 57.85 65.50 66.75 75.00 • > attributes(w.quantile) $names [1] "0%" "25%" "50%" "75%" "100%" • > quantile(w, probs=seq(0,1, 0.2)) 0% 20% 40% 60% 80% 100% 47.4 56.98 62.20 64.00 67.32 75.00
直方图、经验分布图与 直方图、经验分布图与QQ图 图
• >cl<-read.table("chapter4-cl.txt", header=T); • 用hist()函数可以绘制直方图。
• hist的一般用法为:
• hist(x, breaks="Sturges", freq=NULL, probability=!freq,… ) • break规定了直方图的组距(必须覆盖数据的范围); freq是逻辑变量,TRUE是频率直方图,FALSE 是密度直方图;probability和freq相反,TRUE是 密度直方图,FALSE是频率直方图。其他参数详 见帮助文档。
• > x<-c(75, 64, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5) • > sort(x, index.return=T) $x [1] 47.4 58.7 62.2 62.2 63.5 64.0 66.9 75.0 $ix [1] 3 7 5 6 8 2 4 1 • 中位数函数median()的基本格式为 • median(x, na.rm=FALSE) • > median(x.na) [1] NA >median(x.na, na.rm=F) [1] 62.85
数据的分布
• 数据的分布主要考察分布函数(f), 密度函数 (d), 分位数函数(q)及产生随机数(r). • 以正态分布为例: • >data<-rnorm(100, mean=0, sd=1);
>dnorm(data, mean=0, sd=1, log=F); >pnorm(data, mean=0, sd=1, lower.tail=T, log.p=F); >p<-c(0.975, 0.95) >qnorm(p, mean=0, sd=1, lower.tail=T, log.p=F); [1] 1.959964 1.644854 # 0.05/2, 0.1/2分位数
授课目的
学习如何应用R软件的统计描述与绘图 学习如何应用 软件的统计描述与绘图
授课内容
1、统计描述 2、绘图方法 3、实验练习
• R的统计分析分为统计描述和统计推断两部分。 统计描述是通过绘制统计图形、编制统计表、计 算统计量等方法来表述数据的分布特征。 • 描述统计量包括了均值、中位数、次序统计量、 百分数、方差、标准差、变异系数、极差、偏度 系数等,是数据的位置度量、分散程度和分布形 状的体现。 • 还包括分布函数、直方图、经验分布图、QQ图、 茎叶图、箱线图等等。
• 百分数是中位数的推广,将数据按从小到大的顺序排 列后,取p分位数,若np是整数,则取第np和第np加 一个数的平均;若np不是整数,取第[np]+1那个数。 • 计算百分数要用到的函数是quantile(),基本格式为: quantile(x, probs=seq(0,1,0.25), na.rm=FALSE, names=TRUE, type=7, …) • probs给出相应的百分位数,默认值是0,0.25,0.5, 0.75,1;na.rm是处理缺失数据的,na.rm=TRUE时, NA和NaN将从数据中移走,向量取值中若有NA或 NaN,要添加这一参数,否则会出错;names若为 TRUE,返回值当中有names这个属性"; type是取值19的整数,选择了九种分位数算法(具体算法见帮助文 件)中的一种。
• QQ图是用来鉴别样本的分布是否近似于某种类 型的分布
• qqnorm()和qqline()提供了画正态QQ图和相 应直线的方法
• > qqnorm(y, ylim, xlab=" ", ylab=" ", plot.it=TRUE, datax=FALSE) • plot.it是逻辑变量,TRUE时将结果画出来;datax 是将样本数据放x轴,默认值是FALSE。 • > qqplot(x, y, plot.it=TRUE); • 比较x和y的分布接近程度
• > w<-c(75, 64, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5, 66.6, 64, 57, 69, 56.9, 50, 72) • > hist(w, freq=F); • >w.density <- density(w); w.density Call: density.default(x = w) Data: w (15 obs.); Bandwidth 'bw' = 3.478
x y Min. :36.97 Min. :9.044e-05 1st Qu.:49.08 1st Qu.:4.402e-03 Median :61.20 Median :1.603e-02 Mean :61.20 Mean :2.061e-02 3rd Qu.:73.32 3rd Qu.:3.409e-02 Max. :85.43 Max. :5.518e-02
> hist(Weight)
• 用density()函数可以绘制与直方图配套的核密度 估计。
• density的一般用法为:
• density(x, bw="nrd0", adjust=1, kernel=c("gaussian", "…"), window=kernel, width… ) • bw是带宽,默认值R画出光滑图形;kernel是核 函数;adjust表示实际带宽是adjust*bw。其他参 数详见帮助文档。
• > w<-c(75, 64, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5, 66.6, 64, 57, 69, 56.9, 50, 72) • > w.mean <- mean(2, trim=0.1); w.mean [1] 62.53846 • trim的取值在0.1-0.5之间,可以消除极端值对均值的影 响。 • 若数据当中含有缺失值NA时,可以加na.rm来处理 • > w.na<-c(75, 64, 47.4, 66.9, 62.2, 62.2, 58.2, 63.5, 66.6, 64, 57, 69, 56.9, 50, 72, NA) > mean(w.na); NA > w.na.mean<-mean(w.na, na.rm=TRUE); [1] 62.36
• 若要计算数据的加权平均,可以用 weighted.mean()函数,其基本格式为: weighted.mean(x, w, na.rm=FALSE) • 其中w是数据x的权重系数,其维数与x相同,基 本用法与mean()相同,唯一有区别的地方是: weighted.mean()不适用于数据框,它作用在数据 框的时候,和作用于矩阵的时候,结果是一样的, 返回全部数据的加权平均 • 另外,对向量就平均等价于sum(x)/length(x), sum()的用法和mean类似,只不过前者是求和
• > x<-c(75, 64, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5) • > sort(x, decreasing=TRUE) [1] 75 66.9 64.0 63.5 62.2 62.2 58.7 47.4 • 若数据当中含有缺失值NA时,可以加na.rm来处理,注 意体会其用法 • > x.na<- c(75, 64, 47.4, NA, 66.9, 62.2, 62.2, 58.7, 63.5) > sort(x.na); [1] 47.4 58.7 62.2 62.2 63.5 64.0 66.9 75.0 > sort(x.na, st=T) [1] 47.4 58.7 62.2 62.2 63.5 64.0 66.9 75.0 NA > sort(x.na, st=F) [1] NA 47.4 58.7 62.2 62.2 63.5 64.0 66.9 75.0
• >plot(ecdf(x), ylab="Fn(x)", verticals=FALSE, col.01line="gray70") • verticals是逻辑变量,TRUE时表示画竖线,否则 不画竖线;col.01line是0-1线的颜色。 • > plot(ecdf(w), verticals=T, do.p=F); 不画点 > x<-44:78; > lines(x, pnorm(x, mean(w), sd(w)))
> qqnorm(w);qqline(w)
茎叶图、 茎叶图、箱线图及五数总括
• 茎叶图stem()可以细致地看出数据分布的结构。
• stem()的一般用法为:
• > stem(x, scale=1, width=80, atom=1e-08) • scale控制了茎叶图的长度,默认值是1,如果 scale=2,则表示将0-9这10个个位数分成两段, 0~4为一段,5~9为一段;width是绘图的宽度; atom是容差,一般选择默认值即可。
• > w.quantile <- quantile(w); w.quantile 0% 25% 50% 75% 100% 47.40 57.85 65.50 66.75 75.00 • > attributes(w.quantile) $names [1] "0%" "25%" "50%" "75%" "100%" • > quantile(w, probs=seq(0,1, 0.2)) 0% 20% 40% 60% 80% 100% 47.4 56.98 62.20 64.00 67.32 75.00
直方图、经验分布图与 直方图、经验分布图与QQ图 图
• >cl<-read.table("chapter4-cl.txt", header=T); • 用hist()函数可以绘制直方图。
• hist的一般用法为:
• hist(x, breaks="Sturges", freq=NULL, probability=!freq,… ) • break规定了直方图的组距(必须覆盖数据的范围); freq是逻辑变量,TRUE是频率直方图,FALSE 是密度直方图;probability和freq相反,TRUE是 密度直方图,FALSE是频率直方图。其他参数详 见帮助文档。
• > x<-c(75, 64, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5) • > sort(x, index.return=T) $x [1] 47.4 58.7 62.2 62.2 63.5 64.0 66.9 75.0 $ix [1] 3 7 5 6 8 2 4 1 • 中位数函数median()的基本格式为 • median(x, na.rm=FALSE) • > median(x.na) [1] NA >median(x.na, na.rm=F) [1] 62.85
数据的分布
• 数据的分布主要考察分布函数(f), 密度函数 (d), 分位数函数(q)及产生随机数(r). • 以正态分布为例: • >data<-rnorm(100, mean=0, sd=1);
>dnorm(data, mean=0, sd=1, log=F); >pnorm(data, mean=0, sd=1, lower.tail=T, log.p=F); >p<-c(0.975, 0.95) >qnorm(p, mean=0, sd=1, lower.tail=T, log.p=F); [1] 1.959964 1.644854 # 0.05/2, 0.1/2分位数