第3章 多元数据图表示法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

3.3 折线图
• 3.3.1 折线图
• 折线图(polygonal line)是将多个样品观测数据以折线的 方式表示在平面图中的一种多变量可视化图形。折线图用 线段的升降来表示变量的大小,常用于表示现象在时间上 的变化趋势、现象的分配情况和两个现象之间的依存关系 等。 • 折线图的作图原理如下:
• (1)作平面坐标系,横坐标取p个点,表示p个变量,纵坐 标表示变量取值。
3.5.2 雷达图Excel操作
• (2)选择菜单项Graphs→Line,打开Line Charts 对话框。在对话框上方有三个折线图形的单选项: Simple单线图、Multiple多线图、Drop-line垂线图。 由于这里是多变量作图,所以选择Multiple。在对 话框下面另有三个单选项:Summaries for groups of cases一个样品对应一个图(系统默认)、 Summaries of separate variable一个变量对应一个 图、Values of individual cases以样品作横轴一个 图显示全部。选择Value of individual cases。单击 Define按钮,打开Define Multiple Line对话框。
3.2.2 散点图SPSS操作
• (1)在SPSS中按图3-1的形式组织数据,把海 产品当成变量,而把不同地区当成样品观测。选 择菜单项Graphs→Legacy Dialogs,显示统计图 形选择菜单。其中Bar…条形图、3-D Bar…三维 条形图、Line…线图、Area…面积图、Pie…饼图、 High-Low…高低图、Boxplot…箱图、Error Bar… 误差条形图、Population Pyramid…金字塔图、 Scatter/Dot…散点图、Histogram…直方图、 Interactive交互式图形。另外,Chart Builder…图 形构建,用于预先设置图形显示格式之类。
• (2)对给定的样品观测值,在p个点的纵坐标上标出相应 的变量取值。 • (3)将表示p个变量取值的点连接成一条折线,即得到了 表示一个样品观测数据的折线,n次观测可绘出n条折线, 构成多变量折线图。
3.3.2 折线图SPSS操作
• (1)将原始数据输入SPSS中。注意例3.1原始数 据输入时,要把省份当成变量,而把海产品当成观 测;或通过转置图3-1数据。
23.3 46.6 16.4 67.2 34.1 50.7
169.6 300.1 60.3 67.8 210.0 166.6
24.7 51.1 2.6 3.5 51.3 6.0
29.8 32.5 5.7 11.9 11.8 13.4
3.2 散点图
• 3.2.1 散点图
• 散点图(scatter diagram)又称散布图或相关图, 将所选样品的某两个或三个变量的值对应到二维 坐标平面或三维坐标空间上的点,根据图中点的 分布走向和密集程度,直观地判断这些变量之间 相关情况的统计图形。在使用三维散点图表示时, 通常先经人工旋转到某个角度,以突出样品间的 规律或差异。相对而言,二维散点图使用频率远 高于三维散点图。
第三章 多元数据图表示法
• 3.1 引言 • 3.2 散点图 • 3.3 折线图 • 3.4 条形图 • 3.5 雷达图 • 3.6 星座图
3.1 引言
• 面对着一堆数据,我们该如何简捷明了地反映出其 中规律性的东东或所谓的信息?一般首先要对数据 进行描述性统计分析(descriptive Analysis),以 发现其内在的规律,再选择进一步分析的方法。 • 描述性统计分析主要包括数据的频数分析、数据的 集中趋势分析、数据离散程度分析、数据的分布、 以及一些基本的统计图形。 • 由于多元数据分析通常要研究其各分量指标间的相 关性,图形表示就显得尤其重要。将数据按某种形 式显示在一个平面图上,我们可以非常直观地了解、 认识数据,发现其中的可能分布规律。
• 多元数据的图形表示方法有两种:
• 一类是使高维空间的点直接与平面上的某种图形对 应,以反映高维数据的某些特点或数据间的某些关 系,如散点图、折线图、条形图、雷达图、星座图、 切尔诺夫脸等; • 另一类是在尽可能多地保留原数据信息的原则下进 行降维,若能使数据维数降至 2 或 1 ,则可在平面 上作图,如主成分法、因子分析法、多维尺度法等。 • 本章介绍第一种图形表示法,具体内容安排是针对 我国沿海6省2008年海水产品产量数据借助SPSS 和Excel逐一介绍散点图、折线图、条形图、雷达 图、星座图图示法;S-Plus能够作切尔诺夫脸谱图, 请参阅相关文献,本书不作介绍;多维尺度法将在 第十一章介绍。
• 对于至少3个变量的多元数据,一般要使用 重叠散点图或矩阵散点图。 • 重叠散点图(overlay scatter diagram)是 将若干组二维散点图放置在同一张图中。 目的是比较这些组点分布规律的异同性, 显然数据不能太多,否则不利于比较。 • 矩阵散点图(matrix scatter diagram)是将 选取的多个变量两两之间的二维散点图排 列在一张大图中。便于同时观察这些变量 的两两之间的分布规律。
图3-1 作图时的数据组织形式和菜单
• (2)选择菜单项Graphs→Scatter/Dot,打开 Scatter plot散点图形式对话框,有Simple Scatter、 Matrix Scatter、Simple Dot、Overlay Scater、3D Scatter。选定Matrix,即矩阵散点图,单击 Define按钮,打开Scatter plot Matrix对话框。
3.4.2 条形图SPSS操作
• (1)数据输入格式如线图,要把例3.1中省份当成变量,而 把海产品当成样品观测。 • (2)选择菜单项Graphs→Bar,打开Bar Charts对话框。在 对话框上方的有三个选择条形图单选项:Simple简单条形图、 Clustered多组条形图、Stacked分段条形图。由于这里是多 变量作图,所以选择Clustered。在对话框下面有三个与Line Charts对话框有相同的选项,选择Value of individual cases。 单击Define按钮,打开Define Clustered Bar对话框。 • (3)在Define Clustered Bar对话框中,将代表不同省的6个 变量移入Bars Represent列表框中,将代表支出指标的变量 移入Variable框中。单击OK按钮,即可作出如图3-4所示的条 形图(图中条形形式已经重新编辑过以方便辩认)。
• 例3.1 表3.1是我国沿海6省2008年海水产品产量 数据,来源于2009年中国统计年鉴,下面分别用5 种可视化方法对数据进行分析。
表3.1 沿海6省海水产品产量(单位:万吨)
Leabharlann Baidu
地 区
鱼 类 虾蟹类 贝 类
藻 类
其 他
辽 山 江 浙 福 广
宁 东 苏 江 建 东
57.6 169.4 39.0 167.0 154.0 131.7
3.5 雷达图
• 3.5.1 雷达图
• 雷达图(radar chart)又可称为戴布拉图、蛛网 图,是财务分析固表的一种。将公司各项财务分 析所得数字或比率,集中划在一个圆形的固表上, 来表现各项财务比率的情况,使用者能一目了然 地了解公司各项财务指标的变动情形及其好坏趋 向。在雷达图中,每个变量都有它自己的数值轴, 每个数值轴都是从中心向外辐射。由于图形就好 像雷达荧光屏上的图像,故称其为雷达图。
• (3)在Define Multiple Line对话框中,将 代表不同省的6个变量移入Lines Represent 列表框中,将代表支出指标的变量“产品” 移入Variable框中。单击OK按钮,即可作 出如图3-3所示的折线图(图中折线形式已 经重新编辑过以方便辨认)。
图3-3 沿海6省海水产品产量折线图
.832*(0.04)
贝类
0.459(0.36)
藻类
0.42(0.407)
其它
0.136(0.798) 0.009(0.986)
1 0.046(0.931) -0.11(0.835)
贝类 藻类
其它
0.459(0.36)
0.42(0.407)
0.046(0.931)
1 .870*(0.024)
1
0.731(0.099)
图3-4 沿海6省海水产品产量条形图
• 3.4.3 条形图形解读
• 对比图3-3和图3-4,折线图和条行图的作图过程 几乎相同,作图原理也大同小异,折线图是以折 线的高低来表示变量的大小,条形图是以矩形的 高低来表示变量的大小。因此条形图与折线图完 全同样的结论。山东省除虾蟹类外其它海产品产 量都高居沿海各省首位,江苏省则所有海产品全 排名最后,浙江省虾蟹类与鱼类分列第1与第2外 其它都是倒数第2,福建、辽宁、广东三省多数海 产品居中游。
• (3)在打开的Scatter plot Matrix对话框中,将 “鱼类、虾蟹类、贝类、藻类、其他”五个变量 移入Matrix Variables列表框中,将标志变量“省” 移入Label Markers by散点标志列表框中。另外, Label Cases by为标识变量。
• (4)点击OK按钮,得到如图3-2所示的矩阵散点 图。注意,默认下输出的全是圆圈但不同颜色的 散点图,为增加区分度可进行图形编辑,不同省 份改用不同图标。
图3-2 沿海6省海水产品产量矩阵散点图
3.2.3 矩阵散点图解读
• (1)根据图3-2,从变量来看,鱼类与虾蟹类 (第1列第2行小图)、贝类与藻类(第3列第4行 小图)、贝类与其它(第3列第5行小图)正的线 性相关明显。也就是说,鱼类产量高的省份虾蟹 产量也高,如浙江、山东、广东、福建;鱼类产 量低的省份虾蟹产量也低,如江苏、辽宁。贝类 产量高的藻类和其它也高,贝类产量低的藻类和 其它也低。如,山东贝类产量最大,它的藻类第 二和其它第一;江苏和浙江贝类倒数第一第二, 它们的藻类和其它也是倒数第一第二;福建、辽 宁、广东贝类产量中游分列第二、三、四位,它 们的藻类分列第一、三、四位,其它分列第五、 二、三位。
3.3.3 折线图
• 根据图3-3,山东省除虾蟹类外其它海产品 产量都高居沿海各省首位,江苏省则所有 海产品全排名最后,浙江省虾蟹类与鱼类 分列第1与第2外其它都是倒数第2,福建、 辽宁、广东三省多数海产品居中游。
3.4 条形图
• 3.4.1 条形图
• 条形图(bar chart)是由若干平行条状的矩 形所构成,而以每一个矩形的高度来代表 数值的大小。注意,绘画条形图时,不同 组之间是有空隙的;而绘画直方图时,不 同组之间是没有空隙的。
0.554(0.254) 1
-0.11(0.835) .870*(0.024)
0.136(0.798) 0.009(0.986) 0.731(0.099) 0.554(0.254)
• (2)根据图3-2,从样品来看,鱼类(第1列小图) 高产的有山东、浙江、福建和广东,低产的有辽宁 和江苏;虾蟹类(第2列小图)浙江高产,广东、山 东和福建中产,辽宁、江苏低产;贝类(第3列小图) 山东高产,福建、辽宁和广东中产,浙江、江苏低 产;藻类(第4列小图)福建和山东高产,辽宁中产, 广东、浙江和江苏低产;其它(第5列小图)山东和 辽宁高产,广东、浙江和福建中产,江苏低产。 • 当然可以做其它如三维散点图,但多数情形下多元 数据用矩阵散点图显示效果最好。如果原始数据输 入时,把省份当成变量,而把海产品当成观测,则 显示海产品关于不同省份之间的散点图,就本例而 言这样做实际分析意义不如图3-2,留作习题由读者 完成。
• 为了配合说明变量之间的相关性,可结合Pearson相 关系数(见表3.2)分析,鱼类与虾蟹类、贝类与藻 类线性相关显著,贝类与其它检验的p值为0.099可 以考虑线性相关。
表3.2 沿海6省海水产品产量Pearson相关系数(括号内为双侧检验的p值)
鱼类
鱼类 虾蟹 1 .832*(0.04)
虾蟹
相关文档
最新文档