单变量描述统计分析讲解

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第八章 相关分析和线性回归分析
8.1 概述
函数关系:两变量之间一一对应的关系,即当x取 一定值,另一变量y会依据函数取唯一确定的值。
例如: c r 2 , s vt
统计关系:两变量之间确实存在的互相依存关系, 但变量间的数量依存关系的具体关系值不是固定的。 例如:身高和体重,子代身高与父代身高。
3
散点图 Graphs →Scatter/Dot
简单散点图
矩阵散点图 简单的点图
重叠散点图
三维散点图
4
简单散点图:表示一对变量间统计关系的散点图。 重叠散点图:表示多对变量间统计关系的散点图。 矩阵散点图:以矩阵的形式在多个坐标轴上分别显
示多对变量间的统计关系。 三维散点图:以立体图的形式展示三对变量间的统
➢ Pearson相关系数中的两变量具有对称性。
14
Spearman等级相关系数:用来度量定序变量间的 线性相关关系。该统计量的设计思想与Pearson简 单相关系数完全相同,只是利用数据的秩代替原始 数据计算Pearson相关系数。例如:对商品的偏好 与价格。
➢ 该方法属于非参数方法。
➢ Spearman等级相关系数对数据的要求是两变量中 有一个或两个定序变量,或两个变量是定距的但母 体分布不清楚或严重偏离二元正态,等级相关比 Pearson相关更适合描述两变量间的相关关系。
相关分析和回归分析是以不同的方式测度变量间统 计关系的非常有效的工具。
2
8.2 相关关系
相关关系的种类:线性相关和非线性相关(形态), 正线性相关和负线性相关(方向),强线性相关和 弱线性相关(程度)。
相关分析的两种有效方式: ➢ 一散点图:它将数据以点的形式画在直角平面上,通
过观察散点图能够直观地发现变量间地统计关系以 及它们的强弱程度和数据的可能走向。 ➢ 二相关系数:以数值的方式精确的反映了两变量间 线性关系的强弱程度。
原因:由于存在抽样的随机性和样本数量较少等原 因,通常样本的相关系数不能直接用来说明样本来 自的两总体是否具有显著的线性相关性,而需要通 过假设检验的方式对样本来自的总体是否存在显著 线性相关进行统计推断。
检验规则:p<a,认为两总体不是零相关; p>a,认为两总体零相关。
18
Pearson相关系数 定距变量
12
相关系数
相关系数r的取值在-1~+1之间。 r>0表示两变量存在正的相关关系;r<0表示两变量
存在负的相关关系。 r=1表示两变量存在完全正相关;r=-1表示两变量
存在完全负相关;r=0表示两变量不存在线性相关 关系,但并不意味着它们不具备其它的曲线关系。 /r/>0.8表示两变量之间具有较强的线性关系; /r/<0.3表示两变量之间的线性相关关系较弱。 Analyze →Correlate →Bivariate
计关系。
5
Y轴变量 X轴变量 分组变量 标记变量
6
将标签值写在样本点的旁边
7
简单散点图
作为标签的变量在该点的取值
8
矩阵散点图
注意:在矩阵散点图中,选择变量的先后顺序决定了矩阵对角线上变 量的排列顺序。横轴、纵轴的代表变量见边框旁的标识。
9
三维散点图
10
重叠散点图
11
评价:各种散点图虽然能够简单直观展现变量之间 的统计关系,但并不精确。
➢ 该方法属于非参数方法。 ➢ 与交叉列联表中两定序变量类中的Kendall ‘s tau-b
统计量是一致的。 ➢ 与Spearman等级相关系数相比,当样本数量较少
时用Kendall ‘s tau-b较为合适。
17
相关分析
步骤:一,计算样本相关系数;二,对样本来自的 总体是否存在显著的线性关系进行推断。
19
显示每一个变量的均值与标准差 每一对变量的叉集离差积与协方差
排除在分析变量上带有缺失值的样品 排除带有缺失值的所有样品
20
** *

意ቤተ መጻሕፍቲ ባይዱ
叉积离差

协方差

的 结 论 更 准 确 。
21
例:
结论:两变量之间相关性显著,且属于高度相关。 注:需要特别关注p值,只有在p>a的情况下才会关
注相关系数的大小。否则相关系数没有意义。
13
相关系数的种类
Pearson简单相关系数:用来度量两定距型变量间 的线性关系,如收入与储蓄,身高与体重等。
➢ 在X和Y的Pearson相关系数是无量纲的,故可以进 行不同对变量之间的比较。
➢ Pearson相关系数度量的是统计关系而不是函数关 系,更不是因果关系。
➢ Pearson相关系数用来度量两变量之间的线性关系 的密切程度,但它并不是度量非线性关系的有效工 具。
Kendall‘s偏秩相关系数 定类变量
Spearman秩相关系数 定序变量
选中时表示相关分析结果中,除显示统计检验的相伴概率值p以外,而且还以(*) 表示:
* :a=0.05,且伴随概率p值≤0.05,故在0.05下有显著性意义的相关系数;
**:a=0.01,且伴随概率p值≤0.01,故在0.01下有显著性意义的相关系数;
22
例:
考查某人对8种电视机品牌的喜好是否与价格有显 著的负相关?
23
结论:偏好和价格存在显著负相关,程度为中等。 注:Spearman和Pearson的结果有细微差别,建议
按照数据特征选择恰当的统计量。 注:假设检验中“大于”,“小于”的问题应该建
立单侧假设检验。“等于”建立双侧的假设检验。
15
秩:设有样本X1,X2,X3,…Xn,把它们从小到大 排列,若Xi在这个次序中占第Ri个位置,则称Xi的 秩为Ri。
例如:某样本为 8,3,5, 9, 12,6,9 则它的秩依次为4,1,2,5.5 ,7,3,5.5
16
Kendall ‘s tau-b偏秩相关:用来度量定序变量间的 线性相关关系,它利用变量秩,通过计算“一致对 数目”和“非一致对数目”获得系数。
24
注:与Spearman的相关系数略有差异,当都是一 致的认为具有显著负相关,程度中等。
25
8.3 偏相关分析
偏相关分析的意义:在某些情况下,单纯利用相关 系数来评价变量间的相关性显然是不准确的,而需 要在剔除其他相关因素影响的条件下计算变量间的 相关。
相关文档
最新文档