试验2 描述统计
2统计描述(集中趋势的描述)

4.13 4.28 4.91 3.95 4.23
2.78 3.26 3.18 5.08 3.57
4.26 3.50 3.68 4.53 4.83
3.58 2.70 4.83 3.92 3.52
4.34 4.61 3.87 3.58 3.84
4.84 4.75 3.95 5.35 4.50
4.41 2.91 3.91 3.84 3.96
第三章: 统计描述
一、数值变量资料的统计描述
1、频数分布 2、集中趋势的统计描述 3、离散趋势的统计描述 4、正态分布及其应用
二、分类变量资料的统计描述
2
概述 :
统计描述:用适当的统计图(表)和统计指 标来描述资料的分布规律及其数量特征. 资料性质
离散型:变量取值可以列举,如心跳、脉搏 连续型:变量取值不能明确列举,如血糖
1.描述频数分布的 类型 (1)对称分布 : (2) 偏态分布
25 20
人数
15
Æ µ Ê ý
10 5
0
2.45
3.05
3.65
4.25
4.85
5.45
6.10
Ñ ª Ç å × Ü µ ¨¹ Ì ´ ¼ £ ¨mmol/L£ ©
Í ¼ 2 - 1 101 à û Õ ý ³ £ ³ É Ä ê Å ® Ó ×Ñ ª Ç å Ü ×µ ¨¹ Ì ´ ¼ µ Ä Æ µ Ê ý Ö ·² ¼
4.34 4.61 3.87 3.58 3.84
4.84 4.75 3.95 5.35 4.50
4.41 2.91 3.91 3.84 3.96
4.50 3.27 4.52 3.19 4.59 3.75 3.98 4.13 4.26 3.63 3.87 5.71 3.30 4.73 4.17 5.13 3.78 4.57 3.80 3.93 3.78 3.99 4.48 4.28 4.06 5.26 5.25 3.98 5.03 3.51 3.86 3.02 3.70 4.33 3.29 3.25 4.15 4.36 4.95 3.00 3.26
实训项目2-描述性统计的SPSS软件实现方法

【实践教学具体实施过程】
1. 教师先对理论知识进行梳理、讲授并演示 操作过程。
2. 学生实训:学生根据实训内容基于SPSS软 件进行实训操作——对调查资料进行描述 性统计。
实训二 描述性统计的SPSS软件实现方法
见第二章例2-3,利用SPSS,根据表2-1资 料绘制直方图,对该资料进行正态性检验, 计算集中趋势和离散趋势指标,并计算该 地8岁女孩身高均值95%的医学参考值范围 和置信区间。
【实训步骤】
1. 启动SPSS。 2. 单击SPSS界面左下角的“变量视图”标签,
定义变量,变量名为“身高”、数值型、 宽度为2、小数位数为1(实训图1)。 3. 单击左下角的“数据视图”标签,在“身 高”变量内录人数据。
实训二
描述性统计的SPSS 软件实现方法
【教学目标】
通过实训项目的操作,详细讲解描述性统 计在医学研究中的应用,做到理论指导与 实践操作相结合,从而避免统计学理论与 实际运算脱节的困扰。
【实训目的】
运用SPSS“分析”菜单中“描述统计”选 项,将调查或试验搜集来的原始资料进行 整理,编制频数表,检验其分布类型,绘 制直方图,揭示资料的分布特征,计算统 计指标。
数据分布的直方图
【实训步骤】
6. ②勾选“含检验的正态图”,单击“继续”按钮。 ③在“统计”对话框中勾选“描述”选项,并 设置置信区间百分比为95%,单击“继续”按 钮。单击“确定”按钮,得到分析结果。
正态性检验结果
带正态曲线的直方图
描述性结果
【实训步骤】
7. ①单击“分析”→“描述统计”→“频率”弹 出对话框。②点击“统计”选项,勾选“百分 位数”,输入“2.5”点击添加,接着输入 “97.5”点击添加,单击“继续”按钮。③单 击“确定”按钮,得到95%医学参考值的分析 结果。
16种统计分析方法

16种常用的数据分析方法汇总2015-11—10 分类:数据分析评论(0)经常会有朋友问到一个朋友,数据分析常用的分析方法有哪些,我需要学习哪个等等之类的问题,今天数据分析精选给大家整理了十六种常用的数据分析方法,供大家参考学习。
一、描述统计描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度.1、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率回归法、决策树法。
2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。
常用方法:非参数检验的K-量检验、P-P图、Q—Q图、W检验、动差法。
二、假设检验1、参数检验参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验。
1)U验使用条件:当样本含量n较大时,样本值符合正态分布2)T检验使用条件:当样本含量n较小时,样本值符合正态分布A 单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别;B 配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似;C 两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。
2、非参数检验非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。
适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的.A 虽然是连续数据,但总体分布形态未知或者非正态;B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下;主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。
三、信度分析检査测量的可信度,例如调查问卷的真实性.分类:1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度2、内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度.四、列联表分析用于分析离散变量或定型变量之间是否存在相关。
实验项目二用EXCEL计算描述统计量1

实验项⽬⼆⽤EXCEL计算描述统计量1试验项⽬⼀:⽤excel计算描述统计量实验项⽬:⽤EXCEL计算描述统计量实验学时:2学时实验类别:单项性实验实验⽬的与要求:理解描述性统计指标的计算原理;掌握EXCEL的统计指标计算功能;熟练掌握EXCEL的统计指标计算操作。
实验操作⽅法:⼀、由未分组数据计算反映分布特征的有关指标(⼀)使⽤函数功能计算各个指标算术平均数:A VERAGE 中位数:MEDIAN 众数:MODE平均差:A VEDEV 样本标准差:STDEV 总体标准差:STDEVP (⼆)使⽤“描述统计”分析⼯具1、输⼊数据2、选择“⼯具”中的“数据分析”命令,在“数据分析”选项中选择“描述统计”后确定。
3、在弹出的“描述统计分析”对话框的“输⼊区域”数值框中输⼊待分析数据所在的单元格区域,A1:A40;输出区域为D54、选中“汇总统计”复选框,输出结果则包括样本的平均数、抽样平均误差、中位数、众数等。
实验内容:某班有40名学⽣统计课程考试成绩如下:76 72 90 60 60 82 60 80 80 99 80 70 80 73 75 60 76 92 84 80 81 78 80 85 80 99 60 80 84 76 87 91 42 58 84 88 84 56 75 58计算:相关统计指标。
⼆、由分组数据计算反映分布特征的有关指标使⽤EXCEL单元格操作计算相关指标求平均数、标准差、平均差。
三、某⼚有两个车间,甲车间有职⼯150⼈,其中男性为100⼈,⼥性为50⼈。
男性职⼯中⾼级职称职⼯为10⼈,中级职称职⼯为45⼈,其余为初级职称及初级以下;⼥性职⼯中⾼级职称职⼯为4⼈,中级职称职⼯为17⼈,其余为初级及以下。
⼄车间共有职⼯200⼈,其中男性为145⼈,⼥性为55⼈。
男性职⼯中⾼级职称职⼯为19⼈,中级职称职⼯为56⼈,其余为初级职称及初级以下;⼥性职⼯中⾼级职称职⼯为10⼈,中级职称职⼯为15⼈,其余为初级及以下。
SPSS应用二 描述统计

列合计 n j f ij , j 1 , 2 , , c . 而样本容量 n f ij
r i 1
i 1 j 1
r
c
r × c 列联表
列 行 1 2 … 1 2 … … … … c 合计
f11 f 21
…
f 12
f 22
…
f1c
f r2
…
n1
n2
…
r
合计
P25
P0
偏度和峰度系数
偏态是指大部份的数值落在平均数的哪一边, 若分配較多集中在低数值方面,是为正偏态分配 (或称右偏态分配);若分配较多集中在高数值方面, 是为负偏态分配(或称左偏态分配),正态分布的偏 态为0,SPSS计算公式为:
n SKewness (n 2)
s ( xi x )2
计算
公式: n为奇数时
MX
(
n 1 ) 2
n为偶数时
1 M X n X n ( 1) 2 (2) 2
中位数的特征
1. 计算时只利用了位置居中的测量值 优点:对极值不敏感 缺点:并非考虑到每个观测值 2. 适用于各种分布类型的资料, 特别适合于:大样本偏态分布资料 或者一端或两端无确切数值的资料
580 560 540 520 500 480 460 440 420
560 540 500 460 440
2500
520 510 500 490 480
2500
510 505 500 495 490
2500
均数
500
500
500
甲
乙 丙
离散与变异性指标
全距 四分位间距 方差 标准差 变异系数
统计学原理实验报告1(统计描述)(2)

统计学原理实验报告(一)代码5:成绩59-50分组频率100-901089-801579-701169-60459-502其他0(2)绘制直方图3.(1)指出表中的数据属于什么类型?品质数据类型(2)用Excel制作一张频数分布表;分组频率A 14B 21C 32D 18E 15其他0(3) 绘制一张条形图,反映评价等级的分布。
4.试绘制雷达图。
5.试绘制环形图,比较不同地区农村居民收入构成情况6.绘制第一、二、三产业国内生产总值的折线图比较三大产业发展趋势,并做简要分析说明。
①第一产业呈现上升趋势,但与第二第三产业相比,增速缓慢。
②第二产业第三产业呈快速增长趋势7.用数据透视表生成频数分布表,观察饮料类型和消费者性别的分布状况。
计数项:饮料类型顾客性别饮料类型男女总计果汁 1 5 6矿泉水 6 4 10绿茶7 4 11其他 2 6 8碳酸饮料 6 9 15总计22 28 508.(1) 集中趋势的测度值:众数、中位数、均值(2)测度离中趋势:方差、标准差、极差(3)峰态与偏态的测度:峰态系数和偏态系数列1平均122.7667标准误差1.796346中位数122.5众数123标准差9.838991方差96.80575峰度-0.37838偏度0.294045区域39最小值106最大值145求和3683观测数30最大(1)145置信度(95.03.67394。
卫生统计学第1-5次实验内容
卫生统计学第1-5次实验内容实验一统计表与统计图(一)实验目的1、掌握统计表的基本概念和列表原则;2、掌握统计图的基本概念和常用统计图的绘制方法。
(二)实验内容1、统计表常见错误的纠正。
2、常用统计图的绘制。
(三)实验资料的分析过程1. 某地调查脾肿大和疟疾临床分型的关系、程度与血片查疟原虫结果列表如下,此表有何缺点,请改进2.试根据下表资料绘制适当统计图形表某地1975年839例正常人发汞值分布资料(卩g/g)组段0〜0.2〜0.4〜0.6〜0.8〜 1.0〜 1.2〜 1.4〜1.6〜2.2 合计例数133 193 190 111 83 34 43 16 36 8393. 根据下表分别绘制普通线图和半对数线图,并说明两种统计图型的意义。
某地某年食管癌年龄别发病率(1/10万)年龄(岁)男女40〜 4.4 2.145〜7.2 3.350〜7.3 4.555〜 6.9 5.560〜19.3 6.765〜50.2 16.470〜68.5 12.575〜86.2 19.980〜97.0 15.2实验二计量资料的统计描述(一)实验目的1、掌握各种平均数指标的计算及其适用条件;2、掌握离散趋势指标标准差的计算及其适用条件;3、熟悉频数表和直方图的绘制方法。
(二)实验内容1、编制大样本定量资料的频数分布表,了解资料的分布规律;2、算术均数、几何均数、中位数、极差、标准差的计算,医学参考值范围的制订。
(三)实验资料的分析过程1、某地100例30-40岁健康男子血清总胆固醇值(mg/dl)测定结果如下:202 165 199 234 200 213 155 168 189 170 188 168 184147219 174 130 183178 174 228 156 171 199 185 195 230 232 191 210 195 165178172 124 150 211177 184 149 159 149 160 142 210 142 185 146 223 176 241164197 174 172 189174 173 205 224 221 184 177 161 192 181 175 178 172 136222113 161 131 170138 248 153 165 182 234 161 169 221 147 209 207 164 147210182 183 206 209201 149 174 253 252 156(1)编制频数分布表并画出直方图;(2)根据频数表计算均值和中位数,并说明用哪一个指标比较合适;(3)计算百分位数P5、P25、P75和P95。
描述统计学实验报告 (2)
描述统计学实验报告 (2)
统计学实验报告是对一个或多个实验进行的详细描述和分析。
报告的目的是总结实验的结果,评估实验的可靠性和有效性,并通过统计方法提供数据支持。
以下是一个可能的统计学实验报告的结构和内容:
1. 引言
- 简要介绍实验的目的和背景
- 阐述为什么这个实验是重要的,以及它可能对某个领域产生的影响
2. 方法
- 详细描述实验的设计和操作步骤
- 指出实验的变量、样本大小、实验组和对照组等重要信息 - 解释数据采集的方法和工具
3. 数据分析
- 描述数据的整体特征,例如均值、中位数、标准差等
- 适用于数据类型的相应统计方法
- 显示和解释相关的图表和图像,如柱状图、折线图、散点图等
- 运用统计学方法进行推断和假设检验,以确定结果的置信程度
4. 结果与讨论
- 给出实验结果的总结, 包括显著性水平和置信区间
- 解释实验结果所带来的意义和影响
- 分析实验结果的可靠性,并讨论可能的误差来源
- 讨论实验结果与已有理论或研究的一致性或差异
5. 结论
- 总结实验的主要发现和结果
- 强调实验的局限性和可能的改进方案
- 提出进一步的研究建议
6. 参考文献
- 引用与实验相关的文献和资料
整个报告应该以清晰、逻辑和系统的方式编写,具有可重复性和可验证性。
数据和结果的解释应该基于统计学原理,并与实验的目的和假设相一致。
最后,图表和图像应该有适当的标签和解释,以便读者理解和解释。
知识点2 描述统计分析
知识点2描述统计分析描述分析像频率分析那样,属于SPSS数据分析中描述分析部分。
它是将研究中所得的数据加以整理、归类,简化或绘制成图表,以此分析数据的观测个数、中心趋势以及到中心值的变异或离散程度的一个过程。
通过描述分析,可以清晰、准确地分析数据的分布特点描述性分析过程主要用于对连续变量做描述性分析,可以输出多种类型的统计量,也可以将原始数据换成标准Z分值并存入当前数据集。
本节将结合实例对几个常用基本统计量的描述性分析过程进行详细介绍1描述统计分析概述描述统计的过程为单个表中若干变量显示单变量摘要的统计量,并以此计算标准化值。
其中,描述统计主要涉及数据的集中趋势、离散程度和分布形态,最常用的指标有平均数、标准差和方差等。
1.集中趋势集中趋势是指一组数据向某一中心值靠拢的程度,反映了该组数据中心点的位置。
集中趋势统计主要是寻找数据水平的代表值或中心值,其度量包括均值、中位数、众数和中列数。
(1)均值均值又称为算术平均数,表示一组数据或统计总体的平均特征值,是最常见的代表值或中心值,主要反映了某个变量在该组观测数据中的集中趋势和平均水平。
均值是计算平均指标最常用的方法和形式,其计算公式为式中:n为总体样本数:x为各样本值。
通过该公式,用户可以发现均值的大小比较容易受到数据中极端值的影响。
(2)众数众数是指一组数据中出现最多的数值,也是明显集中趋势的数值。
在统计分析数据中,鉴于数据分组区别于单项式和组距不同类型的分组,所以众数的方法也各不相同。
其中,由单项式分组确定众数的方法比较简单,即表示出现次数最多的数值,该方法也是最常用的方法之。
另外,由组距分组确定的众数需要先确定众数组,然后根据计算公式计算出众数的近似值而众数值是依据众数组的次数与众数组相邻的两组次数的关系近似值,其计算公式分为上限与下限公式,表示如下。
上限公式为下限公式为式中:M。
为众数:L为众数组的下限;び为众数组的上限;fM0为众数组的次数:fM0-1为众数组前一次的次数,fM0+1为众数组后一组的次数;dM0为众数组的组距。
田间试验设计与统计实验报告、实验二
343
最大(1)
537
最小(1)
142
最小(1)
25
置信度(95.0%)
66.72586
置信度(95.0%)
143.2245
实验总结
思考题
计算下表数据的描述性统计数,并对数据计算结果加以解释。
NO
x
y
1
261
417
2
142
500
3
58
4
142
473
5
275
25
6
299
385
7
142
364
8
偏度
0.16912
偏度
-1.2699
区域
201
区域
512
最小值
142
最小值
25
最大值
343
最大值
537
求和
1802
求和
3202
观测数
8
观测数
9
最大(1)
343
最大(1)
537
最小(1)
142
最小(1)
25
置信度(95.0%)
66.72586
置信度(95.0%)
143.2245
指导教师意见
签名:年月日
3、文献资料:《田间试验设计与统计实验》
实验步骤
在同一行连续输入各个变量的名称→在名称下方输入数据→打开“工具”菜单→点击“数据分析”选项→选择“描述统计”→点击“确定”按钮→选定包括数据名称在内的数据区域(本例B1:C10)→选中“标志位于第一行”按钮→选中“输出区域”复选按钮→点击“输出区域”框内→选定显示计算结果的第一个单元格(本例A12)→选中“汇总统计”复选按钮→点击“确定”按钮。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
试验2 描述统计一、试验目的与要求统计分析的目的在于研究总体特征。
但是,由于各种各样的原因,我们能够得到的往往只能是从总体中随机抽取的一部分观察对象,他们构成了样本,只有通过对样本的研究,我们才能对总体的实际情况作出可能的推断。
因此描述性统计分析是统计分析的第一步,做好这一步是进行正确统计推断的先决条件。
通过描述性统计分析可以大致了解数据的分布类型和特点、数据分布的集中趋势和离散程度,或对数据进行初步的探索性分析(包括检查数据是否有错误,对数据分布特征和规律进行初步观察)。
本本试验旨在于:引到学生利用正确的统计方法对数据进行适当的整理和显示,描述并探索出数据内在的数量规律性,掌握统计思想,培养学生学习统计学的兴趣,为继续学习推断统计方法及应用各种统计方法解决实际问题打下必要而坚实的基础。
二、试验原理描述统计是统计分析的基础,它包括数据的收集、整理、显示,对数据中有用信息的提取和分析,通常用一些描述统计量来进行分析。
集中趋势的特征值:算术平均数、调和平均数、几何平均数、众数、中位数等。
其中均数适用于正态分布和对称分布资料,中位数适用于所有分布类型的资料。
离散趋势的特征值:全距、内距、平均差、方差、标准差、标准误、离散系数等。
其中标准差、方差适用于正态分布资料,标准误实际上反映了样本均数的波动程度。
分布特征值:偏态系数、峰度系数、他们反映了数据偏离正态分布的程度。
三、试验内容与步骤下面给出的一个例题是来自SPSS软件自带的数据文件“Employee.data”,该文件包含某公司员工的工资、工龄、职业等变量,我们将利用此例题给出相关的描述统计说明,本例中,我们将以员工的当前工资为例,计算该公司员工当前工资的一些描述统计量,如均值、频数、方差等描述统计量的计算。
1.频数分析(Frequencies)1基本统计分析往往从频数分析开始。
通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的。
比如,在某项调查中,想要知道被调1频数分析多适用于离散变量,其功能是描述离散变量的分布特征。
查者的性别分布状况。
频数分析的第一个基本任务是编制频数分布表。
SPSS中的频数分布表包括的内容有:(1)频数(Frequency)即变量值落在某个区间中的次数。
(2)百分比(Percent)即各频数占总样本数的百分比。
(3)有效百分比(Valid Percent)即各频数占有效样本数的百分比。
这里有效样本数=总样本-缺失样本数。
(4)累计百分比(Cumulative Percent)即各百分比逐级累加起来的结果。
最终取值为百分之百。
频数分析的第二个基本任务是绘制统计图。
统计图是一种最为直接的数据刻画方式,能够非常清晰直观地展示变量的取值状况。
频数分析中常用的统计图包括:条形图,饼图,直方图等。
频数分析的应用步骤在SPSS中的频数分析的实现步骤如下:选择菜单“【文件】—>【打开】—>【数据】”在对话框中找到需要分析的数据文件“SPSS/Employee data”,然后选择“打开”。
选择菜单“【分析】—>【描述统计】—>【频率】”。
如图2.1所示询问是否输出频数分布表图2.1 Frequencies对话框确定所要分析的变量,例如年龄在变量选择确定之后,在同一窗口上,点击“Statistics”按钮,打开统计量对话框,如下图2.2所示,选择统计输出选项。
图2.2 统计量子对话框图2.3 Charts子对话框结果输出与分析点击Frequencies 对话框中的“OK”按钮,即得到下面的结果。
表2.4 描述性统计量StatisticsGender表2.4中给出了总样本量(N),其中变量Gender的有效个数(Valid)为474个、缺失值(missing)为0。
表2.5 Gender频数分布表表2.5中,Frequency是频数,Percent是按总样本量为分母计算的百分比,Valid Percent是以有效样本量为分母计算的百分比,Cumulative Percent是累计百分比。
图2.5变量Gender的条形图,图2.6变量Gender的饼图。
图2.5 变量gender的条形图图2.6 变量gender的饼图2.描述统计(Descriptives)2SPSS的【描述】命令专门用于计算各种描述统计性统计量。
本节利用某年国内上市公司的财务数据来介绍描述统计量在SPSS中的计算方法。
具体操作步骤如下:2描述统计主要对定距型或定比型数据的分布特征作具体分析。
选择菜单【分析】→【描述统计】→【描述】,如图2.7所示图2.7 描述对话框将待分析的变量移入Variables列表框,例如将每股收益率、净资产收益率、资产负债率等2个变量进行描述性统计,以观察上市公司股权集中度情况和负债比率的高低。
Save standardized values as variables,对所选择的每个变量进行标准化处理,产生相应的Z分值,作为新变量保存在数据窗口中。
其变量名为相应变量名前加前缀z。
标准化计算公式:s xxi Zi -=单击【选项】按钮,如图2.8 所示,选择需要计算的描述统计量。
各描述统计量同Frequencies命令中的Statistics子对话框中大部分相同,这里不再重复。
图2.8 选项子对话框在主对话框中单击ok执行操作。
结果输出与分析在结果输出窗口中给出了所选变量的相应描述统计,如表2.6所示。
从表中可以看到,我国上市公司前两大股东持股比例之比平均高达102.9,说明“一股独大”的现象比较严重;前五大股东持股比例之和平均为51.8%,资产负债率平均为46.78%。
另外,从偏态和峰度指标看出,前两大股东持股比例之比的分布呈现比较明显的右偏,而且比较尖峭。
为了验证这一结论,可以利用Frequencies命令画出变量z的直方图,如图2.9表2.6 描述统计量表Descriptive Statistics图2.9 变量Z的直方图3.探索分析(Explore)调用此过程可对变量进行更为深入详尽的描述性统计分析,故称之为探索分析。
它在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,显得更加细致与全面,对数据分析更进一步。
探索分析一般通过数据文件在分组与不分组的情况下获得常用统计量和图形。
一般以图形方式输出,直观帮助研究者确定奇异值、影响点、还可以进行假设检验,以及确定研究者要使用的某种统计方式是否合适。
在打开的数据文件上,选择如下命令:选择菜单“【分析】—>【描述统计】—>【探索】”,打开对话框。
因变量列表;待分析的变量名称,例如将每股收益率作为研究变量。
因子列表:从源变量框中选择一个或多个变量进入因子列表,分组变量可以将数据按照该观察值进行分组分析。
标准个案:在源变量表中指定一个变量作为观察值的标识变量。
在输出栏中,选择两者都,表示输出图形及描述统计量。
选择【统计量】按钮,选择想要计算的描述统计量。
如图所示对所要计算的变量的频数分布及其统计量值作图打开“Plots对话框”,出现如下图。
结果的输出与说明(1)Case Processing Summary 表在Case Processing Summary 表中可以看出female 有216个个体,Male258个个体,均无缺失值。
(2)Descriptives 表DescriptivesGender Statistic Std. Error Current Salary Female Mean $26,031.92 $514.25895% Confidence Interval for Mean Lower Bound $25,018.29 Upper Bound$27,045.555% Trimmed Mean $25,248.30Median $24,300.00Variance 57123688.268Std. Deviation $7,558.021Minimum $15,750Maximum $58,125Range $42,375 Interquartile Range $7,013Skewness 1.863 .166 Kurtosis 4.641 .330Male Mean$41,441.78 $1,213.96895% Confidence Interval for Mean Lower Bound $39,051.19 Upper Bound$43,832.375% Trimmed Mean $39,445.87Median $32,850.00Variance 380219336.303Std. Deviation $19,499.214Minimum $19,650Maximum $135,000Range $115,350 Interquartile Range $22,675Skewness 1.639 .152 Kurtosis 2.780 .302(3)职位员工薪水直方图显示(4)茎叶图描述茎叶图自左向右可以分为3 大部分:频数(Frequency)、茎(Stem)和叶(Leaf)。
茎表示数值的整数部分,叶表示数值的小数部分。
每行的茎和每个叶组成的数字相加再乘以茎宽(Stem Width),即茎叶所表示的实际数值的近似值。
Current Salary Stem-and-Leaf Plot forgender= FemaleFrequency Stem & Leaf2.00 1 . 5516.00 1 . 666666666677777714.00 1 . 8888999999999931.00 2 . 000000000000011111111111111111135.00 2 . 2222222222222222222223333333333333338.00 2 . 4444444444444444444444444455555555555522.00 2 . 666666666667777777777717.00 2 . 888888999999999997.00 3 . 00011118.00 3 . 222333338.00 3 . 44444555 5.00 3 . 66777 2.00 3 . 8811.00 Extremes (>=40800)Stem width: 10000 Each leaf: 1 case(s)(5)箱图图中灰色区域的方箱为箱图的主体,上中下3 条线分别表示变量值的第75、50、25百分位数,因此变量的50%观察值落在这一区域中。
方箱中的中心粗线为中位数。
箱图中的触须线是中间的纵向直线,上端截至线为变量的最大值,下端截至线为变量的最小值。