《现代统计分析方法与应用》第三版

合集下载

张厚粲《现代心理与教育统计学》(第3版)笔记考点课后答案

张厚粲《现代心理与教育统计学》（第3版）笔记考点课后答案张厚粲著的《现代心理与教育统计学》（第4版）是我国高校采用较多的心理与教育统计学权威教材。

作为这本教材的学习辅导书，1．整理名校笔记，浓缩内容精华。

每章的复习笔记以经典教材为主并结合国内其他著名的心理与教育统计学著作对各章的重难点进行了整理，并参考了《心理统计》（第9版，理查·鲁尼恩等著，人民邮电出版社）等国外教材，因此，2．解析课后习题，提供详尽答案。

3．精选考研真题，补充难点习题。

为了强化对重要知识点的理解，第1章绪论1.1 复习笔记本章重点ü心理与教育统计的研究内容ü选择使用统计方法的基本步骤ü统计数据的基本类型ü心理与教育统计的基本概念一、统计方法在心理和教育科学研究中的作用（一）心理与教育统计的定义与性质1．心理与教育统计学是专门研究如何运用统计学原理和方法，搜集、整理、分析心理与教育科学研究中获得的随机性数据资料，并根据这些数据资料传递的信息，进行科学推论找出心理与教育活动规律的一门学科。

2．具体讲，就是在心理与教育研究中，通过调查、实验、测量等手段有意地获取一些数据，并将得到的数据按统计学原理和步骤加以整理、计算、绘制图表、分析、判断、推理，最后得出结论的一种研究方法。

3．统计学大致分为理论统计学（theoretical statistics）和应用统计学（applied statistics）两部分。

前者侧重统计理论与方法的数理证明，后者侧重统计理论与方法在各个实践领域中的应用。

心理与教育统计学属于应用统计学范畴，是应用统计学的一个分支。

类似的还有生物统计、社会统计、医学统计、人口统计、经济统计等。

（二）心理与教育科学研究数据的特点1．心理与教育科学研究数据与结果多用数字形式呈现2．心理与教育科学研究数据具有随机性和变异性3．心理与教育科学研究数据具有规律性4．心理与教育科学研究的目标是通过部分数据来推测总体特征（三）学习心理与教育统计应注意的事项1．学习心理与教育统计学要注意的几个问题（1）学习心理与教育统计学时，必须要克服畏难情绪。

《现代统计学》课件

逻辑回归
学习如何利用逻辑回归分析处理分类问题。
非参数统计方法
1 非参数检验
学习如何利用非参数方法对数据进行推断，适用于不满足参数分布假设的情况。
2 非参数回归
掌握非参数回归方法，用于探究自变量与因变量之间的非线性关系。
3 非参数聚类
了解非参数聚类方法，用于将样本按照相似性进行分组。
数据挖掘
1
数据挖掘的概念和方法
探索性数据分析
学习如何通过可视化和统计方法发现数据中的模式、趋势和异常。
假设检验
1
假设检验的基本概念
了解假设检验的基本思想和步骤，以及
正态分布假设检验
2
如何根据样本数据对总体参数进行推断。
学习如何对正态分布总体的均值和方差
进行假设检验。
3
非正态分布假设检验
学习如何对非正态分布总体的中位数和比例进行假设检验。
《现代统计学》PPT课件
现代统计学是一门重要的学科，它在解决实际问题和决策制定中起着至关重要的作用。本PPT课件将为您介绍现代统计学的基本概念、数据分析方法和应用领域。
统计学的概念及作用
统计学是一门研究收集、整理、分析和解释数据的科学。通过统计学，我们可以更好地理解数据背后的规律和关系，从而为决策提供科学依据。
方差分析
单因素方差分析
掌握单因素方差分析的基本原理和应用方法。
多因素方差分析
学习如何利用多因素方差分析探究不同因素对于变量的影响。
方差分析应用案例
通过实际案例了解方差分析在不同领域的应用。
回归分析
简单线性回归
学习如何利用简单线性回归分析探究两个变量之间的关系。
多元线性回归
了解多元线性回归分析在多个自变量情况下的应用。

张厚粲《现代心理与教育统计学》(第3版)配套题库[课后习题](多变量统计分析简介)

第13章多变量统计分析简介1．探索性因素分析与验证性因素分析有什么区别?答：(1)探索性因素分析（exploratory factor analysis，简写为EFA）就是指传统的因素分析。

这种因素分析方法对于观察变量因子结构的寻找，并未有任何事前的预设假定。

对于因子的抽取、因子的数目、因子的内容以及变量的分类，研究者也没有事前的预期，而是由因素分析的程序去决定。

在典型的EFA中，研究者通过共变关系的分解，找出最低限度的主要成分（principal component）或共同因子（common factor），然后进一步探讨这些主成分或共同因子与个别变量的关系，找出观察变量与其相对应因子之间的强度，也就是因子负荷值（factor loading），以说明因子与所属的观察变量的关系，决定因子的内容，为因子取一个合适的名字。

由于传统的因素分析企图找出最少的因子来代表所有的观察变量，因此研究者必须在因子数目与可解释变异量（explained variance）两者间寻找平衡点。

因为因素分析至多可以抽取出相等于观察变量总数的因子数目，这样，虽然可以解释全部百分之百的变异，但失去因素分析找寻因子结构的目的，但如果研究者企图以少数几个较明显的因子来代表所有的项目，势必然将损失部分可解释变异来作为代价。

因而在EFA中，研究者相当一部分工作是在决定因子数目与提高因子解释的变异（即R square）。

(2)验证性因素分析（confirmatory factor analysis，简写为CFA）是在研究人员积极改善传统因素分析的限制，扩大其应用范围的基础上产生的。

这类因素分析要求，研究者对于潜在变量的内容与性质，在测量之初就必须有非常明确的说明，或有具体的理论基础，并已先期决定相对应的观察变量的组成模式，进行因素分析的目的是为了检验这一先期提出的因子结构的适合性。

这种因素分析方法也可用于理论架构的检验，它在结构方程模型中占有相当重要的地位，有着重要的应用价值，也是近年来心理测量与测验发展中相当重视的内容。

与医学检验相关的书籍

与医学检验相关的书籍医学检验是现代医学中非常重要的一项技术，它通过对人体的体液、组织、细胞等进行检测分析，可以提供诊断、预防和治疗方案的依据。

在医学检验领域，有许多经典的书籍，下面我将为大家介绍一些与医学检验相关的重要书籍。

一、《医学检验学》这本书是医学检验领域的经典教材，由国内著名医学检验学家主编。

书中详细介绍了医学检验的基本概念、原理、方法和临床应用。

它涵盖了血液学、尿液学、生化学、免疫学、微生物学等多个方面的内容，是医学检验学习和实践的重要参考书。

二、《现代医学检验技术与临床应用》这本书介绍了医学检验技术的最新进展和临床应用。

它系统地介绍了各种常见的检验项目，包括血液、尿液、体液、组织等的检验方法和结果解读。

同时，书中还对各种检验仪器的原理和操作进行了详细的讲解，对提高医学检验技术水平具有重要意义。

三、《实验室质量管理与内审指南》这本书主要介绍了医学实验室的质量管理和内审工作。

它讲解了实验室质量管理的基本原理和方法，包括质量体系建立、文件管理、设备校准和质量控制等方面的内容。

同时，书中还详细介绍了内审的步骤和要点，对提高实验室管理水平和质量保障能力非常有帮助。

四、《临床检验技术与方法学》这本书主要介绍了临床检验技术的基本原理和方法学。

它从临床检验的目的、流程和步骤出发，详细介绍了各种常见的检验项目的原理和方法。

同时，书中还介绍了检验结果的解读和质量控制的要点，对临床医生和医学检验人员都具有很高的参考价值。

五、《医学统计学与实验设计》这本书介绍了医学统计学在医学检验中的应用。

它详细讲解了医学统计学的基本概念、方法和技术，包括样本容量计算、假设检验、方差分析和回归分析等方面的内容。

同时，书中还介绍了实验设计的原则和方法，对进行临床试验和实验室研究都非常有帮助。

以上是一些与医学检验相关的重要书籍，它们覆盖了医学检验学的基本理论和实践技术，对于医学检验人员和临床医生都具有很高的参考价值。

通过学习这些书籍，我们可以更好地理解医学检验的原理和方法，提高检验结果的准确性和可靠性，为患者的诊断和治疗提供更好的支持。

现代心理教育与统计学第三版复习资料(张厚粲)

第一章绪论1.描述统计（descriptive statistics)主要研究如何将实验或调查得到的大量数据进行图表整理或简缩成有代表性的数字（即统计量数），使其能客观、全面地反映这组数据的全貌，将其所提供的信息充分显现出来，为进一步统计分析和推论提供可能。

2.描述统计只限于对试验样本所得观测数据的统计分析，不考察其总体的特性。

3.推论统计(inferential statistics)是以描述统计为基础，从而解决由局部到全体的推论问题，即通过对一组统计量的计算分析，推论该组数据所代表的总体特性。

4.变量(variables)：一个可以取不同数值的物体属性/事件。

5.事前无法预期结果的变量——随机变量6.观测值（原始取值）：事后测定的某一结果。

7.概念理解：[涉及“实验”] 自变量（及其各水平）& 因变量（及相应的反应指标）；[涉及“调查”，粗略对应于] 属性变量& 反应变量8.计数资料(count data)：计算个数的数据，（如人口数，学校数，男女数等）9.计量资料(measurement data)：借助于一定的测量工具或一定的测量标准而获得的数据（如分数，身高，体重，IQ）10.称名数据(nominal data)：只区分属性或类别上的不同，只可计数，不能排序（性别，学科，职业）11.等级/顺序数据(ordinal data)：可排序，但无相等单位，不能加减。

（等级评定，受教育程度，职称）12.等距数据(interval data)：具有相等单位，无绝对零的数据，能加减不能乘除。

13.比率数据(ratio data)：既表明量的大小，又具有相等单位，可以加减乘除，具有绝对零点。

14.称名数据和顺序数据合称为离散数据。

15.等距数据和比率数据合称为连续数据。

16.离散数据(discrete data)又称为不连续数据，这类数据在任何两个数据点之间所取的数据的个数是有限的。

17.连续数据(continuous data)指任意两个数据点之间都可以细分出无限多个大小不同的数值。

数据分析方法：常用统计分析方法与应用

数据分析方法：常用统计分析方法与应用引言数据分析是在对大量数据进行收集、清洗和处理后，利用统计学方法进行解释和推断的过程。

在现代社会中，数据分析被广泛应用于各个领域，包括商业、金融、医疗、科学研究等。

本文将介绍一些常用的统计分析方法，以及它们在实际应用中的意义和步骤。

1. 描述性统计分析描述性统计分析是通过概括和总结数据来了解数据的基本特征。

常见的描述性统计指标包括：•平均数：表示一组数据的平均水平。

•中位数：表示一组数据中居于中间位置的数值。

•众数：表示一组数据中出现次数最多的数值。

•方差和标准差：表示一组数据的离散程度。

•百分位数：表示一组数据中特定百分比位置上的数值。

描述性统计分析可以帮助我们对数据有一个整体认识，并发现其中可能存在的问题或规律。

2. 探索性数据分析（EDA）探索性数据分析是通过可视化手段和统计方法探索数据之间的关系和趋势。

常见的EDA方法包括：•直方图：用于展示数据的分布情况。

•散点图：用于展示两个变量之间的相关性。

•箱线图：用于展示多组数据之间的比较。

•折线图：用于展示随时间变化的趋势。

EDA可以帮助我们发现数据中的模式、异常值和缺失值等问题，并为进一步分析提供指导。

3. 假设检验假设检验是通过收集样本数据来推断总体参数或假设是否成立的方法。

常见的假设检验方法包括：•单样本t检验：用于判断一个样本均值是否与已知均值有显著差异。

•两样本t检验：用于判断两个样本均值是否有显著差异。

•方差分析（ANOVA）：用于判断多个样本均值是否有显著差异。

•卡方检验：用于判断观察频数与期望频数之间是否有显著差异。

假设检验可以帮助我们验证研究假设，并根据结果进行决策和推断。

4. 回归分析回归分析是一种用来建立因果关系模型的统计方法。

常见的回归分析方法包括：•线性回归：用于探究因变量和自变量之间线性关系的模型。

•逻辑回归：用于探究因变量和自变量之间逻辑关系的模型。

•多元回归：用于探究多个自变量对因变量的影响。

03Stata的数据库操作技巧-《现代医学统计方法与STATA应用》

第三章Ｓｔａｔａ的数据库操作技巧　数据库管理是统计分析软件的基础，熟练地掌握数据库的操作是进行统计分析的前提，特别是对实际资料进行分析时，数据库操作技巧尤显重要。

本章是Stata的基础部分，对需要深入了解Stata或进行复杂的数据库操作的读者，是必不可少的。

§３．１Ｓｔａｔａ数据库的建立　Stata数据库的建立有4种方法，即从命令行键盘输入、用Stata的数据编辑器输入、从ASCII数据文件读入，以及从dbase或Foxbase数据库，SAS，SPSS等数据文件中转入。

一、从键盘输入数据　从键盘输入数据适用于数据量比较少的情况。

用input命令。

例3.1 表３．１为一配对试验数据，试从键盘输入Ｓｔａｔａ，并保存为Ｓｔａｔａ格式文件。

　表３．１配对试验数据　x0 x1　３５５０２４５０　　２０００２４００　　３０００１８００　　３９５０３２００　　３８００３２５０　　３７５０２７００　　３４５０２５００　　３０５０１７５０　进入Stata后，键入input及变量名x0 x1，Stata即进入数据输入状态。

然后依次输入数据x0和x1，所输数据的顺序与变量名一致，数据间用空格分开，每输完一组键入回车键Enter ，数据输完后键入“end”，Stata将自动退到圆点提示符状态。

．　ｉｎｐｕｔ　ｘ０　ｘ１　ｘ０ｘ１　１．３５５０２４５０２．２０００２４００　３．３０００１８００　４．３９５０３２００　５．３８００３２５０　６．３７５０２７００　７．３４５０２５００　８．３０５０１７５０　９．ｅｎｄ　至此，数据输入完毕。

可用list命令查看。

要将数据存成Stata的格式文件，用命令“save”：．　ｓａｖｅ　ｄ：＼ｍｙｄａｔａ＼ｅｘ３－１　该指令在d:\盘的mydata子目录中建立了一个名为“ex3-1.dta”的Stata数据文件。

后缀dta是Stata内定的数据格式文件。

《统计学基础》第三版习题答案

各位老师读者好：《统计学基础》（王瑞卿主编，北京大学出版社，2016年8月第3版）每个项目后面设置了技能训练题库，由于统计学教材很多，不同的老师在编写时内容描述会有些许差异，所以有些习题答案可能有差异，答案以本教材为准。

祝各位工作、学习顺利。

真诚欢迎各位提出您的宝贵意见！王瑞卿2016年9月12日项目1 统计概论一、填空题1．现代统计的含义包括三个方面：、和。

2．一个完整的统计工作过程可以划分为、、、四个阶段。

3．总体是由许多具有的个别事物组成的整体；总体单位是的组成单位。

4．标志是说明总体单位的特征的名称，按表现形式不同分为和两种。

5．统计指标按其所说明的总体现象内容的不同，可分为和。

参考答案1.统计工作统计资料统计学2. 统计设计统计调查统计整理统计分析3.共同属性总体4.数量标志品质标志5.数量指标质量指标二、单项选择题1．统计总体的同质性是指（B ）。

A．总体各单位具有某一共同的品质标志或数量标志B．总体各单位具有某一共同的品质标志属性或数量标志值C．总体各单位具有若干互不相同的品质标志或数量标志D．总体各单位具有若干互不相同的品质标志属性或数量标志值2．某地区有800家工业企业，要研究这些企业的产品生产情况，总体是（ A ），总体单位是（ B ）。

A．全部工业企业B．每一家工业企业C．每一件产品D．800家工业企业的全部工业产品3．要了解某班50名学生的学习情况，则总体是（ A ），总体单位是（ C ）。

A．50名学生B．50个学生的学习成绩C．每一个学生D．每一个学生的学习成绩4．一个统计总体（ B ）。

A．只能有一个标志B．可以有多个标志C．只能有一个指标D．可以有多个指标5．张明的月工资为4560元，工资是（ B ），4550是（ C ）。

A．品质标志B．数量标志C．变量值D．指标6．在调查设计时，学校作为总体，每个班作为总体单位，各班学生人数是（ A ）。

张厚粲《现代心理与教育统计学》(第3版)配套题库[课后习题](卡方检验)

1 / 21
圣才电子书十万种考研考证电子书、题库视频学习平台

两个母总体是同质的，反之，则说这两个母总体是异质的。
3．比率的显著性检验与 2 检验的哪些应用有相同功能?
答：在只有两项分类的 2 检验与比例的显著性检验相同。在比率显著性检验时，先将所关心的某一性质的实计数换算成比率 p ， p 1 q ， q 为非某一性质分类的次数比率。若
圣才电子书十万种考研考证电子书、题库视频学习平台

第 10 章卡方检验
1．对于计数数据的统计分析方法有哪些? 答：可用于计数数据的统计分析方法有： 2 检验、配合度检验、四个表独立检验、多重列联表分析等。
2． 2 检验法在计数数据的分析中有哪些应用? 答： 2 检验因研究的问题不同，可以细分为多种类型，如配合度检验、独立性检验、同质性检验等等。（1）配合度检验主要用来检验一个因素多项分类的实际观察数与某理论次数是否接近，这种 2 检验方法有时也称为无差假说检验。当对连续数据的正态性进行检验时，这种检验又可称为正态吻合性检验。（2）独立性检验是用来检验两个或两个以上因素各种分类之间是否有关联或是否具有独立性的问题。两个因素是指所要研究的两个不同事物。例如性别与对某个问题的态度是否有关系，这里性别是一个因素，分为男女两个类别，态度是另一个因素，可分为赞同、不置可否、反对等多种类别。各因素分类的多少视研究的内容及所划分的分类标志而定。这种类型的 2 检验适用于探讨两个变量之间是否具有关联（非独立）或无关（独立），如果再加入另一个变量的影响，即探讨三个变量之间关系时，就必须使用多维列联表分析方法。（3）同质性检验主要目的在于检定不同人群母总体在某一个变量的反应是否具有显著差异。当用同质性检验检测双样本在单一变量的分布情形，如果两样本没有差异，就可以说

论文中的数据处理和统计分析方法

论文中的数据处理和统计分析方法在现代科研领域，数据处理和统计分析方法是进行实证研究的重要环节。

正确的数据处理和统计分析方法能够确保研究结果的可信性和科学性。

本文将就论文中的数据处理和统计分析方法进行探讨和分析。

一、数据处理方法数据处理是指对原始数据进行整理、清洗、转换和组织的过程。

选择合适的数据处理方法能够提高数据的质量和可用性，确保后续的统计分析结果准确有效。

1. 数据整理和清洗在论文中，数据整理和清洗是第一步。

这一过程包括对数据进行排序、去除异常值和缺失值，并进行重复数据的检测和去重。

同时，还可以对数据进行转换，比如单位转换、标准化等，以提高数据的一致性和可比性。

2. 数据转换和组织为了便于后续的统计分析，对数据进行合适的转换和组织也是必要的。

这可以包括数据的归类、分组、求和等操作，以及数据的转置和透视等处理手段。

通过合理的数据转换和组织，可以减少冗余信息，并使数据更加紧凑和可读。

二、统计分析方法统计分析是利用统计学原理和方法对数据进行描述、推断和解释的过程。

在论文中，选择合适的统计分析方法能够揭示数据背后的规律和趋势，为研究问题提供科学依据。

1. 描述性统计分析描述性统计分析是对数据进行总结和描述的方法。

常见的描述性统计方法包括均值、中位数、标准差、频数分布等。

这些方法能够帮助研究者把握数据的基本特征和分布情况，从而直观地了解数据的内在规律。

2. 推断性统计分析推断性统计分析是在样本数据的基础上，对总体数据进行推断的方法。

通过样本数据的统计指标和概率模型，对总体数据的参数进行估计和检验。

常见的推断性统计方法包括假设检验、置信区间估计、方差分析、回归分析等。

这些方法能够对研究问题进行验证和推测，从而得出科学的结论。

3. 多元统计分析多元统计分析是对多个变量之间关系进行分析的方法。

常见的多元统计方法包括主成分分析、因子分析、聚类分析和回归分析等。

这些方法能够揭示多个变量之间的内在联系和规律，为研究问题提供更全面和深入的认识。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

何晓群编著，《现代统计分析方法与应用》第三版，中国人民大学出版社，2012。

数据和部分程序下载第2章服装标准例程序利用R软件，运行如下R程序便可计算相应的条件均值和条件协方差矩阵：#均值向量m=matrix(c(154.98,83.39,70.26,61.32,91.52),nrow=5,ncol=1);m;#协方差矩阵sigma=matrix(c(29.66,6.51,1.85,9.36,10.34,6.51,30.53,25.54,3.54,19.53,1.85,25.54,39.86,2.23,20.70,9.36,3.54,2.23,7.03,5.21,10.34,19.53,20.70,5.21,27.36),5,5);sigma;#条件均值x5=85;m1=matrix(m[1:4,1],4,1)+matrix(sigma[1:4,5]*sigma[5,5]^(-1),4,1)%*%(x5-sigma[5,1]);m1;#条件协方差1(d[x1,x2,x3,x4|x5])d1=sigma[1:4,1:4]-matrix(sigma[1:4,5]*sigma[5,5]^(-1),4,1)%*%matrix(sigma[5,1:4],1,4);d1;#条件协方差2(d[x1,x2,x3|x4,x5])d2=d1[1:3,1:3]-matrix(d1[1:3,4]*d1[4,4]^(-1),3,1)%*%matrix(d1[4,1:3],1,3);d2;注：上面程序假定585X ，可以根据实际情况更改5X的值以计算相应的条件均值。

利用R软件，运行如下的R程序便可计算出偏相关系数：#均值向量m=matrix(c(154.98,83.39,70.26,61.32,91.52),nrow=5,ncol=1);m;#协方差矩阵sigma=matrix(c(29.66,6.51,1.85,9.36,10.34,6.51,30.53,25.54,3.54,19.53,1.85,25.54,39.86,2.23,20.70,9.36,3.54,2.23,7.03,5.21,10.34,19.53,20.70,5.21,27.36),5,5);sigma;#偏相关系数1(r[12.45])r1=d2[1,2]/sqrt(d2[1,1]*d2[2,2]); r1;#偏相关系数2(r[13.45])r2=d2[1,3]/sqrt(d2[1,1]*d2[3,3]); r2;#偏相关系数3(r[23.45])r3=d2[2,3]/sqrt(d2[2,2]*d2[3,3]); r3;第3章例3.1 某超市为了研究顾客对三种牌号的矿泉水的喜好比例，以便为下一次进货提供决策，随机观察了150名购买者，并记录下他们所买的品牌，统计出购买三种品牌的人数如表3-1。

表3-1 顾客购买喜好调查这些数据是否说明顾客对这三种矿泉水的喜好确实存在差异？表3-7 喜好地板的数据表3-9)(ˆijn E 的计算（括号中的数）表3-11表3-12表3-13表3-15 工作表现按地区划分的结果表3-17 按所喜欢的电视节目类型分类的三组人员样本表3-19 宾馆注销房间的数据表3-202χ检验的计算表3-23表3-242χ检验的计算表3-266．在进行一项市场调查时，得到了关于375个家庭的户主受教育水平和年收入的资料。

表3-27是这些资料按两种标准进行交叉分类的结果。

试以0.05的显著性水平检验关于收入与受教育水平彼此独立的零假设。

表3-27表3-28表3-29第4章例4.1假定我们需要研究化肥施用量与粮食产量的关系，以便准确地定出化肥施用量的单位变化如何影响粮食产量的平均单位变化，进而确定合理的化肥施用量。

表4.1列出了20组粮食产量与化肥施用量的数据。

图4.1给出20个样本点的分布状况。

表4.1 粮食产量与化肥施用量例4.2 在研究我国人均消费水平的问题中,把全国人均消费金额记作y(元);把人均国民收入记为x(元)。

我们收集到1986-2005年20年的样本数据(x i,y i),i=1,2,…,n。

数据见表4.2。

表4.2 人均国民收入表表4.8 1973年Anscombe构造了四组数据表4--9表4--10第5章表5.4表5.7表5.10第5章习题9的数据表5.11第6章数据表6-7表6-9第7章例7．3表7-1是五大钢铁公司反映经营状况的十大指标，为了比较国内钢铁公司与韩国蒲项钢铁公司的差距，下面做出韩国蒲项钢铁公司、宝钢、鞍钢、武钢、首钢五家钢铁公司的脸谱图。

表7-1例7.4资料仍取我国35个上市公司的资料。

常见的EXCEL就可画出很漂亮的雷达图。

用EXCEL画雷达图的方法，比如仅对深能源和深南电两公司画雷达图，方法如下：在EXCEL窗口中，输入资料格式如下：例7.7附：MATLAB做星座图的程序%每一行为一个样本，行数目代表样本数，列数目代表维数X=[109.61 8.71 18.51 3.36 10.91 19.19 61.02 29.73127.17 10.5 17.53 2.75 10.29 14.34 58.81 80.63118.87 9.73 20.44 5.2 7.65 18.74 53.21 60.35125.74 10.93 14.19 6.12 13.53 17.85 68.05 47.46];[row,col]=size(X);%1 将数据变换为角度Xmin=min(X); %1 * colXmax=max(X); %1 * colSita=(X-ones(row,1)*Xmin)./(ones(row,1)*Xmax-ones(row,1)*Xmin)*pi;%2 适当的选取权重w=1/col;%3 每一点的路径Xi=cos(Sita);Yi=sin(Sita);Uk=w*cumsum(Xi,2);Vk=w*cumsum(Yi,2);%4 画一个半径为1的上半圆i=[0:pi/100:pi];hold on;plot(cos(i),sin(i));hold on;plot([-1:1/100:1],0*[-1:1/100:1]);%5 画星座图for i=1:rowhold on;plot(Uk(i,:),Vk(i,:),'.-');hold on;plot(Uk(i,col),Vk(i,col),'*');end第8章[例8.1] 若我们需要将下列11户城镇居民按户主个人的收入进行分类，对每户作了如下的统计，结果列于表8.1。

在表中，“标准工资收入”、“职工奖金”、“职工津贴”、“性别”、“就业身份”等称为指标，每户称为样品。

若对户主进行分类，还可以采用其他指标，如“子女个数”、“政治面貌”等，指标如何选择取决于聚类的目的。

表8.1 某市2001年城镇居民户主个人收入数据X1 职工标准工资收入 X5 单位得到的其他收入X2 职工奖金收入 X6 其他收入X3 职工津贴收入 X7 性别X4 其他工资性收入 X8 就业身份X1 X2 X3 X4 X5 X6 X7 X8 540.00 0.0 0.0 0.0 0.0 6.00 男国有1137.00 125.00 96.00 0.0 109.00 812.00 女集体1236.00 300.00 270.00 0.0 102.00 318.00 女国有1008.00 0.0 96.00 0.0 86.0 246.00 男集体1723.00 419.00 400.00 0.0 122.00 312.00 男国有1080.00 569.00 147.00 156.00 210.00 318.00 男集体1326.00 0.0 300.00 0.0 148.00 312.00 女国有1110.00 110.00 96.00 0.0 80.00 193.00 女集体1012.00 88.00 298.00 0.0 79.00 278.00 女国有1209.00 102.00 179.00 67.00 198.00 514.00 男集体1101.00 215.00 201.00 39.00 146.00 477.00 男集体【例8.3】为了研究辽宁等5省份2000年城镇居民消费支出的分布规律，根据调查资料作类型划分。

指标名称及原始数据见表8.3。

资料来源中国统计年鉴（2000年）。

表8.3 2000年5个省市城镇居民平均每人全年消费性支出数据X1 食品支出（元/人）X5 交通和通讯支出（元/人）X2 衣着支出（元/人）X6 娱乐、教育和文化服务支出（元/人）X3 家庭设备、用品及服务支出（元/人）X7 居住支出（元/人）X4 医疗保健支出（元/人）X8 杂项商品和服务支出（元/人）X1 X2 X3 X4 X5 X6 X7 X8辽宁1772.14 568.25 298.66 352.20 307.21 490.83 364.28 202.50浙江2752.25 569.95 662.31 541.06 623.05 917.23 599.98 354.39河南1386.76 460.99 312.97 280.78 246.24 407.26 547.19 188.52甘肃1552.77 517.16 402.03 272.44 265.29 563.10 302.27 251.41青海1711.03 458.57 334.91 307.24 297.72 495.34 274.48 306.45 [例8.8] 城镇居民消费水平通常用表8.4中的八项指标来描述，八项指标间存在一定的线性相关。

为研究城镇居民的消费结构，需将相关性强的指标归并到一起，这实际就是对指标聚类。

原始数据列于表8.4。

将原始数据录入SPSS，并依次点击“Analyze”→“Correlate”→“Bivariate”，打开Bivariate Correlations对话框，把八个变量选入Variables栏中，单击“OK”，得到这八个指标对应的相关系数，列于表8.5。

表8.4 2005年31个省、市、自治区城镇居民月平均消费数据x1 人均粮食支出（元/人） x5 人均衣着支出（元/人）x2 人均副食支出（元/人）x6 人均日用杂品支出（元/人） x3 人均烟、酒、饮料支出（元/人）x7 人均水电燃料支出（元/人） x4 人均其他副食支出（元/人）x8 人均其他非商品支出（元/人）4.近几年，中国房地产业得到了长足的发展，但房地产价格的上涨一直饱受争议，甚至有逃离“北、上、广”的言论，这也从侧面反映了房地产价格的区域性特征，下表为2008年中国31个省、市、自治区房地产业的相关统计数据，试根据这些数据分别进行R型和Q型聚类分析。