同济大学多元统计学复习总概要

合集下载

多元统计分析概述

多元统计分析概述

多元统计分析概述多元统计分析是一种统计学方法,用于研究多个变量之间的关系和模式。

它可以帮助我们理解和解释数据中的复杂关系,从而提供有关变量之间相互作用的深入洞察。

在本文中,我们将概述多元统计分析的基本概念、常用方法和应用领域。

一、基本概念1. 变量:在多元统计分析中,我们研究的对象是多个变量。

变量可以是数值型(如年龄、收入)或分类型(如性别、教育程度)。

2. 样本和总体:多元统计分析通常基于样本数据进行推断。

样本是从总体中抽取的一部分观察值。

通过对样本数据进行分析,我们可以推断总体的特征和关系。

3. 相关性和因果关系:多元统计分析可以帮助我们确定变量之间的相关性,即它们之间的关联程度。

然而,相关性并不意味着因果关系。

因果关系需要更深入的研究和实验证实。

二、常用方法1. 相关分析:相关分析用于衡量两个或多个变量之间的相关性。

常用的相关系数包括皮尔逊相关系数和斯皮尔曼相关系数。

2. 回归分析:回归分析用于建立变量之间的数学模型,并预测一个或多个因变量的值。

线性回归和逻辑回归是常用的回归分析方法。

3. 主成分分析:主成分分析用于降低数据维度,并找到解释数据变异最多的主要成分。

它可以帮助我们理解数据中的模式和结构。

4. 判别分析:判别分析用于确定一个或多个自变量对于区分不同组别的因变量的重要性。

它常用于分类和预测问题。

5. 聚类分析:聚类分析用于将样本分成不同的群组,使得同一群组内的样本相似度较高,而不同群组之间的相似度较低。

三、应用领域多元统计分析在各个领域都有广泛的应用,包括社会科学、医学、市场研究、金融等。

以下是一些常见的应用领域:1. 社会科学:多元统计分析可以帮助研究人类行为和社会现象。

例如,它可以用于分析教育水平与收入之间的关系,或者研究不同人群的消费行为。

2. 医学研究:多元统计分析可以用于研究疾病的风险因素和预测模型。

例如,它可以用于确定吸烟和肺癌之间的关系,或者预测患者的生存率。

3. 市场研究:多元统计分析可以帮助企业了解消费者行为和市场趋势。

第五章 多元统计分析(提纲)

第五章  多元统计分析(提纲)

第五章多元统计分析第一节多元描述统计一、列表法二、多元数据的图示法1.轮廓图作图步骤为:(1)作平面坐标系,横坐标取A个点表示A个变量。

(2)对给定的一次观测值,在P个点上的纵坐标(即高度)和它对应的变量取值成正比。

(3)连接P个高度的顶点得一折线,则一次观测值的轮廓为一条多角折线形。

n次观测值可画出M条折线.构成轮廓图。

2.雷达图(蛛网图)作图步骤是:(1)作一圆,并把圆周分为P等分。

(2)连接圆心和各分点,把这十条半径依次定义为各变量的坐标轴,并标以适当的刻度。

(3)对给定的—次观测值,把它的P个分量值分别点在相应的坐际轴上,然后连接成一个P 边形,这个P边形就是P元观测值的图示,n次观测值可画出M个多边形。

将上例数据用雷达图表示如下(值得注意的是,这里坐标轴只有正半袖,因而只能表示非负数据,若有负数据.只能通过合理变换使之非负才行):3.脸谱图(切尔诺夫脸)人们的反应表现在脸上。

切尔诺夫假定用二维平面的脸来表示多维观测结果,脸的特征(如脸的形状,嘴的弯曲率,鼻子的长度,服睛的大小,瞳孔的位置等等)是由P个变量的测量值所决定的。

按照最初的设计.切尔诺夫脸可处理多达18个变量。

脸部容貌对应的变量的分配是由实验者完成的,不同选择会产生不同的结果。

为了取得令人满意的表示常常需要一些重复步骤。

第二节综合评价方法一、综合评价及其要素1.综合评价根据多个指标,对评价对象进行客观、公正、合理的全面评价。

2.综合评价的要素(1)被评价的对象(2)评价指标(3)权重系数(4)综合评价模型(5)评价者二、综合评价的原则1.评价目标:总结性、发展性(预测性)2.评价对象采样:普遍、可比、可测性3.评价指标选择原则:相关性、全面性、可操作、与评价方法相协调。

三、综合评价的步骤:1.确定反映要研究的对象的主要方面及各方面的主要指标,建立评价指标体系。

2.评价指标的转换与综合的方法3.确定各种评估方法所需要的参数4.加权合成指标评价值,进行评估分析,得出评估结论五、评价指标的正向化与无量纲化1.正向指标、逆向指标与正向化正向指标是指数值越大越好的指标,逆向指标是数值越小越好的指标。

多元统计分析期末复习

多元统计分析期末复习

第一章、多元正态分布的参数估计二、判断题1.多元分布函数F (x )是单调不减函数,而且是右连续的。

(√)2.设X 是p 维随机向量,则X 服从多元正态分布的充要条件是:它的任何组合α'X (α∈R p )都是一元正态分布。

(X)3.μ是一个P 维的均值向量,当A、B 为常数矩阵时,具有如下性质:(1)E(AX)=AE(X)(2)E(AXB)=AE(X)B (√)4.若P 个随机变量X1,…XP 的联合分布等于各自边缘分布的乘积,则称X1,…XP 是相互独立的。

(√)5.一般情况下,对任何随机向量是正定阵。

(X )'X =(X 1, ,X p ),协差阵∑是对称阵,也6.多元正态向量的任意线性变换仍然服从多元正态分布。

(√)7.多元正态分布的任何边缘分布为正态分布,反之一样。

( X )8.多元样本中,不同样品之间的观测值一定是相互独立的。

(√)9.多元正态总体参数均值μ的估计量X 具有无偏性、有效性和一致性。

(√)1S n 10.是∑的无偏估计。

( X )2χ11.Wishart 分布是分布在p 维正态情况下的推广。

(√)'X =(X 1, ,X p )12.若n X (α)~N p (μ,∑),α=1, ,n ,且相互独立,则样本离差阵(X (α)-X )'~W p(n -1,∑)S =∑(X (α)-X )α=1。

(√)13.若X ~W p (n ,∑)C CXC '~W p(n ,c ∑c '),为奇异矩阵,则。

( X )第二章多元正态分布均值向量和协差阵的检验二、判断题1.设X ~N p (μ,∑),S ~W p(n ,∑),n ≥p ,则称统计量T 2=nX 'S -1X 的分布为非中心HotellingT 2分布,记为T 2~T 2(p ,n ,μ)。

( X )12.在协差阵∑未知的情况下对均值向量进行检验,需要用样本协差阵S 去代n替∑。

多元统计复习资料

多元统计复习资料

多元统计分析考试内容最后成绩作业50% 考试50% 他们班这样 不知咱们班什么情况 估计也差不多 考试一共八道题 分三大类(卷面值100分 最后折合成50分) 一 计算题 (每题12分)1 计算性的判别分析题 主要用Fisher 判别法 要掌握公式的方法原理2 聚类分析题 主要应用两种聚类法:系统聚类法和模糊聚类法题中会给出距离或相关系数矩阵直接计算 老师强调要看清题意 不要做无用功! 3如何将非线性函数形式用线性回归的方法将其线性化 写出其过程 可能不涉及计算 二 简答(简答哦 不要长篇大论免得后面的题没时间做 主要作概略性总结即可)在这一部分中主要有三道题(分值分别10 10 12)老师没有具体给出三道题的题目 只是举了些例子 回答问题的主要思路是:统计分析方法的基本思想,基本原理与应用,在应用中要注意的问题 个别要回答与其他方法的对比 举的主要例子有(个人以为前两个比较重要):1 回归分析模型:回归方程的基本假定,涉及到回归分析方程系数为何作显著性检验 统计性的依据是什么(方差分析) 给出一个回归分析方程如何作显著性检验2 判别分析:判别分析的优良性 两方面考虑:(1)组与组之间的差别是否显著有无必要作判别分析 (2)误判率下面的几个例子 主要也是按上面的思路回答 因子分析 聚类分析(不会四种方法一块考,会选其中某个或某两个) 主成分分析的基本思想 可以做什么应用及在应用中要选几个主成分 对应分析的基本思想 三 发挥题(每题16分)这个部分老师会给出问题的背景及所问的问题,个人结合自己所学的几种分析方法 选择适合的作分析 没有标准答案,只要能自圆其说即可 注意:第一步一定要先指出自己所用的分析方法 老师没有说具体会考什么题只是说不会考很专业的 自由发挥 简单提到一个例子就是教学评价的问题 也没有说用什么方法 他说不同的人会采用不同的方法 一道题不会只有一种解决方法.题量大,做不完1 计算题1.1 计算性的判别分析题 主要用Fisher 判别法 要掌握公式的方法原理处理概率分布未知的判别问题中的最著名的方法。

多元统计复习提纲

多元统计复习提纲
6、设从某书店随机抽取 4 张收据了解图书的销售情况.每张收据记录售书数 量 X2 及总金额 X1,具体数值如下:
X
42
42
4
52 5
48 58
4
3
(n 4, p 2)
试计算样本均值,样本离差阵,样本协差阵和相关阵.
7 、 设 X ~ N 3 (, ) , 其 中 X ( X 1 , X 2 , X 3 ) , (1,0,2) ,
12345
1 0
3、已知五个样品的之间的距离矩阵如下:
2 4 0
D 36 9 0
4 1 7 10 0
5 6 3 5 8 0
试采用最长距离法,将五个对象分为3类。
第四章: 基本概念:判别分析的基本思想;距离判别法;Bayes 判别法;判别分析在 SPSS 下的实现,及对软件分析结果的解释。 练习题: 1、记二维正态总体 N2((i), )为 Gi(i=1,2)(两总体协差阵相同),已知来自 Gi(i=1,2)的样本数据阵为
骤) (3)写出 bayes 判别函数; (4)对一个地区数据计算得到因子得分为 F1=10,F2=5,利用判别函数判 别这个地区是第一个类还是第二类。 3、为了对多个产品进行分类管理,利用两个因子得分,对数据进行聚类分 析和判别分析,以下是 Spss 计算出判别分析的结果,试着回答下面问题。
Test Results (表 10)
2、为了对 14 个地区进行分类管理,利用两个因子得分,对数据进行聚类分 析和判别分析,以下是 Spss 计算出判别分析的结果,试着回答下面问题。
Test Results (表 10)
Box's M F
Approx. df1 df2 Sig.
25.184 3.899 6 151.019 .001

多元统计知识点总结

多元统计知识点总结

多元统计知识点总结一、多元正态分布。

1. 定义。

- 设X=(X_1,X_2,·s,X_p)^T,若X的概率密度函数为f(x)=(1)/((2π)^frac{p){2}∑^(1)/(2)}exp<=ft{-(1)/(2)(x - μ)^T∑^-1(x-μ)},其中μ =(μ_1,μ_2,·s,μ_p)^T为均值向量,∑为p× p正定协方差矩阵,则称X服从p元正态分布,记为Xsim N_p(μ,∑)。

2. 性质。

- 线性变换性质:若Xsim N_p(μ,∑),设Y = AX + b,其中A为m× p矩阵,b 为m×1向量,则Ysim N_m(Aμ + b,A∑ A^T)。

- 边缘分布性质:X的任何子向量也服从正态分布。

例如,若X=(X_1,X_2,·s,X_p)^T,Xsim N_p(μ,∑),取X_(1)=(X_1,·s,X_q)^T,X_(2)=(X_q + 1,·s,X_p)^T,则X_(1)sim N_q(μ_(1),∑_11),其中μ_(1)为μ的前q个元素组成的向量,∑_11为∑的左上角q× q子矩阵。

- 条件分布性质:在多元正态分布中,已知部分变量时,另一部分变量的条件分布仍然是正态分布。

二、均值向量和协方差矩阵的估计。

1. 样本均值向量。

- 设X_1,X_2,·s,X_n是来自p元总体Xsim N_p(μ,∑)的样本,则样本均值向量¯X=(1)/(n)∑_i = 1^nX_i,且E(¯X)=μ,Cov(¯X)=(1)/(n)∑。

2. 样本协方差矩阵。

- S=(1)/(n - 1)∑_i = 1^n(X_i-¯X)(X_i-¯X)^T,S是∑的无偏估计,即E(S)=∑。

三、主成分分析(PCA)1. 基本思想。

- 主成分分析是一种降维技术,它的目的是在损失很少信息的前提下把多个指标转化为几个综合指标(主成分)。

多元统计分析期末考试考点整理

多元统计分析期末考试考点整理

二名词解释1、多元统计分析:多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广2、聚类分析:是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。

将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。

使类内对象的同质性最大化和类间对象的异质性最大化3、随机变量:是指变量的值无法预先确定仅以一定的可能性(概率)取值的量。

它是由于随机而获得的非确定值,是概率中的一个基本概念。

即每个分量都是随机变量的向量为随机向量。

类似地,所有元素都是随机变量的矩阵称为随机矩阵。

4、统计量:多元统计研究的是多指标问题,为了了解总体的特征,通过对总体抽样得到代表总体的样本,但因为信息是分散在每个样本上的,就需要对样本进行加工,把样本的信息浓缩到不包含未知量的样本函数中,这个函数称为统计量三、计算题解:答:答:题型三解答题1、简述多元统计分析中协差阵检验的步骤答:第一,提出待检验的假设和H1;第二,给出检验的统计量及其服从的分布;第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域;第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。

2、简述一下聚类分析的思想答:聚类分析的基本思想,是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。

把相似的样品或指标归为一类,把不相似的归为其他类。

直到把所有的样品(或指标)聚合完毕.3、多元统计分析的内容和方法答:1、简化数据结构,将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。

(1)主成分分析(2)因子分析(3)对应分析等2、分类与判别,对所考察的变量按相似程度进行分类。

(1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。

多元统计基本概念复习

多元统计基本概念复习

多元统计基本概念复习一、总体:根据研究目的确定所有同质个体的某指标观察值(或测量值)构成的集合称为总体(population),或更严谨地称为该观察指标(变量)的总体。

由于在实际研究中,往往需要观察或测量多个指标,而这些指标之间往往伴有某种关联,故多个观察指标构成了个体的一组观察指标。

为了叙述方便,往往简单地称总体是根据研究目的确定同质个体的全体。

二、总体均数: 总体中所有个体测量值的平均数称为总体均数。

总体均数是一个总体的重要特征参数三、总体参数:总体均数、总体发生率等总体的特征指标或总体统计指标称为总体参数(parameter)。

四、未知参数:由于总体往往非常大,有些总体参数无法知道,因此这些无法知道的总体参数称为未知参数。

五、统计量:用样本表达式构成的样本统计指标估计未知总体参数,这种样本统计指标称为统计量(statistic)并且要求统计量的样本表达式中不含有未知参数。

六、频率与概率:在n次观察中,其中有m次观察到某现象A,则称观察到现象A的比例m=为频率(frequency),m称为频数。

显fn然有01≤≤。

频率f是一个统计量,由于个体的变异性,频率f f呈一定的随机波动。

当观察次数n越来越大,频率f的随机波动幅度越来越小,并最终趋向于一个常数π:观察到现象A发生的概率(称为概率的统计定义)。

七、概率(probability):概率刻画随机事件发生可能性大小,其取值界于0和1之间。

随机事件发生的可能性越小,概率越接近0;随机事件发生的可能性越大,概率越接近1。

特别,不可能事件发生的概率等于0,必然事件发生的概率等于1。

八、在统计学中,如果随机事件发生的概率小于或等于0.05,则认为是一个小概率事件,表示该事件在大多数情况下不会发生,并且一般认为小概率事件在一次随机抽样中不会发生,这就是小概率原理。

小概率原理是统计推断的基础。

九、频率图与概率密度曲线例某市1995年110名7岁男童的身高(cm)资料如下,请作频数图和频率图。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《多元统计》复习概要1 考试范围本次考试共分作9个考点,其中有4个考点:抽样分布、方差分析、卡方检验以及回归分析是老师课件上的内容,多元正态分布、均值向量、协方差矩阵、聚类分析、主成分分析以及因子分析5个考点均为书本上的内容。

看上去内容很多,实质上除了最后两个考点计算涉及到矩阵和行列式的运算外,其他的都基本只是将数值代入公式进行计算,掌握其原理就行了。

2 题型:A卷:1道简答题,7道计算题B卷:3道简答题,5道计算题根据本校生透露,同济考试一般来说都采用A卷3 预备知识数理统计:(1)假设检验:z检验、t检验都可以针对均值的检验,卡方(χ2)检验是针对方差的检验,z检验是针对样本比例的检验。

(2)点估计以及区间估计:与参数的假设检验是一个问题的两个方面。

线性代数:(1)矩阵的基本运算法则(2)矩阵的相关性质,如(正交矩阵、对称矩阵、逆矩阵、相似矩阵等性质)(3)行列式的基本运算法则及基本变换(4)齐次方程的求解方法4 考试内容:1、抽样分布a)比例的区间估计、精度、样本容量的确定说明:1)比例的区间估计。

这是本科学的数理统计的内容,有时间的同学可以对照任一本数理统计的书中“参数检验”章节进行学习,区间估计与单总体的参数检验其实是一个问题的两个方面,前者是以一定的把握(如95%)估计理想的总体参数(未知)存在于以我们所得的样本参数(如平均值、方差、比例)什么样的允许误差范围内;后者则是已知理想的总体参数,以一定的把握检验所得的样本参数是否在此把握对应的误差范围内。

2)精度。

即d ,估计区间的误差大小3)样本容量。

即n ,即需要抽样的个数,越大越能达到精度的要求。

公式:n p p Z d /)1(2/-=α 其中,Z 为标准正态分布的分位点,p 为样本比例,n 为样本容量,d 为误差大小例题:“抽样分布和参数估计”课件p60~61页、p70 2、多元正态分布a )数字特征、性质b )马氏距离、欧氏距离c )均值向量和协方差阵的估计说明:a)因为随机抽样的样本是随机的,只能由不同的统计数字表示,所以我们可用统计的参数来代表所有的统计样本,称作数字特征。

一般来说,有三个参数最重要,平均值、方差以及样本比例。

从概率论的理想角度来说,对应分别就是均值、方差、总体比例。

样本向量指的是有许多个变量的样本,于是就成为了向量。

对应这个向量X ,于是它的数字特征也成为了向量,分别对应为均值向量、协方差矩阵(无论及样本比例向量了)。

性质是不必死记的,考试也不会直接考,但可通过概率论的基础知识类比得出(参看书本P45)。

b)欧氏距离就是n维空间里的距离,没有考虑到统计样本的概率分布情况,马氏距离相当于是空间距离与概率单位距离的比值。

不理解不要紧,直接代入公式计算就行了。

但在这里还要记清楚二元正态方差的逆矩阵表达式以及矩阵的相关运算。

c)对应一元统计的参数估计,对于均值向量用平均值的矩阵估计,对于协方差均值则用离差阵估计,不过貌似都不考公式:马氏距离 p9;二正态分布的协方差逆矩阵p11例题:课本p633、均值向量和协方差阵的检验说明:其实原理与一元参数检验的方法是一致的,只是所用到的检验函数不一样(如t检验变成了T检验)。

但考试应该只考p26的均值检验步骤。

4、方差分析 1a)方差分析的目的、原理b)单因素方差分析表c)双因素方差分析表说明:a)本章节十分重要,是对那些具有多种影响水平的因素对实际试验的影响,简而言之,前面的章节着眼与对单个正态总体的数字特征的研究;而本章节则涉及到因变量以及统计变量(即具有不同水平的因素)之间的关系,确定因素变量对因变量的影响显著性。

但是,方差分析并不能得出因变量与自变量的具体线性关系,只能基于对统计数据总偏差平方和的分解而进行方差分析,进而确定其对试验影响的显著性。

而回归分析则补充了单纯的方差分析所带来的缺陷,能够得出具体的回归方程。

因此,有些教材(概率论与数理统计,刘次华,高等教育出版社)将方差分析与回归分析合在一起作为一个章节。

b)单因素分析是指仅对一种影响因素的影响显著性进行分析,目标是为了清楚到底试验的总体偏差是由于不同水平效应差异(组间平均和)引起的还是由随机误差(组内平均和)引起的,于是我们将两者相除得出F值,看F值是否能通过F检验,如果能则说明该因素对试验影响十分显著。

c)双因素分析与单因素分析的原理是一样的,只是多了一个因素,公式上有所调整。

而考虑到因素与因素之间的交互作用的双因素分析是我们的考试内容。

的确,在这个分析里,因素与因素之间的交互作用是最值得我们注意的地方,但是课件上已经没有将这种交互作用的量化公式给出,证明这题的计算过程在考试中是不必考的。

对统计学有兴趣的同学可以随便借一本统计学的教材看交互作用效应差异是如何用统计数据表示的(统计学,贾俊平,清华大学出版社,p270)但是,我们起码应该将方差分析表中各个字母代表的含义记住,分别是a、b、n;以及记住自由度和F值的计算公式。

公式或表格:其中,a为A因素的样本的影响水平,b为B因素的样本的影响水平,n为每个交互作用的试验结果的样本容量例题:“方差分析”课件:p35~385、回归分析 1a)回归分析的主要内容和分析步骤b)一元部分:β0,β1c)回归方程的显著性检验、方差分析表d)预测区间的近似计算、精度控制、回归方程的标准误差e)控制:以案例1为例。

f)曲线回归的分析步骤、线性化说明:回归分析是统计学里三大分析之首(主成分分析、判别分析),因为既简单又实用。

过程和原理我就不必多说了,因为大家都学了这么久了。

β0,β1是不必我们手算的。

只是增加了方程的检验、预测和控制,也是考试的重点所在。

c)方程的显著性检验其实就是上一章单因素分析的一个特例,其中参数的个数就是因素的水平个数。

此时,我们可以注意到,对于一元回归分析:方差分析表中对应2(对应两个参数β0,β1);对于多元回归分析,1,p为解释变量的个数。

同样地,我们需要知道方差分析表的各项指标需要我们知道是怎么得来的。

d)方程的预测区间估计比样本的区间估计要来的复杂,有比较多繁琐的证明,所以同学们只要记住公式就行了。

在运用公式的时候,记得所查t函数的自由度为2,又因为我们所要做的双边区间估计(即±d),所以用到对应的分位点为α/2.这在我们查表时是需要注意到的。

至于,即我们所说的残差平方和,是很容易通过统计数据计算出来的(见“一元回归”课件p21)e)预测与控制是回归分析里的同一个问题的两个方面。

前者是已知解释变量求因变量的区间;后者是预设了因变量的区间反求解释变量的控制区间。

控制的计算方法是建立在区间预测的基础上的(此时假定每一点的区间估计值都是常量d),然后将预设因变量y代入控制的不等式来求x。

我们需要注意的是分位点选取问题以及不等式的建立问题,当双侧控制需要用Z检验的1/2分位点,当单侧控制是用单侧分位点;建立控制不等式时,y的可能最小值()应大于控制值下界;最大值()应小于控制值上界。

f )考试基本不考,大家注重曲线回归的分析步骤和线性化的方法即可。

公式或表格:1、方程检验的方差分析表(一元回归分析)注:多元回归的将自由度1改作p ,2改作12、一元回归的区间预测以及控制: 22)(-≈N /S Z E α/d注:为残差平方和,N 为样本容量(取的点个数),Z 为标准正态分布的分位点值,双侧控制时用1/2分位点α/2,单侧控制时则改用单侧分位点α。

3、多元回归的区间预测以及控制(p 为解释变量的个数):)1()1(2/----≈P N /S P N t d E α例题:“回归分析”课件p24~25 ,p36, p43~44“多元回归分析”课件:p18~196、聚类分析 1a)数据标准化、无量纲化 b) 马氏距离,计算a)系统聚类法、基本思想b)几种实施方法c)法、思想说明:a)主要分标准差标准化以及极差标准化,其实就是将指标无量纲化的过程,这个很容易,套公式。

b)在第2个考点讲过了,不再赘述。

c)通俗来讲,系统聚类的基本思想就是将样本按各自指标的相似度进行分类,刚开始每个样本自成一小类,然后,小类与小类在分类过程中按照着某种距离长短进行不断地汇合,最终汇聚成一个大类。

这些不同的距离正是我们研究的重点所在。

d)即计算多指标样本之间的距离的各种计算方法。

包括长距离法(重点)、短距离法(重点)、重心法、类平均法以及离差平方和法(不考)等。

要注意的是在计算这些距离时可以采取不同的方法,但在做样本分类的时候我们还是将计算出的距离最短的归作一类。

不同的距离计算方法会有不同的分类效果和特点,此处不作细表。

e)K快速聚类法:先按分类要求分作K类,用每一类的重心作为每一类的凝聚点,之后比较每个样本与这K个凝聚点的距离,重新确定每个样本的所归的新类;重新分类一遍后,再按照步骤一走一遍,依次类推,直到分类不变为止。

但不能像系统距离那样可以形成谱系聚类图,即不能了解类与类之间、类内部之间的距离关系,因为分类数是预设的。

公式:分类时,都用的是欧氏距离的公式,只是距离的主体以及选取距离的方法不一样。

例题:书本:p71~73,老师所给的K聚类例题7、卡方检验a)总体分布的卡方检验、思想原理b)两个比例差异的检验c)独立性检验d)两个相关样本比例差异检验说明:a )在以往我们学过的但总体正态分布的比例检验当中,对比例的检验用到的还是Z 检验,如今从另一个角度出发,针对多个正态总体的比例进行卡方检验,不仅仅大大降低了计算强度,还能够对具有多指标的正态主体进行检验,其参数检验的范围可以说是大大扩展了。

b )在复习总体间的比例差异检验的时候,不妨可以对比一下这个与方差分析的差别(形式相似但实质差异很大),在两个总体的比例检验中,其实只有一个因子(酒店),每个存在两个水平(酒店1和2),但是这两个水平是独立的,其和是一个常数(即样本i 的容量),我们的研究对象是在每个水平下的结果(成功或失败)。

而且,它并非如方差分析那样是分析样本的具体指标值,而是分析样本的频数。

有了这样的类比之后,可能对两种统计分析方法都会有比较清楚的理解。

c )相较于比例差异检验,独立性检验就是多引入了一个因子(例题中是不入住的理由),而且每个因子都有2个或2个以上的水平(酒店n ),我们研究的对象是在不同因子的不同水平下的频数大小,从而分析这两种因子是否独立。

还得注意卡方检验函数的自由度为(1)(1),a 、b 为两个因子的水平多少。

d )因为引入一个条件,这个条件使得原来的一个的因子(酒店)变作了两个(改革前的酒店和改革后的酒店),并且这两个因子(即样本)存在相关关系,如今的研究目的就集中在了二者之间的差异性上。

还有另一个区别就是最后的检验用到的方法是Z 检验,在通过显著性检验后,我们还可以通过比较样本比例得出样本比例的变化趋势。

相关文档
最新文档