《统计学》基础知识
统计学基础知识

一、数据的特征值(一)数据的位置特征值_1)平均值 xx , x , x x 为:如果从总体中抽取一个样本,得到一批数据 . ,则样本的平均值123 xn_1nx x in i 1n-数据个数;xi-第 i 个数据数;∑-求和。
~2)中位数x,x , x 有时,为减少计算,将数据x . 按大小次序排列,用位居于正中的那个数或1 2 3 x n中间两个数的平均值(当数据为偶数时)表示数据的总体平均水平。
3)中值 M测定值中的最大值xmax 与最小值xmin 的平均值,用M 表示。
x max x minM24)众数在用频数分布表示测定值时,频数最多的值即为众数。
若测定值按区间做频数分布时,频数最多的区间代表值(一般取区间中值)也称众数。
(二)数据的离散特征值1)极差 R测定值中的最大值x max与最小值 x min之差称为极差。
通常R 用于个数n 小于 10 的情况下, n 大于 10 时,一般采用标准偏差s 表示。
2)偏差平方和 S _各测定值x i与平均值x之差称为偏差。
各测定值的偏差平方和称为偏差平方和,简称平方和,用 S 表示。
_ _ _S= ( x 1x ) 2 ( x 2x ) 2... ( x n x ) 2 n _=( x i x ) 2i 1无偏方差各个测定值的偏差平方和除以(n-1)后所得的值称为无偏方差(简称方差),用 s2表示:S 1 n _s 21 n ( x i x ) 2n 1 i 11标准偏差 s方差 s2的平方根为标准偏差(简称标准差),用 s 表示:S 1 n _s s 2( x i x ) 2n 1 n1 i 1(三)变异系数以上反映数据离散程度的特征值,只反映产品质量的绝对波动大小。
在工程实践中,测量较大的产品,绝对误差一般较大,反之亦然。
因此要考虑相对波动的大小,在统计技术上用变异系数 CV 来表达:C V s _ x上式中σ 和μ 为总体均值和总体标准差,当过程在受控状态下,且样本容差较大时,可用样本标准差s 和样本均值x 估计。
统计学基础知识要点

统计学基础知识要点统计学是一门研究数据收集、分析和解释的学科,是许多学科和领域中必不可少的工具。
在本文中,将介绍统计学的基础知识要点,帮助读者理解统计学的基本概念和应用。
一、数据类型在统计学中,数据可以分为两种类型:定量数据和定性数据。
定量数据是以数值表示的,可进行数值计算和比较的数据,如身高、体重等;定性数据则是描述个体特征的非数值数据,如性别、颜色等。
了解数据类型对于选择合适的统计方法非常重要。
二、测量尺度测量尺度指的是衡量数据的方式,常见的测量尺度包括名义尺度、序数尺度、区间尺度和比率尺度。
名义尺度仅用于分类,如性别;序数尺度可以排序,但没有固定的数值差异,如教育程度;区间尺度具有固定的数值差异,但没有绝对零点,如温度;比率尺度具有固定的数值差异和绝对零点,如年龄。
三、描述统计学描述统计学是对数据进行整理、总结和描述的方法。
其中常见的统计量包括平均数、中位数、众数和标准差等。
平均数是一组数据的算术平均值,中位数是将一组数据按大小顺序排列后的中间值,众数是数据中出现频率最高的值,标准差衡量数据的离散程度。
四、概率与概率分布概率是用来描述随机事件发生可能性的数值,常用的表示方法是百分比或小数。
概率分布是描述随机变量可能取得各个值的概率的函数或表格。
常见的概率分布包括正态分布、均匀分布和泊松分布等。
五、参数估计与假设检验参数估计是根据样本数据来估计总体特征的方法,常见的参数估计方法包括点估计和区间估计。
假设检验是通过对样本数据进行统计推断来对总体假设进行验证的方法,常用的假设检验方法包括t检验和卡方检验等。
六、相关分析与回归分析相关分析用于研究两个变量之间的关系,可以通过计算相关系数来描述变量之间的相关程度。
回归分析是一种用于预测和解释因果关系的统计方法,可以建立变量之间的数学模型。
七、抽样与调查抽样是从总体中选择出样本的过程,通过对样本进行研究得出对总体的结论。
调查是一种常用的数据收集方法,可以通过问卷调查、访谈等方式获取数据。
统计基础知识试题答案

统计基础知识试题答案### 统计基础知识试题答案#### 一、选择题1. 统计学是研究什么的科学?- A. 描述数据- B. 推断数据- C. 数据收集、处理、分析和解释- 答案:C2. 以下哪个是描述性统计的指标?- A. 置信度- B. 标准差- C. 样本均值- 答案:C3. 在统计学中,总体是指什么?- A. 研究对象的全体- B. 研究对象的一部分- C. 研究对象的随机样本- 答案:A4. 以下哪个是推断统计的常用方法?- A. 频率分布- B. 抽样分布- C. 相关系数- 答案:B5. 正态分布的特点是?- A. 均值、中位数、众数相等- B. 均值、方差、众数相等- C. 均值、中位数、众数不相等- 答案:A#### 二、简答题1. 简述统计数据的类型。
- 统计数据主要分为定性数据和定量数据。
定性数据反映的是事物的属性、特征,如性别、颜色等;定量数据反映的是事物的数量特征,如身高、体重等。
2. 什么是样本和总体?- 总体是指研究对象的全体,而样本是从总体中抽取的一部分,用于代表总体进行研究。
3. 描述统计和推断统计的区别是什么?- 描述统计是对数据进行收集、整理、描述和分析的过程,目的是描述数据的特征;推断统计则是基于样本数据,对总体进行估计和推断的过程。
4. 什么是标准差?它在统计学中的作用是什么?- 标准差是衡量数据分布离散程度的指标,它反映了数据集中的数值与平均值的偏离程度。
在统计学中,标准差用于衡量数据的波动性和稳定性。
5. 解释什么是正态分布,并说明其在实际应用中的重要性。
- 正态分布是一种连续概率分布,其图形呈钟形,具有对称性,均值、中位数和众数相等。
在实际应用中,正态分布是许多统计方法的基础,如假设检验和回归分析。
#### 三、计算题1. 给定一组数据:2, 4, 6, 8, 10,计算其平均值和标准差。
- 平均值 = (2+4+6+8+10)/5 = 6- 标准差 = sqrt(((2-6)^2 + (4-6)^2 + (6-6)^2 + (8-6)^2 + (10-6)^2) / 5) = 2.83(保留两位小数)2. 如果一个总体的均值为50,标准差为10,如何计算其95%置信区间? - 95%置信区间 = 均值± 1.96 * 标准差 / sqrt(样本量)- 假设样本量为100,则置信区间= 50 ± 1.96 * 10 / sqrt(100) = 50 ± 1.96以上试题答案仅供参考,具体答案可能因教材或课程内容的不同而有所差异。
统计学基础知识要点

第一章:导论1、什么是统计学?统计方法可以分为哪两大类?统计学是收集、分析、表述和解释数据的科学。
统计方法可分为描述统计方法和推断统计方法。
2、统计数据可分为哪几种类型?不同类型的数据各有什么特点?按照所采用的计量尺度不同,分为分类数据、顺序数据和数值型数据;按照统计数据的收集方法,分为观测的数据和实验的数据;按照被描述的对象与时间的关系,分为截面数据和时间序列数据。
按计量尺度分时:分数数据中各类别之间是平等的并列关系,各类别之间的顺序是可以任意改变的;顺序数据的类别之间是可以比较顺序的;数值型数据其结果表现为具体的数值。
按收集方法分时:观测数据是在没有对事物进行人为控制的条件下等到的;实验数据的在实验中控制实验对象而收集到的数据。
按被描述的对象与时间关系分时:截面数据所描述的是现象在某一时刻的变化情况;时间序列数据所描述的是现象随时间而变化的情况。
3、举例说明总体、样本、参数、统计量、变量这几个概念。
总体是包含研究的全部个体的集合。
比如要检验一批灯泡的使用寿命,这一批灯泡构成的集合就是总体。
样本是从总体中抽取的一部分元素的集合。
比如从一批灯泡中随机抽取100个,这100个灯泡就构成了一个样本。
参数是用来描述总体特征的概括性数字度量。
比如要调查一个地区所有人口的平均年龄,“平均年龄”即为一个参数。
统计量是用来描述样本特征的概括性数字度量。
比如要抽样调查一个地区所有人口的平均年龄,样本中的“平均年龄”即为一个统计量。
变量是说明现象某种特征的概念。
比如商品的销售额是不确定的,这销售额就是变量。
第二章:数据的收集1、调查方案包括哪几个方面的内容?调查目的,是调查所要达到的具体目标。
调查对象和调查单位,是根据调查目的确定的调查研究的总体或调查范围。
调查项目和调查表,要解决的是调查的内容。
2、数据的间接来源(二手数据)主要是公开出版或公开报道的数据;数据的直接来源一是调查或观察,二是实验。
3、统计调查方式:抽样调查、普查、统计报表等。
统计学理论基础知识(史上最全最完整)

统计学理论基础知识(史上最全最完整)统计学是一门关于收集、分析、解释和展示数据的学科。
它在许多领域中都发挥着重要作用,包括自然科学、社会科学、商业和医学等。
基本概念- 数据:统计学的研究对象,可以是数值、文字或图像等。
- 总体与样本:总体是我们想要研究的所有个体或事物,而样本是从总体中选择的一部分。
- 参数与统计量:参数是总体的数值特征,统计量是样本的数值特征。
- 频数与频率:频数是某个数值出现的次数,频率是频数与样本大小之比。
描述统计学- 中心趋势:用于衡量数据集中的位置,常用的统计量有平均数、中位数和众数。
- 变异程度:用于衡量数据集中的离散程度,常用的统计量有标准差、方差和四分位数。
- 数据分布:用于描述数据集中每个值的频率分布情况,常用的图表有直方图和箱线图。
推断统计学- 参数估计:通过样本统计量对总体参数进行估计,包括点估计和区间估计。
- 假设检验:根据样本数据对总体参数的假设进行推断性统计分析,包括设置原假设和备择假设,并进行显著性检验。
相关分析- 相关系数:用于衡量两个变量之间的关联程度,常用的相关系数有Pearson相关系数和Spearman等级相关系数。
- 回归分析:用于建立变量之间的数学关系,常用的回归分析有线性回归和多元回归。
统计学软件- 常用统计软件:如SPSS、R、Excel等。
- 数据可视化工具:如Tableau、Power BI等。
这份文档提供了统计学的基础知识概述,包括基本概念、描述统计学、推断统计学、相关分析和统计学软件。
它将帮助读者理解统计学的核心概念和方法,为进一步探索统计学打下坚实的基础。
统计学基础知识点总结

统计学基础知识点总结统计学是研究数据收集、分析和解释的科学。
它提供了一种用来了解和解释各种数据的方法和工具。
统计学的基础知识点是学习统计学的基础,下面是一些重要的基础知识点总结:1. 数据类型:统计学中的数据可以分为两类:定量数据和定性数据。
定量数据是可以量化的,例如身高、温度等,而定性数据是描述性质和特征的,例如性别、颜色等。
2. 数据收集:数据收集是统计学的基础,它包括设计问卷、调查、实验等方法来收集数据。
收集数据时需要注意样本的代表性,并尽量避免抽样偏差。
3. 描述性统计:描述性统计是用来总结和描述数据的方法。
常用的描述性统计包括计算平均数、中位数、范围和标准差等指标来衡量数据的集中趋势和离散程度。
4. 概率:概率是研究随机事件发生可能性的数学工具。
它可以用来计算事件发生的概率,从而预测未来事件的可能性。
概率可以分为古典概率和条件概率等不同类型。
5. 概率分布:概率分布是描述随机变量的分布规律的数学模型。
常见的概率分布包括均匀分布、正态分布和泊松分布等。
概率分布可以用来计算随机变量的期望、方差等统计指标。
6. 假设检验:假设检验是统计学中用来验证关于总体参数的假设的方法。
通过对样本数据进行统计分析,可以得出关于总体参数是否符合假设的结论。
假设检验包括设定假设、选择检验统计量、计算显著性水平和做出决策等步骤。
7. 相关分析:相关分析是用来研究两个变量之间关系的方法。
它可以通过计算相关系数来衡量两个变量之间的相关性,并判断相关性是否显著。
常用的相关系数有皮尔逊相关系数和斯皮尔曼相关系数。
8. 回归分析:回归分析是研究因果关系的统计方法。
它通过建立数学模型来描述自变量和因变量之间的关系,并可以用来预测因变量的取值。
常见的回归分析包括线性回归和多元回归等。
9. 抽样分布:抽样分布是指统计量在不同样本中的分布情况。
它可以用来计算统计量的置信区间和显著性水平等,从而对总体参数进行推断。
10. 统计软件:统计软件是进行统计分析的工具。
统计学基础知识点

统计学基础知识点统计学是一门研究收集、整理、分析和解释数据的学科,它在各个领域都扮演着重要的角色。
无论是在科学研究、商业决策还是社会政策制定中,统计学都提供了有力的工具和方法来帮助我们理解和解释数据。
本文将介绍一些统计学的基础知识点,包括数据类型、数据收集和整理、描述统计和推断统计等。
一、数据类型在统计学中,数据可以分为两种类型:定量数据和定性数据。
定量数据是可以用数字来表示和度量的,例如身高、体重、年龄等。
定性数据则是描述性的,不能用数字来度量,例如性别、颜色、职业等。
了解数据的类型对于选择适当的统计方法非常重要。
二、数据收集和整理数据的收集是统计研究的第一步。
收集数据的方法包括观察、实验和调查等。
观察法是通过观察现象来收集数据,实验法是通过控制变量来观察因果关系,而调查法则是通过问卷调查或访谈来收集数据。
在收集到数据后,我们需要对数据进行整理和清洗。
数据整理包括数据输入、数据编码和数据录入等步骤,确保数据的准确性和一致性。
数据清洗则是处理数据中的异常值、缺失值和离群值等,以保证数据的可靠性和可用性。
三、描述统计描述统计是对数据进行总结和描述的方法。
常用的描述统计方法包括中心趋势度量和离散程度度量。
中心趋势度量包括平均数、中位数和众数等,用于描述数据的集中程度;离散程度度量包括标准差、方差和范围等,用于描述数据的分散程度。
另外,描述统计还可以通过绘制图表来展示数据的分布和关系。
常用的图表包括条形图、饼图、直方图和散点图等,它们能够直观地展示数据的特征和趋势。
四、推断统计推断统计是基于样本数据对总体进行推断的方法。
在统计推断中,我们通过对样本数据的分析来对总体参数进行估计,并对估计结果进行推断。
常用的推断统计方法包括假设检验和置信区间。
假设检验是用来检验某个假设是否成立的统计方法。
在假设检验中,我们先提出一个原假设和一个备择假设,然后利用样本数据进行假设检验,从而得出对原假设的结论。
置信区间是对总体参数的一个范围估计。
统计学知识点

统计学知识点关键信息项:1、统计学的定义与范围统计学的基本概念涵盖的主要领域2、数据收集方法普查与抽样调查观察法与实验法问卷设计要点3、数据整理与描述数据分类与分组集中趋势的度量(均值、中位数、众数)离散程度的度量(方差、标准差、极差)4、概率与概率分布随机事件与概率的定义常见概率分布(正态分布、二项分布等)概率计算方法5、抽样分布样本均值与样本比例的分布中心极限定理6、参数估计点估计与区间估计置信区间的构建与解释7、假设检验原假设与备择假设的设定检验统计量的选择与计算显著水平与决策规则8、方差分析单因素方差分析原理多重比较方法9、相关与回归分析相关系数的计算与解读简单线性回归模型回归系数的估计与检验11 统计学的定义与范围111 统计学是一门研究数据收集、整理、分析和解释的学科,它通过运用数学、概率论和数理统计等方法,从数据中提取有价值的信息,以帮助人们做出决策、解决问题和发现规律。
112 统计学涵盖了多个领域,包括社会科学、自然科学、工程技术、医学、商业等。
在社会科学中,统计学可用于研究人口趋势、经济发展、社会现象等;在自然科学中,可用于实验数据分析、模型验证等;在工程技术中,可用于质量控制、可靠性分析等;在医学中,可用于临床试验、疾病监测等;在商业中,可用于市场调研、销售预测等。
12 数据收集方法121 普查是对研究对象的全体进行调查,其优点是能够获得全面、准确的信息,但成本高、耗时长,且在实际操作中往往难以实现。
抽样调查则是从研究对象的总体中抽取一部分样本进行调查,通过对样本的分析来推断总体的特征。
抽样调查可以分为概率抽样和非概率抽样,概率抽样包括简单随机抽样、分层抽样、系统抽样和整群抽样等,非概率抽样包括方便抽样、判断抽样、配额抽样等。
122 观察法是通过观察研究对象的行为、现象等来收集数据,适用于无法直接询问或干预的情况。
实验法是通过控制实验条件来研究因果关系,其优点是能够更有效地确定变量之间的因果关系,但实验设计和实施较为复杂。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《统计学》基础知识1.判断数据类型,三者的层次关系。
①分类数据(=、≠):只能分类。
EG.性别(男为0,女为1)、水果种类。
②顺序数据(>、<):可进行类别排序,但是类别间尺度不定。
顺序数据虽然有类别,但是这些类别是有序的。
EG.文化程度(小学、初中、高中、大学)、获奖(一等奖、二等奖、三等奖),身高(160—170、170—180、180—190)。
③数值型数据(+、-):按数字尺度测量的观察值,计算两个测度之间的差值。
类别排序是根据一定的尺度来进行的。
EG.身高(168、170、178、189)、年龄、收入。
①—③是从低层次数据(包含的信息量少)到高层次数据(包含的信息量多)。
定类数据与定序数据是品质数据(定性数据),定距数据是数量数据(定量数据)。
定类数据包含了定序数据,定序数据包含了定距数据。
所以定距数据涵盖的信息量最多。
2.总体分布、样本分布、抽样(样本统计量)分布总体:是包含所研究的全部个体(数据)的集合。
总体中的每一个个体都是总体单位。
有限总体(抽样中每次抽取后不放回)、无限总体(抽取后放回)样本:从总体中抽取的一部分元素的集合。
构成样本元素的数目叫样本量(样本中有几个元素)。
3.参数、统计量参数:描述总体特征的概括性数字度量。
EG.总体平均数、总体标准差、总体比例。
统计量:描述样本特征的概括性数字度量。
EG.样本平均数、样本标准差。
4.变量、变量值、指标指标:反映统计总体数量特征的概念和数值。
(指标值是由变量值综合计算得到的。
)变量:总体单位普遍具有的属性和特征。
(分类变量、顺序变量、数值型变量『离散型变量EG.自然数,可以一一列举;连续型变量EG.实数,不能一一列举』)变量值:变量的具体取值就是变量值。
5.各特点、辨别应使用的抽样方式概率抽样(随机抽样):1) 简单随机抽样:从总体N的样本框中随机、一个个地抽取n个单位作为样本,每个单位的入样概率是相等的。
(简单直观,计算估计量误差方便;N较大时,构建抽样框不易且抽取过程繁琐,实施调查有困难。
)(抽样框:一份名单,包含所有总体单位的信息。
用以提供备选单位的名单以供抽取,是计算各个单位入样概率的依据。
)2) 分层抽样:将抽样单位按一定特征或规则划分为不同的层,然后从不同的层中独立、随机地抽取。
(样本结构与总体结构相似,提高精度,方便实施调查,既可以对总体也可以对层的目标量进行估计;层间差异大,层内总体单位差异小。
)3) 整群抽样:将总体中若干个单位合并为组,这样的组叫做群。
抽样时直接抽群,然后对选群中的所有单位全部实施调查。
(只需要群的抽样框,不需要总体的,简化工作量。
调查地点相对集中,方便调查;误差较大。
群间差异小,群内总体单位差异大。
)4) 系统抽样:(需要一个完整的抽样框)将总体中的所有单位排序,然后在规定范围内随机抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本。
(操作简便、提高精度;对估计量方差的估计难以确定。
)5) 多阶段抽样:首先抽取群,然后进一步抽样,从选取的群中抽取若干单位,(然后进一步抽样……)作为最终抽样单位。
群是初级抽样单位(每增加一个阶段就会增添一份误差)。
(保证样本的相对集中、不需要包含所有低阶段抽样单位的抽样框、实行再抽样,使调查单位在更广的范围内展开。
)非概率抽样(非随机抽样)1) 方便抽样:调查员依据方便的原则自行确定入抽样本的单位。
(容易实施、成本低;无法代表有明确定义的总体)例如:在街头发调查问卷2) 判断样本:研究人员根据自己的判断和经验确定入抽样本。
根据不同目的分为重点抽样(EG.全国钢铁企业生产状况,抽取宝钢和鞍钢)、典型抽样(EG.研究青山年犯罪的问题,抽取典型犯人)、代表抽样(EG.奶粉企业欲了解消费者对奶粉成分的需求,抽取一些年轻的母亲入样)。
(判断抽样是主观的,成本低、易操作;样本没有随机的原则,所以调查结果不能用于对总体有关的参数进行估计。
)3) 自愿样本:被调查者自愿参加成为样本中的一份子,向调查人员提供有关信息。
(EG.网上的调查问卷)(自愿样本与抽样的随机性无关,样本的组成集中于某一特定的人群,可以反映某一群体的看法。
)4) 滚雪球抽样:(用于对稀少群体的抽样)先选择一组调查单位,对其实施调查之后再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查。
(EG.对冬泳爱好者进行调查)(属于非概率抽样,容易找到那些属于特定群体的被调查者,成本低。
适于对特定群体进行研究的资料收集。
)5) 配额抽样:将总体中的所有单位按照一定变量分为若干类,然后在每一类中采取方便抽样或者判断抽样选取样本。
(操作简单、可以保证总体中不同类别的单位都包括在所抽样本中,使得样本的结构与总体结构类似;但是在抽取具体样本的时候不是依据随机原则,所以属于非概率抽样。
)6.抽样误差与非抽样误差(如何减少误差)抽样误差:由抽样中的随机性引起的所有样本可能的结果与总体真值之间的(平均差异)误差。
只存在于概率抽样中减少抽样误差的方法(不可避免):增大样本量、减小总体的变异性(总体各单位之间的差异)。
非抽样误差:由于其他原因引起的样本观察结果与总体真值之间的差异。
存在于概率抽样与非概率抽样中减少非抽样误差的方法:①抽样框误差:构造一个好的抽样框(去掉不属于总体的因素)②回答误差:调查者在接受调查时给出的回答与真实情况不符(理解误差、记忆误差、有意识误差、无回答误差)③调查员误差:粗心导致记录调查结果的时候出现错误、进行调查时候对被调查者的诱导④测量误差:测量工具的好坏、商场客流量调查时,查点顾客数的误差。
7.数据分组如何分数据分组:是为了观察数据的分布特征而将原始数据按照某种标准分成不同的组别,分组后的数据称为分组数据。
分组步骤:①确定组数;②确定各组组距;③根据分组整理成频数分布表。
*“上组限不在内”:第一组140—150、第二组150—160,150归在第二组。
左连续。
*数据要做到“不重(重复)不漏(遗漏)”*连续型直方图的柱形要连在一起,而离散性的柱形应要分开。
8.众数、中位数、平均数、集中趋势集中趋势:指一组数据向某一中心值靠拢的程度,反映一组数据中心点的位置所在。
众数:不受极端值的影响。
测度分类数据的集中趋势。
只有在数据量大的情况下,众数才有意义。
(一组数据分布的最高峰值。
不唯一性。
)中位数:不受极端值的影响。
测度顺序数据、数值型数据的集中趋势,不适用于分类数据。
(一组数据中间位置上的值。
当一组数据的偏斜程度较大时,中位数可以被选择。
)平均数:受极端值影响。
一组数据的均衡点所在。
只适用于数值型数据。
(全部数据的算术平均。
)1) 简单平均数:未分组的数据的平均数。
2) 加权平均数:分组后根据分组数据计算的平均数。
各组组中值与频数(各组中总体单位的个数)的乘积之和除以各组频数之和(样本量)。
*对于偏态分布的数据,最好选用众数或者中位数,平均数的代表性较差。
9.异众比率、四分位差、方差、标准差、离散系数异众比率:指非众数组的频数占总频数的比例。
用于衡量众数对一组数据的代表程度。
异众比率越大,众数的代表性越小。
主要适用于测度分类数据的离散程度,对于顺序数据与数值型数据可以计算异众比率。
四分位差:上四分位数与下四分位数之差。
反映了中间50%数据的离散程度,数值越小,说明数据越集中。
不受极值影响。
主要用于测顺序数据的离散程度,数值型数据也可以计算四分位差,但是不适用于分类数据。
方差:各变量值与其平均数离差平方的平均数。
反映数据的离散程度。
总体的自由度为N,样本的自由度为n-1.标准差:方差的平方根。
离散系数:一组数据的标准差与其相应的平均数之比。
用于比较不同样本数据的离散程度。
离散系数大就说明数据的离散程度也大。
10.经验法则:当一组数据对称分布时,经验法则表明:①约有68%的数据在平均数±1个标准差的范围之内;②约有95%的数据在平均数±2个标准差的范围之内;③约有99%的数据在平均数±3个标准差的范围之内。
11.偏态与峰态,作用、与正态分布的比较。
偏态:数据是对称的,偏态系数为0峰态:数据服从标准正态分布,峰态系数为0。
与标准正态分布相比更平坦则为平峰分布,更陡峭则为尖峰分布。
12.假设怎样提出(计算+小题)先确定备择假设(我们想要的答案),然后将其对立面设为原假设。
等号在原假设里(即含有=、≤、≥的基本就是原假设了)。
13.两类错误α错误(弃真错误):原假设是真的却被我们拒绝了。
小概率事件发生。
β错误(取伪错误):原假设为伪我们却没有拒绝。
小概率事件没有发生。
*β与方差正相关、与|μ0—μ|、α负相关。
我们可以控制α错误的大小,β却不能。
14.假设检验的流程、方法(反证法)P186①提出原假设与备择假设;②确定适当的检验统计量,并计算其数值;③进行统计决策。
15.抽样分布的基础:小概率原理小概率原理:小概率事件在一次试验中几乎不会发生。
(小概率的标准与显著性水平有关)16.、拒绝域、显著性水平拒绝域:落在拒绝域则拒绝原假设;落在置信区间则不拒绝原假设。
显著性水平:当原假设正确时却被拒绝的概率或者风险。
其实就是犯弃真错误的概率α。
*α越大,拒绝域越大,但是反推把握性越小;α越小,拒绝域越小,反推把握大。
所以α越小越好。
17.三个问题Q:为什么不能说“接受原假设”?A:因为我们所做的试验中小概率事件没有发生,但可能还有许多其他的与原假设矛盾的小概率事件,我们也无法证明这些小概率事件不会发生,所以我们只能根据我们得出的结果来判定不拒绝。
Q:为什么等号总是放在原假设中?A:因为原假设的内容总是表示参数没有差异或没有改变,或变量间没有关系等。
这里首先要有一个(假想)抽样分布的概念。
你构造检验统计量时(以z分布为例),总得有个假想的中心值吧。
这个中心值从哪里来?就得从原假设中来,然后再去计算,在原假设为真的前提条件下,出现观测值(及更极端值)的机会是多少。
没有这个假设值,整个假设检验就无法进行。
把等于号放在原假设的第一个作用,就是为了给出这个假想的中心值,以便确立一个假想的抽样分布。
Q:为什么单侧检验的原假设可以写成“原假设H0:μ=μ0”?A:“代表最坏情况”的问题。
假设你的假设是:H0: u=10; H1: u =10; H1: u 10的原假设;反之不然。
18.P值(计算得出的真实显著性水平)是什么?P值:当原假设为真时所得到的样本观察结果或更极端结果出现的概率。
(如果P很小而出现了,根据小概率原理,我们就有理由拒绝原假设;P越小,拒绝原假设的理由就越充分)P值的大小取决于:①样本数据与原假设之间的差异;②样本量;③被假设参数的总体分布。
19.单侧检验与双侧检验单侧检验:1个拒绝域,1个临界值,每个拒绝域的面积为α.如果原假设为“H0:μ≥/≤μ0”则为单侧检验。