keyuan统计学_期末复习重点
统计学期末复习重点(可编辑修改word版)

统计总体:统计总体是根据一定目的确定的所要研究事物的全体,它是客观存在,并在某一相同性质基础上结合起来的由许多个别事物组成的整体,简称总体。
样本:是指在全及总体中按随机原则抽取的那部分单位所构成的集合体。
算术平均数:算术平均数是统计中最基本、最常用的一种平均数,它的基本计算形式是用总体的单位总数去除总体的标志总量。
调和平均数:是根据变量值的倒数计算的,是变量值倒数的算术平均数的倒数,也叫倒数平均数。
简单分组:是指对所研究的总体按一个标志进行分组。
复合分组:复合分组是指对所研究的总体按两个或两个以上的标志进行的多层次分组。
结构相对指标:结构相对指标是表明总体内部的各个组成部分在总体中所占比重的相对指标,也叫比重指标。
强度相对指标:是指两个性质不同,但有一定联系的总量指标数值之比。
类型抽样:又称分类抽样或分层抽样,它是先将总体按某个主要标志进行分组(或分类),再按随机原则从各组(类)中抽取样本单位的一种抽样方式。
机械抽样:它是将总体各单位按某一标志顺序排列,然后按固定顺序和相等距离或间隔抽取样本单位的抽样组织方式。
综合指数:凡是一个总量指标可以分解为两个或两个以上的因素指标时,为观察某个因素指标的变动情况,将其他因素指标固定下来计算出的指数称为综合指数。
平均指数:平均指数法是以个体指数为基础来计算总指数,根据选用的权数不同,平均指数法可以进一步分为加权算术平均法,加权调和平均法,固定权数加权平均法。
相关关系:是指现象之间客观存在的,在数量变化上受随机因素的影响,非确定性的相互依存关系。
回归分析:现象之间的相关关系,虽然不是严格的函数关系,但现象之间的一般关系值,可以通过函数关系的近似表达式来反映,这种表达式根据相关现象的实际对应资料,运用数学的方法来建立,这类数学方法称为回归分析。
统计调查:就是根据统计研究的目的、要求和任务,运用各种科学的调查方法,有计划、有组织的搜集有关现象的各个单位的资料,对客观事实进行登记,取得真实可靠的调查资料的活动过程。
统计学基础知识期末复习资料

统计学基础知识期末复习资料统计学是一门研究收集、整理、分析和解释数据的学科。
它是一个广泛的学科领域,应用于各个行业和领域。
在期末考试前夕,复习统计学的基础知识是非常重要的。
本文将为你提供统计学基础知识的复习资料,帮助你更好地准备期末考试。
1. 描述性统计描述性统计是统计学的基础,它涉及到对数据进行整理、总结和分析。
描述性统计包括以下几个方面:- 中心趋势的测量:包括平均数、中位数和众数。
平均数是一组数据的算术平均值,中位数是一组数据的中间值,众数是一组数据中出现次数最多的值。
- 变异性的测量:包括范围、方差和标准差。
范围是一组数据的最大值和最小值之间的差距,方差是数据偏离平均值的平方和的平均值,标准差是方差的平方根。
- 分布形状的测量:包括偏度和峰度。
偏度描述了数据的分布形状的对称性,偏度为0表示数据分布是对称的,偏度大于0表示数据分布是正偏的,偏度小于0表示数据分布是负偏的。
峰度描述了数据分布的尖峰程度,峰度大于0表示数据分布是尖峰的,峰度小于0表示数据分布是平坦的。
2. 概率基础概率是描述事件发生可能性的数值。
在统计学中,概率是非常重要的,因为它用于计算和预测事件的发生概率。
以下是概率的基本概念:- 随机试验和样本空间:随机试验是指在相同条件下可以重复进行的实验,样本空间是随机试验所有可能结果的集合。
- 事件和事件的概率:事件是样本空间的子集,事件的概率是事件发生的可能性。
- 条件概率和独立事件:条件概率是指在已知某一事件发生的前提下,另一事件发生的概率。
两个事件是独立的,当且仅当一个事件的发生不受另一事件发生与否的影响。
- 概率分布:概率分布是指随机变量所有可能取值与其对应的概率之间的关系。
常见的概率分布包括离散概率分布和连续概率分布。
3. 参数估计和假设检验参数估计和假设检验是统计学中常用的方法,用于从样本中推断总体的特征或进行统计推断。
以下是参数估计和假设检验的基本概念:- 参数估计:参数估计是根据样本数据推断总体参数的数值。
统计学期末重点整理

统计学期末重点整理统计学期末重点整理题型:单选;多选;简答;计算。
简答题:1、指标和标志之间的关系:指标与标志的关系如同总体与单位的关系,指标是由标志过渡而来的。
通过实际调查取得了反映个体单位的标志表现,再对这些标志表现加以综合就形成了相应的指标。
尽管品质标志的标志表现不是数量,但对其累计可获得反映总体单位数的统计指标。
数量指标的标志表现是数值,对这些数值进行综合就可以得出反映总体标志总量的统计指标,当然也可以获得总体单位数指标。
2、统计分组:数值型数据分组类型、特点、应用场合:频数分布主要有三种类型:即钟形分布、U形分布、J型分布。
(1)钟型分布:特征是“两头小,中间大”,即靠近中间的变量数值频数多,靠近两头的变量数值频数少。
具体称为正态分布、正偏态分布、负偏态分布。
许多社会经济和自然总体的频数分布都趋向于正态分布,如农作物的单位面积产量、零件的公差、人的身高、纤维强度等都服从正态分布。
(2)U型分布:形状跟钟形分布相反,靠近中间的变量值频数少,靠近两端的变量值频数多,形成“两头大,中间小”的U字形。
例如,人口死亡率分布就是这种分布。
(3)J型分布:一种是正J型分布,即频数随着变量值的增大而增多;另一种是反J型分布。
经济学中供给曲线随着价格的提高,供给量以更快的速度增加,呈现出正J型;而需求曲线则表现为随着价格的提高,需求量以较快的速度减少,呈现反J型。
3(的一种平均数。
(2)众数Mo:是指一组数据中出现次数最多的变量值,用Mo 表示。
众数是一个位置代表值,它不受数据中极端值的影响。
从变量分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数。
众数也可以不存在,也可以有多个。
出现最多次数的变量值即为众数。
在实际生活中,众数的应用场合比较有限,例如,在农贸市场上,某种商品的价格常以众数为代表值。
(3)中位数Me:是一组数据按从小到大的顺序后,处于中间位置上的变量值,用Me表示。
最新统计学期末复习重点总结

统计学期末复习重点一.单项选择(20 X 2=40)单选题所涉及的知识点,不用死记概念,要理解其内涵,灵活应用!第一章.绪论统计的定义:统计是人们认识客观世界总体数量变动关系和变动规律的活动的总称,是认识客观世界的有力工具。
统计学的定义:统计学是关于数据的科学,研究如何收集(如调查与试验)、分析(回归分析)、表述数据(图与表),并通过数据得出基本结论。
统计的研究对象的特点:①数量性。
统计数据是客观事物量的反映。
②总体性。
统计的数量研究是对现象总体中各单位普遍存在的事实进行大量观察和综合分析。
③变异性。
总体各单位的特征表现存在着差异,而且这些差异并不是事先可以预知的。
统计的分类:统计可分为描述统计,推断统计、核算统计、理论统计、应用统计描述统计:汇总的表、图和数值。
包括搜集数据、整理数据、展示数据推断统计:用样本数据对总体性质进行估计,检验核算统计:对国家或地区经济运行过程及各类总量进行描述和分析总体:根据一定目的确定的所要研究的事物的全体。
它是由客观存在的、具有某种共同性质的许多个别事物构成的整体。
总体单位(简称单位):是组成总体的各个个体。
根据研究目的的不同,单位可以是人、物、机构等实物单位,也可以是一种现象或活动等非实物单位。
样本:由总体的部分单位组成的集合。
样本容量:样本所包含的总体单位数标志(变量):总体各单位普遍具有的属性或特征。
标志的分类:①品质标志:单位属性方面的特征。
品质标志的表现只能用文字、语言来描述。
②数量标志:单位数量方面的特征。
数量标志可以用数值来表现几种常用的统计软件:SAS SPSS MINITAB STATISTICA Excel思考题:1、在调查某高校学生的学习状况时,总体是(C )A该校全部学生B该校每个学生C该校全部学生的学习情况D被随机抽取进行数据采集的全部学生2. 要了解全国的人口情况,总体单位是(A )。
A.每一个人B.每一户C.每个省的人口D.全国总人口第二章.数据数据:所收集、分析、汇总表述和解释的事实及数字,数据是进行统计分析研究的基础;是统计学研究对象的特征,是客观事实;不仅仅局限于数字范畴,包括非数字形式的其他信息。
统计学期末考试重点

第一章3、标志的种类 P7标志按其表现形式的不同,可分为品质标志和数量标志。
4、统计指标的特点 P8⑴统计指标都能用数字表示;⑵统计指标是说明总体综合特征的;⑶统计指标是反映一定社会经济范畴的数量。
5、指标与标志的区别和联系 P9⑴区别:①指标是说明总体数量特征的概念,而标志是说明总体单位特征的概念,两者说明的对象不同;②指标都是用数值表示的,而标志有的是数字表示,有的是用文字表示;③指标是由数量标志汇总得出来的,而标志仅是某一个体现象,未经过任何汇总;④标志不具备时间、地点条件,而指标一定要有时间、地点等条件。
⑵联系:许多统计指标是由各单位的数量标志值汇总而来的;指标和标志之间存在转化关系。
6、统计学的研究方法 P11⑴大量观察法⑵统计描述法⑶综合指标法⑷统计推断法⑸统计模型法7、统计工作的过程 P13⑴统计设计⑵统计调查⑶统计整理⑷统计分析第二章2、统计调查的种类 P23 (可能简答)⑴统计调查按调查范围不同,可以分为全面调查(普查、全面统计报表等)和非全面调查(抽样调查、重点调查和典型调查等);⑵按登记时间是否连续,可以分为经常性调查和一次性调查;⑶按组织方式不同,可以分为统计报表制度和专门调查。
第三章3、统计分组的原则 P40⑴根据研究目的选择分组标志;⑵根据现象本质选择分组标志;⑶根据所处条件选择分组标志。
4、统计分组的种类 P40-P41⑴按标志表现分组,分为品质标志分组和数量标志分组。
⑵按数量标志分组包括单项式分组和组距式分组。
⑶按标志数量分组,分为简单分组、复杂分组、体系分组。
第四章2、总量指标的作用(了解)P57⑴总量指标可以反映一个总体的基本情况;⑵总量指标是制定政策和编制计划、分析各种指标的基础指标;⑶总量指标是计算相对指标、平均指标等各种分析指标的基础。
3、总量指标的种类 P58⑴按指标反映的内容不同,划分为总体单位总量和总体标志总量;⑵按指标反映的时间状况不同,划分为时期指标和时点指标。
统计学基础知识期末复习资料

统计学基础知识期末复习资料一、名词解释1、统计学统计学是一门阐明如何去采集、整理、显示、描述、分析数据和由数据得出结论的一系列概念、原理、原则、方法和技术的科学,是一门独立的、实用性很强的通用方法论科学。
2、指标和标志标志是说明总体单位属性或特征的名称。
指标是说明总体综合数量特征和数量关系的数字资料。
3、总体、样本和单位统计总体是统计所要研究的对象的全体,它是由客观存在的、具有某种共同性质的许多个体所构成的整体。
简称总体。
构成总体的个体则称为总体单位,简称单位。
样本是从总体中抽取的一部分单位。
4、统计调查统计调查是根据统计研究的目的和要求、采用科学的方法,有组织有计划的搜集统计资料的工作过程。
它是取得统计数据的重要手段。
5、统计绝对数和统计相对数反映总体规模的绝对数量值,在社会经济统计中称为总量指标。
统计相对数是两个有联系的指标数值之比,用以反映现象间的联系和对比关系。
6、时期指标和时点指标时期指标是反映总体在一段时期内累计总量的数字资料,是流量。
时点指标是反映总体在某一时刻上具有的总量的数字资料,是存量。
7、抽样估计和假设检验抽样估计是指根据所抽取的样本特征来估计总体特征的统计方法。
假设检验是先对总体的某一数据提出假设,然后抽取样本,运用样本数据来检验假设成立与否。
8、变量和变异标志的具体表现和指标的具体数值会有差别,这种差别就称为变异。
数量标志和指标在统计中称为变量。
9、参数和统计量参数是反映总体特征的一些变量,包括总体平均数、总体方差、总体标准差等。
统计量是反映样本特征的一些变量,包括样本平均数、样本方差、样本标准差等。
10、抽样平均误差样本平均数与总体平均数之间的平均离散程度称之为抽样平均误差,简称为抽样误差。
重复抽样的抽样平均误差为总体标准差的1/n。
11、抽样极限误差抽样极限误差是指样本统计量和总体参数之间抽样误差的可能范围。
我们用样本统计量变动的上限或下限与总体参数的绝对值表示抽样误差的可能范围,称为极限误差或允许误差。
统计学期末复习重点分析

统计学期末复习重点分析统计学期末复习重点一、选择、填空、判断题型:1、统计一词通常有三种含义:即统计工作、统计资料、统计学。
2、统计学的特点:数量性、总体性、具体性。
3、就一次统计活动来讲,一个完整的认识过程一般可分为统计调查、统计整理和统计分析三个阶段。
4、标志可分为品质标志和数量标志。
5、统计调查是统计工作中的基础环节。
6统计调查工作要力求达到准确性和及时性这两个基本要求。
7、统计调查按调查对象所包括范围不同,可分为全面调查和非全面调查。
8、统计调查的组织形式分为统计报表制度和专门调查。
9、统计调查按登记事物的连续性不同,分为经常调查和一时调查。
10、统计整理的关键是统计分组,统计分组的工作是正确的选择分组标志。
11、统计分组的三方面作用是分别从类型分组、结构分组和分析分组角度来说明的。
12、根据分组标志的不同,分配数列可分为两种:品质分配数列(简称品质数列);变量分配数列(简称变量数列)。
品质数列由各组名称和次数组成。
变量数列也是由各组名称(由变量值表示)和次数(或频率)组成。
13、组距数列根据组距是否相等,分为等距数列和异距数列两种。
14、次数分布有三种主要类型:钟型分布、U型分布,J型分布。
15、总量指标按其反映的内容不同,分为总_____16、总量指标按其反映时间状况不同,分为时期指标和时点指标。
17、根据客观现象的性质不同,5年计划指标数值的规定有水平法和累计法。
18、注意两个对比指标的可比性19、平均指标能反映总体变量值的集中趋势。
20、动态数列由两个基本要素构成:一个是资料所属的时间;另一个是各时间上的统计指标数值,习惯上称之为动态数列中的发展水平。
21、如果掌握的权数资料是基本公式的母项数值,则采用算术平均数形式;如果掌握的权数资料是基本公式的子项数值,则采用调和平均数形式。
22、动态数列按统计指标的性质不同,可以分为绝对数动态数列、相对数动态数列、平均数动态数列三种。
23、保证数列中各个指标之间的可比性,就成为编制动态数列应遵守的基本原则。
统计学期末复习重点知识

统计学期末复习重点知识统计学期末复习➢ 统计的研究对象的特点:数量性;总体性;变异性。
➢ 日常生活中,“统计”的3种含义:统计工作;统计数据;统计学。
➢ 按分组的作用和任务不同,分为类型分组、结构分组和分析分组。
➢➢ 相关系数的计算:∑∑--∑--=22)()())((y y x x y y x x r ∑∑∑∑-=--yx n xy y y x x 1))((∑∑∑-=-222)(1)(x n x x x ∑∑∑-=-222)(1)(y ny y y ny y x x n y y x x /])()([/)])(([22∑∑--∑--=∑∑--∑--=22)()())((y y x x y y x x r计算相关系数的“积差法”简单线性回归中估计的回归方程为:)()(y x xy n xy L∑⋅∑-∑=2)(2x x n xxL ∑-∑=2)(2y y n yy L ∑-∑=yyL xx L xy L r =ny y n x x n y y x x ∑∑∑-⋅---=2)(2)())((yxn yn x n xy σσ∑⋅∑-∑=yx y x xy σσ⋅-=⎪⎪⎪⎩⎪⎪⎪⎨⎧-=∑⋅-∑=∑⎪⎭⎫ ⎝⎛∑-⎪⎭⎫ ⎝⎛∑⎪⎭⎫ ⎝⎛∑∑-=========xy nx n y x x n y x y x n L L n i i n i i n i ni i i ni i n i i n i i i xx xy 111101121111ˆˆˆˆββββ1x y 10ˆˆˆββ+=估计标准误差 Sy :由样本资料计算:由总体资料计算或在大样本情况下:总量指标时期数列的序时平均数:算术平均法连续时点数列的序时平均数:算术平均连续每天资料不同:()2ˆ12-∑-==n y y S ni i i y ()ny y S ni i iy ∑-==12ˆ∑=+++=in y nn y y y y 121持续天内资料不变:间断时点数列的序时平均数:※间隔相等时,采用首末折半法计算;间隔不相等时,采用时间间隔长度加权平均:相对数数列(平均数数列)序时平均数:∑∑++++++=ff y f f f f y f y f y y n n n =212211持续天数—i f 122122212113221-++++=-++++++=--n y y y y n y y y y y y y n n n n 12111232121222---+++⨯+++⨯++⨯+=N N NN f f f f y y f y y f y y y⑴ a 、b 均为时期数列时:⑵ a 、b 均为时点数列时:⑶ a 为时期数列、b⎪⎩⎪⎨⎧定基发展速度环比发展速度发展速度 y y t t1-=y y t 0=)定基发展速度1()∏环比发展速度 = y y y y y y y y 1n n12010t -⨯⨯⨯= 0101y y y y y y t t t t --=)相邻定基发展速度的比环比发展速度=2()()⎪⎩⎪⎨⎧=定基环比增长速度y y y t t t 11--- y y y t 00-直线趋势的测定:最小二乘法: 直线趋势方程:用最小平方法求解参数 a 、b ,有()nnx定基发展速度环比发展速度==∏1-平均发展速度=平均增长速度()()0n1i in2y y∑=+++=x x x∑∑∑∑∑+=+=2tb t a ty tb na y tb y a t t n y t ty n b -=--=∑∑∑∑∑22)(求解a 、b 的简捷方法:取时间数列中间项为原点N 为奇数时,令t = …,-3,-2,-1,0,1,2,3, … N 为偶数时,令t = …,-5,-3,-1,1,3,5, …年 份1季2季3季4季1994199519961997199825.224.423.82625.117.118.419.419.118.612.614.113.815.715.119.318.92121.620.81)直接平均法:=∑t yny a tty b ===∑∑∑2。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
●统计学:收集、处理、分析、解释数据并从中得出结论的科学。
研究对象:客观现象总体的数量特征和数量关系,及通过数量方面反映的客观现象发展变化规律性。
统计工作:关于数据采集、整理、分析、发布、使用全过程的活动总称。
统计工作过程:统计设计,统计数据收集,统计整理,统计分析,统计发布,统计资料的整理,开发与应用。
●统计分析方法:描述统计,推断统计。
描述统计:研究如何取得反映客观现象的数据,通过图表形式对收集的数据进行加工处理和显示,综合、概括与分析得出反映客观现象的规律性数量特征。
推断统计:在对样本数据进行描述的基础上,利用一定方法根据样本数据估计活对端总体的数量特征(部分→总体)。
●数据类型:⑴定型(品质)数据:分类数据(eg购买商品支付方式,职业)、顺序数据(eg评价教育质量);定量:数值型数据(eg收入,年龄)⑵观测数据(eg电视收视率)、实验数据。
都在没有对事物进行人为控制的条件下得到的⑶时间序列数据(又称动态数据,在不同时间或时点收集的数据)(eg就业人数逐年变化情况)、截面数据(又称静态数据,在相同时间下收集的数据,反映不同空间或主体在同一时间下的数量特征)、面板数据(时间序列和截面数据的综合,有空间时间两个维度,综合反映不同时间空间的数据分布情况)。
●总体N:根据一定目的确定的所要研究事物的全体。
个体:组成总体的各单位。
样本:总体部分单位组成的集合。
样本单位必须取自同一总体。
样本个数多少和样本量与抽样方法有关。
样本抽取必排除主观因素影响,确保样本客观性代表性。
样本容量n:样本所包含的元素。
总体参数:描述总体特征的概括性数字度量。
总体均值μ总体方差σ方,总体标准差σ总体比例π。
参数对应总体。
统计量:描述样本特征的概括性数字度量。
样本均值x拔,样本方差s2样本标准差s样本比例p。
统计量对应样本。
变量:说明总体或样本数量特征的属性。
分类:⑴分类、顺序、数值型变量⑵连续型、离散型变量。
方便抽样:根据调查方便性,以无目标、随意的方式自行确定调查单位。
志愿者抽样:被调查者自愿参加冰箱调查者提供有关信息。
滚雪球抽样:先对随机选择的一些被调查者实施访问,然后请他们推荐具有研究目标总体特征的调查单位。
配额抽样:根据一定标准对总体分层分类后,从各层各类中主管选取一定比例调查单位。
判断抽样:根据经验判断了解的基本情况有目的地选择单位。
统计指标:说明现象总体数量特征的属性。
统计指标体系:若干相互联系的统计指标构成的有机整体。
●统计调查方式:⑴普查:为某特定目专门组织的一次性全面调查。
特点:一次性,周期性;规定统一标准调查时间;数据规范化程度较高;适用范围较窄⑵统计报表⑶抽样调查:从总体中随机抽取部分个体作为样本进行调查。
特点:经济性,时效性强,适应面广,准确性高。
●调查方案设计:明确调查目的,确定调查对象和单位,确定调查项目,确定调查时间和方法,调查工作的组织实施。
调查问卷设计:引言,被调查者基本情况,问题和答案,结语。
问题:⑴开放式问题:优:被调查者有机会进行自我表达或详细描述。
缺:开放式要求更高,被调查者须在没有选项帮助情况下确定问题意图;调查机构数据录入较困难;费用更高⑵封闭式:优:答案已设计好,被调查者只需简单地选择合适选项,不需用自己语言陈述答案,回答问题更快更容易;被调查者更可能按设计者希望的意图回答;数据更易分析;编码和数据录入更容易,花费更省;若一问题被用于多项调查,相同回答选项有助于对结果进行比较。
●数据误差分类:抽样、非抽样误差。
●数据预处理:⑴数据审核:检查数据错误。
审核准确性:逻辑检查,计算检查⑵数据筛选⑶数据排序。
●统计表:构成:表头,行标题列标题,数字资料,表外附加。
注意:总标题简明扼要;上下两端端线粗线绘制,其他线细线,左右两端开口式不划线;数字资料应有计量单位;“合计”置于最后一列;没有数字的单元格用“—”表示;填好的统计表无空白单元格。
●异众比率Vr:非众数组频数占总频数的比率。
衡量众数对一组数据代表性程度大小。
Vr=(Σfi-fm)/ Σfi=1-fm/Σfi●频数:落在某一类别或组中的数据个数。
频率:各类别频数与总频数之比。
累积频数:各类别或组的频数逐级累加得到的频数。
帕累托图:把各类别数据的频数由大到小排序并计算累积频率绘制条线图。
●极差R:一组数据最大值最小值之差。
R=max(xi)-min(xi)●四分位差Qd:上四分位数与下四分位数之差,亦称内距、四分间距。
反映中间50%数据离散程度。
衡量中位数代表性。
Qd=Q U-Q L●抽样分布:样本统计量的概率分布。
设总体变量X,X1到XN;样本变量x,x1到xn:⑴数学期望:E(x拔)=E[(x1+…+xn)/n]=1/n[E(x1)+…+E(xn)],重复抽样x1到xn相互独立,且都是从X1到XN抽取的,每单位机会相等,概率均为1/N所以E(x1)=…=E(xn)=Σ(上n下i=1)XiPi =μ,E(x拔)=1/n[E(x1)+…+E(xn)]= 1/n(nμ)=μ⑵方差:σ2(x 拔)=σ2[(x1+…+xn) /n]=σ2/n方(x1+…+xn)=1/n2[σ2(x1)+…+σ2(xn)]重复抽样x1到xn相互独立,且都是从X1到XN抽取的,所以xi 与总体同分布σ2(x1)=…=σ2(xn)=σ2,σ方(x拔)= 1/n方(σ2+σ2+…+σ2)=σ2/n,σ2(x拔)=σ/根n。
●大样本:⑴大样本且σ已知:任何服从正态分布的随机变量95%值在“均值±1.96个标准差”之内。
Z=(x拔-μ)/σx拔~N(0,1),P(|z|≤Zα/2)=1-α,P(|x拔-μ|/σx拔≤Zα/2)=1-α,P(|x拔-μ|≤Zα/2σx拔)=1-α,x拔- Zα/2σx拔≤μ≤x拔+ Zα/2σx拔,边际误差Zα/2*σ/根n=E。
σ越大,可靠性越低,区间越窄。
⑵σ未知:σx拔=s/根n。
●假设:检验为目的对单或多个总体分布或分布中所含参数具体数值所作的陈述。
总体参数:总体均值、比例、方差。
假设检验:对总体参数提出某种假设,利用样本信息判断该假设是否成立的方法。
采用逻辑上反证法,统计学上小概率原则。
假设检验—古典方法:⑴提出假设:原假设(待检验的假设,又称零假设)、备择假设(与原假设对立的假设,又称研究假设)。
备择假设常是研究者搜集证据予以支持的假设,原假设常是研究者搜集证据予以反对的假设⑵确定检验统计量及其分布⑶确定显著性水平及拒绝域:原假设为真时拒绝原假设所犯错位称为I类错误,又叫弃真错误;原假设为假时喂拒绝原假设,II类错误,取伪错误;原假设被拒绝时才可能犯I 错误,未被拒绝时犯II错误。
⑷构选取决规则:①双侧检验:|检验统计量|>|检验临界值|拒绝H0,否则不拒绝②左侧检验:统计量<临界值,拒绝H0,否则不拒绝③右侧检验:检验统计量>临界值,拒绝H0,否则不拒绝⑸计算检验统计量值作出决策(不能拒绝)。
●总体均值检验:⑴大样本:根据抽样分布理论,x拔~N(μ,σ2/n),将x标准化得到检验统计量z,z服从标准正态分布。
总体方差σ2已知z =(x拔-μ0)/(σ/根n),σ2未知z=(x拔-μ0)/(s/ 根n)⑵小样本:总体方差σ2已知,=大样本;σ2未知,样本方差s2代替总体方差σ2,统计量不服从标准正态分布,服从自由度n-1的t分布,tc表示有样本数据计算检验统计量具体数值t=(x拔-μ0)/(s/根n)~t(n-1)。
总体比例检验:检验统计量z=(p-π0)/根π0(1-π0)/n结~N(0,1)。
双侧检验:H0:π=π0 ,H1:π≠π0,|z|>za/2;左侧检验:H0:π≥π0 ,H1:π<π0,z<za;右侧检验:H0:π≤π0 ,H1:π>π0,z>za。
●散点图:水平轴代表自变量x纵轴代表因变量y, (xi,yi)表示点,n 组数据在坐标系中形成的n个点为散点,坐标及散点构成的二维数据图。
正线性相关,负线性相关,非线性相关,不相关。
●相关系数r:根据总体全部数据计算的为总体相关系数ρ。
根据样本数据计算的为样本相关系数。
r=s上方下xy/SxSy=Σ(x-x拔)(y-y拔)/根Σ(x-x拔)方 结 根Σ(y-y拔)方 结=(nΣxy-ΣxΣy)/根[nΣx2-(Σx)2][ nΣy2-(Σy)2]结。
度量两个变量线性关系强度的统计量;是随机变量;绝对值小于1。
相关系数显著性检验:步骤⑴提出假设:H0:ρ=0,H1:ρ≠0 ⑵计算检验统计量t值:t=r根(n-2)/(1-r2)结~t(n-2) ⑶作出判断:根据显著性水平α自由度df=n-2查出t-检验临界值tα/2(n-2),t绝对值>临界值绝对值,拒绝原假设,表明总体两变量间存在显著线性关系。
●一元线性回归模型:⑴回归分析中,被解释变量为因变量y。
y=β0+β1x+ε。
假定1:误差项期望值为0,E(ε)=0,E(β0)= β0,E(β1)= β1,E(y)= β0+β1x。
假2:对所有x误差项ε方差都相同,为常数σ2,即给定x,y方差σ2。
假3:误差项ε是一个服从正态分布随机变量,ε~N(0,σ2),且独立,所以对特定x所对应y和其他x所对应y不相关;对于任何一个给定的x,y都服从期望值β0+β1x方差σ2的正态分布⑵一元线性回归方程也称直线回归方程,形式为E(y)=β0+β1x,β0回归直线在y轴上的截距,x=0时期望值;β1直线斜率,表明自变量每变动一单位因变量平均变化量⑶样本回归直线(估计的回归方程):根据样本数据拟合的直线,yi约=β0约+β1约xi。
样本模型yi约=β0约+β1约xi+ei,ei残差,总体误差估计。
●最小二乘估计:用因变量观测值yi约 与估计值yi约 间的离差平方和最小方法估计β0约和β1约。
ei=yi-yi约,y约=β0约+β1约x。
Q=∑e 下i上2=∑(yi-yi约)2=∑(yi-β0约-β1约xi)2,将Q对β0约 和β1约求偏导数,并令其等于0,∑yi=nβ0约+β1约∑xi,∑xiyi=β0约∑xi +β1约∑xi2解得β1约=(n∑xiyi-∑xi∑yi)/[n∑xi2-(∑xi)2],β0约=y-β1约x。
●回归直线拟合优度:⑴判定系数:对估计回归方程拟合优度优劣的度量,又称可决系数。
因变量y取之不同,y取值的波动称为变差。
变差大小可用实际观测值y与其均值y只差y-y平均表示。
n次观测值总变差由变差平方和表示,称为误差SST。
SST=∑(yi-y平均)2,yi-y平均=( yi-y 约)+(yi约-y),∑(yi-y平均) 2=∑(yi-yi约)2+∑(yi约-y平均)2。
回归平方和SSR,和SSE:SST=SSR+SSE,1=SSR/SST+SSE/SSR,判定系数R2=SSR/SST=1-SSE/SST越大越好,R2取值 [0,1]。