Lecture13_570 统计笔记
统计基础知识笔记

统计基础知识笔记统计基础知识笔记第一章总论第一节统计的涵义一、什么是统计1、【统计】:是指对某一现象有关的数据的搜集、整理、计算和分析等的活动。
包括三个含义:(统计工作)、(统计资料)、(统计学)。
2、【统计工作】:是指利用科学的方法搜集、整理、分析和提供关于社会经济现象数据资料的工作的总称。
是最重要最基本的含义。
3、【统计资料】:是指通过统计工作取得的、用来反映社会经济现象的数量资料的工作的总称。
4、【统计学】:是指研究如何对统计资料进行搜集、整理、分析的理论与方法的科学。
5、统计的特点:数量性、总体性、具体性、社会性、变异性。
其中:在数量性上,统计活动的中心问题就是数据。
统计数据对社会经济现象的反映表现在以下三方面:A数量的多少:从总量上反映事物发展的规模和水平。
B事物之间的数量关系。
C现象之间的质与量的辩证统一关系。
二、统计工作、统计资料、统计学三者之间的关系:统计工作与统计资料是(统计活动过程)与(统计活动成果)的关系。
统计工作与统计学是(统计实践)与(统计理论)的关系。
统计工作先于统计学发展起来的。
第二节统计学中的基本概念一、总体1、【总体】:凡是客观存在的,在同一性质基础上结合起来的许多个别事物的整体就是统计总体。
2、统计总体的特点:(1)统计总体是根据统计任务的要求要求确定的。
(2)统计总体是客观存在的。
(3)统计总体中的所有总体单位必须具有同一性质。
3、有限总体与无限总体:(1)一个统计总体中所包括的总体单位如果是有限的,称为【有限总体】。
如果是无限的则称为【无限总体】。
(2)对无限总体不能进行全面调查,只能调查其中一小部分,据以推断总体;对有限总体既可以进行全面调查,也可以只调查其中一部分单位。
二、总体单位1、【总体单位】:构成统计总体的个别事物称总体单位。
例:对某市工业企业职工的收入情况进行研究。
统计总体:该市全部工业企业全部职工。
统计单位:该市全部工业企业的每一个职工。
统计指标:该市全部职工收入。
统计学课件笔记整理详解

封闭型问题答案的设计方法主要有:两项选择法、多项选择法、顺序选择法、 评定尺度法、双向列联法等。
答案要穷尽。答案要互斥。 小结: 对使用者来说,数据的来源包括一手数据和二手数据。 实际中常用的统计调查方式主要有抽样调查、普查和统计报表。 常用的概率抽样方法包括:简单随机抽样、系统抽样、分层抽样、整群抽样、 多阶段抽样等。 常用的非概率抽样方法有:方便抽样、判断抽样、配额抽样和雪球抽样。 抽样调查中的误差包括抽样误差和非抽样误差两部分。 非抽样误差主要包括抽样框误差、无回答误差和计量误差。 数据收集方法主要包括访问调查、邮寄调查、电话调查、电脑辅助调查、座 谈会、个别深访、直接观察等。 调查方案设计的好坏直接影响到调查数据的质量。问卷设计是科学与艺术的 结合。
第一章 统计与数据
描述统计(Descriptive Statistics):用表格、图形和数字来概括、显示数据特 征的统计方法
推断统计(Inferential Statistics):从总体中抽取样本,并利用样本数据来推 断总体特征的统计方法。
参数(parameter):描述总体数量特征的概念常用希腊字母。统计量(statistic): 描述样本数量特征的概念,常用英文字母表示
重复抽样的计算公式比不重复抽样简单,但误差也比不重复抽样略大 系统抽样(也称等距抽样):将总体 N 个单位按某种顺序排列,按规则确定 一个随机起点,再每隔一定间隔逐个抽取样本单位的抽样方法。主要适用场合: 总体内的样本单位,对有兴趣的指标而言是随机的或按大小排列的 总体内单位数过多,而抽取的样本又较多时 总体内的单位数不能确定时(例如抽取学号最后一位为 8 的学生进行调查) 分层抽样也称分类抽样或类型抽样。即先将总体所有单位按某种标志划分为 若干层,然后从各层中随机抽取一定数目的单位构成样本,根据各层样本汇总对 总体指标作出估计的一种抽样方式。总体方差等于层间方差和层内方差的加权和, 而抽样误差只受层内方差的影响。因此分层时应使层间方差尽可能大(从而层内 方差小)。 整群抽样:先将总体分为 R 个群(即次级单位或子总体),每个群包含若干 总体单位。按某种方式从中随机抽取 r 个群,然后对抽中的群的所有单位都进行 调查的抽样方式。总体方差等于群内方差和群间方差的加权和,而抽样误差只受 群间方差的影响。因此分群时应使群间方差小。
统计学笔记doc资料

第一章总论第一节统计学概述一、什么是统计学1、统计学的定义:统计学是一门关于数据的科学,是一门关于数据的收集、整理、分析、解释和推断的科学。
2、统计的三种含义:统计工作对现象的数量进行搜集、整理和分析的活动过程统计资料通过统计实践活动取得的说明对象某种数量特征的数据统计学是关于数据的一门科学三者之间的关系:统计工作与统计资料是工作与工作成果关系,三者之间是实践与理论关系3、统计学的研究对象:一切自然与社会现象总体的数量特征及其相互关系特点:数量性、总体性、变异性4、统计学的研究方法大量观察法、统计指标法、统计推断法二、统计学的产生与发展1、古典统计学(17世纪中——18世纪中):记述学派和政治算术学派2、近代统计学(18世纪末——19世纪末):数量统计学派和社会统计学派3、现代统计学(20世纪至今)三、统计学的分类1、理论统计学:研究的内容是统计的一般理论和方法描述统计学用图形、表格和数值方法来汇总数据的统计学。
推断统计学用样本数据对总体的某些特征进行估计和假设检验的统计学。
2、应用统计学:研究的内容是运用于某一特定领域的统计问题第二节统计学的基本概念一、统计总体与总体单位1、统计总体:由客观存在的、在同一性质基础上结合起来的许多个别单位所形成的集合。
具有大量性、同质性和变异性等特点2、总体单位:指构成总体的个体即每一个单位。
总体由总体单位构成,要认识总体必须从总体单位开始,总体是统计认识的对象。
总体或总体单位的区分不是固定的:同一个研究对象,在一种情况下是总体,在另一种情况下可能成了总体单位。
3、统计总体的种类(1)有限总体:指所包含的单位数目有限的总体无限总体:指所包含的单位数目无限的总体(2)大总体小总体:指大总体的各组成部分(3)可加总体:指总体单位可以合计的总体不可加总体:指总体单位不能合计的总体二、标志与变量1、标志:指总体单位所具有的属性和特征,标志的具体表现称为标志值。
(1)品质标志:是表明事物“质” 的特性的标志数量标志:是表明事物“量” 的特性的标志其中,可变的数量标志又被叫作变量统计研究是从登记标志开始,并通过对标志的综合来反映总体的数量特征,因此标志是统计研究的起点。
数理统计笔记整理

数理统计笔记整理Studying mathematical statistics can be both challenging and rewarding. 数理统计的学习可以是具有挑战性和收获的过程。
It requires a good understanding of mathematical concepts and a solid foundation in statistics. 这需要对数学概念有很好的理解,以及扎实的统计基础。
As you delve deeper into the subject, you will discover the beauty of using mathematical tools to analyze and interpret data. 当你深入研究这一主题时,你会发现使用数学工具来分析和解释数据的美妙之处。
The ability to make sense of complex data sets and draw meaningful conclusions is a valuable skill in today's data-driven world. 在今天这个数据驱动的世界中,理解复杂数据集并得出有意义的结论的能力是一种宝贵的技能。
One of the key concepts in mathematical statistics is probability theory. 数理统计中的一个关键概念是概率论。
Probability theory deals with the likelihood of events occurring and provides a framework for understanding uncertainty. 概率论涉及事件发生的可能性,并提供了理解不确定性的框架。
By studying probability theory, you can make informed decisions based on the likelihood of different outcomes. 通过学习概率论,你可以基于不同结果发生的可能性做出明智的决策。
应用统计学笔记

应用统计学笔记第一章统计方法一、统计依其功能分成「理论统计学」(pure statis tics)和「应用统计学」(applie d statis tics):(一) 理论统计学:指的是创造出一个可以用于统计的定理或公式、或对于现有统计的定理或公式作更合理的解释。
是偏向理论的推论过程和结果。
(二) 应用统计学:指的是如何正确使用理论统计学者所创造出来的统计定理或公式,达到评估某一事件的目的,我们只要了解在何种状况下该用那一个数学方程式或定理,以及该如何解出所需要的数学方程式就可以了。
是偏向解决实际问题的推论过程和结果,协助各行各业判断或预测某一特定事件、在未来产生某种结果的机会有多大,是预测未来的有效工具。
二、统计方法的应用是为了发现或解决某一特定群体的问题,这一产生或需要解决问题的特定群体称为母体(popula tion)、群体或母群体。
母体所包含个体数量通常都很庞大、或数量具有不确定性,在正常的状况下,是不可能让母体内的每一个个体在统计过程中适时出现,因此只能选择某些个体当作评估或研究的对象,选择个体的过程称为抽样(sampli ng),所抽到的个体称为样本(sample)或样品。
三、搜集资料的方法有很多种,视情况而定,大致上可分为三类:(一) 直接从样本而又不干扰或影响样本的情况下得到数据的方法,称为调查法(survey)。
(二) 直接从样本而且必须加入干扰或影响样本因素的情况下得到数据的方法,称为实验法(experi ment)。
(三) 间接得到所要评估或研究的群体或特性数据的方法,称为文件(docmen ts)应用法。
四、用简短的文字、统计表、统计图或方程式等方式,只能显示样本数据整体分布的特性,但还够具体。
高等数理统计笔记

高等数理统计笔记一、数理统计简介数理统计是应用概率论对统计数据进行研究的学科,主要包括参数估计、假设检验、回归分析等内容。
本笔记将系统地介绍这些知识,以帮助大家掌握数理统计的基本概念和方法。
二、参数估计参数估计是数理统计的重要内容之一,主要研究如何根据样本数据估计未知参数的值。
常见的参数估计方法有矩估计和最大似然估计。
1.矩估计:通过样本矩来估计总体矩,进而得到未知参数的估计值。
矩估计方法简单、易于操作,但在样本量较小的情况下,估计精度可能不高。
2.最大似然估计:通过最大化似然函数来估计未知参数的值。
最大似然估计具有优良的统计性质,如无偏性和一致性等,因此在许多场合下被广泛使用。
三、假设检验假设检验是数理统计的另一重要内容,主要研究如何根据样本数据对未知参数进行假设检验。
常见的假设检验方法有显著性检验和置信区间检验。
1.显著性检验:通过比较样本统计量和临界值来判断未知参数是否显著地与某个值存在差异。
显著性检验方法简单、易于操作,但可能存在误判的情况。
2.置信区间检验:通过计算未知参数的置信区间来判断未知参数是否在某个范围内。
置信区间检验可以给出未知参数的估计范围,但计算过程可能较为复杂。
四、回归分析回归分析是数理统计中用于研究因变量和自变量之间关系的分析方法。
通过建立回归模型,我们可以对因变量进行预测和控制。
1.一元线性回归:研究一个因变量和一个自变量之间的线性关系。
一元线性回归模型简单、易于操作,适用于因变量和自变量之间存在线性关系的情况。
2.多元线性回归:研究多个因变量和一个或多个自变量之间的线性关系。
多元线性回归模型可以用来预测多个因变量的值,同时也可以用来控制多个自变量的影响。
五、总结本笔记简要介绍了数理统计的基本概念和方法,包括参数估计、假设检验和回归分析等内容。
通过掌握这些知识,我们可以更好地理解和应用数理统计方法来解决实际问题。
同时,建议大家深入学习数理统计的教材和相关资料,以更全面地掌握数理统计的知识体系和应用技巧。
统计学笔记
第一章 绪论参数与统计量参数: 刻画总体特征的指标 统计量: 刻画样本特征的指标统计的核心问题: 样本、总体总体与样本总体:确定的全部同质个体的某个(或某些)变量值 样本:总体中有代表性的一部分样本选择的原则——代表性、随机性、可靠性、可比性资料的代表性与可比性所谓代表性是指该样本从相应总体中经随机抽样获得,能够代表总体的特征;所谓可比性是指各对比组间除了要比较的主要因素外,其它影响结果的因素应尽可能相同或相近频率与概率区别和联系 (1) 区别频率: 是随机的,在试验前不能确定,无法从根本上来刻画事件发生的可能性的大小 概率: 是一个确定的常数,是客观存在的,与试验次数无关 。
(2) 联系频率: f=m/n (n 为观察次数,m 为发生频数)(0<f<1),当n 越大,f 越趋向于一个常数,即概率。
概率可看作频率在理论上的期望值,并从数量上反映了随机事件发生的可能性。
变异是统计学存在的基础变量及变量值:研究者对每个观察单位的某项特征进行观察和测量,这种特征称为变量,变量的测得值叫变量值(也叫观察值),称为资料。
按变量值的性质将资料进行分类。
离散型变量; 连续型变量a 计量资料(定量) 连续型变量 + 部分不具有分类性质的离散型变量b 计数资料(定性) 离散型变量(分为无序分类资料(计数资料) + 有序计数资料(等级资料))c 等级资料(定性) 有序的计数资料/半计量资料(具有计数资料和计量资料特性)变量类型的转化(计量——计数(数值—— - + ++)协变量: 在实验设计中,为一个独立变量(解释变量),不为实验者所操纵,但仍影响实验结果μσπρβ,,,,,,,,X S p r b误差系统误差和随机误差(随机测量误差,抽样误差)。
(1)系统误差:指数据搜集和测量过程中由于仪器不准确、标准不规范等原因,造成观察结果呈倾向性的偏大或偏小,这种误差称为系统误差。
特点:具有累加性(2)随机误差:由于一些非人为的偶然因素使得结果或大或小,是不确定、不可预知的。
统计学课程笔记整理、统计学相关知识点总结(实用)
关于显著性检验,你想要的都在这儿了!!(基础篇)无论你从事何种领域的科学研究还是统计调查,显著性检验作为判断两个乃至多个数据集之间是否存在差异的方法被广泛应用于各个科研领域。
笔者作为科研界一名新人也曾经在显著性检验方面吃过许多苦头。
后来醉心于统计理论半载有余才摸到显著性检验的皮毛,也为显著性检验理论之精妙,品种之繁多,逻辑之严谨所折服。
在此,特写下这篇博文,以供那些仍然挣扎在显著性检验泥潭的非统计专业的科研界同僚们参考。
由于笔者本人也并非统计专业毕业,所持观点粗陋浅鄙,贻笑大方之处还望诸位业界前辈,领域翘楚不吝赐教。
小可在此谢过诸位看官了。
本篇博文致力于解决一下几点问题,在此罗列出来:1.什么是显著性检验? 2.为什么要做显著性检验? 3.怎么做显著性检验?下面就请跟随笔者的步伐一步步走入显著性检验的“前世与今生”。
一:显著性检验前传:什么是显著性检验?它与统计假设检验有什么关系?为什么要做显著性检验?“显著性检验”实际上是英文significance test 的汉语译名。
在统计学中,显著性检验是“统计假设检验”(Statistical hypothesis testing )的一种,显著性检验是用于检测科学实验中实验组与对照组之间是否有差异以及差异是否显著的办法。
实际上,了解显著性检验的“宗门背景”(统计假设检验)更有助于一个科研新手理解显著性检验。
“统计假设检验”这一正名实际上指出了“显著性检验”的前提条件是“统计假设”,换言之“无假设,不检材料宝库的店验”。
任何人在使用显著性检验之前必须在心里明白自己的科研假设是什么,否则显著性检验就是“水中月,镜中花”,可望而不可即。
用更通俗的话来说就是要先对科研数据做一个假设,然后用检验来检查假设对不对。
一般而言,把要检验的假设称之为原假设,记为H0;把与H0相对应(相反)的假设称之为备择假设,记为H1。
如果原假设为真,而检验的结论却劝你放弃原假设。
统计学笔记精修版
绪论第一节统计学的含义和作用一、什么是统计学1.统计学的含义统计学是有效收集、处理、分析和解释数据,发现规律,以便更好决策的一门方法论学科。
❖ 2. 分析数据的方法有描述统计、推断统计。
⑴描述统计①描述统计是将所收集的数据处理后,用数值、表格或图形形式表现的有用信息。
②描述统计是基础,它为推断统计、统计咨询、统计决策提供必要⑵推断统计就是根据样本数据特征去估计或检验总体的数据特征。
二、统计学的作用和重要性1.统计学的作用人们用数据发现的规律做出更好的决策。
2.要发现规律,对统计数据通常有要求:客观性、适用性、准确性和及时性。
三、统计学是如何解决实际问题的?统计学解决实际问题的基本思路是:①提出与统计有关的实际问题;②建立有效的指标体系;③收集数据;④选用或创造有效的统计方法处理、显示所收集数据的特征;⑤根据所收集数据的特征、结合定性、定量知识作出总体特征的合理推断;⑥根据推断给出更好决策的建议;1不解决问题时,重复第②-⑥步。
第二节统计学的基本概念❖一、总体、单位和样本1.总体统计总体是根据一定目的确定的,由客观存在的、具有某种同质性的许多个别事物构成的整体。
⑴同质性是确定统计总体的基本标准,它是根据统计的研究目的而定的。
研究目的不同,所确定的总体也不同,其同质性的意义也随之变化。
⑵统计总体还应具备大量性,即统计总体应应该由足够数量的同质性单位构成。
2.总体单位(简称单位)是组成总体的各个个体。
如典型案例1中英军的每架战机;事例4中的每个居民。
3.由总体的部分单位组成的集合称为样本(又称子样)。
构成样本的单位称为样品,样本中样品的数目称为样本容量。
4. 统计学解决问题的目的是认识总体的数据特征。
但是,当调查是破坏性的,或者出于成本、时间等因素考虑时,不必要或不可能对构成总体的所有单位都进行调查。
❖二、标志、指标(参数)和统计量1.标志:(1)总体单位普遍具有的属性或特征称为标志。
(2)标志按其表现分为品质标志和数量标志两种。
初级统计复习笔记整理—统计学基础知识
第一章统计学和数据第一节统计学的含义及其应用统计学:关于数据的一门学问所关注的是大量可重复事物现象数量特征总体:研究的全部个体或数据的集合往往只有一个,特征唯一确定的,但未知的样本:从总体中抽取的一部分元素构成的集合不唯一,不确定,特征已知的样本量n:构成样本的元素的数目统计方法:描述统计:搜集、处理和描述推断统计:利用样本数据推断总体特征(参数估计和假设检验)第二节统计学发展简史古典统计学:国势学派—H·康令“显著事项”、有统计学之名,无统计学之实政治算术学派—威廉·配第(统计学创始人),有统计学之实,无统计学之名近代统计学:A·凯特勒(统计学之父)现代统计学:哥塞特—推断统计学先驱者费雪—推断统计学建立者第三节变量与数据观察数据:客观现象....观测得到无人为控制和条件约束实验数据:科学实验环境下得到的数据第四节数据的搜集↓↓↓直接来源(一手数据/原始数据):统计调查(观测数据)实验(实验数据):实验组和对照组的产生是随机的,匹配的。
间接来源(二手数据/次级数据):由其他人搜集和整理得到的统计数据公开出版的数据未公开发表的数据网络爬取的数据搜集数据方式:1.询问(访谈):面访(面对面交谈)、邮寄、计算机辅助电话调查、座谈会、个别深入访谈2.观察实验:观察法(调查对象没有意识到的情况下)、实验法第五节数据的误差↓抽样误差:不可避免,概率抽样中能计量并控制......总体内部差异越大,误差越大样本容量越大,误差越小重复抽样误差大于不重复抽样,分层抽样误差小于其他抽样非抽样误差:不能通过增大样本量加以控制抽样框误差,应答误差,无回答误差,计量误差(登记错误)第二章 数据描述第一节用统计量描述数据集中趋势平均数...①② 受极端值影响 主用于数值型数据 数据对称分布时应用 中位数...③/分位数...④ 不受极端值影响.......主用于顺序数据....... 数据分布偏斜程度较大时应用众数..⑤ 主用于分类数据中位数不能用于分类数据...........众数、中位数和平均数的关系:均值在哪边就是往哪边偏众数中位数均值对称分布众数中位数均值 左偏分布....众数中位数均值右偏分布....公式① 算术平均数简单平均数(未分组):x =x 1+x 2+ ···+x nn =∑x in i=1n加权平均数(分组):x=x 1f 1+x 2f 2+ ···+x k f kf 1+f 2+ ···+f k=∑x i f i k i=1∑f ik i=1有分组取组中值为平均数,若有开口组, 上开口组....:组中值=该组上限-(下组上限-下组下限)/2 下开口组....:组中值=该组下限-(上组上限-上组下限)/2② 几何平均数简单(每个数据只出现一次):G =√x 1·x 2·… ·x n n=√∏x n加权(每个数据出现不止一次):G =√x 1f 1·x 2f 2·… ·x n f n f 1+f 2+···+f n =√∏x f ∑f x③ 中位数 n 是奇数:M e=x n+12n 是偶数:M e =12[x(n 2)+x (n 2+1)]下限公式:M e=L +∑f2−S m−1f m·dL :中位数所在组上限 ∑f :各组频数之和 S m−1:中位数所在组以前各组的累计频数 d :中位数所在组组距 上限公式....:M e =U −∑f2−S m+1f m·dU :中位数所在组下限 f m :中位数所在组的频数 S m+1:中位数所在组以后各组的累计频数④ 分位数:Q L =(n +1)/4 Q M =2(n +1)/4 Q U =3(n +1)/4⑤ 众数下限公式:M 0=L +∆1∆1+∆2·d 上限公式:M 0=U −∆2∆1+∆2·d∆1:众数所在组的频数与前一组频数之差 ∆2:众数所在组的频数与后一组频数之差公式⑥异众比率V r=1−f0∑f i(f0:众数组的频数)⑦极差/全距R=max(x i)−min (x i)⑧四分位距:Q d=Q U−Q L⑨平均差未分组:MAD=∑|x i−x|n已分组:MAD=∑|x i−x|f∑f⑪离散系数总体:Vσ=σx̅样本:V s=sx̅⑫标准分数z i=x i−x̅sz的均值=0 标准差s=1(z=1.2,说明观察值比平均值大1.2倍s)偏态系数(SK)⑬峰值系数(K)⑭SK=0对称SK<0左偏SK>0右偏正态分布K<0扁平分布K>0尖峰分布公式⑬偏态系数未分组:SK=n∑(x i−x̅)3 (n−1)(n−2)s3已分组:SK=n∑(M i−x̅)3f ins3⑭峰态系数未分组:K=n(n+1)∑(x i−x̅)4−3[∑(x i−x̅)2]2(n−1) (n−1)(n−2)(n−3)s4已分组:K=∑(M i−x̅)4f ins4−3第二节用表格描述数据频数分布表分组→频数分组数K=1+log(n) log(2)K:组数n:数据个数2K>n组距=全距/组数各组组距=上限-下限各组组中值=(上限+下限)/2等距数列:每一组距相等,研究的现象变动比较均匀...........不等距/异距数列:每一组距不全相等,研究的对象变动分布均匀,波动幅度很大......“上限不在内”原则第三节用图形描述数据1.直方图用矩形面积表示各组频数分布(面积之和...)....=.总频数对于不等距分组,纵轴必须表示为频数密度(频数..)......../.组距2.箱线图找5个特征点:最大值、最小值、中位数、两个四分位数3.茎叶图类似横置直方图,既反映数据分布,又保留原始数据大致信息4.折线图5.气泡图6.雷达图(蜘蛛图):总的绝对值与图形所围成的区域成正比.................Array 7.散点图:观.察两个变量之间的相关程度和类型最直观的方法.....................8.条形图9.饼图:主要用于结构性问题研究10.环形图:反映多个样本(或总体)之间的结构差异11.帕累托图:双直接坐标系表示,左边纵坐标表示频数,右边纵坐标表示频率,分析线表示累计频率按各类别数据出现的频率排序(降序),并画出累计百分比双直角坐标系表示第三章参数估计第一节统计量与抽样分布一、统计量的抽样分布统计量:对样本数量特征的概括性度量不含任何未知参数的样本的函数是一个随机变量不同样本可算出不同的统计量值抽样分布:样本统计量的概率分布仅仅是一种理论分布提供了样本统计量长远而稳定的信息,构成推断总体参数的理论基础点估计:用样本统计量的某个实际取值作为相应的总体参数的估计值的过程常用——用样本均值x̅估计总体均值μ用样本比例p估计总体比例π用样本方差s2估计总体方差σ2总体参数是未知的,但可以利用样本信息来推断。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
H 1 : μ 5 ' 6"
Point Estimator, C.I., Test Statistical Inference Draw some conclusion on the population (parameters of interest) based on a random sample.
������
5
2. The 90% CI, where ������ = ������. ������ and the corresponding ������������ = ������������.������������ = ������. ������������������
������
3. The 99% CI, where ������ = ������. ������������ and the corresponding ������������ = ������������.������������������ = ������. ��������erties too.
<ii> Confidence Interval for - Intuitive approach (backwards derivation for the CI boundaries ������1 ������������������ ������2 ): ������(������1 ≤ ������ ≤ ������2 ) = 0.95 ������(−������1 ≥ −������ ≥ −������2 ) = 0.95 ������(������ − ������1 ≥ ������ − ������ ≥ ������ − ������2 ) = 0.95 ������ − ������1 ������/ ������ ������ − ������ ������/ ������ ������ − ������2 ������/ ������
n
) 1
P( X Z 2 P( X Z 2 P( X Z 2
n n
X Z 2
n
) 1
n
X Z 2 X Z 2
n
) 1 ) 1
n
∴ the 100(1-α)% C.I. for μ is [ X Z 2
n
)
ˆ ) E( X ) ˆ X is an unbiased estimator of E(
Intuitively, this means if you take “many” samples of size n from the population, then the mean of these samples means would be equal to if you take a large enough # of samples. X is also a maximum likelihood estimator(MLE) of . X is also a method of moment estimator (MOME) of .
and variance 2 . That is, X ~ N ( , 2 ), i 1,...,n .
iid.
-
For now, we assume that 2 is known.
ˆ X ~ N ( , <i> Point Estimator for :
2
That is, the estimated 95% confidence interval for the average height of all adult US male is 5’4”, 5’10” . … 5’4” and 5’10”. … This means that we are 95% sure the population mean μ would lie between
2
n
)
2
n
)
X
n
~ N (0,1)
4
100(1-)% CI for , 0<<1 (e.g. =0.05 ⇒ 95% C.I.)
P(Z 2 Z Z 2 ) 1
P(Z 2
P( Z 2
X
n
n
Z 2 ) 1
X Z 2
Example 1.A random sample of 400 adult US male was taken and the sample mean was found to be ������ = 5’7” = 67 ������������������ℎ������������ . Based on past studies, it is believed that the population distribution of all adult US male is normal and the standard deviation is 30 inches. Please construct a 95% confidence interval for the average height of all adult US male based on this sample. Solution: The 95% CI for ������ is ������ − 1.96 ������ ������ , ������ + 1.96 ������ ������ = 67 − 1.96 30 400 , 67 + 1.96 30 400 ≈ 64, 70
∴Recall the 100(1-α)% symmetric C.I. for μ is [ X Z 2 *Please note that this CI is symmetric around ������ The length of this CI is:
Lsy 2 Z
1
1. The Exact Confidence Interval for μ when the population is normal &������������ is known
① Point estimator and confidence interval for
-
When the population is normal and the population variance is known. Let X 1 , X 2 ,, X n be a random sample for a normal population with mean
2
n
, X Z 2
n
]
n
Now we derive a non-symmetrical CI:
6
P( Z Z Z 2 ) 1
3 3
n
X
i 1
i
n
)
Other estimators: median, mode, trimmed mean, … <ii> Confidence Interval (C.I.) Eg) 95% C.I. for μ 99.9999% C.I. (‘6-9’ in the manufacture industry) <iii> Hypothesis Test Eg) H 0 : μ 5' 6"
������
≥
≥
= 0.95
Since we know
2
������ =
������ − ������ ������/ ������
~������(0,1)
We can compute the expressions for ������1 ������������������ ������2 . However, one question is that there areMANY ways to choose the C’s. Later you will see that for pivotal quantity with symmetric pdfs, the symmetric CIs are the optimal – in that they have the shortest lengths for the given confidence level100(1-)%.
3
Now we present a general approach to derive the CI’s. General approach for deriving CI’s : the Pivotal Quantity(P.Q.) approach
*Definition: A pivotal quantity is a function of the sample and the parameter of interest. Furthermore, its distribution is entirely known. 1. We start by looking at the point estimator of . X ~ N ( , * Is X a pivotal quantity for ? → X is not because is unknown. * function of X and : X ~ N (0, → Yes, it is pivotal quantity. * Another function of X and : Z → Yes, it is pivotal quantity. So, Pivotal Quantity is not unique. 2. Now that we have found the pivotal quantity Z, we shall start the derivation for the symmetrical CI’s for µ from the PDF of the pivotal quantity Z