数理统计的基本知识数理统计的内容主要包括以下两个方面一
数理统计主要内容和复习重点

三个偏差平方和:总偏差平方和、组内偏差平方和、组间偏差平方和; 显著性检验:F 检验法、数据计算表、方差分析表; 参数估计:总均值µ、主效应 ai、误差方差σ 2 的点估计与置信区间; 多重比较:统一拒绝域、t 化极差统计量; 方差齐性检验:Hartley 检验,bartlett 检验。 二. 回归分析:最小二乘估计、三个偏差平方和、显著性检验、估计与预测、非线性回归 最小二乘估计:β1 与β0 的最小二乘估计; 三个偏差平方和:总偏差平方和、残差平方和、回归平方和; 显著性检验:F 检验法、t 检验法、相关系数检验法; 估计与预测:回归值 Y0 的置信区间与预测区间; 非线性回归:非线性回归函数、决定系数。 重点: 方差分析的显著性检验、参数估计,回归分析的最小二乘估计、显著性检验、预测区间。
第六章 参数估计 主要内容: 一. 点估计:估计方法、评价标准、最小方差无偏估计、贝叶斯估计
估计方法:矩估计、最大似然估计; 评价标准:相合性、无偏性、有效性,以及均方误差; 最小方差无偏估计 UMVUE:Rao-Blackwell 定理,充分性原则,UMVUE 判定定
理,Fisher 信息量,C-R 下界,有效估计; 贝叶斯估计:先验分布、后验分布,共轭先验分布。 二. 区间估计:枢轴量、单正态总体置信区间、双正态总体置信区间、比例 p 的置信区间 枢轴量:概念以及与统计量的区别; 单正态总体置信区间:已知方差估计均值、未知方差估计均值、估计方差; 双正态总体置信区间:已知方差估计均值差、未知方差估计均值差(四种情形)、
数理统计主要内容和复习重点
第五章 统计量及其分布 主要内容: 一. 三大分布:χ 2 分布、t 分布、F 分布
根据数理统计知识点归纳总结(精华版)

根据数理统计知识点归纳总结(精华版)
1. 引言
本文旨在对数理统计的基本知识点进行归纳总结,帮助读者快速了解数理统计的核心概念和方法。
2. 概率论基础
- 概率的基本定义和性质
- 随机事件的运算规则
- 条件概率和独立性
- 贝叶斯定理
3. 随机变量和分布
- 随机变量的定义和分类
- 离散型随机变量和连续型随机变量
- 常见离散型分布(如伯努利分布、二项分布、泊松分布)
- 常见连续型分布(如均匀分布、正态分布、指数分布)
4. 数理统计的基本概念
- 总体和样本的概念
- 估计与抽样分布
- 统计量和抽样分布
5. 参数估计
- 点估计的定义和性质
- 常见的点估计方法(如最大似然估计、矩估计)
- 区间估计的基本原理和方法
6. 假设检验
- 假设检验的基本思想和步骤
- 单侧检验和双侧检验
- 假设检验中的错误类型和显著性水平
- 常见的假设检验方法(如正态总体均值的检验、两样本均值的检验)
7. 相关分析
- 相关系数的定义和计算方法
- 相关分析的假设检验
- 线性回归分析的基本原理和方法
8. 统计软件的应用
- 常见的统计软件介绍(如SPSS、R、Python)
- 统计软件的基本操作(如数据导入、数据处理、统计分析)
9. 结语
本文对数理统计的核心知识点进行了简要的概括,供读者参考和研究。
通过研究数理统计,读者可以更好地理解和应用统计学在实际问题中的作用,提高数据分析和决策能力。
以上是根据数理统计知识点的归纳总结,希望有助于您对数理统计的理解和学习。
如需深入了解各个知识点的具体内容,请参考相关教材或课程。
数理统计与医学统计的区别与联系

数理统计与医学统计的区别与联系一、数理统计与医学统计的区别:(一)、概念:数理统计学是研究有效地运用数据收集与数据处理、从数量上研究随机现象统计规律性、多种模型与技术分析、社会调查与统计分析等,在自然科学、社会科学、管理科学中均有广泛的应用,对科技前沿和国民经济重大问题和复杂问题,以及社会和政府中的大量问题,如何对数据进行推理,以便对问题进行推断或预测,从而对决策和行动提供依据和建议的应用广泛的基础性学科医学统计学是运用概率论与数理统计的原理及方法,把统计理论、方法和医学相结合,研究数字资料的搜集、整理分析与推断的一门学科。
医学统计学的教学贯彻理论与实际相结合的指导思想,密切联系医学中常见的基本统计问题,使学生掌握医学统计学的基本理论知识、方法和技能,为其运用到医学实践,进行科学研究,学习其它课程和阅读专业书刊打下必要的统计学基础。
医学研究的对象主要是人体以及与人的健康有关的各种因素。
(二)、内容:数理统计介绍了概率论与数理统计的基本概念、基本理论与方法。
内容包括:概率论基本概念、随机变量与随机向量及其分布、随机变量的数字特征、大数定律与中心极限定理、数理统计的基本概念、参数估计、假设检验、方差分析和回归分析。
医学统计介绍了医学统计学基本概念和方法、医学科研设计。
内容包括:总体和样本等基本概念、计量资料和计数资料的统计描述方法、单个样本数据的参数估计、两个或多个样本数据比较的假设检验、医学科研设计的意义、原则、要素、样本含量估计、抽样方法及常见的几种设计类型。
(三)、根本区别:数理统计主要讲的是理论,是一种统计方法,而医学统计侧重的则是概率论与数理统计在医学方面的应用,资料有统计学意义并不能说明就有临床意二、数理统计与医学统计的联系:(二)、应用:数理统计方法在医学领域中都有广泛的应用。
医学是较早使用数理统计方法的领域之一。
医学研究的对象是人类的健康和疾病现象,人体及有关的生物体的内外环境受多种因素的综合影响,其中有许多因素是未知的。
数理统计学(基础性学科理论)

与社会经济学关系
相同点
历史
不同点
历史
社会经济统计学在原始社会末期,奴隶社会早期就已经开始萌芽,主要是对人口数量与土地的丈量进行统计, 伴随着社会和经济的发展,社会经济统计学在封建社会就已经初具规模,在资本主义时期,其发展更是到了上升 时期。社会经济统计学的发展离不开人类的实践活动,在实践中逐渐成熟。直到在统计学中引入了概率论以后, 才使统计学诞生出新的学科,即数理统计学。
从数学上对生物统计进行研究的第一人是英国统计学家皮尔逊,他曾在伦敦大学学院学习,然后去德国学物 理,1881年在剑桥大学获得学士学位,1882年任伦敦大学应用数学力学教授。
具体地说与人们生活有关的如某种食品营养价值高低的调查;通过用户对家用电器性能指标及使用情况的调 查,得到全国某种家用电器的上榜品牌排名情况;一种药品对某种疾病的治疗效果的观察评价等都是利用数理统 计方法来实现的。
相同点
社会经济统计学和数理统计学都是对事物的统计规律进行研究,并且在研究方法论方面具有共通性,两者都 是利用归纳推理的研究方法而不是演绎推理的研究方法。在许多教材中,在对数理统计学的学科性质进行阐述时 都明确表示数理统计学是对随机现象的数据进行统计,并对其规律性进行研究与揭示。而关于社会经济统计学的 研究对象,在统计学术界还存在一些争议,一部分学者认为,社会经济统计学属于独立的社会科学类,主要是对 具体时间、具体地点条件下的社会经济现象中的数量表现进行研究和统计,并揭示其数量规律,认为其数量表现 和规律就是社会经济统计学需要研究的对象。还有一部分学者则认为社会经济统计学属于统计方法论科学类,重 在对社会经济现象下的数据进行收集、整理、统计与分析,认为其统计方法论就是需要研究的对象。而经过长期 的实践来看,社会经济统计学和数理统计学两者在研究对象上其实具有同一性,这两门学科都是在对事物的统计 规律进行研究和揭示。
概率论与数理统计知识点

概率论与数理统计知识点概率论与数理统计是数学中非常重要的一门学科,它涉及到现实生活中各种不确定性的问题。
本文将探讨概率论与数理统计的一些核心知识点,包括概率、随机变量、概率分布、参数估计等内容。
概率是研究随机试验结果可能性的数学分支。
概率的计算主要有两种方法:频率法和古典概型法。
频率法是通过实际试验次数的频率来估计某个事件发生的概率。
而古典概型法是通过对试验结果的分析,利用等可能性原理来计算概率。
概率的计算公式包括加法定理、乘法定理、条件概率等。
随机变量是概率论中很重要的一个概念。
随机变量是一个函数,它把样本空间中的每个可能的结果与一个实数联系起来。
随机变量分为离散型和连续型两种。
离散型随机变量的取值是有限的或者可列的,比如扔一次硬币的结果。
而连续型随机变量的取值是无限的,比如测量某个时间段内的温度。
概率分布是随机变量的分布规律。
离散型随机变量的概率分布可以通过概率质量函数来描述,例如二项分布、泊松分布等。
连续型随机变量的概率分布可以通过概率密度函数来描述,例如正态分布、指数分布等。
概率分布具有一些特征值,如均值、方差和标准差,它们是描述变量分布的重要指标。
参数估计是根据样本估计总体的未知参数值。
参数估计有点估计和区间估计两种方法。
点估计是用样本统计量作为总体参数的估计值,如样本均值、样本方差等。
区间估计是给出一个总体参数的区间估计范围,如置信区间。
参数估计的准确性可以通过标准误差、置信水平等来衡量。
除了概率论与数理统计的基本知识点,还有一些衍生的概念和应用。
例如,假设检验是根据样本数据对总体参数提出关于总体参数的一个假设,并对这个假设进行检验的方法。
假设检验有类型I错误和类型II错误之分。
此外,回归分析是指通过建立变量之间的统计模型,用以预测和解释因变量的方法。
回归分析对于了解变量之间的关系和预测未来的趋势具有重要意义。
概率论与数理统计是现代科学和工程领域中不可或缺的工具。
无论是在自然科学、社会科学还是经济管理等领域,概率论与数理统计都得到了广泛应用。
数理统计学

数理统计学数量统计学是根据从总体中随机抽出的样本里所获得的信息来推断关于总体性质的一门学科.或者说是为了得到科学的和实用的结论,而系统整理并利用统计数据的数学方法.它的任务就是研究怎样获得数据和如何分析带有随机性数据,在此基础上对各知识领域中的问题进行推断、预测、直至确定应采取的行动和决策方案.“统计学”(statistics)一词是德国学者阿享瓦尔针对17世纪在德国兴起的“政治学”(德文,staatenkunde)而使用的术语.这门学问最初是用统计方法描述一些先进国家的经济和税收状况.而作为以概率论为基础的数理统计学的产生却是相对比较晚近的事.几百年来,数理统计学已经发展成为一门既有坚实的理论基础,又有广泛实用价值的数学学科.数理统计学的发展史大致可以分为三个时期.数理统计学的萌芽时期历史上最早出现的统计推断可以看作是英国统计学家格兰特在1662年组织调查伦敦市死亡人数,从数量上去掌握集团的统计推断,并发表专著《从自然和政治方面观察死亡统计表》.因此,数理统计学可以认为是格兰特于17世纪60年代开创的.格兰特对生命统计、保险统计及经济统计,进行数学的研究.这一学问曾被称为“政治算术”.他由统计的结果发现人口出生率与死亡率相对稳定,于是提出“大数恒静定律”,成为统计学的基本原理.英国学者佩蒂沿袭了格兰特的方法,统计不同职业人口及伦敦等地的居民数目,著有《政治算术》一书.由于需要对各地人口、农业生产品及国际贸易数量的估计,亟待若干形式的测定数作为处理问题的根据,并需要科学的方法,对测定数进行分析,于是统计学的数学性质逐渐加深,奠定了现代数理统计学的基础.另一方面,概率论的发展不可避免地要影响到数理统计学的发展.现在人们所理解的统计推断程序,最早的就是贝叶斯方法.贝叶斯长期担任英国一个地方教堂的牧师.他自学数学成才,对概率论作出了重要贡献.在他的论文《机会学说问题试解》中建立了条件概率的贝叶斯定理或贝叶斯公式,以后成为统计推断的基础.用概率模型作为手段的数据分析始于19世纪初.被某些人称为近代统计分析中的“汽车”1的最小二乘法原理是由两位著名数学家高斯和勒让德发展起来的2,首先用于分析天文观测中的误差.高斯把钟形曲线作为观测误差的分布曲线.20世纪以来,最小乘二法原理经过俄国数学家马尔可夫和其他学者的工作发展成为数理统计学中的一个重要方法.高斯的工作揭示了正态分布的重要性,因此,人们通常称正态分布为高斯分布.曾经有一段时间,学者们普遍认为在实际问题中遇到的几乎所有连续随机变量,都可以用正态分布来刻划.到19世纪后期,一些学者(特别是皮尔逊)开始认识到这种看法的局限性.19世纪中叶,许多数理统计学理论的新发展,几乎直接或间接地由两个人1指最小二乘法在近代统计中的作用,有如汽车在现代社会中的作用.2高斯和勒让德到底是谁先发明最小二乘法,是统计学史上最著名的有关优先权的争论.勒让德一直声称他是最早的发明者,他在1805年发表了有关结果.所推动.一个是比利时统计学家凯特勒,一个是英国生物学家高尔顿凯特勒的主要功绩在于使统计方法获得普遍应用.凯特勒对各种学科均有研究,如天文学、数学、物理学、生物学、社会统计学及气象学等.他将统计方法应用到上述研究范围上去,并强调了正态分布的用途,主张这一分布状态可以适用于许多学科范畴.凯特勒曾致力于比利时国势调查以及组织国际统计活动.他引进所谓“平均人”(averageman)的概念,起了总体概念的先驱作用.高尔顿是生物学家达尔文的表弟,他对遗传定律颇感兴趣,并最早把统计方法用于生物学.高尔顿曾到非洲考察和探险,搜集了大量资料,并投入很大精力钻研资料中所隐藏的模型与关系.在1889年出版了《自然的遗传》一书,引进了回归直线、相关系数的概念,创立了回归分析.这在遗传的研究中,是以弄清儿辈特征值与父辈特征值的相关关系为目的的.但在那个时代,样本特征值与总体特征值的区别还是很不清楚的.此外,高尔顿还提出了中位数、四分位数、百分位数及四分位偏差等概念.爱尔兰经济学家兼统计学家埃奇沃思关于方差和或然误差的一系列文章也是这一时期的工作.日渐成熟的数理统计学从19世纪末到第二次世界大战结束,可认为是数理统计学发展的第二个时期.这个时期,数理统计学蓬勃发展,名家辈出,提出了一些带根本性的重要概念和方法,完成了许多重要的工作,形成了一系列的基本分支,为数理统计成为一门数学学科打下了坚实的基础.这一时期开始于英国数学家皮尔逊的工作.皮尔逊1884年任伦敦大学学院应用数学和力学教授,担任过格雷沙姆几何学教授、应用数学系主任和高尔顿优生学教授.1899年,他和剑桥大学的动物学家讨论达尔文的自然选择理论.他将数理统计应用于生物遗传和进化诸问题,得到生物统计学和社会统计学的一些基本法则.进一步发展了回归和相关的理论.术语“总体”、“众数”、“标准差”,“变差系数”都是他引进的.皮尔逊认为,统计的基本问题在于“由过去的数据来推断未来会发生什么事”.做到这一点的途径是“把观测数据转化为一个可供预测用的模型”.他对统计的理解已经接近现代的理解.他为此发展了一系列方法──皮尔逊分布族、矩法、拟合优度2 检验等.为了描述自然现象的非对称分布特性,皮尔逊研究出所谓反频率曲线.他和高尔顿等人主持创办了著名的《生物计量》杂志,皮尔逊于1901—1936年担任主编.这一杂志,至今在国际上仍享有盛名;他还担任过《优生学纪事》的编辑.他的著作有:《对进化论的数学贡献》、《统计学家和生物统计学家用表》、《死的可能性和进行论的其它研究》等.19世纪末年,由于概率论的发展,使数理统计学进一步与应用相结合.于是,统计理论与方法开始演进到现代的形态.1908年对现代数理统计学来说,是极重要的一年.英国学者戈塞特以“学生”,为笔名在《生物计量》上发表一篇划时代的文章,得到了t-统计量的精确分布的形式.它不仅成为数理统计学常用的工具,而且也是统计量精确分布理论中一系列重要结果的开端;特别在多元正态总体抽样分布方面有重要意义.因此,可以说戈塞特的工作为样本资料的统计分析与解释开辟了一个新纪元.戈塞特自1899年到他逝世的1937年,都在世界上最大酿酒商之一吉尼斯的啤酒厂担任统计工作.他常与农业实验接触.为了使实验尽可能少消耗原料,他注意到应用小样本及从小样本得到可靠知识的重要性,从而创立了t-分布方法.但当时,他所推导的t-分布方法是不完整的.对现代数理统计学的发展作出决定性贡献的:是英国学者费希尔.他早年在剑桥大学攻读数学和理论物理,后来致力于生物统计学的研究.费希尔利用n维几何方法(多重积分法)给出了t-分布方法的完整证明.他引进了解消假设和显著性检验的概念,成为假设检验理论的先驱,并列举了一致性、有效性和充分性,作为参数的估计量应具备的性质.他还对估计的精度与样本所具有的信息之间的关系进行了考虑,得到了信息量的概念.极大似然法是由费希尔提出的.试验设计法也是由费希尔开创和发展的统计方法之一.他凭借随机化的手段,成功地把概率模型带进了实验领域,并作为分析这种模型的一个方法,建立了方差分析法,他强调了统计方法在试验设计中的重要性.1925年他发表《研究人员用统计方法》一书,50余年内已再版多次.1956年总结其数理统计学研究,著《统计方法及科学推理》一书.除了费希尔以外,这一时期数理统计学发展的重大事件要推内曼和皮乐逊之子皮尔逊在1928—1938年期间建立了假设检验理论和内曼在1934年建立了置信区间理论.内曼生于俄国,后移居美国,在伯克利的加里福尼亚大学任教.他在该校建立了一个研究机构,后来发展成为世界著名的数理统计中心.内曼在假设检验理论中,引进检验功效函数概念,以此作为判断检验方面,取得了许多成果.中国著名数理统计学家许宝騄,在20世纪数理统计史上享有盛名.早年留学英国,就读于费希尔门下,当时英国统计学派的研究在数学论证方面有不少欠缺,许宝騄以其扎实的数学基本功夫,给出许多统计规律的极其漂亮和严密的证明.他在多元分析、统计推断和线性模型方面做出国际水平的工作,尤其在多元分析方面的贡献,起了奠基性的作用.1979年,美国《数理统计年鉴》曾邀请一些著名学者撰文介绍他的生平和工作,高度评价他的贡献.二次大战前数理统计学的另一项重要进展是时间序列分析.1925—1930年间,英国数学家尤尔研究了振荡的时间序列,引进了自回归过程和序列相关等重要概念,奠定了这个统计分支现代发展的基础.1946年,瑞典统计学家克拉默尔发表了《统计学的数学方法》一书,总结了二次大战前数理统计学发展的大部分工作.某些专家认为,这部著作标志着现代数理统计作为一门数学分支的确立.数理统计学的深入发展二次大战以后是数理统计学发展的第三个时期.其特点一方面是使用的数学工具愈广愈深,除了数学分析、测度论、矩阵代数以外,往往还需要泛函分析、拓扑学、近世代数等现代数学工具;另一方面是数理统计学的应用愈加广泛.战后,由于工业和军事技术的飞速发展,使数理统计方法的应用达到前所未有的规模.如在工业上广泛应用统计质量管理,并由此产生了抽样检验、管理图等方法.其它如试验设计、多元分析、时间序列分析等也找到了不少新的应用领域.由于电子计算机的发展,使得在战前发展起来的一些统计方法发挥了更大作用.这一时期数理统计学的发展,主要有以下几个方面.1 统计判决函数理论犹太血统的美国学者瓦尔德创立了统计判决函数理论,它是统计学的统一数学理论.一般把瓦尔德的专著《统计决策函数》的发表作为这一理论诞生的年代.在这个理论中,把推断程序的全体命名为判决函数空间,第一次明确地定义它为一个集合.这样一来,检验和估计等数理统计问题可用统一方法处理.瓦尔德理论的出现,开拓了统计学一些新的研究领域,特别是参数估计这个分支在这个理论的影响下,面貌有了很大变化.瓦尔德定义了统计推断程序的风险函数,用来作为推断程序好坏的准则.他还使统计理论与对策论结合起来,并在统计学中引进了极小极大原理.2 发展大样本理论大样本理论的深入发展,遍及数理统计学各主要分支.例如,非参数统计,在战前还谈不上系统化,在战后发展很快.由于这个分支的特点决定,只有发展大样本理论,它才得以发展.目前构成这个分支主要内容的U-统计量理论、线性置换统计量理论及秩统计量的大样本理论都是战后发展起来的.再如,在参数估计中,象极大似然估计、稳健估计、自适应估计的大样本理论在战后也得到很大发展.3 贝叶斯统计学派的影响增长贝叶斯统计学派影响的增长是战后数理统计学发展的另一特征.因为贝叶斯方法是在作统计推断前考虑和运用了事前经验(先验知识),并提供了一种易于实用者掌握的解决问题的方法,在应用上取得相当的地位.在一些数理统计学的专著中,贝叶斯方法仍占很大篇幅.并且以贝叶斯方法为工具研究的统计问题也日渐增多.然而贝叶斯方法的缺点在于未能提供直接由样本观察值来确定参数分布的方法.因此,贝叶斯统计始终是统计界争论的问题.除了以上几个方面以外,还有序贯分析、多元分析、试验设计、过程统计等方面都有不少进展,出现了一些新的工作,但有些理论尚待建立.至此,数理统计学的理论与应用,获得辉煌进展,而概率论的作用也更加重要,它不但成为数理统计学的理论基础,而且作为统计归纳与统计推理的依据.这些研究成果,导致今日更进步更复杂的数理统计学的产生,并使之迅速地应用于极广泛的领域.然而,科学的进展是无止境的,现代数理统计学,仍有许多问题,尚须有更佳的处理,有待学者们不断地探求.统计量样本的已知函数,其作用是把样本中有关总体的信息汇集起来,是数理统计学中一个重要的基本概念.常用统计量有样本矩、次序统计量、U-统计量和秩统计量等.其中U-统计量是霍夫丁于1948年引进的.统计量的充分性和完全性是两个重要概念.充分性是费希尔在1925年引进的,内曼和哈尔莫斯在1949年严格证明了一个判定统计量充分性的方法,叫做因子分解定理.统计量的分布叫做抽样分布,它的研究是数理统计中的重要课题.对一维正态总体,有三个重要的抽样分布,即2χ分布、t-分布和F-分布.其中2χ分布是赫尔梅特于1875年在研究正态总体的样本方差时得到的;t-分布是英国统计学家戈塞特(笔名“学生”)于1908年提出的;F-分布是费希尔在20世纪20年代提出的.实验设计法又称之为试验设计法.数理统计学的一个分支,研究如何制定实验方案,以提高实验效率,缩小随机误差的影响,并使实验结果能有效地进行统计分析的理论与方法.英国统计学家费希尔于1923年与梅克齐合作发表了第一个实验设计的实例,1926年提出了实验设计的基本思想.1935年费希尔出版了他的名著《实验设计法》,其中提出了实验设计应遵循的三个原则:随机化、局部控制和重复.费希尔最早提出的设计是随机区组和拉丁方方法,两者都体现了上述原则.1946年,英国统计学家芬尼在保证能估计全部主效应和少数一部分低阶交互作用的前提下,提出了部分实验法.正交表是进行部分实验法最方便的一种工具,日本统计学家田口玄一为正交表的形式和广泛应用做出了在国际上很有影响的工作.点估计总体未知参数估计的一种形式.目的是依据样本估计总体分布所含未知参数或未知参数的函数.构造点估计的方法常用的有矩估计法、最大似然估计法、最小二乘法和贝叶斯估计法.1894年英国统计学家皮尔逊提出的矩估计法,要旨是用样本矩的函数估计总体矩的同一函数.最大似然估计法是一种重要而普遍的点估计法,由英国统计学家费希尔在1912年提出,后来在他的1921年和1925年的工作中又加以发展.最小二乘估计法是由德国数学家高斯在1799—1809年和法国数学家勒让德在1806年提出的,并由俄国数学家马尔可夫在1900年加以发展.它主要用于线性统计模型中的参数估计问题.贝叶斯估计法是基于“贝叶斯学派”的观点而提出的估计法.英国学者贝叶斯1763年在《机会学说问题试解》中,提出了一种归纳推理的理论,以后被一些统计学者发展成为一种系统的统计推断方法,被称为贝叶斯方法.认为贝叶斯方法是唯一合理的统计推断方法的统计学者组成“贝叶斯学派”,它形成于20世纪30年代,到50—60年代已发展成为一个很有影响的学派.区间估计总体参数估计的一种形式.通过从总体中抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,以作为总体的分布参数(或参数的函数)的真值所在范围的估计.1934年,由美国统计学家内曼创立了一种严格的区间估计理论,给出了置信系数和置信区间的概念.20世纪30年代初期英国统计学家费希尔提出了一种构造区间估计的方法,称之为信任推断法.另外,贝叶斯方法也是一种构造区间估计的方法.假设检验又被称为统计假设检验,是一种基本的统计推断形式,也是数理统计学的一个重要分支.在假设检验中,有一种检验方法被称为显著性检验.它是依据实际数据与理论假设H0之间的偏离程度来推断是否拒绝H0的检验方法.拟合优度检验是一类重要的显著性检验.英国统计学家皮尔逊在1900年提出的2 检验是一个拟合优度检验.原苏联数学家柯尔莫哥洛夫和斯米尔诺夫在20世纪30年代的工作开辟了非参数假设检验的方向,分别得到柯尔莫哥洛夫检验和斯米尔诺夫检验,它们都是重要的拟合优度检验方法.美国学者内曼和皮尔逊之子皮尔逊在前人工作的基础上,于1928—1938年间对假设检验进行了系统而深入的研究,发表了一系列文章,建立了假设检验的严格数学理论.内曼引进了检验功效函数的概念,以此作为判断检验程序好坏的标准.内曼与皮尔逊在1933年提出了著名的内曼─皮尔逊引理,是对简单假设寻求最大功效检验的一个构造性的结果.运用与最大似然估计类似的原理,可得到似然比检验法.在一般情况下,寻求似然比的精确分布并不容易.1938年,美国统计学家威尔克斯建立了有关似然比的一个统计量,并证明了它渐近2χ分布,这就为大样本的似然比检验提供了实行的可能.用似然比法导出的U-检验、t-检验和F-检验,都是假设检验中的重要检验法.统计决策理论一种数理统计学的理论.这种理论把数理统计问题看成是统计学家与大自然之间的博弈,用这种观点把各种各样的统计问题统一起来,以对策论的观点来研究.这一理论的创立是数理统计学上的一次革新,拓广了统计学的内容范围,有较大的实际意义.美国统计学家瓦尔德1939年开始探讨这一理论,提出一般的判决问题,引进了损失函数、风险函数、极小极大原则和最不利先验分布等重要概念.他于1950年出版了专著《统计决策函数》(中译本,上海科技出版社,1960),系统地总结了他在这一理论研究中的成果,同时也宣布了统计决策理论的正式创立.瓦尔德的理论受到统计学界的重视,成为第二次世界大战后统计学史上一个重大事件.1950年以后的几十年在这方面出现了不少工作,同时,这种理论对数理统计各分支的发展产生了程度不同的影响,特别是参数估计这个分支在其影响下,面貌有了很大变化.序贯分析数理统计学的一个分支.其名称源出于美国统计学家瓦尔德在1947年发表的—本同名著作.它研究的对象是所谓“序贯抽样方案”,及如何用这种抽样方案得到的样本去作统计推断.美国统计学家道奇和罗米格的二次抽样方案是较早的一个序贯抽样方案.1945年,施坦针对方差未知时估计和检验正态分布的均值的问题,也提出了一个二次抽样方案,据此序贯抽样方案既可节省抽样量,又可达到预定的推断可靠程度及精确程度.第二次世界大战时,为军需验收工作的需要,瓦尔德发展了一种一般性的序贯检验方法,叫做序贯概率比检验,此法在他的1947年的著作中有系统的介绍.瓦尔德的这种方法提供了根据各次观测得到的样本值接受原假设H0或接受备择假设H1的临界值的近似公式,也给出了这种检验法的平均抽样次数和功效函数,并在1948年与美国统计学家沃尔福威兹一起,证明了在一切两种错误概率分别不超过α和β的检验类中,上述序贯概率比检验所需平均抽样次数最少.瓦尔德在其著作中也考虑了复合检验的问题,有许多统计学者研究了这种检验,瓦尔德的上述开创性工作引起了许多统计学者对序贯方法的注意,并继续进行工作,从而使序贯分析形成为数理统计学的一个分支.除了检验问题以外,序贯方法在其他方面也有不少应用,如在一般的统计决策、点估计、区间估计等方面都有不少工作.。
6-1数理统计学的基本问题与基本概念

Example 2:吸烟与肺癌的关系 • 吸烟增加患肺癌,其他癌症以及诸如心脏病 等严重疾病的危险. • 1948-1949,英国学者多尔与希尔 从伦敦20家医院中收集了709名肺癌病
人以及对照组-另709名患肺癌者的吸烟
情况的资料,按吸烟斗还是纸烟,男或女,
将烟吞进肺里与否等指标分类.
统计结论:吸烟与患肺癌呈明显的正相关. 如何理解这个统计规律的意义? 首先,统计规律是关于群体的规律。 对于群体中的个体情况复杂多样,没有一定.拿本例来 说:有吸烟很多而终生保持健康者,也有不吸烟而很早
, xn ) f ( xi )
i 1
n
由于抽样的目的是为 了对总体进行统计推断,为 了使抽取的样本能很好地反 映总体的信息,必须考虑抽 样方法.
最常用的一种抽样方法叫作“简单随机抽 样”,它要求抽取的样本满足下面两点:
1. 代表性: X1,X2,…,Xn中每一个与所考察 的总体X有相同的分布. 2. 独立性: X1, X2,…, Xn是相互独立的随机变量.
简单随机样本是应用中最常见的情形,今后,当 说到“X1,X2,…,Xn是取自某总体的样本”时,若不特别 说明,就指简单随机样本.
在实际问题中如何才能得到简单随机样本呢?
N 10 ),则连续抽取的n个个体就 (一般是 n
可以看成是一个简单随机样本。
当样本容量n相对总体中的个体数N很小时
如果是有放回的抽样,则不必要求n相对小 ,就能得到简单随机样本。
患肺癌者,不能用这类个别例子来否定二和者有正相关
性的结论,因为它讲的是群体中一种趋势。 1.这种规律反映了某种客观存在的现实有科学和认 识意义。 2.对个体有警戒作用。
统计应用实例:
1. 孟德尔遗传定律的发现; 2.中国患SARS的病人的死亡率是多少;
[理学]研究生应用数理统计pdf课件第1章
![[理学]研究生应用数理统计pdf课件第1章](https://img.taocdn.com/s3/m/603deedb0408763231126edb6f1aff00bed570ce.png)
19 24 27 32
60
(3). 茎叶图 (Stemplot)
60 5+ 6 5 4+ 6 4 04 3+ 7 3 00011334 2+ 5 5 5 5 6 6 7 7 7 9 9 9 9 2 223333444 1+ 9
1. 分类变量的图表示
分类变量(Categorical Variable) 主要指 这种变量的各个取值没有大小、顺序的区别, 不能做数学运算。
如:性别变量、属性变量等
主要有饼图、条形图两种表示方法
例1.1.1 马萨诸塞州犯罪情况(1993年)
马萨诸塞州地方犯罪情况
33%
无新罪 新罪
67%
马萨诸塞州地方犯罪情况
参数估计 数理统计学最重要的内容之一 利用样本观察值去估计出总体的未知参数
直观上可以利用调查到的 n 个学生的月支出
x1 ,x2 ,…,xn 的算术平均 :
∑ x
=
1 n
n k =1
xk
去估计这所学校学生的平均月支出费用 µ 。
它的合理性在哪? 还有没有其它的办法? 这些不同的方法各有什么样的优缺点?
统计学的目的就是从样本去得出总体的信息。
总体
……..
样本
被研究的对象全体
具有代表性的 部分个体
定义1.1.1 X 是具有分布函数 F 的一个随机变量, 如果 X1,X2 ,…,Xn 是有同一分布函数 F 的 相互独立的随机变量,则称:
X1,X2 ,…,Xn 是从总体 F ( 总体 X ) 中得到 的容量为 n 的简单随机样本,简称为 样本。
Fn (x) =
0,
—k , n 1,
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第六章数理统计的基本知识数理统计的内容主要包括以下两个方面:一、如何收集、整理数据资料;二、如何对所得的数据资料进行分析、研究,从而对所研究的对象的性质、特点作出推断.后者就是我们所说的统计推断问题.本书只讲述统计推断的基本内容,即数理统计的基本知识、参数估计、假设检验、方差分析及回归分析等.在概率论中,我们是在假设随机变量的分布已知的前提下去研究它的性质、特点和规律性,例如介绍常用的各种分布、讨论其随机变量的函数的分布、求出其随机变量的数字特征等.在数理统计中,我们研究的随机变量,其分布是未知的,或者是不完全知道的,人们是通过对所研究的随机变量进行重复独立的观察,得到许多观察值,对这些数据进行分析,从而对所研究的随机变量的分布作出种种推断的.本章我们将介绍总体、随机样本及统计量等基本概念,并着重介绍几个常用统计量及抽样分布.§6.1 随机样本一、总体与总体分布1.总体:将研究对象的某项数量指标的值的全体称为总体.总体中的每个元素称为个体.总体中所包含的个体的个数称为总体的容量.容量为有限的称为有限总体.否则称为无限总体.注:有些有限总体,它的容量很大,我们可以认为它是一个无限总体.例如考察全国正在使用的某种型号灯泡的寿命所形成的总体,由于个体的个数很多,就可以认为是无限总体.在总体中,由于每个个体的出现是随机的,所以研究对象的该项数量指标X的取值就具有随机性,X是一个随机变量.因此,我们所研究的总体,即研究对象的某项数量指标X,它的取值在客观上有一定的分布.我们对总体的研究,就是对相应的随机变量X的分布的研究.X的分布函数和数字特征就称为总体的分布函数和数字特征,今后将不区分总体与相应的随机变量,笼统称为总体X.二、样本与样本分布在实际中,总体的分布一般是未知的,或只知道它具有某种形式,其中包含着未知参数.在数理统计中,人们都是通过从总体中抽取一部分个体,然后根据获得的数据来对总体分布得出推断的,被抽出的部分个体叫做总体的一个样本.从总体抽取一个个体,可以看作是对代表总体的随机变量X 进行一次试验(或观测),得到X 的一个试验数据(或观测值).从总体中抽取一部分个体,就看作是对随机变量X 进行若干次试验(或观测),得到X 的一些试验数据(或观测值).从总体中抽取若干个个体的过程称为抽样.抽样结果得到X 的一组试验数据(或观测值)称为样本.样本中所含个体的数量称为样本容量.为了使样本能很好地反映总体的情况,从总体中抽取样本,必须满足下述两个条件: 1.代表性因抽取样本要反映总体,自然要求每个个体和总体具有相同分布. 2.独立性各次抽取必须是相互独立的,即每次抽样的结果既不影响其他各次抽样的 结果,也不受其他各次抽样结果的影响.这种随机的、独立的抽样方法称为简单随机抽样.由此得到的样本称为简单随机样本.从总体中进行放回抽样,显然是简单随机抽样,得到的是简单随机样本.从 有限总体中进行不放回抽样,显然不是简单随机抽样,但是当总体容量N很大而样本容量n 较小0.1n N ⎛⎫≤ ⎪⎝⎭时,也可以近似地看作是放回抽样,即可以近似地看作是简单随机抽样,得到的样本可以近似地看作是简单随机样本. 注:从总体抽取容量为n 的样本,就是对代表总体的随机变量X在相同条件下随机地、独立地进行n 次试验(或观测),将n 次试验结果按试验的次序记为n X X X ,,,21 .由于n X X X ,,,21 是对随机变量X 试验的结果,且各次试验是在相同条件下独立地进行的,所以可认为n X X X ,,,21 是相互独立的,且与总体X 服从相同的分布.定义1:设总体X 是具有某一分布函数的随机变量,如果随机变量n X X X ,,,21 相互独立,且都与X 具有相同的分布,则称n X X X ,,,21 为来自总体X 的简单随机样本,简称样本.n 称为样本容量.在对总体X 进行一次具体的抽样并做观测之后,得到样本n X X X ,,,21 的确切数值12,,,n x x x ,称为样本观察值(或观测值),简称为样本值.如果总体X 的分布函数为()F X ,则样本n X X X ,,,21 的联合分布函数为*12121(,,,)()()()()nn n i i F x x x F x F x F x F x ===∏如果总体X 是离散型随机变量,且概率分布为{},1,2,i P X x i ==则样本n X X X ,,,21 的联合概率分布为12121{,,,}{}{}{}{}nn n i i i P X x X x X x P X x P X x P X x P X x ∙==========∏如果总体X 是连续型随机变量,且具有概率密度)(x f ,则样本n X X X ,,,21 的联合概率密度为12121(,,,)()()()()nn n i i f x x x f x f x f x f x ∙===∏三、统计推断问题简述总体和样本是数理统计中的两个基本概念. 样本来自总体,自然带有总体的信息,从而可以从这些信息出发去研究总体的某些特征(分布或分布中的参数). 另一方面,由样本研究总体可以省时省力(特别是针对破坏性的抽样试验而言). 我们称通过总体X 的一个样本n X X X ,,,21 对总体X 的分布进行推断的问题为统计推断问题.总体、样本、样本值的关系:总体↙ ↖推断(个体)样本 → 样本值抽样在实际应用中, 总体的分布一般是未知的, 或虽然知道总体分布所属的类型, 但其中包含着未知参数. 统计推断就是利用样本值对总体的分布类型、未知参数进行估计和推断.为对总体进行统计推断, 还需借助样本构造一些合适的统计量, 即样本的函数, 下面将对相关统计量进行深入的讨论.例1:设总体X 服从正态分布),(2σμN ,概率密度为22()2(), x f x x R μσ--=∈则其样本n X X X ,,,21 的联合概率密度为22211()()2212/211(,,,).(2)ni i x nx n n ni f x x x e μμσσπσ=----*=∑==§6.2 抽样分布样本是进行统计推断的依据.在应用时,往往不是直接使用样本本身,而是针对不同的问题构造样本的适当函数,利用这些样本的函数进行统计推断.一、统计量的概念定义1:设12,,,n X X X 是来自总体X 的一个样本,()12,,,n g X X X 是 12,,,n X X X 的函数,若g 中不含未知参数,则称()12,,,n g X X X 是一个统计量.设12,n x x x 是相应于样本12,,,n X X X 的样本值,则12(,)n g x x x 称为()12,,,n g X X X 的观察值.注: 统计量是随机变量.不一定和总体同分布,不同的统计量有不同的分布.二、常用的统计量1. 样本均值 ∑==ni i X n X 11 观测值记为 11nii x xn==∑2. 样本方差 ()2222111111nn i i i i S X X X nX n n ==⎛⎫=-=- ⎪--⎝⎭∑∑ 观测值记为 ()2222111111nn i i i i s x x x nx n n ==⎛⎫=-=- ⎪--⎝⎭∑∑ 3. 样本标准差S ==观测值记为s ==4. 样本(k 阶)原点矩 ,2,1,11==∑=k X n A n i ki k观测值记为 11,1,2,n kk i i a xk n ===∑5. 样本(k 阶)中心矩 ,3,2,)(11=-=∑=k X X n B ni k i k观测值记为 ()11,1,2,knk i i b x x kn ==-=∑注: (1)上述五种统计量可统称为矩统计量,简称为样本矩,它们都是样本的显示函数,它们的观察值仍分别称为样本均值、样本方差、样本标准差、样本(k 阶)原点矩、样本(k 阶)中心矩.(2)样本的一阶原点矩就是样本均值,样本一阶中心矩恒等于零21121,0,n A X B B S n-===, 三、矩估计法的理论根据若总体X 的k 阶矩()k k E X μ=存在,则当n →∞时Pk k A μ−−→ 1,2,k=证:12,,,n X X X 独立且与X 同分布12,,,k k knX X X ∴独立且与k X 同分布.故有 ()()()()12k kkk n k E X E X E X E X μ=====从而由第五章的大数定理知11n P k k i k i A X n μ==−−→∑ 1,2,k=进而由第五章中关于依概率收敛的序列的性质知道()()1212,,,,,,Pk k g A A A g μμμ−−→其中g 为连续函数,这就是下一章所要介绍的矩估计法的理论根据。
例1:从一批袋装糖果中随机抽取8袋,测得其质量(单位:g )为: 230, 243, 185, 240, 228, 196, 246, 200 (1)写出总体、样本、样本值及样本容量. (2)求样本均值、样本方差及样本二阶原点矩. 解(1)总体:袋装糖果质量X ;样本:8袋袋装糖果的质量128,,,X X X样本值:128230,243,,200x x x === 样本容量:8n =(2)样本均值8111(230243200)22188i i x x ===+++=∑样本方差()22222111922(21)566817n i i s x x=⎡⎤=-=+++-=⎣⎦-∑样本二阶原点矩822222111(230243200)49336.2588i i a x ===+++=∑例2:设总体X 服从参数为λ的泊松分布,记作~()X πλ,从总体X 中抽取样本12,,,n X X X ,X 和2S 分别为样本均值和样本方差.求2(),(),()E X D X E S .解:由已知有(),E X λ=()D X λ=方差且()(),()(),1,2,,i i E X E X D X D X i n ===()()11111()()n ni i i i E X E X E X nE X E X n n n λ==⎛⎫===⋅== ⎪⎝⎭∑∑2211111()()()()()n ni i i i D X D X D X D X nD X n n n nnλ=====⋅==∑∑ 因22()()[()]E X D X E X =+222221111()()()11n n i i i i E S E X nX E X nE X n n ==⎡⎤⎛⎫⎡⎤=-=-⎢⎥ ⎪⎢⎥--⎝⎭⎣⎦⎣⎦∑∑ 2222111()()()()11n i E X nE X nE X nE X n n =⎡⎤⎡⎤=-=-⎢⎥⎢⎥⎣⎦--⎣⎦∑ {}2222()()()[()][()[()]11n n E X E X D X E X D X E X n n ⎡⎤=-=+-+⎣⎦-- 22111n n n n n n nλλλλλλ⎡⎤-⎛⎫=+-+=⋅= ⎪⎢⎥--⎝⎭⎣⎦ 三、抽样分布统计量的分布为抽样分布. (一)、2χ分布1.定义2 设n X X X ,,,21 是取自总体)1,0(N 的样本, 则称统计量222212n X X X +++= χ为服从自由度为n 的2χ分布,记为).(~22n χχ这里, 自由度是指上式右端所包含的独立变量的个数. 2.)(2n χ分布的概率密度:⎪⎩⎪⎨⎧≤>Γ=--0,0.0,)2/(21)(21122/x x e x n x f x n n其中)(⋅Γ为Gamma 函数,10(),0x x e dx ααα+∞--Γ=>⎰具有(1) (1)()αααΓ+=Γ (2) ()(1)!n n Γ=-(3) 1()2Γ=)(x f 的图形如下3.2χ分布的数学期望与方差:若)(~22n χχ, 则 .2)(,)(22n D n E ==χχ 证:()~0,1()0,()1i i i X N E X D X ∴==故()()21,i i E X D X == ()24423x i E X x dx -+∞-∞==⎰所以()()22211n ni i i i E E X E X n χ==⎛⎫=== ⎪⎝⎭∑∑又()()()2242312i i i D X E X E X ⎡⎤=-=-=⎣⎦由于12,,,n X X X 相互独立,所以22212,,,nX X X 也相互独立 于是()()222112n ni i i i D D X D X n χ==⎛⎫=== ⎪⎝⎭∑∑4.2χ分布的可加性:若2212~(),~(),X n Y n χχ且X 和Y 相互独立,则 212~().X Y n n χ++5.2χ分布的分位点定义:设22~()n χχ,对给定的正数),10(<<αα 称满足条件αχχαχα==>⎰+∞)(222)()}({n dx x f n P 的点)(2n αχ为)(2n χ分布的上α分位点.简称为上侧α分位点.如图)(2n αχ就是使得图中阴影部分的面积为α时,在x 轴上所确定出来的点.对于不同的α与n ,上α分位点的值已制成表格,可以查用(见附表4).但该表只详列到45n =为止,费歇曾证明,当n 充分大时,有221()(2n u ααχ≈+ 当45n >时,可利用此式求得)(2n αχ分布的上α分位点的近似值.其中u α是标准正态分布的上α分位点,可按如下定义. 6. 标准正态分布的上α分位点定义;设~(0,1)X N ,对给定的正数),10(<<αα若u α满足条件{},P X u αα>= 即()1u ααΦ=-,则称点u α为标准正态分布(0,1)N 的上α分位点 标准正态分布的上α分位点可自附表3查得.如,设0.05α=, 满足{}0.05P X u α>=的点u α查附表3知 1.645u α=.7. 标准正态分布(0,1)N 的双侧α分位点定义:设~(0,1)X N ,对给定的正数),10(<<αα,若2u α满足条件2{},P X u αα>=即2()12u ααΦ=-,则称点2u α为标准正态分布(0,1)N 的双侧α分位点.注: 求双侧α分位点2u α,即是求上2α分位点2u α.例如,设0.05α=满足20.05{}0.0252P X u α>==的2u α,查附表3可得0.025 1.96u =(二)、t 分布1、定义2 设)(~),1,0(~2n Y N X χ,且X 与Y 相互独立,则称T =服从自由度为n 的t 分布, 记为)(~n t t ,2、)(n t 分布的概率密度: +∞<<-∞⎪⎪⎭⎫⎝⎛+Γ+Γ=+-t n x n n n x f n ,1)2/(]2/)1[()(212π3、t 分布具有如下性质:(1).)(x f 的图形关于纵轴对称,且0)(lim =∞→x f x ;(2).当n 充分大时,t 分布近似于标准正态分布;4、t 分布的分位点:设~()T t n ,对给定的实数),10(<<αα称满足条件(){()}()t n P T t n f x dx ααα+∞>==⎰的点)(n t α为)(n t 分布的上α分位点.5、由密度函数)(x f 的对称性, ).()(1n t n t αα-=- 注: 由分布上分位点的定义及()f x 图形的对称性知t 分布的上α分位点可通过附表5查得.在45n >时,就用标准正态分布的上α分位点近似:().t n u αα≈ 6、t 分布的双侧分位数设~()T t n ,对给定的实数),10(<<αα称满足条件,)()()}(|{|)()(2/2/2/αααα=+=>⎰⎰+∞-∞-n t n t dx x f dx x f n t T P 点2()t n α为)(n t 分布的上2α分位点. 显然有.2)}({;2)}({2/2/αααα=-<=>n t T P n t T P对不同的α与n ,t 分布的双侧分位数可从附表查得.(三)、F 分布1定义3 设2212~(),~(),X n Y n χχ且X 与Y 相互独立, 则称12//X n F Y n = 服从自由度为12(,)n n 的F 分布, 记为12~(,).F F n n2、()12,F n n 分布的概率密度:()()()()()()()()11122211212212122,02210,0n n n n n n n n x x f x n n n x n x -+⎧Γ+⎡⎤⎣⎦⎪>⎪=⎨ΓΓ+⎡⎤⎣⎦⎪≤⎪⎩3、F 分布具有如下性质: (1).若)(~n t X ,则);,1(~2n F X (2).若12~(,),F F n n 则 211~(,).F n n F4.F 分布的分位数:设()12~,F F n n α,对给定的实数),10(<<αα 称满足条件(){}()()1212,,dx F n n P F F n n f x ααα+∞>==⎰的点()12,F n n α为()12,F n n 分布的上α分位点.F 分布的上侧分位数的可自附表查得.5.F 分布的一个重要性质: ()()112211,,F n n F n n αα-=证明:12~(,)F F n n 若112112111{(,)}{}(,)P F F n n P F F n n ααα---=>=<112111{}(,)P F F n n α-=-≥ 11211{}(,)P F F n n αα->=所以212111/~(,){(,)}F F n n P F n n F αα>=又因为, 211121(,)(,)F n n F n n αα-=所以 112211(,)(,)F n n F n n αα-=即此式常常用来求F 分布表中没有列出的某些上侧分位数. 如:()()0.950.05115,100.21110,5 4.74F F ===0.950.0511(12,9)0.357(9,12) 2.80F F ===(四)、正态总体的样本均值与方差的分布定理1 设n X X X ,,,21 是总体2(,)N μσ的样本, X 是样本均值则2~,X N n σμ⎛⎫ ⎪⎝⎭证:因为随机变量 12,,,n X X X 相互独立且与总体2~(,),X N μσ所以11ni i X X n ==∑服从正态分布11()()n i i E X E X n μ===∑ 2211()()nii D X D X nnσ===∑于是2,XN n σμ⎛⎫ ⎪⎝⎭推论: 设总体),,(~2σμN X n X X X ,,,21 是取自X 的一个样本,则有).1,0(~/N nX U σμ-=定理 2 设总体),,(~2σμN X n X X X ,,,21 是取自X 的一个样本, X 与2S 分别为该样本的样本均值与样本方差, 则有 (1) 222(1)~(1);n S n χσ-- (2) X 与2S 相互独立.定理 3 设总体),,(~2σμN X n X X X ,,,21 是取自X 的一个样本, X 与2S 分别为该样本的样本均值与样本方差, 则有~(1).X t n -证:由定理1知,统计量()~0,1U N =又由定理2知,统计量()()22221~1n S n χχσ-=-因为X 与2S 相互独立,所以U =与()2221n S χσ-=也相互独立于是 ,由t 分布的定义可知,统计量()~1T t n ===-定理4设),(~211σμN X ,),(~222σμN Y 是两个相互独立的正态总体, 又设1,,,21n X X X 是取自总体X 的样本, X 与21S 分别为该样本的样本均值与样本方差. 2,,,21n Y Y Y 是取自总体Y 的样本, Y 与22S 分别为此样本的样本均值与样本方差. 再记2w S 是21S 与22S 的加权平均, 即.2)1()1(212222112-+-+-=n n S n S n S w则 (1) );1,0(~//)()(22212121N n n Y X U σσμμ+---=证明:统计量2111~,X N n σμ⎛⎫ ⎪⎝⎭,2222~,Y N n σμ⎛⎫ ⎪⎝⎭且X 与Y 相互独立,由正态分布的性质知22121212~,X Y N n n σσμμ⎛⎫--+ ⎪⎝⎭即()()12~0,1X Y U N μμ---=推论:在定理4的条件下,如果22212σσσ==则随机变量()12~(0,1)X Y U N μμ---=(2)当22221σσσ==时, ).2(~/1/1)()(212121-++---=n n t n n S Y X T w μμ证:由定理4推论可知,统计量()()12~0,1X Y U N μμ---=又由定理2知 ()()211221121~1,n S n χχσ-=- ()()222222221~1n S n χχσ-=-因为21S 与22S 相互独立,所以由2χ分布的可加性可知 统计量()()()2211222221212211~2n S n S V n n χχχσ-+-=+=+-因为 X 与 21S 相互独立, Y 与 22S 相互独立 所以统计量U 与V 也相互独立于是,由 t 分布定义可知,统计量()()1212~2X Y T t n n μμ---==+-(3) 2221122212~(1,1);S F F n n S σσ=⋅--证:222212122212122212(1)(1)~(1),~(1)n S n S n n χχχχσσ--=-=-且相互独立,由F 分布的定义有2221212222121122(1)~(1,1)(1)n S F F n n n S χσχσ-==⋅---例3:从正态总体(5,4)N 中抽取容量为25的样本,求样本均值落在区间(4.7,5.5)内的概率. 解:由于~(0,1).X U N ={4.7 5.5}X P X P ⎧⎫<<=<<0.75 1.25X P ⎧⎫⎪⎪=-<<⎨⎬⎪⎪⎩⎭ (1.25)(0.75)=Φ-Φ-(1.25)(0.75)10.89440.773410.6678=Φ+Φ-=+-=例4: 设1216,,,.X X X 是来自正态总体(0,4)N 的样本,求概率162177.476i i P X =⎧⎫≤⎨⎬⎩⎭∑解:由~(0,1)i X N μσ-知,~(0,1)2iX N 因此21616222111~(16)24i i i i X X χχ==⎛⎫== ⎪⎝⎭∑∑{}1616222111177.47677.47619.36944i i i i P X P X P χ==⎧⎫⎧⎫≤=≤⨯=≤⎨⎬⎨⎬⎩⎭⎩⎭∑∑{}2119.36910.250.75P χ=->=-=练习1设61,,X X 是来自总体)1,0(N 的样本, 又设26542321)()(X X X X X X Y +++++=试求常数C , 使CY 服从2χ分布.解:因123~(0,3)X X X N ++ 456~(0,3)X X X N ++~(0,1)X X X N ++~(0,1)X X X N ++且它们相互独立222~(2)χ+ 故应取13C =,从而21~(2)3Y χ2设总体X 服从标准正态分布,是来自总体X 的一个简单随机样本, 试问统计量5,15512512>⎪⎭⎫ ⎝⎛-=∑∑==n X X n Y i i i i服从何种分布?解:因为5221~(0,1),~(5)i ii X N X χ=∑,226~(5)ni i X n χ=-∑且521ii X=∑与26nii X=∑相互独立521265~(5,5)(5)ii nii XF n Xn ==--∑∑所以5522111~(5,5)5iii i n Y X XF n ==⎛⎫=-- ⎪⎝⎭∑∑3设),2,21(~2N X 2521,,,X X X 为X 的一个样本,求:(1) 样本均值X 的数学期望与方差; (2) }.24.0|21{|≤-X P 解:(1)由于),2,21(~2N X 所以2221,25XN ⎛⎫ ⎪⎝⎭于是222()21,()0.425E X D X === (2)()221,0.4XN 得21~(0,1).0.4X N - 21{|21|0.24}{||0.6}2(0.6)10.45140.4X P X P --≤=≤=Φ-= 4设两个总体X 与Y 都服从正态分布)3,20(N ,今从总体X 与Y 中分别抽得容量15,1021==n n 的两个相互独立的样本, 求}.3.0|{|>-Y X P()()()122020~0,1X Y X Y N μμ------==于是{||0.3}1{||121P X Y P ⎡⎤->=-≤=-Φ-⎢⎥⎣⎦22(0.42)0.6744=-Φ=第七章 参数估计在实际问题中, 当所研究的总体分布类型已知, 但分布中含有一个或多个未知参数时, 如何根据样本来估计未知参数,这就是参数估计问题.参数估计问题分为点估计问题与区间估计问题两类. 所谓点估计就是用某一个函数值作为总体未知参数的估计值;区间估计就是对于未知参数给出一个范围,并且在一定的可靠度下使这个范围包含未知参数.例如, 灯泡的寿命X 是一个总体, 根据实际经验知道,X 服从),(2σμN , 但对每一批灯泡而言, 参数2,σμ是未知的,要写出具体的分布函数, 就必须确定出参数. 此类问题就属于参数估计问题.参数点估计问题的一般提法:设有一个统计总体, 总体的分布函数为),(θx F , 其中θ为未知参数(θ可以是向量). 现从该总体中随机地抽样, 得一样本n X X X ,,,21 ,n x x x ,,,21 是相应的一个样本值.点估计问题是用样本构造一个适当的统计量12ˆˆ(,,,),n X X X θθ=来估计参数θ,称ˆθ为θ的估计量. 估计量ˆθ的值),,,(ˆ21n x x x θ称为为θ的估计值§7.1 点估计一、矩估计法1定义:设总体X 的分布函数1(;,,)l F x θθ中含有l 个未知参数1,,l θθ,如果总体X 的k 阶原点矩()k E X 存在,记()()1,,,k k l E X μθθ=1,2,,k l =1,,n X X X 其中为来自的样本 11, k 1,2,,n kk i i A X l n ===∑为样本k 阶原点矩,,1,,k k A k l μ==令即1112221212ˆ(,,,),ˆ(,,,),ˆ(,,,).l l l l l A A A μθθθμθθθμθθθ=⎧⎪=⎪⎨⎪⎪=⎩ 解得12ˆˆ(,,,)1,2,,k k n X X X l θθ==,k 并以ˆkθ作为k θ的估计量, 则称12ˆˆ(,,,)k k n X X X θθθ=k 为参数的矩估计量,这种参数估计法称为参数的矩估计法,简称矩法。