统计学
统计学
统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策提供依据和参考。它被广泛的应用在各门学科之上,从物理和社会科学到人文科学,甚至被用来工商业及政府的情报决策之上。统计学主要又分为描述统计学和推断统计学。给定一组数据,统计学可以摘要并且描述这份数据,这个用法称作为描述统计学。另外,观察者以数据的形态建立出一个用以解释其随机性和不确定性的数学模型,以之来推论研究中的步骤及母体,这种用法被称做推论统计学。这两种用法都可以被称作为应用统计学。
统计学是一门很古老的科学,一般认为其学理研究始于古希腊的亚里斯多德时代,迄今已有两千三百多年的历史。它起源于研究社会经济问题,在两千多年的发展过程中,统计学至少经历了“城邦政情”,“政治算数”和“统计分析科学”三个发展阶段。所谓“数理统计”并非独立于统计学的新学科,确切地说它是统计学在第三个发展阶段所形成的所有收集和分析数据的新方法的一个综合性名词。概率论是数理统计方法的理论基础,但是它不属于统计学的范畴,而属于数学的范畴。
总的来说,统计学的发展经历了三个阶段。第一个阶段是“城邦政情”阶段:“城邦政情”阶段始于古希腊的亚里斯多德撰写“城邦政情”或“城邦纪要”。他一共撰写了一百五十馀种纪要,其内容包括各城邦的历史,行政,科学,艺术,人口,资源和财富等社会和经济情况的比较,分析,具有社会科学特点。“城邦政情”式的统计研究延续了一两千年,直至十七世纪中叶才逐渐被“政治算数”这个名词所替代,并且很快被演化为“统计学”。统计学依然保留了城邦这个词根。第二个阶段是“政治算数”阶段:与“城邦政情”阶段没有很明显的分界点,本质的差别也不大。“政治算数”的特点是统计方法与数学计算和推理方法开始结合。分析社会经济问题的方式更加注重运用定量分析方法。1690年英国威廉·配弟出版《政治算数》一书作为这个阶段的起始标志。威廉·配弟用数字,重量和尺度将社会经济现象数量化的方法是近代统计学的重要特征。因此,威廉·配弟的《政治算数》被后来的学者
评价为近代统计学的来源,威廉·配弟本人也被评价为近代统计学之父。而配弟在书中使用的数字有三类:第一类是对社会经济现象进行统计调查和经验观察得到的数字。因为受历史条件的限制,书中通过严格的统计调查得到的数据少,根据经验得出的数字多;第二类是运用某种数学方法推算出来的数字。其推算方法又分为三种:(1)以已知数或已知量为基础,循著某种具体关系进行推算的方法;(2)通过运用数字的理论性推理来进行推算的方法;(3)以平均数为基础进行推算的方法”;第三类是为了进行理论性推理而采用的例示性的数字。配弟把这种运用数字和符号进行的推理称之为“代数的算法”。从配弟使用数据的方法看,“政治算数”阶段的统计学已经比较明显地体现了“收集和分析数据的科学和艺术”特点,统计实证方法和理论分析方法浑然一体,这种方法即使是现代统计学也依然继承。第三个阶段是“统计分析科学”阶段:它是在“政治算数”阶段出现的统计与数学的结合趋势逐渐发展形成了“统计分析科学”。十九世纪末,欧洲大学开设的“国情纪要”或“政治算数”等课程名称逐渐消失,代之而起的是“统计分析科学”课程。当时的“统计分析科学”课程的内容仍然是分析研究社会经济问题。“统计分析科学”课程的出现是现代统计发展阶段的开端。1908年,“学生”氏发表了关于t分布的论文,这是一篇在统计学发展史上划时代的文章。它创立了小样本代替大样本的方法,开创了统计学的新纪元。现代统计学的代表人物首推比利时统计学家奎特莱,他将统计分析科学广泛应用于社会科学,自然科学和工程技术科学领域,因为他深信统计学是可以用于研究任何科学的一般研究方法。现代统计学的理论基础概率论始于研究赌博的机遇问题,大约开始于1477年。数学家为了解释支配机遇的一般法则进行了长期的研究,逐渐形成了概率论理论框架。在概率论进一步发展的基础上,到十九世纪初,数学家们逐渐建立了观察误差理论,正态分布理论和最小平方法则。于是,现代统计方法便有了比较坚实的理论基础。
在科学技术飞速发展的今天,统计学广泛吸收和融合相关学科的新理论,不断开发应用新技术和新方法,深化和丰富了统计学传统领域的理论与方法,并拓展了新的领域。今天的统计学已展现出强有力的生命力。在我国,社会主义市场
经济体制的逐步建立,实践发展的需要对统计学提出了新的更多、更高的要求。随着我国社会主义市场经济的成长和不断完善,统计学的潜在功能将得到更充分更完满的开掘。第一,对系统性及系统复杂性的认识为统计学的未来发展增加了新的思路。由于社会实践广度和深度迅速发展,以及科学技术的高度发展,人们对客观世界的系统性及系统的复杂性认识也更加全面和深入。随着科学融合趋势的兴起,统计学的研究触角已经向新的领域延伸,新兴起了探索性数据的统计方法的研究。研究的领域向复杂客观现象扩展。21世纪统计学研究的重点将由确定性现象和随机现象转移到对复杂现象的研究。如模糊现象、突变现象及混沌现象等新的领域。可以这样说,复杂现象的研究给统计开辟了新的研究领域。第二,定性与定量相结合的综合集成法将为统计分析方法的发展提供新的思想。定性与定量相结合的综合集成方法是钱学森教授于1990年提出的。这一方法的实质就是将科学理论、经验知识和专家判断相结合,提出经验性的假设,再用经验数据和资料以及模型对它的确实性进行检测,经过定量计算及反复对比,最后形成结论。它是研究复杂系统的有效手段,而且在问题的研究过程中处处渗透着统计思想,为统计分析方法的发展提供了新的思维方式。第三,统计科学与其他科学渗透将为统计学的应用开辟新的领域。现代科学发展已经出现了整体化趋势,各门学科不断融合,已经形成一个相互联系的统一整体。由于事物之间具有的相互联系性,各学科之间研究方法的渗透和转移已成为现代科学发展的一大趋势。许多学科取得的新的进展为其他学科发展提供了全新的发展机遇。模糊论、突变论及其他新的边缘学科的出现为统计学的进一步发展提供了新的科学方法和思想。将一些尖端科学成果引入统计学,使统计学与其交互发展将成为未来统计学发展的趋势。统计学也将会有一个令人振奋的前景。今天已经有一些先驱者开始将控制论、信息论、系统论以及图论、混沌理论、模糊理论等方法和理论引入统计学,这些新的理论和方法的渗透必将会给统计学的发展产生深远的影响。
统计学产生于应用,在应用过程中发展壮大。随着经济社会的发展、各学科相互融合趋势的发展和计算机技术的迅速发展,统计学的应用领域、统计理论与分析方法也将不断发展,在所有领域展现它的生命力和重要作用。
应用统计学论文
应用统计学课程论文 经过这学期短暂的学习应用统计学,我对这门学科也有了一定认识。应用统计学是一门运用统计学的原理和方法,研究各个领域有关数据收集、整理、分析的科学是经济、管理类专业的一门重要专业基础课程。掌握统计学的基本理论和方法,具有较好的科学素养,能熟练地运用计算机分析数据,能从事统计调查、统计信息管理、数量分析、市场研究、质量控制等工作。在当前的社会发展中,是市场经济和信息经济的时代,社会各个方面的发展都需要对信息进行收集、分析和整理,所以学好应用统计对不久即将走向社会的我们是只有好处,没有坏处的。 绪论 一、应用统计学的发展: 从统计学的发展过程来看,可以把统计学大致分为古典统计学、近代统计学和现代统计学三个时期。 第一、古典统计学时期: 古典统计学时期是指17世纪初至18世纪末,这是统计学的创立时期,亦称古典统计学时期。在这时期出现了政治算术学派和德国的国势学派两个统计学派. 1、国势学派 国势学派又称记述学派,产生于17世纪的德国。由于该学派主要以文字记述国家的显著事项,故称记述学派。 2、政治算术学派 政治算术学派产生于19世纪中叶的英国,其创始人是威廉和约翰.“算术”是指统计方法。主要利用实际资料,运用数字、重量和尺度等统计方法对实际情况作了系统的数量对比分析,从而为统计学的形成和发展奠定了方法论基础。 第二、近代统计学时期: 近代统计学是指18世纪末到19世纪末这一百年的统计学,它是古典统计学的继续和发展,是古典统计学向现代统计学过渡的统计学。近代统计学的发端,不能不提到著名的统计学家阿道夫·凯特勒的卓越员献。他既继承了国势学和政治算术的传统,把统计学从作为管理国家行政的“政治医学”,扩展到作为研究社会内在矛盾及其规律性数量表现的科学认识方法,又积极地把古典概率引人统计学,以研究社会经济现象偶然变化中的规律性表现。 1、数理统计学派 指概率论引进统计学形成数理统计学,以概率作为理论基础,抽象掉统 计学的社会经济现象内涵,变成了抽象的数学分析和推断技术. 2、社会统计学派 指研究社会现象变动的原因和规律性的实质性科学。社会统计学在这里也称为社会经济统计学,包括政治统计.经济统计.人口统计.犯罪统计等多方面内容. 第三、现代统计学时期:
统计学统计学概率与概率分布练习题
第5章 概率与概率分布 练习题 5.1 写出下列随机事件的基本空间: (1) 抛三枚硬币。 (2) 把两个不同颜色的球分别放入两个格子。 (3) 把两个相同颜色的球分别放入两个格子。 (4) 灯泡的寿命(单位:h )。 (5) 某产品的不合格率(%)。 5.2 假定某布袋中装有红、黄、蓝、绿、黑等5个不同颜色的玻璃球,一次从中取出3个球, 请写出这个随机试验的基本空间。 5.3 试定义下列事件的互补事件: (1) A ={先后投掷两枚硬币,都为反面}。 (2) A ={连续射击两次,都没有命中目标}。 (3) A ={抽查三个产品,至少有一个次品}。 5.4 向两个相邻的军火库发射一枚导弹,如果命中第一个和第二个军火库的概率分别是、, 而且只要命中其中任何一个军火库都会引起另一个军火库的爆炸。试求炸毁这两个军火库的概率有多大。 5.5 已知某产品的合格率是98%,现有一个检查系统,它能以的概率正确的判断出合格品, 而对不合格品进行检查时,有的可能性判断错误(错判为合格品),该检查系统产生错判的概率是多少 5.6 有一男女比例为51:49的人群,已知男人中5%是色盲,女人中%是色盲,现随机抽中 了一个色盲者,求这个人恰好是男性的概率。 根据这些数值,分别计算: (1) 有2到5个(包括2个与5个在内)空调器出现重要缺陷的可能性。 (2) 只有不到2个空调器出现重要缺陷的可能性。 (3) 有超过5个空调器出现重要缺陷的可能性。 5.8 设X 是参数为4=n 和5.0=p 的二项随机变量。求以下概率: (1))2( 5.9 一条食品生产线每8小时一班中出现故障的次数服从平均值为的泊松分布。求: (1) 晚班期间恰好发生两次事故的概率。 (2) 下午班期间发生少于两次事故的概率。 (3) 连续三班无故障的概率。 5.10 假定X 服从12=N ,7=n ,5=M 的超几何分布。求: (1))3(=X P 。(2))2(≤X P 。(3))3(>X P 。 5.11 求标准正态分布的概率: (1))2.10(≤≤Z P 。 (2))49.10(≤≤Z P 。 (3))048.0(≤≤-Z P 。 (4))037.1(≤≤-Z P 。 (5))33.1(>Z P 。 5.12 由30辆汽车构成的一个随机样本,测得每百公里的耗油量数据(单位:L )如下: 试判断该种汽车的耗油量是否近似服从正态分布 5.13 设X 是一个参数为n 和p 的二项随机变量,对于下面的四组取值,说明正态分布是否 为二项分布的良好近似 (1)30.0,23==p n 。(2)01.0,3==p n 。 (3)97.0,100==p n 。(4)45.0,15==p n 。 六、计算题:(要求写出计算公式、过程,结果保留两位小数,共4题,每题10分) 1、某快餐店对顾客的平均花费进行抽样调查,随机抽取了49名顾客构成一个简单随机样本,调查结果为:样本平均花费为元,标准差为元。试以%的置信水平估计该快餐店顾客的总体平均花费数额的置信区 间;(φ(2)=)49=n 是大样本,由中心极限定理知,样本均值的极限分布为正态分布,故可用正态分布对总体均值进行区间估计。 已知:8.2,6.12==S x 0455.0=α 则有: 202275 .02 ==Z Z α 平均误差=4.07 8 .22==n S 极限误差8.04.022 2 =?==? n S Z α 据公式 x x ±=±? 代入数据,得该快餐店顾客的总体平均花费数额%的置信区间为(,) 3 要求:①、利用最小二乘法求出估计的回归方程;②、计算判定系数R 。 附:10805 1 2 ) (=∑-=i x x i 8.3925 1 2 ) (=∑-=i y y i 58=x 2.144=y 3题 解 ① 计算估计的回归方程: ∑∑∑∑∑--= )(22 1x x n y x xy n β) ==-??-?290 217900572129042430554003060 = =-= ∑∑n x n y ββ)) 1 0 – ×58= 估计的回归方程为:y ) =+x ② 计算判定系数: 4 计算下列指数:①拉氏加权产量指数;②帕氏单位成本总指数。 4题 解: ① 拉氏加权产量指数 = 1 000 00 1.1445.4 1.13530.0 1.08655.2 111.60%45.430.055.2q p q q p q ?+?+?==++∑∑ ② 帕氏单位成本总指数= 11100053.633.858.5 100.10%1.1445.4 1.13530.0 1.08655.2q p q q p q ++==?+?+?∑∑ 模拟试卷(二) 一、填空题(每小题1分,共10题) 1、我国人口普查的调查对象是 ,调查单位是 。 2、___ 频数密度 =频数÷组距,它能准确反映频数分布的实际状况。 3、分类数据、顺序数据和数值型数据都可以用 饼图 条图 图来显示。 4、某百货公司连续几天的销售额如下:257、276、297、252、238、310、240、236、265,则其下四分位数 5、某地区2005年1季度完成的GDP=30亿元,2005年3季度完成的GDP=36亿元,则GDP 年度化增长率6、某机关的职工工资水平今年比去年提高了5%,职工人数增加了2%,则该企业工资总额增长了 % 。 7、对回归系数的显着性检验,通常采用的是 t 检验。 8、设置信水平=1-α,检验的P 值拒绝原假设应该满足的条件是 p e M >o M ③、x >o M >e M 3、比较两组工作成绩发现σ甲>σ乙,x 甲>x 乙,由此可推断 ( ) 统计学三大分布与正态分布的关系[1] 张柏林 41060045 理实1002班 摘要:本文首先将介绍2χ分布,t 分布,F 分布和正态分布的定义及基本性质, 然后用理论说明2χ分布,t 分布,F 分布与正态分布的关系,并且利用数学软件MATLAB 来验证之. 1. 三大分布函数[2] 1.12χ分布 2()n χ分布是一种连续型随机变量的概率分布。这个分布是由别奈梅 (Benayme)、赫尔默特(Helmert)、皮尔逊分别于1858年、1876年、1900年所发现,它是由正态分布派生出来的,主要用于列联表检验。 定义:若随机变量12n ,,X X …X 相互独立,且都来自正态总体01N (,) ,则称统计量2222 12n =+X X χ++…X 为 服从自由度为n 的2χ分布,记为22~()n χχ. 2χ分布的概率密度函数为 122210(;),2()200n x n x e x n f x n x --?≥??=Γ??? 其中伽玛函数10 (),0t x x e t dt x +∞ --Γ= >? ,2χ分布的密度函数图形是一个只取非负值 的偏态分布,如下图. 卡方分布具有如下基本性质: 性质1:22(()),(())2E n n D n n χχ==; 性质2:若221122(),()X n X n χχ==,12,X X 相互独立,则21212~()X X n n χ++; 性质3:2 n χ→∞→时,( n )正态分布; 性质4:设)(~2 2n αχχ,对给定的实数 ),10(<<αα称满足条件: αχχαχα==>? +∞ ) (222 )()}({n dx x f n P 的点)(2 n α χ为)(2n χ分布的水平α的上侧分位数. 简称为上侧α分位数. 对不同的α与n , 分位数的值已经编制成表供查用. 2()n χ分布的上α分位数 1.2t 分布 t 分布也称为学生分布,是由英国统计学家戈赛特在1908年“student”的笔名首次发表的,这个分布在数理统计中也占有重要的位置. 定义:设2 ~0~X N χ(,1),Y (n ),,X Y 相互独立,,则称统计量 T = 服从自由度为n 的t 分布,记为~()T t n . t 分布的密度函数为 选择合适的统计学方法 1连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。 1.1.2 资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验;(2)采用非参数检验,如Wilcoxon检验。 1.1.3 资料方差不齐,(1)采用Satterthwate 的t’检验;(2)采用非参数检验,如Wilcoxon检验。 1.2 两组配对样本的比较 1.2.1 两组差值服从正态分布,采用配对t检验。 1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。 1.3 多组完全随机样本比较 1.3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.3.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal-Wallis法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用成组的Wilcoxon检验。 1.4 多组随机区组样本比较 1.4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用符号配对的Wilcoxon检验。 ****需要注意的问题: (1)一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t 检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。 (2)当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。**绝不能对其中的两 应用统计学 课程编码:202136 课程英文译名:Practical Statistics 课程类别:学科基础选修课 开课对象:工业工程专业 开课学期:5 学分: 2学分; 总学时: 32学时; 理论课学时: 32 学时; 实验学时: 0学时; 上机学时: 0 学时 先修课程:概率论 教材:应用统计,朱洪文,高等教育出版社,2001.2 参考书:【1】应用统计学,倪加勋,中国人民大学出版社,1994 一、课程的性质、目的和任务 应用统计学是一门认识方法论的科学,通过对社会经济现象的数量方面资料的搜索、整理、分析和推断,阐明社会经济现象本质及其内在的规律性,以达到对社会经济现象整体的具体的认识。该课程作为经济、管理类专业的专业基础课开设。 通过本课程的教育需达到以下目的:1、为经济管理提供统计调查,资料整理汇总和统计分析的一般原则和方法;2、为进一步学习有关专业知识,奠定理论和方法基础;3、为学习其他经济管理课程和从事经济研究工作提供数量分析的方法。学习中要正确理解课程中的各个基本概念,了解统计工作的各个阶段,掌握统计的基础理论和基本方法,并能综合运用所学的理论知识分析应用经济统计信息,以满足工作的需要。 二、课程的基本要求 1.明确统计的对象及其特点,了解统计的性质与作用以及统计工作的基本环节。透彻理解统计学中的基本范畴,初步建立统计思想。 2.理解统计调查的概念,了解统计调查方法的种类,掌握统计报表制度和各种专门调查的概念、特点以及各种调查方法的结合运用。 3.了解统计调查方案的基本内容,理解统计整理的概念,统计分组的概念和作用,了解次数分布的类型,统计表的结构,掌握制表的一 单项选择题: 1.D 对以往数据分析的结果表明,机器在良好状态时,生产的产品合格率为90%,而当机器在有故障状态时,产品合格率为30%,每天开机时机器良好的概率为75%。当某天开机后生产的第一件产品为合格品时,机器是良好状态的概率等于()。 A、0.9 B、0.75 C、0.675 D、0.525 2.D 袋中有5个球(3个新球,2个旧球)。现每次取一个,无放回的抽取两次,则第二次取到新球的概率是()。 A、3/5 B、3/4 C、1/2 D、3/10 3.B 已知在10个电子元件中有2只是次品,从其中取两次,每次随机的取一只,做不放回抽取,则第二次取出的是次品的概率是()。 A、1/45 B、1/5 C、16/45 D、8/45 4.A 已知P(A)=P(B)=P(C)=1/4,P(AB)=P(BC)=0,P(AC)=3/16,则事件A,B,C全不发生的概率等于()。 A、7/16 B、3/4 C、1/4 D、9/16 5.D 6.C 7.B 8.B 甲、乙两袋内都装有两个黑球和两个白球,现从甲、乙两袋中各摸取一个球,记事件A为“从甲袋中摸出白球”,B为“从乙袋中摸出白球”,C为“摸出的两个球颜色不同”,则有()。 A、A,B,C相互独立 B、A,B,C三个事件两两独立 C、A,B,C三个事件两两互不相容 D、AB与C互不相容 9.D 10.C 对于任意两个事件A与B,则有P(A-B)为() A、P(A)-P(B) B、P(A)-P(B)+P(AB) C、P(A)-P(AB) D、P(A)+P(AB) 11.C 12.D 13.A 14.C 15.B 应用统计学概念整理 第一章:导论 1.只能归类于某一类别的非数字型数据称为分类数据 2.只能归于某一有序类别的非数字型数据称为顺序数据 3.按数字尺度测量的观测值称为数值型数据 4.包含所研究的全部个体的集合称为总体 5.从总体中抽取的一部分的元素的集合称为样本 6.用来描述总体特征的的概括性数字度量称为参数 7.用来描述样本特征的概括性数字度量称为统计量 8.说明事物类别的一个名称称为分类变量 9.说明事物有序类别的一个名称称为顺序变量 10.说明事物数字特征的一个名称称为数值型变量 11.只能取可数值的变量称为离散型变量 12.可以在一个或多个区间中取任何值的变量称为连续型变量 第二章:数据收集 1.从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征 的数据收集方法,称为抽样调查。 2.为特定目的而专门组织的全面调查称为普查 3.按照国家有关法律规定,自上而下地统一布置,自下而上地逐级提供基本数据的调查方 式称为统计报表 第三章:数据的图表展示 1.落在某一特定类别或组中的数据个数,称为频数 2.把各个类别及其落在其中的相应频数全部列出,并用表格形式表示出来,称为频数分布 3.一个样本或总体中各个部分的数据与全部数据之比,称为比例 4.将比例乘以100得到的数值,称为百分比或百分数,用%表示 5.样本或总体中各不同类别数值之间的比值,称为比率 6.分类数据的图示:条形图,pareto图,对比条形图,饼图 7.将各有序类别或组的频数逐级累加起来得到的频数称为累计频数 8.将各有序类别或组的百分比逐级累加起来称为累计频率 9.顺序数据的图示:累计频数分布图,环形图 10.根据统计研究的需要,将原始数据按照某种标准划分成不同的组别称为数据分组 11.分组后的数据称为分组数据 12.把变量值作为一组称为单变量值分组 13.将全部变量值一次划分为若干个区间,并将这一区间的变量值作为一组,称为组距分组 14.在组距分组中,一个组的最小值称为下限,最大值称为上限 15.一个组的上限与下限的差称为组距 16.各组组距相等的组距分组称为等距分组 17.各组组距不相等的组距分组称为不等距分组 18.每一组的下限和上限之间的重点值称为组中值 第五章作业题解 5.1 已知正常男性成人每毫升的血液中含白细胞平均数是7300, 标准差是700. 使用切比雪 夫不等式估计正常男性成人每毫升血液中含白细胞数在5200到9400之间的概率. 解:设每毫升血液中含白细胞数为,依题意得,7300)(==X E μ,700)(==X Var σ 由切比雪夫不等式,得 )2100|7300(|)94005200(<-=< 三大抽样分布 众所周知,在概率论中有二项分布、正态分布、泊松分布着三大分布,而统计学中也有三大抽样分布,分别是x2 分布、t布和F分布。这三大抽样分布的发现正好是现代统计学的形成时期,对于以参数统计推断为主要内容的现代统计学理论的形成有着重要意义。X2分布的发现来源于Kad Pears0n创立X2拟合优度理论的过程,而t分布的发现来源于Gosset小样本理论的创立过程,F分布则是来源于Fisher创立方差分析理论的过程。 三大抽样分布的研究意义 c.R.Rao曾经说过“在终极的分析中,一切知识都是历史,在抽象的意义下,一切科学都是数学,在理性的基础上,所有的判断都是统计学。”这句话一语道破统计学的重要性。三大抽样分布在统计学理论中占据着重要地位,由此可见,研究三大抽样分布对于科学研究有着重要意义。在实际工作中,统计工作者对于三大抽样分布的研究必不可少,通过研究三大抽样分布的产生、发展和完善,能够充分了解三大抽样分布理论的重要性。具体到统计学三大分布,对于三大分布理论的研究,能够在充分吸收前人研究成果的基础上不断进行理论创新,从而推动科学技术的进步。纵观所有的科技进步,无一不是在充分研究前人成果的基础上发展而来的研究统计学三大抽样分布,对于我国社会经济发展有着重要的推动作用。三大抽样分布产生于19世纪末20世纪初,在统计学的发展过程中,每一次新的分析统计数据概率模型的发现,统计学理论都会发生一次重大飞跃。为此,要想研究三大抽样分布,就应该对其发展过程进行研究。统计量是样本的函数,是随机变量,有其概率分布,统计量的分布称为抽样分布。 X2分布 x2的早期发展 由于受到中心极限定理和正态误差理论的影响,正态分布一直在统计学中占据重要地位。在很多数学家和哲学家心目中,正态分布是唯一可用的分析和解释统计数据的方法。但是随着时代的发展,一些学者开始对正态性提出了质疑,随后,在多位科学家的试验验证下,正态分布与实际数据拟合不好的情况日渐凸显出来,科学家纷纷开始研究比正态分布范围更广的分布类型,波那个人产生了偏态分布,其中,x2就是最早的偏态分布最早引入偏态分布的是JamesClerk Maxwel,他在研究气体分子运动的过程中引入了X2分布。1891年,X2分布首次被作为统计量的分布导出。Pizzetti在求线性 模型最小二乘估计残差平方和的分布时,通过富氏分析法得出了X2的分布。随着时代的发展,正态分布理论的局限更加明显,更加推动了偏态分布的发展。KarlPearson是对偏态分布贡献最大的人,成为了一代统计学巨人。按照他的观点,统计学应该把在模型基础上对观测数据进行有效预测作为基本任务,所以他开创了一族曲线对观测数据进行拟合,使得分布拟台数据的应用范围进一步扩大。 X2模型 一、选择 1、一项试验中所有可能结果的集合称为() A事件B简单事件C样本空间D基本事件 2、每次试验可能出现也可能不出现的事件称为() A必然事件B样本空间C随机事件D不可能事件 3、抛3枚硬币,用0表示反面,1表示正面,其样本空间Ω=() A{000,001,010,100,011,101,110,111} B{1,2,3}C{0,1}D{01,10} 4、随机抽取一只灯泡,观察其使用寿命t,其样本空间Ω=() A{t=0} B{t<0} C{t>0} D{t≥0} 5、观察一批产品的合格率P,其样本空间为Ω=() A{0 第八讲 应用统计学的基本概念 Dr. Alan Moses 我是Alan Moses博士, 是马萨诸塞州波士顿的Joslin糖尿病中心的高级副院长和首席医生。在这部分讲座中,我们将学习应用统计学的基本概念。我们首先回顾在临床研究中统计学的作用。然后学习统计学的基本概念及常用统计学检验。最后我们将讨论一些所谓的“数据分析中的捣蛋鬼”。 临床研究中统计学的作用是什么?我们所做的就是区分事实和偶然性。我们需要比较组间差异,并检验干预的效应。 那么,临床研究中生物统计学家的作用是什么?虽然我们希望得到令人满意数据并知道如何设计试验及进行分析数据,但通常我们需要依靠生物统计学家的专业知识来选择适当的试验设计和计算适合的样本量。我们都应认识到样本量是由对结果的测定决定的,涉及其精确度、准确度、可重复性和可行性。此外,在进行数据分析时,生物统计学家帮助我们决定使用何种分析工具。在试验开始之前就应确定所使用的统计方法,非常重要的是, 分析方法决不能在试验完成之后加以改变. 在对试验进行分析时,统计学的作用是什么?我们应当记住,统计方法仅仅是一种帮助我们解释试验中所获得的数据的工具。它们是一种工具而不是试验的最终结果。而且像任何工具一样,使用统计工具必须小心。计算机可以产生一些或有统计学意义的数据,但是只有研究者才知道该使用何种统计学检验来进行统计学分析。已参加培训的研究者可以很容易地选择统计学检验方法,必须记住的很重要的一点是,对于没有足够知识的人而言,有强大功能的统计软件包可能导致致命性的错误。 生物统计学的重要概念之一是其正确性(validity)。对于关键性的数据分析、试验的结果尤其是结果的发表,正确性都是其核心。有两种正确性: 内部的和外部的(可推广性)。 内部的正确性就是在设定的试验范围内结果是准确的,使用的方法和分析经受得住检验,数据和相关的医学文献均支持研究者对试验结果的解释和结论。 外部正确性或可推广性决定了试验设计是否能够允许所做的观察和所得的结论推广到整个人群。试验人群的选择决定了最大可推广范围,这个概念我们在这个讲座的其它部分已经谈到过。如果研究对象包括男性、女性、不同的种族、不同的年龄分层,那么就有更多的机会将临床试验的结果应用于普通人群。另一方面,受试者的选择也将决定研究和结论可应用的人群范围。例如,如果在临床试验中选择年龄介于5-10岁的儿童,那么该试验的结果就仅能应用于该人群。如果选择45岁以上的亚洲男性作为受试者,那么试验结果就只能应用于这个人群。 在正确性的概念中,应该认识到须有足够的样本量以支持所得出的结论,同时要选择适当的对照人群,特别是强调随机双盲对照这一临床研究的根本的科学方法。著名科学家Isaac 统计学三大分布与正态分布的关系 [1] 张柏林 41060045 理实1002班 摘要:本文首先将介绍 2分布,t 分布,F 分布和正态分布的定义及基本性质, 然后 用理论说明2分布,t 分布,F 分布与正态分布的关系,并且利用数学软件 MATLAB 来验证之. 1.三大分布函数[2] 1.1 2分布 2(n )分布是一种连续型随机变量的概率分布。这个分布是由别奈梅 (Benayme )赫尔默特(Helmert )、皮尔逊分别于1858年、1876年、1900年所发 现,它是由正态分布派生出来的,主要用于列联表检验。 定义:若随机变量X 1,X 2,…X n 相互独立,且都来自正态总体 N (0,,),则称 统计量 2 =x ; X ;…+X ;为服从自由度为n 的2分布,记为 2 2 ~ (n ). 2 分布的概率密度函数为 1 x e 2 x 0 J x 0 其中伽玛函数(X ) e t t x 1dt,x 0, 2 分布的密度函数图形是一个只取非负值 的偏态分布,如下图? x 2 n 2° f(x; n) 2(n2) ,X!,X2相互独立,则X! X2~ 2g n2); 性质3: n 时,2(n) 正态分布; 性质4:设2~ 2(n),对给定的实数 (0 1),称满足条件: P{ 2 2(n)} 2(、f(x)dx (n) 的点2(n)为2(n)分布的水平的上侧分位数. 简称为上侧分位数.对不同的与n,分位 数的值已经编制成表供查 分布,是由英国统计学家戈赛特在1908年“student的'笔名 布在数理统计中也占有重要的位置. 1), Y?2(n), X,Y相互独立,,则称统计量T —X VY/ n 分布,记为T~t( n). 为 性质1: E( 2(n)) n,D( 2(n)) 2n ; 性质2:若X! 2(nJ,X2 §1、4 常用得分布及其分位数 1、 卡平方分布 卡平方分布、t 分布及F 分布都就是由正态分布所导出得分布,它们与正态分布一起,就是试验统计中常用得分布。 当X 1、X 2、… 、Xn 相互独立且都服从N(0,1)时,Z=∑i i X 2 得分布称为自由度等于n 得2χ分布,记作Z ~2χ(n),它得分布 密度 p(z )=??? ????>??? ??Γ--,,00,2212122其他z e x n z n n 式中得??? ??Γ2n =u d e u u n ?∞+--012,称为Gamma 函数,且()1Γ=1, ?? ? ??Γ21=π。2χ分布就是非对称分布,具有可加性,即当Y 与Z 相互独立,且Y ~2χ(n ),Z ~2χ(m ),则Y+Z ~2χ(n+m )。 证明: 先令X 1、X 2、…、X n 、X n+1、X n+2、…、 X n+m 相互独立且都服从N(0,1),再根据2χ分布得定义以及上述随机变量得相互独立性,令 Y=X 21+X 22+…+X 2n ,Z=X 21+n +X 22+n +…+X 2m n +, Y+Z= X 21+X 22+…+X 2n + X 21+n +X 22+n +…+X 2m n +, 即可得到Y+Z ~2χ(n +m )。 2、 t 分布 若X 与Y 相互独立,且 X ~N(0,1),Y ~2χ(n ),则Z =n Y X 得分布称为自由度等于n 得t 分布,记作Z ~ t (n ),它得分布密度 P(z)=)()(221n n n ΓΓ+2121+-???? ??+n n z 。 请注意:t 分布得分布密度也就是偶函数,且当n>30时,t 一、统计学在社会生活中的应用 统计学的出生是研究国家状况的,譬如统计全国人口状况、农业收成、经济情况等数据,对一国经济与社会发展做统计性调查与研究。经过多年的发展,统计学在社会生活中的应用被专家学家们系统化专业化,形成了不同流派不同类别的统计学。而现在的人文社会统计分类便是对社会生活中统计学应用的专业化成果。 前面提到过的人口普查、经济情况调查等都是统计学在社会生活中的应用。早在17世纪,统计学在社会生活中的应用就被提出了。在约翰·格朗特1662年出版了《对死亡表的自然观察和政治考察》一书中,格朗特通过观察客观现象的数量关系,揭示出一系列统计规律,如男婴出生高于女生,男性死亡高于女性等,同时他还用最新颖的方法编制出了死亡率表。18世纪中末叶到19世纪中末叶期间概率论与统计学成功结合,使得统计学在生活中的应用更加被加以重视。 在当代社会,统计学的应用越来越普及,人口学中的统计学应用(进行优生优育)、社会发展与评价、持续发展与环境保护、资源保护与利用、宏观经济监测与预测、政府统计数据收集与质量保证等都依赖于各类科学的统计方法。 二、统计学在企业生产及社会经济生活中的应用 统计学在企业生产、经济生活中的应用很广,其中包括了保险精算、金融业数据库建设与风险管理、宏观经济监测与预测等一系列经济研究应用问题。 在金融业的统计学应用方面,运用统计方法研究金融风险,建立风险监测系统,不仅能够为管理层宏观调控金融市场提供科学的理论依据,而且对投资个人和机构实施风险控制具有重要指导作用。 企业经济管理对统计学的运用也是必不可少的。其中,统计方法在企业质量管理中的应用研究就是一个典型的应用实例。“九五”期间,“ISO9000”认证成为国际贸易中所要求的供方质量保证能力和水平的标志。ISO9000族标准中有许多要素涉及到统计技术与方法的应用,例如紧密结合某企业或某产品的生产过程,运用统计方法,实施产品设计、生产的全过程控制,同时还可将统计学中的“6”质量标准应用于企业的质量管理中。 统计学知识在企业生产管理中的应用当然不只限于企业质量管理。利用统计学知识还可以进行企业财务风险分析、顾客行为分析、 统计学三大分布与正态分布的关系 [1] 张柏林 41060045 理实1002班 摘要:本文首先将介绍2χ分布,t 分布,F 分布和正态分布的定义及基本性质, 然后用理论说明2χ分布,t 分布,F 分布与正态分布的关系,并且利用数学软件MATLAB 来验证之. 1.三大分布函数[2] 1.12χ分布 2()n χ分布是一种连续型随机变量的概率分布。这个分布是由别奈梅(Benayme)、赫尔默特(Helmert)、皮尔逊分别于1858年、1876年、1900年所发现,它是由正态分布派生出来的,主要用于列联表检验。 定义:若随机变量12n ,,X X …X 相互独立,且都来自正态总体01N (,) ,则称统计量222 212n =+X X χ++…X 为服从自由度为n 的2χ分布, 记为22~()n χχ. 2χ分布的概率密度函数为 122210(;),2()200n x n x e x n f x n x --?≥??=Γ??? 其中伽玛函数1 (),0t x x e t dt x +∞ --Γ= >? ,2χ分布的密度函数图形是一个只取非负值的偏态分布,如下图. 卡方分布具有如下基本性质: 性质1:22(()),(())2E n n D n n χχ==; 性质2:若221122(),()X n X n χχ==,12,X X 相互独立,则21212~()X X n n χ++; 性质3:2 n χ→∞→时,( n )正态分布; 性质4:设)(~2 2n α χχ,对给定的实数),10(<<αα称满足条 件:αχχα χα ==>?+∞ ) (2 22)()}({n dx x f n P 的点)(2 n α χ为)(2n χ分布的水平α的上侧分位数. 简称为上侧α分位数. 对不同的α与n , 分位数的值已经编制成表供查 用. 2()n χ分布的上α分位数 1.2t 分布 t 分布也称为学生分布,是由英国统计学家戈赛特在1908年“student ”的笔名 首次发表的,这个分布在数理统计中也占有重要的位置. 定义:设2 ~0~X N χ(,1),Y (n ),,X Y 相互独立,,则称统计量/T Y n = 服从自由度为n 的t 分布,记为~()T t n . 二项分布(,)B n p n 为试验次数,p 为每次成功概率 {}x x n x n p X x C p q -== 其中1p q += (),()E X np Var X npq == ()()tX t n E e q pe =+其中t -¥<<¥ 解释:n 重贝努里实验中正好成功x 次的概率 几何分布()Geo p p 为成功概率 ()x P X x pq == 2(),()E X q p Var X q p == ()(1),ln tX t E e p qe t q =-<- 解释:n 重贝努里实验中首次成功正好在第x+1次 负二项分布(,),1NB k p k >,k 为成功次数,01p <<,p 为成功概率 1{}x k x k x P X x C p q +-== 2(),()E X kq p Var X kq p == ()(),ln 1tX k t p E e t q qe =<-- 解释:贝努里实验系列中第k 次成功正好出现在第x +k 次实验上地概率 泊松分布()P l {},0! x P X x e x l l l -==> (),()E X Var X l l == (1)()t tX e E e e l -=,t -¥<<¥ 解释:贝努里概型中的实验次数很大,但每次成功的概率很小,平均成功次数接近于常数 均匀分布(,)U a b 1 (),X f x a x b b a =<<-;(),X x a F x a x b b a -=<<- 2 ()(),()212a b b a E X Var X +-== 11 ()(1)()r r r b a E X r b a ++-=+- 正态分布2(,)N m s 2 1) 2()x X f x m s -- = 2(),()E X Var X m s == 22 1 2()t t tX E e e m s += 对数正态分布2log (,)N m s 2 1 ln () 2()x X f x m s --=2 221 22(),()(1)E X e Var X e e m m s s ++==- 22 1 2()t t t E X e m s += 解释:如果X~2log (,)N m s ,则logX ~2(,)N m s 指数分布()Exp l ()x X f x e l l -=,()1x X F x e l -=- 21 1 (),()E X Var X l l == (1) ()r r r E X l G += 1()(1,X t M t t l l -=-< 应用统计学专业简介 专业申报与开办:理学院于2011年申报并获批本科四年制“统计学(生物统计)”专业,2012年9月首次招生,2013年国家专业目录调整时,原“统计学(生物统计)”专业调整为“应用统计学”。 培养目标与能力要求:以统计学服务地方经济建设、社会发展的人才需求为导向,培养具有良好的统计学及相关学科素养,系统掌握统计学的基本理论和方法,具备运用统计分析软件进行数据分 析和解决实际问题的能力,富有创新精神和实践能力的应用型人才,能在银行、保险、证券、工商企业和各级政府部门从事市场调查、市场研究、统计分析与管理等项工作。本专业学生主要学习掌握统计学的基本思想、理论和方法,具有熟练应用统计软件分析处理数据的能力,了解统计学在农业、经济、金融、管理、生物等领域的应用,具有建立统计模型和运用各种统计软件分析、解决相应领域实际问题的初步能力。 主干课程:概率论、数理统计、统计学导论、多元统计分析、应用回归分析、应用时间序列分析、抽样技术、试验设计、统计软件(含SAS、SPSS、R、MATLAB等软件)、统计预测与决策等。 专业特色与优势:夯实专业基础、注重专业核心、加强实践实训,突显统计调查和数据分析,强化学生知识、能力和素质的统一,形成了“厚基础、宽口径、强能力、高素质”为办学理念和“理工结合,注重应用,强化实践”的专业特色。 应用统计学本科专业课程实验项目1.应用回归分析(16学时): (1)SPSS软件介绍; (2)一元线性回归模型; (3)多元线性回归模型; (4)回归预测与残差分析; (5)变量筛选与逐步回归; (6)异方差的检验与处理; (7)多重共线性的检验与处理、岭回归; (8)非线性回归模型。 2.SPSS及应用(16学时): (1)初识SPSS软件; (2)SPSS基本运行程序及数据文件的建立和管理; (3)连续变量的统计描述与参数估计; (4)分类变量的统计描述与参数估计; (5)数据的图形展示; (6)方差分析; (7)非参数检验; (8)相关分析与回归分析。 3.SAS及应用(16学时): (1)SAS基础; (2)描述性统计量及图形; (3)区间估计与假设检验; (4)方差分析; (5)回归分析; (6)聚类分析; (7)多变量统计分析; (8)判别分析。 4.应用多元统计分析(16学时): (1)多元正态分布的参数估计; (2)多元线性相关分析、多元线性回归分析; (3)样品聚类、变量聚类; (4)距离判别、Fisher判别、Bayes判别; (5)主成分分析; 申请大学学士学位论文 大学 学士学位论文 统计学三大分布与正态分布的差异年级专业: 学生: 指导教师: 统计学三大分布与正态分布的差异 中文摘要 统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策者提供依据和参考。它被广泛的应用在各门学科之上,从物理和社会科学到人文科学,甚至被用来工商业及政府的情报决策之上。而对数据的分析过程中就需要利用到数据的分布来研究分类。 在实际遇到的许多随机现象都服从或近似服从正态分布。而由正态分布构造的三大分布在实际中有广泛的应用,因为这三大分布不仅有明确的背景,而且其抽样分布的密度函数有明显表达式,研究三大分布与正态分布有助于研究实际事例,比如经济安全与金融保险领域、人口统计等。 本文讨论了三大分布与正态分布,并将它们之间的密度函数进行比较说明. 第二章介绍了正态分布的定义、性质,三大分布的定义、性质。 第三章介绍了正态分布与三大分布的密度函数,并将它们之间的密度函数进行比较关键词:正态分布;三大分布;密度函数 The Difference between the Three Statistical Distributions and the Normal Distribution Abstract Statistics is a branch of applied mathematics, the mathematical models are mainly established by the probability and statistics theory based on the collecting应用统计学试题和答案分析
统计学三大分布与正态分布的关系
常用医学统计学方法汇总
应用统计学
《概率统计学》答案
应用统计学概念整理
概率论与数理统计学1至7章课后标准答案
三大抽样分布
统计学第5章概率论作业
应用统计学的基本概念
(完整word版)统计学三大分布与正态分布的关系
统计学常用分布及其分位数
统计学在生产生活中的应用
统计学三大分布及正态分布的关系
统计学常用分布
应用统计学专业简介
统计学三大分布与正态分布的差异