统计学教学材料
新版小学数学“统计与概率”板块梳理

注重统计活动过程的体验
调查班级同学完成课外作业的时间
时间 人数
15分以内
16-30分
31-45分
46-60分
61分以 上
统计不是“计算+制图制表”。
通过大量活动来获得对可能性的体验 拉近现实与理想的距离
对是否做概率实验的讨论
(1)不做,或者是少做概率实验的原因 第一,相信学生不用做他完全能够知道。 第二,有时做了反而就混乱了。
科学
语文
数学
科学
(学科)
(二)、科学地理解数学概念
平均数、众数及中位数的区别
(1)平均数:具有反应灵敏,严密确定,简明易 懂,计算方便,适合代数运算,受抽样变动的影 响较小等特点,而成为集中量中最重要的、最有 用的,但它易受极大或极小两极端数值的影响。 (2)中位数:真正代表“中等水平”,适用于数 据中有特大或特小两极端数值或个别数据不确切 等情形时。 (3)众数:三个集中量中最差的一个,但也具有 一定的优势:当需要快速而粗略地找出一组数据 的代表值时;当需要粗略判断频数分布形态时; 数据“没有好坏,只有适合”。
四、“统计与概率”的教学策 略 (一)恰当地定位教学目标
“统计与概率”教学的核心理念:让学生 经历并体验活动全过程,逐渐建立起统计 观念。
统计观念:能产生利用统计知识解决问题的 意识;能从统计角度思考与数据有关的问题; 能根据数据作出合理的决策;能对数据的来 源、收集和描述数据的方法及由数据得到的 结果提出合理的质疑。
培养 统计观念
统计活动
经历统计的 全过程
收集数据
整理并描述数据
分析数据 作出决策 统计量
调 查
实 验
查 找 资 料
拉普拉斯中心极限定理公式

拉普拉斯中心极限定理公式拉普拉斯中心极限定理是概率论中的一个重要定理,它探讨了随机变量和正态分布之间的关系。
该定理为计算概率提供了一个有效的途径,下面将对拉普拉斯中心极限定理的公式及相关参考内容进行介绍。
拉普拉斯中心极限定理的公式是:P(a ≤ X ≤ b) ≈ Φ((b-μ)/σ) - Φ((a-μ)/σ)其中,Φ代表标准正态分布的累积分布函数,X代表随机变量,a和b分别是随机变量X的上下界,μ是X的期望值,σ是X的标准差。
这个公式的含义是,随机变量X的取值在区间[a, b]内的概率约等于标准正态分布在区间[(a-μ)/σ, (b-μ)/σ]内的概率。
为了更好地理解和应用拉普拉斯中心极限定理,可以参考以下内容:1. 概率论教材:概率论教材是学习拉普拉斯中心极限定理的基础,其中会详细介绍该定理的证明过程和相关概念。
例如,《概率论与数理统计》(吴喜之、徐锡麟著)等教材可以提供相关内容的学习参考。
2. 概率论相关论文:在概率论领域的学术论文中,通常会对拉普拉斯中心极限定理进行更深入的研究和探讨。
阅读这些论文可以了解到该定理的应用场景、证明方法以及相关的数学推导。
如《Central limit theorem for dependent variables》(BuldyginV.V., Goncharov V.M.)等论文可以提供更深入的学术理解。
3. 统计学课程材料:拉普拉斯中心极限定理在统计学中的应用十分广泛,学习相关统计学知识能够更好地理解和应用该定理。
例如,学习相关统计学课程中的教材和课件,如《数理统计学教程》(吕士杰、房建华著)等,可以提供详细的解释和案例。
4. 数学论坛和社区:在数学论坛和社区中,有很多热心的数学爱好者和专家可以与您分享关于拉普拉斯中心极限定理的知识和经验。
通过与他们的交流和讨论,可以加深对该定理的理解和应用。
例如,在数学交流平台Math Stack Exchange中,可以搜索相关问题并阅读专家的回答。
统计学优势专业申报材料1

附件 1:山西省高等学校优势专业建设项目申报书学校名称山西财经大学(盖章)专业代码071201专业名称统计学负责人米子川填报日期2016年3月7日申报网址山西省教育厅高教处制二○一六年二月— 1 —填写说明1.申报书的各项内容要脚踏实地,真切靠谱。
文字表达要明确、简短。
所在学校应严格审查,对所填内容的真切性负责。
2.表中空格不够时,可另附页,但页码要清楚。
3.申报书限用A4 纸张打印填报并装订成册。
— 2 —一、基本状况1.本专业带头人基本状况性别男专业技术职务副教授能否属姓名米子川本专业是年纪48定职时间2004专职学位学历(从第一学历开始到最1991年 7 月毕业于山西大学数学系数理统计专业获学士学位,2003高学历学位,包含毕业时间、学年 6 月毕业于山西财经大学统计学专业获硕士学位,2012 年 6 月毕校、院系、专业)业于山西财经大学统计学专业获博士学位工作单位 ( 至院系、所)山西财经大学统计学院联系方式主要研究方向统计学近三年自己的教课、科研成就在国内外重要学术刊物上发布论文共 5 篇;第一版专著(译著等)1部。
目前肩负教课科研项目共 4 项;此中:国家级项,省部级 3 项。
获教课科研成就奖共项;此中:国家级项,省部级项。
近三年拥有教课科研经费共55 万元,年均万元。
近三年给本科生讲课(理论教课)共学时;指导本科毕业论文(设计)共15 人次。
序号项目种类、名称项目根源起讫时间经费肩负工作(万元)教 1目前承教 2担的教学、科研项目(近教 3三年,各限填 3科 1晋商商业遗产评论研究山西省教育2013-20165主持人项)厅山西省综改试验区建设评论指标体山西省教育2013-201640主持人科 2系设计与评论方法研究厅山西省工业公司成本构造状况研山西省经2015-2015主持人科 3究济普查办6— 3 —序号成就名称获奖时间获奖名称、等级签字位次教 1最具代表性的教 2获奖教学、科研教 3成就( 近三年,各限科 1填 3项)科 2科 3说明:“经费”指包含国家、省里投入经费和学校的配套经费。
体育统计学复习材料2013年

填空或判断:1、从性质上看,统计科分为两类:一类是描述性统计(主要针对事物的某些特征及状态进行实际的数量描述),另一类是推断性统计(通过样本的数量特征以一定的方式估计、推断总体的特征)。
2、体育统计的基本过程是:统计资料的搜集——统计资料的整理——统计资料的分析。
3、体育统计的研究对象除了体育领域的随机现象外,还包括非体育领域但于体育有着一定联系的其他系统的随机现象。
4、体育统计研究对象的特征:运动性特征、综合性特征、客观相特征。
5、现存总体又可分为有限总体和无限总体。
6、随机变量两种类型:一是连续型变量;二是离散型变量。
7、随机变量的规律主要体现在它的概率和分布两个方面。
8、收集资料的基本要求:资料的准确性、资料的齐同性、资料的随机性。
9、简单随机抽样分为:1、抽签法2、随机数表法。
10、P27原始变量的平均数的计算公式:x=A+x’’*I=A+∑fd/∑f*I11、P30标准差的直接求法:√∑x2-(∑x)2/n/-112、P32标准差的简捷求法:13、P37变异系数(CV)其数学表达式为:CV=S/x-*100%14、对于任一均数为μ,标准差σ的随机变量X的正态分布,都可以作一个变量代换,即u=x-μ/σ.可替换为u=x—x-/S.15、标准正态分布的峰值出现在μ=0处,U变量服从参数为μ=0,σ=1的正态分布,记为U~N(0,1^2).16、P74综合评价模型的分类及其公式:1平均型综合评价模型公式:W=∑xi/n.2加权平均型综合评价模型公式:W=∑kixi (∑ki=1)17、P75几种同一变量单位的方法及公式:1、U分法公式u=x—x-/S 2、Z分法3、累进计分法公式y=kD^2-Z 4、百分位数法xi成绩的百分位数=(xi-组下限)组内数/组距+组前累计频数/n*100%。
18、统计推断的基本任务两点:一是用样本统计量来估计总体参数,即参数估计;二是通过样本的统计指标来判定总体参数是否相等的问题,即假设检验。
第五章统计学课后答案

第十章一、选择题1。
某企业计划要求本月每万元产值能源消耗率指标比去年同期下降5%,实际降低了2。
5%,则该项计划的计划完成百分比为( D )。
A. 50。
0% B 97。
4% C. 97.6% D. 102。
6%2.下列指标中属于强度相对指标的是( A )。
A.产值利润率 B。
基尼系数C。
恩格尔系数 D。
人均消费支出3. 下列指标中属于狭义指数的是( A )。
A。
某地区本月社会商品零售量为上月的110%B。
某地区本月能源消耗总量为上月的110%C.某地区本月居民收入总额为上月的110%D。
某地区本月居民生活用水价格为上月的110%4。
若为了纯粹反映价格变化而不受销售量结构变动的影响,计算价格总指数时应该选择的计算公式是( A )。
A。
拉氏指数 B.帕氏指数 C。
马埃指数 D.理想指数5. 与帕氏质量指标综合指数之间存在变形关系的调和平均指数的权数应是( B ).A。
q0p0 B. q1p1 C。
q1p0 D. q0p16. 为了说明两个地区居民消费水平之间的差异程度,有关指数的计算最好采用( C ).A。
拉氏指数 B.帕氏指数 C。
马埃指数 D.理想指数7. 同样数量的货币,今年购买的商品数量比去年减少了4%,那么可推断物价指数为( D )。
A。
4。
0% B。
104% C。
4。
2% D. 104。
2%8.某公司报告期新职工人数比重大幅度上升,为了准确反映全公司职工劳动效率的真实变化,需要编制有关劳动生产率变化的( B )。
A.总平均数指数 B。
组平均数指数C。
结构影响指数 D.数量指标综合指数9.某地区报告年按可比价格计算的工业总产值为基年工业总产值的110%,这个指数是一个( C)。
A。
总产值指数 B。
价格指数C。
工业生产指数 D.静态指数10。
我国深证100指数将基期价格水平定为1000。
若某周末收盘指数显示为1122,此前一周末收盘指数显示为1100,即表示此周末收盘时股价整体水平比一周前上涨了( A )。
关于“医学统计学教学模式改革”的成果总结_申报材料.doc

关于“医学统计学教学模式改革”的成果总结_申报材料教育是科技进步和经济振兴基础,在全国上下贯彻落实《中国教育发展改革和发展纲要》《中国共产党中央国务院关于深化教育改革全面推进素质教育决定》和全国教育工作会议精神今天,高等教育为适应这一新形式,推进素质教育,培养大批高质量、高素质各类专门人才已进行着多方面改革。
众所周知,医学是理论性、实践性很强学科。
医学统计学更是一门既有复杂理论知识,又有丰富应用技巧医学专业基础课程。
它是科研设计、资料搜集、整理和分析灵魂,应用于居民健康状况评价、医疗卫生实践和医学科研,涉及基础医学、临床医学、预防医学等多学科领域。
其教学内容贯穿于研究设计到论文撰写全过程。
如何适应新形势,迅速推广医学统计学基础知识,在满足医学科研需要同时实现医学统计学自身发展,是医学统计教育面临重要课题。
我国医学统计教育面临主要问题是:①教学对象数学基础普遍较差,教学手段落后。
②医学研究进一步向宏观和微观发展,信息数据更加复杂化、多元化和大数量化。
我们利用多媒体计算机辅助教学CAI系统具备较好独立性、可参与性与知识全面、系统性,以及多媒体组合高效性等诸多优点,解决了上述问题。
利用多媒体技术,我们可以让学生做到“所学即所见、所闻即所学”,适当拓宽内容深度和广度,提高灵活性,大大增强学生参与感和实践能力,以创造传统教学手段所达不到效果。
同时,还可利用计算机对学生学习进行评估并决定进度,实现因材施教。
进入21世纪以后,信息技术飞速发展,现代统计工具从计算器发展到计算机为主,能应用相关统计软件处理医学科研数据已成为必备能力。
否则,一方面有人不懂得选用正确统计方法,使大量信息和统计数据得不到有效利用;另一方面又盲目使用计算机和统计软件,不管是什么研究类型数据都简单地交给计算机处理,用计算机取代统计,势必造成大量统计方法滥用和误用。
医学研究许多数据关系到病人治疗、转归,甚至生死,统计方法误用会导致严重论理问题。
独立性检验的基本思想及其初步应用教学设计-【通用,经典教学资料】
3.2.1 《独立性检验的基本思想及其初步应用》教学设计【教学目标】1.知识与技能:通过对典型案例的探究,了解独立性检验的基本思想,会对两个分类变量进行独立性检验,明确独立性检验的基本步骤,并能解决实际问题。
2.过程与方法:通过设置问题,引导学生自主发现、合作探究、归纳展示、质疑对抗,使学生成为课堂主体。
3.情感、态度与价值观:通过本节课学习,让学生体会统计方法在决策中的作用;合作探究的学习过程,使学生感受发现、探索的乐趣及成功展示的成就感,培养学生学习数学知识的积极态度。
【教学重点】了解独立性检验的基本思想及实施步骤。
【教学难点】独立性检验的基本思想;随机变量2K的含义。
【学情分析】本节课是在学习了统计、回归分析的基本思想及初步应用后,利用独立性检验进一步分析两个分类变量之间是否有关系,为以后学习统计理论奠定基础。
【教学方式】多媒体辅助,合作探究式教学。
【教学过程】一、情境引入,提出问题请看视频:[设计意图说明]好的课堂情景引入,能激发学生的求知欲,是新问题能够顺利解决的前提之一。
问题1、你认为吸烟与患肺癌有关系吗?怎样用数学知识说明呢?[设计意图说明]提出问题,引导学生自主探究,指明方向,步步深入。
二、阅读教材,探究新知1.分类变量对于性别变量,其取值为男和女两种:[设计意图说明]利用图像向学生展示变量的不同取值,更加形象的表示分类变量的概念。
这种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量。
生活中有很多这样的分类变量如:是否吸烟宗教信仰国籍民族……2.列联表为研究吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果:表3—7 吸烟与患肺癌列联表单位:人不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965究每个分类变量只取两个值,这样的列联表称为22 列联表)。
问题1、吸烟与患肺癌有关系吗?由以上列联表,我们估计①在不吸烟者中患肺癌的比例为________;②在吸烟者中患肺癌的比例为。
北师大版数学八年级上册1《平均数》教学设计1
北师大版数学八年级上册1《平均数》教学设计1一. 教材分析《平均数》是北师大版数学八年级上册第一单元第一课的内容。
本节课的主要内容是让学生理解平均数的含义,掌握求平均数的方法,并能够应用平均数解决实际问题。
教材通过生活中的实例引入平均数的概念,让学生感受平均数在实际生活中的应用。
二. 学情分析学生在七年级已经学习了统计学的初步知识,对数据有一定的认识。
但是,对于平均数的概念和求法还不够清晰。
通过本节课的学习,学生应该能够理解平均数的含义,掌握求平均数的方法,并能够应用平均数解决实际问题。
三. 教学目标1.知识与技能:理解平均数的含义,掌握求平均数的方法,能够应用平均数解决实际问题。
2.过程与方法:通过实例引入平均数的概念,培养学生从实际问题中抽象出数学模型的能力。
3.情感态度与价值观:培养学生对数学的兴趣,提高学生运用数学解决实际问题的能力。
四. 教学重难点1.重点:理解平均数的含义,掌握求平均数的方法。
2.难点:从实际问题中抽象出数学模型,应用平均数解决实际问题。
五. 教学方法采用问题驱动法、实例教学法、合作学习法等教学方法。
通过实例引入平均数的概念,引导学生主动探索求平均数的方法,培养学生从实际问题中抽象出数学模型的能力。
同时,学生进行合作学习,提高学生的团队协作能力和沟通能力。
六. 教学准备1.教学PPT:制作教学PPT,包括教材中的实例、问题、练习等内容。
2.实例材料:准备一些生活中的实例,用于引导学生理解平均数的概念。
3.练习题:准备一些练习题,用于巩固学生对平均数的理解和掌握。
七. 教学过程1.导入(5分钟)利用PPT展示一些生活中的实例,如班级同学的身高、体重等数据,引导学生关注这些数据,并提出问题:如何描述这些数据的平均水平?2.呈现(10分钟)通过PPT呈现平均数的定义和求法,让学生了解平均数的概念,并学习如何求平均数。
同时,引导学生思考:平均数在实际生活中有什么应用?3.操练(10分钟)让学生分组进行合作学习,每组选择一个实例,运用平均数的方法求解。
高级统计专业技术业绩材料
高级统计专业技术业绩材料
以下是一个高级统计专业的技术业绩材料示例:
1. 在过去的5年里,我作为首席数据分析师成功领导并完成了多个大型数据分析项目。
这些项目涉及到从数据收集和清理到模型开发和结果解释的全过程。
通过我的指导,团队成功提供了准确、可靠和有洞察力的数据分析结果,帮助客户做出战略决策。
2. 我在数据可视化方面有深入的研究和实践经验。
我熟练运用各种数据可视化工具和技术,如Tableau、Power BI等,将复杂的数据转化为直观的图表和图形,帮助用户更好地理解数据和发现隐藏的模式和趋势。
3. 我具备扎实的统计学基础和熟练的统计分析技能。
我熟悉各种统计方法和模型,包括回归分析、时间序列分析、聚类分析等,能够根据具体问题选择合适的方法,并对结果进行解释和解读。
我还能够运用编程工具如R和Python进行统计分析和建模。
4. 我在数据挖掘和机器学习领域也有一定的经验。
我曾经参与过多个机器学习项目,包括预测模型的开发、特征工程、模型评估等。
通过运用机器学习的技术,我成功地帮助客户实现了精准营销、风险评估和异常检测等目标。
5. 我具备良好的沟通和团队合作能力。
在过去的项目中,我和团队成员紧密合作,有效地完成了各自的任务,并能够清晰地传达分析
结果给非技术人员。
我还能够与客户进行有效的沟通,理解他们的需求并提供解决方案。
以上是我在高级统计专业的技术业绩材料,展示了我在数据分析、数据可视化、统计学和机器学习方面的专业能力和经验。
希望这些材料能够展示出我在这个领域的价值和潜力。
质量统计学
质量统计学目录1 SPC的产生2 SPC的作用3 SPC常用术语解释4 持续改进及统计过程控制概述a 制程控制系统b 变差的普通及特殊原因c 局部措施和对系统采取措施d 过程控制和过程能力e 过程改进循环及过程控制f 控制图5 管制图的类型6 管制图的选择方法7 计量型数据管制图a 与过程有关的控制图b 使用控制图的准备c X-R 图d X- s 图e ˜X- R图f X-MR图8 计数型数据管制图a p 图b np 图c c 图d u 图SPC的产生工业革命以后,随着生产力的进一步发展,大规模生产的形成,如何控制大批量产品质量成为一个突出问题,单纯依靠事后检验的质量控制方法已不能适应当时经济发展的要求,必须改进质量管理方式。
于是,英、美等国开始着手研究用统计方法代替事后检验的质量控制方法。
1924年,美国的休哈特博士提出将3Sigma原理运用于生产过程当中,并发表了著名的“控制图法”,对过程变量进行控制,为统计质量管理奠定了理论和方法基础。
SPC的作用1、确保制程持续稳定、可预测。
2、提高产品质量、生产能力、降低成本。
3、为制程分析提供依据。
4、区分变差的特殊原因和普通原因,作为采取局部措施或对系统采取措施的指南。
SPC常用术语解释制程控制系统有反馈的过程控制系统模型过程的呼声人设备材料方法产品或环境服务输入过程/系统输出顾客的呼声变差的普通原因和特殊原因普通原因:是指过程在受控的状态下,出现的具有稳定的且可重复的分布过程的变差的原因。
普通原因表现为一个稳系统的偶然原因。
只有过程变差的普通原因存在且不改变时,过程的输出才可以预测。
特殊原因:(通常也叫可查明原因)是指造成不是始终作用于过程的变差的原因,即当它们出现时将造成(整个)过程的分布改变。
只用特殊原因被查出且采取措施,否则它们将继续不可预测的影响过程的输出。
局部措施和对系统采取措施局部措施通常用来消除变差的特殊原因通常由与过程直接相关的人员实施通常可纠正大约15%的过程问题对系统采取措施通常用来消除变差的普通原因几乎总是要求管理措施,以便纠正大约可纠正85%的过程问题控制图上控制限中心限下控制限1、收集收集数据并画在图上2、控制根据过程数据计算实验控制限识别变差的特殊原因并采取措施3、分析及改进确定普通原因变差的大小并采取减小它的措施重复这三个阶段从而不断改进过程管制图类型控制图的选择方法计量型数据控制图使用控制图的准备1、建立适合于实施的环境a 排除阻碍人员公正的因素b 提供相应的资源c 管理者支持2、定义过程根据加工过程和上下使用者之间的关系,分析每个阶段的影响因素。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 第七章 方差分析 前面谈到,t检验适合于对定距(或定比)数据服从正态分布的两个样本的平均数差异性检验以判断两个样本是否来自两个不同的总体。当我们对两个以上的组别或试验条件进行平均数差异性检验时,我们就面对两个以上的样本,这时t检验就不合适了。这是因为如果对多个样本分别进行两两检验,那么犯第一类错误(type I error)的概率就会比我们预想的大,样本平均数差异的“显著性”就被夸大(Woods et al., 2000: 194)。比如,我们设定= .05,那么t检验拒绝零假设出错的概率就为5%,或者说犯第一类错误的概率是5%。当我们多次使用两两检验时,发生第一类错误的概率就为1-(1-)c(c为t检验的次数)(韩昭,2004:170)。如果我们要进行2次t检验,产生第一
类错误的概率就为1-(1-0.05)2 = 0.0975;进行3次t检验产生第一类错误的概率为1-(1-0.05)3 = 0.1426,如此等等。由此可见,重复t检验的次数越多,犯第一类错误的概率就越大。除非我们把显著性水平a设得更低,否则我们就不能容忍t检验造成的第一类错误。因为概率水平被反复使用就会很难解释,统计学家创造了其它分析形式(t以外的形式),便于在处理各种多重比较时保持概率水平稳定(Brown, 1992: 647)。如果我们想把总体显著水平(overall significance level)控制在某一数值(比如= .05)上,并且希望对两个以上的组别或试验条件进行一次性的平均数差异检验,那么我们就要求 助于方差分析了。
7.1 方差分析的基本原理
方差分析的英文表达是analysis of variance,简称ANOVA。方差分析是一个总称,包括单项方差分析(One-Way ANOVA)、双向方差分析(Two-Way ANOVA)、多变量(多元)方差分析(Multivariate ANOVA,MANOVA)、重复测量方差分析(Repeated Measures ANOVA)、协方差分析(Analysis of Covariance,ANCOVA)和多变量(多元)协方差分析(Multivariate Analysis of Covariance,MANCOVA)等。不同类型的方差分析,其原理也不尽相同,需要分别讨论。这里,只简单介绍不同类型的方差分析的共性特点。 方差分析将(第一类错误的概率)控制在预先设定的水平,用于同时检验3组或3组以上平均数的差异,可以回答一个组的平均数是否显著地不同于同类数据中的其它一个或多个组的平均数。方差分析利用方差的可分解性,将总方差(tSS,t是total的缩称)分解成两大部分。一个是组内方差(within-group variance, wSS,w是within groups的缩称)。组内方差有时又叫误差(error)或残差(residual),用eSS表示。另一个是组间方差,常用bSS表示(b是between groups的缩称)。组间方差还可以进一步分解为不同来源的方差。总自由度也被相应地分解成若干部分。方差分析计算出各变异来源的均方(方 2
差与对应自由度的比值)与误差均方(误差与对应自由度的比值)比值,借助F分布表作出统计推断,判断各因素(和交互作用因素)的各组均数之间有无显著性差异。 同t检验一样,方差分析也是参数检验方法。进行方差分析,有3个基本的必要条件:○1因变量(dependent variable)是定距或定比变量,即连续型变量。自变量(independent variable)是名义或类别变量;○2总体呈正态分布;○3总体方差齐性。下面重点讨论2种方差分析:单向方差分析和双向方差分析。
7.2 单向方差分析 7.2.1 单向方差分析的基本概念 单向方差分析(One-Way ANOVA)又称单因素方差分析,是最简单的方差分析方法。所谓的单向(One-Way)就是分析数据中只有一个自变量(又叫因素)。在完全随机化的(completely randomized)单向方差分析中,有3个方差:总方差(tSS)、组间方差(bSS)和组内方差(wSS,即误差)。3个方差之间的关系是:wbtSSSSSS。各个方差的计算公式及自由度为: 2()gtijSSxx(1nkdft),bSS2[()]groupgnxx
(1bdfdf=1k),wSS= 2()jijxx(2dfdfw=)1(nk)。 公式中,n是独立样本的容量,k是处理组数,groupx是各个独立组样本观测值的平均数,gx(g是grand的缩称)是各个独立组所有观测值的平均数,ijx是第j组第i个数值,jx是第j组观测值的平均数。在实际计算中,我们只需求出2个方差,再根据3个方差之间的数学关系就可以求出另一个方差。它们的均方公式为各自的方差除以各自的自由度:
1nkSSMStt,1kSSMSbb,)1(nkSSMSww
(tMS代表总均方,bMS代表组间均方,wMS代表组内均方),也可以写成: 2()1ijgtxxMSnk
,bMS=2[()]1groupgnxxk
,wMS= 2()(1)jijxxkn。
单向方差分析除了要求满足方差分析的一般条件之外,还要求各组独立且各观测值独立。单向方差分析中,F统计量为组间均方与组内均方(即误差均方)之比:
F=wbMSMS。 当零假设成立时,F统计量服从自由度为1df=1k、2df=)1(nk的F分布。F统计量检验只能告诉我们在比较的各组(比如3组)平均数中是否至少在两个组之间有显 3
著差异性存在,但是不能告诉我们显著差异性具体表现在哪个或哪些成对组之间。因此,当方差分析发现不同组之间有显著性差异时,如果我们想要准确知道显著性差异的位置,我们就需要利用事后多重比较(post hoc multiple comparisons)。组间配对比较的次数
为2)1(kk。譬如,如果自变量有3个水平,则需要比较的配对数为3对。事后多重比较的方法有多种,本书介绍最为常用的一种方法—Scheffe检验(the Scheffe test)。 Scheffe检验可控制整体水平,具有很强的稳健性(robust),也是最为保守的事后比较方法之一。如果两组数值的平均数差异的绝对值大于Scheffe检验临界值,我们可以认为两组平均数有统计上的显著差异存在。相反,如果两组数值的平均数差异的绝对值小于Scheffe检验临界值,我们则可以认为两组平均数没有统计上的显著差异。计算Scheffe临界值的公式为:
)11()1(A)2,1(BwdfdfannMSFkCV。
其中,CV(critical value)代表Scheffe临界值,k是处理组数(自变量的组数或水平),)2,1(dfdfaF是在a水平上来自自由度为1df=1k、2df=)1(nk(如果各组样本容量不等,
则2df=knnnk)(21)的F分布的一个值,wMS代表组内均方差,An和Bn分别表示比较的两个独立样本的容量(如果样本容量相等,可用n代替An和Bn),
)11(BAwnnMS是Scheffe法平均数标准误差,与各独立样本容量的大小有关。当各组
样本容量相等时,各配对比较的样本平均数的标准误差相等。当ABxx大于(或等于)CV时,可以断定A 和B两组的平均数有显著性差异。相反,如果ABxx小于CV,则认为A和B两组的平均数没有显著性差异。 为了计算的方便,下面的例子采用小样本。在实际的研究中,要采用更大的样本,并要在SPSS统计中对样本进行方差齐性检验。
7.2.2 单向方差分析应用举例 【问题7.1】某高校英语教师对理科、文科和英语专业各10名大学一年级学生进行了听力水平测试(满分为20分),成绩如下: 文科组(组1)听力成绩:13 12 15 13 12 11 10 8 7 5 理科组(组2)听力成绩:17 16 15 14 14 11 13 12 10 8 英专组(组3)听力成绩:16 18 12 15 13 10 16 15 17 18 试问:3个不同专业的学生听力成绩是否有显著的差异? 本题涉及3个不同类型组在同一个连续性因变量(听力成绩)方面的比较,符合单向方差分析的条件。 【解】已知:10n,k=3。根据原数据求得:gx=12.8667,1groupx=10.6,2groupx=13,
3groupx=15。将结果代入公式,求得 4
bMS=2[()]1groupgnxxk
=13])8667.1215()8667.1213()8667.126.10[(10222= 48.533,
wMS=2()(1)jijxxkn=)110(3)1518()1517()6.1012()6.1013(2222 = 8.089。 根据F统计量公式,求得
F=wbMSMS=089.8533.48= 6。 根据= .05, 1df=1k= 2,2df=)1(nk= 27,查F分布表,得到临界值)27,2(05.0F3.35。统计量F= 6 >)27,2(05.0F3.35,所以p< .05,拒绝零假设,即认为3个
组之间有显著的差异。 本题中各独立样本的容量相等,所以各组配对比较时的Scheffe临界值相等。我们知道10n,k=3,)27,2(05.0F3.35,wMS= 8.089,据此我们求得Scheffe临界值:
)11()1(A)2,1(BwdfdfannMSFkCV
= )101101(089.835.3)13( = 2.58841.2719 = 3.292。 本例中需要比较的3组平均数差异的绝对值分别是:12xx = 2.4,23xx = 2,
13xx = 4.4。只有组1和组3平均值差异(组3高于组1)有显著性意义,我们可以
得出结论:英专学生的听力成绩明显好于文科学生,但是与理科学生没有显著差异;文科学生与理科学生的听力成绩没有显著差异。
7.2.3 单向方差分析的SPSS操作 【问题7.2】利用【问题7.1】中提供的数据,操作SPSS对3个不同专业的学生的听力成绩进行差异显著性检验,并对第1、2组与第3组听力成绩进行差异显著性检验。 操作步骤如下:
第一步 将【问题7.1】中提供的数据按自变量(变量名为gro,表示组别)和因变量(变量名为englisten,表示英语听力成绩)输入SPSS数据窗口,部分结果如图7.1所示。