高中数学第三章统计案例3.1独立性检验假设检验(hypothesistesting素材苏教版选修2_32

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

假设检验(hypothesis testing)

方法演变:t检验、z检验、F检验、卡方检验,方差分析( ANOVA)

➢概述

假设检验是分析数据的一种方法。回答此类问题:“随机发生的事件的概率是多少?”另一方面的问题是:“我们从数据中发现的结果是真的吗?”当问题是有关大的总体而只能得到总体的一个样本时用假设检验。这种方法被用来回答在质量改进中一系列重要的问题,如“我们在过程中所做的改变对产出创造了有意义的差别吗?”或”顾客对场地A的满意度是不是比其他场地高?”

最常用的检验是:z检验、t检验、F检验、卡方(χ2)检验和方差分析。这些检验和其他的检验都是基于均值、方差、比例及其他统计量所形成的具有常见模式的频率分布。最有名的分布就是正态分布,它是:检验的基础。t检验、F检验和卡方(χ2)检验是基于t分布、F分布和卡方分布。

➢适用场合

·想知道一组或更多组数据的平均值、比例、方差或其他特征时;

·当结论是基于更大总体中所取得的样本时。

例如:

·想确定一个过程的均值或方差有否改变;

·想确定很多数据集的均值或方差是否不同:

·想确定两组不同的数据集的比例是否不同;

·想确定真正的比例、均值或方差是否和一个定值相等(或大于或小于)。

➢实施步骤

假设检验的步骤由三部分组成:理解要解决的问题并安排检验(以下步骤1~3);数字计算通常由计算机完成(步骤4和步骤5);应用数值结果到实际问题中(步骤6)。虽然计算机能处理数字,但理解假没检验隐含的观念对第1部分和第3部分至关重要。

如果第一次接触假设检验,那么从看“注意事项”中的术语和定义开始。这些定义解释了假设检验的慨念,然后再回来看这个步骤。

本书不可能详细地涉及假设检验。这个步骤是个综述和快速参考。要得到更多的信息,查阅统计学参考书或请教统计学家。

1确定要从数据中获得的结论。选择适当的检验方法。用哪种检验取决于检验的目的和数据的种

类。可以用表5.7和表5.8概括的常用的假设检验,或者请教统计学家以得到帮助。

2建立零假设和备择假设。确定问题是属于双尾检验、左尾检验还是右尾检验。

3选择显著性水平。。

4计算检验统计量,可借助计算机软件。

5用统计分布的统计表或计算机程序等来确定检验统计量的P值。对于z检验可用表A.1正态曲线以下的曲线。

6把P值与左尾或右尾检验的α或者双尾检验的α/2作比较,如果P值较小,那么拒绝零假设并会得到备择假设可能正确的结论。否则,不能拒绝零假设,并得出没有足够证据支持备择假设的结论。

➢备择步骤

步骤1~4同上。然后:

5用统计表或计算机程序确定如下所示的检验统计量的临界值和拒绝域。以z检验作为示例,对t检验、F检验或卡方检验,用统计量f、F或χ2来替换z。

6比较检验统计量和拒绝域。如果检验统计量值落在拒绝域内,拒绝零假设,结论是备择假设可能止确。否则,不拒绝零假设,结论是没有足够的证据支持备择假设。

➢示例:t检验

一家食品杂货店从一供应商处购买几箱苹果,每箱质量为50磅(1lb=0.455kg),固定价格。供应商保证每箱的平均质量确实是50磅。产品小组随机抽取10箱称量。质量分别为:

50.1 49.6 50.3 49.9 49.5 49.7 50.0 49.6 49.7 50.2

杂货店受骗没有?

统计上讲,产品小组的问题是:“我们接受的苹果箱的平均质量少于50磅吗?”零假设是“苹果箱的平均质量等于50磅”,备择假设是“苹果箱的平均质量小于50磅”计划用5%的显著

性水平。

在表5.7中找均值与给定的值作比较的检验。σ未知,样本容量小于30个,假设箱子的质量服从正态分布。因此用t检验。因为备择假设是“小于”,所以需要左尾检验。

向在线计算器中输入数据得到以下结果:

样本均值= 49.86 标准方差=0.28 t=-1.583 P=0.07

因为P值大于0.05,所以不能拒绝零假设,没证据表明他们受骗。图表5.99显示了t分布,检验统计量t=-1.583,曲线下这个值以外的区域是P=0.07。

用备择步骤,从t表中确定a=0. 05,自由度为9,临界值为t

a

=-1. 833。因为是左尾检验,拒绝域是任何小于-1. 833的z值。检验统计量为-1.583,没有落在拒绝城,所以不拒绝零假设。

图表5.100显示了t分面、临界值、拒绝域和曲线下相等于a=0. 05的区域。两幅图的比较表明两个实施步骤如何以不同方式得到相同结论的过程。对左尾情况,只要检验统计量t大于临

界值t

a ,曲线下t值左边的区域即P值就比a大,a就是曲线下t

a

左边的区域。

➢示例:卡方检验1

一家服装零售商想了解其提议的生产线的变化是否会在不同地区被同样地接受。

他们随机挑选了750名顾客,描述了提议的新产品,然后让顾客估计购买的可能性。他

们按地理位置对数据分组,建立了五行、四列的关联表,见图表5.17的关联表。

从表5.8看出,卡方检验是最合适的,比较了各组的分布。这种检验总是有尾的。零假设可陈述为“五个地区的顾客在购买可能性分布上没有差异”,备择假没是“五组购买的可能性分布有差异”。

选择显著性水平为5%,计算出自由度为df=12。大多卡方表按备择步骤设计,可以查询a或l -a,读取临界值。对a =0. 05和df=12来说,χ2临界值为21.026。如果检验统计量大于它就拒绝零假设。

用电子制表软件计算每一单元的E。E代表着零假设为真时的期望值,也就是每个地区的购买可能性分布和整体分布一样时的期望值。接着计算每单元的(O-E)2÷E,加起来得到检验统计量χ2=22. 53,比临界值21. 026大,所以拒绝零假设。购买可能性分布随区域而不同。

这个检验等同于检验两个变量是否独立。结果表明地理区域和购买可能性两个变量不独立。已知顾客所在的地区就能预测他是否更有可能购买新生产线。

➢另一示例:卡方检验2

相同的零售商计划改变产品目录的格式和风格并想了解新的格式是否会有效提高订单。作为测试,他们随机挑选顾客送出去200 000本新春装目录册,另外1 800 000本目录册是传统版本。参考关联表例子,用图表5. 18的2×2的关联表来组织数据。

卡方检验比较两者的比例。零假设是“顾客从测试目录和从标准目录购买的比例相同。”

选用5%的显著性水平。比较比例,自由度就是l。a=0. 05和df=1时,χ2临界值为3. 841,检验统计量χ2=278。因此拒绝零假设,结论是顾客从新格式目录和从旧目录购买的比例显著不同。

➢注意事项

·和许多学科一样,统计学有自己专门的语言表达常用的概念。以下是在实施步骤中常用的定义术语:

检验:一种统计检验,如z检验、t检验、F检验或卡方检验。要知道选用哪种检验是实施步骤中最难的一部分,取决于数据的种类以及想从数据中得出结论的种类。

假设:陈述一事实,由检验证明或反驳。

:是想检验的假没,数据是随机的。称为“零”是因为通常(不总是)零假设意味着零假设,H

两组数据中或从数据中计算的参数与给定的值之间没有差异。

备择假设,H。:如果零假设为假,备择假设肯定为真。通常备择假设暗含数据来自真实的影响而非随机的。

统计量:表征样本数据某些方面的变量。平均数、均值、方差和比例都是统计量。

检验统计量:用来检验零假设的统计量。对每种检验都有一个公式表达适当的检验统计量。这样做如果零假设是真(数据随机),统计量就来自一有名分布,如z检验的正态分布。

相关文档
最新文档