关于高中数学教材中卡方检验公式的解释

合集下载

第十二讲卡方检验.

第十二讲卡方检验.
2 f ft 0.52 ft
例如:某区中学共青团员的比率为0.8,现从该区某中学随机抽取 20人,其中共青团员有12人,问该校共青团员的比率与全区是否 一样?
频数分布正态性的卡方检验
• 120个11岁男生身高的频数分布如下表 所示,问其总体是否呈正态分布?
X 1.9 , 3 X 9 7 .5
家庭经济 状况
对于报考师范大学的态度
愿意
不愿意
未定
上 18(20.53) 27(19.43) 10(15.03)
中 20(22.03) 19(20.58) 20(16.13)
下 18(13.44) 7(12.72) 11(9.84)
总和
56
53
41
总和
55 59 36 150
在双向表卡方检验中,如果是判断几次重复实验的结果是否相同,
这种卡方检验称为同质性卡方检验。
• 从甲、乙、丙三个学校的平行班中,随 机抽取三组学生,测得他们的语文成绩 如下表括号外面的数据所示。问甲、乙、 丙三个学校此次语文测验成绩是否相同?
甲 乙 丙 总和
及格
不及格
24(17.68) 10(16.32)
15(18.20) 20(16.80)
13(16.12) 18(14.88)
高级知 识分子 职员
工人
总和
对某种学制的态度
总和
赞成
反对 不定
14
18
20
52
22
10
12
44
12
7
10
29
48
35
42
125
• 某校高三物理考试成绩如下表所示,问 四个平行班的成绩是否有本质差异?
班别 一班 二班 三班 四班 总和

R×C表卡方检验

R×C表卡方检验
第三节 R×C表资料的 2检验
R×C表卡方检验的通用公式
多个样本率的比较 两组或多组构成比的比较
R×C表卡方检验应注意的问题
2019年9月30日
R×C列联表
前述四格表,即2×2表,是最简单的一种 R×C表形式。因为其基本数据有R行C列, 故通称R×C列联表(contingency table)
能认为三组病人中医分型的构成比不同。
2019年9月30日
四、R×C表2 检验应注意的问题
1. R×C表中,不宜有较多格子(1/5)的理论频数 小于5或理论频数小于1,否则易犯第一类错误。
出现某些格子中理论频数过小时: (1)增大样本含量(最好!) (2)删去该格所在的行或列(丢失信息!) (3)根据专业知识将该格所在行或列与别的行 或列合并。(丢失信息!甚至出假象) (4)计算R×C表的确切概率
2019年9月30日
表8-6 三种消化性溃疡住院病人四种证型的构成
中医分型 疗法 肝胃不和 胃阴不和 脾胃虚寒 寒热夹杂 合计
生胃宁素 7

中药组
4
15
29
37
88
12
16
19
51
西药组
3
5
15
37
60
合计
14
32
60
93
199
2019年9月30日
H0:三种疗法病人的中医分型总体构成相同( 疗法与证型无关)
将新复方和降压片分别与安慰剂比较(H0:药
物与安慰剂效果相同),此时应调整检验水准 为:
0.05 0.025
k1 31
2019年9月30日
(1) 新复方与安慰剂比较:列出表A,

卡方检验的基本原理

卡方检验的基本原理

卡方检验的基本原理卡方检验是一种常用的统计方法,用于判断两个或多个分类变量之间是否存在显著性关联。

它基于卡方统计量的计算,通过比较实际观察值与理论预期值之间的差异来判断变量之间的关系。

一、卡方统计量的计算卡方统计量的计算基于观察频数与期望频数之间的差异。

观察频数是指实际观察到的数据,而期望频数是指在假设条件下,根据总体比例计算出的预期值。

卡方统计量的计算公式如下:χ² = Σ (观察频数 - 期望频数)² / 期望频数其中,Σ表示对所有分类进行求和。

二、卡方检验的步骤卡方检验的步骤主要包括以下几个方面:1. 建立假设在进行卡方检验之前,需要先建立假设。

通常有两种假设,即原假设(H0)和备择假设(H1)。

原假设是指变量之间不存在显著性关联,备择假设是指变量之间存在显著性关联。

2. 计算卡方统计量根据观察频数和期望频数,计算卡方统计量。

根据计算得到的卡方统计量,可以判断变量之间的关系是否显著。

3. 确定自由度自由度是指可以自由变动的独立变量的个数。

在卡方检验中,自由度的计算公式为自由度 = (行数 - 1) * (列数 - 1)。

4. 查找临界值根据自由度和显著性水平,查找卡方分布表中的临界值。

显著性水平通常设定为0.05或0.01,表示在这个水平下,拒绝原假设。

5. 判断结果比较计算得到的卡方统计量与临界值,如果计算得到的卡方统计量大于临界值,则拒绝原假设,认为变量之间存在显著性关联;如果计算得到的卡方统计量小于临界值,则接受原假设,认为变量之间不存在显著性关联。

三、卡方检验的应用卡方检验广泛应用于各个领域,特别是在医学、社会科学和市场调研等领域。

以下是一些常见的应用场景:1. 健康调查卡方检验可以用于分析不同因素对健康状况的影响。

例如,可以通过卡方检验来判断吸烟与患肺癌之间是否存在显著性关联。

2. 市场调研卡方检验可以用于分析不同市场策略对销售额的影响。

例如,可以通过卡方检验来判断不同促销活动对销售额的影响是否显著。

高中卡方检验原理

高中卡方检验原理

高中卡方检验原理说起高中卡方检验原理,我有一些心得想分享。

你知道吗?在我们的生活中,经常会碰到一些要判断事物之间有没有关系的情况。

比如说,我们学校有两个社团,一个是绘画社,一个是音乐社。

我们想知道男生和女生对这两个社团的喜好有没有差异。

这时候呢,卡方检验就能派上用场了。

卡方检验啊,简单来说,就是看实际观察到的数值和理论上如果没有关系时应该出现的数值之间的差距有多远。

打个比方吧,假设我们认为男生和女生对两个社团的喜好是一样的,这就是我们的理论假设。

就好像我们觉得把一堆同样颜色和形状的球随机放到两个盒子(这里就好比是绘画社和音乐社)里,每个盒子里男女球的比例应该差不多。

但是呢,当我们实际去调查的时候,可能会发现绘画社里女生特别多,音乐社里男生比较多。

这就和我们当初假设的“应该差不多”有了差异。

这个差异要用一个数值来衡量,这就是卡方值。

卡方值越大,就说明实际观察值和理论值相差越远,也就越能说明男生和女生对两个社团的喜好是有关系的。

老实说,我一开始也不明白为啥要这么复杂地去计算这个关系。

后来我慢慢理解了,这就像是裁判在判断一场比赛是不是公平。

理论上的情况就像是比赛规则下理想的状态,而实际观察的情况则是场上真实发生的。

卡方检验就是这个裁判,来判定变量之间的关系是否显著。

说到这里,你可能会问,那这个卡方检验具体是怎么计算的呢?这就要说到公式了,不过公式理解起来还需要一些时间。

简单说呢,就是先根据理论假设算出每个格子(比如在我们这个例子里就是绘画社里男生、绘画社里女生、音乐社里男生、音乐社里女生这四个格子)的理论频数,然后用(实际频数- 理论频数)的平方除以理论频数,最后把所有格子的这个值加起来,得到卡方值。

那这个在实际中有啥用呢?比如说生物里研究不同环境下某种植物的生长情况是不是和某种昆虫的分布有关,或者社会调查中不同年龄段的人对某种政策的看法有没有差异,卡方检验都能帮我们判断这些变量之间是否有联系。

不过呢,我也知道我的理解肯定还有一定的局限性。

卡方检验

卡方检验
1、χ2分布是一个正偏态分布。随每次所抽 取的随机变量X的个数(n的大小)不同,其分 布曲线的形状不同,n或n-1越小,分布越偏 斜,df很大时,接近正态分布。当df→∞时, χ2分布即为正态分布。可见χ2分布是一族 分布,正态分布是其中一特例. 2、χ2值都是正值, χ2反映的是实际观察 次数与理论次数的差异程度, χ2越小,说 明实际观察次数与理论次数之间的一致性程 度越高。
某个所在行的边际和 该格所在列的边际和 n1 n2 fe 总次数 N
2×2列联表的独立性检验
例4 60名男生、50名女生数学成绩测验,成绩及格 情况是否与性别有பைடு நூலகம்?
及格 男 女 nj 43(44.73) 39(37.27) 82
不及格
ni
17(15.27) 60 11(12.73) 50 28 110
理论值按一定要求
例2 某校高一学生的作文成绩,90分以 上、80-89分、70-79分、60-69分、60 分以下者的比例为1:2:4:2.5:0.5,现 从该校高一学生中随机抽取60名学生的 作文成绩,90分以上的5人、80-89分的 16人、70-79分的21人、60-69分的14人、 60分以下的4人。根据这一调查资料, 推断该校报告的比例是否可靠。
C
2 N 2
例6 随机抽取200名学生的期末语文和数学考 试成绩,见下表,语文和数学成绩之间的相关 情况如何?
语文 成绩 上 中 下 总和 数学成绩 70分以下 70-80分 80分以上 7 28 15 10 73 27 13 22 5 30 23 47 总和 50 110 40 N=200
Χ2检验应用
2
检验在教育研究中的主 要用途有两个:
1、用于按一个分类标志 分类的资料, 检验各类实际观察次数 与理论次数 是否相符合,即适应性 检验; 2、用于按两个分类标志 分类的资料, 检验这两个分类标志( 或因素)之间 是否独立,即独立性检 验。

卡方检验原理和公式

卡方检验原理和公式

卡方检验原理和公式好嘞,以下是为您生成的文章:在咱们的统计学世界里,卡方检验可是个相当重要的角色。

它就像是一个超级侦探,能帮咱们找出数据背后隐藏的秘密。

先来说说卡方检验的原理。

想象一下,咱们有一堆数据,就像是一堆五颜六色的糖果。

卡方检验呢,就是要看看这些糖果的分布是不是符合咱们预期的模式。

比如说,咱们预期红色糖果应该占 30%,蓝色糖果应该占 50%,绿色糖果应该占 20%。

然后咱们实际数一数,发现红色的只有 20%,蓝色的有 60%,绿色的还是 20%。

这时候卡方检验就出马了,它要判断这种差异是纯属巧合,还是真的有什么不对劲的地方。

那卡方检验到底是怎么做到的呢?其实它是通过比较观察值和期望值之间的差异来判断的。

如果观察值和期望值相差不大,那可能就是随机波动,没什么大问题;但如果相差太大,那就得引起咱们的注意啦,可能有一些因素在影响着结果。

接下来,咱们聊聊卡方检验的公式。

卡方值= Σ(观察值- 期望值)² / 期望值。

这个公式看起来有点复杂,但是别怕,咱们慢慢拆解。

就拿一个班级的考试成绩来举例吧。

假设咱们预期这个班级的优秀率是 20%,良好率是 50%,及格率是 25%,不及格率是 5%。

然后实际统计下来,优秀的有 15 人,良好的有 40 人,及格的有 30 人,不及格的有 5 人。

这个班级一共 90 人。

那期望值分别就是 18 人(90×20%)是优秀,45 人(90×50%)是良好,22.5 人(90×25%)是及格,4.5 人(90×5%)是不及格。

然后咱们来计算卡方值,先算优秀这部分:(15 - 18)² / 18 ≈ 0.5 。

良好这部分:(40 - 45)² / 45 ≈ 0.556 。

及格这部分:(30 - 22.5)² / 22.5 = 5 。

不及格这部分:(5 - 4.5)² / 4.5 ≈ 0.111 。

第十二章卡方检验

第十二章卡方检验

果是:优8名、良20 良 20 21.5 2.25 0.10
名,中18名,差4名。中 18 21.5 12.25
试检验其评定的分布
差 ∑
4 50
3.5 50
0.25 —
与正态分布所期待的
2(3)0.05=7.81
结果有无显著差别?
0.57 0.07 6.53
例12-7:测得 551名学生的身高 如下表。试问学 生的实际身高是 否符合正态分布?
148-150 80 149 –1.21 .21540 .12746 70
145-147 25 146 –1.70 .09400 .05562 31
142-144 139-141
8 143 –2.29 .02890 .01710 9 4 140 –2.88 .00670 .00396 121
∑ 551 - -
551
身高 f0 ft
2
169-171 0.125
2
18
166-168 7 7
163-165 22 23 0.043
160-162 57 60 0.150
157-159 110 104 0.471
154-156 124 130 0.277 151-153 112 114 11 0.035
148-150 80 70
求2
df=k-3 =9-
3=6 2(6)0.05=12.6
第三节 独立性检验
• 定义:检验两个变量是独立的,还是相关 的 性。 质:二元分类资料的χ 2检验。 方法
r×c列联表的χ 2检验 2×2列联表的χ 2检验
一、r×c列联表的χ 2检验
例12-7:某小学三、四年级独立概括某种 教
nr nc

χ2值计算公式

χ2值计算公式

χ2值计算公式χ2值,全称为卡方检验统计量(chi-square statistic),是一种用于衡量观察值与理论值之间偏离程度的统计量。

它适用于分析两个或多个分类变量之间的关系,并判断这些变量是否独立。

在进行χ2值的计算之前,我们首先需要明确两个概念:观察频数和期望频数。

观察频数是指我们在实际调查或实验中观察到的各个分类变量的频数,而期望频数则是指根据某种假设或理论模型计算得到的各个分类变量的预期频数。

χ2值的计算公式如下:χ2 = Σ [(观察频数 - 期望频数)² / 期望频数]其中,Σ表示对所有分类变量进行求和运算。

假设我们有一个研究问题:想要了解男女性别与是否喜欢篮球之间是否存在关联。

我们进行了一项调查,共有1000名男性和1000名女性参与,他们被要求回答是否喜欢篮球。

我们将调查结果整理如下:喜欢篮球不喜欢篮球总计男性 600 400 1000女性 400 600 1000总计 1000 1000 2000我们可以根据以上观察频数计算期望频数。

在独立性假设(即男女性别与喜欢篮球之间无关联)下,我们可以使用以下公式计算期望频数:期望频数 = (各行总计× 各列总计) / 总样本数以男性喜欢篮球为例,其期望频数计算如下:期望频数= (1000 × 1000) / 2000 = 500同样地,我们可以计算其他分类变量的期望频数。

接下来,我们可以根据观察频数和期望频数,使用χ2值的计算公式计算出χ2值。

根据上述数据,我们可以得到如下计算过程:χ2 = [(600-500)²/500] + [(400-500)²/500] + [(400-500)²/500] + [(600-500)²/500] = 40在进行卡方检验时,我们需要根据自由度和显著性水平查找χ2临界值,以判断计算得到的χ2值是否显著。

自由度的计算公式为自由度 = (行数-1) × (列数-1)。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

关于高中数学教材中卡方检验公式的解释统计案例教学中如何让思路来得自然一些
王文彬
(江西省抚州市第一中学 344000)
2统计案例的教学内容主要有三项:线性回归、线性相关与独立性检验(检验).笔者在,教学中发现(所使用的教材是北师大版《高中数学选修教材2-3》),回归方程、相关系数公
2式与检验公式得出的思路在某些地方显得不自然,有突兀之感(人教版教材的这些内容与,
北师大版相近).如何让这些知识来得更自然一些,值得我们作进一步的探讨.
1.线性回归方程
为了说明问题,不妨将教材(指北师大版教材,下同)有关内容摘录如下: 设有个样本点,并设其线性回归方程为.这个(,),(,),(,)xyxyxy?nnyabx,,1122nn
点与回归直线的“距离”平方和为
n2 ? Qabyabx(,)(),,,,ii,1i
引入以下记号
nnn22,,,不难知道,
lxx,,()lxxyy,,,()()lyy,,(),,,xxixyiiyyi,,1,1i1iinnnn
,,从而 ()0xxxnx,,,,()0yyyny,,,,,,,,iiii,,11,,11iiii
n2,, ? Qabyyyabxbxx(,)()()(),,,,,,,,,,ii,,,1i22llxyxy2,, ? ()(),,,,,,,,?lnyabxlbyyxx,,llxxxx
lxy显然当且时,取最小值. 0b,,Qab(,)yabx,,,()0lxx
由此可得出的计算公式,由此可求出线性回归方程. ab,
在这里,教材通过求的最小值而得出的值,总体思路是比较自然的,但为
Qab(,)ab,
什么要将?改写成?,其中的原因却不易说清.为此我们可作如下改进:
22对于含有两个变量的函数,应通过配方将其化成形如“(常
数)”Qab(,)( )( )C,,的式子,这样,只要令两个括号都为零即可求出的最小值以及的值. Qab(,)ab,
n2222事实上, Qabyabxaybxyabx(,)(+222),,,,,,iiiiii,1i
nnnnn2222 ,,,,,
ynabxaybxyabx+222,,,,,iiiiii,,,,,11111iiiiinnnn222(常数) ,,,,,,naabxaybxbxyC222,,,,1iiiii,,,,1111iiiinn222,,,,,,
nanabxnaybxbxyC222,,1iii,,11ii
nn222 ,,,,,,naabxaybxbxyC(22)2,,1iii,,11ii
1
nn222,, naaybxbxbxyC2()2,,,,,,,,1iii,,,,11iinn22222,,naaybxybxnybxbxbxyC2()()()2,,,,,,,,,,,,1iii,,,,11ii
nn22222,,(常数)
naybxbxnxbxynxyC()()2(),,,,,,,,,,2iii,,,,11ii2n,,
xynxy),,iin,,22222,i1,,(常数) ,,naybxxnxbC()(),,,,,,,,i3n,,22,,,i1xnx,,i,,,i1,,
n22显然,如果有(可用数学归纳法证明),令两个中括号都为零即可得出xnx,,0,i,1i
的计算公式了. ab,
在高中数学教材必修3(北师大版)中介绍了一种方法:先将视为关于的一元二aQab(,)
bb次函数,看为何值时取最小值,再将视为关于的一元二次函数,看为何值时aQab(,)
取最小值,从而得出有关的计算公式.然而二元函数可以这样求其最小值这在中学阶段ab,
是缺乏理论依据的,因此不能从根本上为学生所接受.
2.线性相关系数
个数据,不论它们的线性相关程度如何,是否具有线性相关性,显然,对于任意给定的n
我们都可以用上述方法求得相应的线性回归方程.为使所建立的回归方程有意义,我们有必要在求出回归方程之前先对变量之间的线性相关程度作出一个判断.首先需要构造一个能合理度量线性相关程度的模型或公式,其次需要知道按所构造的公式计算出来的值多大时,相关程度才比较高.对于前者,教材利用?式得到
22llxyxyQabll(,)(1),,,, minyyyylllxxxxyy
2lxy2r,,101r,1r如令,因Qab(,)0,,故,而且当接近时,上式接近,minllxxyy
这表明相关程度越高,反之越低.故将作为度量两个变量之间的相关程度是合理的,称之r
为相关系数.
可以看到,在已有?的前提下,这样得出相关系数公式,思路是比较自然的.问题在于我们对?的来源心存疑问,故按这个思路心中总有一个解不开的疙瘩.其实稍作变化即可有效克服这一点:
由于,故 aybx,,
nn22
Qabyabxyybxbx(,)()(),,,,,,,,,iiii,,11iinnnn2222,, ,,,,()()yybxx,,,,,,,bxxbxxyyyy()2()()(),,,,iiiiii,,,,,,1111iiii
nnn22再令,,,则上式就可变为
lxx,,()lxxyy,,,()()lyy,,(),,,xxixyiiyyi,,1,1i1ii2Qablblbl(,)2,,, ? xxxyyy
其最小值为
2
22244lllll,xxyyxyxyxy. Qabll(,)(1),,,,,minyyyy4llllxxxxxxyy
n
xynxy,),iillxyxyi,1从?式知,当时,取最小值.容易验证,即这里
b,,b,Qab(,)n2ll2xxxxxnx,,ii,1
b得到的有关的计算公式与前面所得公式是一致的,而且显得更为简洁.
实践证明,这时引进记号不仅显得自然,而且能够使学生产生一种简单性的lll,,xxxyyy
美感.
至于第二个问题,即的值到底多大时,两个变量才具有线性相关性,教材没有作任何r
2介绍,笔者认为应像教材介绍“检验”那样,给出一个具体的判定标准为好. ,
23.检验 ,
如何让学生理解假设检验的基本思想,与教材相比,笔者认为以下方案更为有利.
首先通过实例(用教材所举的例子)让学生明白吸烟对患肺癌有影响,然后给出
一般性问题:
问题:为了调查吸烟与患肺癌是否有联系,经随机调查得到如下数据(单位:人): 变量? 合计 B(患肺癌) (未患肺癌) B
A abab, (吸烟) 变量? A cdcd, (不吸烟)
abcd,,, ac,合计 bd,记为 n
怎样利用这些样本数据,来分析“吸烟对患肺癌有影响”,下面我们采用类似
于反证法的思想方法来进行推理.
假设“吸烟对肺癌没有影响”(即变量?和?是独立的),也即吸烟患肺癌的人数
与不吸
ac,PB(),烟患肺癌的人数相差不多.由上表知,患肺癌的频率,未患肺癌的频
率为n
bd,PB(),,因此,在假设下可推得: n
ac,,ab,aab,,,()在个吸烟的人中,患肺癌的频数为,未患肺癌的频数为n bd,,bab,,,(). n
ac,,cd,ccd,,,()在个不吸烟的人中,患肺癌的频数为,未患肺癌的频数为
n
bd,,dcd,,,(). n
,,,,把样本值abcd,,,称为实际频数,把在假设下推得的频数称为与abcd,,,
对abcd,,,,应的理论频数.
,,,,如果假设成立,则理论频数abcd,,,与实际频数的差异不会很大.如果发生
差abcd,,,
异很大的情况,我们就有理由怀疑并推翻假设,从而得出“吸烟对患肺癌有影响”的结论.
3
于是我们需要解决两个问题:一是如何刻划理论频数与实际频数之间的差异;二是差异多大时才能肯定或否定假设.
对于第一个问题,为了度量实际频数与理论频数偏离的程度,最简单的办法就是求出实际频数与理论频数的差,由于这些差会彼此抵消,因此可考虑如下办法:
42. M,()实际频数,理论频数,k,1
显然的值越大,实际频数与理论频数相差越大,反之越小.但利用上式度量实
际频数M
5055005与理论频数偏离程度尚有不足.例如,某一组实际频数为,理论频数为,相差,
2655005另一组实际频数为,理论频数为,相差也是.前者是相对于理论频数相差,后21
5者则是相对于理论频数21相差,显然这两组实际频数与理论频数的偏离程度是不一样的.
2为了弥补这一不足,可考虑将各差平方和除以相应的理论频数后再相加,并
设为,即 ,
24(实际频数,理论频数)2 ,,,理论频数k,1
由此可得
22222()()()()aabbccdd,,,,nadbc(),2,. ,,,,,?,()()()()abcdacbd,,,,abcd
2至于第二个问题,的值多大才能怀疑并推翻假设,可按教材给出的标准向学
生介绍. ,
4。

相关文档
最新文档