【通俗向】假设检验(三):卡方检验和t检验

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

【通俗向】假设检验(三):卡方检验和t检验

国际惯例,先看几个例子:

1.假设抛硬币,抛了12次,出现正面为1,反面为0,如果出现正面的次数为10次,问这个硬币是否均匀?

2.假设有一个正四面体,出现四个面的分别记为1,2,3,4;抛了120次,如果出现这四个面的次数为30,30,40,20的话,问这个四面体是否均匀?

3.假设有一个灌铅的正四面体(赌博用),厂商声称其中出现4的概率为70%,其他三个面为10%,那么抛了120次,四个面的概率为(1,2,3,4)为10,10,20,80,问这个四面体合不合规?

4.假设赌博的时候,用两个之间连根线的硬币A和B(不一定是均匀硬币),出现正面为1,反面为0,一共抛了120次,A出现100次正面,B出现90次正面,问这个绳子是否对两个硬币的分布造成影响?

5.在赌博的时候用之前的正四面体(不一定是均匀四面体),并用线连接起来,一共抛120次,两个四面体A和B出现(1-4)点数的次数为A:20,20,40,40;B:30,20,30,40 问这个两个四面体的分布是否独立?

6.在一个大风天里玩三个骰子(-_-),抛了A四面体骰子12次,B抛了24次,C抛了32次,A出现的四个面为(3,3,3,3),B为(6,7,5,6),C为(8,8,6,7),问这三个筛子的分布是否相互独立?

7.如果刚开始是一个四面体骰子,扔了100次,出现1234的次数别是20,20,25,35;后来厂商进行改进说能扔出更多的4,扔了200次,发现出来1234的次数为10,20,30,140,问:

8.1:第一个骰子是均匀分布的么?

9.2:第二个骰子真的和第一个不一样么?

10.3:第二个筛子出现4的概率真的比第一个大么?

以下是问题的解答,其中统一取p=0.01,也就是小于1%的话,认为事件不可能发生

1:p=C(12)(10)* (1/2)^10*(1/2)^2=0.016;

也就是说有1.6%的概率发生这件事情,既然我们之前取得概率是1%,所以可以接受这个巧合

2:最简单的卡方检验

x2<-c(30,30,40,20)

p2<-rep(0.25,4)

chisq.test(x2,p=p2)

•1

•2

•3

pvalue=0.08,无法拒绝原假设,也就是有8%的概率出现以上的情况。

3:一维卡方

p3<-c(0.1,0.1,0.1,0.7)

x3<-c(10,10,20,80)

chisq.test(x3,p=p3)

#结果:

Chi-squared test for given probabilities

data: x3

X-squared = 6.1905, df = 3, p-value = 0.1027

•1

•2

•3

•4

•5

•6

•7

•8

•9

•10

可以看到p=0.1,所以可以接受原假设

4:二维卡方检验,不再检验样本和理论频率,而是两个样本之间的检验;

b<-matrix(c(100,20,90,30),nrow=2)

b<-as.table(b)

rownames(b)<-c(0,1)

colnames(b)<-c('A','B')

chisq.test(b)

•1

•2

•3

•4

•5

看出P=0.15,同样无法拒绝原假设

5:同样的二维,但不是普通的2*2卡方,代码如下

b<-matrix(c(20,20,40,40,30,20,30,40),ncol=2)

b<-as.table(b)

rownames(b)<-c(1,2,3,4)

colnames(b)<-c('A','B')

chisq.test(b)

•1

•2

•3

•4

•5

结果

Pearson's Chi-squared test

data: b

X-squared = 3.4286, df = 3, p-value = 0.3301

•1

•2

•3

•4

•5

p=0.33,说明AB间有关联。

6:同样扩展到三个变量的独立性检验:

b<-matrix(c(3,3,3,3,6,7,5,6,8,8,6,7),ncol=3)

b<-as.table(b)

rownames(b)<-c(1,2,3,4)

colnames(b)<-c('A','B','C')

chisq.test(b)

•1

•2

•3

•4

•5

结果

Pearson's Chi-squared test

data: b

X-squared = 0.17829, df = 6, p-value = 0.9999

•1

•2

•3

•4

P值很大,不能拒绝三个没有相关的假设,也就是不独立

7:这个问题涉及到卡方检验和t检验的本质,卡方检验主要检验

几个变量之间的独立性,也就是有没有关联,而t检验更多的检验显著性,也就是几组数据到底一不一样。也就涉及到相关性和显著性的问题。

比如这个例子,扔第一个骰子100次,又扔了第二个骰子200次,如果是一个骰子的话,这两个骰子出现的次数应该保持近似一致,如果检验后发现出现一致的概率很低,那么可以拒绝原假设(也就是不一致);但是两个骰子本身的性质(均匀分布或者灌铅骰子)和这一个骰子的实验结果展现的次数有关系。也就是说卡方检验检验的是次数,而t检验检验的是值

再举个更通俗的例子,假如身高高的人一般体重都大,那么我取了10个身高段“150,155,160…200cm”1000个人,然后按照体重分为10个体重段,比如‘50kg,60kg….’,然后做成列联表,最后按照卡方检验求p值,发现p值=0.001,也就是说如果没有联系的话,实验这么多次出现这个结果的概率为0.001,显然这么小的概率可以认为不能发生,所以是有关联的。(Fisher检验更精确的说明这个论点)。

而t检验可以利用操作均值的差异,检验1000个样本,身高放在A列,体重放在B列,从而看A,B列的差异,如果p=1 则说明A和B没有差异。

所以卡方检验和T检验的前提条件(原假设)是对立的:

卡方检验:假设没有相关性

T检验:假设没有差异(相等)

刚才的例子,举个n=100的样本,代码如下

F检验

a<-c(35,15,41,9)

dim(a)<-c(2,2)

rownames(a)<-c('high','low')

colnames(a)<-c('heavy','light')

chisq.test(a)

•1

相关文档
最新文档