王静龙定性数据分析第四章二维列联表答案.

合集下载

冠心病危险因素分析与研究方法

冠心病危险因素分析与研究方法

冠心病危险因素分析与研究方法作者:杨丹来源:《健康周刊》2018年第13期【摘要】查阅近几年国内外冠心病研究进展进行而分析、总结,结果显示冠心病的危险因素除了与患者本身体质指数BMI(Body Measure Index)和年龄外,还可能有高血压史、高血压家族史、吸烟、高血脂史、动物脂肪摄入和A型性格等因素。

为探讨冠心病发生的危险因素,进行了一项病例对照研究,利用Logit回归模型探讨冠心病的危险因素找出对冠心病有影响的危险因素建立回归模型提出一套判别法则来判别某人是否患上了冠心病,经过实验数据的检验,此办法可行。

根据危险因素预测个体发生冠心病的概率,旨在为冠心病健康教育提供科学的理论依据。

本文采用多项Logit模型,因变量是患冠心病、不患冠心病2种模式。

结果显示:根据logit的计算值f(x) >0,判别出患者有冠心病;当【关键词】冠心病;Logit回归模型;危险因素1 对象与方法1.1研究对象:选择十堰市人民医院.从心内科一、心内科二、心内科三分别收集2018年5月1日至8月1日的住院病例,共搜集53例。

登记比较详细的病例信息,包括姓名、性别、出生年月、住址、病名或症状、是否初(复)诊等.把从各科室收集的门诊病例按次序编号,逐个录入到用Epidata3.0编好的程序中,核查、纠错后转入SPSS进行归类整理和统计分析.心血管疾病的统计根据国际疾病分类标准第10版(ICD-10)[11].同时,调查对象中的病史记录、生活习惯由主管护士提供。

1.2 研究方法:采用后退法最终对模型筛减去掉关联性较小的危险因素,得到如下的Logit回归方程:F(x)=-5.183+0.859 x2+1.69 x6+2.984 x7+2.017 x8,从得出的模型中可以看出,患者的体质指数BMI、高血压史、高血压家族史、和吸烟都是不显著的危险因素,而年龄、高血脂史、动物脂肪摄入和A型性格是显著的危险因素。

体质指数BMI越高有高血压史、高血压家族史并且还吸烟则患冠心病的可能性相对较高。

定性数据分析课后答案

定性数据分析课后答案

第二章课后作业【第 1题】解:由题可知消费者对糖果颜色的偏好情况(即糖果颜色的概率分布),调查者取 500 块糖果作为研究对象,则以消费者对糖果颜色的偏好作为依据,500 块糖果的颜色分布如下表 1.1所示:表 1.1 理论上糖果的各颜色数橙色黄色红色棕色绿色蓝色150100*********由题知r=6 ,n=500,我们假设这些数据与消费者对糖果颜色的偏好分布是相符,所以我们进行以下假设 :原假设: H 0 :类 A i所占的比例为 p i p i 0 (i 1, (6)其中 A i为对应的糖果颜色, p i 0 (i1,...,6)6p i0 1已知,1i则 2 检验的计算过程如下表所示:颜色类别n i np i0( n i np i 0 ) 2 np i 0 A1172150 3.2267A2124100 5.7600A385100 2.2500A44150 1.6200A53650 3.9200A64250 1.2800合计500500218.0567在这里 r 6 。

检验的 p 值等于自由度为 5 的2变量大于等于 18.0567 的概率。

在 Excel 中输入“chidist (18.0567,5) ”,得出对应的p值为 p0.0028762 0.05 ,故拒绝原假设,即这些数据与消费者对糖果颜色的偏好分布不相符。

【第 2题】解:由题可知 ,r=3 , n=200,假设顾客对这三种肉食的喜好程度相同,即顾客选择这三种肉食的概率是相同的。

所以我们可以进行以下假设: 原假设 H 0 : p i1( 1,2,3)i32则 检验的计算过程如下表所示:肉食种类n inp i( n i np i ) 2 np i猪肉 85 66.67 5.03958 牛肉 41 66.67 9.88374 羊肉 74 66.670.80589合计200200215.72921在这里 r 3 。

检验的 p 值等于自由度为 2 的2变量大于等于 15.72921 的概率。

定性数据分析-王静龙-第一章

定性数据分析-王静龙-第一章

G − S (ζ ) = 1 − ∑ pi2
i =1
k
G-S指数越大,说明变量ξ分布越离散 指数越大,说明变量 分布越离散 指数越大 原理:如果对 进行两次独立的抽样 当变量ξ的值分 进行两次独立的抽样, 原理:如果对ξ进行两次独立的抽样,当变量 的值分 布比较集中时,两次抽到同一个值xi的概率 i2就大, 布比较集中时,两次抽到同一个值 的概率p 就大, 的概率 ∑ pi2就大,因而 就大,因而G-S布中心
第P百分位数的求法 百分位数的求法
将数据由小到大排序 计算第P百分位数的所在位置 计算第 百分位数的所在位置 p i=( )( n + 1) 100 确定第P百分位数 确定第 百分位数
是整数, 位的数; 不是整数 不是整数, 若i是整数,位于第 位的数;若i不是整数, 是整数 位于第i位的数 向上取整。 将i向上取整。 向上取整
数值法-离散程度 数值法 离散程度

随机变量ξ的熵 随机变量 的熵
H (ζ ) = − ∑ pi ln pi
i =1
k
熵越大,说明变量ξ分布越离散 熵越大,说明变量 分布越离散 原理: 原理:
均匀分布时,所有 均相等 都为1/k. 均相等, 均匀分布时,所有Pi均相等,都为
1 H (ζ ) = − ln( ) k
第一章 定性数据的 数据的描述性统计方法 定性数据的描述性统计方法
定性数据的概念 单个变量的描述统计方法
定性数据
数据的尺度
定类—名义( ):只能计次 定类 名义(Category Scale):只能计次 名义 ): 定序—有序(Ordinal Scale):计次、排序 ):计次 定序 有序( 有序 ):计次、 定距—计数( ):计次 定距 计数(Interval Scale):计次、排序、 计数 ):计次、排序、 加减 定比—计量( ):计次 定比 计量(Ratio Scale):计次、排序、加 计量 ):计次、排序、 减、乘除

王静龙《非参数统计分析》课后计算题参考答案解析

王静龙《非参数统计分析》课后计算题参考答案解析

王静龙《非参数统计分析》课后习题计算题参考答案习题一1. One Sample t-test for a MeanSample Statistics for xN Mea n Std. Dev. Std. Error26Hypothesis TestNull hypothesis: Mea n of x = 0Alternative: Mea n of x A= 0t Statistic Df Prob > t2595 % Con fide nee In terval for the MeanLower Limit:Upper Limit:则接受原假设认为一样习题二1.描述性统计习题二S+=13 n 39H0: me 6500 H1: me 6500PS 13 二BINOMDIST(13,39,0.5,1)=0.026625957另外:在excel2010中有公式(n,p,a) 返回一个数值,它使得累计二项式分布的函数值大于或等于临界值a的最小整数* 1 n m* nm inf m :2 i 0 iBINO M」N V(39,0.5,0.05)=14*n1 *d nd=sup d : m 1 132 i 0 iS+13 d 13以上两种都拒绝原假设,即中位数低于6500inf c* :n ** 1 m nm inf m :-2 i 0 iBINOM.INV(40,0.5,1 -0.025)=26 d=n-c=40-26=14 x145800 x266400me x206200=0 2.S +=40 n 70H 0: me 6500 H 1: me 6500 2P S 402*(1-BIN0MDIST(39,70,0.5,1))=0.281978922则接受原假设,即房价中位数是 6500S +=1552 n 1552 527 2079H o : p H 1: pn 比较大,则用正态分布近似*1 nnc inf c :2 i c * i 2n m **1 m n m inf m :2i 0im=BINOM.INV(2079,0.5,0.975)=1084则拒绝原假设,即相信孩子会过得更好的人多P 为认为生活更好的成年人的比例,则1522p 的比估计是:一 =0.746513 20794.S18154 n 157860H 0: F 0.906 65 H 1: P 0.90665p 1 0.906 0.094S ~b(n,p) P S 181541 BIN0MDIST(18153,157860,0.094,1)因为0〈则拒绝原假设P S 15521039.5-1552+0.5「519.75 =5.33E-112另外:S +=1552n 1552527 2079习题四1.符号秩和检验统计量:W+=6+8+10+1+4+12+9+11+2+7=70 p值为2P W+70,当n=12得C o.o25 =65 所以p值小于2P W+65 =0.05即拒绝原假设2.符号秩和检验统计量:W+=2.5+2.5+7+7+7+7+10.5+14+14+14+14+14+17.5+17.5+19+20+23+24=234.5p值为2P W+234.5,当n=25 得c°.°25=236所以p值小于2P W+236 =0.05即接受原假设符号检验:S+18 n 26H 0: me 0 H1 : me 02P S 18 2*(1-BIN0MDIST(17,25,0.5,1))=0.043285251 则拒绝原假设t检验:t 统计量=0.861 df=25 p=0.3976接受原假设3.(1)W+=5+2+2=9 n 8查表可得:C o.025 33d n(n D c 30.025 0.02522P(W+3) 0.052P(W+9) 0.05则接受原假设Walsh平均由小到大排列:50 55 60 65 65 70 70 70 75 75 75 80 80 80 80 80 80 80 85 85 85 8585 90 90 90 90 90 90 95 95 95 95 95 95 100 100 100 100 100 100 100 105 105105 105 105 110 110 110 110 110 115 115 120AN=55则对称中心为W N 1 /2 W28 90d n n 1 /4 0.5 U1 /2“j n n 1 2n 1 /24 27.5 0.5 1.96 10 11 21/24 7.77101146c n n 1 /4 0.5 U1 /2 [ n n 1 2n 1 /24 27.5 0.5 1.96 .10 11 21/24 47.22898853因为c不是整数,则L介于讽k)与w(k+i)之间,其中k表示比d大的最小整数即为8AL为70与75之间,即为则H-L的点估计为9095%的区间估计为72.5,105习题五22800 25200 26550 26550 26900 27350 28500 28950 29900 30150 30450 30450 30650 30800 31000 31300 31350 31350 31800 32050 32250 32350 32750 32900 33250 33550 33700 33950 34100 34800 35050 35200 35500 35600 35700 35900 36100 36300 36700 37250 37400 37750 38050 38200 38200 38800 39200 39700 40400 4100050个和在一起的中位数是( 33250+33550) /2=33400p i 1P(i,24,25,50) 0.005060988p值很小,则拒绝原假设即认为女职工的收入比男职工的低。

定性数据分析第五章课后答案

定性数据分析第五章课后答案

定性数据分析第五章课后作业1、为了解男性和女性对两种类型的饮料的偏好有没有差异,分别在年青人和老试分析这批数据,关于男性和女性对这两种类型的饮料的偏好有没有差异的问题,你有什么看法?为什么?解:(1)数据压缩分析首先将上表中不同年龄段的数据合并在一起压缩成二维2X 2列联表1.1 ,合起来看,分析男性和女性对这两种类型的饮料的偏好有没有差异?二维22列联表独立检验的似然比检验统计量2ln的值为0.7032,p值为p P( 2(1) 0.7032) 0.4017 0.05,不应拒绝原假设,即认为“偏好类型”与“性别”无关。

(2)数据分层分析其次,按年龄段分层,得到如下三维2X 2X 2列联表1.2,分开来看,男性和女性对这两种类型的饮料的偏好有没有差异?在上述数据中,分别对两个年龄段(即年青人和老年人)进行饮料偏好的调 查,在“年青人”年龄段,男性中偏好饮料A 占58. 73%偏好饮料B 占41.27%; 女性中偏好饮料A 占58. 73%偏好饮料B 占41.27%,我们可以得出在这个年 龄段,男性和女性对这两种类型的饮料的偏好有一定的差异。

同理,在“老年人”年龄段,也有一定的差异。

(3) 条件独立性检验为验证上述得出的结果是否可靠,我们可以做以下的条件独立性检验。

即由题意,可令C 表示年龄段,0表示年青人,C 2表示老年人;D 表示性别,D ! 表示男性,D 2表示女性;E 表示偏好饮料的类型,E !表示偏好饮料A, E 2表示 偏好饮料B 。

欲检验的原假设为:C 给定后D 和E 条件独立 按年龄段分层后得到的两个四格表,以及它们的似然比检验统计量 2ln 的值如下:条件独立性检验问题的似然比检验统计量是这两个似然比检验统计量的和,2ln 6.248 11.822 18.07由于ret 2,所以条件独立性检验的似然比检验统计量的渐近 2分布的自由度为r(e 1)(t 1) 2,也就是上面这2个四格表的渐近 2分布的自由度的和 由于p 值P( 2(2)18.07) 0.000119165很小,所以认为条件独立性不成立,即在年龄段给定的条件下,男性和女性对两种类型的饮料的偏好是有差异的。

数据分析参考答案

数据分析参考答案

数据分析参考答案数据分析参考答案数据分析是一项重要的技能,它帮助我们从大量的数据中提取有用的信息和洞察力。

在当今信息爆炸的时代,数据分析已经成为了各行各业的必备技能。

无论是企业决策、市场营销还是科学研究,数据分析都扮演着重要的角色。

在本文中,我将提供一些数据分析的参考答案,帮助读者更好地理解和应用数据分析。

首先,数据分析的第一步是数据清洗和整理。

在进行数据分析之前,我们需要确保数据的质量和准确性。

这包括删除重复数据、处理缺失值、解决异常值等。

只有经过清洗和整理的数据才能真正反映出问题的本质和规律。

其次,数据分析需要选择合适的方法和工具。

根据问题的性质和数据的类型,我们可以选择不同的数据分析方法。

常见的数据分析方法包括描述性统计、推断统计、机器学习等。

同时,我们还需要选择适合的数据分析工具,如Excel、Python、R等。

选择合适的方法和工具可以提高数据分析的效率和准确性。

第三,数据可视化是数据分析的重要环节。

通过数据可视化,我们可以将抽象的数据转化为直观的图表和图形,更好地理解数据的分布和趋势。

数据可视化不仅可以提高数据分析的效果,还可以帮助我们向他人传达分析结果。

在进行数据可视化时,我们需要选择适当的图表类型,如柱状图、折线图、散点图等,以及合适的颜色和字体。

第四,数据分析需要进行合理的假设和推断。

在进行数据分析时,我们需要建立合理的假设,并通过数据进行验证。

通过统计方法和推断统计学,我们可以对数据进行推断和预测。

然而,我们需要注意的是,数据分析只能提供相关性而非因果性的结论。

因此,在进行数据分析时,我们需要谨慎解读结果,并避免错误的推断。

最后,数据分析需要不断的学习和实践。

数据分析是一个不断发展和演进的领域,新的方法和工具不断涌现。

为了保持竞争力,我们需要不断学习新的数据分析技术,并将其应用到实际问题中。

同时,我们还需要通过实践不断提高自己的数据分析能力,不断优化分析结果和方法。

综上所述,数据分析是一项重要的技能,它帮助我们从大量的数据中提取有用的信息和洞察力。

SPSS软件在定性数据分析中的技术处理

SPSS软件在定性数据分析中的技术处理

SPSS软件在定性数据分析中的技术处理郭梦霞【摘要】SPSS全称为社会科学统计软件包,SPSS软件在数据管理、统计建模、结果报告等方面具有相当大的优势。

本文主要研究的是在做定性数据分析的时候,如何才能利用SPSS软件恰当的进行数据的组织。

本文主要对多变量的列联表、多选项和单变量等三种形式的定性数据统计分析和输入方式进行的深入的研究。

通过本文的研究,希望各个领域、行业当需要进行定性数据分析的时候,通过本文的阅读能够掌握SPSS软件如何进行定性数据分析,方便自己的使用。

%Called the SPSS social science statistical package,SPSS software in data management,statistical modeling,the results report has a big advantage.This paper mainly studies the when doing the qualitative data analysis,how to use SPSS software appropriate for data organization.This article mainly to multivariate contingency table,more options,and the three types of qualitative data such as univariate statistical analysis and input methods of in-depth study.Through the study of this article,I hope each domain, industry when the need for qualitative data analysis,through reading of this article can grasp qualitative data analysis and SPSS software to facilitate their use.【期刊名称】《电子测试》【年(卷),期】2014(000)008【总页数】3页(P106-108)【关键词】社会科学统计;定性数据;单变量;多变量【作者】郭梦霞【作者单位】陕西职业技术学院管理系,陕西西安,710000【正文语种】中文0 引言SPSS 全称为社会科学统计软件包,英文全称为statistical product and service solutions。

定型数据分析习题答案

定型数据分析习题答案

作业中的一些错误情况1:解题过程不完整,没有明确指出所检验的假设和检验统计量。

2:算错检验统计量的值,或算错检验的p 值。

(P27Ex2)解法一:总体总共分3类,要检验顾客是否对这三种肉食的喜好程度相同,这是一个分布的拟合优度检验问题。

(1)要检验的原假设为 0H :顾客对这三种肉食的喜好程度相同,即要检验0H :顾客对这三种肉食的喜好程度的分布为⎪⎪⎪⎭⎫ ⎝⎛313131羊肉牛肉猪肉,(2)取检验统计量∑=-=310202)(i i i i np np n χ,检验分布为)13(2-χ;(3)题中200=n ,3,2,1,32000==i np i ,则检验统计量的值为(计算过程略) 73.153200)320074(3200)320041(3200)320085(2222≈-+-+-=χ(4)计算P 值为: 05.0000384.0)73.15)2((2<≈≥=χP p 值,故在水平05.0=α下拒绝0H ,即调查数据不符合该均匀分布.解法二(采用似然比检验+p 值形式)(1)要检验的原假设为 0H :顾客对这三种肉食的喜好程度相同,即要检验0H :顾客对这三种肉食的喜好程度的分布为⎪⎪⎪⎭⎫ ⎝⎛313131羊肉牛肉猪肉,(2)选取似然比检验统计量∑∑==-=-=Λ-=ri i i i ri i i i n np n n n p n G 1102ln 2ln 2ln 2,检验分布为)1(2-r χ; (3)题中200=n ,3,2,1,32000==i np i ,则检验统计量的值为(计算过程略)88.16ln2312≈=-=∑= i ii i n np n G (4)计算P 值为: 05.000022.0)88.16)2((2<≈≥=χP p 值,故在水平05.0=α下拒绝0H ,即顾客对这三种肉食的喜好程度的分布不是均匀分布.注:若显著性水平取05.0=α,则临界值为99.5)2()13(295.0205.01≈=--χχ。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ni ni 1 TA 1116558 2 i 1
2
TB
j 1
3
n j n j 1 2
723627
第4题
n n 1 / 2 TA n n 1 / 2 TB 负相合
• (2)相合性的检验 • H0:A(性别)和B(啤酒偏好)相互独立 • H1:A和B负相合
• 年龄越大的人,冠状动脉硬化的程度是否有越重的趋势? • (取水平 =0.05 )
第5题
• (1) 相合性的度量 G 15880 H 4324
ni ni 1 TA 10070 2 i 1
4
TB
j 1
4
n j n j 1 2
12442
n n 1 / 2 TA n n 1 / 2 TB 正相合
(2)相合性的检验

GH
0.4245 0
H0:A(年龄)和B(冠状动脉硬化的程度)相互独立 H1:A和B正相合
第5题
2
n n n n ( z) 1942119
回答
非常满意 比较满意 比较不满意 不满意
提出的问题 你满意吗 你不满意吗 139 128 82 69 12 20 10 23
• 问:这两种提问方式对被调查者回答问题有没有影响?
第3题
• H0:这两种提问方式对被调查者回答问题无影响的 • H1:这两种提问方式对被调查者回答问题有影响
2
3 3 i 3 3 j
9n3
z GH 检验统计量: U = 8.29219 ( z) ( z)
p P{N (0,1) 8.29219} 0 0.05 拒绝H 0
第6题
• 习题三第8题说四格表可用来比较两个总体在中心位置上有没有差异。列 联表也有这样的作业。第8题中26位女职工和24位男职工的年收入分组列 表表示如下(单位:元):
第5题
• 278例尸体解剖资料整理如下:
冠状动脉硬化等级(由低到高) + ++ 22 4 24 9 23 13 20 15 89 41
年龄(岁) 20 至 30 30 至 40 40 至 50 50 以上 合计
70 27 16 9 122
+++ 2 3 7 14 26
合计 98 63 59 58 278
父母 31 28
子女 19 7
其他亲戚 12 16
• 女性和男性关于给谁买节日礼物最难的看法上有没有显著的差异? •
第2题
• H0:女性和男性关于给谁买礼物最难的看法上没有显著差 异 • H1:女性和男性关于给谁买礼物最难的看法上有显著差异。
2
i 1 j 1
r
c
nij 2 ni n j / n
第1题
• 三家供应商提供的零件合格和不合格的情 况如下:
供应商 A B C 良好 90 170 135 零件质量 小缺陷 3 18 6 大缺陷 7 7 9
• 取 检验供应商与零件质量的独立性。你的 分析结果能告诉采购部分什么?
第1题
• H0 :供应商与零件质量独立 • H1:供应商与零件质量不独立 2 2 r c (n np r c ˆ ) n ij ij ij 2 n 7.712 ˆ ij np i 1 j 1 i 1 j 1 ni n j / n
工资 22500-25000 25000-27500 27500-30000 30000-32500 32500-35000 35000-37500 37500-40000 40000-42500 合计 女职工 1 4 2 10 3 5 1 0 26 男职工 0 1 1 3 5 6 6 2 24
i 1 j 1
4
2
nij 2 ni n j / n
n 8.675
p P ( 2 4 1 2 1 2 8.675) 0.0339 0.05 拒绝H 0,即有影响
0.01接受H 0,即没影响
第4题
• 表4.3的数据是否说明有这种趋势:女性倾向于饮淡啤酒,男性倾向于 饮浓啤酒?试用相合性的度量和检验方法回答这个问题。
p P{ 2 (4) 2 7.714} 0.103 0.05 接受H 0,供应商于零件质量独立
第2题
• 向100个女性和100个男性做调查,了解他们关于给谁买节日礼物最难 得看法。调查结果如下:
给谁买礼物最难 兄弟姐妹 姻亲 3 10 8 4
性别 女性 男性
配偶 25 37
n 13.429
p P ( 2 6 1 2 1 2 13.429) 0.0197 当 =0.05时拒绝H 0,有显著差异 当 =0.01时接受H 0,没有显著差异
第3题
• 调查人们对某项措施的满意程度,可以问他:“你对这项措施满意 吗?”,也可以问他:“你对这项措施不满意吗?”为了解这两种提 问方式对被调查者回答问题有没有影响,向243人问:“你满意吗?”, 另外向240人问:“你不满意吗?”。 • 调查结果如下:
3

GH
0.20054 0
2
n n n n ( z) 488047028.8
3 i 3 3 j
U 检验统计量:
z GH = 9.4) 9.42784} 0 拒绝H 0,即是有题中的趋势
啤酒偏好 淡啤酒 男性 女性 合计 352 293 645 普通啤酒 284 133 417 黑啤酒 717 210 927 合计 1353 636 1989
• (1)相合性的度量,用Kendall系数检验
G 352 (133 210) 284 210 180376 H 717 (133 293) 284 293 388654
相关文档
最新文档