4统计-4分类资料统计分析

合集下载

分类资料的统计描述

第六章分类资料的统计描述一、教学大纲要求（一）掌握内容 1．绝对数。

2．相对数常用指标：率、构成比、比。

3．应用相对数的注意事项。

4．率的标准化和动态数列常用指标：标准化率、标准化法、时点动态数列、时期动态数列、绝对增长量、发展速度、增长速度、定基比、环比、平均发展速度和平均增长速度。

（二）熟悉内容1．标准化率的计算。

2．动态数列及其分析指标。

二、教学内容精要(一) 绝对数绝对数是各分类结果的合计频数，反映总量和规模。

如某地的人口数、发病人数、死亡人数等。

绝对数通常不能相互比较，如两地人口数不等时，不能比较两地的发病人数，而应比较两地的发病率。

（二）常用相对数的意义及计算相对数是两个有联系的指标之比，是分类变量常用的描述性统计指标，常用两个分类的绝对数之比表示相对数大小，如率、构成比、比等。

常用相对数的意义及计算见表6-1。

表6-1 常用相对数的意义及计算常用相对数概念表示方式计算公式举例率（rate ）又称频率指标，说明一定时期内某现象发生的频率或强度百分率（%）、千分率（‰）等单位时间内的发病率、患病率，如年（季）发病率、时点患病率等构成比（proportion ）又称构成指标，说明某一事物内部各组成部分所占的比重或分布百分数疾病或死亡的顺位、位次或所占比重比（ratio ）又称相对比，是A 、B 两个有关指标之比，说明A 是B 的若干倍或百分之几倍数或分数①对比指标，如男：女=106.04：100 ②关系指标，如医护人员：病床数=1.64③计划完成指标，如完成计划的130.5%%100⨯=单位总数可能发生某现象的观察数发生某现象的观察单位率%100⨯=观察单位总数同一事物各组成部分的位数某一组成部分的观察单构成比BA=比(三) 应用相对数时应注意的问题1．计算相对数的分母一般不宜过小。

2．分析时不能以构成比代替率容易产生的错误有（1）指标的选择错误如住院病人只能计算某病的病死率，不能认为是某病的死亡率；（2）若用构成指标下频率指标的结论将导致错误结论，如某部队医院收治胃炎的门诊人数中军人的构成比最高，但不一定军人的胃炎发病率最高。

分类资料组间比较的统计方法选择与应用

分类资料组间比较的统计方法选择与应用在统计学中，分类资料组间比较是指对不同分类资料组之间的差异进行统计分析。

分类资料是指将个体按其中一种特征分组，而分类资料组是指这些不同特征组成的组。

此时，为了确定不同组之间的差异，我们需要选择适当的统计方法进行比较。

下面介绍几种常用的分类资料组间比较的统计方法选择与应用。

1.基本原则：在选择分类资料组间比较的统计方法时，需要根据变量的测定水平来确定，通常可以根据资料的测定水平来进行分类资料分析的方法选择。

对于分类资料，我们可以采用卡方检验分析，对于有序分类资料，我们可以采用秩和检验分析。

2.卡方检验：卡方检验适用于分类资料的比较，其基本思想是比较实际观测频数与理论频数之间的差异。

卡方检验有两种形式：独立性检验和拟合优度检验。

独立性检验用于检验两个或多个分类变量之间是否存在关联；拟合优度检验用于检验观测频数与理论频数之间的差异是否显著。

3.秩和检验：对于有序分类资料，我们可以采用秩和检验进行比较。

秩和检验的基本思想是将不同组之间的观测值按顺序排列，并将其转化为秩次，然后将秩次相加得到秩和，通过比较秩和的大小来判断不同组之间的差异是否显著。

4.t检验：当分类资料分为两个组进行比较时，可以采用t检验。

t检验的基本思想是通过比较两个组的均值差异来判断两个组之间的差异是否显著。

但是需要注意的是，t检验要求数据满足正态分布的假设，所以在进行t检验之前需要进行正态分布检验。

5.方差分析：当分类资料包含多个组时，可以使用方差分析进行比较。

方差分析的基本思想是比较组间方差与组内方差之间的差异，通过计算F值来判断不同组之间的差异是否显著。

方差分析也需要满足正态分布的假设。

6.非参数检验：如果数据不满足正态分布假设，或者样本量较小，可以使用非参数检验。

非参数检验不依赖于总体分布形式的假设，比如Mann-Whitney U检验适用于两个独立样本的比较，Kruskal-Wallis H检验适用于多个独立样本的比较。

有序分类资料的统计分析

1有序分类资料的秩和检验医学统计学2009年2•医学上会用-、±、++、+++来表示临床体检或实验室检查的测量结果，用治愈、好转、有效、无效来表示某种药物的临床效果。

像这样一些“取值”中自然存在着次序的分类变量，称为有序分类变量或等级变量。

•对有序分类资料，若用R ×C 表资料的检验，将损失关于等级的信息，不合适的。

因为R ×C 表的检验只能推断构成比之间的差别。

•此时，可以采用秩和检验推断不同处理组之间的等级强度差别。

31、两独立样本有序资料一、分组变量为多分类有序资料，指标变量为二分类无序资料研究目的是比较分组变量不同水平下某指标变量的发生率，如：利用有序的检验指标判断患者是否患病，其实质是对该检验指标不同水平下患者患病率的比较；以及对不同年龄阶段某指标的阳性率的比较，都属于多个样本率比较的问题。

对于这样的资料，可以将分组变量视为无序的，采用前一章中介绍的检验进行多个样本率的比较。

2χ4二、分组变量为两分类无序资料，指标变量为多分类有序资料研究目的是比较分组变量两个不同水平下某指标变量的平均水平是否有差异，如：两种药物疗效（治愈、好转、有效、无效）之间的比较。

两种疗法疗效的取值均为有序分类资料。

对于这样的资料前面介绍的χ2检验已不再适用，因为它无法考虑分组变量（药物）不同水平下疗效取值的等级关系。

此时可以采用第七章中介绍的Wilcoxon 秩和检验。

5例39名吸烟工人和40名不吸烟工人的碳氧血红蛋白HbCO(%)含量见下表。

问吸烟工人的HbCO(%)含量是否高于不吸烟工人的HbCO(%)含量？秩和含量吸烟工人不吸烟工人合计秩范围平均秩吸烟工人不吸烟工人(1) (2) (3) (4) (5) (6) (7)=(2)(6) (8)=(3)(6)很低1 2 3 1～3 2 2 4 低8 23 31 4～3419 152 437 中 16 11 27 35～6148 768 528 偏高 10 4 14 62～75 68.5 685 274 4 0 4 76～79 77.5 310 0 高合计 39(1n ) 40(2n ) 79──1917(1T ) 1243(2T )60H ：吸烟工人和不吸烟工人的HbCO 含量总体分布位置相同1H ：吸烟工人的HbCO 含量高于不吸烟工人的HbCO 含量0.05α=①先确定各等级的合计人数、秩范围和平均秩，见表的（4）栏、（5）栏和（6）栏，再计算两样本各等级的秩和，见（7）栏和（8）栏；②本例T =1917（n 1<n 2）；12311133．计算检验统计量H 。

统计学知识点

统计学知识点第一章概论1. 总体（Population ）：根据研究目的确定的同质对象的全体（集合）；样本（Sample ）：从总体中随机抽取的部分具有代表性的研究对象。

2. 参数（Parameter ）：反映总体特征的统计指标，如总体均数、标准差等，用希腊字母表示，是固定的常数；统计量（Statistic ）：反映样本特征的统计指标，如样本均数、标准差等，采用拉丁字字母表示，是在参数附近波动的随机变量。

3. 统计资料分类：定量（计量）资料、定性（计数）资料、等级资料。

第二章计量资料统计描述1. 集中趋势：均数（算术、几何）、中位数、众数2. 离散趋势：极差、四分位间距（QR =P 75-P 25）、标准差（或方差）、变异系数（CV ）3. 正态分布特征：①X 轴上方关于X =对称的钟形曲线；②X =时，f(X)取得最大值；③有两个参数，位置参数和形态参数；④曲线下面积为1，区间±的面积为%，区间±的面积为%，区间±的面积为%。

4. 医学参考值范围的制定方法：正态近似法：/2X u S α±；百分位数法：。

第三章总体均数估计和假设检验1. 抽样误差（Sampling Error ）：由个体变异产生、随机抽样造成的样本统计量与总体参数的差异。

抽样误差不可避免，产生的根本原因是生物个体的变异性。

2. 均数的标准误（Standard error of Mean, SEM ）：样本均数的标准差，计算公式：/X n σσ=。

反映样本均数间的离散程度，说明抽样误差的大小。

3. 降低抽样误差的途径有：①通过增加样本含量n ；②通过设计减少S 。

4. t 分布特征：①单峰分布，以0为中心，左右对称；②形态取决于自由度，越小，t 值越分散，t 分布的峰部越矮而尾部翘得越高；③当逼近∞,X S 逼近X σ, t 分布逼近u 分布，故标准正态分布是t 分布的特例。

5. 置信区间（Confidence Interval , CI ）：按预先给定的概率（1-）确定的包含总体参数的一个范围，计算公式：/2,X X t S αν±或/2,X X u S αν±。

医学统计学总复习(刘桂芬主编-研究生使用) (1)

① 绘制散点图，初步判断是否呈直线趋势； ② 计算 a、b。(如果基本呈直线趋势) ③ 对 b 作假设检验：方法：a. F 检验
b. t 检验 c. 用 r 检验来代替。 ④ 作结论：如 P≤0.05, 说明方程成立，列出回归方程；如 P>0.05, 说明方程不成立，不列回归方程。 5. 直线相关的概念 6. 直线相关的主要用途：用于分析两变量是否有相关关系及其方向
观察人数
期内死亡人数
- 14 -
x～
nx
Dx
0～
25
10
1～
22
20
2～
10
9
3～
11
7
4～
10
1
5～
8
4
6～
4
0
7～
4
1
8～
3
0
9～
3
0
10～
2
0
11～
1
0
第三部分期末成绩评定
一、成绩评定方法总评（100%）＝平时作业 10%＋基础理论知识考试（笔试）60%＋操作技能考试（上机）30% 二、考试题型（一）基础理论知识考试（笔试）（考试时间：100 分钟） 1、最佳选择题（单选）（30%，30 小题，每题 1 分） 2、辨析题（30%，10 小题，每题 3 分） 3、简答题（10%，2 小题，每题 5 分） 4、分析应用题（30%，5-6 题）
第十六章生存分析
1.生存资料的特点 2.生存分析的几个基本概念（生存时间、死亡概率与生存概率、生存率、中位生存期） 3.生存分析的用途 4.生存率计算方法：（1）K-M 法：例数少，且为未分组；（2）寿命表法：例数多，且为频数表资料（注意：生存概率与生存率的结果） 5.生存率曲线比较：（1）log-rank test：两组或多组；（2）Gehan Score test：两组 6.Cox 模型（不要求）第二十二章医学论文统计结果报告

医学统计学课件：分类资料的统计描述

交叉表
交叉表是一种更为复杂的表格形式，可以展示两个或多个分类变量之间的关系，进一步分析变量之间的关联。
分层资料的统计描述
分层平均数
对于分层资料，可以使用分层平均数来描述各层内数据的平均水平，通过比较不同层的平均数，
可以了解各层之间的差异。
层间方差
层间方差是用来衡量不同层次间的变异程度，通过计算和比较层间方差，可以了解各层次之间的
辅助决策制定
准确的分类资料统计描述能够为决策制定提供有力支持，帮助决策者了解情况、制定合理方案。
分类资料统计描述的应用场景
临床研究
在临床研究中，分类资料统计描述常用于分析患者的疾病分布、治疗反应等。
流行病学
流行病学中，分类资料统计描述用于分析疾病的地区分布、人群特征等。
公共卫生
公共卫生领域中，分类资料统计描述用于监测和评估公共卫生状况、健康问题分布等。
动态数的计算与解读
动态数的计算
动态数是用来描述某一指标在不同时间点上的变化情况，通常通过将某一指标在不同时间点的数值进行对比来计算。例如，某医院某年的治愈率与前一年的治愈率之比。
动态数的解读
动态数的值越大，说明该指标的变化趋势越明显；反之，则越小。动态数可以用来预测未来的发展趋势，以及评估政策或措施的效果。
相对数与动态数的应用场景
相对数在医学研究中应用广泛，如比较不同地区、不同时间、不同人群的发病率、患病率、死亡率等指标，以了解疾病在特定人群中的分布和发生情况。
动态数在医学监测和流行病学研究中应用较多，如监测某种疾病的发病率、死亡率等指标的变化趋势，以及评估干预措施的效果等。
04
统计图表在分类资料中的应用
在制作箱线图时，应将数据按照数值大小进行排序，并使用合适的横轴和纵轴尺度。

分类资料的统计分析A型选择题-30页精选文档

第十章分类资料的统计分析A型选择题1、下列指标不属于相对数的是（）A、率B、构成比C、相对比D、百分位数E、比2、表示某现象发生的频率或强度用A 构成比B 观察单位C 相对比D 率E 百分比3、下列哪种说法是错误的（）A、计算相对数尤其是率时应有足够数量的观察单位数或观察次数B、分析大样本数据时可以构在比代替率C、应分别将分子和分母合计求合计率或平均率D、相对数的比较应注意其可比性E、样本率或构成比的比较应作假设检验4、以下哪项指标不属于相对数指标( )A．出生率B ．某病发病率C ．某病潜伏期的百分位数D ．死因构成比E ．女婴与男婴的性别比5、计算麻疹疫苗接种后血清检查的阳转率,分母为( ). A.麻疹易感人群 B.麻疹患者数 C.麻疹疫苗接种人数D.麻疹疫苗接种后的阳转人数E.年均人口数6、某病患者120人,其中男性114人,女性6人,分别占95%与5%,则结论为( ). A.该病男性易得 B.该病女性易得C.该病男性、女性易患率相等D.尚不能得出结论E.以上均不对7、某地区某重疾病在某年的发病人数为0α，以后历年为1α,2α,…，n α，则该疾病发病人数的年平均增长速度为（）。

A.1...10+++n nαααB. 110+⨯⨯n n αααC.nn 0ααD.n n 0αα -1E.10-a a n8、按目前实际应用的计算公式，婴儿死亡率属于（）。

A. 相对比（比，ratio ）B. 构成比（比例，proportion ）C. 标准化率（standardized rate ）D. 率（rate ）E 、以上都不对9、某年某地乙肝发病人数占同年传染病人数的9．8%，这种指标是 A ．集中趋势 B ．时点患病率 C ．发病率 D ．构成比 E ．相对比 10、构成比：A.反映事物发生的强度B 、反映了某一事物内部各部分与全部构成的比重C 、既反映A 也反映BD 、表示两个同类指标的比E 、表示某一事物在时间顺序上的排列11、构成比之重要特点是各组成部分的百分比总和： A.必大于1B、必小于1C、必等于1D、随着资料的变化而变化E、随着各构成部分大小改变而变12、某日门诊各科的疾病分类统计资料，可以作为：A.计算死亡率的基础B、计算发病率的基础C、计算构成比的基础D、计算相对比基础13、计算率的平均值时：A.将各个率直接相加来求平均值B、以总的绝对数值为依据求平均值C、先标化，再按A法计算D、按求中位数的方法求平均值E、以上都不对14、分类资料的统计描述常用的指标是A．平均数B．标准化死亡率比C．变异系数D．相对数E．动态数列分析指标15、.动态数列分析中的定基比和环基比属于A．相对比B．率C．构成比D．平均数E．频数16、某地1971-1995年床位发展情况列于下表。

统计学分析方法

统计分析方法总结分享胡斌00:06分享，并说：统计1.连续性资料1.1两组独立样本比较1.1."1资料符合正态分布,且两组方差齐性,直接采用t检验。

1.1."2资料不符合正态分布，（1）可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验；（2）采用非参数检验,如Wilcoxon检验。

1.1."3资料方差不齐，（1）采用Satterthwate的t’检验；（2）采用非参数检验,如Wilcoxon检验。

1.2两组配对样本的比较1.2."1两组差值服从正态分布，采用配对t检验。

1.2."2两组差值不服从正态分布，采用wilcoxon的符号配对秩和检验。

1.3多组完全随机样本比较1.3."1资料符合正态分布，且各组方差齐性，直接采用完全随机的方差分析。

如果检验结果为有统计学意义，则进一步作两两比较，两两比较的方法有LSD检验，Bonferroni法，tukey法，Scheffe法，SNK法等。

1.3."2资料不符合正态分布，或各组方差不齐，则采用非参数检验的Kruscal －Wallis法。

如果检验结果为有统计学意义，则进一步作两两比较，一般采用Bonferroni法校正P值，然后用成组的Wilcoxon检验。

1.4多组随机区组样本比较1.4."1资料符合正态分布，且各组方差齐性，直接采用随机区组的方差分析。

如果检验结果为有统计学意义，则进一步作两两比较，两两比较的方法有LSD检验，Bonferroni法，tukey法，Scheffe法，SNK法等。

1.4."2资料不符合正态分布，或各组方差不齐，则采用非参数检验的Fridman 检验法。

如果检验结果为有统计学意义，则进一步作两两比较，一般采用Bonferroni法校正P值，然后用符号配对的Wilcoxon检验。

****需要注意的问题：（1）一般来说，如果是大样本，比如各组例数大于50，可以不作正态性检验，直接采用t检验或方差分析。

统计学概论

第一部分绪论1.抽样研究是一种科学、高效的方法，目的是研究( B ）A。

样本B。

总体C。

抽样误差 D.概率2。

由样本推断总体，样本应该是( D ）A.总体中的典型部分B。

总体中有意义的部分C。

总体中有价值的部分D。

总体中有代表性的部分3。

统计上所说的系统误差、过失误差、测量误差和抽样误差四种误差，在实际工作中( C ）A。

四种误差都不可避免 B.过失误差和测量误差不可避免C.测量误差和抽样误差不可避免D.系统误差和抽样误差不可避免4。

统计描述是指（C ）A.比较指标的差别有无显著性B。

估计参数C。

用统计指标描述事物的特征D。

判断无效假设是否成立5.统计推断是指( D ）A.从总体推断样本特征B。

从总体推断总体特征C。

从样本推断样本特征D。

从样本推断总体特征6.对某样品进行测量时，由于仪器事先未校正，造成测量结果普遍偏高，这种误差属于( A ）A.系统误差B。

随机测量误差C。

抽样误差D。

过失误差7。

随机抽样的目的是( D ）A。

消除系统误差 B.消除测量误差C.消除抽样误差D。

减小样本偏性8。

对某地200名16岁中学生口腔检查，发现患龋齿的人数为54人,该资料属于( B )A.数值变量资料B.无序分类变量资料C.有序分类变量资料D。

三个都不是9.数值变量资料是（C ）A.用仪器测量出来的资料B。

按观察单位的类别，清点各类观察单位数的资料C.用定量方法测定观察单位某个变量的大小的资料D。

按观察单位的等级，清点各等级观察单位数的资料10.无序分类变量资料是( B ）A.用仪器测量出来的资料B。

按观察单位的类别，清点各类观察单位数的资料C。

用定量方法测定观察单位某个变量的大小的资料D.按观察单位的等级,清点各等级观察单位数的资料11。

有序分类变量资料是（D ）A.用仪器测量出来的资料B。

按观察单位的类别，清点各类观察单位数的资料C。

用定量方法测定观察单位某个变量的大小的资料D。

按观察单位的等级，清点各等级观察单位数的资料12。

资料分析

一、加强锻炼速算能力
（4）范围限定法：由于资料分析计算题中四个选项的数值是不同的，根据所列出的式子，将其进行放缩，可以将答案限定在一个适当的范围内，再结合选项，选出最符合条件的答案。特别提示：应根据选项进行适当的放缩，切忌放缩过大，导致出错。 A.① ④ 【答案】D。

今年前两个月集体、私营企业出口0. 96亿美元，比去年同期增长71. 4%，在一月份增长51. 5%的基础上又提高 19. 9个百分点；外资企业出口21. 92亿美元，比去年同期增长33. 2%，比一月份增长2. 5%的增幅提高30. 7个百分点，占该市出口的比重由上年的79. 5%提高到今年的83%，提高3. 5个百分点。国有企业出口出现下降，今年前两个月国有企业出口为3. 49亿美元，下降5. 2%，而一月份国有企业出口仅增长9. 1%，国有企业出口增长出现的这种变化值得关注。今年前两个月，该市对亚洲出口12. 2亿美元，比去年同期增长2. 8亿美元；对欧洲出口5. 11亿美元，比去年同期增长1. 61亿美元；对拉丁美洲出口0. 79亿美元，比去年同期增长0. 32亿美元，对北美洲和大洋洲出口分别增长 12. 2%和37. 5%。
2.【解析】本题正确答案为D。
熟练掌握阅读技巧
3.今年前两个月，一般贸易出口占总出口的比重比去年同期（）。 A. 下降了大约1个百分点 B. 上升了大约1个百分点 C. 上升了3.6个百分点 D. 持平【解析】本题正确答案为B。
熟练掌握阅读技巧

4.与去年同期相比，该市对下列哪一地区的出口增长最快？（）

百分点是指不同时期以百分数形式表示的相对指标，如：
速度、指数、构成等的变动幅度。它是分析百分数增减变动的一种表现形式。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

在两个及两个以上总率(总均数)进行对比时，为了消除内部构成不同的影响，采用统一标准，分别计算标准化率后再作对比的方法称为标准化法。
31
2、标准化率的计算
标准化方法 1.以人口数作为标准 2.以人口构成比作为标准
选择标准人口 1.选择有代表性的、较稳定的、数量较大的人群作标准。 2. 两组之和的人口数或人口构成比； 3. 两组间较稳定一组的人口数或人口构成比；
年龄 27 22 25 24 30 32 27
职业无无
管理人员知识分子管理人员
无无
文化程度中学小学大学中学大学小学中学
分娩方式顺产助产顺产顺产顺产
剖宫产顺产
妊娠结局足月足月足月早产足月足月死产
8
绝对数和相对数
绝对数：实际数
➢反映某事物现象发生的实际情况，总量指标 ➢缺点：不利于比较。
从附表（根据二项分布原理制成）查得，在n=20与X=3纵列交叉处的数值为3~38，即该药急性致死率的95%可信区间为3%~38% 46
正态近似法
条件：当n足够大，p和(1－p)均不太小，且 np和n(1－p)均大于5时，样本率p的抽样分布近似服从正态分布。可用公式估计总体
率的置信区间。
公式：（p-usp，p+ usp）
发病率
某时期新发病人次同时期平均人口数1000
‰
患病率患病率调查调时查患人某数病人数1000‰
18
病死率
病死率
病死人数经治疗人数100%
死亡率
死亡率
某地某时期死亡人数该地同时期平均人口数1000

‰
19
3、比（ratio）
定义：也称相对比，指两个有联系的指标之比，常以百分数或倍数表示。
32
以人口数作为标准预期发生数=标准人口数x原发生率
33
计算标准化率
34
以人口构成比作为标准
35
3、应用标准化时的注意事项
1.标准化法只适用于某因素两组内部构成不同，并有可能影响两组总率比较的情况。对于因其它条件不同而产生的不具可比性的问题，标准化法不能解决。
2.由于选择的标准人口不同，算出的标准化率也不同。当比较几个标准化率时，应采用同一标准人口。
sp
p(1 p) n
43
率的标准误越小，说明率的抽样误差越小，用样本推论总体时，可信程度越高。
例4.5 某地随机抽取500名儿童，乙肝感染率为4.50%，求乙肝感染率的标准误。
该地500名儿童乙肝感染率的标准误为 0.93%。
44
2、总体率的可信区间
点估计：就是把样本率看作总体率；区间估计：按一定的概率，以样本信息
统计推断
假设检验 t检验，方差分析
3
分类资料
Example
统计描述
率、比、构成比
统计分析
参数估计
统计推断
假设检验
总体率可信区间
χ2检验
4
主要内容
分类变量资料的统计描述
➢常用的相对数指标 ➢应用相对数时应注意的几个问题； ➢率的标准化法。
分类变量资料的统计推断
➢估计率的抽样误差 ➢总体率可信区间的估计 ➢两个率的比较
2检验
41
一、率的抽样误差和总体率的估计
42
1、率的抽样误差与标准误
概念：样本率(p)和总体率(π)的差异称为率
的抽样误差(sampling error of rate) ，用
率的标准误（standard error of rate）度
量。
p
(1 )
n
如果总体率π未知，用
样1 本率p估计
(‰)、万分率(1/万)或十万分率(1/10万)等表示。使计算结果保留1～2位整数。平均率不能由各组率相加后求平均，应为分子合计除以分母合计。
16
例几种药物不良反应发生情况
(‰)
半合成青霉素不良反应发生水平最高，达35.5‰ 总发生率：87/3803=22.9 ‰
17
率常用统计指标
发病率
For a given phenomenon, the chi-square test compares the actual frequencies (A) with the theoretical frequencies (T).
➢实际频数(A) : observed frequencies ➢理论频数(T). : calculated from some
50
1、样本率与总体率的比较
条件：当样本率的分布近似服从正态分布时，样本率p与已知总体率π0的比较，可用 u检验
公式：
➢式中，π0：总体率，一般为理论值、经验值或大量观察得到的稳定值。
51
例4.6 根据以往经验，一般胃溃疡患者中有20%发生胃出血症状。某医院观察65岁以上溃疡病患者152例，有31.6%的患者出现胃出血症状。问老年人溃疡病患者是否容易发生胃出血？
55
例4.7 调查两个城市的甲状腺肿患病率，其中甲市调查3315例，甲状腺肿患病率为1.78%，乙市调查 3215例，患病率为5.60%，问两个城市甲状腺肿患病率有无差别？
1）建立假设，确定检验水准
56
2）计算u值
57
3）确定P值，做出结论
58
当样本量不大，或几个率进行比较时 ——2检验
计算公式：
相对比
甲指标乙指标
(100%)
两个指标可以性质相同，也可以性质不相同；可以是相对数、绝对数或平均数等。
20
21
4、动态数列（dynamic series）
概念：指一系列按时间顺序排列起来的统计指标(包括绝对数、相对数和平均数)，用以说明事物在时间上的变化和发展趋势。
常用指标：有绝对增长量、发展速度和增长速度、平均发展速度与平均增长速度。
26
正确计算平均率
➢不能将这几个率直接相加求其均值，而应将各个率的分子、分母分别相加后，再求总率即平均率
相互比较时注意可比性
➢除研究因素不同外，其他影响研究结果的因素应尽可能相同或相近
➢研究对象同质、方法相同、其他基本条件一致、 ➢内部构成要相同，不同则进行率的标化后再比较 ➢同一地区不同时期资料的比较，应注意客观条件
hypothesis.
62
Suppose you toss a coin 100 times
➢H: 40 times ➢T: 60 times
If you hypothesize that the coin is fair,
➢theoretical : 50 times each.
的变化
27
样本率或构成比的比较应进行假设检验
➢样本率（或构成比）是通过抽样得到的，存在抽样误差，因此不能只凭数值表面相差的大小作结论，应进行差别的假设检验。
28
三、标准化法
29
为什么要进行标化
30
1、标化法的基本思想
当两组资料进行比较时，如果其内部不同小组率有明显差别，而且各小组内部构成也明显不同，直接比较不合理。
第四章分类变量资料的统计分析
statistical analysis for categorical data
李云
1
简要回顾
数值变量分类变量：将观察单位按事物的某种属性
或类别进行分组，再清点每组观察单位的个数得到的资料。
2
简要回顾
数值资料
Example
统计描述
均数、标准差
统计分析
参数估计总体均数估计
36
3.标准化率已经不再反映当时当地的实际水平，它只是表示相互比较的资料间在共同标准下的相对水平，用于比较。
4.两样本标准化率是样本值，存在抽样误差。比较两样本的标准化率，当样本含量较小时，应作假设检验。
37
第二节分类变量资料的统计推断
38
统计推断
用样本信息推论总体特征的过程。
包括：参数估计: 运用统计学原理，用从样本计算出来的
10
一、常用的相对数指标
构成比( proportion) 率(rate) 比(ratio) 动态数列(dynamic series)
11
1、构成比( proportion)
概念：说明某一事物内部各组成部分所占的比重，常以百分数表示，又称比例。
计算公式：
构成比
某一组成部分的观察单位数同一事物各组成部分的观察单位总数 100%
12
例：手术前后胸腔积液白细胞分类
13
构成比特点：
各部分构成比的总和为100％，值在0-1间变动；
某部分构成比发生变化时，其他部分也相应变化。
14
2、率(rate)
定义：一定时间内，实际发生某现象的观察单位数与可能发生该现象的观察单位总数之比。
计算公式：K比例基数
15
关于率…
用以说明某现象发生的频率或强度 K：比例基数，常用百分率(%)、千分率
来估计总体率所在的范围，即计算总体率的1-α置信区间。这里，α一般取0.05 或0.01
➢查表法： ➢正态近似法
45
查表法
对于小样本资料(n≤50)，可根据样本阳性例数X及样本例数n，直接查二项分布参数 π的置信区间表，
例：某新药的毒理研究中，用20只小白鼠作
急性毒性实验，死亡3只，估计该药急性致死率的95%可信区间。
统计指标量，对总体统计指标量进行估计。
假设检验：又称显著性检验，是指由样本间存在的差别对样本所代表的总体间是否存在着差别做出判断。
39
简要回顾
分类资料
Example