医学统计(11)

合集下载

医学统计学课后习题答案

医学统计学课后习题答案 Revised by Jack on December 14,2020医学统计学第一章绪论答案名词解释：（1）同质与变异：同质指被研究指标的影响因素相同，变异指在同质的基础上各观察单位（或个体）之间的差异。

（2）总体和样本：总体是根据研究目的确定的同质观察单位的全体。

样本是从总体中随机抽取的部分观察单位。

（3）参数和统计量：根据总体个体值统计算出来的描述总体的特征量，称为总体参数，根据样本个体值统计计算出来的描述样本的特征量称为样本统计量。

（4）抽样误差：由抽样造成的样本统计量和总体参数的差别称为抽样误差。

（5）概率：是描述随机事件发生的可能性大小的数值，用p 表示（6）计量资料：由一群个体的变量值构成的资料称为计量资料。

（7）计数资料：由一群个体按定性因数或类别清点每类有多少个个体，称为计数资料。

（8）等级资料：由一群个体按等级因数的级别清点每类有多少个体，称为等级资料。

是非题：1. ×2. ×3. ×4. ×5. √6. √7. ×单选题：1. C2. E3. D4. C5. D6. B第二章计量资料统计描述及正态分布答案名词解释：1. 平均数是描述数据分布集中趋势（中心位置）和平均水平的指标2. 标准差是描述数据分布离散程度（或变量变化的变异程度）的指标3. 标准正态分布以μ服从均数为0、标准差为1的正态分布，这种正态分布称为标准状态分布。

4. 参考值范围参考值范围也称正常值范围，医学上常把把绝大多数的某指标范围称为指标的正常值范围。

填空题：1. 计量，计数，等级2. 设计，收集资料，分析资料，整理资料。

3. σμχ-=u （变量变换）标准正态分布、0、1 4. σ± σ96.1± σ58.2± % 95% 99%5. %6.均数、标准差7. 全距、方差、标准差、变异系数8. σμ96.1± σμ58.2±9. 全距 R10. 检验水准、显着性水准、、（）11. 80% 90% 95% 99% 95%12. 95% 99%13. 集中趋势、离散趋势14. 中位数15. 同质基础，合理分组16. 均数，均数，μ，σ，规律性17. 标准差18. 单位不同，均数相差较大是非题：1. ×2. √3. ×4. ×5. ×6. √7. √8. √9. √ 10. √11. √ 12. √ 13. × 14. √ 15. √ 16. × 17. × 18. × 19. √ 20. √21. √单选题：1. B2. D3. C4. A5. C6. D7. E8. A9. C 10. D11. B 12. C 13. C 14. C 15. A 16. C 17. E 18. C 19. D 20. C21. B 22. B 23. E 24. C 25. A 26. C 27. B 28. D 29. D 30. D31. A 32. E 33. D 34. A 35. D 36. D 37. C 38. E 39. D 40. B41. C 42. B 43. D 44. C 45. B问答题：1．均数﹑几何均数和中位数的适用范围有何异同答:相同点,均表示计量资料集中趋势的指标。

医学统计学11卡方检验

卡方值和P值
卡方值是由卡方检验计算得出的统计量，用于判断观察值和期望值是否有显著差异。
卡方检验的使用场景
医学研究
卡方检验常用于分析医学疾病流行病学数据，如患病率、死亡率等。
市场调研
卡方检验可以帮助企业了解顾客满意度，分析产品销售情况，进行市场调研。
质量控制
卡方检验可以用于控制产品质量，分析产品合格率、不良品率等，确定生产工艺是否正确。
计算卡方值
2
计算观察频数和期望频数，并按照公式
计算卡方值。
3
查找P值
查找卡方分布表中的临界值，以确定P值
做出结论
4
的大小。
比较P值和显著水平的大小，根据结论做出是否拒绝原假设的决策。
卡方检验的结果解释
P值的大小
P值越小，代表观察到的数据和期望值的差异越显著。
自由度的影响
自由度代表了数据可以变化的自由度，自由度越大，得到显著差异的概率越小。
卡方值的含义
卡方值越大，代表观察到的数据和期望值之间的差异越大，量
样本量过小可能导致卡方值不准确，无法判断相关性。
适用范围
卡方检验只能用于分析分类变量的相关性，无法用于连续变量。
误判率
卡方检验只能用于分析相关性，无法保证因果关系。
结论和要点
医学统计学11卡方检验
卡方检验是医学统计学中一项非常重要的方法，它可以检验两个或多个分类变量是否有显著差异。
卡方检验的基础知识
分类变量
卡方检验只能用于检验分类变量，即变量取值范围为有限个不同的类别，如血型、肿瘤分期等。
原假设和备择假设
原假设是指我们要检验的假设，而备择假设则是对原假设的一个补充或对立的假设。

医学统计学11卡方检验

理论数计算
某班100名学生，其中女生40名，男生60名，现在评选优秀学生20名，问1）假设如果男女优秀生相同，男女生优秀生和非优秀生各多少名？ 2）现在男女优秀生各10人，问男女生优秀生率有无差别？解：女生优秀数为T11= 女生非优秀数为T12= 男生优秀数为T21= 男生非优秀数为T22=
分组改善无改善合计有效率(%)
试验组对照组合计
23 11 34
2 6 8
25 17 42
92 64.71 80.95
问两组病人的改善及恢复正常率有无差别。
解由于 n=42>40 ，且有格子的理论数 1<T12=4.76<5，1<T22=3.24<5，所以不能应用χ 2检验的基本公式，而应使用四格表χ 2检验的连续性校正公式计算χ 2统计量。
χ2分布曲线
.5
.4
ν=1
.3
.2
ν=3 ν=6
.1
ν=10
0.0 0 5 10 15 20 25
3.判断与决策
按照α =0.05的检验水准，拒绝 H0 ，接受 H1 ，两个总体有效率的差异有统计学意义。专业结论磁场疗法治疗腰部扭伤和腰肌劳损的治疗效果不相同。
4.CHISS软件实现
步骤如下：点击数据→文件→打开数据库表→找到文件名：b10-1.DBF→确认。 (2)进入统计模块：进行相应的统计计算，具体操作为点击统计→统计推断→pearson卡方反应变量：有效、无效→期望频数→确认。 (3)进入结果模块：点击结果。
分组 A1 B1 B2
A2
合计
a c
a+c
b d
b+d

医学统计学选择(全部答案,仅供参考)

习题《医学统计学》第二版（七年制临床医学用）（一）最佳选择题1.描述一组偏态分布资料的变异度，以（）指标较好。

A. 全距B. 标准差C. 变异系数D. 四分位数间距E．方差2.用均数和标准差可以全面描述（）资料的特征。

A. 正偏态分布B. 负偏态分布C. 正态分布D. 对称分布E．对数正态分布3.各观察值均加（或减）同一数后（）。

A. 均数不变，标准差改变B. 均数改变，标准差不变C. 两者均不变D. 两者均改变E．以上都不对4.比较身高和体重两组数据变异度大小宜采用（）。

A. 变异系数B. 方差C. 极差D. 标准差E．四分位数间距5.偏态分布宜用（）描述其分布的集中趋势。

A. 算术均数B. 标准差C. 中位数D. 四分位数间距E．方差6.各观察值同乘以一个不等于0的常数后，（）不变。

A．算术均数 B. 标准差C. 几何均数D. 中位数E．变异系数7.（）分布的资料，均数等于中位数。

A. 对数正态B. 正偏态C. 负偏态D. 偏态E．正态8.对数正态分布是一种（）分布。

（说明：设X变量经Y=lg X变换后服从正态分布，问X变量属何种分布？）A. 正态B. 近似正态C. 左偏态D. 右偏态E．对称9.最小组段无下限或最大组段无上限的频数分布资料，可用（）描述其集中趋势。

A. 均数B. 标准差C. 中位数D. 四分位数间距E．几何均数10.血清学滴度资料最常用来表示其平均水平的指标是（）。

A.算术平均数B.中位数C.几何均数D.变异系数E．标准差11．（）小，表示用该样本均数估计总体均数的可靠性大。

A. CVB. SC. σXD. RE.四分位数间距12．两样本均数比较的t 检验，差别有统计学意义时，P 越小，说明（）。

A.两样本均数差别越大B.两总体均数差别越大C.越有理由认为两总体均数不同D.越有理由认为两样本均数不同E.越有理由认为两总体均数相同13. 甲乙两人分别从同一随机数字表抽得30个(各取两位数字)随机数字作为两个样本，求得1X 和21S ；2X 和22S ，则理论上（）。

《医学统计学》习题及答案.

一、最佳选择题1．卫生统计工作的步骤为 cA.统计研究调查、搜集资料、整理资料、分析资料B.统计资料收集、整理资料、统计描述、统计推断C.统计研究设计、搜集资料、整理资料、分析资料D.统计研究调查、统计描述、统计推断、统计图表E.统计研究设计、统计描述、统计推断、统计图表2．统计分析的主要内容有A.统计描述和统计学检验B.区间估计与假设检验C.统计图表和统计报告D.统计描述和统计推断E.统计描述和统计图表3．统计资料的类型包括A.频数分布资料和等级分类资料B.多项分类资料和二项分类资料C.正态分布资料和频数分布资料D.数值变量资料和等级资料E.数值变量资料和分类变量资料4．抽样误差是指A.不同样本指标之间的差别B.样本指标与总体指标之间由于抽样产生的差别C.样本中每个体之间的差别D.由于抽样产生的观测值之间的差别E.测量误差与过失误差的总称5.统计学中所说的总体是指A.任意想象的研究对象的全体B.根据研究目的确定的研究对象的全体C.根据地区划分的研究对象的全体D.根据时间划分的研究对象的全体E.根据人群划分的研究对象的全体6．描述一组偏态分布资料的变异度，宜用A.全距B.标准差C.变异系数D.四分位数间距E.方差7．用均数与标准差可全面描述其资料分布特点的是A.正偏态分布B.负偏态分布C.正态分布和近似正态分布D.对称分布E.任何分布8．比较身高和体重两组数据变异度大小宜采用A.变异系数B.方差C.极差D.标准差E.四分位数间距9．频数分布的两个重要特征是A.统计量与参数B.样本均数与总体均数C.集中趋势与离散趋势D.样本标准差与总体标准差E.样本与总体10．正态分布的特点有A.算术均数=几何均数B.算术均数=中位数C.几何均数=中位数D.算术均数=几何均数=中位数E.以上都没有11．正态分布曲线下右侧5％对应的分位点为A.μ+1.96σB.μ-1.96σC.μ+2.58σD.μ+1.64σE.μ-2.58σ12．下列哪个变量为标准正态变量 A.s x μ- B.σμ-x C. x s x μ- D.x x σμ- E. s x μ- 13．某种人群（如成年男子）的某个生理指标（如收缩压）或生化指标（如血糖水平）的正常值范围一般指A.该指标在所有人中的波动范围B.该指标在所有正常人中的波动范围C.该指标在绝大部分正常人中的波动范围D.该指标在少部分正常人中的波动范围E.该指标在一个人不同时间的波动范围14．下列哪一变量服从t 分布 A. σμ-x B. σμ-x C. x x σμ- D. x s x x - E. xs x μ- 15.统计推断的主要内容为A.统计描述与统计图表B.参数估计和假设检验C.区间估计和点估计D.统计预测与统计控制E.参数估计与统计预测16．可信区间估计的可信度是指A.αB.1-αC.βD.1-βE.估计误差的自由度17．下面哪一指标较小时可说明用样本均数估计总体均数的可靠性大A.变异系数B.标准差C.标准误D.极差E.四分位数间距18．两样本比较作t 检验，差别有显著性时，P 值越小说明A.两样本均数差别越大B.两总体均数差别越大C.越有理由认为两总体均数不同D.越有理由认为两样本均数不同E. I 型错误越大19．两样本比较时，分别取以下检验水准，哪一个的第二类错误最小A.α=0.05B.α=0.01C.α=0.10D.α=0.20E.α=0.0220.当样本含量n 固定时，选择下列哪个检验水准得到的检验效能最高A.α=0.01B.α=0.10C.α=0.05D.α=0.20E.α=0.0221.在假设检验中，P 值和α的关系为A. P 值越大，α值就越大B. P 值越大，α值就越小C. P 值和α值均可由研究者事先设定D. P 值和α值都不可以由研究者事先设定E. P 值的大小与α值的大小无关22.假设检验中的第二类错误是指A.拒绝了实际上成立的0HB.不拒绝实际上成立的0HC.拒绝了实际上成立的1HD.不拒绝实际上不成立的0HE.拒绝0H 时所犯的错误23.方差分析中，组内变异反映的是A. 测量误差B. 个体差异C. 随机误差，包括个体差异及测量误差D. 抽样误差E. 系统误差24.方差分析中，组间变异主要反映A. 随机误差B. 处理因素的作用C. 抽样误差D. 测量误差E. 个体差异25.多组均数的两两比较中，若不用q 检验而用t 检验，则A. 结果更合理B. 结果会一样C. 会把一些无差别的总体判断有差别的概率加大D. 会把一些有差别的总体判断无差别的概率加大E. 以上都不对26.说明某现象发生强度的指标为A.构成比B.相对比C.定基比D.环比E. 率27.对计数资料进行统计描述的主要指标是A.平均数B.相对数C.标准差D.变异系数E.中位数28.构成比用来反映A.某现象发生的强度B.表示两个同类指标的比C.反映某事物内部各部分占全部的比重D.表示某一现象在时间顺序的排列E.上述A 与C 都对29. 样本含量分别为1n 和2n 的两样本率分别为1p 和2p ，则其合并平均率c p 为A. 1p +2pB. （1p +2p ）/2C. 21p p ⨯D.212211n n p n p n ++ E.2)1()1(212211-+-+-n n p n p n 30.下列哪一指标为相对比A. 中位数B. 几何均数C. 均数D. 标准差E. 变异系数31.发展速度和增长速度的关系为A. 发展速度=增长速度一1B. 增长速度=发展速度一1C.发展速度=增长速度一100D.增长速度=发展速度一100E.增长速度=(发展速度一1)/10032.SMR 表示A.标化组实际死亡数与预期死亡数之比B.标化组预期死亡数与实际死亡数之比C.被标化组实际死亡数与预期死亡数之比D.被标化组预期死亡数与实际死亡数之比E.标准组与被标化组预期死亡数之比33.两个样本率差别的假设检验，其目的是A.推断两个样本率有无差别B.推断两个总体率有无差别C.推断两个样本率和两个总体率有无差别D.推断两个样本率和两个总体率的差别有无统计意义E.推断两个总体分布是否相同34.用正态近似法进行总体率的区间估计时，应满足A. n 足够大B. p 或（1-p ）不太小C. np 或n(1-p)均大于5D. 以上均要求E. 以上均不要求35.由两样本率的差别推断两总体率的差别，若P 〈0.05，则A. 两样本率相差很大B. 两总体率相差很大C. 两样本率和两总体率差别有统计意义D. 两总体率相差有统计意义E. 其中一个样本率和总体率的差别有统计意义36.假设对两个率差别的显著性检验同时用u 检验和2χ检验，则所得到的统计量u 与2χ的关系为A. u 值较2χ值准确B. 2χ值较u 值准确C. u=2χD. u=2χE. 2χ=u37.四格表资料中的实际数与理论数分别用A 与T 表示，其基本公式与专用公式求2χ的条件为A. A ≥5B. T ≥5C. A ≥5 且 T ≥5D. A ≥5 且n ≥40E. T ≥5 且n ≥4038.三个样本率比较得到2χ>2)2(01.0χ，可以为A.三个总体率不同或不全相同B.三个总体率都不相同C.三个样本率都不相同D.三个样本率不同或不全相同E.三个总体率中有两个不同39.四格表2χ检验的校正公式应用条件为A. n>40 且T>5B. n<40 且T>5C. n>40 且 1<T<5D. n<40 且1<T<5E. n>40 且T<140.下述哪项不是非参数统计的优点A.不受总体分布的限定B.简便、易掌握C.适用于等级资料D.检验效能高于参数检验E.适用于未知分布型资料41.秩和检验和t 检验相比，其优点是A. 计算简便，不受分布限制B.公式更为合理C.检验效能高D.抽样误差小E.第二类错误概率小42.等级资料比较宜用A. t 检验B. u 检验C.秩和检验D. 2χ检验E. F 检验43.作两均数比较，已知1n 、2n 均小于30，总体方差不齐且分布呈极度偏态，宜用A. t 检验B. u 检验C.秩和检验D. F 检验E.2χ检验44.从文献中得到同类研究的两个率比较的四格表资料，其2χ检验结果为：甲文)1(01.02χχ>，乙文2)1(05.02χχ>，可认为A.两文结果有矛盾B.两文结果基本一致C.甲文结果更可信D.乙文结果更可信E.甲文说明总体间的差别更大45.欲比较某地区1980年以来三种疾病的发病率在各年度的发展速度，宜绘制A.普通线图B.直方图C.统计地图D.半对数线图E.圆形图46.拟以图示某市1990～1994年三种传染病发病率随时间的变化，宜采用A.普通线图B.直方图C.统计地图D.半对数线图E.圆形图47.调查某地高血压患者情况，以舒张压≥90mmHg 为高血压，结果在1000人中有10名高血压患者，99名非高血压患者，整理后的资料是：A.计量资料B.计数资料C.多项分类资料D.等级资料E.既是计量资料又是分类资料48. 某医师检测了60例链球菌咽炎患者的潜伏期,结果如下。

医学统计学11卡方检验

别
阳性
阴性
合计
患病率(%)
1
14
15
6.7
10
计
18
32
28
43
35.7
25.6
11
24
H0：两组工人的皮肤炎患病率无差别，即π1=π2； H1：两组工人的皮肤炎患病率有差别，即π1≠π2；检验水准 =0.05。求得最小的理论频数T11=15×11/43=3.84, 1<T11<5且n=43>40，所以宜用 χ2检验的校正公式
100(10.0) 160( 6.4)
500
1000 2500
37
2值的计算
实际数A
450 190 300 410 250 250 100 40 350 40 20 100 376 158 376
理论数T
364 182 364 196 98 196 64 32 64
( Ai Ti )2 2 Ti
4
1.2 近似正态法
p 0
u
1
0 0
n
5
近似正态法

据临床经验，一般的胃溃疡病患者有20％会出现胃出血症状。某医院观察了304例65岁的胃溃疡病患者，其中有 96例发生胃出血，占31.58％，问老年患者是否较一般患者易出血？ H0：π=π0，老年胃溃疡病患者的胃出血率等于20％； H1：π>π0，老年胃溃疡病患者的胃出血率大于20％。单侧α=0.05
19.02 19.53 17.48 17.98 18.47 16.52
(28 19.02)2 (9 17.98)2 (18 19.53)2 (20 18.47)2 (10 17.48)2 (24 16.52)2 2 19.02 17.98 19.53 18.47 17.48 16.52 15.556

医学统计学试题及答案

医学统计学试题及答案习??题《医学统计学》第二版??（五年制临床医学等本科生用）（一）??单项选择题1．观察单位为研究中的( d??)。

A．样本? ?? ??B. 全部对象 C．影响因素? ?? ?????D. 个体2．总体是由（ c ）。

A．个体组成? ?? ?B. 研究对象组成 C．同质个体组成? ?? ? D. 研究指标组成3．抽样的目的是（b??）。

A．研究样本统计量? ?? ?? ???B. 由样本统计量推断总体参数C．研究典型案例研究误差? ???D. 研究总体统计量4．参数是指（b? ?）。

A．参与个体数? ???B. 总体的统计指标 C．样本的统计指标? ? ??D. 样本的总和5．关于随机抽样，下列那一项说法是正确的（ a ）。

A．抽样时应使得总体中的每一个个体都有同等的机会被抽取B．研究者在抽样时应精心挑选个体，以使样本更能代表总体C．随机抽样即随意抽取个体D．为确保样本具有更好的代表性，样本量应越大越好6.各观察值均加（或减）同一数后（ b ）。

A.均数不变，标准差改变? ?? ?B.均数改变，标准差不变C.两者均不变? ?? ?? ?? ?? ???D.两者均改变7.比较身高和体重两组数据变异度大小宜采用（ a??）。

A.变异系数? ??B.差C.极差? ?? ?? ?D.标准差8.以下指标中（? ?d）可用来描述计量资料的离散程度。

A.算术均数? ?B.几何均数C.中位数? ?? ?D.标准差9.偏态分布宜用（? ?c）描述其分布的集中趋势。

A.算术均数? ??B.标准差C.中位数? ??D.四分位数间距10.各观察值同乘以一个不等于0的常数后，（? ?b）不变。

A．算术均数? ??? B.标准差 C.几何均数? ?? ???D.中位数11.（ a??）分布的资料，均数等于中位数。

A.对称? ?B.左偏态C.右偏态? ?? ??D.偏态12.对数正态分布是一种（ c ）分布。

医学统计题库(210道)

医学统计1、医学统计学研究的对象是——[单选题]A 医学中的小概率事件B 各种类型的数据C 动物和人的本质D 有变异的医学现象E 疾病的预防与治疗正确答案：D2、用样本推论总体，具有代表性的样本通常指的是——[单选题]A 总体中最容易获得的部分个体的观测值B 在总体中随意抽取的部分个体的观测值C 挑选总体中有代表性的部分个体的观测值D 依照有利原则抽取的部分个体的观测值E 依照随机原则抽取的总体中部分个体的观测值正确答案：E3、下列观测结果属于有序数据的是——[单选题]A 收缩压测量值B 脉搏数C 住院天数D 病情程度E 四种血型正确答案：D4、随机测量误差指的是——[单选题]A 由某些固定的因素引起的误差B 由不可预知的偶然因素引起的误差C 选择样本不当引起的误差D 选择总体不当引起的误差E 由操作失误引起的误差正确答案：B5、系统误差指的是——[单选题]A 由某些固定的因素引起的误差B 由操作失误引起的误差C 样本量不够引起的误差D 样本统计量与总体参数间的误差E 由不可预知的偶然因素引起的误差正确答案：A6、抽样误差指的是——[单选题]A 由某些固定的因素引起的误差B 由操作失误引起的误差C 样本量不够引起的误差D 样本统计量与总体参数间的误差E 由不可预知的偶然因素引起的误差正确答案：D7、收集数据不可避免的误差是——[单选题]A 随机误差B 系统误差C 过失误差D 记录误差E仪器故障误差正确答案：A8、统计学中所谓的总体通常指的是——[单选题]A 自然界中的所有研究对象B 概括性的研究结果C 同质观察单位的全体D 所有的观察数据E 具有代表性意义的数据正确答案：C9、统计学中所谓的样本通常指的是——[单选题]A 可测量的生物性样品B 统计量C 某一变量的测量值D 数据中的一部分观测值E 总体中有代表性的一部分观察单位正确答案：E10、医学研究中抽样误差的主要来源是——[单选题]A 测量仪器不够准确B 检测出现错误C 统计设计不合理D 生物个体的变异E 样本选择不合适正确答案：D11、统计学的主要作用是——[单选题]A 使分析更为简单B 避免计算出现错误C 改善数据质量D 克服个体变异的影响E 探测随机现象的规律正确答案：E12、概率描述的是( C )——[单选题]A 总体具有的特征B 数据具有的特征C 随机事件发生的可能性D 数据的准确性E 随机现象的规律性正确答案：C13、概率分布表示(E )——[单选题]A 总体具有的特征B 数据具有的特征C 偶然现象发生的可能性D 某事件发生可能性大小E 随机变量的可能取值和出现的概率正确答案：E14、统计描述结果的主要表达方式是(——[单选题]A 统计指标、统计表和统计图B 描述数据特征C P值D 概率分布E 抽样误差正确答案：A15、研究尿激酶原治疗心肌梗死的疗效，以瑞替普酶作为对照，该项研究包含总体的数目是——[单选题]A 1B 2C 3D 4E 5正确答案：C16、某医学资料数据大的一端没有确定数值，描述其集中趋势适用的统计指标是——[单选题]A 中位数B 几何均数C 均数D P百分位数E 频数分布正确答案：A17、算术均数与中位数相比，其特点是——[单选题]A 不易受极端值的影响B 能充分利用数据的信息C 抽样误差较大D 更适用于偏态分布资料E 更适用于分布不明确资料正确答案：B18、将一组定量资料整理成频数表的主要目的是——[单选题]A 化为计数资料B 便于计算C 提供原始数据D 能够更精确地检验E 描述数据的分布特征正确答案：E19、 6人接种流感疫苗一个月后测定抗体滴度为 1:20,1:40,1:80,1:80,1:160,1 :320,求平均滴度应选用的指标是——[单选题]A 均数B 几何均数C 中位数D 百分位数E 倒数的均数正确答案：B20、变异系数主要用于——[单选题]A 比较不同计量指标的变异程度B 衡量正态分布的变异程度C 衡量测量的准确度D 衡量偏态分布的变异程度E 衡量样本抽样误差的大小正确答案：A21、对于正态或近似正态分布的资料，描述其变异程度应选用的指标是——[单选题]A 变异系数B 离均差平方和C 极差D 四分位数间距E 标准差正确答案：E22、已知动脉硬化患者载脂蛋白B的含量(mg/dl)呈明显偏态分布，描述其个体差异的统计指标应使用——[单选题]A 全距B 标准差C 变异系数D 方差E 四分位数间距正确答案：E23、一组原始数据的分布呈正偏态分布，其数据的特点是——[单选题]A 数值离散度大B 数值离散度小C 数值偏向较大的方向D 数值偏向较小的方向E 数值分布不均匀正确答案：D24、对于正偏态分布总体,其均数与中位数的关系是——[单选题]A 均数与中位数相同B 均数大于中位数C 均数小于中位数D 两者有一-定的数量关系E 两者的数量关系不定正确答案：B25、在衡量数据的变异度时,标准差与方差相比，其主要特点是——[单选题]A 标准差小于方差B 标准差大于方差C 标准差更容易计算D 标准差更为准确E 标准差的计量单位与原始数据相同正确答案：E26、组数据改变计量单位后,其相应的标准差——[单选题]A 变大B 变小C 不改变D 变大或变小E 等于之前的标准差加上一个常数正确答案：D27、欲比较某地成年男子的舒张压和收缩压的变异程度大小，应采用的指标是——[单选题]A 标准差B 方差C 极差D 四分数间距E 变异系数正确答案：E28、比较健康人群血肌酐和尿素氮的变异水平，应采用的指标是——[单选题]A 标准差B 百分位数C 极差D 四分数间距E 变异系数正确答案：E29、中位数与算数均数相比,其特点是——[单选题]A 容易计算B 计算出的结果更为可靠C 不易受异常值影响D 更适合对称分布的数据E 由样本数据计算出的结果稳定正确答案：C30、应用百分位数P95,需要的条件是——[单选题]A 数据服从正态分布B 数据的变异较小C 不能有异常值D 样本含量比较大E 随机样本正确答案：E31、两数值变量的相关关系越强,对应的是——[单选题]A 相关系数越大B 相关系数的绝对值越大C 回归系数越大D 回归系数的绝对值越大E 相关系数检验统计量的t值越大正确答案：B32、回归分析的决定系数R越接近于1，说明——[单选题]A 相关系数越大B 回归方程的显著程度越高C 因变量的变异越大D 因变量的变异越小E 自变量对因变量的影响越大正确答案：E33、对两变量X和Y作线性相关分析，要求的条件是——[单选题]A X和Y服从双变量正态分布B X服从正态分布C Y服从正态分布D X和Y有回归关系E X和Y至少有一个服从正态分布正确答案：A34、两组资料对相同的自变量X和因变量Y作回归分析，直线回归系数b较大的一组,表示——[单选题]A 相关系数r也较大B 假设检验的P值较小C 决定系数R2较大D 决定系数R2较小E Y随X变化其数量有更大的变化正确答案：E35、1~7岁儿童可以用年龄(岁)估计体重(市斤)，回归方程为Y=14+4X，若将体重换成国际单位kg,则此方程( ( )——[单选题]A 常数项改变B 回归系数改变C 常数项和回归系数都改变D 常数项和回归系数都不改变E 决定系数改变正确答案：C36、对同一资料进行线性回归与相关分析时，下列正确的情形是——[单选题]A ρ=0时,r=0B ρ>0时,b>0C r>0 时,b<0D r<0时,b<0E ρ<0时,r<0正确答案：D37、下列双变量中,适用于进行线性相关分析的是——[单选题]A 年龄与体重B 民族与血型C 体重与体表面积D 母亲文化水平与子女的智商E 工龄与患病率正确答案：C38、若直线回归系数的假设检验结果P<0.05，则可认为两变量间——[单选题]A 有密切的关系B 有一定的因果关系C 相关关系密切D 存在数量依存关系E 有较强的回归关系正确答案：D39、作线性相关分析时，当n=12,r=0.767,查r界值表r0.001/2，10=0. 823，r0.002/2,10=0.795 ,r0.005/2,10=0.750，则P值范围为——[单选题]A 0.001<P<0. 002B P<0.001C P<0. 002D P>0. 005E 0.002<P<0.005正确答案：E40、通过线性回归分析，得决定系数R2=0.49,P<0.05,这一结果说明的是——[单选题]A 两个变量具有回归关系B 一定有相关系数r=0.70C MS回归>MS残差D SS回归>SS残差E Y的总变异有49%可以由X的变化解释正确答案：E41、用最小二乘法建立线性回归方程的原则是保证各实调点到回归直线的——[单选题]A 纵向距离的离均差最小B 纵向距离的平方和最小C 垂直距离相等D 垂直距离的平方和最小E 纵向距离等于零正确答案：B42、进行线性回归分析，合理的直观分析方法是——[单选题]A 计算回归系数B 判定回归系数的性质C 计算截距或常数项D 绘制散点图E 作回归直线正确答案：D43、对同一资料进行直线回归与相关分析，回归方程为Y=a+bX，相关系数为r，则在相同的检验水准α下，两者假设检验结果的关系是——[单选题]A b显著r一定显著B a显著r一定显著C b显著r不一定显著D r显著b不一定显著E b和r检验结果近似相同正确答案：A44、对同一资料进行直线回归与相关分析，回归方程为Y=a+bX，相关系数为r，SX和SY分别为自变量和因变量的标准差,则得到的b和r关系是——[单选题]A b=rSX/SYB b=rSY/SXC b=rSYSXD r=bSXSYE r=bSY/SX正确答案：B45、利用回归方程Y=a+bX进行预测时，在一定的x取值上得到的估计值Y的含义是——[单选题]A Y的实测值B Y的最可能取值C Y的可信区间D 均值E 中位数正确答案：D46、在疾病发生危险因素的研究中，采用多变量回归分析的主要目的是——[单选题]A 节省样本B 提高分析效率C 克服共线影响D 减少异常值的影响E 减少混杂的影响正确答案：E47、多元线性回归分析中,反映回归平方和在因变量Y的总离均差平方和中所占比重的统计量是——[单选题]A 简单相关系数B 复相关系数C 偏回归系数D 回归均方E 决定系数R2正确答案：E48、对同一资料作多变量线性回归分析，若对两个具有不同个数自变量的回归方程进行比较,应选用的指标是——[单选题]A 决定系数B 相关系数C 偏回归平方和D 校正决定系数E 复相关系数正确答案：D49、多元线性回归分析中，反映自变量对因变量的作用大小的是(——[单选题]A 决定系数B 标准化偏回归系数C 偏回归平方和D 校正决定系数E 复相关系数正确答案：B50、逐步回归分析中，若增加引人的自变量,则——[单选题]A 回归平方和与残差平方和均增大B 回归平方和与残差平方和均减少C 总平方和与回归平方和均增大D 回归平方和增大,残差平方和减少E 总平方和与回归平方和均减少正确答案：D51、多元线性回归分析，对回归方程作方差分析，检验统计量F值反映了——[单选题]A 所有自变量与因变量间是否存在线性回归关系B 部分自变量与因变量间是否存在线性回归关系C 自变量与因变量间存在的线性回归关系是否较强D 自变量之间是否存在共线E 回归方程的拟合优度正确答案：A52、在多元回归分析中，若对某个自变量的值都乘以一个不为零的常数，则——[单选题]A 偏回归系数不变、标准回归系数改变B 偏回归系数改变、标准回归系数不变C 偏回归系数与标准回归系数均不改变D 偏回归系数与标准回归系数均改变E 偏回归系数和决定系数均改变正确答案：B53、在多元回归分析中，若对某个自变量的值都加上一个不为零的常数k,则——[单选题]A 截距和该偏回归系数值均不变B 该偏回归系数值为原有偏回归系数值的k倍C 该偏回归系数值会改变,但无规律D 截距改变，但所有偏回归系数值均不改变E 所有偏回归系数值均不会改变正确答案：D54、以下不是多元线性回归模型应用必须满足的条件是——[单选题]A 因变量与自变量存在线性关系B 因变量值相互独立C 残差服从正态分布D 自变量服从正态分布E 对任意一组自变量因变量具有相同方差正确答案：D55、多元线性回归中的多重共线性指的是——[单选题]A 因变量与自变量存在线性关系B 因变量与多个自变量相关C 自变量之间存在线性相关D 因变量之间存在线性相关E 因变量与部分自变量存在线性关系正确答案：C56、在数据分析阶段，控制混杂因素的方法是——[单选题]A 删除混杂因素变量B 与研究因素同时引入模型C 将数据标准化后D 对各单变量分别进行分析E 计算标准回归系数正确答案：B57、多元回归Xj的偏回归平方和Uj指的是( )——[单选题]A 混杂因素Xj的回归平方和B 单变量Xj分析得到回归平方和C 模型中包含Xj的回归平方和D 总平方和减去Xj的回归平方和E 有无Xj回归平方和的改变量正确答案：E58、标准化回归系数bj'可用于衡量自变量xj对因变量Y的作用,Sj和SY分别是两个变量的标准差，其计算公式为( )——[单选题]A bj'=bjSj/SYB bj'=bjSY/SjC bj'=bjD bj'=b(Sj/SY)^0.5E bj'=b(SY/SX)^0.5正确答案：A59、多元分析中具有k个分类的变量化作哑变量的方法是——[单选题]A 给各分类赋予k个分值B 根据分类编码进行定量C 化作k-1个0-1变量D 化作k个0-1变量E 化作k+1个0-1变量正确答案：C60、现测量了102名患有动脉硬化惠者的血脂，因变量为低密度脂蛋白与高街度脂蛋白含量比值(Y),建立的回归方程为Y=8.837+0, 014TC-0.001TG-0. 033ApoA1+0.011ApoB，假如其他指标不变,ApoB由100mg/dl增加到120m/dl,Y的平均改变量是——[单选题]A 0.110B 1.248C 20.000D 3.644E 0.220正确答案：E61、 logistic回归分析适用于因变量为()——[单选题]A 二分类变量资料B 连续型的计量资料C 正态分布资料D 正偏态分布资料E 负偏态分布资料正确答案：A62、 logistic回归模型中自变量不可以直接使用的是()——[单选题]A 二分类变量B 连续型的计量资料C 无序多分类变量D 有序分类变量E 两端无确定数值的变量正确答案：E63、条件logistic回归与非条件logistic回归的主要差别是——[单选题]A 非条件logistic 回归没有任何假定条件B 回归系数的意义不同C 参数估计的似然函数不同D 假设检验使用的统计量不同E 条件logistic 回归要求因变量服从正态分布正确答案：C64、欲研究糖尿病与年龄、高血压和肥胖之间的关系,不可以采用的检验统计量是(——[单选题]A Wald 检验统计量B 似然比检验统计量C z检验统计量D F检验统计量E 卡方检验统计量正确答案：D65、 logistic回归分析不适合应用的是(——[单选题]A 是否发生疾病的预测B 慢性病的危险因素分析C 估计近似相对危险度D 多种药物的联合作用E 传染病的危险因素分析正确答案：E66、 logistic回归系数β的流行病学意义是()——[单选题]A 比数比OR值B 相对危险度RR值C OR值的自然对数值D RR 值的自然对数E 发病率P的改变量正确答案：C67、下列资料适合作logistic 回归分析的是()——[单选题]A 身高与体重的关系B 冠心病危险因素的筛选C 传染病发病概率的估计D 男性与女性肺癌发病率的比较E 不同剂量高血压药物的作用正确答案：B68、在500名病例与500名对照的匹配别例-对照研究中，有400名病例与100名对照有暴露史。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• 设臵选项 • 设臵进入、删除的概率。
• 第3步：线性回归（7）
• 结果解读：逐步回归指标进入的过程
• 第3步：线性回归（8）
• 结果解读：复相关系数和决定系数
• 第3步：线性回归（9）
• 结果解读：回归模型的方差分析
• 第3步：线性回归（10）
• 结果解读：回归方程： • 血红蛋白=1.129+0.031*血铁-0.043*血钙
1.根据样本数据求得模型参数的估计值，得到应变量与自变量数量关系的表达式：
ˆ b0 b1 x1 b2 x2 ...... bm xm y
•2.对回归方程及各自变量作假设检验，并对方程的拟和效果及各自变量的作用大小作出评价.
多元线性回归方程的建立：
模型参数的估计：（最小二乘法，使残差平方和最小）
两种变量
自变量 (independent variable) 应变量 (dependent variable)
x
y
两种关系
函数关系——函数方程:
x , y 呈
确定性关系
y = a + bx
回归关系——回归方程:
Yˆ = a + bx
x , y 呈非
确定性关系
直线回归是分析两变量间线性依存变化的数量的关系
的资料，可用非条件logistic回归和条件logistic回归
进行分析。非条件logistic回归多用于非配比病例-对照研究或队列研究资料，条件logistic回归多用于配对或配比资料。（2）多分类资料logistic回归：因变量为多项分类的资料，可用多项分类logistic回归模型或有序分类 logistic回归模型进行分析。
•ε:残差，是指去除m个自变量对Y的影响后的随机误差。
多元线性回归模型的应用条件：
1.线性趋势：Y与Xi间具有线性关系。
2.独立性：应变量Y的取值相互独立。
3.正态性：对任意一组自变量取值，因变量Y 服从正态分布。 4.方差齐性：对任意一组自变量取值，因变量 y的方差相同。
多元线性回归的分析步骤：
l11b1 l12b2 l1mbm l1Y
l21b1 l22 b2 l2 m bm l2Y lm1b1 lm2b2 lmm bm lmY
b0 Y （b1 X1 b2 X 2 bm X m）
14
• 多重线性回归方程的检验 • 整体回归效应的检验——方差分析法
2.样本含量：
n至少是X个数m的5～10倍
3.关于逐步回归：
不要盲目信任，结合专业知识。 4.多重共线性：
指自变量之间存在较强的线性关系
提示可能存在多重共线性的情况：
整个模型的检验结果为P<α，但各自变量的偏
回归系数的检验结果P>α。
专业上认为应该有统计学意义的自变量检验结果
却无统计学意义。自变量的偏回归系数取值大小甚至符号明显与实际情况相违背，难以解释。增加或删除一个自变量或一条记录，自变量回归系数发生较大变化。
• 3.计算决定系数
• 4.偏回归系数检验
SPSS软件操作
• 第1步：定义变量
• 第2步：输入原始数据
• 第3步：线性回归（1）
• 选择分析→ 回归→ 线性（L）
• 第3步：线性回归（2）
• 将X1-3和Y分别移入自变量和因变量，方法选择进入
• 第3步：线性回归（3）
• 结果解读：回归方程的方差分析
I0 c / n0
•多个因变量 •(y1,y2,…yk)
•路径分析
•结构方程模型分析
多重线性回归 logistic回归
多重线性回归 logistic回归
直线回归的概念
直线回归(linear regression)又称简单线性回归(simple linear regression)，是描述两变量的线性依存关系，它的任务就是找出一条最能描述变量间非确定性关系的一条直线，此直线为回归直线，相应的方程为直线回归方程。
• •第第3 3步：线性回归（步：线性回归（2 2））
• • 将将X1-4 X1-3和和Y Y分别移入自变量和因变量，方法选择逐步分别移入自变量和因变量，方法选择逐步
• 第3步：线性回归（3）
• 设臵选项 • 设臵进入、删除的概率。

• 第3步：线性回归（4）
• 结果解读：逐步回归指标进入的过程
• 决定系数R2
•R2在0-1之间，说明自变量能够解释Y变化的百分比。 •R为复相关系数，可用来度量应变量Y与多个自变量间的线性相关程度。
• 偏回归系数的t检验
【例1】观察30名儿童血中血红蛋白、钙、镁、铁的含量。试研究血红蛋白与微量元素的关系？
• 1.求多重线性回归方程
• 2.对回归方程进行检验
新生儿体重(Y)=b0+b1胎儿孕龄(X1)+ b2 胎儿头径(X2)+ b3胎儿胸径(X3)+ b4胎儿腹径(X4)
3.统计控制:
利用回归方程进行逆估计，确定Y后控制X 。
采用射频治疗仪治疗脑肿瘤：脑皮质毁损半径(Y) =b0+b1射频温度(X1)+ b2照射时间(X2)
多元线性回归应用的注意事项
【例2】27名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表中，试建立血糖与其它几项指标关系的多元线性回归方程。
•。。。。。。。。。
SPSS软件操作
• 第1步：定义变量
• 第2步：输入原始数据
• 第3步：线性回归（1）
• 选择分析→ 回归→ 线性（L）
自变量选择的常用算法
1、进入法（Enter）: 预先选定的自变量全部进入回归模型，这是系统默认方式。
2、删除法（Remove）：根据设定的条件直接剔除部分自变量。
3、向前引入法（Forward）: 自变量由少到多一个一个引入回归方程，将与因变量的相关系数最大的第一个自变量选入方程并进行检验，如果F值>Fa ，拒绝H0 ；将其余的变量中与因变量的相关系数最大的第二个自变量选入方程，当F值>Fa ，拒绝H0 ；如此下去，不断引入新的自变量，直到不能拒绝H0，再没有变量被引入为止。
• 第3步：线性回归（5）
• 结果解读：复相关系数和决定系数
• 第3步：线性回归（6）
• 结果解读：回归模型的方差分析结果
• 第3步：线性回归（7）
• 结果解读：回归方程： • y=1.310+0.732*X4+0.678*X1
多元线性回归的应用
1.影响因素分析:通过自变量对应变量有无影响的分析，从而分析出影响因素及其重要程度
•a
•b •c
•a/(a+b)
•+
•研究人群
••+ •-
•-
•c/(c+d)
•d
•队列研究原理示意图
暴露组非暴露组
病例 a c
非病例 b d
合计 n1=a+b n0=c+d
发病率 a/ n1 c/ n0
相对危险度（relative risk， RR）也称危险比（risk ratio）或率比（rate ratio）。 RR I e a / n1 、 I e a / n1 、 I 0 c / n2
1.指标的数量化
应变量Y为连续变量
自变量X可为连续、有序分类或无序分类变量
(1)连续变量：X
(2)有序分类变量：
1 轻
X=2 中
3 重
(3)无序分类变量
自变量为二分类变量:
0 男
X= 1 女
自变量为多分类变量：假定有n类，则用n
－1个取值为0或1的哑变量来表示这些类别。
哑变量 X1 X2 X3 文盲 1 0 0 小学 0 1 0 中学 0 0 1 大学 0 0 0
例号 1 2 X1 X11 X21 X2 X12 X22 Xm X1m X2m Y Y1 Y2
n
Xn1
Xn2

Xnm
Yn
多元线性回归模型
一般形式为： Y=β0＋β1X1 ＋β2X2 ＋…＋βmXm ＋ε •β0 ：常数项,又称为截距。 •β1,β2,…,βm: 偏回归系数，表示在其它自变量保持不变时，Xi(i=1,2,…,m)每改变一个单位时，应变量Y的平均变化量。
年龄(X1) 饮食习惯(X2) 吸烟状况(X3) 工作紧张度(X4) 家族史(X5) 高血压(Y)
2.估计与预测:实际工作中某些指标是难以测定的,此时可通过建立这些指标与另一些容易测量指标的多重线性回归模型,用易测指标估计难测指标。
心脏表面积(Y)=b0+b1心脏横径(X1)+ b2心脏纵径(X2)+ b3心脏宽径(X3)
• 队列研究(cohort study)：也称前瞻性研究、随访研究等。是一种由因及果
的研究，在研究开始时，根据以往有无暴露经历，将研究人群分为暴露人群和非暴露人群，在一定时期内，随访观察和比较两组人群的发病率或死亡率。如果两组人群发病率或死亡率差别有统计学意义，则认为暴露和疾病间存在联系。队列研究验证的暴露因素在研究开始前已存在，研究者知道每个研究对象的暴露情况。 •调查方向：追踪收集资料 •暴露 •疾病 •+ •人数 •比较
消除共线性的方法：剔除、定义新变量、逐步回归…
多重线性回归 logistic回归
• logistic回归（logistic regression）是研究因变量为二分类或多分类观察结果与影响因素（自变量）之间关系的一种多变量分析方法，属概率型非线性回归。