两组计量资料平均水平的统计检验
两样本计量资料统计检验

两组计量资料平均水平的统计检验一、配对设计的均数检验统计方法选择原则:A.如果配对的差值服从近似正态分布(小样本)或大样本,则用配对t检验B.小样本的情况下,配对差值呈明显偏态分布,则用配对秩符号检验(matched-pairs signed-ranks test)。
(一)配对t检验配对t检验首先计算每对结果之差值,再将差值均数与0作比较。
如果两种处理的效应相同,则差值与0的差别无统计学意义。
检验假设H0:两种处理的效应相同,或总体差值均数为0Stata用于配对样本t检验的命令是:ttest 变量1=变量2例1:男性矽肺患者经克矽平治疗,其血红蛋白(g/dL)如下:表10例男性矽肺患者血红蛋白值(g/dL)病例号12345678910治疗前11.315.015.013.512.810.011.012.013.012.3治疗后14.013.814.013.513.512.014.711.413.812.0问:治疗前后的血红蛋白的平均水平有没有改变Stata数据输入结构操作如下:gen d=x1-x2 /*产生配对差值的变量d(1)正态性检验sktest d /*正态性检验Sdtest x,by(group)方差齐性检验sktest x if group==0正态性检验stata结果如下:正态性检验的无效假设H0:资料正态分布备选假设H!:资料非正态分布α=0.05,由于正态性检验的P值=0.4885>>α,故可以认为资料近似服从正态分布。
(2)配对T检验ttest d=0 /*配对t检验: H0:μd=0 ,H1:μd≠0,α=0.05 结果如下:足够的证据可以认为治疗前后的血红蛋白的总体平均数不同。
(二)配对符号秩和检验如果对于小样本的情况下,差值不满足正态分布,则用Match-Sign-rank test ,stata 命令为:signrank 变量1=变量2 或者 signrank 差值变量=0例:某研究者采用1:1配对方法将16例肝炎患者分别分在两种不同治疗方法组,测定其血中GPT 含量(iu/L ),资料如表9-6第(2)、(3)栏,问:用不同方法治疗的患者GPT 含量有无差别?表9-6 不同治疗方法的肝炎患者血中GPT 含量(iu/L )对子号 (1) 方法1 (2) 方法2 (3) 差值d (4)=(2)-(3)秩次(5) 1 2 3 4 5 6 7 8112 84 30 17 103 233 31 12438 75 30 62 26 30 69 7974 9 0 -45 77 203 -38 456 1 - -3.5 57 -2 3.5假设不满足正态分布条件,则用Wilcoxon 符号秩和检验(1) 建立检验假设,确定检验水准00=d M H :,差值的总体中位数为0 01≠d M H :,差值的总体中位数不为0 05.0=α(2)秩和检验signrank x1=x2 stata 分析结果:Wilcoxon signed-rank testtsign | obs sum ranks expected-------------+---------------------------------positive | 5 27.5 17.5negative | 2 7.5 17.5zero | 1 1 1-------------+---------------------------------all | 8 36 36unadjusted variance 51.00adjustment for ties -0.13adjustment for zeros -0.25----------adjusted variance 50.63Ho: x1 = x2z = 1.405Prob > |z| = 0.1599二、成组设计T检验统计方法选择原则:A.如果两组资料的方差齐性和相互独立的,并且每组资料服从正态分布(大样本资料可以忽略正态性问题),则用成组t检验;B.要多大?B. 如果资料不满足方差齐性或正态分布的条件,或者资料分布未知,或者数据一端或两端为不确定数据,可以用成组Wilcoxon秩和检验。
计量资料两组均数的比较-t检验

统计学知识竞赛题目及答案

统计学知识竞赛题目及答案Company number:【WTUT-WT88Y-W8BBGB-BWYTT-19998】必答题1. 欲研究广东省 6 岁儿童的身高情况, 在广东省随机抽取了 200 名 6 岁儿童进行调查,以此为例说明同质、变异、总体与样本这几个概念。
答:同质体现在同为广东省、同为 6 岁儿童,变异体现在 200 名儿童的身高不同。
总体是指所有广东省 6 岁儿童,样本为 200 名 6 岁儿童。
2.卫生统计工作中的统计资料主要的来源有哪些答:①统计报表。
②经常性工作记录。
③专题调查或实验。
3.简述统计工作全过程的四个步骤。
答:研究设计、收集资料、整理资料、统计分析。
4.试举例说明常见的三种资料类型。
答:(1).计量或测量或数值资料,如身高、体重等。
(2).计数或分类资料,如性别、血型等。
(3).等级资料,如尿蛋白含量-、+、++、+++、…。
5. 统计学上的变异、变量、变量值是指什么答:变异:每个观察个体之间的测量指标的差异称为变异。
变量: 表示个体某种变异特征的量为变量。
变量值:对变量的测得值为变量值。
6. 简述编制频数表的步骤与要点。
答:(1)找出最大和最小值,计算极差。
(2)确定组距和列出分组计划:第一组应包括最小值;最末组应包括最大值,并闭口。
(3)将原始数据整理后,得到各组频数。
7.描述计量资料集中趋势(一般水平)的指标有哪些,各适用于什么情况答:常用描述平均水平的平均数有算术均数、几何均数和中位数。
算术均数适合:对称资料,最好是近似正态分布资料。
几何均数适合:经对数转换后近似对称分布的原始变量,常用于微生物学和免疫学指标。
中位数适合:数据非对称分布、分布不清楚或开口资料的情形。
8. 描述计量资料离散程度(差别大小)的指标有哪些,各适用于什么情况答:常见的几种描述离散程度的指标:极差或全距,四分位数差距,方差与标准差,变异系数。
极差适合:数据分布非对称的情形。
四分位数差距适合:数据分布非对称的情形。
计量资料的统计学方法

计量资料的统计学方法
首先,计量资料的统计学方法包括描述统计和推断统计。
描述
统计用于总结和展示数据的特征,包括均值、中位数、标准差、频
数分布等。
这些统计量可以帮助我们了解数据的集中趋势、离散程
度和分布形态。
推断统计则用于从样本数据中推断总体的特征,包
括参数估计和假设检验。
参数估计可以帮助我们对总体参数(如均值、比例)进行估计,而假设检验则可以帮助我们对总体参数的假
设进行检验。
其次,计量资料的统计学方法还包括回归分析和方差分析。
回
归分析用于研究自变量和因变量之间的关系,可以帮助我们预测因
变量的取值。
常见的回归分析包括简单线性回归和多元线性回归。
方差分析则用于比较多个总体均值是否相等,可以帮助我们判断不
同组别之间的差异是否显著。
此外,计量资料的统计学方法还包括相关分析和时间序列分析。
相关分析用于研究两个变量之间的相关关系,可以帮助我们了解它
们之间的相关性强弱和方向。
时间序列分析则用于研究时间序列数
据的特征和规律,包括趋势、季节性和周期性等,可以帮助我们进
行未来的预测和规划。
综上所述,计量资料的统计学方法涵盖了描述统计、推断统计、回归分析、方差分析、相关分析和时间序列分析等多个方面,可以
帮助我们全面深入地理解和解释数据的特征和规律。
在实际应用中,研究者可以根据具体问题的特点和要求选择合适的统计方法进行分
析和解释。
3习题-计量资料统计分析

计量资料统计分析----习题1、对两样本均数的差别作统计检验后,t t>,统计学上可认为()。
()0.05vA.两样本均数不相等 B、两总体均数不相等 C、两总体均数相同D、两样本均数相同E、样本均数与总体均数相同2、同样性质的两项研究工作,都作两样本均数差别的t 检验,P 值越小,则()。
A、两样本均数差别越大B、两总体均数差别越大C、越有理由说两样本均数不相等D、越有理由说两总体均数不相等E、以上答案均不对3、两组数据中的每一个数据同减一个常数后,作两样本均数差别的统计(t)检验()。
A. 统计结论不变B. 统计结论可能不同 C、t 值变小D、t 值变大E、P 值变大4、两样本均数的差别作t 检验,要求数据分布近似正态分布及()。
A、两样本方差相等B、两总体方差相等C、两样本含量相等D、样本含量不太小E、总体标准差已知5、()时,应作单侧检验。
A、已知A 药不会优于B 药B、已知A 药优于B 药C、不知A 药好还是B 药好D、不知A 药好还是B 药好E、AB 均对6、t 检验结果t=1.58,检验水准α=0.05 则()A.两样本均数有差别 B.两样本均数无差别 C.两总体均数有差别D.两总体均数无差别 E.尚不能肯定7、进行配对t 检验时,有两种计算差值的方法:用药前数据减用药后数据或用药后数据减用药前数据。
用这有两种差值所作的两次t 检验之间的关系是()A.t 值符号相反,统计结论相反 B.t 值符号相同,统计结论相同C.t 值符号相反,但统计结论相同D.t 值符号相同,但大小不同,统计结论相反E.t 值和统计结论都可能不同8、当两总体方差不齐时,以下哪种方法不适用于两样本总体均数比较()A、t 检验 B. t’检验 C.u 检验(假设是大样本时) D、方差齐性F 检验E、A、C 都对9、实际工作中,两均数作差别的统计检验,要求数据近似正态分布()A 两样本均数相差不太大B 两组例数不能相差太多C、两样本方差相近D、两组数据标准误相近E、以上均不对10、在研究两种药物治疗高血压的效果的配对t 检验中,要求()A、两组的样本方差相等B、数据呈双变量正态分布C、差数d 服从正态分布D、差数d 的方差=0E、数据服从正态分布11、两样本比较的t 检验,差别有统计学意义时,P 值越小说明()A.两样本均数差别越小 B.两样本均数差别越大C.越有理由认为两总体均数有差别 D.越有理由认为两总体均数差别很大E.越有理由认为两总体均数无差别12、方差分析的应用条件之一是方差齐性,所谓方差齐性是指()A、各比较组的样本方差相等B、组内方差=组间方差C、各比较组相应的总体方差相等D、总方差=各组方差之和E、总方差=组内方差+组间方差13、方差分析结果:F>F 0.05(v1,v2),则统计结论是()。
中国大学生医学技术技能大赛(卫生统计学)1

中国大学生医学技术技能大赛(卫生统计学)1您的姓名: [填空题] *_________________________________学号: [填空题] *_________________________________1.正态分布曲线下,横轴上,从-1.64到1.64的面积为 [单选题] *A.92.5%B.97.5%C.95%D.99%E.无法判断(正确答案)2.以下说法正确的是 [单选题] *A.方差分析主要用于多个样本均数的比较(正确答案)B.方差分析主要用于多个样本率的比较C.方差分析主要用于样本率与总体率的比较D.方差分析主要用于样本均数与总体均数的比较E.方差分析主要用于适合度检验3.从两个不同总体随机各抽取一个样本,比较两个均数,假设检验后在α=0.05水平上不拒绝H0,其犯Ⅱ类错误的概率为 [单选题] *A.0B.0.05C.0.1D.1E.无法判断(正确答案)4.30个人每人抽取一个样本量为50的随机样本并计算80%可信区间。
平均来说包含总体参数的可信区间的数目是 [单选题] *A.50B.40C.30D.24(正确答案)E.不能确定5.关于连续性计量资料标准差说法正确的是 [单选题] *A.标准差单位与原始数据单位相同(正确答案)B.标准差单位与原始数据单位不同C.同一资料的标准差一定比均数小D.同一资料的标准差一定比均数大E.标准差就是标准误6.关于I×J析因设计方差分析与随机区组设计方差分析的区别,以下说法正确的是 [单选题] *A.析因设计与随机区组设计均施加给试验对象两个处理因素B.随机区组设计方差分析可以分析处理因素对试验效应的交互作用C.析因设计方差分析可以分析处理因素对试验效应的交互作用(正确答案)D.析因设计和随机区组设计方差分析均可分析处理因素对试验效应的交互作用E.析因设计和随机区组设计方差分析均不能分析处理因素对试验效应的交互作用7.线图可用于 [单选题] *A.某现象的内部构成B.各现象的比较C.某现象随另一现象的伴随变化趋势(正确答案)D.某现象的频数分布E.某现象的发展速度8.上海市2016年各区糖尿病不同性别发病率用什么统计图表示 [单选题] *A.线图B.直方图C.散点图D.对数线图E.复式直条图(正确答案)9.上海市2016年各区结核病年龄别发病率用什么统计图表示 [单选题] *A.线图B.直方图C.散点图D.对数线图E.复式直条图(正确答案)10.为了使显著性检验的两类错误同时减少,可采取措施 [单选题] *A.提高显著性水平B.增加样本含量(正确答案)C.降低实验误差D.增加人员和设备E.随机分组11.两样本均数比较,经t检验,差别有显著性时,P越小,说明 [单选题] *A.两样本均数差别越大B.两总体均数差别越大C.越有理由认为两总体均数不同(正确答案)D.越有理由认为两样本均数不同E.可以认为样本均数和总体均数差别都很大12.从正态分布资料中随机抽样,变量值位于μ-2.58σ到μ+1.96σ间的概率是[单选题] *A.95%B.97%(正确答案)C.99.5%D.视均数而定E.视标准差而定13.关于检验效能,下列说法错误的是 [单选题] *A.两总体均数确有差别时,按α水准发现这种差别的能力(正确答案)B.两总体均数确有差别时,按1-β水准发现这种差别的能力C.与α有关D.与样本例数有关E.与两总体均数间的位置有关14.在完全随机设计的方差分析中,组内误差应 [单选题] *A.反映测量误差B.反映个体差异C.反映含测量误差与个体差异的随机误差(正确答案)D.反映处理间差异E.反映处理间差异与随机误差15.对于下述关于参考值范围的说法,哪个是错误的 [单选题] *A.参考值范围的计算应当基于同质样本B.参考值范围的确定应当选取足够多例数的个体C.当人群存在异质性时,应当通过增加例数来确保参考值范围的正确(正确答案)D.参考值范围的计算有单双侧之分E.参考值范围的制定应当基于正常人16.统计表有广义与狭义两种,狭义统计表是指 [单选题] *A.调查表B.实验表C.统计报表D.统计分析表(正确答案)E.整理汇总表17.下面说法中错误的是 [单选题] *A.完全随机设计的方差分析可以用于两个样本均数的比较B.将完全随机设计的方差分析用于混杂较少的资料,则检验效能更高C.在随机区组设计中,每一个区组内的例数都等于处理组数D.在随机区组设计中,区组内及区组间的差异都是越小越好(正确答案)E.完全随机设计的方差分析中,离均差平方和只能反映变异的绝对大小,而不能用于相互比较18.率标准化的主要目的是 [单选题] *A.把率变成构成比B.消除内部构成的差异(正确答案)C.把大的率变小,小的率变大D.把率变成绝对数E.把构成比变成绝对数19.正态分布的中位数是 [单选题] *A.0B.1C.1.96D.2.58E.与μ有关(正确答案)20.以下不属于编制频数表的步骤是 [单选题] *A.确定组数B.确定组距C.确定组段D.确定频数E.制作频数分布图(正确答案)21.20个人每人抽取一个样本量为50的随机样本并计算80%可信区间。
上海交通大学网络《医学统计学》习题册答案

上海交通大学网络教育学院医学院分院医学统计学课程练习册第一章绪论一、单选题1. 小概率事件是指P ( B )A.P>0.05 B.P<0.05 C. P >0.01 D. P <0.12. 从一个数值变量资料的总体中抽样,产生抽样误差的原因是( A )A总体中个体值存在差别B样本中个体值存在差别C样本只含总体的一部分D总体均数不等于03. 调查中国放射科医生接触射线情况,全国放射科医生的全部组成为( A )A.研究总体B.目标总体C.研究样本D.目标样本4. 若以舒张压90mmHg、收缩压130 mmHg为高血压阳性临界点,调查3000人中有300名血压超过临界值,这份资料属于:( B )A. 定量资料B. 分类资料C. 等级资料D. 离散型变量5. 下列属于统计量的指标是( C )A 总体均数B 总体标准差C 样本标准差D 总体率6. 调查某地区高血压的患病情况,抽样调查了2000名居民,得到了2000对舒张压与收缩压的数据,请问此资料是:( C )A 分类资料B等级资料 C 定量资料D分析后才知7. 下列属于参数的指标是( D )A 样本均数B 样本率C 样本标准差D总体标准差8. 用样本做统计推断,样本应是( B )A. 总体中典型一部分B. 总体中有代表性一部分C. 总体中任意一部分D. 总体中信息明确一部分9. 统计推断的内容为( D )A. 用样本指标估计相应的总体指标B. 检验统计上的“检验假设”C. A和B均不是D. A和B均是10. 随机调查社区2000人,得到平均体重为60公斤,则该资料属于( A )A. 计量资料B. 总体资料C. 计数资料D. 等级资料二、名词解释1.抽样误差:由于总体中各观察单位间存在个体变异,抽样研究中抽取的样本,只包含总体的一部分观察单位,因而样本指标不一定恰好等于相应的总体指标。
样本指标与总体指标的差异称为抽样误差。
2.总体:根据研究目的性质相同的观察单位的全体3.分类变量:用定性方法测得,表现为互不相容的类别或属性,如性别等4.数值变量:用定量方法测量得到,表现为数值大小,一般有计量单位,如身高、体重。
计量资料检验方法

•95% C I
•
•Lower
•Upper
•-.22867
•3.56322
•-.16976
•3.50432
•-12.44183 •-12.60022 •-2.61474
•3•-.30107 3•2.1.343296886
•-2.66278
•2.38791
•-3.25841
•1.92285
•-3.28156
均数之差的可信区间 结合专业知识作出有实际意义的专
业结论
•51
•52
•45
两小样本几何均数t检验结果
•46
可信区间与假设检验的关系
假设检验用于推断两总体均 数有无差别
可信区间用于推断总体均数 在哪个范围,可信区间可以 回答假设检验的问题
•47
假设检验能得到P值,比较精 确地说明结论的概率保证
可信区间提供在α水平上有无 统计学意义,但不易得到精 确的概率。
•48
两组治疗前后差值及差值变化率?32书山有路勤为径学海无涯苦作舟书到用时方恨少事非经过不知难?33书山有路勤为径学海无涯苦作舟书到用时方恨少事非经过不知难配对资料的t检验中的描述性分析?34书山有路勤为径学海无涯苦作舟书到用时方恨少事非经过不知难配对资料的t检验中的相关分析?35书山有路勤为径学海无涯苦作舟书到用时方恨少事非经过不知难配对资料的t检验结果?36书山有路勤为径学海无涯苦作舟书到用时方恨少事非经过不知难两个小样本几何均数的检验?1对原始数据取对数?2求对数值的均数标准差?3计算t值?4查表确定概率?37书山有路勤为径学海无涯苦作舟书到用时方恨少事非经过不知难公式?38书山有路勤为径学海无涯苦作舟书到用时方恨少事非经过不知难?39书山有路勤为径学海无涯苦作舟书到用时方恨少事非经过不知难?40书山有路勤为径学海无涯苦作舟书到用时方恨少事非经过不知难?41书山有路勤为径学海无涯苦作舟书到用时方恨少事非经过不知难?42书山有路勤为径学海无涯苦作舟书到用时方恨少事非经过不知难?43书山有路勤为径学海无涯苦作舟书到用时方恨少事非经过不知难?44书山有路勤为径学海无涯苦作舟书到用时方恨少事非经过不知难两小样本几何均数t检验中的描述性分析?45书山有路勤为径学海无涯苦作舟书到用时方恨少事非经过不知难两小样本几何均数t检验结果?46书山有路勤为径学海无涯苦作舟书到用时方恨少事非经过不知难可信区间与假设检验的关系?假设检验用于推断两总体均数有无差别?可信区间用于推断总体均数在哪个范围可信区间可以回答假设检验的问题?47书山有路勤为径学海无涯苦作舟书到用时方恨少事非经过不知难?假设检验能得到p值比较精确地说明结论的概率保证?可信区间提供在水平上有无统计学意义但不易得到精确的概率
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Stata软件基本操作和数据分析入门第四讲两组计量资料平均水平的统计检验一、配对设计的平均水平检验统计方法选择原则:如果配对的差值服从近似正态分布(小样本)或大样本,则用配对t 检验小样本的情况下,配对差值呈明显偏态分布,则用配对秩符号检验(matched-pairs signed-ranks test)。
例1 10例男性矽肺患者经克矽平治疗,其血红蛋白(g/dL)如下:表 10例男性矽肺患者血红蛋白值(g/dL)病例号12345678910治疗前11.315.015.013.512.810.011.012.013.012.3治疗后14.013.814.013.513.512.014.711.413.812.0问:治疗前后的血红蛋白的平均水平有没有改变这是一个典型的前后配对设计的研究(但不提倡,因为对结果的解释可能会有问题)Stata数据输入结构操作如下:gen d=x1-x2 产生配对差值的变量dswilk d 正态性检验正态性检验结果如下:正态性检验的无效假设为:资料正态分布相应的备选假设为:资料非正态分布α=0.05,由于正态性检验的P值=0.40189>>α,故可以认为资料近似服从正态分布。
ttest d=0 配对t检验: H0:μd=0 vs H1:μd≠0,α=0.05结果如下:P值=0.2237>α,故认为治疗前后的血红蛋白的平均数差异没有统计学意义。
即:没有足够的证据可以认为治疗前后的血红蛋白的总体平均数不同。
如果已知差值的样本量,样本均数和样本标准差,可以用立即命令如下(如,已知样本量为10,差值的样本均数为-0.66,差值的标准差为1.65,则输入命令如下:ttesti 样本量样本均数样本标准差 0本例为: ttesti 10 -0.66 1.65 0得到下列结果如下:结果解释与结论同上述相同。
如果对于小样本的情况下,差值不满足正态分布,则用Match-Sign-rank test,操作如下:signrank 差值变量名=0假如本例不满足正态分布(为了借用上例资料,而假定的,实际上本例满足正态分布)则H0:差值的中位数=0(其意义是治疗前的血红蛋白配大于治疗后的血红蛋白的概率=治疗前的血红蛋白小于治疗后的血红蛋白的概率)H1:差值的中位数≠0α=0.05本例为signrank d=0P值=0.3583>>α,故没有足够的证据说明两个总体不同。
二、平行对照设计的两组资料平均水平统计检验统计方法选择原则:如果两组资料的方差齐性和相互独立的,并且每组资料服从正态分布(大样本资料可以忽略正态性问题),则用成组t检验,否则可以用成组Wilcoxon秩和检验。
例2 为研究噪声对纺织女工子代智能是否有影响,一研究人员在某纺织厂随机抽取接触噪声95dB(A)、接触工龄5年以上的纺织女工及同一单位、条件与接触组相近但不接触噪声的女职工,其子女(学前幼儿)作为研究对象,按韦氏学前儿童智力量表(中国修订版)测定两组幼儿智商,结果如下。
问噪声对纺织女工子代智能有无影响?(接触组group=0,不接触组group=1)资料及其结果如下:方差齐性检验H0:σ1=σ2vs H1:σ1≠σ2α=0.1两组方差齐性的检验命令(仅适合两组方差齐性检验) sdtest x,by(group)P值=0.8389>>α,因此可以认为两组方差齐性的。
正态性检验:H0:资料服从正态分布vs H1:资料偏态分布α=0.05每一组资料正态性检验P值均大于α,因此可以认为两组资料都服从正态分布H0:μ1=μ2vs H1:μ1≠μ2α=0.05ttest x,by(group)P值(<0.0001)<α,并且有μ0-μ1的95%可信区间为(-17.73557,-7.144429)可以知道,不接触组幼儿的平均智商高于接触组的幼儿平均智商,并且差别有统计学意义。
如果已知两组的样本量、样本均数和样本标准差,也可以用立即命令进行统计检验ttesti 样本量1 样本均数1 样本标准差1 样本量2 样本均数2 样本标准差2例如:本例第1组n1=25 均数1=89.08 标准差1=9.115第2组 n2=25 均数2=101.52 标准差2=9.505则ttesti 25 89.08 9.115 25 101.52 9.505结果解释同上。
方差不齐的情况,(小样本时,资料正态分布)还可以用t’检验命令:ttest 观察变量名,by(分组变量名) unequal立即命令为ttesti 样本量1 均数1 标准差1 样本量2 均数2 标准差2,unequal假定本例的资料方差不齐(实际为方差不齐的),则要用t’检验如下ttest x,by(group) unequal结果解释同上。
t’检验有许多方法,这里介绍的Satterthwaite方法,主要根据两个样本方差差异的程度校正相应的自由度,由于本例的两个样本方差比较接近,故自由度几乎没有减少(t检验的自由度为48,而本例t’自由度为47.9159)。
由于t检验要求的两组总体方差相同(称为方差齐性),以及由于抽样误差的原因,样本方差一般不会相等,但是方差齐性的情况下,样本方差表现为两个样本方差之比 1。
(注意:两个样本方差之差很小,仍可能方差不齐。
如:第一个样本标准差为0.1,样本量为100,第2个样本标准差为0.01,样本量为100,两个样本标准差仅差0.09,但是两个样本方差之比为100。
故用方差齐性检验的结果如下:方差齐性的立即命令为 sdtesti 样本量1 . 标准差1 样本量2 . 标准差2sdtesti 100 . 0.1 100 . 0.01P值<0.0001,因此认为两组的方差不齐。
故方差齐性是考察两个样本方差之比是否接近1。
如果本例的资料不满足t检验要求(注:实际是满足的,只是想用本例介绍成组秩和检验),则用秩和检验(Wilcoxon Ranksum test)。
H0:两组资料所在总体相同H1:两组资料所在总体不同=0.05命令:ranksum 观察变量名,by(分组变量)本例为ranksum x,by(group)P值<0.0001< ,故认为两个总体不同练习题一、某地随机抽样调查了部分健康成人红细胞数和血红蛋白量,结果如下,请就此资料统计分析:指标性别例数均数标准差标准值红细胞数(1012/L)男360 4.660.58 4.84女255 4.180.29 4.33血红蛋白(g/L)男360134.507.10140.20女255117.6010.20124.70(1)该地健康成年男女血红蛋白含量有无差别?(2)该地男女两项血液指标是否均低于上表的标准值(若测定方法相同)?二、为了解聋哑学生学习成绩与血清锌含量的关系,某人按年龄、性别和班级在聋哑学校随机抽取成绩优、差的14对学生进行配对研究,得其结果如下。
问聋哑学生学习成绩与血清锌含量有无关系?表14对学生的血清锌含量(μg/mL)教学应用:考察影响t检验结果的各种因素1.首先把程序ttest2.ado和程序ttestexp.ado复制到stata所在的目录下\ado\base(例如:Stata软件安装在D:\stata,则把这两个程序复制到d:\stata\ado\base目录下。
然后输入连接命令:在STATA环境下,输入 net set ado 路径\stata\ado\base。
(路径表示Stata所在的盘符和目录)2.程序ttest2.ado是模拟在正态总体中随机抽10000个样本,每个样本有2组,两组的样本量、正态分布的总体均数和标准差由读者选择输入,考察α=0.05的情况下,考察当两个总体均数相同时拒绝H0的比例(拒绝的频率估计第一类错误)是否接近0.05和当两个总体均数不同时接受H0的比例(估计发生第二类错误的概率)。
运行ttest2.ado的输入命令为:ttest2 样本量1 均数1 标准差1 样本量2 均数2 标准差2例如:考察两组样本量均为30,总体均数均为100,标准差均为6的拒绝H0(μ1=μ2)比例,结果如下:在随机抽10000个样本中,计算了10000个t值,结果有494次拒绝H0(μ1=μ2),因此非常接近α=0.05。
建议读者运行程序ttest2考察下列情况目的1:μ1≠μ2时,不同的样本量,考察下列不同情况下的接受H0的比例(估计β)以及两组样本量之比不同的情况对检验结果的影响。
目的2:考察方差不齐对t检验(不是t’检验)结果的影响目的3:通过运行程序ttestexp.ado,考察资料非正态分布对结果的影响。
3.程序ttestexp.ado是模拟在指数分布总体中随机抽10000个样本,每个样本有2组,两组的样本量和总体均数由读者选择输入,考察α=0.05的情况下,考察当两个总体均数相同时拒绝H0的比例(拒绝的频率估计第一类错误)是否接近0.05和当两个总体均数不同时接受H0的比例(估计发生第二类错误的概率)。
运行ttestexp.ado的输入命令为:ttestexp 样本量1 均数1 样本量2 均数2例如:考察两组样本量均为10,总体均数均为1的拒绝H0(μ1=μ2)的比例,结果如下:拒绝H 0(μ1=μ2)的比例为3.7%,离开α=0.05,较远。
考察下列样本量情况与偏态分布造成的影响之间的关系。
您能从上述模拟结果可以得到下列结论1)当μ1≠μ2时且方差齐性的正态分布情况下,n 1=n 2时,拒绝H 0的比例比较高,可以证明t 检验中,两组样本量为n 1和n 2,则其检验效能等价于每组样本量相同n=12211n n +。
特别当两组样本量之比为n :kn 时,则样本量等价于2221111nn n knk=<++,也就是说,如果一组的样本量为10,另一组的样本量再大,其检验效能也不会超过两组样本量相同且为20的统计检验效能。
2)当方差不齐时,且μ1=μ2,拒绝H 0的比例偏离α,但是n 1=n 2时,方差不齐对结果的影响将下降。
3)资料偏态分布,则小样本时,偏态分布对结果有影响,大样本时,偏态分布对结果基本无影响。