11-4定类(定序)与定距变量相关关系的测量与检验方法
《社会统计学》课程大纲

《社会统计学》课程大纲课程介绍统计是社会科学研究中广泛采用的定量分析方法。
本课程系统地介绍了社会统计学的基本原理、基本概念和主要内容,按照变量的四个测量层次(定类、定序、定距和定比),课程详细阐述了统计描述和统计推论的操作程序和具体方法,并结合生动的实例说明了统计分析在社会研究中的作用和地位。
作为一门初中级社会统计学课程,本课程内容限定在单变量和双变量统计范围之内。
教学大纲指导思想:社会现象的独特性和社会研究方法的特点决定了统计在社会研究中的重要地位,统计也因此而成为社会研究的重要工具和重要手段。
近十几年来,统计理论、统计方法和统计手段迅速发展,其应用范围也越来越广泛。
本课程的目的就是为深入这一领域建立一个基础和平台,即对统计的基本概念、原理、类型、方法、程序、作用等有基本的和概括了解与把握,并能应用这些知识对研究问题进行简单的统计分析。
本课程的教与学强调:第一,社会研究是一项系统的和严谨的工作,从研究设计资料收集资料整理分析撰写研究报告,各个步骤之间相互联系、相互影响,密不可分。
统计分析作为研究的一个重要环节,只有放在社会研究过程的背景之下,注重其与研究问题及研究方法的联系,才能更准确地掌握每一种统计类型和统计方法的特征,才能针对具体的研究问题选择恰当的统计方法。
第二,作为一门应用性极强的课程,本课程特别强调理论联系实际的原则,在教与学的过程中,一方面教师要通过列举和分析大量研究和应用实例,深化学生对统计原理的和统计思想的理解;另一方面要求学生将学习到的知识不断运用到对实际社会问题的分析中去。
为此,要求学生在学习课程讲授的知识的同时,认真完成每一讲后面所指定的“实践性”的练习。
第三,在实际的社会研究中,资料的统计分析都是通过计算机完成的。
各种统计描述和统计分析方法被制作成用于计算机的专门的和通用的统计软件,如SPSS、SAS、STATE等。
本课程将熟练掌握和灵活运用上述统计软件作为本课程教与学的不可分割的一部分。
教你区分定类定序定距定比变量e

定类变量定序变量定距变量定比变量定类变量变量的一种,根据定性的原那么区分总体各个案类别的变量。
定类变量的值只能把研究对象分类,也即只能决定研究对象是同类抑或不同类,具有=与≠的数学性质。
例如性别区分为男性和女性两类;出生地区分为农村、城市、城镇三类;民族背景区分为汉、蒙、回、苗、壮、藏、维吾尔等;婚姻状况区分为未婚、已婚、分居、离婚、丧偶等类。
这些变量的值,只能区别异同,属于定类层次。
设计定类变量的各个类别时,要注意两个原那么。
一个是类与类之间要互相排斥,也即每个研究对象只能归入一类;另一个是所有研究对象均有归属,不可遗漏。
例如性别分为男女两类,它既概括了人的性别的全部类别,同时类别之间又具有排斥性。
定序变量变量的一种,区别同一类别个案中等级次序的变量。
定序变量能决定次序,也即变量的值能把研究对象排列上下或大小,具有>与<的数学特质。
它是比定类变量层次更高的变量,因此也具有定类变量的特质,即区分类别〔=,≠〕。
例如文化程度可以分为大学、高中、初中、小学、文盲;工厂规模可以分为大、中、小;年龄可以分为老、中、青。
这些变量的值,既可以区分异同,也可以区别研究对象的上下或大小。
但是,各个定序变量的值之间没有确切的间隔距离。
比方大学究竟比高中高出多少,大学与高中之间的距离和初中与小学之间的距离是否相等,通常是没有确切的尺度来测量的。
定序变量在各个案上所取的变量值只具有大于或小于的性质,只能排列出它们的顺序,而不能反映出大于或小于的数量或距离。
定距变量也是变量的一种,区别同一类别个案中等级次序及其距离的变量。
它除了包括定序变量的特性外,还能确切测量同一类别各个案上下、大小次序之间的距离,因而具有加与减的数学特质。
但是,定距变量没有一个真正的零点。
例如,摄氏温度这一定距变量说明,摄氏40度比30度高10度,摄氏30度比20度又高10度,它们之间高出的距离相等,而摄氏零度并不是没有温度。
又比方调查数个地区的工人占全部劳动人口的比率时,发现甲、乙,丙、丁、戊五个地区的比率分别是2%、10%、35%、20%、10%。
社会科学研究方法 试题答案

社会科学研究方法试题答案《社会科学研究方法》复习一、填空、选择题、简答题1、通常将理论划分为哪几个层次,请分别简述其涵义和特征。
(P23-24) 在社会研究中,研究者通常将理论划分为三个层次:一、宏观理论。
往往以全部社会现象或各种社会行为为对象,提供一种高度概括的解释框架。
它的体系通常十分庞大,结构十分复杂,概念十分抽象,亦称“巨型理论”。
二、中观理论。
以某一方面的社会现象或某一类型的社会行为为对象,提供一种相对具体的分析框架。
它只涉及有限的社会现象。
三、微观理论。
一组陈述若干概念之间关系、并在逻辑上相互联系的命题,其中一些命题可以通过经验检验。
由一组命题组成;这些命题在逻辑上相互联系;这些命题中的一部分是可以通过经验来证明的。
2、了解概率抽样和非概率抽样的类型、特点以及抽样的步骤。
(P120) *概率抽样类型:简单随机抽样;系统抽样;分层抽样;整群抽样;多段抽样。
*非概率抽样类型:偶遇抽样;判断抽样;定额抽样;雪球抽样。
*特点:概率抽样是依据概率论的基本原理,按照随机的原则进行的抽样,因为它能够避免抽样过程中的人为误差,保证样本的代表性;非概率抽样则主要是依据研究者的主观意愿、判断或是否方便等因素来抽取对象,它不考虑抽样中的等概率原则,因而往往产生较大的误差,难以保证样本的代表性。
*因为非概率抽样样本的代表性往往较小,误差有时相当大,而且这种误差又无法估计,所以通常很少用,但在探索性研究中会采用。
3、简述测量的4个层次,并各举一例说明(要求:每个例子需有具体的尺度,如年龄:0,9岁,10,19岁,20,29岁……等)(P92-95)一、定类测量也成为类别测量或定名测量,它是测量层次中最低的一种。
在本质上是一种分类体系,即将研究对象的不同属性或特征加以区分,标以不同的名称或符号,确定其类别。
例如:测量人们的宗教,便会分成“佛教、基督教、天主教……不信教”。
二、定序测量也称为等级测量或顺序测量。
测量层次的含义与例子

测量层次是指对某一概念或变量进行测量时,所采用的不同抽象程度或精细程度的级别。
测量层次从低到高依次为定类、定序、定距和定比。
- 定类:将研究对象分为不同的类别,但不关心各类别之间的大小关系。
例如,性别可以分为男性和女性两类。
- 定序:将研究对象按照某种特征的大小顺序排列,但不关心具体数值。
例如,将学生的成绩分为优秀、良好、中等和较差四类。
- 定距:将研究对象按照某种特征的具体数值进行测量,但不关心绝对数值。
例如,将学生的身高用厘米为单位进行测量。
- 定比:将研究对象按照某种特征的具体数值进行测量,并关心绝对数值。
例如,将学生的体重用千克为单位进行测量。
2017年体育科学研究方法考试重点试题答案

附:本文档收集了全网最全的体育科学研究试题及重点,祝同学们考试成功。
选择1、依照文献内容的性质和加工程度,期刊论文应属于( B )A.零次文献B.一次文献C.二次文献D.三次文献2、体育自然科学主要研究的对象是( C )A.田径运动B.球类运动C.人体运动D.体操运动3、特尔菲法是由专家集体进行预测或判断的一种调查形式,它一般要经过多少轮的筛选?( C )A.1轮 B.1-2轮 C.3-4轮 D.5-6轮4、针对所给信息而产生的问题,大胆提出各式各样的可能解的一种思维形式,称为( C )A.反向思维 B.联想 C.发散思维 D.收敛思维5、论文中采用图时,图号的表示方式下列哪一个是正确的?( C )A.图一 B.图(一) C.图1 D.图(1)6、文献阅读原则包括计划性、顺序性、批判性和( A )A.时间性B.同步性C.简洁性D.排他性7、先将总体划分为若干群体,然后将每个群体依序编号,再按纯随机抽样方法进行取样,这种抽样方法称为( D )A.纯随机抽样法B.系统抽样法C.分层抽样法D.整群抽样法8、解决体育教学、训练等实践方面的一些具体问题的研究,属于( B )A.基础研究B.应用研究C.开发研究D.实验研究9、科技论文中的关键词一般为( B )A.2个 B.3-6个 C.10个 D.根据需要而定10、体育是一门综合性的学科,下列哪一学科属于社会科学类?( B )A.人体生理学B.体育教学论C.人体解剖学D.运动生物化学11、采用观察法收集资料时,最基本的要求是做到( C )A.针对性B.典型性C.客观性D.主观性12、根据已知结果设立产生该结果和未产生该结果的两个组,然后调查原因,这种从果到因的调查方法,称为( C )A.现情调查法B.前瞻调查法C.回顾调查法D.追踪调查法13、在研究指标中,反映研究变量的性质和类别的指标是:( A )A.定类指标B.定序指标C.定距指标D.态度指标14、科技论文的关键词一般以多少为宜?( C )A.3个B.5个C.3~6个D.8个以上15、狭义的科学是专指( D )A.思维科学B.人文科学C.技术科学D.自然科学16、限定课题研究论域的常见方法包括:定语限定法、副标题法、________法。
社会调查原理与方法期末预测试题含答案

社会调查原理与方法期末预测试题一单项选择题(一)1.下列只属于定性社会研究方式的是(C)A.社会调查B.实验研究C.实地研究D.文献研究2.社会调查的基本要素不包括(D)A.抽样B.问卷C.统计分析D.资料整理3.社会调查中研究问题指的是研究主题范围内研究者具体回答或研究解决的问题。
下列属于研究问题的是(B)A.留守儿童问题B. 留守儿童心理问题的成因C.新生代农民工问题D. 家庭问题4. “世事洞明皆学问人情练达即文章”体现了选题的哪种途径和方法?(C)A.从现有文献中寻找B. 从个人经历中寻找C.从社会生活中寻找D. 从他人经历中寻找5. 社会调查中与分析单位有关的两种错误是(A)A.层次谬误和简化论B. 区群谬误和生态谬误C.层次谬误和体系谬误D. 简化论和区群谬误6. 对青少年初次犯罪原因进行调查不是以年龄特点、类型多方面做全面而详细的了解,而是将调查的焦点集中在各种可能的原因和解释进行检验,分析探讨和说明。
这样的调查方法属于(C)A.描述性调查B. 研究性调查C.解释性调查D. 探索性调查7. 假设某大学有100 个班级,每班都是30 名学生,共有3000 名学生,现要抽取300 名学生作为样本进行调查,不是直接一个一个的抽学生而是从全校100 个班级中抽取十个班级,然后由这十个班级的全部学生构成调查的样本,这种抽样属于(A)A.整群抽样B. 分层抽样C.系统抽样D. 简单随机抽样8. 在社会测量的层次中属于最低层次的是(A)A.定类测量B. 定序测量C.定距测量D. 定比测量9. 在问卷设计中,问题的设计应该遵循下列基本原则,不包括(B)A.清楚,明确,具体原则B. 一次可以问两个问题原则C.客观中立原则D. 不直接询问敏感问题原则10、对连续型变量分组;第一组为75 以下,第二组为75-85 ,第三组为85-95 ,第四组为95 以上,则数据(A)A.85 在第三组B.75 在第一组C.95 在第三组D.85 在第二组11. 某企业职工工资分为四组:(1)800 元以下;(2)800-1000 元;(3)1000-1500 元;(4)1500 元以上。
统计推断或假设检验的常见问题

统计推断或假设检验的常见问题连续变量和分类变量1.所有测量值可以分为四水平:定类(NOMINAL),定序(ORDINAL),定距(INTERVAL),和定比(RATIO).前面两类是分类变量,后面两类是连续变量. 2.定类变量是只能决定类别,例如白人和黑人,民主党和共和党,男人和女人等.定序变量比定类变量进了一步,因为不但可以决定类别,还可以决定各水平的次序.例如高收入,中等收入,和低收入;非常满意,比较满意,比较不满意,和非常不满意等等.但是各个水平间的距离并无意义.例如痛苦程度用1到10表示.用7表示的痛苦大于5,后者又大于3.但你不能说7和5表示的痛苦和5和3表示的痛苦是等距离的.定距变量又进了一步,不但可以知道次序而且可以知道各个水平间距离,而且各个水平间距离有意义.如100度的开水和90度的温水之间等于90度和80度之间的差别.但是注意0度的水不等于无温度.而定比变量则是最高级水平,具有所有定距变量的特性还加上一个0是本身有意义的.例如重量0克等于0重量.凡是定比变量都可以比较两个量的比值.例如重量:4克的物质是2克物质的2倍.但100度的水不是50度水的两倍热,因为它不是定比变量.社会科学中最好的定比变量例子是收入.年薪十万就是五万的两倍.0收入就是没有收入.:5.有人做了一个实验以决定抗生素是否会增加小牛体重. 下列变量是每头牛的测量值:性别, 初始体重, 体重增加数, 肉质品位等级, 其中肉质品位等级以A, B, 或C表示. 这些变量的测量类型是:a)定类, 定比, 定距, 定类b)定类, 定比, 定比, 定类c)定类, 定比, 定比, 定序d)定序, 定比, 定比, 定序e)定序, 定比, 定比, 定类6.有一项研究调查的是火力发电厂对水质的影响. 研究人员先抓鱼并加以标记再把它们放了. 对每条鱼都作了下列记录:性别(0=雌鱼, 1=雄鱼), 鱼身长度(cm), 成熟度(0=幼小, 1=成熟), 体重(g).这些测量值属于:a.定类, 定比, 定类, 定比b.定类, 定距, 定序, 定比c.定类, 定比, 定序, 定比d.定序, 定比, 定类, 定比e.定序, 定距, 定序, 定比无效和备择(或对立)假设7.无效假设和备择(或对立)假设的内容应该由管理决策问题决定.一般来说是由无效假设当稻草人,而真正目的是看备择(或对立)假设能否成立.8.既然无效假设是稻草人,在设立时要使它可能被推翻.办法是令无效假设等于, 大于或小于一个具体的数值(如销售额增加<15, 广告效应=0, 今天的市场分额=昨天的分额,或婴儿出生体重=8斤,)而不是模棱两可的(如销售额增加不等于0, 广告效应不等于0, 今天的市场分额不等于昨天的分额,或婴儿出生体重不等于8斤).9.备择(或对立)假设一定要和无效假设对应,使得一旦无效假设推翻以后就只能接受备择(或对立)假设.10.参看Excel”统计复习2”工作簿Solution一表中关于假设的例题.11.为了保证对应性,一般说来备择(或对立)假设和无效假设符号要相反,内容要一致,即他们是关于同一事件的不同可能性.12.何时作出假设?研究者应该事先决定假设再作检验.这相当于先设立靶子再射击.不能先测验假设中途又改变它!13.* 当假设表示为一个等号后面跟具体数值的时候就称为简单假设.反之不是等号而是大于,小于,或不等号时就称为合成假设.所有两尾备择(或对立)假设都是合成假设.一尾备择(或对立)假设也是合成假设.多数无效假设都是简单假设*14.参看Excel”统计复习2”工作簿Solution一表关于假设的题目一尾测验还是两尾测验?15.当你对某事件了解不多,或无清楚的理论指导,或无过去经验可供参照,或常识/逻辑不能帮忙时,一般都应该用两尾测验.反之可以用一尾.16.例如加了工资以后消费支出一般不大可能降低,公路加宽后不大可能增加交通事故,打了广告后不大可能减低销售额等等都可以用一尾测验.17.能从假设中看出用一尾还是两尾吗?答案是肯定的.要看备择(或对立)假设.如果备择(或对立)假设是带方向性的(如销售额<300,000, 进口车耗油量<国产车,广告后市场份额>广告前等等=就用一尾.反之不带方向性用两尾.18.什么是临界值? 临界值就是门槛值. 就是在概率分布的横轴上的一个或几个关键值. 没有越过那个值就属于大概率事件, 而一旦越过那个值就变成小概率事件, 就认为那里的事件是由机会引起的而不是真实(即大概率)事件.19.为什么要重视临界值? 因为在概率分布给定时, 每个概率值都对应于一个确定的临界值. 概率值用概率曲线下的面积表示, 而临界值用直线即横轴上的值表示. 后者比前者更方便求取. 故在假设检验时都把概率值化为临界值.20.与两尾测验相比,一尾测验需要比较小的临界值即可以达到显著. 统计上把这个现象称为高检验力度(Power). 直观的说, 一尾测验相当于把两个尾部的概率集中到一个尾部. 比如两尾测验时你需要z=1.96才能达到5%的显著水平, 而一尾时只要z=1.645即可. 后者比1.96更加接近概率分布的中部而不是尾部.也就是说我们把门槛值向左移动了.21.参看Excel”统计复习2”工作簿Solution一表中”下列情况的t或z的临界值是什么”那一节中的例题22.在用Excel函数求临界值时,都是假定你已经决定了显著水平而要求相应临界值.这时需要用Normsinv, Tinv, or Chiinv. 注意前两个函数要考虑一尾还是两尾测验. 而卡方测验只有一尾. 因为卡方分布没有负数.23.一定记得把显著水平即概率值除以2以便得到两尾检验的临界值. 而如果是一尾检验直接代入显著水平即可. 例如求5%显著水平的正态分布一尾临界值其公式是Normsinv(0.05), 而求两尾临界值则用Normsinv(0.05/2). 注意不是Normsinv(0.05)/2, 因为不是临界值的1/2, 而是概率即显著水平的1/2. 再说一次: 两尾检验其概率要除以2, 一尾就不需要!24.参看Excel”统计复习2”工作簿Solution一表中”下列情况应该用何检验”那一节中的例题.25.决定用t测验还是正态z检验取决于两个条件, 一是群体方差是否已知, 二是样本大小. 一般大样本即大于50人以上都可以用正态检验. 否则用t检验.26.参看Excel”统计复习2”工作簿Solution一表关于何种检验的总结表I类错误和II类错误27.I类错误称为拒真错误, II类错误则是纳伪错误. 其中的拒真和纳伪都是指无效假设而言. 即当无效假设是真实时你推翻它(I 类错误), 或当无效假设是错误时你未能推翻它(II类错误).28.II类错误概率用β表示, 而I类错误的概率就是显著水平, 用α表示. I类错误的概率可以人为控制; 而II类错误则受三个因素影响: [1]显著水平(即I类错误概率), 一般α越大β越小; [2]样本大小, 一般样本越大β越小即犯II类错误的概率越小; 和[3]效应大小. 后者是指群体真值和无效假设值的差数, 或两个样本间平均数或其它统计值的差异; 一般效应越大则β越小.29.I类错误和II类错误的方向相反. 例如显著水平=0.05时犯II类错误的概率要比显著水平=0.10时要大. 所以一般而言你不能同时减少两类错误的概率.但是如果你有大样本就可以达到这一目标.30.检验力度(Power)等于1-beta, 其中beta是II类错误的概率. 虽然求II类错误也有公式, 但求起来比较难, 因为我们必须知道对立假设下的分布. 所以我们一般不去求它. 只需要知道I类和II类错误的关系, 知道II类错误和检验力度的关系即可.31.I类错误概率, II类错误概率, 检验力度, 以及效应大小的关系看Churchill的PPT最好理解.关于概率分布32.连续变量常常服从正态分布或其它连续分布,例如对数正态(LOGNORMAL), T分布,F分布等.分类变量服从二项分布,多项分布等.33.样本统计值常常用比例表示,比例常常服从二项分布.例如抽烟和不抽烟,听过(或见过)广告和没有见过广告,喜欢和不喜欢某产品,以及是大学生和不是大学生等等.二项分布有两个特点.第一它可以用正态分布逼近.其原因用抛硬币实验很容易理解.如果我们抛一枚硬币6次,纪录正面出现次数,则N=6,P=0.5因为硬币每次出现正面和负面的概率应该相等.则在6次中有3次是正面的概率是33!6!()(1)(3)0.5*0.5!()!3!(3!)6*5*4*3*2*(.125)*(.125).3125(3*2)*(3*2)r n rnP r Pr n rππ-=-==-==类似地其它概率,比如出现1次,0次,2次等等都可以按此公式计算出来.请看E XCEL工作簿”E XCEL统计推断”中”如何计算事件概率”那个表格.这些概率就形成概率分布,后者虽然服从二项分布但可以用正态分布逼近. 34.样本比例的方差特别容易计算,直接等于P*Q(其中Q=1-P).有了方差则标准差和标准误就都好计算了.我们在假设检验中常常要用到这个特性来求方差,标准差和标准误,非常方便!其标准误捷径公式是pσ=标准差捷径公式是σ=方差捷径公式是(1)Vππ=-.其中的π和1-π是指群体的”成功”比例,即某事件出现次数占总次数的比例.对样本来说就是P和Q.请见E XCEL”统计推断2”工作簿中”S OLUTION”一表,其中关于可锐职业顾问公司的例子35.如果变量服从正态分布则大约68%的值位于正负一个标准差之间,大约95%的值位于正负两个标准差之间,大约99%的值位于正负三个标准差之间.其全距(即极大值和极小值之间差数)是大约六个标准差(最后这一点对于计算样本容量很有用)36.对于服从二项分布的变量,不必用”全距等于6个标准差”这一点来求标准差.应该直接代入样本比例求标准差.自由度问题37.自由度是指样本个体中可以自由变化的程度. 每当你的样本增加一个个体你就多了一个自由度, 反之每当你模型中增加一个变量就用去了一个自由度.在求标准差时要计算平均数, 所以N-1就是标准差的自由度.38.计算自由度的方法要看你的检验方法而定. 下列是常见公式.a.如果你有表格数据, 又只有一个变量, 则应该用分类变量水平数目减去一即是自由度. 例如你用表格列出收入变量. 该变量有六类, 则你的自由度等于6-1=5b.如果你有表格数据, 又有两个变量交叉列表, 则应该用行数减一乘以列数减一得到表格自由度. 例如你用表格列出收入和教育水平. 收入有六水平, 教育5水平, 那么你的表格自由度就是(6-1)(5-1)=20.c.求样本方差和标准差时, 其分母都是N-1, 这是因为标准差和方差都是以平均数为基础, 而求平均数要用去一个自由度. 当然求群体方差和标准差时则不需要自由度, 因为群体大, 用不用自由度关系不大.更主要的是群体参数是需要从样本估计的. 虽然样本统计数要用去自由度, 群体参数却不要. 例如群体平均数等于所有样本平均数的平均数. 对于一个样本来说无需减去自由度以求群体平均数.d.T测验一般是用来检验样本平均数是否等于某一群体平均数, 或者检验两个样本平均数是否相等. 这些情况下常常只需要一个自由度来计算平均数. 所以其自由度一般等于1.e.对于回归模型, 要看模型含有多少变量, 总的原则是用了多少变量就失去多少自由度. 不过要记住加上截距所用的一个自由度. 所以其公式是N-k-1, 其中k等于自变量个数. 例如你的回归模型含有两个自变量, 则k=2, 则模型一共用去三个自由度.标准差和标准误39.群体的标准差(或称标准误差)用σ表示,样本的则用S表示.它们是用来测量一个群体或样本中的变异程度的.顾名思义,标准差就是标准化了的差数.那么什么是差数呢?差数是对平均数而言的.换句话说,标准差就是一个群体或样本中的标准化了的偏离平均数的程度.40.标准误和标准差有两件事不一样.第一,标准差是测量每个个体偏离平均数的程度,而标准误是测量每个样本平均数偏离群体平均数的程度.不过这两者的差别其实比听起来小,因为一个样本只能有一个标准差(不论样本有多大),也只能有一个标准误.第二,因为标准差是测量样本内的变异程度,我们无需重复抽样,仅仅用标准差描述手里这个样本.而标准误则是测量样本之间的变异程度,所以一定要引入重复抽样的概念.即假定我们可以或已经抽取了许多独立样本,每次得到一个平均数,然后看这些平均数偏离群体平均数的程度.41.要求标准差,先求方差.其群体方差公式是:22()xNμσ-=∑,其对应样本方差公式是:22()1x xSn-=-∑.有了方差,只要对它开方就有了标准差.而再把标准差除以根号的样本容量就有了标准误:xS=.42.可以求两个样本的方差是否相等,用F检验.如果方差相等在比较样本平均数时就可以用两样本方差的平均数做分母.正态分布43. 正态分布特点是: [1]分布对称, [2]平均数等于中数(M EDIAN )或中位数,众数(M ODE ), [3]大约68%的值位于正负一个标准差之间, 大约95%的值位于正负两个标准差之间,大约99%的值位于正负三个标准差之间, [4]其全距是大约六个标准差(最后这一点对于计算样本容量很有用)44. 正态分布用的最广,乃因为许多其它分布在大样本下都接近正态分布.比如T 分布, 卡方分布,二项分布等.更重要的是不论原群体分布是何性状,如从该群体反复抽样,把各个样本的平均数(或中位数,或众数)记下来得到平均数的抽样分布,其性状都趋近正态. 这个现象是归因于中央极限定理.45. 正态分布另一个特点是参数比较少,只需两个即可以描述分布: 平均数和标准差.46. 正态分布可以是基于原始数据也可以是标准化的数据. 后者平均数是0, 方差为1.只有标准化的正态分布临界值才能直接用于查表求概率. 标准化的公式是: ()x x z s-=. 47. 在E XCEL 中用函数S TDEV ()估计样本标准差, 用S TDEVP ()估计群体标准差, 或S TDEVA ()估计样本标准差, 且要包括逻辑变量或文字内容. 同理, 用V AR ()求样本方差, 用V ARP ()求群体方差, 或V ARA ()如果包括逻辑变量或文字内容.检验假设显著性的三种方法48. 有三种方法检验假设: 临界值法, 概率法, 置信限法 49. 临界值法就是你求出统计值(如t 值, 卡方值, z 值等), 然后求出5%或1%显著水平下的临界值, 再用统计值去比较临界值. 比较的结果是”不怕临界值小, 就怕临界值大”因为临界值越大概率越小. 如果统计值大于临界值,说明结果显著, 应该推翻无效假设. 反之统计值小于临界值, 说明结果不显著, 不能推翻无效假设.50. 临界值法缺点是你只知道结果是否显著,并不知道精确概率.51. 概率法也是先求统计值, 再根据统计值及其相应的自由度求出概率值. 这个方法随着计算机的普及现在最普遍. 以前要查表才能知道概率, 现在只要输入统计值,用Excel 函数即可以求概率. 它的好处是可以知道精确概率值.52. 如何理解概率值? 最容易的方法是把所得概率值看成是机会引起的事件概率. 例如概率=0.33, 说明有33%的机会所观察到的平均数或其它统计值是有机会引起的. 这个概率相当大, 所以我们不能推翻无效假设. 而如果概率=0.01, 说明只有1%的可能是由机会引起. 这说明机会引起的可能性很小. 所以可以推翻无效假设. 总的说来是”不怕概率大, 只怕概率小”, 小了就可以推翻无效假设.53. 置信限法是先求样本统计值如平均数等, 再求样本标准差和标准误. 根据这些样本统计值就可以求群体参数的置信限为样本平均数加上正负两倍的标准误. 如果在置信限中包括0, 说明无效假设不能被推翻. 反之如果置信限不包括0, 说明群体参数不等于0. 该法多用于回归模型参数检验是否为0, 即某一自变量对因变量效应是否为0.54.所有测验(如t测验, 卡方测验, F测验, 正态测验等)统计值都是可以直接和临界值比较的值! 它们只是告诉你在横坐标上的数值而不是概率.55.临界值不是概率, 但每个临界值都对应相应的概率! 所以知道了临界值再求概率是不难的(求法见后).56.注意不要一看到1.96, 2.58等就认为它们代表0.05或0.01的概率. 1.64,1.96还有2.58都是在标准正态分布下才代表0.1, 0.05和0.01等概率. 在其它分布下它们对应的概率要看自由度而定.57.标准正态分布下的临界值我们用字母z表示. 其它分布时一般不用z表示.例如t分布下的临界值就用字母t表示, F分布下的临界值用字母F表示, 卡方分布下的临界值就是卡方值.58.显著水平和置信水平有何关系? 两者都是概率值. 不过显著水平是指尾部的概率而置信水平是指从左到右的累积概率. 换句话说, 当显著水平等于0.05时, 置信水平就等于1-0.05=.95.59.如何计算不同置信水平下的z值?办法有两个. 一是常用的可以直接记忆.如在标准正态分布下的三个z值是很容易记忆的: 1.64, 1.96, 2.58, 分别表示当置信水平是90%, 95%和99%时的临界值. 对于大多数问题来说记忆法就足够了. 第二种方法是用Excel函数计算. 不论函数用的是那种分布, 在Excel的函数名称里都有一个INV, 表示是把计算过程倒过来, 从概率值求临界值(一般是有了临界值即统计值要求概率值. 所以从概率值求临界值就是反过来了).60.套用Excel函数公式时, 其括号内的值就是你的概率值或置信水平. 有两点要注意, 所有求临界值的Excel函数都是基于累积概率, 即从无穷小到所求的那一点. 也就是从左到右. 但另一方面, 这些函数又都假定两尾概率. 所以其通用公式是(1-alpha/2)=(1-显著水平/2).61.例如要求显著水平=0.1时的临界值, 则在标准正态分布下输入的概率值或置信水平就是Normsinv(1-0.1/2)=Normsinv(0.95)=1.6448. 同理当你的置信水平=0.95时则Normsinv(1-0.05/2)=Normsinv(0.975). 最后如置信水平=0.99时有Normsinv(1-0.01/2)=Normsinv(0.995)=2.5758. 62.如果你不想要两尾置信水平, 只要一尾概率, 那么其公式就是(1-alpha). 例如求置信水平=0.95时的一尾临界值z值, 直接把0.95代入Excel函数有Normsinv(0.95)=1.6448. 又如求置信水平=0.99的一尾临界值z值, 直接代入0.99有Normsinv(0.99)=2.326. 上述例子可见一尾测验时的临界值永远小于两尾时的临界值. 换句话说所以统计学家们说一尾检验力度更大.63.在用Excel函数求临界值时,都是假定你已经决定了显著水平而要求相应临界值.这时需要用Normsinv, Tinv, or Chiinv. 第一个函数只要输入概率即可. 第二个和第三个都需要概率加上自由度.64.用Excel函数求概率时, 用NORMSDIST, TDIST和CHIDIST. 和临界值相似, 第一个函数只要输入z值即可. 第二个不但要t值, 还要自由度和一尾还是两尾, 共需三个参数. 最后的卡方分布概率因为是非对称分布, 且卡方不能为负数, 所以不可能用两尾. 只要卡方值加上自由度即可.65.用Excel求置信限没有简单函数,需要求出平均数和标准差,标准误等以后在手工计算置信限.66.最后Excel还有一套直接求概率的函数, 称为TTEST(), FTEST(),CHITEST() 和ZTEST(). 这些函数要求你给出数据所在位置再直接得出其显著性概率. 例如TTEST()第一个参数是数据范围, 第二个是1或2表示是一尾还是两尾检验, 第三个是测验类型, 共有三类: 第一类是成对比较, 第二是不成对但方差相等, 第三是既不成对方差也不等. 所以TTEST(a1:e22,1,1)表示数据范围是从A1到E22,用一尾检验,成对比较, 而TTEST(a1:b22,2,2)表示数据范围是A1到B22, 用两尾检验, 不成对但方差相等.。
测量层次2:定距测量与定比测量

÷)
√
√
√
√
√
√
√
√
√
√
3. 四种测量层次的联系
(2)测量层次比较高的变量可以转换为测量层次比 较低的变量。
3. 四种测量层次的联系
(3)最高等级的测量并不是必须的。 比如:年龄——定比
年龄层——定序
测量层次
史蒂文斯于1951年创立了测量层次(Levels of Measurement) 分类法。
测量层次
定类测量
定序测量
定距测量
定比测量
1. 定距测量(interval measures)
定距测量也称为间距测量或区间测量。它不仅能够将社 会现象或事物区分为不同的类别、不同的等级,而且可 以确定它们相互之间的间隔距离和数量差别。
定距测量的特点
定距测量可将定距指标转换为数字, 不仅能反映社会现 象的类别和序列,而且能反映社会现象的具体数量,计 算出它们之间的距离,可进行加减运算。 定距测量中的“零”并不是绝对的“无”,而是以某种 人为的标准设置的标志值。
温度
天气预报:沈阳:最高温度3℃,最低-7℃
大连:最高温度6℃,最低-2℃
ห้องสมุดไป่ตู้
两地最高温度相差3℃
沈阳最低温度较大连最低温度低5℃
大连最高温度是沈阳最高温度的2倍
2. 定比测量(ration measures)
定比测量也称为等比测量或比例测量,是一种能够测量 事物间比例、倍数关系的测量方法。
定比测量的特点
定比测量能够对变量值进行乘除法的运算。 定比测量要求有一个绝对的、固定的、而非任意规定的 零点。
真正的零: 一无所有
思考题:
下面的变量属于什么层次的测量变量? 身份证号码、 出生年份、工龄