第五节 抽样技术与数据分析基础
统计学中的抽样技术

统计学中的抽样技术统计学是一门研究数据收集、整理、分析和解释的学科。
而抽样技术则是其中最基础的技术之一。
在进行统计分析前,必须先通过抽样技术从样本中取得代表性的数据,才能从中推断出总体的各项指标。
一、抽样技术的基本概念抽样是从大量样本中选取一定数量的个体作为观测对象的过程。
选择的个体必须具有代表性,能够反映总体的特征。
这样才能保证分析出来的数据有效可靠。
随机抽样是一种常用的抽样方法。
在随机抽样中,每个个体被选中的概率是相等且独立的。
也就是说,每个个体被选中的概率是不受其它个体选中与否的影响的。
这样能够保证选出来的样本具有代表性,反映总体的特征。
二、抽样技术的类型1. 简单随机抽样简单随机抽样是从总体中随机抽取若干个体作为样本的方法。
在简单随机抽样中,每个个体被选中的概率是相等的。
2. 分层抽样分层抽样是将总体分成若干层(或区)后,分别从每一层中随机抽取若干个体作为样本的方法。
在分层抽样中,每层中个体的特征相近,能够更好地反映总体的特征。
3. 系统抽样系统抽样是从总体中按照某个规则选择若干个体作为样本的方法。
例如,在一个有序的样本中,每隔一定的间隔选择一个个体。
这种方法适用于总体比较规律的情况。
4. 分组抽样分组抽样是将总体分成若干组,然后从每组内随机抽取若干个体作为样本的方法。
分组抽样能够更好地反映总体的特征,避免某一组内的个体被选取过多或过少。
三、抽样技术的优缺点1. 优点抽样可以减少实验的时间和成本,节省资源。
抽样能够反映总体的真实情况,避免了统计结果的误差。
抽样的结果能够更好地解释,便于进行数据分析和预测。
2. 缺点抽样可能会造成样本数据的偏差,不能完全代表总体的情况。
抽样的过程需要一定的技术和方法,需要经过专业的培训和指导。
抽样的样本容量可能会受到客观条件的限制,从而影响结果的准确性。
四、结语抽样技术在统计学中有着重要的作用。
不同的抽样技术适用于不同的场景,需要根据实际情况进行选择和使用。
第五章社会学的研究方法

第一节 社会学方法论
一、社会学方法体系
社会学方法的概念: 社会学研究的一个主要手段就是运用科学的方法 来收集和分析社会事实,因此社会学研究的方法 就是一种经验研究的方法,它通过对经验事实的 分析来探究社会世界中人们的行为、态度、揭示 社会现象之间的关系,进而理解我们周围世界的 社会世界,预测社会发展、变迁的趋势。
(6)测量法。是按照一个有系统的步骤,用一套已设计好的表格作为刺 激物,来测定受试者的反应,从反应中得知受试者的社会心理状态。 (7)实验法。是指通过人为地、有目的的控制或操纵一定的条件,制造 出一种研究所需要的情境。在这个特定的情境中观察研究人类的社会行为 的变化,从而揭示某种因果关系。 (8)统计调查法。即抽样统计调查法。从将要调查的总体中抽出一部分 单位来进行调查。被抽出的调查单位,是总体的代表,因此叫样本。抽样 时要从样本调查中获得可以代表总体的资料和依据。
PPS抽样
▪ 二、数据分析 ▪ (一)单变量分析
用最简单的概括形式反映出大量样本资 料所容纳的基本信息,描述样本数据中或离 散趋势,单变量统计推断则是从样本资料来 推断总体的情况,包括区间估计和统计假设 检验。
(均值,众数,中位数)
(二)双(多)变量分析 双(多)变量统计的内容很多,但从实
际应用角度看,主要包括回归分析、判别分 析、因子分析、主成分分析、聚类分析、生 存分析等六个大的分支
搜集资料的具体方法
(5)问卷法。是研究者把要研究的主题分为详细的纲要,拟成简明易答 的一系列问题,编制成标准化的问卷,然后根据收回答案,进行统计处理, 得出结论的方法。问卷一般有开放式问卷和封闭式问卷两种,前者是要求 答者自由发表自己的意见;后者则是先把有关答案准备好,由答者从中选 择一项或数项他认为适当的答案即可。
抽样技术及其重要性

抽样技术及其重要性在现代科学研究和数据分析中,抽样技术是一种至关重要的工具。
面对庞大的数据集,完整调查所有数据不仅耗时耗力,而且成本高昂。
因此,抽样成为解决这一问题的有效手段。
本文将探讨抽样技术的基本概念、方法以及其在研究和实际应用中的重要性。
一、抽样技术基本概念抽样的定义抽样是从总体中选取一部分个体(称为样本),以期通过对样本的研究来推断总体特征的一种统计方法。
在许多情况下,由于时间、费用或者其他限制条件,研究者无法对整个总体进行调查或测试,这时就需要采用抽样技术。
总体与样本总体是研究对象的全体,而样本是从总体中随机选取出来的一部分。
一个好的样本应该能够代表总体,使得通过样本所得出的结论能够推广到整体。
例如,在对某一地区居民饮食习惯的调查中,若能随机选取一定数量的居民作为样本,并保证其多样性和代表性,则可以更准确地反映该地区居民的饮食习惯。
二、抽样方法随机抽样随机抽样是最基本的抽样方法,它确保每个个体都有相同的被选中机会。
这种方式可以消除选择偏差,从而提高结果的可信度。
随机抽样又可分为简单随机抽样、系统抽样和分层抽样。
简单随机抽样:从总体中每个个体都有同等概率被选中的方式。
比如将所有个体编号,然后随机抽取。
系统抽样:按一定规则选取个体,如每隔一定数量选择一次。
假设要从100个个体中选取10个,可以每10个选择1个。
分层抽样:总体被划分为不同的层次(如年龄、性别等),然后从每一个层次中进行随机抽取,以保证各层次特征都能被涵盖。
整群抽样整群抽样是将总体划分为若干群体(集群),然后随机选择一些群体进行全面调查。
这种方法适合于总体现象高度一致且因子差异较大的情况。
比如对某一地区学校教育质量进行研究,可以选择某些学校作为群体进行研究。
非随机抽样非随机抽样方法则不保证每个个体有相等机会,被选中的机会可能因各种因素而不同。
这种方法通常用于探索性研究或对少数群体特征进行初步了解。
常见的非随机抽样方法包括便利抽样、判断抽样和配额抽样。
《社会学概论新修》(郑杭生)重点(打印版)

《社会学概论新修》(郑杭生)重点概念汇总目录第一编社会运行概述第一章社会学的研究对象第一节社会学是关于社会良性运行和协调发展的条件和机制的综合性具体社会科学第二节社会学研究对象与社会学其他内容的关系第三节社会学的学科地位第四节社会学与社会第二章社会运行的物质基础第一节人口与社会运行第二节环境与社会运行第三节物质资料的生产方式与社会运行第三章社会系统与社会运行第一节什么是社会与社会系统第二节社会运行第三节社会学考察社会的几种角度第四章社会运行与社会文化第一节文化的含义及特性第二节文化的类型第三节文化构成与文化分析第四节文化的功能第五章社会学的研究方法第一节社会学方法论第二节社会学研究的过程第三节社会学主要研究方法第四节社会指标第五节抽样技术与数据分析基础第二编社会运行的微观分析第六章社会化与个体化第一节社会化与个体化概要第二节人的社会化第三节人的个体化第七章社会互动第一节社会互动的含义第二节社会互动的过程第三节社会互动研究的主要理论视角第四节社会角色第八章社会网络与社会群体第一节社会网络第二节社会群体第三节初级社会群体第九章家庭、婚姻、性与社会性别第一节研究概述第二节婚姻家庭社会学第三节性社会学第四节性别角色与社会性别第三编社会运行的宏观分析第十章社会组织第一节社会组织概述第二节社会组织目标第三节社会组织结构第四节社会组织理论与管理第十一章社区第一节社区概述第二节农村社区第三节城市社区第四节虚拟社区第十二章社会制度第一节什么是社会制度第二节社会制度的类型及功能第三节制度创新与制度变迁第十三章社会分层与社会流动第一节社会分层概述第二节社会分层研究的两大理论传统第三节社会分层研究的主要内容第四节我国的阶级阶层状况第五节社会流动第十四章社会变迁与社会现代化第一节社会变迁第二节社会现代化第三节社会现代化过程的基本特征第四节发展中国家现代化的特征第五节我国的现代化进程第十五章城市化第一节城市的起源、演变与城市化第二节城市的空间结构及其变动第三节城市的社会文化特征第四节城市问题与城市规划第十六章集体行为与社会运动第一节集体行为和社会运动的概念及分类第二节集体行为理论第三节社会运动的兴起与发展第四编社会运行与社会建设第十七章社会问题第一节什么是社会问题第二节社会问题的一般特征及其类型第三节社会问题的理论研究第四节社会转型与社会问题第十八章社会控制第一节社会控制概述第二节社会控制体系第三节社会越轨与社会控制第十九章社会政策第一节社会政策的含义与类型第二节社会政策理论的发展第三节社会政策的一般过程第四节中国社会政策的演变与现状第二十章社会建设第一节社会建设的概念第二节社会建设的相关理论第一编社会运行概述1.社会学定义:社会学是关于社会良性运行和协调发展的条件和机制的综合性具体社会科学。
抽样统计分析的基本知识

抽样统计分析的基本知识引言在统计学中,抽样是一种常用的数据分析方法,通过从总体中选择一部分样本数据进行分析,从而得出关于总体的结论。
抽样统计分析为我们提供了一种有效的方式来推断总体特征,并进行决策或预测。
本文将介绍抽样统计分析的基本知识,包括抽样方法、样本量的确定和抽样误差的控制等内容。
一、抽样方法抽样方法是确定如何从总体中选取样本的方式。
常见的抽样方法有以下几种:1. 简单随机抽样简单随机抽样是指从总体中按照概率相等的方式选择样本,每个样本的选取是相互独立的。
简单随机抽样常用的方式有抽签、随机数表等。
简单随机抽样的优点在于样本的代表性较高,能够减小抽样误差。
然而,简单随机抽样的缺点在于实施起来可能比较复杂,且对总体的特征了解较少的情况下可能效果不佳。
2. 系统抽样系统抽样是从总体中选取样本的方法之一,通过确定一个固定的抽样间距,从总体中选取每隔固定间距的样本。
系统抽样的优点在于实施简单,抽样结果仍具有一定的代表性。
不过,需要注意的是如果总体呈现出周期性或有规律的特点,系统抽样可能引入系统误差,导致样本的代表性出现偏差。
3. 整群抽样整群抽样是将总体划分为若干个互不重叠的群体,然后从这些群体中随机选择部分群体作为样本。
整群抽样的优点在于可以减少抽样的成本,提高调查的效率。
然而,整群抽样可能引入群体间的差异性,因此在分析时需要考虑群体间的相似性程度。
4. 分层抽样分层抽样是将总体划分为互不重叠的若干个层次,然后从每个层次中分别进行抽样。
分层抽样的优点在于可以针对不同层次的特点进行分析,提高样本的代表性。
然而,在进行分层抽样时需要事先对总体的特征有一定了解,并且分层的选择要合理。
5. 整体抽样整体抽样是指直接选取总体中的全部元素作为样本。
整体抽样的优点在于样本的代表性最高,不会引入抽样误差。
然而,整体抽样的缺点在于样本量较大,造成调查成本的增加。
二、样本量的确定样本量的确定是保证抽样结果具有一定代表性的重要因素。
统计学中的抽样与数据分析

统计学中的抽样与数据分析在统计学中,抽样与数据分析是两个关键的概念,它们为我们提供了一种有效的方式来理解和解释数据,以及做出决策。
本文将介绍抽样和数据分析的概念、方法和应用。
一、抽样方法抽样是从总体中选择部分个体进行观察和研究的过程。
通过抽样,我们可以通过研究样本来推断总体的特征。
常用的抽样方法包括简单随机抽样、分层抽样、系统抽样等。
1. 简单随机抽样简单随机抽样是从总体中随机选择个体作为样本的一种方法。
它要求每个个体被选择的概率相等且相互独立。
简单随机抽样能够有效地避免选择偏差,提高样本的代表性。
2. 分层抽样分层抽样将总体划分为若干个层次,然后从每个层次中随机选择一定数量的个体作为样本。
这样可以确保样本在不同层次上都具有代表性,从而提高估计的准确性。
3. 系统抽样系统抽样是按照某个规律从总体中选择个体作为样本的方法。
例如,我们可以每隔一定间隔选择一个个体作为样本。
系统抽样适用于总体有序排列的情况,可以提高效率。
二、数据分析方法数据分析是通过对收集到的数据进行整理、描述、分析和解释,来获取有关现象和问题的可靠信息。
常用的数据分析方法包括描述统计、推断统计和回归分析等。
1. 描述统计描述统计是对数据进行总结和描述的方法。
常见的描述统计参数包括均值、中位数、标准差等。
描述统计可以帮助我们了解数据的中心趋势和离散程度。
2. 推断统计推断统计是通过对样本数据进行分析,从而对总体进行推断的方法。
常用的推断统计方法包括假设检验和置信区间估计。
推断统计可以用于判断总体参数是否显著不同于某个特定值,以及研究总体参数的区间估计。
3. 回归分析回归分析是研究自变量和因变量之间关系的统计方法。
它可以用于建立数学模型,通过对自变量的变化来预测因变量的变化。
回归分析在实践中广泛应用于市场预测、经济分析等领域。
三、抽样与数据分析的应用抽样与数据分析在各个领域都有广泛的应用。
例如,在医学研究中,我们可以通过抽取一部分患者作为样本,来推断某种药物的疗效;在市场调研中,我们可以通过抽样来了解消费者的购买意愿和喜好;在质量控制中,我们可以通过抽样检验来判断产品的合格率等。
社会学的研究方法ppt

哲学基础 研究范式 逻辑过程 理论模式 主要目标 分析方法 主要方式 资料收集方法 研究特征
其特征就是控制情境与变量来研究社会行为与社会现象得 变化,以建立变量间得因果关系。
三个基本要素:实验组与控制组;前测与后测;自变量与因变 量。
三、实验法
前测(pretest):实验研究中在对实验组给予实验刺激之前进 行得测量。
后侧(posttest):实验研究中在对实验组给予实验刺激之后 进行得测量。
三、社会学研究得范式
社会学三大范式:
社会学研究范式(风笑天):
社会事实范式:以迪尔凯姆得方法论思想与结构功能主义理论为代表, 强调社会现象得客观性,强调对宏观得社会结构、社会制度、文化规 范进行研究,在社会结构层次与文化层次探讨社会得本质属性。
社会定义范式:以韦伯得思想与符号互动论为代表,强调社会现象得主 观性质,认为宏观得社会现象都就是人们主观定义得,强调在微观层次 研究人们如何建立社会并在社会中行动得。
社会行为范式:以行为科学得方法论为代表,强调对个人得社会行为进 行客观精确得分析,主张用经验或实证得方法研究社会现象。认为事 实范式过于抽象,限于宏观层次,而定义范式过于主观,限于微观层次,强 调对人外部行为得经验观察来认识社会现象得因果关系。
一、研究得逻辑过程
“科学之环”原理
一、研究得逻辑过程
大家学习辛苦了,还就是要坚持
继续保持安静
三、社会学研究得范式
社会学的研究方法

第三节 社会学主要研究方法
三、实验法
实验法,就是在控制某些条件的情况下研究变量之间因果 关系的方法。
为了控制某些自变量可能对因变量产生的影响,实验法常 常在实验中将被试或实验对象分为两个组:一组是实验组, 另一组是控制组。通过对两组实验结果的比较,检验某些 变量之间是否存在因果关系。
关键概念
概念、变量、假设、操作化 范式 “科学之环”原理 定量、定性研究方法 问卷调查法、田野调查法、实验法 社会指标 抽样、分层抽样
第五章 社会学的研究方法
第一节 社会学方法论 第二节 社会学研究的过程 第三节 社会学主要研究方法 第四节 社会指标 第五节 抽样技术与数据分析基础
第一节 社会学方法论
三、社会学研究的范式 范式,是指一定时期内,科学研究共同体成员在进行常
规科学研究过程中所共同遵循的规范和理论与方法论模式。 社会学三大范式: 实证范式 解释范式 批判范式
第二节 社会学研究的过程
一、研究的逻辑过程
“科学之环”原理
问题
理论
假设检验
功能。 (2)社会监测功能。 (3)预测功能。 (4)比较和评价功能。
假设
操作化
第二节 社会学研究的过程
二、社会学的解释
1、概念和变量 2、假设 3、变量测量和分析 4、假设检验
第二节 社会学研究的过程
三、研究的基本程序
(1)提出和界定问题; (2)回顾别人的相关研究; (3)进行研究设计; (4)收集资料; (5)整理和分析资料; (6)解释从资料中获得的发现; (7)得出结论; (8)发表或出版研究成果。
的是变动中的尤其是现实社会的各种事实和关系的动态过 程。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五节抽样技术与数据分析基础抽样调查和数据分析是社会学定量研究中的重要手段和方法。
如何使收集的资料对总体具有代表性?如何利用调查数据揭示社会运行规律?抽样技术和数据处理及分析尤为重要。
一、抽样技术所谓抽样,就是按照一定的方式,从总体中抽取能代表总体的一部分元素,即样本,然后根据样本中所包含的信息对总体的状况进行估计和推算的过程。
重要概念所谓抽样,就是按照一定的方式.从总体中抽取能代表总体的一部分元素,即样本,然后根据样本中所包含的信息对总体的状况进行估计和推算的过程。
理解抽样技术与解释几个基本概念有密切关系。
(1)总体和样本。
总体指的是所研究对象的全体。
样本由从总体中抽取的部分个体(或单位)所组成。
(2)抽样单元和抽样框。
为了便利地实现随机抽样,常常把总体划分成有限个互不重叠的部分,每个部分叫做一个抽样单元。
抽样时,给抽样单元赋予一个被抽中的概率,可以是相等的,也可以是不相等的。
在设计概率抽样的方案时,必须有一份关于全部抽样单元的资料,如名单、地图、规模等,称为抽样框。
(3)抽样误差和非抽样误差。
用样本估计总体产生的误差叫做抽样误差。
非抽样误差是在抽样调查中由于人为的差错或一些不可控制的因素所造成的误差。
(4)总体指标。
总体指标就是调查的目标量,也就是有关的总体参数,因而又称总体值或参数值。
根据从总体中抽取样本的方式,抽样分为概率抽样与非概率抽样。
概率抽样依据概率论的基本原理,按照随机的方式进行,它充分考虑等概率的原则,可以避免抽样过程中的人为影响,可以对样本的误差加以控制,以保证样本的代表性。
概率抽样包括简单随机抽样、系统抽样、分层抽样、整群抽样、多段抽样等具体方式。
非概率抽样则主要是按照抽取样本的方便性、主观判断、主观意愿来选取研究对象,与概率抽样相比,其最大的区别是非概率抽样无法保证抽取样本的等概率性质,样本误差无法控制和估计。
非概率抽样有偶遇抽样、主观抽样、配额抽样、滚雪球抽样。
概率抽样的过程一般包括界定总体、制定抽样框、决定抽样方案、实际抽取样本和评估样本质量等几个基本的步骤。
二、简单随机抽样简单随机抽样最为直接地体现了抽样的等概率、随机性的原则,因而也是最为基本的概率抽样形式。
事实上,其他抽样方式也是以简单随机抽样为基础的。
因此,了解简单随机抽样是学习其他抽样方式的人口。
(一)简单随机抽样简单随机抽样就是按照等概率原则,从含有N个抽样元素的总体中抽取n个元素(N>n)组成样本的方式。
所谓等概率,就是在总体N中抽取n个元素时,总体中每一个元素被抽中的概率都是相等的,即都是n/N。
简单随机抽样所得到的样本称为简单随机样本。
简单随机抽样所采用的办法通常有抽签法和随机数表方法。
抽签法是先将总体中的每个单元都编上号,写在签上。
将签充分混合均匀后,每次抽一个签,签上的号码即表示样本中的一个单元。
另一种常用的简单随机抽样的办法是随机数表法。
随机数表是随机形成的,表中的数码和排列没有任何规律性,故又称乱数表。
样本规模也称样本容量,确定样本规模是抽样设计的重要环节。
在简单随机抽样过程中,当估计参数为总体均值时,最小样本规模的确定公式是:式中,△为绝对抽样误差,t为规定的绝对抽样误的t值范围,S2为总体元素的方差。
当估计参数为比例P时,样本规模可从如下方式得到:在上述公式中,绝对抽样误差“△”是人为规定的,t值则对应于所要求的置信度,可以从t分布表中查出。
(二)概率与规模成比例抽样概率与规模成比例抽样(sampling with probabilities proportionate to size,简称PPS)是社会学调查研究中最常用的一种抽样方法。
PPS抽样使用多级抽样的形式,它根据元素的层级划分特征,依次由高到低抽取各层级的样本单位。
不同的是,虽然PPS抽样在确定各级抽样单位规模时,上一级抽样单位的数量应该与下一级保持平衡,但是,每一个级或层次内的子抽样,其样本规模都是相同的。
由于不论初级抽样单位(primary sampling unit,简称PSU)大小,都从中抽取固定的样本单位,因此PPS抽样的样本规模的变动也得到了控制。
同时,PPS抽样在抽取较高层级的样本单位(即是对群或层的抽样)时,每个群中选的概率与群规模的大小成正比关系。
比如在某一层级中,一个PSU的规模是另一个的3倍,则前者中选的概率也是后者的三倍,成了不等概率抽样。
不过在下一级抽样时,由于PPS抽样是从每个抽中的PSU中抽选固定的样本量,这时子抽样的概率就与规模成反比,即PSU越大,PSU内的元素被抽中的概率越小,因而对于总体每一元素来说,中选的概率仍然是相同的,保证了抽样的等概率特性。
PPS抽样步骤可示例如下。
假设要在某个城市56万多符合调查要求的人口中抽取400人进行调查。
显然,如果按照简单随机抽样或系统抽样的方式,找到一份56万多人口的全部名单来制作抽样框是非常不现实的。
但我们知道,该城市是由区、街道、居委会三级组成的,于是我们分阶段来抽样。
该城市区一级单位只有4个,4个区中共有21个街道,我们决定以街道为PSU,先在21个街道中抽取4个,然后在每个被抽中的街道中再进一步分别抽取4个居委会,继而在每个被抽中的居委会中分别抽取25人作为样本(4×4×25=400)。
具体操作是:第一步,先抽取4个街道。
将21个街道符合调查要求的人口规模和累计规模排列出来,并给出每个街道的选样范围,如表5—5所示。
表5--5 PPS抽样步骤举例第二步,采用系统抽样的方式抽取街道。
首先计算抽样问隔。
在规模为56.67万的总体中,抽取4个PSU,抽样间隔的计算是K=56.67/4=14.1425(万)。
在1~K 的范围内,使用随机数表或随机函数给出一个随机起点,比如是6.865514,由于6.865514落在平政路的选样范围,平政路即为第一个抽选到的PSU;根据等距抽样原则,第二、三、四个PSU的选取就不难获得。
比如第二个点的号码是21.0081(=6.865514+14.1425),落在鹤岭街道的抽样范围,鹤岭即为被抽中的第二个街道。
依此类推。
第三步,按照抽取街道的方式,对每一个被抽中的街道,分别抽取出4个居委会。
第四步,在抽到的l6个居委会中,用系统抽样或简单随机抽样的方式分别抽取25户家庭。
第五步,人户抽样。
人户抽样即在被抽中的每户家庭中抽取一位合适的家庭成员作为访谈对象,其简便操作的方式是利用人户抽样表(见表5—6)。
此表是按照随机、等概率的性质编制出来的。
表5—6入户抽样表使用上述人户抽样表要求首先对问卷进行编号,在进入被抽中的家庭后,调查员要询问该家庭中所有符合调查要求的家庭成员的年龄。
比如,某次调查的一个例子是:“请问您家l8~65周岁的成员(含18、65周岁,指共同居住、共同生活、财产共享的家庭成员)有几位?”然后,请调查员将符合条件的家庭成员,从年龄最大的一位开始,按年龄大小顺序记入随机数表。
问卷编号的尾数与最后一位家庭成员的序号交叉,所获得的随机数字,即是被抽中的家庭成员的序号,该家庭成员即是被访对象。
比如,用一本编号为“0204”的问卷进入一户有3位成员符合抽样条件的家庭,表中序号“3”和问卷尾数“4”交叉处的随机数字为“2”,则序号为2的家庭成员即是将要访谈的对象,如表5—6所示。
使用入户抽样表需要注意的是,不能特意挑选问卷进入被访者家庭,否则就会破坏人户抽样的随机性。
三、数据分析数据分析主要包括单变量统计,双变量分析以及多变量分析。
这里简单介绍单变量分析与双变量分析的内容。
(一)单变量分析描述单变量的样本集中趋势,常用的统计描述方式主要有均值、众数和中位数,其中样本均值的计算是最常见的一种方式。
均值,即样本平均数,其基本公式为:式中为均值,x i为样本观测值,n为样本量。
对变量的离散程度的分析,主要是了解样本值分布的不均衡状况,它与集中趋势的分析恰好相反。
常见的离散统计量包括全距、标准差、四分位差等。
其中,标准差是需要重点掌握的。
标准差即是一组数据相对于均值的偏差平方的算术平均数的平方根,用公式表示就是:式中S为标准差,为均值,x i为样本观测值,n为样本量。
进一步,标准差与平均数百分比值称为离散系数,用公式表示为:式中,CV为离散系数。
可见离散系数具有相对性,它可以用来比较不同变量之间离散程度的差异。
区间估计是单变量统计推断的一种主要情形,它是指在一定的置信度范围下对总体的取值区间的估计,因此也称为置信区间。
常见的区间估计有总体均值的区间估计和总体百分数估计。
这里我们首先需要清楚什么是置信度。
置信度或可称为区问估计的把握性程度,社会统计一般取三种置信度,即90%、95%、99%,它们表示对总体的推断有90%、95%或99%的把握,或者反过来,对总体的推断存在10%、5%、l%的误差(即允许误差,记为α)。
总体均值的区间估计公式为:式中,S为标准差,为均值,n为样本量,Z(1-α)为置信度为l-α的Z值(置信度90%、95%、99%所对应的Z值分别为l.68、1.96、2.58)。
相应地,当从样本百分比来估计总体百分比的区间时,公式为:式中p为样本中的百分比。
(二)双变量分析检验和测量两个变量之间的关系,是双变量分析的基础。
在社会统计学中,有一组称为消减误差比例的统计量常用来测量两个变量之间的相关程度。
所谓消减误差比例(proportionate reduction in error,简称PRE),就是用一个变量预测另一个变量时可以减少的误差比例,即:式中,E1为预测某个变量(Y)的全部误差,E2为用一个与变量Y相关的变量X来预测 Y 时的误差总数,那么E1-E2就是用变量X预测Y时可以减少的误差。
但是,对不同层次、性质的变量之间消减误差比例的统计分析需要采用不同的统计量。
测量和检验两个定类数据之间的关系,有对称和非对称的Lambda测量以及 tau-Y测量,对称Lambda测量表示两个变量相互预测时可以减少的误差比例,非对称Lambda测量以及tau-Y测量则表示用一个变量预测另一个变量时可消减的误差比例。
比如用变量X预测变量Y时,得到tau-y=0.54,即表示通过X预测Y可消减54%的误差。
两个定类变量是否相关,还可用卡方(χ2)检验来表示,卡方的计算公式为.式中,f$0为列联表单元格中的实际观测频数,f e为单元格的期望频数。
卡方检验的步骤是先建立两个变量的独立性假设(称为零假设),然后根据自由度df=(r一1)(c-l)和给出的显著性水平来查χ2分布表,得到一个χ2临界值,然后将计算出来的χ2值与查表所得的临界值比较,如果χ2值大于或等于临界值,则表明拒绝零假设,两个变量之间具有相关关系,反之,则接受零假设。
两个定序变量之间的相关关系通常可以采用古德曼和古鲁丝卡的Gamma系数、萨默斯(Somers)的d y系数以及斯皮尔曼相关系数(rho系数)来测量。