第十一章 定量资料分析

合集下载

医学统计学 定量资料的分析

医学统计学 定量资料的分析

26/50
t
X
1
X
2

2
2 1
s X 1 X 2
t X1 X s
X1X
2
27/50
s
X 1 X

2
sc
2
1 1 n n2 1
2

2
sc
2
n 1 1 s1
n 2 1 s2
n1 n 2 2
32/50
在两个样本均数比较时,若两组样本含量都很大, 可用 u 检验(t 检验的近似),其计算公式为:
u
X s
1
X
2
2
s1
2
X
1
X
2 2
X 1 X
n1 s 2
n2
u为标准正态离差,按正态分布界定 P 值并作出结 论。
33/50
例6.5 某市于1973年和1993抽查部分12岁男童 对其发育情况进行评估,其中身高的有关资 料如下,试比较这两个年度12岁男童身高均 数有无差别。 1973 年:n1=120 =139.9cm s1=7.5cm; 1993 年:n2=153 =143.7cm s2=6.3cm。
第6章
定量资料的分析
1/50
样本均数与总体均数比较的t检验
配对样本的t检验
两个样本均数的t检验 t检验的正确应用
2/50
6.1 样本均数与总体均数的比较 (one sample t-test) 目的: 推断该样本是否来自某已知总体;样本均数代表的 总体均数与0是否相等。 总体均数0一般为理论值、标准值或经大量观 察所得并为人们接受的公认值、习惯值。 实例分析:以例6.1为例介绍

定量分析

定量分析

定量分析科技名词定义中文名称:定量分析英文名称:quantitativeanalysis定义:测定试样中各种组分(如元素、根或官能团等)含量的操作。

应用学科:定量分析定量分析是对社会现象的数量特征、数量关系与数量变化的分析。

投资分析师使用数学模块对公司可量化数据进行的分析。

通过分析对公司经营给予评价并做出投资判断。

定量分析的对象主要为财务报表,如资金平衡表、损益表、留存收益表等。

其功能在于揭示和描述社会现象的相互作用和发展趋势。

目录编辑本段定量分析的含义及理论基石形成定量分析起源于分析化学的一个分支。

测定物质中各成分的含量使用方法不同,可分重量分析、容量分析和仪器分析三类。

因分析试样用量和被测成分不同,又可分为常量分析、半微量分析、微量分析、超威量分析和痕量分析等。

含义定量分析指分析一个被研究对象所包含成分的数量关系或所具备性质间的数量关系;也可以对几个对象的某些性质、特征、相互关系从数量上进行分析比较,研究的结果也用“数量”加以描述。

理论基石定量分析的理论基石是实证主义。

从研究的逻辑过程看,定量分析比较接近于假说-演绎方法的研究,既保留重视观察实验、收集经验资料的特点,又保留重视逻辑思维演绎推理的特点,应用假说使得观察实验方法和数学演绎形式结合起来。

正因为这样,定量分析往往比较强调实物的客观性及可观察性,强调现象之间与各变量之间的相互关系和因果联系,同时要求研究者在研究中努力做到客观性和伦理中立。

方法定量分析方法很多,但各种方法在应用时往往都有一定的程序化。

如实验法、观察法、访谈法、社会测量法、问卷法、描述法、解释法、预测法等等。

具体使用到的分析方法,可以是以下几种方法的一种或几种结合使用:微谱分析(MSA)湿法分析直读光谱(OES)电感耦合等离子体放射光谱(ICP-AES)电感耦合等离子体质谱仪(ICP-MS)原子吸收光谱(AAS)编辑本段定性分析与定量分析的关系定性分析与定量分析应该是统一的,相互补充的;定性分析是定量分析的基本前提,没有定性的定量是一种盲目的、毫无价值的定量;定量分析使定性分析更加科学、准确,它可以促使定性分析得出广泛而深入的结论。

定量分析方法(11-1)

定量分析方法(11-1)

第十一章 回 归 分 析本章以一元线性回归模型为重点介绍回归分析方法,对于一元线性回归模型所建立的理论与方法作适当的修改便可推广到多元线性回归模型。

§1 回归的概念一、变量之间的关系现实中,各种变量相互依赖、相互影响,存在着某种关系。

如:价格与需求量、利率与投资、收入与消费,等等。

大致可以归纳为两类关系:确定性关系(函数关系),非确定性关系(统计关系)。

1. 确定性关系:变量之间存在着某种完全确定的关系。

如:总收益Y 与产量X 之间的关系:X P Y ⋅=当价格一定时,Y 由X 完全确定。

表现在图形上,()Y X ,的所有点位于一条直线上。

一般地:()n X X X f Y ,,21= (多元函数)2. 非确定性关系:变量之间由于受到某些随机因素的影响而呈现出一种不确定的关系。

如:农业产量主要受到降雨量、施肥量、温度等的影响,但决定产量的并非完全是这些因素,还要受到许多其它因素的影响,如冰雹、蝗灾等自然灾害。

非确定性关系可以分为两大类:1) 相关关系:两个变量处于完全对等的位置,且两个变量皆为随机变量,常用相关系数来度量。

如:计量经济学成绩与统计学成绩,物价水平和股票价格,等等。

2) 回归关系:一个变量的变化是另一个变量变化的原因,而不是相反。

如:消费量Y 与可支配收入X 之间便是一种回归关系。

一般来讲,随着可支配收入的增加,消费增加,可支配收入是影响消费的主要因素,但并非唯一的因XYPX Y =素,影响消费的因素还有消费习惯、地区差异、年龄构成、宗教信仰等等。

同样收入的家庭,有的支出多,有的支出少,即使是同一家庭,其每个月的收入相同的话,各个月的支出也不会完全一样。

这样,对应于一个X 的值,Y 有多个不同的值相对应,X 与Y 呈现出不确定性的关系。

此时:()u X f Y += (u 为随机影响)表现在图形上,()Y X ,的点不是完全处于一条直线(或曲线)上,而是围绕在一条理论线的两旁变化。

第十一章 定量资料分析

第十一章 定量资料分析

(3)定距层次:算术平均数
通常称平均数,又称均数或均值。英文为Mean, 故以M表示。如果是由变量X计算得来的就记为X (读X杠),现在一般都以 X 表示样本的平均数, 以U 表示总体的平均数。
算术平均数就是各个变量值相加求和再除以变量 的总次数。
x
X=
X 1 X 2 X n N
按照处理方式不同集中统量可分为几类, 两最常见的集中趋势有算术平均值、众数 和中位数三种。用得最多的是平均数。 1 定类层次:众值(众数) 其意义为,在众多数值中,出现次数最多 的一个数值。 (1)原始资料,求众值 例如:2,3,5,5,5,6,6,7,8 出现次数最多的是5,其M0=5
区间 75-79 70-74 65-69 60-64 55-59 50-54 组中值 77 72 67 62 57 52 频数 1 3 5 10 4 2
表中频数最大的为10, 对应的区间是60-64, 其组中值是62,所以众 值=62。 如果在一个次数中出现 两个邻近的次数较多者, 众数是二次数多的组中 值的平均值
资料审核的方法主要有两种,即逻辑审核 与计算审核。 逻辑审核,即核查资料的内容是否合乎逻 辑和常识,项目之间有无互相矛盾之处, 与其他有关资料进行对照是否有明显出入 等等。 计算审核,是针对数字资料进行的审查。 要检查计算有无错误。度量单位有没有错, 前后数字之间有无相互矛盾之处等等。
离散程度表示一组数值的差异情况, 测量的是分配的离中趋势。反映数据 对于集中趋势的偏离程度的量称为离 散程度统计量。 常见的离散量数统计量有全距,标准差, 异众比率,和四分位差。
全距(R)
全距也叫极差,它是一组数据中,最大值与最小值 之差. 它是表示数据分布离散程度最简单的方式,即一 组数据中最大数与最小数差,故称两极差。

第十一章 定量资料分析

第十一章 定量资料分析

1
6 Di2 N (N 2 1)
• 3. 定类变量(或定序变量)与定距变量
• 当两个分析的变量一个为定类(或定序)变量,另一个为 定距(以上)变量时,可以用相关比率(Correlation ratio)或eta系数来测量二者间的相关程度。
• 相关比率又称为eta平方系数,记为 E2,其数值范围由0
• 四、数据清理
• 1. 有效范围清理; • 2. 逻辑一致性清理; • 3. 数据质量抽查。
统计分析
全面调查
单变量 双变量 多变量
集中趋势 分析
离散趋势 分析
列联表 消减误差
比例 相关分析 一元方差
分析 一元回归
分析
多元相关 分析
多元方差 分析
多元因果 分析
判别分析 聚类分析 因素分析 最小空间
• 三、相关分析与检验
• 1. 定类变量与定类变量
• Lambda系数、Tau-y系数
• (1)系数 yx ( 以众值作为预测的准则)
mx my (M x M y )
2N (Mx M y )
yx
my M y N My
每M 个y=取Y变值量之众下数的的X变频量次的;M众x=数X的变频量次众;数m的y=频为次X变,m量x=的Y每变个量取
• 置信水平与置信区间成正比。
• 常用的置信水平分别为90%、95%和99%,与它
们所对应的允许误差(显著性水平, )则分别为
10%、5%和1%。在计算中,置信水平常用1-
来表示。
• (1)总体均值( )的区间估计
X Z /2
n
X Z /2
S n
X 为样本平均数,S为样本标准差;Z(1 )为置信度是1- 的 Z值;n为样本规模。

定量资料的统计分析

定量资料的统计分析

1=男 2=女 按实际年龄填写 大于99岁的填99
第十一讲:定量资料的统计分析
1.3 数据录入
数据录入的方式:一种是直接从问卷上将编 好码的数据输入计算机;另一种是先将问卷 上编好码的数据转录到专门的登录表上,然 后再从登录表上将数据输入计算机。 数据登录表(见教材276页) 数据录入的软件有很多,且大多可以相互转 换。如POXFRO,EXCEL,SPSS。 我们介绍直接用SPSS录入。
第十一讲:定量资料的统计分析
定量资料的分析
1、资料的整理与录入 2、单变量统计分析 3、双变量统计分析 4、多变量统计分析

第十一讲:定量资料的统计分析
1、资料的整理与录入
1.1 资料的审核 1.2 资料的编码 1.3 数据录入 1.4 数据清理

第十一讲:定量资料的统计分析
栏码的分配 指定每个问题的编码值在整个数据文件中所 处的位置。(预编码和事后编码) 栏码的指定方法是从问卷的第一个项目或问 题开始,先根据每一个项目或问题答案数码 的位数,来确定该项目或问题所占有的宽度, 再根据前后顺序来确定其在整个数据排列中 所处的位置,这样从头依次往后排列。

第十一讲:定量资料的统计分析

第十一讲:定量资料的统计分析
建立新变量
Compute命令 Recode命令

第十一讲:定量资料的统计分析
数据文件的整理
排序(sort;rank) 置换(transpose) 拆分(spit)与合并(merge) 分类与汇总(aggregate) 加权(weight case) 选择分析变量(select case)

第十一讲:定量资料的统计分析
1.3 数据录入

市场调查方法与技术 第5版 第十一章 定量调查资料的分析

市场调查方法与技术 第5版 第十一章 定量调查资料的分析
结合市场分析场景或案例分别介绍常见的描述分析方法、变量间相关分析方法(相关分析、列 联分析、对应分析等)、有监督统计分析方法(回归分析、方差分析、判别分析等)、以及无 监督统计分析方法(聚类和因子分析)。
表11-1数据类型及其适用的分析方法
4
01
单变量的 描述统计分析
描述统计分析
描述统计是市场调查分析中最常用的分析方法,关键是如何选择适当的图表或统计量使数据更易于解释。不同的 描述统计分析方法适用于不同的研究目的,适合不同的测量尺度数据。 下面我们以表11-2中的数据为例,介绍常用的描述统计方法
• 四分位差较小说明数据比较集中于中位数附近;反之 分布较分散。
• 四分位差常与中位数一起描述定距或定序变量分布。 缺点是四分位差没有充分利用所有数据信息。
10
数据的特征描述③ 离散趋势分析b
反映各数值远离其中心的程度,即数据分布的分散程度。数据的离散程度越大,则集中趋势测度值对该组数据的代 表性越差;离散程度越小,则其代表性就越好。
变异系数
全距
• 也称为离散系数,即标准差与均值的比值,主要用于 不同类别数据离散程度的比较,记为CV。公式如下:
• 也称极差,是一组数据中最大值与最小值之差, 计算公式是
• 标准差大小不仅与数据测度单位有关,也与观测值 的均值大小有关,不能直接用标准差比较离散程度, 而变异系数消除了测度单位和观测值水平不同的影 响,因而可以直接用来比较数据的离散程度。
图 11-1 显示公司员 工的年薪多在3.5万 元左右,但也有少数 员工的年薪达到10万 元以上,分布呈现一 定的右偏。
7
数据的特征描述①
• 频数分析和直方图可以清晰展示数据的取值分布情况,但有时这些信息过于详细,我们可能希望用一些统 计量对其信息进行概括性描述,例如用众数、中位数、均值描述数据的集中位置,用异众比例、四分位差、 标准差描述数据分布的变异性,同偏度与峰度描述分布的形态。

电大最新《社会调查研究》第十一章资料分析

电大最新《社会调查研究》第十一章资料分析
② 通过集中量数不仅能够反映出各部分的一个集中趋势和一 般水平,而且能够对不同时间、空间的同类现象进行比较, 还能够分析某些社会现象之间的相互关系。
③ 常用的集中量数有平均数、中位数与众数。
(一)平均数
• 平均数指一组数据的平均值,主要有以 下几种:
• 1、算术平均数 • 算术平均数是我们常见的一种平均数,
• 强度相对指标主要用以表明现象的强度、密度及程 度,是我们常见到的一类指标,我们利用强度相对 指标可以表示人口密度,人均产品产量,可以用来 反映一个国家或地区的经济实力和社会发展程度。
• 强度相对指标大多用复名数表示,也有用百分数、 千分数表示的。
第二节 集中量数和离中量数统计分析
• 一、集中量数分析
使用简单计算法和加权法。
• (二)中位数
• 将总体各单位的标志值按照大小关系进行排序后,我们把 居于中间的那个数值,称为中位数。
• 2.统计分析按照涉及变量的多少,又可以分为
①单变量分析---集中量数和离中量数分析以及动态分析 ②双变量分析----相对指标分析和因素分析 ③多变量分析----相关和回归分析、抽样推断分析、预
测分析、综合评价分析等都属于推论性分析
第一节 相对指标分析
• 相对指标----是指通过对比的方法,得到的表明事
• 1.集中量数-----又称集中程度或集中趋
势,是从一组数据中抽象出的表明现象之 共性和平均水平的代表值。它具有同质性、 抽象性、代表性和集中性的特点,是在进 行社会学研究时重要的一项指标。
• 2.集中量数分析
① 事物总体中的各部分、各成员的标志值都是有差异的,但 又都是以一个代表值为中心上下波动的,只不过波动幅度 有大有小,所以,可以说集中量数是事物发展变化的运动 中心,各单位的标志值或多或少都有接近它的趋势。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据登录表
城区 个案号 A1 A2 A3 A4 A5 A61 A62 ……
1 2-5 6 7-8 9 10 11 12 13
个案1 1 0387 2 39 3 2
2
1
1
个案2 2 0388 2 40 2 3
4
1
0
个案3 4 0389 1 50 2 5
2
2
1
个案4 3 0400 1 28
1
7
1
0
0
…… …… …… … …… …… …… …… …… ……
1
6 Di2 N (N 2 1)
• 3. 定类变量(或定序变量)与定距变量
• 当两个分析的变量一个为定类(或定序)变量,另一个为 定距(以上)变量时,可以用相关比率(Correlation ratio)或eta系数来测量二者间的相关程度。
• 相关比率又称为eta平方系数,记为 E2,其数值范围由0
• 三、相关分析与检验
• 1. 定类变量与定类变量
• Lambda系数、Tau-y系数
• (1)系数 yx ( 以众值作为预测的准则)
mx my (M x M y )
2N (Mx M y )
yx
my M y N My
每M 个y=取Y变值量之众下数的的X变频量次的;M众x=数X的变频量次众;数m的y=频为次X变,m量x=的Y每变个量取
(280)
• 2. x2检验
x2
( fo fe )2 fe
• 式中 fo为交互分类表中每一格的观察频数;fe 为交互分类
表中 fo所对应的期望频数。
• 检验的具体步骤: • (1)建立两变量间无关系的假设;然后计算出值 x2;
• (2)根据自由度df=(r-1)(c-1)和给出的显著性水平,即p
• 四、数据清理
• 1. 有效范围清理; • 2. 逻辑一致性清理; • 3. 数据质量抽查。
统计分析
全面调查
单变量 双变量 多变量
集中趋势 分析
离散趋势 分析
列联表 消减误差
比例 相关分析 一元方差
分析 一元回归
分析
多元相关 分析
多元方差 分析
多元因果 分析
判别分析 聚类分析 因素分析 最小空间
• (标准差——平均数、异众比率——众数、四分位差—— 中位数)。
• 标准差:一组数据对其平均数的偏差平方的算术 平均数的平方根。
(xi X )2
n
• 离散系数:一种相对的离散趋势统计量,能够对 同一总体中的两种不同的离散趋势统计量进行比 较,或对两个不同总体中的同一离散趋势统计量 进行比较。
(xi X )2 • ( yi Y )2
• 皮尔逊相关系数r的检验既可采用F检验的方法,也可采
用t检验的方法,因为F= t 2。F检验的计算公式如下:
F
r 2 (n 2) 1 r2
t F r n2 1 r2
• 总结各种层次变量之间的相关测量与检验方法:
• (1)各种相关测量的方法,目的是理解两个变量在“样 本”中相关程度的强弱或大小。
取值范围 [0, 1]
是否 有误消减误差 检验方 SPSS有无
对称 比例意义

该系数
对称

x
2检 验

定序-定序
G
定类-定距
E
(定序-定距)
E2
[-1, 1] [0, 1]
对称
不对 称
定距-定距
r
[-1, 1] 对称
r2
[0, 1]

Z检验


F检验




F检验


(t检

验)
• 四、一元回归分析
同意 √

无所谓 不同意 很不同意 √
看法① 看法② 看法③
非常同意
1 5 1
三种看法的赋值
同意
2 4 2
无所谓
3 3 3
不同意
4 2 4
很不同意
5 1 5
编码手册
项目名称 变量名

V
含义 城区
宽度 1
个案号 ID 个案号
4
问题A1 A1
性别
1
问题A2 A2
年龄
2
问题A3 A3 文化程
1

栏码 1
• (2)对各种相关系数所进行的相应的检验,目的是根据 随机样本的资料推论两个变量在“总体”中是否相关。
• (3)选择何种相关测量方法和何种检验方法,主要看两 变量的测量层次,要依据变量的测量层次来确定合适的相
关检验工具。
• 两变量关系的测量与检验方法总结表
两变量层次
相关 系数
定类-定类
(定类-定序)
• 第十一章 定量资料分析
• 主要内容:
• 资料的整理与录入
• 单变量统计分析
• 双变量统计分析 • 多变量的统计分析
第一节 资料的整理与录入
• 一、资料的审核
• 主要工作:审查资料的完整性、统一性和合格性。
• 完整性:
资料总体的完整性; 每份资料的完整性。
• 统一性:
问卷或报表登记填报方法是否统一; 对同一指标的数字所使用的度量单位是否一致; 不同表格对同一指标的计算方法是否统一
表示相关的方向性,又表示相关的程度。
G Ns Nd Ns Nd
• 式中,Ns 表示同序对数目,Nd 表示异序对数目。 • (同序对:变量大小顺序相同的两个样本点,即其在变量
X上的等级高低顺序与在变量Y上的等级高低顺序相同; 否则就叫异序对)
• Z检验 • 为了进行Z检验,必须先将G值标准化为Z值。
• 离散系数:标准差与平均数之百分比。
CV 100%
X
• 标准分数:用来确定原始数据在总体分布中的位 置,或用来对不同分布的各原始数据进行比较。
Z xx
• 二、单变量统计推论
• 统计推论主要分为两类:参数估计(点估计、区 间估计)、假设检验。
• 1. 区间估计
• 在一定的可信度(置信水平、置信度)下,用样 本统计值的某个范围(置信区间)来估价总体的 参数值。
• (1)较为深入地描述样本资料的分布状况和内在结构; • (2)分组比较,同时也是分析变量间关系的基础。
表1 千户家庭居住地与户主从事的产业(条件次数表)
产业
农业 工业 商业服务业 建筑业 运输
总数
东部
28 248 20
4 0
300
地区
中部
30 330 56
3 1
420
西部
14 122 130
7 7
值, ni n 。
• 相比比率的检验采用的是F检验法,其计算公式为:
F
E2 1 E2
(nk) k 1
• 式中,k为分组数目,n为样本规模;k 1 df1 n k df2
• 4.定距变量与定距变量
• 皮尔逊相关系数(或称皮尔逊积差相关系数)r。皮尔逊 相关系数的计算公式为:
r
(xi X ) • ( yi Y )
到1,也具有消减误差比例的意义。其计算公式为:
E2 ( y Y )2 ( y Yi )2 (y Y)2
• 式中,y为因变量的数值,Y 为因变量的均值;Yi 为在自变
量x的每个取值上的因变量的均值。
• 为了计算方便,常将上述公式化为下面形式:
E2
2
2
ni Yi nY
y2 nY 2
• 式中,n为x变量每一取值的频数合计值,n为总的频数
• (2)总体成数的区间估计
p(1 p)
p Z /2
n
其中,p 为样本成数,p为总体中某 类所占百分比。
• 2. 假设检验 • 先对总体某一参数作出假设,然后用样本的统计
量去进 行验证,以决定假设是否为总体所接受。
• 几对概念: • (1)原假设与被择假设( H0 与 H1 ) • (2)显著性水平与否定域(接受域) • (3)双边检验与单边检验
1
A2 你的年龄: 28 周岁
28
A3 你的文化程度:
3
①小学及以下 ②初中 ③高中及中专√ ④大专以上
A4 你的婚姻状况
2
①未婚 ②已婚√ ③离婚 ④丧偶 ⑤其他
对婚事花费态度的调查
非常同意
①婚事应该尽量办得简单一些
②结婚是人生一件大事,婚事 应该办得隆重热闹、花再多的 钱也值得
③就是没钱婚事也不应大操办
分析
统计描述
抽样调查 单变量 双变量 多变量
其他 非概 率抽 样
统计推论
参数估计 假设检验
点估计 区间估计
参数检验
Z检验 t检验 F检验 非参数检验
x 2检验
统计描述+统计推论
第二节 单变量统计分析
• 一、单变量描述统计
• 主要目的:用最简单的概括形式反映出大量数据 资料所容纳的基本信息。
• 基本方法:集中趋势分析、离散趋势分析等。
• 1. 集中趋势分析 • 用一个典型值或代表值来反映一组数据的一般水
平,或反映这组数据向这个典型值集中的情况。 • 最常见的集中趋势:平均数、众数和中位数。
X x n
X
xf f
xf
n
• 2. 离散趋势分析
• 用一个特别的数值来反映一组数据相互之间的离 散程度。
• 常见的离散趋势统计量:极差、异众比率、四分 位差、标准差与方差、离散系数与标准分数等。
• 假设检验的步骤:
• (1)建立原假设(虚无假设)和(备择假设)研 究假设;
• (2)根据需要选择适当的显著性水平 ,通常有 =0.05, =0.01,并确定拒绝域或接受域;
相关文档
最新文档