第10章直线回归和相关Stata实现

合集下载

Stata基本操作和数据分析入门直线回归

Stata基本操作和数据分析入门直线回归

年龄X 3
334 4
4555
身高Y 92.5 97 96 100 96.5 101 106 104 107
年龄X 6
667 7
7888
身高Y 115.5 116 110 126 118 118 122 129 124
本例的研究目的和实现方法
1. 研究目的:了解年龄与儿童人群的平均身高对 应关系。
2. 方法1:可以做普查,得到每个年龄组所有儿童 的身高,并且计算每个年龄组的儿童人群的平 均身高。
正态分布性质简述
性质1:设Y 服从某个正态分布,则Y的总体均数
和总体方差2唯一决定了Y的确切分布。
性质2:设 Y ~ N (, 2 ) 则: Z ~ N (0, 2 )
,令 Z Y
回归模型
根据上述性质,应用到本例的实际问题:
1. 固定年龄X,身高Y服从总体均数为 Y X ,方差
为2的正态分布 Y ~ N(Y X , 2 ) 。 2. 由散点图可以假定总体均数 Y|X X 3. 故 Y ~ N ( x, 2 )
直线回归系数的估计
❖ 用最小二乘法拟合直线,选择a和b使其残差(样 本点到直线的垂直距离)平方和达到最小。即:使 下列的SSE达到最小值。
SSE ( yi yˆi )2 ( yi a bxi )2
由此得到
b
( yi y)( xi (xi x)2
x)
,a
y
bx
回归系数的意义
❖由总体回归方程可知 Y|X X ❖回归系数表示:x增加一个单位,总体均数 Y X
增加个单位
❖由于 Yˆ a bX 是 Y|X X
的估计表达式 ,所以(样本)回归系数b表示x增加 一个单位,样本观察值y平均增加b个单位。

STATA软件操作相关与回归分析

STATA软件操作相关与回归分析

STATA软件操作相关与回归分析一、相关分析相关分析用于研究两个变量之间的相关性。

在STATA中,可以使用命令"correlate"进行相关分析。

语法:correlate 变量列表例子:我们以一个示例数据集"auto"为例,研究汽车价格与里程数和马力之间的相关性。

```sysuse autocorrelate price mpg turn```上述命令将计算汽车价格(price)与里程数(mpg)和轮胎转向(turn)之间的相关系数。

输出结果将显示相关系数矩阵,其中包括Pearson相关系数、Spearman相关系数和Kendall相关系数。

二、简单线性回归简单线性回归分析用于研究一个因变量和一个自变量之间的关系。

在STATA中,可以使用命令“regress”进行简单线性回归分析。

语法:regress 因变量自变量例子:我们继续使用上述示例数据集"auto",研究汽车价格与里程数之间的关系。

```sysuse autoregress price mpg```上述命令将进行汽车价格(price)与里程数(mpg)之间的简单线性回归分析。

输出结果将包括回归系数估计值、拟合优度、标准误差、t值、P值等。

另外,使用命令“predict”可以进行预测。

例子:我们可以使用上述回归模型,对新数据进行价格的预测。

```predict new_price, x```上述命令将对新数据集中的里程数进行预测,并将结果保存在新的变量new_price中。

三、多元回归分析多元回归分析用于研究一个因变量和多个自变量之间的关系。

在STATA中,可以使用命令“regress”进行多元回归分析。

语法:regress 因变量自变量1 自变量2 ...例子:我们使用示例数据集"auto",研究汽车价格与里程数、马力和重量之间的关系。

```sysuse autoregress price mpg displacement weight```上述命令将进行汽车价格(price)与里程数(mpg)、马力(displacement)和重量(weight)之间的多元线性回归分析。

Stata软件之回归分析

Stata软件之回归分析

调整的判定系数(Adj R-squared)、F统计量的值、回归方程标准误或均方
根误(Root MSE, ˆ 或 S.E.) 以及其他一些统计量的信息。
上述回归分析的菜单操作实现:Statistics→Linear models and related→
Linear regression→弹出对话框,在Dependent Variable选项框中选择或键
写出样本回归方程为: wagˆe3.58470.3937edu
(0.4589) (0.0488)
即如果受教育年限增加1年,平均来说小时工资会增加0.39元。
三、简单回归分析的Stata软件操作实例
Source
Model Residual
Total
SS
df
MS
1402.97461
1 1402.97461
edu exp
expsq health migrant wage
more
float float float float
%9.0g %9.0g %9.0g %9.0g
float %9.0g float %9.0g
float float float float
%9.0g %9.0g %9.0g %9.0g
= 4.6469
wage
Coef5% Conf. Interval]
edu _cons
.3937442 .0488491 3.584695 .4589088
8.06 0.000 7.81 0.000
.2979069 2.684359
.4895815 4.485031
y 1xu 即假定截距系数 0 0 时,该模型被称为过原点回归;过 原点回归在实际中有一定的应用,但除非有非常明确的理 论分析表明 0 0 ,否则不宜轻易使用过原点回归模型。

STATA软件操作(五)相关与回归分析

STATA软件操作(五)相关与回归分析

等级相关
spearman x y
注意:该命令首先求出等级相关系数, 然后进行假设检验。
例2(d2.txt)
抗白指数X 临床疗效Y 2 2
某研究所用野百合治疗白 血病,并作抗白血病指数 (简称抗白指数)及疗效 的分析,结果见表,问抗 白指数与临床疗效间有无 关系?
2 3
9
10 11 30 35 45 55
ˆ) (y y n2
= = = = = =
2
Source | SS df MS ----------+-----------------------------剩余 Model | 60.3571429 1 60.3571429 Residual | 7.14285714 6 1.19047619 ----------+-----------------------------Total | 67.50 7 9.64285714
. ttest x,by(group) -----------------------------------------------------------------------------Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------0 | 20 1.84 .2042187 .9132936 1.412565 2.267435 1 | 20 1.415 .290034 1.297072 .8079518 2.022048 ---------+-------------------------------------------------------------------combined | 40 1.6275 .1783467 1.127963 1.26676 1.98824 ---------+-------------------------------------------------------------------diff | .425 .3547182 -.2930895 1.143089 -----------------------------------------------------------------------------Degrees of freedom: 38 Ho: mean(0) - mean(1) = diff = 0 Ha: diff < 0 Ha: diff ~= 0 Ha: diff > 0 t = 1.1981 t = 1.1981 t = 1.1981 P < t = 0.8809 P > |t| = 0.2383 P > t = 0.1191 . reg x group Source | SS df MS -------------+-----------------------------Model | 1.80624998 1 1.80624998 Residual | 47.8135006 38 1.25825002 -------------+-----------------------------Total | 49.6197506 39 1.2723013

Stata基本操作和数据分析入门直线回归

Stata基本操作和数据分析入门直线回归
差,即使 0 ,其估计值往往不为0,所以需要对回归系数是否为0
进行假设检验。回归系数的假设检验一般要求资料满足独立性、正态性 和等方差。
直线回归对资料的要求小结
❖ 独立性(independent):指任意两条记录互相独立,一个个体 的取值不受其它个体的影响。通常可以利用专业知识或经验来判断 这项假定是否成立。
直线回归系数的估计
❖ 用最小二乘法拟合直线,选择a和b使其残差(样 本点到直线的垂直距离)平方和达到最小。即:使 下列的SSE达到最小值。
SSE ( yi yˆi )2 ( yi a bxi )2
由此得到
b
( yi y)( xi (xi x)2
x)
,a
y
bx
回归系数的意义
❖由总体回归方程可知 Y|X X ❖回归系数表示:x增加一个单位,总体均数 Y X
❖ 正态 (normal):假定线性模型的误差项服从正态分布(等价于 当为定值时的值也呈正态分布)。由于残差是误差项的估计值,所 以一般只需检验残差是否服从正态分布,可以直接对残差作正态性 检验或正态概率图来考察这一条件是否成立。样本量较大时,可以 忽略残差的正态性要求。
❖ 等方差(equal variance):是指在自变量取值范围内,不论取 什么值,都具有相同的方差,等价于残差的方差齐性。 通常可采 用散点图或残差的散点图判断该假设。
增加个单位
❖由于 Yˆ a bX 是 Y|X X
的估计表达式 ,所以(样本)回归系数b表示x增加 一个单位,样本观察值y平均增加b个单位。
回归系数假设检验的必要性
❖由于 =0时, Y|X ,Y与x之间不存在直
线回归关系,因此是否为0,涉及到所建立的回归 方程是否有意义的重大问题,然而即使 =0,样 本回归系数b一般不为0(原因?),因此需要对回归

stata软件基本操作和简单的一元线性回归

stata软件基本操作和简单的一元线性回归

16
回归结果的提供和分析
Page 17
回归结果提供的两种格式
ˆ 3.805 0.4845 X Y (1.79) (14.96) ˆ 3.805 0.4845 X Y
se: (2.12) (0.03)
R 2 0.9655 注:括号内数字为t检验值 R 2 0.9655 注:括号内数字为标准误(se)
(2)拟合优度检验、t检验和F检验
P值为0.000,在任何显著性水平下,斜率项和截距项显然不为 零,拒绝两系数为零的假设。另外,拟合优度R方表明,食品 支出的97.5%的变化也以由收入X的变化来解释,因此拟合情 况较好。 如果需要查看残差值e,输入scatter e即可,list e可以列出所 有ei值,scatter e X可以看ei残差图
Stata基本操作及 简单的线性回归 邬龙
一、 Stata软件介绍
Stata是世界著名的统计分析软件之一。 Stata 是一套提供其使用者数据分析、数据管理以 及绘制专业图表的完整及整合性统计软件。它提供 许许多多功能,包含线性混合模型、均衡重复反复 及多项式普罗比模式。用Stata绘制的统计图形相当 精美。 Stata的统计功能很强,除了传统的统计分析方法外, 还收集了近20 年发展起来的新方法,如 Cox 比例风 险回归,指数与Weibull回归,多类结果与有序结果 的logistic回归,Poisson回归,负二项回归及广义负 二项回归,随机效应模型等。
分析命令在这里输入
4
查看历史命令
数据读入和保存(从Excel)
1. 点击data editor(edit)图标进入数据编辑器 2. 复制数据(连同第一行表头),在数据编辑器里 粘贴 3. 弹出提示,询问第一行是否要当成变量名称(表 头),选左边为是,选第二个为否 4. 点击保存,存为xxx.dta文件,便于以后使用

第十章直线回归和相关Stata实现

第十章直线回归和相关Stata实现

第十章直线回归和相关的Stata实现本章使用的Stata命令为:例10-1 为了研究血清胆固醇含量与舒张压之间是否存在依存关系, 2006年在郑州某大学随机抽取10名成年男性, 测得他们的血清胆固醇(mg/dL)含量和舒张压(mmHg)如表10-1, 请作统计分析。

表10-1 10名成人的血清胆固醇(mg/dL)含量和舒张压(mmHg)指标编号1 2 3 4 5 6 7 8 9 10胆固醇X307 259 341 237 254 416 267 320 374 316 舒张压Y80 75 90 70 75 105 70 85 88 78: 总体回归方程不成立(): 总体回归方程成立()=0.05Stata数据:Stata命令为:结果:t=8.07 ,P 值<0.001(Stata 输出值0.000),构建直线回归方程 将 和 代入式(10-2), 可知,X Y178.062.26ˆ+= 本例中, 的统计学意义为:血清胆固醇含量每增加1mg/dL, 总体中舒张压平均增加0.178mmHg 。

总体均数 的区间估计 给定 时, 的总体均数的点估计, 例10-1中, 当自变量 取值为307 mg/dL 时。

个体 值的容许区间估计 给定 值时, 估计总体中个体 值的波动范围, 以例10-1中第一个样本点的数据(307,80)为例。

Stata 命令:结果:x y yhat stdp stdf clm1 clm2 clp1 clp2 307 80 81.23 1.19 3.96 78.4 84.05 71.86 90.59259 75 72.69 1.63 4.11 68.84 76.53 62.97 82.41341 90 87.27 1.39 4.02 84 90.55 77.76 96.78237 70 68.78 1.99 4.27 64.08 73.48 58.69 78.87254 75 71.8 1.7 4.14 67.77 75.83 62 81.59416 105 100.61 2.64 4.61 94.37 106.86 89.72 111.51267 70 74.11 1.51 4.07 70.54 77.69 64.49 83.73320 85 83.54 1.22 3.97 80.66 86.42 74.16 92.92374 88 93.14 1.86 4.21 88.74 97.55 83.19 103.1316 78 82.83 1.2 3.96 79.98 85.67 73.46 92.2例10-2 某发热门诊医生根据患者就诊顺序随机抽取12名20~40岁发热患者, 试探讨体温与脉搏之间的伴随关系, 数据见表10-4。

stata软件基本操作和简单的一元线性回归

stata软件基本操作和简单的一元线性回归

设定模型为
Page 15
一元回归模型的命令为:regress Y X,简写reg Y X 即可
若想做无常数项回归则为:reg Y X, noconstant
15
第四步 模型检验
(1)经济意义检验
Page 16
斜率 为边际消费倾向,表明人均可支配收入每增加1元时,食 品消费平均增加0.135元。从经济意义上是合理的。
16
回归结果的提供和分析
Page 17
回归结果提供的两种格式
Y ˆ 3 .8 0 5 0 .4 8 4 5 X R 2 0 .9 6 5 5 (1 .7 9 ) (1 4 .9 6 ) 注 : 括 号 内 数 字 为 t检 验 值
Y ˆ 3 .8 0 5 0 .4 8 4 5 X R 2 0 .9 6 5 5 se: (2 .1 2 )(0 .0 3 ) 注 : 括 号 内 数 字 为 标 准 误 ( se )
13
第二步 画散点图/描述统计
(2)图形描述 在命令栏输入:scatter Y X 即可,注意纵轴变量在前
Page 14
扩展:让图形更美观,可自行查阅help scatter的帮助文件 如:想每个点标上是第几行数据怎么做? gen n=_n scatter Y X, mlabel(n)
14
第三步 模型估计
2. 模型估计
3. 模型检验:R方、t、F检验
10
第一步 导入数据
1. 点击data editor(edit)图标进入数据编辑器
Page 11
2. 复制“时间序列”工作表的消费和收入数据(连同第一行 表头,不要第一列),在数据编辑器里粘贴
3. 弹出提示,询问第一行是否要当成变量名称(表头),选 左边为是
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第十章 直线回归和相关
本章使用的STATA 命令为:
例10-1 为了研究血清胆固醇含量与舒张压之间是否存在依存关系,2006年在郑州某大学随机抽取10名成年男性,测得他们的血清胆固醇(mg/dL)含量和舒张压(mmHg )如表10-1,请作统计分析。

表10-1 10名成人的血清胆固醇(mg/dL)含量和舒张压(mmHg )
指标 编 号
1 2 3 4 5 6 7 8 9 10 胆固醇X 307 259 341 237 254 416 267 320 374 316 舒张压Y
80
75
90
70
75
105
70
85
88
78
0H :总体回归方程不成立(0β=)
1H :总体回归方程成立(0β≠)
α=0.05
解:STATA 数据:
STA TA 命令为:
结果:
t=8.07 ,P 值<0.001(Stata 输出值0.000),构建直线回归方程 将a 和b 代入式(10-2),可知,
X Y
178.062.26ˆ+= 本例中,b 的统计学意义为:血清胆固醇含量每增加1mg/dL ,总体中舒张压平均增加0.178mmHg 。

总体均数X
Y
μ的区间估计 给定0X X =时,Y 的总体均数的点估计,例10-1中,当
自变量X 取值为307 mg/dL 时。

个体Y 值的容许区间估计 给定0X X =值时,估计总体中个体Y 值的波动范围,以例10-1中第一个样本点的数据(307,80)为例。

STATA 命令:
结果:
x
y
yhat stdp stdf clm1 clm2 clp1 clp2 307 80 81.23 1.19 3.96 78.4 84.05 71.86 90.59 259 75 72.69 1.63 4.11 68.84 76.53 62.97 82.41 341
90 87.27 1.39 4.02 84 90.55 77.76 96.78
237 70 68.78 1.99 4.27 64.08 73.48 58.69 78.87 254 75 71.8 1.7 4.14 67.77 75.83 62 81.59 416 105 100.61 2.64 4.61 94.37 106.86 89.72 111.51 267 70 74.11 1.51 4.07 70.54 77.69 64.49 83.73 320 85 83.54 1.22 3.97 80.66 86.42 74.16 92.92 374 88 93.14 1.86 4.21 88.74 97.55 83.19 103.1 316 78 82.83 1.2 3.96 79.98 85.67 73.46 92.2
例10-2某发热门诊医生根据患者就诊顺序随机抽取12名20~40岁发热患者,试探
讨体温与脉搏之间的伴随关系,数据见表10-4。

表10-4 12名发热患者的体温(℃)与脉搏(次/分)
指标
编号
1 2 3 4 5 6 7 8 9 10 11 12
体温X41.0 37.5 40.7 38.4 38.8 40.0 38.0 39.0 39.5 39.8 40.8 39.6 脉搏Y135 85 134 108 120 124 106 117 125 130 138 135
解:STATA数据
H0: ρ=0
H1: ρ≠0
α
=
.0
05
STA TA命令:
结果:
P<0.0001,体温与脉搏存在线性相关关系。

例10-3某医生研究新生儿缺氧缺血性脑病(hypoxic-ischemic encephalopathy,HIE)临床分度与其血浆MDA含量(出生后第7天)的关系,获得了如下资料,试分析HIE临床分度(1轻度,2中度,3重度)与血浆MDA含量的相关方向及相关程度。

HIE临床分度 1 1 1 1 1 2 2 2 2 3 3 3 3 MDA(umol/L)7.4 7.0 6.7 6.3 8.1 7.2 8.4 8.9 8.8 11.5 10.6 10.2 11.0 本例目的在于分析HIE临床分度与血浆MDA含量的关系,从数据特征上看, HIE临床
r。

分度是等级资料,血浆MDA含量是连续性变量,因此应计算Spearman等级相关系数
s
同样地,s r 是样本相关系数,仅为总体相关系数s ρ的一个点估计,还应做总体相关系数s ρ是否为0的假设检验,其无效假设与备择假设分别为:
H 0: 0=s ρ H 1: s ρ≠0 解:STATA 数据如下:
STA TA 命令如下:
结果:
P<0.0001,HIE 临床分度(1轻度,2中度,3重度)与血浆MDA 含量存在Spearman 相关关系。

相关文档
最新文档