stata简单讲义第六讲

合集下载

第六讲方差分析

第六讲⽅差分析第五章⽅差分析第⼀节概述前⾯介绍了两样本均数⽐较的t 检验，但在实际研究中经常需要多组均数的⽐较。

如：例5.1 患有某种肿瘤的⼤⽩⿏接受不同实验处理后(对照未服药；服抗癌A 药；服抗癌B 药；服抗癌C 药)，2周后体内存活的肿瘤细胞数如表5.1所⽰，⽐较不同实验处理后的平均存活肿瘤细胞数是否有差异。

表5.1 不同实验处理后存活肿瘤细胞数（有丝分裂细胞／10个⾼倍镜视野）对照服抗癌A 药服抗癌B 药服抗癌C 药合计48 45 23 5 50 51 20 6 46 47 22 0 52 48 19 2 48 47 21 250 4 N5 6 5 6 22 x48.80 48.00 21.00 3.17 33.45 s2.282.191.582.2320.14本例中共有4种实验处理，在实验设计中称为⼀个因素中的4个⽔平：第⼀个⽔平为对照处理；第⼆个⽔平为服⽤A 药处理；第三个⽔平为服⽤B 药处理；第四个⽔平为服⽤C 药处理。

根据本例的研究问题，相应的假设检验为H 0:µ1=µ2=µ3=µ4 vs H 1:µ1，µ2，µ3，µ4不全相同●不能⽤t 检验进⾏两两⽐较，第⼀类错误会增⼤。

由于本例共有4组的均数需要⽐较。

如果⽤t 检验进⾏两两⽐较，共要进⾏246C =次t 检验。

如果每次t 检验犯第⼀类错误的概率为0.05，则不犯第⼀类错误的概率为0.95，6次都不犯第⼀类错误的概率为60.950.7351=，因此在6次t 检验中⾄少有⼀次犯第⼀类错误的概率为610.950.26490.05-=>>。

由此可见⽤t 检验进⾏多组均数的⽐较会增⼤犯第⼀类错误的概率。

●要⽤⽅差分析或多组的秩和检验(Kruskal Wallis test)的⽅法进⾏多组⽐较：⽅差分析的英⽂全称为Analysis of Variance ，缩写简称为ANOVA 。

让你快速上手的stata讲义

Stata简明讲义王非中国经济研究中心ebwf@〇、写在前面的话关于学习Stata的意义，大家只需知道：目前，Stata是计量经济学、特别是微观计量经济学的主流软件。

因此，Stata很重要、很有用，而大家也会在使用Stata 的过程中慢慢体会到它的特点。

本讲义取名为“Stata简明讲义”，意在突出“简”和“明”两个字。

虽然讲义长达五十多页，但相比Stata的完全手册来说，还不及九牛之一毛，故为“简”。

实际上，完全手册中的很多内容都鲜有人（特别是计量经济学者）问津，而本讲义列出的内容则是大家经常用到的操作；所以，“简”也有“简”的好处。

即便如此，掌握这份讲义也并非易事。

所谓“明”，是明晰的意思。

本讲义本着“手把手教”的精神，力求把每项操作都说得具体明晰，以方便初学者（特别是没有程序操作经历的初学者）尽快上手。

至于本讲义在“简明”上做得怎么样，还需要各位读者来评判。

中心的一位学长邹传伟，曾经写过一份“Stata介绍”，在网上可以下载。

那份讲义比较全面，但不够具体明晰。

本讲义参照那份讲义，在框架上查漏补缺，并进一步地明晰化。

本讲义第二部分的“do文件”和第七部分的“残差分析”的相关内容均来自于中心的沈艳老师的相关讲义，而沈老师对于本讲义的成形给予了细致的指导。

本讲义附带了一些数据文件，其中“WAGE1.dta”和“WAGEPRC.dta”均来自Wooldridge的中级计量教材的数据集，而其他数据则为作者自己的杜撰。

尽管从别人那里拿来了许多好东西，但本讲义的任何错误仍源于作者自己的疏忽。

本讲义是这样安排的：第一部分讲Stata的界面，第二部分讲do文件，第三部分讲怎样把数据导入Stata，第四部分专门讲help和search命令以及帮助文件的阅读方法，第五部分讲数据的描述及管理，第六部分讲如何画图，第七部分讲初步的回归分析。

祝各位学习愉快。

一、Stata长什么样？首先，让我们看看Stata长什么样。

我们以Stata 9.1（以下简称Stata）为例。

stata简明教程

几个简单的例子 di use sysuse sum scatter gen
举例：画出Y=X2的曲线图
drop _all (drop data from memory) set obs 100 (make 100 observations) gen x = _n (x = 1, 2, 3, .., 100) gen y = x^2 (y = 2, 4, 9, .., 10000) scatter y x (make a graph)
命令格式简介
stata命令格式
[by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options]
1。Command 命令动词，经常用缩写。 2。varlist 表示一个变量或者多个变量，多个变量之间用空格隔开。如 sum price weight
添加标签
打开wage1数据文件。 1。为整个数据添加标签：例如，将数据命名为“工资表”。
菜单：Data->Labels->Label dataset 命令：label data “工资表“ 2。为变量增加标签，例如，给变量wage增加标签 “年工资总额” 菜单：Data->Labels->Label variables 命令 label variable wage “年工资总额”
summarize---sum describe------des 得到正确命令缩写的简单方法：看help。
几条最简单的命令
use 打开数据文件，一般加clear选型清空内存中现有数据。 sysuse 打开系统数据文件。 describe 描述数据 edit 利用数据编辑器进行数据编辑 list 类似于edit，但只能显示不能修改数据。

stata入门中文讲义_经济学_高等教育_教育专区

Stata及数据处理目录第一章STATA基础 (3)1.1 命令格式 (4)1.2 缩写、关系式和错误信息 (6)1.3 do文件 (6)1.4 标量和矩阵 (7)1.5 使用Stata命令的结果 (8)1.6 宏 (10)1.7 循环语句 (11)1.8 用户写的程序 (15)1.9 参考文献 (15)1.10 练习 (15)第二章数据管理和画图 (18)2.1数据类型和格式 (18)2.2 数据输入 (19)2.3 画图 (21)第3章线性回归基础 (22)3.1 数据和数据描述 (22)3.1.1 变量描述 (23)3.1.2 简单统计 (23)3.1.3 二维表 (23)3.1.4 加统计信息的一维表 (26)3.1.5 统计检验 (26)3.1.6 数据画图 (27)3.2 回归分析 (28)3.2.1 相关分析 (28)3.2.2 线性回归 (29)3.2.3 假设检验 Wald test (30)3.2.4 估计结果呈现 (30)3.3 预测 (34)3.4 Stata 资源 (35)第4章数据处理的组织方法 (36)1、可执行程序的编写与执行 (36)方法1：do文件 (36)方法2：交互式-program-命令 (36)方法3：在do文件中使用program命令 (38)方法4：do文件合并 (39)方法5：ado 文件 (40)2、do文件的组织 (40)3、数据导入 (40)4、_n和_N的用法 (44)第一章STATA基础STATA的使用有两种方式，即菜单驱动和命令驱动。

菜单驱动比较适合于初学者，容易入学，而命令驱动更有效率，适合于高级用户。

我们主要着眼于经验分析，因而重点介绍命令驱动模式。

图1.1Stata12.1的基本界面关于STATA的使用，可以参考Stata手册，特别是[GS] Getting Started with Stata，尤其是第１章A sample session和第２章The Stata User Interface。

STATA 教学大纲

（1）面板模型：动态面板模型、面板VAR模型和面板门槛模型（第1讲和第3讲），作为基础，在第2讲中，将介绍Bootstrap和Monte Carlo模拟相关的知识；
（2）内生性问题，包括处理效应模型和倾向得分匹配分析两类模型（第5讲），作为这一讲的基础，在第4讲中，将介绍Logit模型；
（3）随机边界分析相关的模型：传统的SFA模型、异质性SFA模型、面板SFA模型，以及双边SFA模型（第6讲）;
序列相关检验和过度识别检验（Sargan检验）
面板VAR模型简介
冲击反应函数 (பைடு நூலகம்RF)、方差分解 (FEVD)
应用实例（介绍3篇论文）
第2讲（3小时）
自抽样和蒙特卡洛模拟
Bootstrap的原理和Stata实现
Bootstrap组间系数差异检验
Bootstrap获取复杂统计量的临界值
Monte Carlo的基本原理
多元Logit模型（Multinomial Logit）
应用实例（介绍3篇论文）
第5讲（3小时）
内生性问题
Heckman选择模型（Heckman Selection Model）
处理效应模型（Treatment Effect Model）
倾向得分匹配分析（Propensity Score Matching, PSM）
第6讲（3小时）
时间序列模拟分析
时间序列简介
ARIMA过程模拟分析
白噪声和随机游走过程模拟分析
伪回归问题模拟分析
GARCH模型模拟分析
第7讲（3小时）
面板数据模型
静态面板模型：固定效应和随机效应
基于Bootstrap的Hausman检验
异方差和序列相关（Bootstrap、Cluster调整标准误）

Stata学习讲义

Stata学习讲义刘志阔一、如何导入数据Stata的数据处理功能是极其强大的，不过我们最好在excel中整理数据，然后导入到stata中就可以了。

命令：insheet using name.csv*注意，Stata只能用csv格式，另外把数据放到stata的目录中。

二、如何进行回归Stata中有很多命令，这些命令都是现成的，直接用就可以了。

不过，怎么用是个问题。

熟悉命令的基础上学会如何使用Help。

最简单的命令reg做ols回归，xtreg处理面板等。

命令：reg y x*注意，Stata命令的格式，自己回去看手册。

网络帮助可以采用如下命令获得findit scat3, net；search scat3, net三、如何导出结果Stata可以直接导出发表论文中回归结果，当然不是完全一样。

命令：outreg2 Results using name.word四、如何画图Stata的画图功能也是极其强大的，可以画出各种类型的图标。

命令：scatter y x || lfit y x五、如何存储结果Stata可以储存回归结果，便于分析。

命令：log using name log closed1.codebook可以查看数据有没有缺失2.xml_tab estout 可以输出结果3.qui tab year, gen(yr) 可以生产时间虚拟变量。

4.g q=quarterly( qtr,"YQ")5.form q %tq6.recode province (min/11=1) (12/19=2) (20/31=3)gen eastern=(province==1)gen middle=(province==2)gen western=(province==3)Logout 命令可以把界面内容存到word里面，而不用复制。

Logout,save(名称) word/excel replace:各种描述性命令,statsXml_tab可以输出Excel格式的结果。

《STATA简易操作》课件

收集生存时间数据和潜在影响因素。
使用Stata进行生存分析，包括数据导入、选择合适的生存分析模型、参数估计和结果解释。
分析生存曲线和风险函数，探究影响因素对生存时间的影响。
进行模型假设检验和模型比较。
案例三：面板数据分析
总结词：利用面板数据分析方
法，探究个体、时间和其他变
量的交互作用。
01
详细描述
绘制折线图
折线图用于展示随时间变化的数据趋势。
VS
在Stata中，可以通过输入“line yvar xvar”命令来绘制折线图。其中 yvar代表要展示的数据变量，xvar代表时间变量。还可以通过添加选项来修改线条样式、标记等。
05
Stata实战案例
案例一：线性回归分析
总结词：通过线性回归分析，探究自变量与因变量之间的关系。
01
确定研究问题，选择合适的自变量和因变量。
03
02
详细描述
04
使用Stata进行线性回归分析，包括数据导入、模型设定、参数估计和结果解释。
分析模型的拟合优度，如判定系数、调整判定系数等。
05
06
检验模型的假设条件，如线性关系、误差项独立同分布等。
案例二：生存分析
总结词：利用生存分析方法，研究生存时间与影响因素之间的关系。详细描述
多元回归
探讨多个自变量对因变量的影响，以及交互项和平方项的设定。
面板数据分析
面板数据介绍
阐述面板数据的概念、特点及其在经济学中的应用。
固定效应与随机效应模型
比较两种模型的适用场景和结果解释。
面板数据的单位根与协整检验
介绍用于检验数据稳定性和长期关系的检验方法。

Stata讲义

• save数据保存命令
– save,replace
• erase 删除数据命令
– 一定要加上扩展名
• describe 数据一般描述命令 • codebook 展示各变量情况的命令 • sum 展示各变量数量情况的命令 • generate 生成新变量命令 • rename 变量重命名命令 • drop 删除变量或观察值的命令 • keep 保留变量或观察值的命令 • sort 对某些变量按观察值大小进行排序的命令
– 从低到高 – 从高到低
• order 变量顺序的重新排列命令 • note 加标注命令
• replace 变量替换命令 • tabulate 联列表命令 • display 显示计算结果的命令 • count 报告共有多少观察值的命令 • log 日志文件命令 • mkdir 生成新路径命令 • cd 设置文件路径命令
• 与其它文件（SAS、SPSS）之间的互动
– Statransfer软件.
• 如何读取不知名的文件？
– .dat的文件？例子。 – Infix
• Set memory
– Infile1 – Infile2
• Help命令的用法。
简单的数据操作命令
• use打开数据库命令 • clear清空内存数据命令 • edit数据编辑命令 • input手动录入命令 • insheet、outsheet、infix等数据转换命令。 • set mem设置内存命令
?setmem设置内存命令?save数据保存命令savereplace?erase删除数据命令一定要加上扩展名?describe数据一般描述命令?codebook展示各变量情况的命令?sum展示各变量数量情况的命令?generate生成新变量命令?rename变量重命名命令?drop删除变量或观察值的命令?keep保留变量或观察值的命令?sort对某些变量按观察值大小进行排序的命令从低到高从高到低?order变量顺序的重新排列命令?note加标注命令?replace变量替换命令?tabulate联列表命令?display显示计算结果的命令?count报告共有多少观察值的命令?log日志文件命令?mkdir生成新路径命令?cd设置文件路径命令补充命令?rmdir移去某个文件夹mkdirgggrmdirggg很傻的命令?gsort扩展排序命令useautoclearsortpricesortpricegsortprice?saveold保存成老版本的格式?infile数据读取命令加权命令weight?计算加权平均值?scorenum?650193?64926?64823?64716?64621?64526?64432?64323?64238?64129?64038?sumscore?sumscoreweightnum补充命令?rmdir移去某个文件夹mkdirgggrmdirggg很傻的命令?gsort扩展排序命令useautoclearsortpricesortpricegsortprice?saveold保存成老版本的格式?infile数据读取命令加权命令weight?计算加权平均值?scorenum?650193?64926?64823?64716?64621?64526?64432?64323?64238?64129?64038?sumscore?sumscoreweightnum怎么样偷懒

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

线性相关和回归
赵耐青
在实际研究中，经常要考察两个指标之间的关系，即：相关性。

现以体重与身高的关系为例，分析两个变量之间的相关性。

要求身高和体重呈双正态分布，既：在身高和体重平均数的附近的频数较多，远离身高和体重平均数的频数较少。

样本相关系数计算公式(称为Pearson 相关系数)：
)
()
()
)((2
2
YY
XX
XY L L L Y Y X X Y Y X X r =
----=
∑
∑
∑
(1)
1. 考察随机模拟相关的情况。

显示两个变量相关的散点图程序simur.ado （本教材配套程序,使用见前言）。

命令为simur 样本量总体相关系数如显示样本量为100，ρ=0的散点图本例命令为simur 100 0
如显示样本量为200，ρ=0.8的散点图本例命令为simur 200 0.8
如显示样本量为200，ρ=0.99的散点图本例命令为simur 200 0.99
如显示样本量为200，ρ=-0.99的散点图
本例命令为simur 200 -0.99
例1. 测得某地15名正常成年男子的身高x（cm）、体重y（kg）如试计算x和y之间的相关系数r并检验H0：ρ＝0 vs H1: ρ≠0。

α=0.05
数据格式为
176.0 69.0
175.0 74.0
172.0 68.0
170.0 64.0
173.0 68.5
168.0 56.0
172.0 54.0
170.0 62.0
172.0 63.0
173.0 67.0
168.0 60.0
171.0 68.0
172.0 76.0
173.0 65.0
Stata命令pwcorr 变量1 变量2 …变量m，sig
本例命令pwcorr x y,sig
pwcorr x y,sig
Pearson相关系数=0.5994，P值=0.0182<0.05，因此可以认为身高与体重呈正线性相关。

注意：Pearson相关系数又称为线性相关系数并且要求X和Y双正态分布，通常在检查中要求X服从正态分布并且Y服从正态分布。

如果不满足双正态分布时，可以计算Spearman相关系数又称为非参数相关系数。

Spearman相关系数的计算基本思想为：用X和Y的秩代替它们的原始数据，然后代入Pearson相关系数的计算公式并且检验与Pearson 相关系数类同。

Stata实现
spearman x y
stata计算结果与手算的结果一致。

结论为身高与体重呈正相关，并且有统计学意义。

直线回归
例2 为了研究3岁至8岁男孩身高与年龄的规律，在某地区在3岁至8岁男孩中随机抽样，共分6个年龄层抽样：3岁，4岁，…，8岁，每个层抽10个男孩，共抽60个男孩。

资料如下：
60个男孩的身高资料如下
年龄3岁4岁5岁6岁7岁8岁
身高92.5 96.5 106.0 115.5 125.5 121.5 97.0 101.0 104.0 115.5 117.5 128.5 96.0 105.5 107.0 111.5 118.0 124.0
96.5 102.0 109.5 110.0 117.0 125.5 97.0 105.0 111.0 114.5 122.0 122.5 92.0 99.5 107.5 112.5 119.0 123.5 96.5 102.0 107.0 116.5 119.0 120.5 91.0 100.0 111.5 110.0 125.5 123.0 96.0 106.5 103.0 114.5 120.5 124.0 99.0 100.0 109.0 110.0 122.0 126.5 平均身高
95.4 101.8 107.6 113.1 120.6 124.0
由于男孩的身高与年龄有关系，不同的年龄组的平均身高是不同的，由平均身高与年龄作图可以发现：年龄与平均身高的点在一条直线附近。

考虑到样本均数存在抽样误差，故有理由认为身高的总体均数与年龄的关系可能是一条直线关系x
μαβ=+y
，其中y 表示身高，x 表示
年龄。

由于身高的总体均数与年龄有关，所以更正确地标记应为
x
μαβ=+y|x
表示在固定年龄情况下的身高总体均数。

上述公式称为直线回归方程。

其中β为回归系数（regression coefficient ），或称为斜率（slope ）；α称为常数项（constant ），或称为
截距（intercept）。

回归系数β表示x变化一个单位y平均变化β个单位。

当x和y都是随机的，x、y间呈正相关时β>0，x、y间呈负相关时β<0，x、y间独立时β=0。

一般情况而言，参数α和β是未知的。

对于本例而言，不同民族和不同地区，α和β往往是不同的，因此需要进行估计的。

由于不同年龄的身高实际观察值应在对应的身高总体均数附近(即：实际观察值与总体均数之间仅存在个体变异的差异)，故可以用年龄和实际身高观察值的资料对未知参数α和β进行估计。

得到样本估计的回归方程
ˆy a bx
=+
二、直线回归方程的建立
直线回归分析的Stata实现：
数据结构：
392.5
397
396
396.5
397
392
396.5
391
396
399
496.5
4101
4105.5
4102
4105
499.5
4102
4100
4106.5 4100 5106 5104 5107 5109.5 5111 5107.5 5107 5111.5 5103 5109 6115.5 6115.5 6111.5 6110 6114.5 6112.5 6116.5 6110 6114.5 6110 7125.5 7117.5 7118 7117 7122 7119 7119 7125.5 7120.5 7122 8121.5 8128.5 8124 8125.5 8122.5 8123.5 8120.5 8123 8124 8126.5
多重线性回归命令为
regress 因变量自变量1 自变量2 ……自变量m 直线回归命令regress 因变量自变量本例为 regress y x ，得到下列结果：
得到回归系数b=5.854286，常数项a=78.18746，回归系数的检验统计量t b =27.88，P 值<0.0001，可以认为Y 与X 呈直线回归关系。

来源平方和SS 自由度df
均方MS F P 值回归 5997.71571 1 5997.71571 777.41
<0.0001
残差 447.467619 58 7.71495895
合计
6445.18333
59
称2
1SS R
SS =-
残差合计
为决定系数(本例Stata 计算结果R-squared=0.9306)，因此
0≤R 2≤1，因此残差平方和SSE 越小，决定系数R 2就越接近1。

特别当所有的残差为0时，SSE=0，相应的决定系数R 2=1。

决定系数R 2表示y 被x 所解释的部分所占的百分比，R 2越接近于1说明x 对y 的解释越充分。

残差=应变量观察值（y ）-预测值(ˆy
) Stata 的残差计算命令
在输入回归命令regress y x后，再
输入predict e,residual计算残差并用变量e表示残差
输入sktest e残差的正态性检验
输入predict yy 计算预测值。

残差正态性检验(H0:残差正态分布,α=0.05)
P值=0.5534>>0.05，可以认为残差呈正态分布。

所建立的回归方程是否有意义，仅凭借假设检验的结论或R2的大小还不能充分说明问题。

残差Y
=的大小直接反应回归方程的
-
Y
eˆ
优劣，经常采用图示的方法，以e做纵轴，Yˆ为横轴作图来考察残差的变化，如果残差比较均匀地散布在e=0的周围，没有明显的散布趋势和明显的离群点，则说明所建回归方程比较理想，否则要借助统计软件做进一步诊断。

graph 残差预测值
本例graph e yy
说明残差比较均匀地散布在e=0的周围，没有明显的散布趋势和明显的离群点，故说明所建回归方程比较理想。