stata笔记要点
Stata 自学笔记

Stata笔记1.clear2.input3.savee5.sysuse6.d/des/desc/describe7.sum & return list & ereturn list8.reg9.clear results10.matrix11.type12.insheet13.rename14.infile15.browse16.xmlusepress18.xpose19.tsset20.outfile21.outsheet22.xmlsave23.变量Stata笔记1.clear清除内存数据。
数据都是存入内存来计算的,所以在输入大量数据之前,要先清除内存中的数据来释放空间。
删除的不光包括数据,还有变量,以及Data Editor 中的数据。
(就是删除所有数据,什么都不留)不影响已经存在硬盘上的数据。
(只删除内存中的所有数据)具体使用方法在下文中有具体例子。
手动输入数据。
可以分五次输入,也可以直接复制到Command 。
input x y x50 30 2020 30 5020 52 60end保存数据。
此项如果保存在C 盘可能因为权限不够而报错。
换到其他盘符即可。
save data_name[,replace]save 名称[,如果之前已经有这个名称,则替换(覆盖)。
]使用、导入(.dta )数据。
use data_name[,clear]use “file_path”[,clear]use url[,clear]use 名称[,清除。
]2.input3.savee导入软件安装时自带的数据时用。
sysuse auto,clear导入汽车数据。
显示数据变量信息。
(名称、类型等等)describe[,detail]sum price weight turn(以刚刚导入的汽车价格数据为例,price weight turn 为变量名称)显示一些相关信息。
(观察值个数、平均数、最大最小值等等)5.sysuse6.d/des/desc/describe7.sum & return list & ereturn listreturn listreturn 可以简写为ret返回更多信息(包括sum 没有显示的)ereturn listereturn 可以简写为eret返回更详细的信息。
stata学习笔记

经济数据的特点与类型。
1、横截面数据:多个经济个体的变量在同一时间点上的取值,如2012年中国各省的GDP2、时间数列数据:指的是某个经济个体的变量在不同时点上的取值,如1978-2012年山东省每年的GDP3、面板数据:多个经济个体的变量在不同时点上的取值,如1978-2012年中国各省的GDP 小样本OLS(最小二乘法):单一方程线性回归最常见方法条件:解释变量与扰动项正交、扰动项无自相关、同方差。
拟合优度:衡量线性回归模型对样本数据的拟合程度(R2),越高说明模型拟合程度越好。
单系数T检验:对回归方程扰动项的具体概率进行假设显著性水平进行检验F检验:整个回归方程是否显著STATA操作简介:如果数据中包含1949-10-01或1949/10/01的时间变量,导入stata后可能会被视为字符串,因此对于日度数据,可以使用命令gen newvar=date(varname,YMD),将其转换为整数日期变量,其中YMD说明原始数据的格式为年月日,如果原始数据的格式为月日年则使用MDY;对于月度数据则gen newvar=monthly(varname,YM)。
.describe:数据的概貌.drop keep:删除和保留.su:统计特征Pwcorr:变量之间相关系数Star(.05):5%显著性水平gen:产生g intc=log(tc):取自然对数. reg:OLS回归.Vce:协方差矩阵reg。
,noc表示在进行回归时不要常数项大样本OLS:只要求解释变量与同期的扰动项正交即可Robust:稳健标准误,如果存在异方差,则应使用稳健标准误最大似然估计法:如果回归方程存在非线性,则使用最大似然估计法(MLE )或非线性最小二乘法(NLS )三类在大样本下渐进等价的统计检验:Wald test LR (似然比检验) LM操作步骤如下:sysuse auto (调用数据集)Hist mpg ,normal (画变量mpg 的直方图,并与正态密度比较)D e n s i t y直方图显示,变量mpg 的分布于正态分布有一定差距。
stata学习笔记

经济数据的特点与类型。
1、横截面数据:多个经济个体的变量在同一时间点上的取值,如2012年中国各省的GDP2、时间数列数据:指的是某个经济个体的变量在不同时点上的取值,如1978-2012年山东省每年的GDP3、面板数据:多个经济个体的变量在不同时点上的取值,如1978-2012年中国各省的GDP 小样本OLS(最小二乘法):单一方程线性回归最常见方法条件:解释变量与扰动项正交、扰动项无自相关、同方差。
拟合优度:衡量线性回归模型对样本数据的拟合程度(R2),越高说明模型拟合程度越好。
单系数T检验:对回归方程扰动项的具体概率进行假设显著性水平进行检验F检验:整个回归方程是否显著STATA操作简介:如果数据中包含1949-10-01或1949/10/01的时间变量,导入stata后可能会被视为字符串,因此对于日度数据,可以使用命令gen newvar=date(varname,YMD),将其转换为整数日期变量,其中YMD说明原始数据的格式为年月日,如果原始数据的格式为月日年则使用MDY;对于月度数据则gen newvar=monthly(varname,YM)。
.describe:数据的概貌.drop keep:删除和保留.su:统计特征Pwcorr:变量之间相关系数Star(.05):5%显著性水平gen:产生g intc=log(tc):取自然对数. reg:OLS回归.Vce:协方差矩阵reg。
,noc表示在进行回归时不要常数项大样本OLS:只要求解释变量与同期的扰动项正交即可Robust:稳健标准误,如果存在异方差,则应使用稳健标准误最大似然估计法:如果回归方程存在非线性,则使用最大似然估计法(MLE )或非线性最小二乘法(NLS )三类在大样本下渐进等价的统计检验:Wald test LR (似然比检验) LM操作步骤如下:sysuse auto (调用数据集)Hist mpg ,normal (画变量mpg 的直方图,并与正态密度比较)D e n s i t y直方图显示,变量mpg 的分布于正态分布有一定差距。
stata常见问题及解决办法个人总结笔记

1. 如何输出STATA的图,和保存?先输入数据(1)Twoway connected 变量1 变量2 //划出折线图(2)twoway scatter 变量1 变量2 //划出散点图2. 怎样在stata8中做HAUSMAN检验?四步曲,重点在于解释结果(1)xtreg y x , fe(2)est store fe(3)xtreg y x, re(4)hausman fe如果拒绝,说明corr(x,ui)=0的假设是有问题的,需要重新设定RE model后再进行检验,如果模型的设定没有问题,但检验还是拒绝原假设(p值接近0),那么就只能采用FE model 了,因为此时的RE 估计量是有偏的。
(definitely right. 当你使用stata的时候,最重要的命令不是这些是 help and find it然后就能找到你的答案了)hausman检验是用来检验用fe还是re的,其原假设是re优于fe,从你的结果来看( Prob>chi2 =0.0000),应该拒绝原假设,所以应该用fe3. stata里平方的命令怎么写?gen age=age^24. stata里边怎么取对数啊?gen lnx=log(x)5. 如何用STATA求自然对数?如说:ln(X^2)=-4.8536,如何求X啊?. dis sqrt(exp(-4.8536))或者dis exp(-4.8536/2)6.关于hausman检验,结果是CHI2(2)=2355.81,prob>chi2=0.000,可以使用随机效应模型嘛?prob>chi2=0.000,is like p-value.we should reject the null, so fixed effect is preferred.Randome effect is not suggested. CHI2(2)=2355.81,就意味着拒绝原假设,从而选取固定效应模型。
(完整版)Stata学习笔记和国贸理论总结

(完整版)Stata学习笔记和国贸理论总结Stata学习笔记⼀、认识数据(⼀)向stata中导⼊txt、csv格式的数据1.这两种数据可以⽤⽂本⽂档打开,新建记事本,然后将相应⽂档拖⼊记事本即可打开数据,复制2.按下stata中的edit按钮,右键选择paste special3.*.xls/*.xlsx数据仅能⽤Excel打开,不可⽤记事本打开,打开后会出现乱码,也不要保存,否则就恢复不了。
逗号分隔的数据常为csv数据。
(⼆)⽹页数据⽹页上的表格只要能选中的,都能复制到excel中;⽹页数据的下载可以通过百度“国家数据”进⾏搜索、下载⼆、Do-file 和log⽂件打开stata后,第⼀步就要do-file,记录步骤和历史记录,⽅便⽇后查看。
Stata处理中保留的三种⽂件:原始数据(*.dta),记录处理步骤(*.do),以及处理的历史记录(*.smcl)。
三、导⼊StataStata不识别带有中⽂的变量,如果导⼊的数据第⼀⾏有中⽂就没法导⼊。
但是对于列来说不会出现这个问题,不分析即可(Stata不分析字符串,红⾊⽂本显⽰;被分析的数据,⿊⾊显⽰);第⼀⾏是英⽂变量名,选择“Treat first row as variable names”在导⼊新数据的时候,需要清空原有数据,clear命令。
导⼊空格分隔数据:复制——Stata中选择edit按钮或输⼊相应命令——右键选择paste special——并选择,确定;导⼊Excel 中数据,复制粘贴即可;逗号分隔数据,选择paste special后点击comma,然后确定。
Stata数据格式为*.dta,导⼊后统⼀使⽤此格式。
四、基本操作(⼏个命令)(⼀)use auto,clear 。
在清空原有数据的同时,导⼊新的auto数据。
(⼆)browse 。
浏览数据。
(三)describe 和list。
查看数据,describe 和list 使⽤list命令能使我们根据⾃⼰的需要选择数据(例如其与in/if语句的结合使⽤)。
(完整版)Stata学习笔记和国贸理论总结

Stata学习笔记一、认识数据(一)向stata中导入txt、csv格式的数据1.这两种数据可以用文本文档打开,新建记事本,然后将相应文档拖入记事本即可打开数据,复制2.按下stata中的edit按钮,右键选择paste special3.*.xls/*.xlsx数据仅能用Excel打开,不可用记事本打开,打开后会出现乱码,也不要保存,否则就恢复不了。
逗号分隔的数据常为csv数据。
(二)网页数据网页上的表格只要能选中的,都能复制到excel中;网页数据的下载可以通过百度“国家数据”进行搜索、下载二、Do-file 和log文件打开stata后,第一步就要do-file,记录步骤和历史记录,方便日后查看。
Stata处理中保留的三种文件:原始数据(*.dta),记录处理步骤(*.do),以及处理的历史记录(*.smcl)。
三、导入StataStata不识别带有中文的变量,如果导入的数据第一行有中文就没法导入。
但是对于列来说不会出现这个问题,不分析即可(Stata不分析字符串,红色文本显示;被分析的数据,黑色显示);第一行是英文变量名,选择“Treat first row as variable names”在导入新数据的时候,需要清空原有数据,clear命令。
导入空格分隔数据:复制——Stata中选择edit按钮或输入相应命令——右键选择paste special——并选择,确定;导入Excel中数据,复制粘贴即可;逗号分隔数据,选择paste special后点击comma,然后确定。
Stata数据格式为*.dta,导入后统一使用此格式。
四、基本操作(几个命令)(一)use auto,clear 。
在清空原有数据的同时,导入新的auto数据。
(二)browse 。
浏览数据。
(三)describe 和list。
查看数据,describe 和list 使用list命令能使我们根据自己的需要选择数据(例如其与in/if语句的结合使用)。
stata学习笔记(四):主成份分析与因子分析

stata学习笔记(四):主成份分析与因⼦分析1.判断是否适合做主成份分析,变量标准化Kaiser-Meyer-Olkin抽样充分性测度也是⽤于测量变量之间相关关系的强弱的重要指标,是通过⽐较两个变量的相关系数与偏相关系数得到的。
KMO介于0于1之间。
KMO越⾼,表明变量的共性越强。
如果偏相关系数相对于相关系数⽐较⾼,则KMO⽐较低,主成分分析不能起到很好的数据约化效果。
根据Kaiser(1974),⼀般的判断标准如下:0.00-0.49,不能接受(unacceptable);0.50-0.59,⾮常差(miserable);0.60-0.69,勉强接受(mediocre);0.70-0.79,可以接受(middling);0.80-0.89,⽐较好(meritorious);0.90-1.00,⾮常好(marvelous)。
SMC即⼀个变量与其他所有变量的复相关系数的平⽅,也就是复回归⽅程的可决系数。
SMC⽐较⾼表明变量的线性关系越强,共性越强,主成分分析就越合适。
. estat smc. estat kmo. estat anti//暂时不知道这个有什么⽤得到结果,说明变量之间有较强的相关性,适合做主成份分析。
Squared multiple correlations of variables with all other variables-----------------------Variable | smc-------------+---------x1 | 0.8923x2 | 0.9862y1 | 0.9657y2 | 0.9897y3 | 0.9910y4 | 0.9898y5 | 0.9769y6 | 0.9859y7 | 0.9735-----------------------变量标准化. egen z1=std(x1)2.对变量进⾏主成份分析. pca x1 x2 y1 y2 y3 y4 y5 y6 y7. pca x1 x2 y1 y2 y3 y4 y5 y6 y7, comp(1)得到下⾯两个表格,第⼀个表格中的各项分别为特征根、difference这个不知道是啥、⽅差贡献率、累积⽅差贡献率。
Stata学习笔记

Stata学习笔记以下命令均采用小写字母Chapter 1 stata入门1.1打开数据use "D:\Stata9\auto.dta", clear 用use命令打开数据sysuse auto,clear auto 为系统数据sysuse为打开系统数据的命令1.2获取帮助Help summarize summarize为需要获取帮助对象可以改为其他的需要帮助的对象Findit summarize,net 寻找网络帮助summarize为需要获取帮助对象Search summarize ,net 寻找网络帮助summarize为需要获取帮助对象显示结果Display 5+91.3描述统计(summarize 可简写成sum)Use atuo,clearSummarize price 描述price的观察值个数、平均值、标准差、最小值、最大值Sum weight summarize可简写成sum Sum weight price 同时完成上面两步1.4绘图Scatter price weight scatter 为绘制散点图命令Line price weight ,sort line 为绘制折线图命令,sort为排序,绘制折线图前需要先排序1.5生成新的数据(generate 可简写成gen)ClearSet obs 1000 设置观测值的组数Gen x=_n _n 为观察值得序号Gen y=x+1001.6控制结果输出显示List n1.7设置屏幕滚动Set more off 先设置此项则显示时,屏幕不停止Set more on 先设置此项则显示时,会使显示停止1.8清除内存中原有内容clear1.9设置文件存取路径(cd)Cd d:\stata d:\stata为路径1.10如果想知道当前路径下有哪些文件,可以用dir 命令来列示.dir1.11假设你想在D 盘的根目录下创建一个新的文件夹mydata 来存放数据文件,命令为mkdir。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.一般检验假设系数为0,t比较大则拒绝假设,认为系数不为0.假设系数为0,P比较小则拒绝假设,认为系数不为0.假设方程不显著,F比较大则拒绝假设,认为方程显著。
2.小样本运用OLS进行估计的前提条件为:(1)线性假定。
即解释变量与被解释变量之间为线性关系。
这一前提可以通过将非线性转换为线性方程来解决。
(2)严格外生性。
即随机扰动项独立于所有解释变量:与解释变量之间所有时候都是正交关系,随机扰动项期望为0。
(工具变量法解决)(3)不存在严格的多重共线性。
一般在现实数据中不会出现,但是设置过多的虚拟变量时,可能会出现这种现象。
Stata可以自动剔除。
(4)扰动项为球型扰动项,即随即扰动项同方差,无自相关性。
3.大样本估计时,一般要求数据在30个以上就可以称为大样本了。
大样本的前提是(1)线性假定(2)渐进独立的平稳过程(3)前定解释变量,即解释变量与同期的扰动项正交。
(4)E(XiXit)为非退化矩阵。
(5)gt为鞅差分序列,且其协方差矩阵为非退化矩阵。
与小样本相比,其不需要严格的外生性和正太随机扰动项的要求。
4.命令稳健标准差回归:reg y x1x2x3,robust回归系数与OLS一样,但标准差存在差异。
如果认为存在异方差,则使用稳健标准差。
使用稳健标准差可以对大样本进行检验。
只要样本容量足够大,在模型出现异方差的情况下,使用稳健标准差时参数估计、假设检验等均可正常进行,即可以很大程度上消除异方差带来的副作用对单个系数进行检验:test lnq=1线性检验:testnl_b[lnpl]=_b[lnq]^25.如果回归模型为非线性,不方便使用OLS,则可以采取最大似然估计法(MLE),或者非线性最小二乘法(NLS)6.违背经典假设,即存在异方差的情况。
截面数据通常会出现异方差。
因此检验异方差可以:(1)看残差图,但只是直观,可能并不准确。
rvfplot(residual-versus-fitted plot)与拟合值的散点图rvpplot varname(residual-versus-predictor plot)与解释变量的散点图扰动项的方差随观测值而变动,表示可能存在异方差。
(2)怀特检验:estat imtest,white(post-estimation information matrix test)P比较小,则拒绝同方差假设,表示存在异方差,不能用OLS。
反之则证明为同方差。
(3)BP检验estat hettest,iid(默认设置为使用拟合值y^)estat hettest,rhs iid(使用方程右边的解释变量,而不是y^)estat hettest[varlist],iid(使用某个指定的解释变量)P小,则拒绝原假设。
如果存在异方差,则可以:(1)使用OLS+稳健标准差robust(2)广义最小二乘法(GLS)(3)加权最小二乘法(WLS)predict el,res(预测残差)g e2=el^2辅助回归:g lne2=log(e2)reg lne2lnq,nocpredict lne2f计算辅助回归的拟合值g e2f=exp(lne2f)去掉对数即权重之倒数reg lntc lnq lnpl lnpk lnpf[aw=1/e2f]reg y x1x2x3[aw=1/var](aw表示analytical weight,var表示随即扰动项的方差。
)或者:predict u,residualspredict yf,xbgen lnu2=ln(u^2)gen yf2=yf^2quietly reg lnu2yf yf2predictnl u2f=exp(xb())gen sd=sqrt(u2f)vwls lntc lnq lnpl lnpf lnpk,sd(sd)(4)可行广义最小二乘法(FGLS)FGLS所做的过程和GLS一样,只是GLS假设扰动项的方差已知,若要用GLS,必须计算得到扰动项方差,而FGLS则是在未知方差的情况下求方差并最终通过将异方差转换为同方差后再运用OLS的结果。
因此,GLS和FGLS在过程上是一致的。
6.自相关时间序列中容易出现自相关,而截面数据也可能存在空间自相关。
人为处理数据如移动平均等做法也可能导致自相关。
检验自相关可以:(1)作图,但并不严格。
定义滞后算子L.(只有时间序列数据和面板数据才能定义时间变量。
)tsset yaear一阶差分:D.x=xt-xt-1D2.X=xt-xt-2LD.表示一阶差分的滞后值画图:scatter el L.elac el(看自相关图)pac el(看偏相关图)(2)BG检验estat bgodfrey(默认p=1)estat bgodfrey,lags(p)estat bgodfrey,nomiss0(使用不添加0的BG检验)使用命令ac查看自相关图,或者设置较大的p值进行显著性检验,t期不显著了,则选择P=T-1统计检验P值小,则拒绝假设。
(3)box-pierce Q检验/Ljung-Box Qreg y x1x2x3predict el,residwntestq el(使用stata提供的默认滞后期)wntestq el,lags(p)(使用自己设定的滞后期)(4)DW检验:现在已经不常用,因为其只能检验一阶自相关。
estat dwatson自相关的处理方法:(1)使用OLS+异方差自相关稳健的标准差(Heteroskedasticity and AutocorrelationConsistent Standard Error,HAC)newey y x1x2x3,lag(p)(HAC标准差,必须制定滞后阶数p)滞后期数选择n^1/4(2)使用OLS+聚类稳健的标准差(cluster robust standard error)面板数据中经常使用聚类稳健的标准差。
reg y x1x2x3,cluster(state)(聚类稳健标准差,假设“state”为聚类变量)(3)使用可行广义最小二乘法(FGLS)prais y x1x2x3(使用默认的PW估计法)prais y x1x2x3,corc(使用CO估计法)(4)修改模型设定,可能自相关是由于遗漏了自相关的解释变量。
7多重共线性在回归后,使用命令VIFestat vif经验表示,vif<10,则不存在多重共线性。
如果存在多重共线性,但是只关心整个方程预测被解释变量的能力,或者只关心变量的显著性,则不必理会多重共线性,因为多重共线性只是对单个解释变量的解释能力估计出现了偏差。
存在多重共线性,则逐个剔除。
8.遗漏变量(解决扰动项严格外生性的问题)遗漏变量与解释变量不相关时,扰动项与解释变量不相关,OLS估计依然一致,但扰动项方差过大,影响估计的精确度如果遗漏变量与解释变量相关,扰动项与解释变量则会相关,导致OLS估计不再一致。
出现“遗漏变量偏差”。
所以可以不研究某些解释变量而只对感兴趣的解释变量进行研究,但是重要的是遗漏解释变量不能与解释变量相关。
解决遗漏解释变量的方法有:(1)加入尽可能多的控制变量(control varible),从理论上说明遗漏变量与扰动项不相关,或很弱的相关(2)使用代理变量(proxy variable),这在控制变量不可得的时候采用,如用IQ代替能力(3)工具变量法(4)使用面板数据(短面板、长面板、动态面板)(5)随即实验和自然实验9.选择解释变量的个数的时候,要选择适当的方式。
(1)按照变量个数使得矫正可决系数最大的准则选择个数(如果加入变量,反倒A-R变小,则去掉加入的变量。
)(2)赤池信息准则(AIC akaike Information Criteria)(3)贝叶斯信息准则(Bayesian Information Criteria)(4)汉南-昆信息准则(Hanan-Quinn Information Criteria)但这一准则不常用命令:estat ic取AIC BIC最大时候的变量个数10.处理极端数据:reg y x1x2x3predict lev,leverage(列出所有解释变量的影响力值)gsort–lev(将所有的观测值按照lev的降序排列)sum lev(看LVE的最大值和平均值)list lev1/3(列出影响力最大的三个值)可以将极端数据加入和省略进行对比。
10虚拟变量M个定性的量,最多可以有(M-1)个虚拟变量设置虚拟变量:generate d=(year>=1978)如希望将每个省设置为虚拟变量,则需要:tabulate province,generate(pr)回归简化为:reg y x1x2x3pr2-pr3111.工具变量法这可以解决扰动项与自变量的相关问题,设置的工具变量需要与扰动项无关而与内生解释变量相关。
传统的工具变量法一般通过两阶段最小二乘法TSLS、2SLS(two stage least square)。
第一阶段,工具变量对内生解释变量回归;第二阶段,被解释变量对工具变量的拟合值进行回归。
多个工具变量的线性组合仍然可以作为工具变量。
命令:ivregress2sls depvar[varlist1](varlist2=inslist)Depvar为被解释变量,varlist1为外生解释变量,varlist2为内生解释变量,instlist为工具变量。
如:ivregress2sls y x1(x2=z1z2)ivregress2sls y x1(x2x3=z1z2z3z4),r first(r表示用异方差的标准差,first表示在结果中显示第一阶段的回归。
)在面板数据中执行2SLS可以用:xtivreg depvar[varlist1](varlist_2=varlist_iv)(详见help xtivreg)检验工具变量与解释变量的相关性:即检验工具变量是否为弱工具变量,命令:estat firststage,all forcenonrobust(all表示显示每个内生变量的统计量,而非仅仅所有内生变量综合的统计量,forcenonrobust表示及时在进行工具变量法时用了稳健标准差,也仍然允许计算estat firststage)解决弱工具变量的方法包括A.寻找更强的工具变量B.弱工具变量较多,则舍弃弱工具变量,C.用有限信息最大似然估计法(Limited information maximum likelihood estimation, LIML)LIML与2SLS渐进等价,但在弱工具变量的情况下,LIML的小样本性质可能优于2SLS.命令为:ivregress liml depvar[varlist1](varlist2=instlist)过度识别(即多余的工具变量的个数)命令为:estat overid但并不能告诉哪些工具变量无效。