stata常见问题及解决办法个人总结笔记
stata学习笔记

经济数据的特点与类型。
1、横截面数据:多个经济个体的变量在同一时间点上的取值,如2012年中国各省的GDP2、时间数列数据:指的是某个经济个体的变量在不同时点上的取值,如1978-2012年山东省每年的GDP3、面板数据:多个经济个体的变量在不同时点上的取值,如1978-2012年中国各省的GDP 小样本OLS(最小二乘法):单一方程线性回归最常见方法条件:解释变量与扰动项正交、扰动项无自相关、同方差。
拟合优度:衡量线性回归模型对样本数据的拟合程度(R2),越高说明模型拟合程度越好。
单系数T检验:对回归方程扰动项的具体概率进行假设显著性水平进行检验F检验:整个回归方程是否显著STATA操作简介:如果数据中包含1949-10-01或1949/10/01的时间变量,导入stata后可能会被视为字符串,因此对于日度数据,可以使用命令gen newvar=date(varname,YMD),将其转换为整数日期变量,其中YMD说明原始数据的格式为年月日,如果原始数据的格式为月日年则使用MDY;对于月度数据则gen newvar=monthly(varname,YM)。
.describe:数据的概貌.drop keep:删除和保留.su:统计特征Pwcorr:变量之间相关系数Star(.05):5%显著性水平gen:产生g intc=log(tc):取自然对数. reg:OLS回归.Vce:协方差矩阵reg。
,noc表示在进行回归时不要常数项大样本OLS:只要求解释变量与同期的扰动项正交即可Robust:稳健标准误,如果存在异方差,则应使用稳健标准误最大似然估计法:如果回归方程存在非线性,则使用最大似然估计法(MLE )或非线性最小二乘法(NLS )三类在大样本下渐进等价的统计检验:Wald test LR (似然比检验) LM操作步骤如下:sysuse auto (调用数据集)Hist mpg ,normal (画变量mpg 的直方图,并与正态密度比较)D e n s i t y直方图显示,变量mpg 的分布于正态分布有一定差距。
stata常见问题及解决办法个人总结笔记

1. 如何输出STATA的图,和保存先输入数据(1)Twoway connected 变量1 变量2 怎样在stata8中做HAUSMAN检验四步曲,重点在于解释结果(1)xtreg y x , fe(2)est store fe(3)xtreg y x, re(4)hausman fe如果拒绝,说明corr(x,ui)=0的假设是有问题的,需要重新设定RE model 后再进行检验,如果模型的设定没有问题,但检验还是拒绝原假设(p值接近0),那么就只能采用FE model 了,因为此时的RE 估计量是有偏的。
(definitely right. 当你使用stata的时候,最重要的命令不是这些是help and find it然后就能找到你的答案了)hausman检验是用来检验用fe还是re的,其原假设是re优于fe,从你的结果来看( Prob>chi2 =),应该拒绝原假设,所以应该用fe3.stata里平方的命令怎么写gen age=age^24. stata里边怎么取对数啊gen lnx=log(x)5.如何用STATA求自然对数如说:ln(X^2)=,如何求X啊. dis sqrt(exp)或者dis exp2)6.关于hausman检验,结果是CHI2(2)=,prob>chi2=,可以使用随机效应模型嘛prob>chi2=,is like p-value.we should reject the null, so fixed effect is effect is not suggested. CHI2(2)=,就意味着拒绝原假设,从而选取固定效应模型。
7.我在做gdp一阶差分单位根检验的时候,输入的命令是ipshin dgdp,lags(1)得到的结果:Im-Pesaran-Shin test for cross-sectionally demeaned dgdpDeterministics chosen: constantt-bar test, N,T = (27,7) Obs= 135 Augmented by 1 lags (average) t-bar cv10 cv5 cv1 W[t-bar] P-value 我不会看这个结果,请问怎么看时否存在单位根阿看哪个数值啊零假设含有单位根,W[t-bar] = , P-value = 。
STATA实用学习笔记

北京科技大学STATA应用学习摘录第一章 STATA的基本操作一、设置内存容set mem 500m, perm一、显示输入内容Display 1Display “clive”二、显示数据集结构describeDescribe /d三、编辑editEdit四、重命名变量Rename var1 var2五、显示数据集内容list/browseList in 1List in 2/10六、数据导入:数据文件是文本类型(.csv)1、insheet: . insheet using “C:\Documents and Settings\Administrator\桌面\ST9007\dataset\Fees1.csv”, clear2、内存为空时才可以导入数据集,否则会出现(you must start with an empty dataset)(1)清空内存中的所有变量:.drop _all(2)导入语句后加入“clear”命令。
七、保存文件1、save “C:\Documents and Settings\Administrator\桌面\ST9007\dataset\Fees1.dta”2、save “C:\Documents and Settings\Administrator\桌面\ST9007\dataset\Fees1.dta”, replace八、打开及退出已存文件use1、.Use 文件路径及文件名, clear2、. Drop _all/.exit九、记录命令和输出结果(log)1、开始建立记录文件:log using "J:\phd\output.log", replace2、暂停记录文件:log off3、重新打开记录文件:log on4、关闭记录文件:log close十一、创建和保存程序文件:(doedit, do)1、打开程序编辑窗口:doedit2、写入命令3、保存文件,.do.4、运行命令:.do 程序文件路径及文件名十二、多个数据集合并为一个数据集(变量和结构相同)纵向合并appendinsheet using "J:\phd\Fees1.csv", clearsave "J:\phd\Fees1.dta", replaceinsheet using "J:\phd\Fees2.csv", clearappend using "J:\phd\Fees1.dta"save "J:\phd\Fees1.dta", replace十三、横向合并,在原数据集基础上加上另外的变量merge1、insheet using "J:\phd\Fees1.csv", clearsort companyid yearendsave "J:\phd\Fees1.dta", replacedescribeinsheet using "J:\phd\Fees6.csv", clearsort companyid yearendmerge companyid yearend using "J:\phd\Fees1.dta"save "J:\phd\Fees1.dta", replacedescribe2、_merge==1 obs. From master data_merge==2 obs. From using data_merge==3 obs. From both master and using data十四、帮助文件:help1、. Help describe十五、描述性统计量1、summarize incorporationyear 单个summarize incorporationyear-big6 连续多个summarize _all or simply summarize 所有2、更详细的统计量summarize incorporationyear, detail3、centilecentile auditfees, centile(0(10)100)centile auditfees, centile(0(5)100)4、tabulate不同类型变量的频数和比例tabulate companytypetabulate companytype big6, column 按列计算百分比tabulate companytype big6, row 按行计算百分比tab companytype big6 if companytype<=3, row col 同时按行列和条件计算百分比5、计算满足条件观测的个数count if big6==1count if big6==0 | big6==16、按离散变量排序,对连续变量计算描述性统计量:(1)by companytype, sort: summarize auditfees, detail(2)sort companytypeBy companytype:summarize auditees十六、转换变量1、按公司类型将公开发行股票公司赋值为1,其他为0gen listed=0replace listed=1 if companytype==2replace listed=1 if companytype==3replace listed=1 if companytype==5replace listed=. if companytype==.十七、产生新变量genGenerate newvar=表达式十八、数据类型3、新建变量的过程中定义数据类型●gen str3 gender= "male"●list gender in 1/104、变量所占字节过长●drop gender●gen str30 gender= "male"●browse●describe gender●compress gender5、日期数据类型:%d dates, which is a count of the number of days elapsed since January 1, 1960。
stata笔记常用

stata笔记常用Stata: 输出regression table到word和excel1. 安装estout。
最简单的方式是在stata的指令输入:ssc install estout, replaceEST安装的指导网址是:2.跑你的regression3.写下这行指令esttab using test.rtf,然后就会出现个漂亮的表格给你(WORD文档)。
只要再小幅修改,就可以直接用了。
这个档案会存在my document\stata下。
如果你用打开的是一个stata do file,结果会保存到do文件所在文件夹中。
如果要得到excel文件,就把后缀改为.xls或者.csv就可以了4.跑多个其实也不难,只要每跑完一个regression,你把它取个名字存起来:est store m1。
m1是你要改的,第一个model所以我叫m1,第二个的话指令就变成est store m2,依次类推。
5.运行指令:esttab m1 m2 ... using test.rtf就行了。
异方差的检验:Breusch-Pagan test in STATA:其基本命令是:estat hettest var1 var2 var3其中,var1 var2 var3 分别为你认为导致异方差性的几个自变量。
是你自己设定的一个滞后项数量。
同样,如果输出的P-Value 显著小于0.05,则拒绝原假设,即不存在异方差性。
White检验:其基本命令是在完成基本的OLS 回归之后,输入imtest, white如果输出的P-Value 显著小于0.05,则拒绝原假设,即不存在异方差性处理异方差性问题的方法:方法一:WLSWLS是GLS(一般最小二乘法)的一种,也可以说在异方差情形下的GLS就是WLS。
在WLS下,我们设定扰动项的条件方差是某个解释变量子集的函数。
之所以被称为加权最小二乘法,是因为这个估计最小化的是残差的加权平方和,而上述函数的倒数恰为其权重。
(完整版)Stata学习笔记和国贸理论总结

Stata学习笔记一、认识数据(一)向stata中导入txt、csv格式的数据1.这两种数据可以用文本文档打开,新建记事本,然后将相应文档拖入记事本即可打开数据,复制2.按下stata中的edit按钮,右键选择paste special3.*.xls/*.xlsx数据仅能用Excel打开,不可用记事本打开,打开后会出现乱码,也不要保存,否则就恢复不了。
逗号分隔的数据常为csv数据。
(二)网页数据网页上的表格只要能选中的,都能复制到excel中;网页数据的下载可以通过百度“国家数据”进行搜索、下载二、Do-file 和log文件打开stata后,第一步就要do-file,记录步骤和历史记录,方便日后查看。
Stata处理中保留的三种文件:原始数据(*.dta),记录处理步骤(*.do),以及处理的历史记录(*.smcl)。
三、导入StataStata不识别带有中文的变量,如果导入的数据第一行有中文就没法导入。
但是对于列来说不会出现这个问题,不分析即可(Stata不分析字符串,红色文本显示;被分析的数据,黑色显示);第一行是英文变量名,选择“Treat first row as variable names”在导入新数据的时候,需要清空原有数据,clear命令。
导入空格分隔数据:复制——Stata中选择edit按钮或输入相应命令——右键选择paste special——并选择,确定;导入Excel中数据,复制粘贴即可;逗号分隔数据,选择paste special后点击comma,然后确定。
Stata数据格式为*.dta,导入后统一使用此格式。
四、基本操作(几个命令)(一)use auto,clear 。
在清空原有数据的同时,导入新的auto数据。
(二)browse 。
浏览数据。
(三)describe 和list。
查看数据,describe 和list 使用list命令能使我们根据自己的需要选择数据(例如其与in/if语句的结合使用)。
stata常见问题及解决办法

1. 如何输出STATA的图,和保存?先输入数据(1)Twoway connected 变量1 变量2 //划出折线图(2)twoway scatter 变量1 变量2 //划出散点图2. 怎样在stata8中做HAUSMAN检验?四步曲,重点在于解释结果(1)xtreg y x , fe(2)est store fe(3)xtreg y x, re(4)hausman fe如果拒绝,说明corr(x,ui)=0的假设是有问题的,需要重新设定RE model 后再进行检验,如果模型的设定没有问题,但检验还是拒绝原假设(p值接近0),那么就只能采用FE model 了,因为此时的RE 估计量是有偏的。
(definitely right. 当你使用stata的时候,最重要的命令不是这些是help and find it然后就能找到你的答案了)hausman检验是用来检验用fe还是re的,其原假设是re优于fe,从你的结果来看(Prob>chi2 =0.0000),应该拒绝原假设,所以应该用fe3.stata里平方的命令怎么写?gen age=age^24. stata里边怎么取对数啊?gen lnx=log(x)5.如何用STATA求自然对数?如说:ln(X^2)=-4.8536,如何求X啊?. dis sqrt(exp(-4.8536))或者dis exp(-4.8536/2)6.关于hausman检验,结果是CHI2(2)=2355.81,prob>chi2=0.000,可以使用随机效应模型嘛?prob>chi2=0.000,is like p-value.we should reject the null, so fixed effect is preferred.Randome effect is not suggested. CHI2(2)=2355.81,就意味着拒绝原假设,从而选取固定效应模型。
stata学习体会

stata学习体会第一篇:stata学习体会stata学习心得(网络版存盘)2009-03-25调整变量格式:format x1 %10.3f ——将x1的列宽固定为10,小数点后取三位format x1 %10.3g ——将x1的列宽固定为10,有效数字取三位format x1 %10.3e ——将x1的列宽固定为10,采用科学计数法format x1 %10.3fc ——将x1的列宽固定为10,小数点后取三位,加入千分位分隔符 format x1 %10.3gc ——将x1的列宽固定为10,有效数字取三位,加入千分位分隔符format x1 %-10.3gc ——将x1的列宽固定为10,有效数字取三位,加入千分位分隔符,加入“-”表示左对齐合并数据:use “C:Documents and Settingsxks桌面2006.dta”, clear merge using “C:Documents and Settingsxks桌面1999.dt a” ——将1999和2006的数据按照样本(observation)排列的自然顺序合并起来use “C:Documents and Settingsxks桌面2006.dta”, clear merge id using “C:Documents and Settingsxks桌面1999.dta” ,unique sort ——将1999和2006的数据按照唯一的(unique)变量id来合并,在合并时对id进行排序(sort)建议采用第一种方法。
对样本进行随机筛选: sample 50 在观测案例中随机选取50%的样本,其余删除 sample 50,count 在观测案例中随机选取50个样本,其余删除查看与编辑数据:browse x1 x2 if x3>3(按所列变量与条件打开数据查看器)edit x1 x2 if x3>3(按所列变量与条件打开数据编辑器)数据合并(merge)与扩展(append)merge表示样本量不变,但增加了一些新变量;append表示样本总量增加了,但变量数目不变。
Stata学习笔记

Stata学习笔记以下命令均采用小写字母Chapter 1 stata入门1.1打开数据use "D:\Stata9\auto.dta", clear 用use命令打开数据sysuse auto,clear auto 为系统数据sysuse为打开系统数据的命令1.2获取帮助Help summarize summarize为需要获取帮助对象可以改为其他的需要帮助的对象Findit summarize,net 寻找网络帮助summarize为需要获取帮助对象Search summarize ,net 寻找网络帮助summarize为需要获取帮助对象显示结果Display 5+91.3描述统计(summarize 可简写成sum)Use atuo,clearSummarize price 描述price的观察值个数、平均值、标准差、最小值、最大值Sum weight summarize可简写成sum Sum weight price 同时完成上面两步1.4绘图Scatter price weight scatter 为绘制散点图命令Line price weight ,sort line 为绘制折线图命令,sort为排序,绘制折线图前需要先排序1.5生成新的数据(generate 可简写成gen)ClearSet obs 1000 设置观测值的组数Gen x=_n _n 为观察值得序号Gen y=x+1001.6控制结果输出显示List n1.7设置屏幕滚动Set more off 先设置此项则显示时,屏幕不停止Set more on 先设置此项则显示时,会使显示停止1.8清除内存中原有内容clear1.9设置文件存取路径(cd)Cd d:\stata d:\stata为路径1.10如果想知道当前路径下有哪些文件,可以用dir 命令来列示.dir1.11假设你想在D 盘的根目录下创建一个新的文件夹mydata 来存放数据文件,命令为mkdir。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1. 如何输出STATA的图,和保存?
先输入数据
(1)Twoway connected 变量1 变量2 //划出折线图
(2)twoway scatter 变量1 变量2 //划出散点图
2. 怎样在stata8中做HAUSMAN检验?
四步曲,重点在于解释结果
(1)xtreg y x , fe
(2)est store fe
(3)xtreg y x, re
(4)hausman fe
如果拒绝,说明corr(x,ui)=0的假设是有问题的,需要重新设定RE model 后再进行检验,如果模型的设定没有问题,但检验还是拒绝原假设(p值接近0),那么就只能采用FE model 了,因为此时的RE 估计量是有偏的。
(definitely right. 当你使用stata的时候,最重要的命令不是这些是help and find it然后就能找到你的答案了)
hausman检验是用来检验用fe还是re的,其原假设是re优于fe,从你的结果来看(Prob>chi2 =0.0000),应该拒绝原假设,所以应该用fe
3.stata里平方的命令怎么写?
gen age=age^2
4. stata里边怎么取对数啊?
gen lnx=log(x)
5.如何用STATA求自然对数?如说:ln(X^2)=-4.8536,如何求X啊?
. dis sqrt(exp(-4.8536))或者dis exp(-4.8536/2)
6.关于hausman检验,结果是CHI2(2)=2355.81,prob>chi2=0.000,可以使用随机效应模型嘛?
prob>chi2=0.000,is like p-value.
we should reject the null, so fixed effect is preferred.Randome effect is not suggested. CHI2(2)=2355.81,就意味着拒绝原假设,从而选取固定效应模型。
7.我在做gdp一阶差分单位根检验的时候,输入的命令是ipshin dgdp,lags(1)得
到的结果:Im-Pesaran-Shin test for cross-sectionally demeaned dgdpDeterministics chosen: constantt-bar test, N,T = (27,7) Obs = 135 Augmented by 1 lags (average) t-bar cv10 cv5 cv1 W[t-bar] P-value -1.640 -1.700 -1.750 -1.850 -0.703 0.241我不会看这个结果,请问怎么看时否存在单位根阿??看哪个数值啊?
零假设含有单位根,W[t-bar] = -0.703, P-value = 0.241。
不能拒绝含有单位根的零假设。
8.求助达人,能否系统介绍stata作虚拟变量的过程与方法,谢
可以用tabulate命令,假如有31个省的变量province
tabulate province,gen(dumy)
就可以产生dumy1-dumy31变量,
reg y x1 x2 dumy2-dumy31
或者不产生,在回归的时候用xi命令
xi: reg y x1 x2 i.province
9.有会面板数据单位根检验,协整实证研究的吗?
面板单位根已经有现成的stata命令,可以使协整就麻烦一些。
search panel unit, all
10.请问stata在哪里报告d-w统计量啊?
输入dwstat 最后那个就是了,比如:dwstat Durbin-Watson d-statistic(4,12) =1.823504
11.如何用stata对资料作一阶差分
tsset t(for time series)
tsset id t (for panel data)
gen dx = D.x /*一阶差分*/
gen d2x = D2.x /*二阶差分*/
滞后算子为L,使用方法同上。
12.我做面板数据,在stata中用的数据是每半年取一次,那时间变量应该怎么输啊?
199706
199712
现在可以了,呵呵,THANKYOU 。
我原来的恶变量名是YEAR,现在换成DATE,就行了
晕,跟变量名字没有关系吧,应该是tsset的内容有关系。
年度数据是,tsset 变量名,yearly
月度数据是,tsset 变量名,monthly
季度是,tsset x, quarterly
13.在STATA中如何做聚类分析啊?
Stata提供了三种系统聚类的方法:即最短距离法(single linkage)、最长距离法(complete linkage)和类平均法(average linkage)。
Stata用于系统聚类的命令为:
cluster 聚类方法选项变量名[,选择项]
其中,聚类方法选项有:s,代表最短距离法;c,代表最长距离法;a,代表类平均法。
三种方法可任选其一。
选择项有:
name(clname) /* 指定聚类过程的名称
distance_option /* 指定刻划样品间相似性程度的指标(距离、相关系数等)
generate(stub) /* 指定系统变量的前缀
其中,stata提供了21种distance_option选项(适用于连续性资料的共7种,适用于二分类资料的共14种)。
适用于连续性资料的距离或相似系数有:
L2 /* 欧氏距离,为默认选项。
也可用Euclidean或L(2)表示
L1 /* 绝对值距离。
也可用absolute、cityblock、manhattan 或L(1)表示
Linfinity /* 最大值距离。
也可用maximum表示
L(#) /* 明氏距离
Canberra /* 兰氏距离
correlation /* Pearson相关系数
angular或angle /* 夹角余弦
适用于二分类资料的距离有:
matching /* 匹配相似系数
Yule /* Yule相似系数
Pearson /* 点相关系数
14.stata9中如何做卡方检验?
twoway tabulate
用了two way tabulate算出卡方值后如何判断是否要接受H0假设呢,临界值该怎么算,谢谢!
15.用stata对付异方差&自相关in panel data?
(1)对于异方差可以使用white test,方法如下:
regress y x1 x2
predict residus
gen residus2=residus^2
regress residus2 x1 x2 x1*x2 x1^2 x2^2
我在一个材料中发现,panel有专门的一个命令可以实现以上过程,好像是xttest3,or xttest2,但是我使用以后发现stata8.0 无法辨识这个命令,不知道为什么?敬请高手指点!
(2)对于自相关,Stata也有同样的test 验证自相关的存在。
当发现存在有异方差和自相关存在时,在stata中可以使用xtgls实现,具体方法可以使用help xtgls 了解。
16.stata中可不可以进行样本选择?
用if语句啊
reg y x if year>1995 & year<2000
17.请教十等分组的洛仑兹曲线如何计算?
glcurve.ado 命令可以完成
findit glcurve
Stata Journal 6-4 有详细的说明书。
18.STATA中主成分分析与使用主成分法的因子分析的区别
19.stata画3d图?
scat3 module for crude three-dimensional graphics。