stata常见问题及解决办法个人总结笔记

合集下载

stata学习笔记

经济数据的特点与类型。

1、横截面数据：多个经济个体的变量在同一时间点上的取值，如2012年中国各省的GDP2、时间数列数据：指的是某个经济个体的变量在不同时点上的取值，如1978-2012年山东省每年的GDP3、面板数据：多个经济个体的变量在不同时点上的取值，如1978-2012年中国各省的GDP 小样本OLS（最小二乘法）：单一方程线性回归最常见方法条件：解释变量与扰动项正交、扰动项无自相关、同方差。

拟合优度：衡量线性回归模型对样本数据的拟合程度（R2），越高说明模型拟合程度越好。

单系数T检验：对回归方程扰动项的具体概率进行假设显著性水平进行检验F检验：整个回归方程是否显著STATA操作简介：如果数据中包含1949-10-01或1949/10/01的时间变量，导入stata后可能会被视为字符串，因此对于日度数据，可以使用命令gen newvar=date(varname,YMD),将其转换为整数日期变量，其中YMD说明原始数据的格式为年月日，如果原始数据的格式为月日年则使用MDY；对于月度数据则gen newvar=monthly(varname,YM)。

.describe：数据的概貌.drop keep：删除和保留.su：统计特征Pwcorr：变量之间相关系数Star（.05）：5%显著性水平gen:产生g intc=log（tc）：取自然对数. reg：OLS回归.Vce：协方差矩阵reg。

，noc表示在进行回归时不要常数项大样本OLS：只要求解释变量与同期的扰动项正交即可Robust：稳健标准误，如果存在异方差，则应使用稳健标准误最大似然估计法：如果回归方程存在非线性，则使用最大似然估计法（MLE ）或非线性最小二乘法（NLS ）三类在大样本下渐进等价的统计检验：Wald test LR （似然比检验） LM操作步骤如下：sysuse auto （调用数据集）Hist mpg ，normal （画变量mpg 的直方图，并与正态密度比较）D e n s i t y直方图显示，变量mpg 的分布于正态分布有一定差距。

stata常见问题及解决办法个人总结笔记

1. 如何输出STATA的图，和保存先输入数据（1）Twoway connected 变量1 变量2 怎样在stata8中做HAUSMAN检验四步曲，重点在于解释结果（1）xtreg y x , fe（2）est store fe（3）xtreg y x, re（4）hausman fe如果拒绝，说明corr(x,ui)=0的假设是有问题的，需要重新设定RE model 后再进行检验，如果模型的设定没有问题，但检验还是拒绝原假设（p值接近0），那么就只能采用FE model 了，因为此时的RE 估计量是有偏的。

（definitely right. 当你使用stata的时候，最重要的命令不是这些是help and find it然后就能找到你的答案了）hausman检验是用来检验用fe还是re的，其原假设是re优于fe，从你的结果来看（ Prob>chi2 =），应该拒绝原假设，所以应该用fe3.stata里平方的命令怎么写gen age=age^24. stata里边怎么取对数啊gen lnx=log(x)5.如何用STATA求自然对数如说：ln(X^2)=，如何求X啊. dis sqrt(exp)或者dis exp2)6.关于hausman检验，结果是CHI2(2)=，prob>chi2＝，可以使用随机效应模型嘛prob>chi2＝,is like p-value.we should reject the null, so fixed effect is effect is not suggested. CHI2(2)=，就意味着拒绝原假设，从而选取固定效应模型。

7.我在做gdp一阶差分单位根检验的时候，输入的命令是ipshin dgdp,lags(1)得到的结果：Im-Pesaran-Shin test for cross-sectionally demeaned dgdpDeterministics chosen: constantt-bar test, N,T = (27,7) Obs= 135 Augmented by 1 lags (average) t-bar cv10 cv5 cv1 W[t-bar] P-value 我不会看这个结果，请问怎么看时否存在单位根阿看哪个数值啊零假设含有单位根，W[t-bar] = , P-value = 。

STATA实用学习笔记

北京科技大学STATA应用学习摘录第一章 STATA的基本操作一、设置内存容set mem 500m, perm一、显示输入内容Display 1Display “clive”二、显示数据集结构describeDescribe /d三、编辑editEdit四、重命名变量Rename var1 var2五、显示数据集内容list/browseList in 1List in 2/10六、数据导入:数据文件是文本类型（.csv）1、insheet: . insheet using “C:\Documents and Settings\Administrator\桌面\ST9007\dataset\Fees1.csv”, clear2、内存为空时才可以导入数据集，否则会出现（you must start with an empty dataset）（1）清空内存中的所有变量：.drop _all（2）导入语句后加入“clear”命令。

七、保存文件1、save “C:\Documents and Settings\Administrator\桌面\ST9007\dataset\Fees1.dta”2、save “C:\Documents and Settings\Administrator\桌面\ST9007\dataset\Fees1.dta”, replace八、打开及退出已存文件use1、.Use 文件路径及文件名, clear2、. Drop _all/.exit九、记录命令和输出结果（log）1、开始建立记录文件：log using "J:\phd\output.log", replace2、暂停记录文件：log off3、重新打开记录文件：log on4、关闭记录文件：log close十一、创建和保存程序文件：（doedit, do）1、打开程序编辑窗口：doedit2、写入命令3、保存文件，.do.4、运行命令：.do 程序文件路径及文件名十二、多个数据集合并为一个数据集（变量和结构相同）纵向合并appendinsheet using "J:\phd\Fees1.csv", clearsave "J:\phd\Fees1.dta", replaceinsheet using "J:\phd\Fees2.csv", clearappend using "J:\phd\Fees1.dta"save "J:\phd\Fees1.dta", replace十三、横向合并，在原数据集基础上加上另外的变量merge1、insheet using "J:\phd\Fees1.csv", clearsort companyid yearendsave "J:\phd\Fees1.dta", replacedescribeinsheet using "J:\phd\Fees6.csv", clearsort companyid yearendmerge companyid yearend using "J:\phd\Fees1.dta"save "J:\phd\Fees1.dta", replacedescribe2、_merge==1 obs. From master data_merge==2 obs. From using data_merge==3 obs. From both master and using data十四、帮助文件：help1、. Help describe十五、描述性统计量1、summarize incorporationyear 单个summarize incorporationyear-big6 连续多个summarize _all or simply summarize 所有2、更详细的统计量summarize incorporationyear, detail3、centilecentile auditfees, centile(0(10)100)centile auditfees, centile(0(5)100)4、tabulate不同类型变量的频数和比例tabulate companytypetabulate companytype big6, column 按列计算百分比tabulate companytype big6, row 按行计算百分比tab companytype big6 if companytype<=3, row col 同时按行列和条件计算百分比5、计算满足条件观测的个数count if big6==1count if big6==0 | big6==16、按离散变量排序，对连续变量计算描述性统计量：（1）by companytype, sort: summarize auditfees, detail（2）sort companytypeBy companytype:summarize auditees十六、转换变量1、按公司类型将公开发行股票公司赋值为1，其他为0gen listed=0replace listed=1 if companytype==2replace listed=1 if companytype==3replace listed=1 if companytype==5replace listed=. if companytype==.十七、产生新变量genGenerate newvar=表达式十八、数据类型3、新建变量的过程中定义数据类型●gen str3 gender= "male"●list gender in 1/104、变量所占字节过长●drop gender●gen str30 gender= "male"●browse●describe gender●compress gender5、日期数据类型：%d dates, which is a count of the number of days elapsed since January 1, 1960。

stata笔记常用

stata笔记常用Stata: 输出regression table到word和excel1. 安装estout。

最简单的方式是在stata的指令输入：ssc install estout, replaceEST安装的指导网址是：2.跑你的regression3.写下这行指令esttab using test.rtf，然后就会出现个漂亮的表格给你（WORD文档）。

只要再小幅修改，就可以直接用了。

这个档案会存在my document\stata下。

如果你用打开的是一个stata do file，结果会保存到do文件所在文件夹中。

如果要得到excel文件，就把后缀改为.xls或者.csv就可以了4.跑多个其实也不难，只要每跑完一个regression，你把它取个名字存起来：est store m1。

m1是你要改的，第一个model所以我叫m1，第二个的话指令就变成est store m2，依次类推。

5.运行指令：esttab m1 m2 ... using test.rtf就行了。

异方差的检验：Breusch-Pagan test in STATA：其基本命令是：estat hettest var1 var2 var3其中，var1 var2 var3 分别为你认为导致异方差性的几个自变量。

是你自己设定的一个滞后项数量。

同样，如果输出的P-Value 显著小于0.05，则拒绝原假设，即不存在异方差性。

White检验：其基本命令是在完成基本的OLS 回归之后，输入imtest， white如果输出的P-Value 显著小于0.05，则拒绝原假设，即不存在异方差性处理异方差性问题的方法：方法一：WLSWLS是GLS（一般最小二乘法）的一种，也可以说在异方差情形下的GLS就是WLS。

在WLS下，我们设定扰动项的条件方差是某个解释变量子集的函数。

之所以被称为加权最小二乘法，是因为这个估计最小化的是残差的加权平方和，而上述函数的倒数恰为其权重。

(完整版)Stata学习笔记和国贸理论总结

Stata学习笔记一、认识数据（一）向stata中导入txt、csv格式的数据1．这两种数据可以用文本文档打开，新建记事本，然后将相应文档拖入记事本即可打开数据，复制2．按下stata中的edit按钮，右键选择paste special3．*.xls/*.xlsx数据仅能用Excel打开，不可用记事本打开，打开后会出现乱码，也不要保存，否则就恢复不了。

逗号分隔的数据常为csv数据。

（二）网页数据网页上的表格只要能选中的，都能复制到excel中；网页数据的下载可以通过百度“国家数据”进行搜索、下载二、Do-file 和log文件打开stata后，第一步就要do-file，记录步骤和历史记录，方便日后查看。

Stata处理中保留的三种文件：原始数据(*.dta)，记录处理步骤(*.do)，以及处理的历史记录(*.smcl)。

三、导入StataStata不识别带有中文的变量，如果导入的数据第一行有中文就没法导入。

但是对于列来说不会出现这个问题，不分析即可（Stata不分析字符串，红色文本显示；被分析的数据，黑色显示）；第一行是英文变量名，选择“Treat first row as variable names”在导入新数据的时候，需要清空原有数据，clear命令。

导入空格分隔数据：复制——Stata中选择edit按钮或输入相应命令——右键选择paste special——并选择，确定；导入Excel中数据，复制粘贴即可；逗号分隔数据，选择paste special后点击comma，然后确定。

Stata数据格式为*.dta，导入后统一使用此格式。

四、基本操作（几个命令）（一）use auto，clear 。

在清空原有数据的同时，导入新的auto数据。

（二）browse 。

浏览数据。

（三）describe 和list。

查看数据，describe 和list 使用list命令能使我们根据自己的需要选择数据（例如其与in/if语句的结合使用）。

stata常见问题及解决办法

1. 如何输出STATA的图，和保存？先输入数据（1）Twoway connected 变量1 变量2 //划出折线图（2）twoway scatter 变量1 变量2 //划出散点图2. 怎样在stata8中做HAUSMAN检验？四步曲，重点在于解释结果（1）xtreg y x , fe（2）est store fe（3）xtreg y x, re（4）hausman fe如果拒绝，说明corr(x,ui)=0的假设是有问题的，需要重新设定RE model 后再进行检验，如果模型的设定没有问题，但检验还是拒绝原假设（p值接近0），那么就只能采用FE model 了，因为此时的RE 估计量是有偏的。

（definitely right. 当你使用stata的时候，最重要的命令不是这些是help and find it然后就能找到你的答案了）hausman检验是用来检验用fe还是re的，其原假设是re优于fe，从你的结果来看（Prob>chi2 =0.0000），应该拒绝原假设，所以应该用fe3.stata里平方的命令怎么写?gen age=age^24. stata里边怎么取对数啊？gen lnx=log(x)5.如何用STATA求自然对数？如说：ln(X^2)=-4.8536，如何求X啊？. dis sqrt(exp(-4.8536))或者dis exp(-4.8536/2)6.关于hausman检验，结果是CHI2(2)=2355.81，prob>chi2＝0.000，可以使用随机效应模型嘛？prob>chi2＝0.000,is like p-value.we should reject the null, so fixed effect is preferred.Randome effect is not suggested. CHI2(2)=2355.81，就意味着拒绝原假设，从而选取固定效应模型。

stata学习体会

stata学习体会第一篇：stata学习体会stata学习心得（网络版存盘）2009-03-25调整变量格式：format x1 %10.3f ——将x1的列宽固定为10，小数点后取三位format x1 %10.3g ——将x1的列宽固定为10，有效数字取三位format x1 %10.3e ——将x1的列宽固定为10，采用科学计数法format x1 %10.3fc ——将x1的列宽固定为10，小数点后取三位，加入千分位分隔符 format x1 %10.3gc ——将x1的列宽固定为10，有效数字取三位，加入千分位分隔符format x1 %-10.3gc ——将x1的列宽固定为10，有效数字取三位，加入千分位分隔符，加入“-”表示左对齐合并数据：use “C:Documents and Settingsxks桌面2006.dta”, clear merge using “C:Documents and Settingsxks桌面1999.dt a” ——将1999和2006的数据按照样本（observation）排列的自然顺序合并起来use “C:Documents and Settingsxks桌面2006.dta”, clear merge id using “C:Documents and Settingsxks桌面1999.dta” ,unique sort ——将1999和2006的数据按照唯一的（unique）变量id来合并，在合并时对id进行排序（sort）建议采用第一种方法。

对样本进行随机筛选： sample 50 在观测案例中随机选取50%的样本，其余删除 sample 50,count 在观测案例中随机选取50个样本，其余删除查看与编辑数据：browse x1 x2 if x3>3（按所列变量与条件打开数据查看器）edit x1 x2 if x3>3（按所列变量与条件打开数据编辑器）数据合并（merge）与扩展（append）merge表示样本量不变，但增加了一些新变量；append表示样本总量增加了，但变量数目不变。

Stata学习笔记

Stata学习笔记以下命令均采用小写字母Chapter 1 stata入门1.1打开数据use "D:\Stata9\auto.dta", clear 用use命令打开数据sysuse auto，clear auto 为系统数据sysuse为打开系统数据的命令1.2获取帮助Help summarize summarize为需要获取帮助对象可以改为其他的需要帮助的对象Findit summarize，net 寻找网络帮助summarize为需要获取帮助对象Search summarize ，net 寻找网络帮助summarize为需要获取帮助对象显示结果Display 5+91.3描述统计（summarize 可简写成sum）Use atuo，clearSummarize price 描述price的观察值个数、平均值、标准差、最小值、最大值Sum weight summarize可简写成sum Sum weight price 同时完成上面两步1.4绘图Scatter price weight scatter 为绘制散点图命令Line price weight ，sort line 为绘制折线图命令，sort为排序，绘制折线图前需要先排序1.5生成新的数据（generate 可简写成gen）ClearSet obs 1000 设置观测值的组数Gen x=_n _n 为观察值得序号Gen y=x+1001.6控制结果输出显示List n1.7设置屏幕滚动Set more off 先设置此项则显示时，屏幕不停止Set more on 先设置此项则显示时，会使显示停止1.8清除内存中原有内容clear1.9设置文件存取路径（cd）Cd d:\stata d:\stata为路径1.10如果想知道当前路径下有哪些文件，可以用dir 命令来列示.dir1.11假设你想在D 盘的根目录下创建一个新的文件夹mydata 来存放数据文件，命令为mkdir。

互助问答第223问 Stata数据处理问题

问题二：
老师好！在数据处理整合中遇到一些问题想请教：（1）从统计年鉴导出的地区数据，不同年份的表在导入Stata中时，省份不能匹配起来，例如北京市在不同的年份里可能是“北京”“北京市”“北京”，请问应该如何处理能把不同年份的省份变量处理成一致的？（2）生成新变量时需要用到变量的最大值和最小值，在Stata中要怎么调用某一变量的最大值和最小值？期待回复。

谢谢！
回答二：
（1）对于省份的调整，建议使用最简表达：“北京”“内蒙古”等，可以使用subinstr()函数将“市”“省”“自治区”和空格等字符替换掉，例如replace prov=subinstr(prov,"省","",.)命令即为将变量prov的观测值中的“省”字去掉。

（2）两种方法：一是通过egen命令生成新变量，如egen a = max(x)；二是通过scalar实现，在对变量进行描述性分析（summarize）后，相关指标储存在r()中，如果要使用变量最大值和最小值进行计算，可以通过scalar储存，之后调用即可。

例如：
sum x
scalar a = r(max)
scalar b = r(min)
学术指导：张晓峒老师
本期解答人：曹晖老师、统计小妹
统筹：易仰楠
编辑：统计小妹
技术：林毅。

stata乱码问题的解决

（“Backspace” 键）才能将其删除，否则会出现乱码。
2
（2）Unicode（万国码、统一码）带来的乱码问题 ——stata14、stata15 • Unicode 使得跨语言交流变得更为方便精准，但在引入 Unicode 之后，Stata 文件中（dta，do，ado 文件等）会出现乱码。 • 解决方法：进行编码翻译（unicode translate），即使用 Stata 14、
5
. unicode encoding set gb18030 encode：编码 . unicode translate surname_test.dtatransla6
本来应该这样
（3）显示窗口出现乱码
可显示却是这样
7
• 此种乱码情况的调整方法： • 在主界面，Edit/Preferences/General Preferences/Result color/Color Scheme，改为simple或classic。
8
4
.unicode analyze surname_test.dta
使用命令 unicode analyze 分析数据集 surname_test.dta 是否需要编码翻译。
结果显示，有一个字符串变量需要编码翻译（1 str# variable needs translation）。为此，将编码设为国标码（GB18030），再进行翻译。
stata乱码问题的解决（stata12、stata14、 stata15）
• Stata 对中文字符的支持力度不够——文件名、变量名、标签说明等尽量用英文。（1）do 文档中删除中文字符 • 在do-file 窗口中输入、粘贴中文字符没问题。但是若在dofile 窗口中修改中文字符，那么一个字符要按两次删除键

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1. 如何输出STATA的图，和保存？
先输入数据
（1）Twoway connected 变量1 变量2 //划出折线图
（2）twoway scatter 变量1 变量2 //划出散点图
2. 怎样在stata8中做HAUSMAN检验？
四步曲，重点在于解释结果
（1）xtreg y x , fe
（2）est store fe
（3）xtreg y x, re
（4）hausman fe
如果拒绝，说明corr(x,ui)=0的假设是有问题的，需要重新设定RE model 后再进行检验，如果模型的设定没有问题，但检验还是拒绝原假设（p值接近0），那么就只能采用FE model 了，因为此时的RE 估计量是有偏的。

（definitely right. 当你使用stata的时候，最重要的命令不是这些是help and find it然后就能找到你的答案了）
hausman检验是用来检验用fe还是re的，其原假设是re优于fe，从你的结果来看（Prob>chi2 =0.0000），应该拒绝原假设，所以应该用fe
3.stata里平方的命令怎么写?
gen age=age^2
4. stata里边怎么取对数啊？
gen lnx=log(x)
5.如何用STATA求自然对数？如说：ln(X^2)=-4.8536，如何求X啊？
. dis sqrt(exp(-4.8536))或者dis exp(-4.8536/2)
6.关于hausman检验，结果是CHI2(2)=2355.81，prob>chi2＝0.000，可以使用随机效应模型嘛？
prob>chi2＝0.000,is like p-value.
we should reject the null, so fixed effect is preferred.Randome effect is not suggested. CHI2(2)=2355.81，就意味着拒绝原假设，从而选取固定效应模型。

7.我在做gdp一阶差分单位根检验的时候，输入的命令是ipshin dgdp,lags(1)得
到的结果：Im-Pesaran-Shin test for cross-sectionally demeaned dgdpDeterministics chosen: constantt-bar test, N,T = (27,7) Obs = 135 Augmented by 1 lags (average) t-bar cv10 cv5 cv1 W[t-bar] P-value -1.640 -1.700 -1.750 -1.850 -0.703 0.241我不会看这个结果，请问怎么看时否存在单位根阿？？看哪个数值啊？
零假设含有单位根，W[t-bar] = -0.703, P-value = 0.241。

不能拒绝含有单位根的零假设。

8.求助达人，能否系统介绍stata作虚拟变量的过程与方法，谢
可以用tabulate命令，假如有31个省的变量province
tabulate province,gen(dumy)
就可以产生dumy1－dumy31变量，
reg y x1 x2 dumy2-dumy31
或者不产生，在回归的时候用xi命令
xi: reg y x1 x2 i.province
9.有会面板数据单位根检验，协整实证研究的吗？
面板单位根已经有现成的stata命令，可以使协整就麻烦一些。

search panel unit, all
10.请问stata在哪里报告d-w统计量啊？
输入dwstat 最后那个就是了，比如：dwstat Durbin-Watson d-statistic(4,12) =1.823504
11.如何用stata对资料作一阶差分
tsset t(for time series)
tsset id t (for panel data)
gen dx = D.x /*一阶差分*/
gen d2x = D2.x /*二阶差分*/
滞后算子为L，使用方法同上。

12.我做面板数据，在stata中用的数据是每半年取一次，那时间变量应该怎么输啊？
199706
199712
现在可以了，呵呵，THANKYOU 。

我原来的恶变量名是YEAR，现在换成DATE，就行了
晕，跟变量名字没有关系吧，应该是tsset的内容有关系。

年度数据是，tsset 变量名，yearly
月度数据是，tsset 变量名，monthly
季度是,tsset x, quarterly
13.在STATA中如何做聚类分析啊?
Stata提供了三种系统聚类的方法：即最短距离法(single linkage)、最长距离法(complete linkage)和类平均法(average linkage)。

Stata用于系统聚类的命令为：
cluster 聚类方法选项变量名[，选择项]
其中，聚类方法选项有：s，代表最短距离法；c，代表最长距离法；a，代表类平均法。

三种方法可任选其一。

选择项有：
name(clname) /* 指定聚类过程的名称
distance_option /* 指定刻划样品间相似性程度的指标（距离、相关系数等）
generate(stub) /* 指定系统变量的前缀
其中，stata提供了21种distance_option选项(适用于连续性资料的共7种，适用于二分类资料的共14种)。

适用于连续性资料的距离或相似系数有：
L2 /* 欧氏距离，为默认选项。

也可用Euclidean或L(2)表示
L1 /* 绝对值距离。

也可用absolute、cityblock、manhattan 或L(1)表示
Linfinity /* 最大值距离。

也可用maximum表示
L(#) /* 明氏距离
Canberra /* 兰氏距离
correlation /* Pearson相关系数
angular或angle /* 夹角余弦
适用于二分类资料的距离有：
matching /* 匹配相似系数
Yule /* Yule相似系数
Pearson /* 点相关系数
14.stata9中如何做卡方检验？
twoway tabulate
用了two way tabulate算出卡方值后如何判断是否要接受H0假设呢，临界值该怎么算，谢谢！
15.用stata对付异方差&自相关in panel data?
（1）对于异方差可以使用white test，方法如下：
regress y x1 x2
predict residus
gen residus2=residus^2
regress residus2 x1 x2 x1*x2 x1^2 x2^2
我在一个材料中发现，panel有专门的一个命令可以实现以上过程，好像是xttest3，or xttest2，但是我使用以后发现stata8.0 无法辨识这个命令，不知道为什么？敬请高手指点！
（2）对于自相关，Stata也有同样的test 验证自相关的存在。

当发现存在有异方差和自相关存在时，在stata中可以使用xtgls实现，具体方法可以使用help xtgls 了解。

16.stata中可不可以进行样本选择?
用if语句啊
reg y x if year>1995 & year<2000
17.请教十等分组的洛仑兹曲线如何计算？
glcurve.ado 命令可以完成
findit glcurve
Stata Journal 6-4 有详细的说明书。

18.STATA中主成分分析与使用主成分法的因子分析的区别
19.stata画3d图？
scat3 module for crude three-dimensional graphics。