Stata 自学笔记

合集下载

Stata 自学笔记

Stata 自学笔记

Stata笔记1.clear2.input3.savee5.sysuse6.d/des/desc/describe7.sum & return list & ereturn list8.reg9.clear results10.matrix11.type12.insheet13.rename14.infile15.browse16.xmlusepress18.xpose19.tsset20.outfile21.outsheet22.xmlsave23.变量Stata笔记1.clear清除内存数据。

数据都是存入内存来计算的,所以在输入大量数据之前,要先清除内存中的数据来释放空间。

删除的不光包括数据,还有变量,以及Data Editor 中的数据。

(就是删除所有数据,什么都不留)不影响已经存在硬盘上的数据。

(只删除内存中的所有数据)具体使用方法在下文中有具体例子。

手动输入数据。

可以分五次输入,也可以直接复制到Command 。

input x y x50 30 2020 30 5020 52 60end保存数据。

此项如果保存在C 盘可能因为权限不够而报错。

换到其他盘符即可。

save data_name[,replace]save 名称[,如果之前已经有这个名称,则替换(覆盖)。

]使用、导入(.dta )数据。

use data_name[,clear]use “file_path”[,clear]use url[,clear]use 名称[,清除。

]2.input3.savee导入软件安装时自带的数据时用。

sysuse auto,clear导入汽车数据。

显示数据变量信息。

(名称、类型等等)describe[,detail]sum price weight turn(以刚刚导入的汽车价格数据为例,price weight turn 为变量名称)显示一些相关信息。

(观察值个数、平均数、最大最小值等等)5.sysuse6.d/des/desc/describe7.sum & return list & ereturn listreturn listreturn 可以简写为ret返回更多信息(包括sum 没有显示的)ereturn listereturn 可以简写为eret返回更详细的信息。

stata学习笔记

stata学习笔记

经济数据的特点与类型。

1、横截面数据:多个经济个体的变量在同一时间点上的取值,如2012年中国各省的GDP2、时间数列数据:指的是某个经济个体的变量在不同时点上的取值,如1978-2012年山东省每年的GDP3、面板数据:多个经济个体的变量在不同时点上的取值,如1978-2012年中国各省的GDP 小样本OLS(最小二乘法):单一方程线性回归最常见方法条件:解释变量与扰动项正交、扰动项无自相关、同方差。

拟合优度:衡量线性回归模型对样本数据的拟合程度(R2),越高说明模型拟合程度越好。

单系数T检验:对回归方程扰动项的具体概率进行假设显著性水平进行检验F检验:整个回归方程是否显著STATA操作简介:如果数据中包含1949-10-01或1949/10/01的时间变量,导入stata后可能会被视为字符串,因此对于日度数据,可以使用命令gen newvar=date(varname,YMD),将其转换为整数日期变量,其中YMD说明原始数据的格式为年月日,如果原始数据的格式为月日年则使用MDY;对于月度数据则gen newvar=monthly(varname,YM)。

.describe:数据的概貌.drop keep:删除和保留.su:统计特征Pwcorr:变量之间相关系数Star(.05):5%显著性水平gen:产生g intc=log(tc):取自然对数. reg:OLS回归.Vce:协方差矩阵reg。

,noc表示在进行回归时不要常数项大样本OLS:只要求解释变量与同期的扰动项正交即可Robust:稳健标准误,如果存在异方差,则应使用稳健标准误最大似然估计法:如果回归方程存在非线性,则使用最大似然估计法(MLE )或非线性最小二乘法(NLS )三类在大样本下渐进等价的统计检验:Wald test LR (似然比检验) LM操作步骤如下:sysuse auto (调用数据集)Hist mpg ,normal (画变量mpg 的直方图,并与正态密度比较)D e n s i t y直方图显示,变量mpg 的分布于正态分布有一定差距。

Stata学习笔记

Stata学习笔记

以下命令均采用小写字母Chapter 1 stata入门1.1打开数据use "D:\Stata9\auto.dta", clear 用use命令打开数据sysuse auto,clear auto 为系统数据 sysuse为打开系统数据的命令1.2获取帮助Help summarize summarize为需要获取帮助对象可以改为其他的需要帮助的对象Findit summarize,net 寻找网络帮助 summarize为需要获取帮助对象Search summarize ,net 寻找网络帮助 summarize为需要获取帮助对象显示结果Display 5+91.3描述统计(summarize 可简写成sum)Use atuo,clearSummarize price 描述price的观察值个数、平均值、标准差、最小值、最大值Sum weight summarize可简写成sumSum weight price 同时完成上面两步1.4绘图Scatter price weight scatter 为绘制散点图命令Line price weight ,sort line 为绘制折线图命令,sort为排序,绘制折线图前需要先排序1.5生成新的数据(generate 可简写成gen)ClearSet obs 1000 设置观测值的组数Gen x=_n _n 为观察值得序号Gen y=x+1001.6控制结果输出显示List n1.7设置屏幕滚动Set more off 先设置此项则显示时,屏幕不停止Set more on 先设置此项则显示时,会使显示停止1.8清除内存中原有内容clear1.9设置文件存取路径(cd)Cd d:\stata d:\stata为路径1.10如果想知道当前路径下有哪些文件,可以用dir 命令来列示.dir1.11假设你想在D 盘的根目录下创建一个新的文件夹mydata 来存放数据文件,命令为mkdir。

stata学习笔记

stata学习笔记

经济数据的特点与类型。

1、横截面数据:多个经济个体的变量在同一时间点上的取值,如2012年中国各省的GDP2、时间数列数据:指的是某个经济个体的变量在不同时点上的取值,如1978-2012年山东省每年的GDP3、面板数据:多个经济个体的变量在不同时点上的取值,如1978-2012年中国各省的GDP 小样本OLS(最小二乘法):单一方程线性回归最常见方法条件:解释变量与扰动项正交、扰动项无自相关、同方差。

拟合优度:衡量线性回归模型对样本数据的拟合程度(R2),越高说明模型拟合程度越好。

单系数T检验:对回归方程扰动项的具体概率进行假设显著性水平进行检验F检验:整个回归方程是否显著STATA操作简介:如果数据中包含1949-10-01或1949/10/01的时间变量,导入stata后可能会被视为字符串,因此对于日度数据,可以使用命令gen newvar=date(varname,YMD),将其转换为整数日期变量,其中YMD说明原始数据的格式为年月日,如果原始数据的格式为月日年则使用MDY;对于月度数据则gen newvar=monthly(varname,YM)。

.describe:数据的概貌.drop keep:删除和保留.su:统计特征Pwcorr:变量之间相关系数Star(.05):5%显著性水平gen:产生g intc=log(tc):取自然对数. reg:OLS回归.Vce:协方差矩阵reg。

,noc表示在进行回归时不要常数项大样本OLS:只要求解释变量与同期的扰动项正交即可Robust:稳健标准误,如果存在异方差,则应使用稳健标准误最大似然估计法:如果回归方程存在非线性,则使用最大似然估计法(MLE )或非线性最小二乘法(NLS )三类在大样本下渐进等价的统计检验:Wald test LR (似然比检验) LM操作步骤如下:sysuse auto (调用数据集)Hist mpg ,normal (画变量mpg 的直方图,并与正态密度比较)D e n s i t y直方图显示,变量mpg 的分布于正态分布有一定差距。

stata笔记要点

stata笔记要点

1.一般检验假设系数为0,t比较大则拒绝假设,认为系数不为0.假设系数为0,P比较小则拒绝假设,认为系数不为0.假设方程不显著,F比较大则拒绝假设,认为方程显著。

2.小样本运用OLS进行估计的前提条件为:(1)线性假定。

即解释变量与被解释变量之间为线性关系。

这一前提可以通过将非线性转换为线性方程来解决。

(2)严格外生性。

即随机扰动项独立于所有解释变量:与解释变量之间所有时候都是正交关系,随机扰动项期望为0。

(工具变量法解决)(3)不存在严格的多重共线性。

一般在现实数据中不会出现,但是设置过多的虚拟变量时,可能会出现这种现象。

Stata可以自动剔除。

(4)扰动项为球型扰动项,即随即扰动项同方差,无自相关性。

3.大样本估计时,一般要求数据在30个以上就可以称为大样本了。

大样本的前提是(1)线性假定(2)渐进独立的平稳过程(3)前定解释变量,即解释变量与同期的扰动项正交。

(4)E(XiXit)为非退化矩阵。

(5)gt为鞅差分序列,且其协方差矩阵为非退化矩阵。

与小样本相比,其不需要严格的外生性和正太随机扰动项的要求。

4.命令稳健标准差回归:reg y x1x2x3,robust回归系数与OLS一样,但标准差存在差异。

如果认为存在异方差,则使用稳健标准差。

使用稳健标准差可以对大样本进行检验。

只要样本容量足够大,在模型出现异方差的情况下,使用稳健标准差时参数估计、假设检验等均可正常进行,即可以很大程度上消除异方差带来的副作用对单个系数进行检验:test lnq=1线性检验:testnl_b[lnpl]=_b[lnq]^25.如果回归模型为非线性,不方便使用OLS,则可以采取最大似然估计法(MLE),或者非线性最小二乘法(NLS)6.违背经典假设,即存在异方差的情况。

截面数据通常会出现异方差。

因此检验异方差可以:(1)看残差图,但只是直观,可能并不准确。

rvfplot(residual-versus-fitted plot)与拟合值的散点图rvpplot varname(residual-versus-predictor plot)与解释变量的散点图扰动项的方差随观测值而变动,表示可能存在异方差。

(完整版)Stata学习笔记和国贸理论总结

(完整版)Stata学习笔记和国贸理论总结

Stata学习笔记一、认识数据(一)向stata中导入txt、csv格式的数据1.这两种数据可以用文本文档打开,新建记事本,然后将相应文档拖入记事本即可打开数据,复制2.按下stata中的edit按钮,右键选择paste special3.*.xls/*.xlsx数据仅能用Excel打开,不可用记事本打开,打开后会出现乱码,也不要保存,否则就恢复不了。

逗号分隔的数据常为csv数据。

(二)网页数据网页上的表格只要能选中的,都能复制到excel中;网页数据的下载可以通过百度“国家数据”进行搜索、下载二、Do-file 和log文件打开stata后,第一步就要do-file,记录步骤和历史记录,方便日后查看。

Stata处理中保留的三种文件:原始数据(*.dta),记录处理步骤(*.do),以及处理的历史记录(*.smcl)。

三、导入StataStata不识别带有中文的变量,如果导入的数据第一行有中文就没法导入。

但是对于列来说不会出现这个问题,不分析即可(Stata不分析字符串,红色文本显示;被分析的数据,黑色显示);第一行是英文变量名,选择“Treat first row as variable names”在导入新数据的时候,需要清空原有数据,clear命令。

导入空格分隔数据:复制——Stata中选择edit按钮或输入相应命令——右键选择paste special——并选择,确定;导入Excel中数据,复制粘贴即可;逗号分隔数据,选择paste special后点击comma,然后确定。

Stata数据格式为*.dta,导入后统一使用此格式。

四、基本操作(几个命令)(一)use auto,clear 。

在清空原有数据的同时,导入新的auto数据。

(二)browse 。

浏览数据。

(三)describe 和list。

查看数据,describe 和list 使用list命令能使我们根据自己的需要选择数据(例如其与in/if语句的结合使用)。

Stata学习笔记

Stata学习笔记

Stata学习笔记以下命令均采用小写字母Chapter 1 stata入门1.1打开数据use "D:\Stata9\auto.dta", clear 用use命令打开数据sysuse auto,clear auto 为系统数据sysuse为打开系统数据的命令1.2获取帮助Help summarize summarize为需要获取帮助对象可以改为其他的需要帮助的对象Findit summarize,net 寻找网络帮助summarize为需要获取帮助对象Search summarize ,net 寻找网络帮助summarize为需要获取帮助对象显示结果Display 5+91.3描述统计(summarize 可简写成sum)Use atuo,clearSummarize price 描述price的观察值个数、平均值、标准差、最小值、最大值Sum weight summarize可简写成sum Sum weight price 同时完成上面两步1.4绘图Scatter price weight scatter 为绘制散点图命令Line price weight ,sort line 为绘制折线图命令,sort为排序,绘制折线图前需要先排序1.5生成新的数据(generate 可简写成gen)ClearSet obs 1000 设置观测值的组数Gen x=_n _n 为观察值得序号Gen y=x+1001.6控制结果输出显示List n1.7设置屏幕滚动Set more off 先设置此项则显示时,屏幕不停止Set more on 先设置此项则显示时,会使显示停止1.8清除内存中原有内容clear1.9设置文件存取路径(cd)Cd d:\stata d:\stata为路径1.10如果想知道当前路径下有哪些文件,可以用dir 命令来列示.dir1.11假设你想在D 盘的根目录下创建一个新的文件夹mydata 来存放数据文件,命令为mkdir。

Stata学习笔记之令狐文艳创作

Stata学习笔记之令狐文艳创作

以下命令均采用小写字母令狐文艳Chapter 1 stata入门1.1打开数据use "D:\Stata9\auto.dta", clear 用use命令打开数据sysuse auto,clear auto 为系统数据 sysuse为打开系统数据的命令1.2获取帮助Help summarize summarize为需要获取帮助对象可以改为其他的需要帮助的对象Findit summarize,net寻找网络帮助 summarize为需要获取帮助对象Search summarize ,net 寻找网络帮助 summarize为需要获取帮助对象显示结果Display 5+91.3描述统计(summarize 可简写成sum)Use atuo,clearSummarize price 描述price的观察值个数、平均值、标准差、最小值、最大值Sum weight summarize可简写成sumSum weight price 同时完成上面两步1.4绘图Scatter price weight scatter 为绘制散点图命令Line price weight ,sort line 为绘制折线图命令,sort为排序,绘制折线图前需要先排序1.5生成新的数据(generate 可简写成gen)ClearSet obs 1000 设置观测值的组数Gen x=_n _n 为观察值得序号Gen y=x+1001.6控制结果输出显示List n1.7设置屏幕滚动Set more off 先设置此项则显示时,屏幕不停止Set more on 先设置此项则显示时,会使显示停止1.8清除内存中原有内容clear1.9设置文件存取路径(cd)Cd d:\stata d:\stata为路径1.10如果想知道当前路径下有哪些文件,可以用dir 命令来列示.dir1.11假设你想在D 盘的根目录下创建一个新的文件夹mydata来存放数据文件,命令为mkdir。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Stata笔记1.clear2.input3.savee5.sysuse6.d/des/desc/describe7.sum & return list & ereturn list8.reg9.clear results10.matrix11.type12.insheet13.rename14.infile15.browse16.xmlusepress18.xpose19.tsset20.outfile21.outsheet22.xmlsave23.变量Stata笔记1.clear清除内存数据。

数据都是存入内存来计算的,所以在输入大量数据之前,要先清除内存中的数据来释放空间。

删除的不光包括数据,还有变量,以及Data Editor 中的数据。

(就是删除所有数据,什么都不留)不影响已经存在硬盘上的数据。

(只删除内存中的所有数据)具体使用方法在下文中有具体例子。

手动输入数据。

可以分五次输入,也可以直接复制到Command 。

input x y x50 30 2020 30 5020 52 60end保存数据。

此项如果保存在C 盘可能因为权限不够而报错。

换到其他盘符即可。

save data_name[,replace]save 名称[,如果之前已经有这个名称,则替换(覆盖)。

]使用、导入(.dta )数据。

use data_name[,clear]use “file_path”[,clear]use url[,clear]use 名称[,清除。

]2.input3.savee导入软件安装时自带的数据时用。

sysuse auto,clear导入汽车数据。

显示数据变量信息。

(名称、类型等等)describe[,detail]sum price weight turn(以刚刚导入的汽车价格数据为例,price weight turn 为变量名称)显示一些相关信息。

(观察值个数、平均数、最大最小值等等)5.sysuse6.d/des/desc/describe7.sum & return list & ereturn listreturn listreturn 可以简写为ret返回更多信息(包括sum 没有显示的)ereturn listereturn 可以简写为eret返回更详细的信息。

e:estimate,估计回归分析。

reg price weight turn foreignreg 变量名8.reg清除计算结果。

就是刚才的return/ereturn list 的结果。

但是变量并没有被清除。

再次输入return/ereturn list 会发现已经没有任何输出。

clear results创建矩阵。

matrix A = I(5)创建名称为A 的5*5的矩阵。

mat list A显示A 矩阵。

9.clear results10.matrixmat dir显示有多少矩阵。

clear matrix清除矩阵。

再次查看矩阵,一经发现没有了。

以下是tab 键为分隔符的数据。

查看文件原始内容形式(.txt )。

导入文件内容。

一定要说明后缀名。

insheet using data.txt,clear11.type12.insheet修改变量名称。

rename old_var_name new_var_name在导入的时候直接修改变量名称,同时也是批量(一定要对应)。

不用一条条的修改。

insheet a p w t using data.txt,clear以下是space 键(空格)为分隔符的数据。

直接使用insheet 导入无法识别所有变量,将其视为一个变量。

13.rename14.infile如果非要用insheet导入,在最后加上delimiter选项。

就可以正常导入了。

insheet using datas.txt,clear delimiter(” “)使用infile可以直接导入以空格为分隔符的数据。

而不用指定delimiter。

同时可以指定变量名。

infile p w t using datas.txt,clear包含字符串的情况下:直接导入会出现错误。

指定变量名的情况下,也会出现数据遗漏,文字都变成“·”。

infile str20 v1 int v2 int v3 int v4 str10 v5 using strdata.txt,clear str:字符串类型(文字)int:数值类型(数字)指定变量类型后,可以顺利导入。

以逗号为分隔符的数据和上面一样。

原始数据:导入:infile str20 v1 int v2 int v3 int v4 str10 v5 using ddata.txt,clear查看数据表内容。

browse导入excel 文件数据。

旧版方式xmluse data.xlsx doctype(excel) clear firstrow -本条命令是错误的提示无法识别这种文件类型。

xmluse data.xml doctype(excel) clear firstrow需要将excel 另存为xml 格式。

然后再导入,就可以了。

doctype :指定文件类型,firstrow :第一行作为变量。

新版方式(Stata MP15.0)import excel using data.xlsx,clear直接导入excel ,不用更改格式。

15.browse16.xmluse精简优化资料的存储结构。

(自动检测变量大小)(自适应)compress可以看到优化结果。

同时browse 可以发现name 变量的宽度变小。

对调数据(转置)。

原始数据是横向的。

insheet using xpose.txt,clear导入数据。

数据是横向的。

press18.xposexpose,clear要附加clear 选项。

设定变量。

tsset data设定时间变量。

如图,使用系统数据,然后设定date 为时间变量。

结果显示:导出数据。

空格为分隔符。

outfile using data_auto, wide replacewide :解除每行80字符的限制,使每个观察值占一行。

19.tsset20.outfile导出部分变量。

outfile make-price foreign using data_auto, wide replace导出数据。

Tab 键为分隔符。

outsheet make-mpg using data_outsheet,replace导出数据。

XML 格式。

21.outsheet22.xmlsavexmlsave data_xmlsave,doctype(excel) replace1. 命名规则:(1)英文字母,数字,下划线组成,长度不超过32。

(2)不能以数字开头。

(3)区分大小写。

(4)尽量不要以_开头(虽然允许)。

2. 查看变量ds [,has(type int)]显示所有变量中类型为int 的。

ds [,not(type byte)]显示所有变量中类型不是byte 的。

ds [,detail]作用同des 。

23.变量3. 查看/更改类型list gear_ratio in 1/5显示gear_ratio变量前五个。

d gear_ratio显示gear_ratio变量信息。

下图中,%6.2f:%是定义格式前缀,6是整个变量最长占到6位,2是保留两位小数,f是fix简写,固定的格式。

recast int gear_ratio,force更改gear_ratio变量类型为int。

force强制更改。

小数信息会丢失。

仍然显示小数是因为显示格式没有改变。

3. listlist price[,sep(int)]显示price变量和值。

sep:separate 每隔多少行划一道分割线。

默认为5。

0就是没有分割线。

list price in 1/30,sep(0)显示price前30个值。

sep(0)没有分割线。

sort rep78以rep78进行排序。

list make price rep78 in 1/20,sepby(rep78)显示make price rep78前20个,并以rep78的数据划分割线。

list price weight length ,noobsnoobs,不显示结果前面的序号。

方便复制。

list price weight length ,noobs cleanclean,去除边框。

仅显示数据。

相关文档
最新文档