Stata学习笔记
复旦大学stata精华学习笔记

复旦大学stata精华学习笔记Stata: 输出regression table到word和excel1. 安装estout。
最简单的方式是在stata的指令输入: ssc install estout, replaceEST安装的指导网址是:/bocode/e/estout/installation.html 2.跑你的regression 3.写下这行指令esttab using test.rtf,然后就会出现个漂亮的表格给你(WORD文档)。
只要再小幅修改,就可以直接用了。
这个档案会存在my document\\stata下。
如果你用打开的是一个stata do file,结果会保存到do文件所在文件夹中。
如果要得到excel文件,就把后缀改为.xls或者.csv就可以了4.跑多个其实也不难,只要每跑完一个regression,你把它取个名字存起来:est store m1。
m1是你要改的,第一个model所以我叫m1,第二个的话指令就变成est store m2,依次类推。
5.运行指令:esttab m1 m2 ... using test.rtf就行了。
异方差的检验:Breusch-Pagan test in STATA:其基本命令是:estat hettest var1 var2 var3其中,var1 var2 var3 分别为你认为导致异方差性的几个自变量。
是你自己设定的一个滞后项数量。
同样,如果输出的P-Value 显著小于0.05,则拒绝原假设,即不存在异方差性。
White检验:其基本命令是在完成基本的OLS 回归之后,输入imtest, white如果输出的P-Value 显著小于0.05,则拒绝原假设,即不存在异方差性处理异方差性问题的方法:方法一:WLSWLS是GLS(一般最小二乘法)的一种,也可以说在异方差情形下的GLS就是WLS。
在WLS下,我们设定扰动项的条件方差是某个解释变量子集的函数。
stata学习笔记

经济数据的特点与类型。
1、横截面数据:多个经济个体的变量在同一时间点上的取值,如2012年中国各省的GDP2、时间数列数据:指的是某个经济个体的变量在不同时点上的取值,如1978-2012年山东省每年的GDP3、面板数据:多个经济个体的变量在不同时点上的取值,如1978-2012年中国各省的GDP 小样本OLS(最小二乘法):单一方程线性回归最常见方法条件:解释变量与扰动项正交、扰动项无自相关、同方差。
拟合优度:衡量线性回归模型对样本数据的拟合程度(R2),越高说明模型拟合程度越好。
单系数T检验:对回归方程扰动项的具体概率进行假设显著性水平进行检验F检验:整个回归方程是否显著STATA操作简介:如果数据中包含1949-10-01或1949/10/01的时间变量,导入stata后可能会被视为字符串,因此对于日度数据,可以使用命令gen newvar=date(varname,YMD),将其转换为整数日期变量,其中YMD说明原始数据的格式为年月日,如果原始数据的格式为月日年则使用MDY;对于月度数据则gen newvar=monthly(varname,YM)。
.describe:数据的概貌.drop keep:删除和保留.su:统计特征Pwcorr:变量之间相关系数Star(.05):5%显著性水平gen:产生g intc=log(tc):取自然对数. reg:OLS回归.Vce:协方差矩阵reg。
,noc表示在进行回归时不要常数项大样本OLS:只要求解释变量与同期的扰动项正交即可Robust:稳健标准误,如果存在异方差,则应使用稳健标准误最大似然估计法:如果回归方程存在非线性,则使用最大似然估计法(MLE )或非线性最小二乘法(NLS )三类在大样本下渐进等价的统计检验:Wald test LR (似然比检验) LM操作步骤如下:sysuse auto (调用数据集)Hist mpg ,normal (画变量mpg 的直方图,并与正态密度比较)D e n s i t y直方图显示,变量mpg 的分布于正态分布有一定差距。
stata笔记

stata笔记1.⼀般检验假设系数为0,t⽐较⼤则拒绝假设,认为系数不为0.假设系数为0,P⽐较⼩则拒绝假设,认为系数不为0.假设⽅程不显著,F⽐较⼤则拒绝假设,认为⽅程显著。
2.⼩样本运⽤OLS进⾏估计的前提条件为:(1)线性假定。
即解释变量与被解释变量之间为线性关系。
这⼀前提可以通过将⾮线性转换为线性⽅程来解决。
(2)严格外⽣性。
即随机扰动项独⽴于所有解释变量:与解释变量之间所有时候都是正交关系,随机扰动项期望为0。
(⼯具变量法解决)(3)不存在严格的多重共线性。
⼀般在现实数据中不会出现,但是设置过多的虚拟变量时,可能会出现这种现象。
Stata可以⾃动剔除。
(4)扰动项为球型扰动项,即随即扰动项同⽅差,⽆⾃相关性。
3.⼤样本估计时,⼀般要求数据在30个以上就可以称为⼤样本了。
⼤样本的前提是(1)线性假定(2)渐进独⽴的平稳过程(3)前定解释变量,即解释变量与同期的扰动项正交。
(4)E(XiXit)为⾮退化矩阵。
(5)gt为鞅差分序列,且其协⽅差矩阵为⾮退化矩阵。
与⼩样本相⽐,其不需要严格的外⽣性和正太随机扰动项的要求。
4.命令稳健标准差回归:reg y x1 x2 x3, robust 回归系数与OLS⼀样,但标准差存在差异。
如果认为存在异⽅差,则使⽤稳健标准差。
使⽤稳健标准差可以对⼤样本进⾏检验。
只要样本容量⾜够⼤,在模型出现异⽅差的情况下,使⽤稳健标准差时参数估计、假设检验等均可正常进⾏,即可以很⼤程度上消除异⽅差带来的副作⽤对单个系数进⾏检验:test lnq=1线性检验:testnl _b[lnpl]=_b[lnq]^25.如果回归模型为⾮线性,不⽅便使⽤OLS,则可以采取最⼤似然估计法(MLE),或者⾮线性最⼩⼆乘法(NLS)6.违背经典假设,即存在异⽅差的情况。
截⾯数据通常会出现异⽅差。
因此检验异⽅差可以:(1)看残差图,但只是直观,可能并不准确。
rvfplot (residual-versus-fitted plot) 与拟合值的散点图rvpplot varname (residual-versus-predictor plot) 与解释变量的散点图扰动项的⽅差随观测值⽽变动,表⽰可能存在异⽅差。
(完整版)Stata学习笔记和国贸理论总结

(完整版)Stata学习笔记和国贸理论总结Stata学习笔记⼀、认识数据(⼀)向stata中导⼊txt、csv格式的数据1.这两种数据可以⽤⽂本⽂档打开,新建记事本,然后将相应⽂档拖⼊记事本即可打开数据,复制2.按下stata中的edit按钮,右键选择paste special3.*.xls/*.xlsx数据仅能⽤Excel打开,不可⽤记事本打开,打开后会出现乱码,也不要保存,否则就恢复不了。
逗号分隔的数据常为csv数据。
(⼆)⽹页数据⽹页上的表格只要能选中的,都能复制到excel中;⽹页数据的下载可以通过百度“国家数据”进⾏搜索、下载⼆、Do-file 和log⽂件打开stata后,第⼀步就要do-file,记录步骤和历史记录,⽅便⽇后查看。
Stata处理中保留的三种⽂件:原始数据(*.dta),记录处理步骤(*.do),以及处理的历史记录(*.smcl)。
三、导⼊StataStata不识别带有中⽂的变量,如果导⼊的数据第⼀⾏有中⽂就没法导⼊。
但是对于列来说不会出现这个问题,不分析即可(Stata不分析字符串,红⾊⽂本显⽰;被分析的数据,⿊⾊显⽰);第⼀⾏是英⽂变量名,选择“Treat first row as variable names”在导⼊新数据的时候,需要清空原有数据,clear命令。
导⼊空格分隔数据:复制——Stata中选择edit按钮或输⼊相应命令——右键选择paste special——并选择,确定;导⼊Excel 中数据,复制粘贴即可;逗号分隔数据,选择paste special后点击comma,然后确定。
Stata数据格式为*.dta,导⼊后统⼀使⽤此格式。
四、基本操作(⼏个命令)(⼀)use auto,clear 。
在清空原有数据的同时,导⼊新的auto数据。
(⼆)browse 。
浏览数据。
(三)describe 和list。
查看数据,describe 和list 使⽤list命令能使我们根据⾃⼰的需要选择数据(例如其与in/if语句的结合使⽤)。
(完整版)Stata学习笔记和国贸理论总结

Stata学习笔记一、认识数据(一)向stata中导入txt、csv格式的数据1.这两种数据可以用文本文档打开,新建记事本,然后将相应文档拖入记事本即可打开数据,复制2.按下stata中的edit按钮,右键选择paste special3.*.xls/*.xlsx数据仅能用Excel打开,不可用记事本打开,打开后会出现乱码,也不要保存,否则就恢复不了。
逗号分隔的数据常为csv数据。
(二)网页数据网页上的表格只要能选中的,都能复制到excel中;网页数据的下载可以通过百度“国家数据”进行搜索、下载二、Do-file 和log文件打开stata后,第一步就要do-file,记录步骤和历史记录,方便日后查看。
Stata处理中保留的三种文件:原始数据(*.dta),记录处理步骤(*.do),以及处理的历史记录(*.smcl)。
三、导入StataStata不识别带有中文的变量,如果导入的数据第一行有中文就没法导入。
但是对于列来说不会出现这个问题,不分析即可(Stata不分析字符串,红色文本显示;被分析的数据,黑色显示);第一行是英文变量名,选择“Treat first row as variable names”在导入新数据的时候,需要清空原有数据,clear命令。
导入空格分隔数据:复制——Stata中选择edit按钮或输入相应命令——右键选择paste special——并选择,确定;导入Excel中数据,复制粘贴即可;逗号分隔数据,选择paste special后点击comma,然后确定。
Stata数据格式为*.dta,导入后统一使用此格式。
四、基本操作(几个命令)(一)use auto,clear 。
在清空原有数据的同时,导入新的auto数据。
(二)browse 。
浏览数据。
(三)describe 和list。
查看数据,describe 和list 使用list命令能使我们根据自己的需要选择数据(例如其与in/if语句的结合使用)。
Stata学习笔记和国贸理论总结

Stata学习笔记一、认识数据(一)向stata中导入txt、csv格式得数据1.这两种数据可以用文本文档打开,新建记事本,然后将相应文档拖入记事本即可打开数据,复制2.按下stata中得edit按钮,右键选择paste special3.*、xls/*、xlsx数据仅能用Excel打开,不可用记事本打开,打开后会出现乱码,也不要保存,否则就恢复不了。
逗号分隔得数据常为csv数据。
闡贄鲜饩狈酾阑。
(二)网页数据网页上得表格只要能选中得,都能复制到excel中;网页数据得下载可以通过百度“国家数据”进行搜索、下载恒險谅枫諷为誣。
二、Do-file 与log文件打开stata后,第一步就要do-file,记录步骤与历史记录,方便日后查瞧。
Stata处理中保留得三种文件:原始数据(*、dta),记录处理步骤(*、do),以及处理得历史记录(*、smcl)。
鍥糶斷轻浆辆钓。
三、导入StataStata不识别带有中文得变量,如果导入得数据第一行有中文就没法导入。
但就是对于列来说不会出现这个问题,不分析即可(Stata不分析字符串,红色文本显示;被分析得数据,黑色显示);第一行就是英文变量名,选择“Treat first row as variable names”馀紋锭箩谅绾纭。
在导入新数据得时候,需要清空原有数据,clear命令。
导入空格分隔数据:复制——Stata中选择edit按钮或输入相应命令——右键选择paste special——并选择,确定;导入Excel中数据,复制粘贴即可艰鍤悵铧恥郑顎。
;逗号分隔数据,选择paste special后点击comma,然后确定。
Stata数据格式为*、dta,导入后统一使用此格式。
四、基本操作(几个命令)(一)use auto,clear 。
在清空原有数据得同时,导入新得auto数据。
(二)browse 。
浏览数据。
(三)describe 与list。
查瞧数据,describe 与list 使用list命令能使我们根据自己得需要选择数据(例如其与in/if语句得结合使用)。
stata学习笔记培训资料

第2 章给水排水工程结构主页章2 第目录混凝土结构设计方法上一章)Design Method of Concrete Structure(下一章助帮第2 章给水排水工程结构本章重点主页?了解结构上的作用、作用效应和结构抗力目录的概念及其随机特性;——了解混凝土结构设计方法的理论基础?上一章可靠度理论;下一章概率极限状?掌握我国规范的设计方法——态设计法。
助帮第2 章给水排水工程结构基本概念2.1§2.1.1 结构上的作用(action)页主1.定义:凡能使结构产生内力、应力、位移、应变、目录2.裂缝的因素,都称为结构上的作用。
上一章分类:2.?直接作用:荷载(集中荷载与分布荷载);下一章?间接作用:温度、收缩、徐变、地基不均匀沉降、助地震等。
.第2 章给水排水工程结构2.1.2 作用效应(action effect)[S]主页定义:作用在结构上产生的反应,如内力、应力、位移、应变、裂缝等,称为作用效应。
目录上一章2.1.3 结构抗力(structural resistance)[R]下一章结构抵抗作用效应的能力,称为结构抗力。
定义:助帮第2 章给水排水工程结构§2.2荷载load2.2.1 荷载分类页主永久荷载(恒载):大小、方向、作用点不随时间改变的荷载为永久荷载,如自重、土压dead load)(目录力、预应力等;可变荷载(活载):大小、方向或作用点随时间改变而上一章(live load)变化的荷载为可变荷载,如楼面和屋面活载、风荷载、雪荷载、下一章吊车荷载、车辆荷载等;偶然荷载:结构使用期间可能不出现,一旦出现,其作助用时间短、效应大的荷载为偶然荷载,如炸力,撞击等。
.第2 章给水排水工程结构2.2.2 荷载代表值(representative values of load)1. 标准值——由设计基准期内最大荷载概率分布的某主页一分位值确定的荷载值,是永久荷载的()characteristic value唯一代表值。
stata学习笔记(四):主成份分析与因子分析

stata学习笔记(四):主成份分析与因⼦分析1.判断是否适合做主成份分析,变量标准化Kaiser-Meyer-Olkin抽样充分性测度也是⽤于测量变量之间相关关系的强弱的重要指标,是通过⽐较两个变量的相关系数与偏相关系数得到的。
KMO介于0于1之间。
KMO越⾼,表明变量的共性越强。
如果偏相关系数相对于相关系数⽐较⾼,则KMO⽐较低,主成分分析不能起到很好的数据约化效果。
根据Kaiser(1974),⼀般的判断标准如下:0.00-0.49,不能接受(unacceptable);0.50-0.59,⾮常差(miserable);0.60-0.69,勉强接受(mediocre);0.70-0.79,可以接受(middling);0.80-0.89,⽐较好(meritorious);0.90-1.00,⾮常好(marvelous)。
SMC即⼀个变量与其他所有变量的复相关系数的平⽅,也就是复回归⽅程的可决系数。
SMC⽐较⾼表明变量的线性关系越强,共性越强,主成分分析就越合适。
. estat smc. estat kmo. estat anti//暂时不知道这个有什么⽤得到结果,说明变量之间有较强的相关性,适合做主成份分析。
Squared multiple correlations of variables with all other variables-----------------------Variable | smc-------------+---------x1 | 0.8923x2 | 0.9862y1 | 0.9657y2 | 0.9897y3 | 0.9910y4 | 0.9898y5 | 0.9769y6 | 0.9859y7 | 0.9735-----------------------变量标准化. egen z1=std(x1)2.对变量进⾏主成份分析. pca x1 x2 y1 y2 y3 y4 y5 y6 y7. pca x1 x2 y1 y2 y3 y4 y5 y6 y7, comp(1)得到下⾯两个表格,第⼀个表格中的各项分别为特征根、difference这个不知道是啥、⽅差贡献率、累积⽅差贡献率。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
以下命令均采用小写字母Chapter 1 stata入门1.1打开数据use "D:\Stata9\auto.dta", clear 用use命令打开数据sysuse auto,clear auto 为系统数据sysuse为打开系统数据的命令1.2获取帮助Help summarize summarize为需要获取帮助对象可以改为其他的需要帮助的对象Findit summarize,net 寻找网络帮助summarize为需要获取帮助对象Search summarize ,net 寻找网络帮助summarize为需要获取帮助对象显示结果Display 5+91.3描述统计(summarize 可简写成sum)Use atuo,clearSummarize price 描述price的观察值个数、平均值、标准差、最小值、最大值Sum weight summarize可简写成sumSum weight price 同时完成上面两步1.4绘图Scatter price weight scatter 为绘制散点图命令Line price weight ,sort line 为绘制折线图命令,sort为排序,绘制折线图前需要先排序1.5生成新的数据(generate 可简写成gen)ClearSet obs 1000 设置观测值的组数Gen x=_n _n 为观察值得序号Gen y=x+1001.6控制结果输出显示List n1.7设置屏幕滚动Set more off 先设置此项则显示时,屏幕不停止Set more on 先设置此项则显示时,会使显示停止1.8清除存中原有容clear1.9设置文件存取路径(cd)Cd d:\stata d:\stata为路径1.10如果想知道当前路径下有哪些文件,可以用dir 命令来列示.dir1.11假设你想在D 盘的根目录下创建一个新的文件夹mydata 来存放数据文件,命令为mkdir。
mkdir d:\mydata1.12错误提示List myvar上述命令试图显示变量myvar,但是结果窗口仅出现如下的显示variable myvar not foundr(111);红色信息表明,没有找到一个叫myvar 的变量,的确,我们的数据中并没有这个变量。
List 巧妇难为无米之炊。
红色信息下面还有一个天兰色的r(111),用鼠标点击,即可弹进一个帮助信息框,给出错误的更详尽解释。
再比如,我们在求五数概略时,误把sum 写成了sun. sununrecognized command: sunr(199);显示说不认识sun 这个命令。
附录:常见命令Chapter2命令语句2.1 掌握命令语句的格式[by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options]注:[ ]表示可有可无的项,显然只有command 是必不可少的,下面结合例子分项来讲解命令的各个组成部分。
2.2 命令command[by varlist:] command[varlist] [=exp] [if exp] [in range] [weight] [, options]. cd d:/stata9. use auto, clear //打开美国汽车数据文件auto.dta,后面的clear 表示先清除存中可能存在的数据集. summarize /*很多命令可单独使用,单独使用时,一般是对所有变量进行操作,等价于后面加上代表所有变量的_all。
*/. summarize _all /注意到该命令输出结果与上一个命令完全一样. sum //与前一命令等价,sum 为summarize 的略写. su su 是summarize 的最简化略写,不能再简化为s. s //简写前提是不引起混淆。
执行这个命令将出现错误信息unrecognized command: s2.3 变量varlist[by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options] varlist 表示一个变量,或者多个变量,多个变量之间用空格隔开。
. cd d:/stata9. use auto, clear. sum price //求价格的观察值个数,平均值,方差,最小值和最大值. su p //变量和命令均可略写,注意到两个结果完全一样. su t //分数据中有两个变量的开首字母为t(trunk 和turn),所以STATA 认为t 为模糊的省略。
m ambiguous abbreviation /红色为错误信息. sum tr tu //求trunk 和turn 变量的五数概略统计变量名称除以下字符不能用作变量名外,任何字母、字母与数字(单独的数字也不允许)组合均可用做变量名:_all _b byte _coef _cons double float if in int long _n _N _pi _pred _rc _se _skip using with基本要求如下:_ 第一个字元可以是英文字母或, 但不能是数字;_ 最多只能包括32 个英文字母、数字或下划线;_ 由于STATA 保留了很多以“_ “开头的部变量,所以最好不要用为第一个字元来定义变量。
2.4 分类操作by varlist[by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options]如果需要分别知道国产车和进口车的价格和重量,可以采用分类操作来求得,. cd d:/stata9. use auto, clear. by foreign: sum price weight //分别计算国产车和进口车的价格和重量但如果执行下面两个命令,将出现错误*/. sort price //按价格从低到高重新排序. by foreign: sum price weight*not sorted/* 系统提示没有排序,这是因为by varlist 在执行时要求存中的数据是按照by 后面的变量排序的。
当我们用sort price 重新排序后,就打乱了原来按照foreign 的排序,所以出现了错误提示。
更正的办法是:*/. sort foreign //按国产车和进口车排序. by foreign: sum price weight*更简略的方式是把两个命令用一个组合命令来写。
. by foreign, sort: sum price weight如果不想从小到大排序,而是从大到小排序,其命令为gsort。
.gsort - price /按价格从高到低排序. gsort foreign –price /*先把国产车都排在前,进口车排在后面,然后在国产车再按价格从大小到排序,在进口车部,也按从大到小排序*/2.5 赋值及运算=exp[by varlist:] command [varlist] [=exp][if exp] [in range] [weight] [, options]例:生成一个新的价格变量nprice,该变量的取值为原汽车价格变量price 的基础上涨10 元. cd d:/stata9. use auto, clear. gen nprice=price+10 //生成新变量nprice,其值为price+10. list price nprice //比较一下两个变量的取值/*上面的命令generate(略写为gen) 生成一个新的变量,新变量的变量名为nprice,新的价格在原价格的基础上均增加了10 元。
. replace nprice=nprice-10 /*命令replace 则直接改变原变量的赋值,nprice 调减后与price 变量取值相等*/. list price nprice //再比较一下两个变量,相等。
2.6 条件表达式if exp[by varlist:] command [varlist] [=exp] [if exp][in range] [weight] [, options]例:若只想查看国产车的品牌和价格,则加入筛选条件if foreign==0 */. cd d:/stata9. use auto, clear. list make price if foreign==0*只查看价格超过1 万元的进口车(同时满足两个条件),则. list make price if foreign==1 & price>10000*查看价格超过1 万元或者进口车(两个条件任满足一个). list make price if foreign==1 | price>10000*分类型查看价格超过1 万元的汽车的品牌和价格. by foreign, sort: list make price if price>100002.7 围筛选in range[by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options]如果要计算较低的前10 台车的平均价格,则要先按价格排序,然后仅对前10个车的价格求平均值. cd d:/stata9. use auto, clear. sort price. sum price in 1/5注意“1/5”中,斜杠不是除号,而是从1 到5 的意思,即1,2,3,4,5。
如果要计算前10 台车中的国产车的平均价格,则可将围和条件筛选联合使用。
. sum price in 1/10 if foreign==02.8 加权weight[by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options]任务:下表是2005 年省高考640 分及以上成绩一分一段的人数统计,第一列score 为高考分数,第二列num 为该分数段的人数。
现在我们要求640 分及以上考生的平均分数。
score num650 193649 26648 23647 16646 21645 26644 32643 23642 38641 29640 38操作:先将上面的表格复制,然后进入STATA,执行如下命令. clear //清空STATA. edit然后把光标定位在表格的第一行第一列,点右键,选择粘贴(paste),上表数据便被复制到STATA 中,退出数据编辑器sum score //思考:得到的结果是640 分及以上考生的平均分吗?简单地使用sum 命令得到的平均成绩显然是不正确的,因为各个分数下的人数是不一样的,正确的计算需要加权,加权的办法是. sum score [weight=num] / *加权计算,比较该结果与sum score 的区别,实际上,不用权重选项时,相当于权重相等。