stata建模中的各种小问题(我的笔记)学习资料

stata建模中的各种小问题(我的笔记)学习资料
stata建模中的各种小问题(我的笔记)学习资料

s t a t a建模中的各种小问题(我的笔记)

保存估计结果的命令:est store 名称

使用保存结果的命令:,estimates(名称)

如果你把那个显示你用过的命令的窗口:

窗口操作:Windows——Review

如果你把那个显示变量的窗口:

窗口操作:Windows——Variables

时间序列填充和扩展时间区间:

命令:tsappend ,add(n) 增加n个观测值

窗口操作:在上面找data edit 即像一个表格一样的图标点开即可编辑数据时间序列存在间断点问题,需要补齐处理:

命令:tsfill

信息准则

赤池信息准则(AIC)——判断判断模型的最大滞后阶数

STATA命令:

1.先回归

2.estat ic

如何看AIC统计量:

Breusch-Pagan,Cook-Weisberg异方差检验

STATA命令:

1.先回归

2.estat hettest [varlist] 或者在Statistics——Postestimation(倒数第二个)——Reports and Statistics(倒数第二个)——在里面选择(hettest)

如何看统计量:

White异方差检验:

STATA命令:

3.先回归

4.estat imtest,white [varlist] 或者在Statistics——Postestimation(倒数第二个)——Reports and Statistics(倒数第二个)——在里面选择(imtest)

如何看统计量:

Ramsey回归设定误差检验:

STATA命令:

1.先回归

2.estat ovtest 或者在Statistics——Postestimation(倒数第二个)——Reports and Statistics(倒数第二个)——在里面选择(ovtest)

如何看统计量:

多重共线性方差膨胀因子检验:

1.先回归

2.estat vif[,uncentered] 或者在Statistics——Postestimation(倒数第二个)——Reports and Statistics(倒数第二个)——在里面选择(vif)

如何看统计量:

一般的当最大的方差膨胀因子超过10(相对保守的临界值定位30)后者平均方差膨胀因子超过1表示模型存在多重共线性的问题。Uncentered用于当模型没有常数项时的未中心化的方差膨胀因子。

多重共线性的其他侦查方法:

值高而显著的t比率小:多重共线性的“经典”征兆

克里安经验法则:仅当来自一个辅助回归的大于得自Y对全部回归元中的总时,多重共线性才算是一个麻烦的问题。

做拟合图(前提是先回归)

STATA命令:

1.解释变量对成分残差图——用于考察模型形式是否设定准确。

cprplot 被解释变量

acprplot 被解释变量

2.增加变量图——用于考察数据是否存在异常值

avplotd 被解释变量

3.拟合值对残差图的散点图——用于考察残差是否满足经典的假设条件

rvfplot

4.解释变量对残差的散点图rvpplot 被解释变量

STATA对于数据的储存与重现

est命令的用法:

(1)储存回归结果:

2

R2R

2 R

STATA最常用命令大全

stata save命令 FileSave As 例1. 表1.为某一降压药临床试验数据,试从键盘输入Stata,并保存为Stata格式文件。 STATA数据库的维护 排序 SORT 变量名1 变量名2 …… 变量更名 rename 原变量名新变量名 STATA数据库的维护 删除变量或记录 drop x1 x2 /* 删除变量x1和x2 drop x1-x5 /* 删除数据库中介于x1和x5间的所有变量(包括x1和x5) drop if x<0 /* 删去x1<0的所有记录 drop in 10/12 /* 删去第10~12个记录 drop if x==. /* 删去x为缺失值的所有记录 drop if x==.|y==. /* 删去x或y之一为缺失值的所有记录 drop if x==.&y==. /* 删去x和y同时为缺失值的所有记录 drop _all /* 删掉数据库中所有变量和数据 STATA的变量赋值 用generate产生新变量 generate 新变量=表达式 generate bh=_n /* 将数据库的内部编号赋给变量bh。 generate group=int((_n-1)/5)+1 /* 按当前数据库的顺序,依次产生5个1,5个2,5个3……。直到数据库结束。 generate block=mod(_n,6) /* 按当前数据库的顺序,依次产生1,2,3,4,5,0。generate y=log(x) if x>0 /* 产生新变量y,其值为所有x>0的对数值log(x),当x<=0时,用缺失值代替。 egen产生新变量 set obs 12 egen a=seq() /*产生1到N的自然数 egen b=seq(),b(3) /*产生一个序列,每个元素重复#次 egen c=seq(),to(4) /*产生多个序列,每个序列从1到# egen d=seq(),f(4)t(6) /*产生多个序列,每个序列从#1到#2 encode 字符变量名,gen(新数值变量名) 作用:将字符型变量转化为数值变量。 STATA数据库的维护 保留变量或记录 keep in 10/20 /* 保留第10~20个记录,其余记录删除 keep x1-x5 /* 保留数据库中介于x1和x5间的所有变量(包括x1和x5),其余变量删除keep if x>0 /* 保留x>0的所有记录,其余记录删除

stata常见问题及解决办法个人总结笔记

1. 如何输出STATA的图,和保存? 先输入数据 (1)Twoway connected 变量1 变量2 //划出折线图 (2)twoway scatter 变量1 变量2 //划出散点图 2. 怎样在stata8中做HAUSMAN检验? 四步曲,重点在于解释结果 (1)xtreg y x , fe (2)est store fe (3)xtreg y x, re (4)hausman fe 如果拒绝,说明corr(x,ui)=0的假设是有问题的,需要重新设定RE model 后再进行检验,如果模型的设定没有问题,但检验还是拒绝原假设(p值接近0),那么就只能采用FE model 了,因为此时的RE 估计量是有偏的。 (definitely right. 当你使用stata的时候,最重要的命令不是这些是help and find it然后就能找到你的答案了) hausman检验是用来检验用fe还是re的,其原假设是re优于fe,从你的结果来看(Prob>chi2 =0.0000),应该拒绝原假设,所以应该用fe 3.stata里平方的命令怎么写? gen age=age^2 4. stata里边怎么取对数啊? gen lnx=log(x) 5.如何用STATA求自然对数?如说:ln(X^2)=-4.8536,如何求X啊? . dis sqrt(exp(-4.8536))或者dis exp(-4.8536/2) 6.关于hausman检验,结果是CHI2(2)=2355.81,prob>chi2=0.000,可以使用随机效应模型嘛? prob>chi2=0.000,is like p-value. we should reject the null, so fixed effect is preferred.Randome effect is not suggested. CHI2(2)=2355.81,就意味着拒绝原假设,从而选取固定效应模型。 7.我在做gdp一阶差分单位根检验的时候,输入的命令是ipshin dgdp,lags(1)得

Stata命令整理教学内容

Stata 命令语句格式: [by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options] 1、[by varlist:] *如果需要分别知道国产车和进口车的价格和重量,可以采用分类操作来求得, sort foreign //按国产车和进口车排序 . by foreign: sum price weight *更简略的方式是把两个命令用一个组合命令来写。 . by foreign, sort: sum price weight 如果不想从小到大排序,而是从大到小排序,其命令为gsort。 . sort - price //按价格从高到低排序 . sort foreign -price /*先把国产车都排在前,进口车排在后面,然后在国产车内再按价格从大小到排序,在进口车内部,也按从大到小排序*/ 2、[=exp]赋值运算 . gen nprice=price+10 //生成新变量nprice,其值为price+10 /*上面的命令generate(略写为gen) 生成一个新的变量,新变量的变量名为 nprice,新的价格在原价格的基础上均增加了10 元。 . replace nprice=nprice-10 /*命令replace 则直接改变原变量的赋值,nprice 调减后与price 变量取值相等*/ 3、[if exp]条件表达式 . list make price if foreign==0 *只查看价格超过1 万元的进口车(同时满足两个条件),则 . list make price if foreign==1 & price>10000 *查看价格超过1 万元或者进口车(两个条件任满足一个) . list make price if foreign==1 | price>10000 4、[in range]范围筛选 sum price in 1/5 注意“1/5”中,斜杠不是除号,而是从1 到 5 的意思,即1,2,3,4,5。 如果要计算前10 台车中的国产车的平均价格,则可将范围和条件筛选联合使用。 . sum price in 1/10 if foreign==0 5、[weight] 加权 sum score [weight=num] 其中,num为每个成绩所对应的人数 6、[, options]其他可选项 例如,我们不仅要计算平均成绩,还想知道成绩的中值,方差,偏度和峰度等*/ . sum score, detail . sum score, d //d 为detail 的略写,两个命令完全等价 . list price, nohead //不要表头 Stata 数据类型转换 1、字符型转化成数值型 destring, replace //全部转换为数值型,replace 表示将原来的变量(值)更新 destring date, replace ignore(“ ”) 将字符型数据转换为数值型数据:去掉字符间的空格destring price percent, gen(price2 percent2) ignore(“$ ,%”) 与date 变量类似,变量price 前面有美元符号,变量percent 后有百分号,换为数值型时需要忽略这些非数值型字符 2、数值型转化为字符型

让你快速上手的stata讲义

Stata简明讲义 王非 中国经济研究中心 ebwf@https://www.360docs.net/doc/c912234147.html,

〇、写在前面的话 关于学习Stata的意义,大家只需知道:目前,Stata是计量经济学、特别是微观计量经济学的主流软件。因此,Stata很重要、很有用,而大家也会在使用Stata 的过程中慢慢体会到它的特点。 本讲义取名为“Stata简明讲义”,意在突出“简”和“明”两个字。虽然讲义长达五十多页,但相比Stata的完全手册来说,还不及九牛之一毛,故为“简”。实际上,完全手册中的很多内容都鲜有人(特别是计量经济学者)问津,而本讲义列出的内容则是大家经常用到的操作;所以,“简”也有“简”的好处。即便如此,掌握这份讲义也并非易事。所谓“明”,是明晰的意思。本讲义本着“手把手教”的精神,力求把每项操作都说得具体明晰,以方便初学者(特别是没有程序操作经历的初学者)尽快上手。至于本讲义在“简明”上做得怎么样,还需要各位读者来评判。 中心的一位学长邹传伟,曾经写过一份“Stata介绍”,在网上可以下载。那份讲义比较全面,但不够具体明晰。本讲义参照那份讲义,在框架上查漏补缺,并进一步地明晰化。本讲义第二部分的“do文件”和第七部分的“残差分析”的相关内容均来自于中心的沈艳老师的相关讲义,而沈老师对于本讲义的成形给予了细致的指导。本讲义附带了一些数据文件,其中“WAGE1.dta”和“WAGEPRC.dta”均来自Wooldridge的中级计量教材的数据集,而其他数据则为作者自己的杜撰。尽管从别人那里拿来了许多好东西,但本讲义的任何错误仍源于作者自己的疏忽。 本讲义是这样安排的:第一部分讲Stata的界面,第二部分讲do文件,第三部分讲怎样把数据导入Stata,第四部分专门讲help和search命令以及帮助文件的阅读方法,第五部分讲数据的描述及管理,第六部分讲如何画图,第七部分讲初步的回归分析。

Stata学习笔记

以下命令均采用小写字母 Chapter 1 stata入门 打开数据 use "D:\Stata9\", clear 用use命令打开数据 sysuse auto,clear auto 为系统数据sysuse为打开系统数据的命令 获取帮助 Help summarize summarize为需要获取帮助对象可以改为其他的需要帮助的对象Findit summarize,net 寻找网络帮助summarize为需要获取帮助对象 Search summarize ,net 寻找网络帮助summarize为需要获取帮助对象 显示结果 Display 5+9 描述统计(summarize 可简写成sum) Use atuo,clear Summarize price 描述price的观察值个数、平均值、标准差、最小值、最大值 Sum weight summarize可简写成sum Sum weight price 同时完成上面两步 绘图 Scatter price weight scatter 为绘制散点图命令 Line price weight ,sort line 为绘制折线图命令,sort为排序,绘制折线图前需要先排序 生成新的数据(generate 可简写成gen) Clear Set obs 1000 设置观测值的组数 Gen x=_n _n 为观察值得序号 Gen y=x+100 控制结果输出显示 List n 设置屏幕滚动 Set more off 先设置此项则显示时,屏幕不停止 Set more on 先设置此项则显示时,会使显示停止 清除内存中原有内容 clear 设置文件存取路径(cd) Cd d:\stata d:\stata为路径

最新Stata软件基本操作和数据分析入门

Stata软件基本操作和数据分析入门 第一讲Stata操作入门 张文彤赵耐青 第一节概况 Stata最初由美国计算机资源中心(Computer Resource Center)研制,现在为Stata公司的产品,其最新版本为7.0版。它操作灵活、简单、易学易用,是一个非常有特色的统计分析软件,现在已越来越受到人们的重视和欢迎,并且和SAS、SPSS一起,被称为新的三大权威统计软件。 Stata最为突出的特点是短小精悍、功能强大,其最新的7.0版整个系统只有10M左右,但已经包含了全部的统计分析、数据管理和绘图等功能,尤其是他的统计分析功能极为全面,比起1G以上大小的SAS系统也毫不逊色。另外,由于Stata在分析时是将数据全部读入内存,在计算全部完成后才和磁盘交换数据,因此运算速度极快。 由于Stata的用户群始终定位于专业统计分析人员,因此他的操作方式也别具一格,在Windows席卷天下的时代,他一直坚持使用命令行/程序操作方式,拒不推出菜单操作系统。但是,Stata的命令语句极为简洁明快,而且在统计分析命令的设置上又非常有条理,它将相同类型的统计模型均归在同一个命令族下,而不同命令族又可以使用相同功能的选项,这使得用户学习时极易上手。更为令人叹服的是,Stata语句在简洁的同时又拥有着极高的灵活性,用户可以充分发挥自己的聪明才智,熟练应用各种技巧,真正做到随心所欲。

除了操作方式简洁外,Stata的用户接口在其他方面也做得非常简洁,数据格式简单,分析结果输出简洁明快,易于阅读,这一切都使得Stata成为非常适合于进行统计教学的统计软件。 Stata的另一个特点是他的许多高级统计模块均是编程人员用其宏语言写成的程序文件(ADO文件),这些文件可以自行修改、添加和下载。用户可随时到Stata网站寻找并下载最新的升级文件。事实上,Stata的这一特点使得他始终处于统计分析方法发展的最前沿,用户几乎总是能很快找到最新统计算法的Stata程序版本,而这也使得Stata自身成了几大统计软件中升级最多、最频繁的一个。 由于以上特点,Stata已经在科研、教育领域得到了广泛应用,WHO的研究人员现在也把Stata作为主要的统计分析工作软件。 第二节Stata操作入门 一、Stata的界面 图1即为Stata 7.0启动后的界面,除了Windows版本的软件都有的菜单栏、工具栏,状态栏等外,Stata的界面主要是由四个窗口构成,分述如下: 1.结果窗口:位于界面右上部,软件运行中的所有信息,如所执行的命令、执行结果和出错信息等均在这里列出。窗口中会使用不同的颜色区分不同的文本,如白色表示命令,红色表示错误信息。 2.命令窗口:位于结果窗口下方,相当于DOS软件中的命令行,此处用于键入需要执行的命令,回车后即开始执行,相应的结果则会在结果窗口中显示出来。

(完整)stata命令总结,推荐文档

stata11 常用命令 注:JB统计量对应的p大于0.05 ,则表明非正态,这点跟sktest 和 swilk 检验刚好相反;dta 为数据文件;gph 为图文件;do 为程序文件;注 意stata 要区别大小写;不得用作用户变量名: _all _n _N _skip _b _coef _cons _pi _pred _rc _weight double float long int in if using with 命令:读入数据一种方式 input x y 14 2 5.5 3 6.2 47.7 58.5 end su/summarise/sum x 或su/summarise/sum x,d 对分组的描述: sort group by group:su x %%%%% tabstat economy,stats(max)%返回变量economy的最大值 %%stats括号里可以是:mean,count(非缺失观测值个数),sum(总 和),max,min,range , %% sd ,var ,cv(变易系数=标准差/ 均值),skewness,kurtosis , median,p1(1 %分位 %% 数,类似地有p10, p25, p50, p75, p95, p99),iqr(interquantile range = p75 –p25) _all %描述全部 _N 数据库中观察值的总个数。 _n 当前观察值的位置。 _pi 圆周率π 的数值。 list gen/generate % 产生数列egen wagemax=max(wage) clear use by(分组变量)

stata简单讲义第六讲

线性相关和回归 赵耐青 在实际研究中,经常要考察两个指标之间的关系,即:相关性。现以体重与身高的关系为例,分析两个变量之间的相关性。要求身高和体重呈双正态分布,既:在身高和体重平均数的附近的频数较多,远离身高和体重平均数的频数较少。 样本相关系数计算公式(称为Pearson 相关系数): ) () () )((2 2 YY XX XY L L L Y Y X X Y Y X X r = ----= ∑ ∑ ∑ (1) 1. 考察随机模拟相关的情况。 显示两个变量相关的散点图程序simur.ado (本教材配套程序,使用见前言)。命令为simur 样本量 总体相关系数 如显示样本量为100,ρ=0的散点图 本例命令为simur 100 0

如显示样本量为200,ρ=0.8的散点图本例命令为simur 200 0.8 如显示样本量为200,ρ=0.99的散点图本例命令为simur 200 0.99

如显示样本量为200,ρ=-0.99的散点图 本例命令为simur 200 -0.99 例1. 测得某地15名正常成年男子的身高x(cm)、体重y(kg)如试计算x和y之间的相关系数r并检验H0:ρ=0 vs H1: ρ≠0。 α=0.05

数据格式为 176.0 69.0 175.0 74.0 172.0 68.0 170.0 64.0 173.0 68.5 168.0 56.0 172.0 54.0 170.0 62.0 172.0 63.0 173.0 67.0 168.0 60.0 171.0 68.0 172.0 76.0 173.0 65.0 Stata命令pwcorr 变量1 变量2 …变量m,sig 本例命令pwcorr x y,sig pwcorr x y,sig Pearson相关系数=0.5994,P值=0.0182<0.05,因此可以认为身高与体重呈正线性相关。

Stata笔记-北京科技大学

改颜色edit-preference-general prefernce-classic 下面命令框-右键-font-改字号 命令cd d:\ 改到d盘(change directory) dir查询d盘有什么 sysuse auto 系统自带汽车数据,数据变量(字段)显示在右上角 br(owse) 浏览数据(字符型红色,数值型黑色,蓝色-右键-value labels-hide all labels标签隐藏) h(elp) li(st) 告诉你命令怎么用,下面有例子 左边双击执行,单击复制到命令框 order price mpg(单击右边的变量) order make-foreign 改变变量顺序,从make到foreign g(enerate) new=rep78-trunk 输出新变量(rep78,trunk是字段,可单击选择,"."表示缺省,加减乘除+-*/) list if new==14 (==为等于,=为赋值,可以点击more) li(st) if new2>=14 & new2<24 (按q可以退出,即quit) replace new3=rep78 (输错了替换) drop new new2 new3删除变量 list if new>10000 list make if new<10000|new>2000 (竖线表示或者,回车上面那个) !=表示不等于 左边命令,右键save save data 文件名为data sysuse auto preserve reserve save auto2 保存时不需加后缀,删除时带后缀.dta sort price从小到大 gsort price 都可以,比较随意 gsort -trunk price (默认加号,为排序) order make new (将new排到第二位) aorder (alphabetic 按字母顺序排序) disp(lay) sin(1) 作为计算器使用 ln以e为底 ----------------3.13--------- 锐思数据库选择数据 -----非金融行业负债表---- 左边-财务报表-非金融行业 合并标识-1合并报表 调整标识-1 报表类型-q4、信息来源-q4 公司类别-20-定期报告 信息来源:q4 a股股票代码

stata常用作图指令包你满意

S tata tata 作图常用指令作图常用指令作图常用指令 1.1.茎叶图茎叶图茎叶图 stem x1,line(2) (做x1的茎叶图,每一个十分位的树茎都被拆分成两段来显示,前半段为0~4,后半段为5~9) stem x1,width(2) (做x1的茎叶图,每一个十分位的树茎都被拆分成五段来显示,每个小树茎的组距为2) stem x1,round(100) (将x1除以100后再做x1的茎叶图) 2.2.直方图直方图 直方图 histogram mpg, discrete frequency normal xlabel(1(1)5) (discrete 表示变量不连续,frequency 表示显示频数,normal 加入正太分布曲线,xlabel 设定x 轴,1和5为极端值,(1)为单位) histogram price, fraction norm (fraction 表示y 轴显示小数,除了frequency 和fraction 这两个选择之外,该命令可替换为“percent”百分比,和“density”密度;未加上discrete 就表示将price 当作连续变量来绘图) histogram price, percent by(foreign) (按照变量“foreign”的分类,将不同类样本的“price”绘制出来,两个图分左右排布) histogram mpg, discrete by(foreign, col(1)) (按照变量“foreign”的分类,将不同类样本的“mpg”绘制出来,两个图分上下排布) histogram mpg, discrete percent by(foreign, total) norm (按照变量“foreign”的分类,将不同类样本的“mpg”绘制出来,同时绘出样本整体的“总”直方图) 3.3.二变量图二变量图二变量图 graph twoway lfit price weight || scatter price weight

stata命令大全(全)

*********面板数据计量分析与软件实现********* 说明:以下do文件相当一部分内容来自于中山大学连玉君STATA教程,感谢他的贡献。本人做了一定的修改与筛选。 *----------面板数据模型 * 1.静态面板模型:FE 和RE * 2.模型选择:FE vs POLS, RE vs POLS, FE vs RE (pols混合最小二乘估计) * 3.异方差、序列相关和截面相关检验 * 4.动态面板模型(DID-GMM,SYS-GMM) * 5.面板随机前沿模型 * 6.面板协整分析(FMOLS,DOLS) *** 说明:1-5均用STATA软件实现, 6用GAUSS软件实现。 * 生产效率分析(尤其指TFP):数据包络分析(DEA)与随机前沿分析(SFA) *** 说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,侧重于比较C-D与Translog生产函数,一步法与两步法的区别。常应用于地区经济差异、FDI溢出效应(Spillovers Effect)、工业行业效率状况等。 * 空间计量分析:SLM模型与SEM模型 *说明:STATA与Matlab结合使用。常应用于空间溢出效应(R&D)、财政分权、地方政府公共行为等。 * --------------------------------- * --------一、常用的数据处理与作图----------- * --------------------------------- * 指定面板格式 xtset id year (id为截面名称,year为时间名称) xtdes /*数据特征*/ xtsum logy h /*数据统计特征*/ sum logy h /*数据统计特征*/ *添加标签或更改变量名 label var h "人力资本" rename h hum *排序 sort id year /*是以STATA面板数据格式出现*/ sort year id /*是以DEA格式出现*/ *删除个别年份或省份 drop if year<1992 drop if id==2 /*注意用==*/ *如何得到连续year或id编号(当完成上述操作时,year或id就不连续,为形成panel格式,需要用egen命令) egen year_new=group(year) xtset id year_new **保留变量或保留观测值 keep inv /*删除变量*/ **或 keep if year==2000 **排序 sort id year /*是以STATA面板数据格式出现 sort year id /*是以DEA格式出现 **长数据和宽数据的转换 *长>>>宽数据 reshape wide logy,i(id) j(year)

stata学习笔记

经济数据的特点与类型。 1、横截面数据:多个经济个体的变量在同一时间点上的取值,如2012年中国各省的GDP 2、时间数列数据:指的是某个经济个体的变量在不同时点上的取值,如1978-2012年山东 省每年的GDP 3、面板数据:多个经济个体的变量在不同时点上的取值,如1978-2012年中国各省的GDP 小样本OLS(最小二乘法):单一方程线性回归最常见方法 条件:解释变量与扰动项正交、扰动项无自相关、同方差。 拟合优度:衡量线性回归模型对样本数据的拟合程度(R2),越高说明模型拟合程度越好。单系数T检验:对回归方程扰动项的具体概率进行假设 显著性水平进行检验 F检验:整个回归方程是否显著 STATA操作简介: 如果数据中包含1949-10-01或1949/10/01的时间变量,导入stata后可能会被视为字符串,因此对于日度数据,可以使用命令gen newvar=date(varname,YMD),将其转换为整数日期变量,其中YMD说明原始数据的格式为年月日,如果原始数据的格式为月日年则使用MDY;对于月度数据则gen newvar=monthly(varname,YM)。 .describe:数据的概貌.drop keep:删除和保留 .su:统计特征Pwcorr:变量之间相关系数 Star(.05):5%显著性水平gen:产生 g intc=log(tc):取自然对数. reg:OLS回归 .Vce:协方差矩阵reg。。。,noc表示在进行回归时不要常数项 大样本OLS:只要求解释变量与同期的扰动项正交即可Robust:稳健标准误,如果存在异方差,则应使用稳健标准误

Stata中的图形制作绝对自己总结

第三章S t a t a中的图形制作

进一步设置: Msymbol(T)mcolor(black)mlabel(make)mlabpositon(9)by(foreign) 散点形状:实心大三角,颜色:黑色,标签内容:make,位置为9点钟处;按foreign绘制 用线段的升降趋势来说明现象变化或变量之间关系的一种图形。它与散点图类似,实际上它就是将连续型的数值变量点连接起来的一种图形,但由于它还可以用于回归 基本命令[twoway]lineyx 一定注意x变量要放置在y变量之后 连接样式的设定connect(样式代码) 线条样式的设定clpattern(样式代码) 案例:运用数据绘制曲线标绘图。利用文件中的数据绘制人均消费c和人均国内生产总值y随时 间变化的曲线标绘图。(1)将图例分成两行设计,图例内容“人均消费“和”人均GDP”,并让图例在图形内部十一点钟的位置;(2)线条一条为实线连接,一条为虚线连接;(3)线条一条为直 线连接,一条为stairstep方式连接 twowaylinecyyear,legend(label(1”人均消费”)label(2”人均 GDP”)posit ion(11)ring(0)row(2))clpattern(soliddash)connect(lJ) ring(0):使图例显示在图形内部;row(2):图例分两行显示;clpattern(soliddash):实线和虚线;connect(lJ):直线连接和stairstep方式的连接 图hbar,纵向条形图bar。 在绘制条形图的过程中,需要指明所要展示的统计量,如果不指明统计量,则会默认显示均值(mean)统计量。

[推荐] stata基本操作汇总常用命令

[推荐] Stata基本操作汇总——常用命令 help和search都是查找帮助文件的命令,它们之间的 区别在于help用于查找精确的命令名,而search是模糊查找。 如果你知道某个命令的名字,并且想知道它的具体使用方法,只须在stata的命令行窗口中输入help空格加上这个名字。回车后结果屏幕上就会显示出这个命令的帮助文件的全部 内容。如果你想知道在stata下做某个估计或某种计算,而 不知道具体该如何实现,就需要用search命令了。使用的 方法和help类似,只须把准确的命令名改成某个关键词。回车后结果窗口会给出所有和这个关键词相关的帮助文件名 和链接列表。在列表中寻找最相关的内容,点击后在弹出的查看窗口中会给出相关的帮助文件。耐心寻找,反复实验,通常可以较快地找到你需要的内容.下面该正式处理数据了。我的处理数据经验是最好能用stata的do文件编辑器记下你做过的工作。因为很少有一项实证研究能够一次完成,所以,当你下次继续工作时。能够重复前面的工作是非常重要的。有时因为一些细小的不同,你会发现无法复制原先的结果了。这时如果有记录下以往工作的do文件将把你从地狱带到天堂。因为你不必一遍又一遍地试图重现做过的工作。在stata 窗口上部的工具栏中有个孤立的小按钮,把鼠标放上去会出

现“bring do-file editor to front”,点击它就会出现do文件编 辑器。 为了使do文件能够顺利工作,一般需要编辑do文件的“头”和“尾”。这里给出我使用的“头”和“尾”。capture clear (清空内存中的数据)capture log close (关闭所有 打开的日志文件)set more off (关闭more选项。如果打开该选项,那么结果分屏输出,即一次只输出一屏结果。你按空格键后再输出下一屏,直到全部输完。如果关闭则中间不停,一次全部输出。)set matsize 4000 (设置矩阵的最大阶数。我用的是不是太大了?)cd D: (进入数据所在的盘符和文件夹。和dos的命令行很相似。)log using (文件名).log,replace (打开日志文件,并更新。日志文件将记录下所有文件运行后给出的结果,如果你修改了文件内容,replace选项可以将其更新为最近运行的结果。)use (文件名),clear (打开数据文件。)(文件内容)log close (关闭日志文件。)exit,clear (退出并清空内存中的数据。) 实证工作中往往接触的是原始数据。这些数据没有经过整理,有一些错漏和不统一的地方。比如,对某个变量的缺失观察值,有时会用点,有时会用-9,-99等来表示。回归时如果 使用这些观察,往往得出非常错误的结果。还有,在不同的数据文件中,相同变量有时使用的变量名不同,会给合并数

复旦大学stata精华学习笔记

Stata: 输出regression table到word和excel 1. 安装estout。最简单的方式是在stata的指令输入: ssc install estout, replace EST安装的指导网址是:https://www.360docs.net/doc/c912234147.html,/bocode/e/estout/installation.html 2.跑你的regression 3.写下这行指令esttab using test.rtf,然后就会出现个漂亮的表格给你(WORD 文档)。只要再小幅修改,就可以直接用了。这个档案会存在my document\stata 下。如果你用打开的是一个stata do file,结果会保存到do文件所在文件夹中。如果要得到excel文件,就把后缀改为.xls或者.csv就可以了 4.跑多个其实也不难,只要每跑完一个regression,你把它取个名字存起来:est store m1。m1是你要改的,第一个model所以我叫m1,第二个的话指令就变成est store m2,依次类推。 5.运行指令:esttab m1 m2 ... using test.rtf就行了。 异方差的检验: Breusch-Pagan test in STATA: 其基本命令是:estat hettest var1 var2 var3 其中,var1 var2 var3 分别为你认为导致异方差性的几个自变量。是你自己设定的一个 滞后项数量。 同样,如果输出的P-Value 显著小于0.05,则拒绝原假设,即不存在异方差性。 White检验: 其基本命令是在完成基本的OLS 回归之后,输入 imtest, white 如果输出的P-Value 显著小于0.05,则拒绝原假设,即不存在异方差性 处理异方差性问题的方法: 方法一:WLS WLS是GLS(一般最小二乘法)的一种,也可以说在异方差情形下的GLS就是WLS。在WLS下,我们设定扰动项的条件方差是某个解释变量子集的函数。之所以被称为加权最小二乘法,是因为这个估计最小化的是残差的加权平方和,而上述函数的倒数恰为其权重。 在stata中实现WLS的方法如下: reg (被解释变量)(解释变量1)(解释变量2)…… [aweight=变量名]

常用到的stata命令

常用到的sta命令 闲话不说了。help和search都是查找帮助文件的命令,它们之间的区别在于help用于查找精确的命令名,而search是模糊查找。如果你知道某个命令的名字,并且想知道它的具体使用方法,只须在sta的命令行窗口中输入help空格加上这个名字。回车后结果屏幕上就会显示出这个命令的帮助文件的全部内容。如果你想知道在sta下做某个估计或某种计算,而不知道具体该如何实现,就需要用search命令了。使用的方法和help类似,只须把准确的命令名改成某个关键词。回车后结果窗口会给出所有和这个关键词相关的帮助文件名和链接列表。在列表中寻找最相关的内容,点击后在弹出的查看窗口中会给出相关的帮助文件。耐心寻找,反复实验,通常可以较快地找到你需要的内容。 下面该正式处理数据了。我的处理数据经验是最好能用sta的do文件编辑器记下你做过的工作。因为很少有一项实证研究能够一次完成,所以,当你下次继续工作时。能够重复前面的工作是非常重要的。有时因为一些细小的不同,你会发现无法复制原先的结果了。这时如果有记录下以往工作的do文件将把你从地狱带到天堂。因为你不必一遍又一遍地试图重现做过的工作。在sta窗口上部的工具栏中有个孤立的小按钮,把鼠标放上去会出现“bring do-file editor to front”,点击它就会出现do文件编辑器。 为了使do文件能够顺利工作,一般需要编辑do文件的“头”和“尾”。这里给出我使用的“头”和“尾”。 /*(标签。简单记下文件的使命。)*/ capture clear(清空内存中的数据) capture log close(关闭所有打开的日志文件) set mem 128m(设置用于sta使用的内存容量) set more off(关闭more选项。如果打开该选项,那么结果分屏输出,即一次只输出一屏结果。你按空格键后再输出下一屏,直到全部输完。如果关闭则中间不停,一次全部输出。) set matsize4000(设置矩阵的最大阶数。我用的是不是太大了?)

stata笔记要点

1.一般检验 假设系数为 0,t 比较大则拒绝假设,认为系数不为 0. 假设系数为 0,P 比较小则拒绝假设,认为系数不为 0. 假设方程不显著,F 比较大则拒绝假设,认为方程显著。 2.小样本运用 OLS 进行估计的前提条件为: (1)线性假定。即解释变量与被解释变量之间为线性关系。这一前提可以通过将非线性转换为线性方程来解决。 (2)严格外生性。即随机扰动项独立于所有解释变量:与解释变量之间所有时候都是正交关系,随机扰动项期望为 0。(工具变量法解决) (3)不存在严格的多重共线性。一般在现实数据中不会出现,但是设置过多的虚拟变量时,可能会出现这种现象。Stata 可以自动剔除。 (4)扰动项为球型扰动项,即随即扰动项同方差,无自相关性。 3.大样本估计时,一般要求数据在 30 个以上就可以称为大样本了。大样本的前提是 (1)线性假定 (2)渐进独立的平稳过程 (3)前定解释变量,即解释变量与同期的扰动项正交。 (4)E(XiXit)为非退化矩阵。 (5)gt 为鞅差分序列,且其协方差矩阵为非退化矩阵。 与小样本相比,其不需要严格的外生性和正太随机扰动项的要求。 4.命令 稳健标准差回归:reg y x1 x2 x3, robust 回归系数与 OLS 一样,但标准差存在差异。如果认为存在异方差,则使用稳健标准差。使用稳健标准差可以对大样本进行检验。 只要样本容量足够大,在模型出现异方差的情况下,使用稳健标准差时参数估计、假 设检验等均可正常进行,即可以很大程度上消除异方差带来的副作用 对单个系数进行检验:test lnq=1 线性检验:testnl_b[lnpl]=_b[lnq]^2 5.如果回归模型为非线性,不方便使用 OLS,则可以采取最大似然估计法(MLE),或者非线 性最小二乘法(NLS) 6.违背经典假设,即存在异方差的情况。截面数据通常会出现异方差。 因此检验异方差可以: (1)看残差图,但只是直观,可能并不准确。 rvfplot(residual-versus-fitted plot)与拟合值的散点图 rvpplot varname(residual-versus-predictor plot)与解释变量的散点图 扰动项的方差随观测值而变动,表示可能存在异方差。 (2)怀特检验: estat imtest,white(post-estimation information matrix test) P比较小,则拒绝同方差假设,表示存在异方差,不能用OLS。反之则证明为同方差。 (3)BP 检验 estat hettest,iid (默认设置为使用拟合值 y^) estat hettest, rhs iid (使用方程右边的解释变量,而不是 y^)

Stata常用15条命令

【命令1】:导入数据 一般做实证分析使用的是excel中的数据,其后缀名为.xls,需要将其修改为.csv insheet using name.csv, clear 【命令2】:删除重复变量 sort var1 var2 duplicatesdrop var1 var2, force 【命令3】:合并数据 use data1, clear merge m:m var1 var2 using data2 drop if _merge==2 drop if _merge==1 drop _merge 【命令4】:描述性统计分析 tabstat var1var2, stat(n min mean median p25 p75 max sd), if groupvar==0 or 1 输出到word中: logout, save(name) word replace: tabstat var, stat(n min mean p50 max sd) col(stat)f(%9.2g) 【命令5】:结果输出 安装 ssc install estout, replace 单个回归 reg y x esttab using name.rtf, compress nogap r2 ar2 star(* 0.1 ** 0.05 *** 0.01) 多个回归一起 reg y x1 est store m1 reg y x2 est store m2 esttab m1 m2 using name.rtf, compress nogap r2 ar2 star(* 0.1 ** 0.05 *** 0.01)

stata简单讲义第五讲

Stata软件基本操作和数据分析入门 第五讲多组平均水平的比较 赵耐青 一、复习和补充两组比较的统计检验 1. 配对设计资料(又称为Dependent Samples) a)对于小样本的情况下,如果配对的差值资料服从正态分布,用配对t检验 (ttest 差值变量=0) b)大样本的情况下,可以用配对t检验 c)小样本的情况下,并且配对差值呈偏态分布,则用配对符号秩检验(signrank 差值变量=0) 2. 成组设计(Two Independent Samples) a)如果方差齐性并且大样本情况下,可以用成组t检验(ttest 效应指标变 量,by(分组变量)) b)如果方差齐性并且两组资料分别呈正态分布,可以用成组t检验 c)(Ranksum test)

二、多组比较 1. 完全随机分组设计(要求各组资料之间相互独立) a)方差齐性并且独立以及每一组资料都服从正态分布(小样本时要求),则采用 完全随机设计的方差分析方法(即:单因素方差分析,One Way ANOV A)进 行分析。 b)方差不齐或小样本情况下资料偏态,则用Kruskal Wallis 检验(H检验) 例5.1 为研究胃癌与胃粘膜细胞中DNA含量(A.U)的关系,某医师测得数据如下,试问四 组人群的胃粘膜细胞中平均DNA含量是否相同? 组别group DNA含量(A.U) 浅表型胃炎 1 9.81 12.73 12.29 12.53 12.95 9.53 12.6 8.9 12.27 14.26 10.68 肠化生 2 14.61 17.54 15.1 17 13.39 15.32 13.74 18.24 13.81 12.63 14.53 16.17早期胃癌 3 23.26 20.8 20.6 23.5 17.85 21.91 22.13 22.04 19.53 18.41 21.48 20.24

(完整)stata命令总结,推荐文档

stata11常用命令 注:JB统计量对应的p大于0.05,则表明非正态,这点跟sktest和swilk 检验刚好相反; dta为数据文件; gph为图文件; do为程序文件; 注意stata要区别大小写; 不得用作用户变量名: _all _n _N _skip _b _coef _cons _pi _pred _rc _weight double float long int in if using with 命令: 读入数据一种方式 input x y 1 4 2 5.5 3 6.2 4 7.7 5 8.5 end su/summarise/sum x 或 su/summarise/sum x,d 对分组的描述: sort group by group:su x %%%%% tabstat economy,stats(max) %返回变量economy的最大值 %%stats括号里可以是:mean,count(非缺失观测值个数),sum(总和),max,min,range, %% sd,var,cv(变易系数=标准差/均值),skewness,kurtosis,median,p1(1%分位 %% 数,类似地有p10, p25, p50, p75, p95, p99),iqr(interquantile range = p75 – p25) _all %描述全部 _N 数据库中观察值的总个数。 _n 当前观察值的位置。 _pi 圆周率π的数值。 list gen/generate %产生数列 egen wagemax=max(wage) clear use by(分组变量)

相关文档
最新文档