STATA第五讲

合集下载

stata初级入门5线性回归模型估计

offset(varname)表示约束模型中变量varname的系数为1。该选项多出现于离散选择模型、计数模型中。
1.2.3exposure
exposure(varname)表示约束模型中变量ln(varname) 的系数为1。该选项多出现于计数模型中。
计量经济学软件应用
12
2020/6/13
计量经济学软件应用
33
2020/6/13
菜单： Statistics > Postestimation > Reports and statistics
引起完全共线性的情况：（1）一个自变量是另一个自变量的常数倍；（2）一个自变量恰好可以表达为其它两个或多个自变量的一个线性函数。如果此情况发生，自变量间就有多重共线性关系。
*自变量的样本有变异：在样本中，自变量不为相同的常数。
同方差性（亦称有效性）：var(u|x1,x2,x3,….)=σ2。
系数的方法。
method包括：
dw: rho_dw=1 - dw/2, 其中 dw 是Durbin-Watson值 regress:从残差回归方程et=rho_regress*et-1+vt freg:从残差回归方程中et=rho_freg*et+1+vt tscorr: rho=e‘et-1/e’e, 其中e和et-1 是残差和滞后一期残差。 theil: rho=rho_tscorr * (N-k)/N
rconsum
rneti _cons
Coef. Std. Err.
t P>|t|
.6478134 .0387183 482.8383 265.268
16.73 0.000 1.82 0.079

STATA_讲义

STATA 讲义目录Stata入门教程：Stata概貌Stata 第一章数据输入，存盘和调用文件命令以及数据管理命令Stata第二章描述性统计命令与输出结果说明Stata第三章正态检验与作图命令Stata第四章 t检验和单因素方差分析（上）Stata第四章 t检验和单因素方差分析（下）Stata第五章多组计量资料比较的非参数检验命令与输出结果说明Stata第六章卡方检验Stata第七章相关分析Stata第八章单因素生存分析Stata第九章多因素方差分析命令与输出结果说明Stata第十章线性回归和逐步回归命令和输出结果说明Stata第十一章 Logistic回归分析命令与输出结果说明Stata第十二章 Cox回归分析命令与输出结果说明第一章 Stata 概貌§1.1 Stata的功能、特点和背景Stata是一个用于分析和管理数据的功能强大又小巧玲珑的实用统计分析软件，由美国计算机资源中心（Computer Resource Center）研制。

从1985至1998的十四年时间里，已连续推出1.1，1.2，1.3，1.4，1.5，……及2.0，2.1，3.0，3.1，4.0，5.0，6.0等多个版本，通过不断更新和扩充，内容日趋完善。

它同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点，又在许多方面别具一格。

Stata融汇了上述程序的优点，克服了各自的缺点，使其功能更加强大，操作更加灵活、简单，易学易用，越来越受到人们的重视和欢迎。

Stata的突出特点是只占用很少的磁盘空间，输出结果简洁，所选方法先进，内容较齐全，制作的图形十分精美，可直接被图形处理软件或字处理软件如WORD等直接调用。

一、 Stata的数据管理能力1. Stata的数据管理空间受计算机的操作系统和计算机扩展内存的影响。

stata上机实验第五讲工具变量(IV)

究竟该用OLS 还是IV
即解释变量是否真的存在内生性？假设能够找到方程外的工具变量。 1。如果所有解释变量都是外生变量，则OLS
比IV 更有效。在这种情况下使用IV，虽然估计量仍然是一致的，会增大估计量的方差。2。如果存在内生解释变量，则OLS 是不一致的，而IV 是一致的。
豪斯曼检验（Hausman specification test）原假设： H0 ：所有解释变量均为外生变量。 H1：至少有一个解释变量为内生变量。
检验方法： estat firststage 1。初步判断可以用偏R2(partial R2) (剔除掉模型中原有外生变量的影响)。 2。 Minimum eigenvalue statistic(最小特征值统计量)，经验上此数应该大于10。
ivregress 2sls lw80 expr80 tenure80 (s80 iq=med kww mrt age), first
使用grilic.dta估计教育投资的回报率。
变量说明：lw80（80年工资对数），s80 （80年时受教育年限），expr80（80年时工龄），tenure80（80年时在现单位工作年限）， iq（智商），med（母亲的教育年限），kww（在‘knowledge of the World of Work’测试中的成绩），mrt（婚姻虚拟变量，已婚=1），age（年龄）。
ivregress 2sls lw80 expr80 tenure80 (s80 iq=med kww mrt age), first estat overid ivregress gmm lw80 expr80 tenure80 (s80 iq=med kww mrt age) estat overid

stata上机实验第五讲——面板数据的处理

• xtabond Arellano-Bond linear, dynamic panel data estimator （动态面板估计） • xtabond2 Arellano-Bond system dynamic panel data estimator(需要从网上下载) • xttobit Random-effects tobit models • xtintreg Random-effects interval data regression models • xtreg Fixed-, between- and random-effects, and population-averaged linear models • xtregar Fixed- and random-effects linear models with an AR(1) disturbance • xtgls Panel-data models using GLS
tab company,gen(dum)（批量生成变量） drop dum1 reg invest mvalue kstock dum*（ *表示未知数）与上述方法比较一下： xi:reg invest mvalue kstock pany 结果完全一样。
• xtpcse OLS or Prais-Winsten models with panelcorrected standard errors • xtrchh Hildreth-Houck random coefficients models • xtivreg Instrumental variables and two-stage least squares for panel-data models • xtabond Arellano-Bond linear, dynamic panel data estimator • xtabond2 Arellano-Bond system dynamic panel data estimator(需要从网上下载) • xttobit Random-effects tobit models • xtintreg Random-effects interval data regression models

第五讲多值、排序与计数模型高级计量经济学及Stata应用课件

• 解释变量：是否白人(white)，受教育年限(ed)，工龄(exper)。
• 这些解释变量都只依赖于个体，而不依赖于方案，故应使用多项logit或多项probit回归。
2020/7/27
陈强计量及Stata应用 (c) 2014
20
数据特征
• use nomocc2.dta, clear • sum
• 解释变量xij，既随个体i而变，也随方案j而变。
• 系数 β 表明，xij对随机效用Uij的作用不依赖于方案j。比如，乘车时间依个体与方案而变，但乘车时间太长所带来的负效用是一致的。
2020/7/27
陈强计量及Stata应用 (c) 2014
9
条件Logit (续)
• 根据与多项Logit类似的推导，
2020/7/27
陈强计量及Stata应用 (c) 2014
18
混合logit的Stata命令
• asclogit y x1 x2 x3,case(varname) alternatives(varname) casevars(varname) base(#) or
• “asclogit”表示“alternative-specific conditional logit”
• 如果假设 i1, ,iJ 服从J维正态分布，可
得“多项probit”(multinomial probit)模型
• 但多项Probit的计算涉及高维积分，不易计算，较少使用。
2020/7/27
陈强计量及Stata应用 (c) 2014
7
随方案而变的解释变量
• 多项Logit仅考虑不随方案而变的解释变量(比如，个体收入)，但有些解释变量既随个体，也随方案而变。比如，在选择交通工具时，乘车时间既因个体而异，也因交通工具而异。

stata1-5讲义

果一般而言是没有意义的并容易产生误导。可是如何让大家相信这种滥用和误用
计量模型所导致的偏误呢？
由于在社会科学中，被广泛认同的数理模型很少，讨论估计量是否一致或有
偏误的最好办法是假设我们已知某个理论公式及其相应参数，然后按照这个公式
通过蒙特卡洛方法生成假设数据，再来看在什么条件下用什么方法可以获得一致
(2)将其解压到 D:/stata9。 (3)点击 setup 安装>>改变安装路径到 D:/stata9>>选择 Stata/SE 版本。
1.2 启用和退出
(1) 程序→Stata，即可进入 Stata，启动后出现文件对话框，要求输入注册单位和密码等。
中国人民大学陈传波
9
chrisccb@
的或渐近正态的估计结果，这种方法已被国外的统计和计量教材大量采用。
本书正是在这两个方面突出了自己的特色。作者 9 年来潜心钻研 STATA，
利用 STATA 处理过农村住户数据、人口普查数据（部分）等大量数据，积累了
丰富的数据处理经验。本书的前 9 讲集中介绍数据处理的知识和技巧，后 9 讲通
过蒙特卡洛模拟帮助读者从直观上理解数理统计和计量的基本理论，并掌握相应
本书从第 10 讲开始，运用蒙特卡洛模拟方法，将基于随机变量的数理统计和计量经济学的核心思想和方法的黑箱打开，让读者在如同做游戏一样的感觉中深刻理解抽样分布、假设检验、回归分析等方法的强大魔力和无处不在的陷阱，这有利于读者批判性地理解他人基于统计数据得出的结论，也很利于读者在自己运用统计和计量分析时正确对待和解释估计结果。
中国人民大学陈传波
8
chrisccb@
STATA 十八讲１入门
1 STATA 入门

第五讲受限因变量时间序列以及panel模型

2. Logit 估计 —- 最大似然法估计法我们观察不到 p （拥有住房的概率），而只观察到 Y 的结果（拥有住房 Y=1，或不拥有住房 Y=0），如何估计参数？一般用最大似然法估计法估计参数。因为 Y 服从贝努里分布，我们有 Pr(Yi = 1) = pi Pr(Yi = 0) = 1 - pi 假设我们得到 n 个观测值的随机样本，令 fi(Yi)表示 Yi=1 或 Yi=0 的概率，于是观测到 n 个 Y 值的联合分布概率（joint probability）为
ln f (Y1 , Y2 ,..., Yn ) = ∑[Yi ln pi + (1 − Yi ) ln(1 − pi )]
i =1 n
n
= ∑[Yi ln pi − Yi ln(1 − pi ) + ln(1 − pi )]
i =1 n
⎡ ⎛ p i ⎞⎤ n = ∑ ⎢Yi ln⎜ ⎟⎥ + ∑ ln(1 − pi ) ⎜1− p ⎟ i =1 ⎣ i =1 i ⎠⎦ ⎝
---------------------| yhat| 0 | 1 | Y 0 18 3 1 3 8
----------+-----------
----------------------
（2）pseudo-R2 最常用的是 McFadden（1974）提出的 pseudo-R2 McFadden pseudo R 1
T
β 2β 3 ~χ 2 5β 3β 0 (2) Nonlinear restrictions: g(β)=0 H :β β g β β β 1 W 0 g β
T
1
∂g β var β ∂βT
∂g β ∂βT

stata第五讲【山大陈波】

静态面板数据
静态面板数据模型，是指解释变量中不包含被解释变量的滞后项(通常为一阶滞后项) 的情形。但严格地讲，随机干扰项服从某种序列相关的模型，如AR(1), AR(2), MA(1) 等，也不是静态模型。静态面板数据主要有两种模型------固定效应模型和随机效应模型。
面板数据的格式
company 1 1 1 1 2 2 2 2 3 3 3 3 year 1951 1952 1953 1954 1951 1952 1953 1954 1951 1952 1953 1954 invest 755.9 891.2 1304.4 1486.7 588.2 645.5 641 459.3 135.2 157.3 179.5 189.6 mvalue 4833 4924.9 6241.7 5593.6 2289.5 2159.4 2031.3 2115.5 1819.4 2079.7 2371.6 2759.9
究竟该用OLS 还是IV
即解释变量是否真的存在内生性？假设能够找到方程外的工具变量。 1。如果所有解释变量都是外生变量，则OLS 比IV 更有效。在这种情况下使用IV，虽然估计量仍然是一致的，会增大估计量的方差。2。如果存在内生解释变量，则OLS 是不一致的，而IV 是一致的。
豪斯曼检验（Hausman specification test）原假设： H0 ：所有解释变量均为外生变量。 H1：至少有一个解释变量为内生变量。 quietly reg lw80 s80 expr80 tenure80 iq est store ols quietly ivregress 2sls lw80 expr80 tenure80 (s80 iq=med kww mrt age) est store iv hausman iv ols

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第五讲、命令语句结构与运算符
• 命令语句的格式
– 通过前面几讲的学习，相信大家对命令多少有了点自己的了解。本讲将介绍STATA命令语句的一般性格式： – [by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options] – 一般性格式中包含有如下几个组成部分：命令（command）、变量列表（varlist）、分类（by）、赋值（=exp）、条件（if exp）、范围（in range）、权重（weight）、可选项（options）。其中， [ ]表示可有可无的项,否则为必选项，显然只有 command 是必不可少的。下面我们将结合具体的例子来讲解各个组成部分的含义及功能。
第五讲、命令语句结构与运算符
• 赋值操作（=exp）
– [by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options] 该语句主要用于生成新变量（gen）或覆盖原有变量（replace）。 – 例：假定销售商相对所有的车进行降价处理，降价的方式是在原有价格基础之上打9折在扣除100 美元。我们可以用下面的命令实现： – cd d:/mystata – use myauto.dta, clear – gen adj_price=price*0.9-100 //新的变量adj_price由原始价格*0.9减去100来生成 – list price adj_price //显示price和adj_price的内容 – 如果要覆盖已存在的变量，要用replace命令，不可以用gen命令。
STATA是当前最为流行的统计计量分析之一
第五讲、命令语句结构与运算符
• 运算符与运算
– 对数据进行加工，不可避免的会涉及到数据的运算。 STATA共有四种ቤተ መጻሕፍቲ ባይዱ算：代数运算、字符运算、逻辑运算和关系运算。各种运算的运算符见右表。代数运算逻辑运算关系运算
+
“加” 或“字符相加” “减” 或“负号” 乘除
第五讲、命令语句结构与运算符
• 条件语句（if exp）
– [by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options] 当我们只想对满足某些条件的数据进行某类操作时，则应当考虑使用条件语句。 – 例1：假定某客户只想查看进口车的价格 – cd d:/mystata – use myauto.dta, clear – list price if foreign==1 – 例2：假定某客户只想查看价格高过10000的进口汽车信息 – list if (price>10000)&(foreign==1) – 例3：假定某客户想分类查看价格高过10000或低于6000的进口汽车和国产汽车信息 – by foreign: list if (price>10000)|(price<6000)
< >= <=
小于大于等于
“非” 或“不”
小于等于等于
不等于
^
sqrt()
指数
开方
==
~=或！ =
第五讲、命令语句结构与运算符
• 代数运算
– 代数运算是最基本的数据处理，它包括包括加（+）、减（-）、乘（*）、除（/），幂（^）和负数（-）。在进行代数运算时，如果遇到缺失值、运算不可行时（比如除数为零）或运算不用执行时均会得到缺失值。 – 如只给女生成绩进行开方在乘以10进行调整，则可以用如下命令 – use Math_score.dta, clear //将数学成绩文件打开 – gen math_female=sqrt(math)*10 if gender==0//将女生数学成绩进行调整，并将调整后的成绩记为math_female
第五讲、命令语句结构与运算符
• 变量（varlist）
– [by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options]varlist: 变量列表，表示一个或者多个变量，多个变量之间用空格隔开。变量一般紧跟command命令之后，表示命令执行对象。如 – cd d:/mystata //工作路径设定在d盘的mystata文件夹下 – use auto.dta, clear // 打开数据文件并清空原有内存 – su price //显示价格变量的基本统计特征 – su p //由于auto文件中只有变量price首字母为p，因此与su price相同 – su t //数据中有两个变量的开首字母为t（trunk和turn），所以STATA认为t为模糊的省略，并给出如下的错误信息 – t ambiguous abbreviation – su trunk turn//显示trunk和turn的基本统计特征 – su t* //与上一条命令相同，显示首字母为t的所有变量的基本统计特征
第五讲、命令语句结构与运算符
• 字符运算
– 当需要把两个字符进行连接时，同样可以用加号（+）来完成。比如，把 “我”和“爱你”合并在一起，命令为： – scalar a= “I”+ “Love U”//将字符I和Love U连接并赋予a。注意：引号必须是在英文半角状态，否则出错。 – scalar list a// 显示a的内容 – 不可以将不同类型的数据进行相加，否则将出错。例如，把数值型数据2 和字符型数据3相加就会出错。 – scalar a= 5+ “3”//将数值2和字符3相加，结果出错 – type mismatch – r(109);
第五讲、命令语句结构与运算符
• 关系运算
– 关系运算包括大于、小于、等于；大于等于、小于等于、不等于等多种比较关系。特别要注意的是，STATA中的等于符号为“==”，是两个等号连写在一起，表示比较两边的关系式是否相等，它不同于“=”。“=”的含义是将等号右边的值赋予左边的变量，这是一个赋值号。当关系式满足是，显示结果为1（表示关系式正确），否则显示结果为0（表示关系式错误） – dis 3>5 //dis是display的简写，显示结果为0 ，表示关系式不对 – dis 3<5 //显示结果为1，表示关系式正确 – dis 4==4 //显示结果为1，表示关系式正确 – 在进行关系运算中一定要注意缺失值，因为在STATA中，系统缺失值大于任何一个数据。
第五讲、命令语句结构与运算符
• 命令（command） – [by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options] – 命令（command）是命令语句中的核心，他告诉计算机应该执行怎样的操作，是实现人和机器沟通的语言。 – cd d:/mystata //cd：工作路径设定在d盘的mystata文件夹下 – use auto.dta, clear // use: 打开数据文件；clear:清空原有内存 – summarize _all //summarize:显示内存中所用变量的基本统计特征 – summarize //很多命令可以单独使用，这时一般指针对所用变量进行该命令操作。该结果与上一条命令功能一样。 – sum // 与上一条命令等价，是summarize的缩略形式 – su // 与上一条命令等价，是summarize的最简形式 – s //简写前提是不引起混淆。执行这个命令将出现错误信息 – unrecognized command: s – r(199);
对外经济贸易大学金融学院谢海滨 International Business School, UIBE
计量经济软件及应用
STATA硕士研究生班
第五讲、命令语句结构与运算符
STATA的广泛应用：
-1.运算符及运算 -2.命令语句结构 ->1 命令(command)
->2 变量(varlist)
->3 分类变量(by varlist) ->4 赋值（=exp） ->5 条件（if exp） ->6 范围（in range） ->7 加权（weight） ->8 可选（option）
&
“与” 或“和” 或 “非” 或“不”
>
大于
– 运算的优先级（从高到低）：！(或~)，^，-（负号），/，*，-（减）， +，!=(或 ~=),>,<,<=,>=,==,&,| 当忘记或者无法确定优先序的时候，最好用括号将优先序表达出来，在最里层括号中的表示式将被优先执行
* /
| ~ ！
• 例
– 下面举例说明忽略缺失值的严重后果。假定有如下的学生成绩数据，由于John缺考，因此成绩缺失。 – 现在假定学校想了解数学成绩在80~90分和90分以上的人数，有人写出如下命令进行统计 – gen Math_9=(Math>=90)//成绩在90及以上的 – gen Math_8=(Math<90)&(Math>=80)//成绩在80~90之间 – list Math Math_9 Math_8//显示结果 – 显然这种统计方式是错误的，因为他将缺考的John的数学成绩当成超过90分来处理。
第五讲、命令语句结构与运算符
• 分类变量（by varlist）
– [by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options] 该语句的含义是根据变量列表，varlist来执行相应的命令。请比较下面的两个例子：例1：对所有汽车数据进行命令操作 – cd d:/mystata //设定工作路径为d盘的mystata文件夹 – use myauto.dta, clear //打开d盘文件夹mystata中的文件myauto.dta，并清空原有内存 – sum price mpg length //对变量进行基本统计分析 – 例2：*对国产车和进口车进行分类命令操作 – by foreign: sum price mpg length //对国产车和进口车分别进行基本的数据统计分析 – 注意：用by语句时，一定要确保内存中的数据是按照by后面的变量排序的，否则将会报错。请看下面的例子： – sort price //将内存中的数据按照价格进行排序 – by foreign: sum price mpg length – not sorted