Stata统计应用

Stata统计应用
Stata统计应用

江西省南昌市2015-2016学年度第一学期期末试卷

(江西师大附中使用)高三理科数学分析

一、整体解读

试卷紧扣教材和考试说明,从考生熟悉的基础知识入手,多角度、多层次地考查了学生的数学理性思维能力及对数学本质的理解能力,立足基础,先易后难,难易适中,强调应用,不偏不怪,达到了“考基础、考能力、考素质”的目标。试卷所涉及的知识内容都在考试大纲的范围内,几乎覆盖了高中所学知识的全部重要内容,体现了“重点知识重点考查”的原则。 1.回归教材,注重基础

试卷遵循了考查基础知识为主体的原则,尤其是考试说明中的大部分知识点均有涉及,其中应用题与抗战胜利70周年为背景,把爱国主义教育渗透到试题当中,使学生感受到了数学的育才价值,所有这些题目的设计都回归教材和中学教学实际,操作性强。 2.适当设置题目难度与区分度

选择题第12题和填空题第16题以及解答题的第21题,都是综合性问题,难度较大,学生不仅要有较强的分析问题和解决问题的能力,以及扎实深厚的数学基本功,而且还要掌握必须的数学思想与方法,否则在有限的时间内,很难完成。 3.布局合理,考查全面,着重数学方法和数学思想的考察

在选择题,填空题,解答题和三选一问题中,试卷均对高中数学中的重点内容进行了反复考查。包括函数,三角函数,数列、立体几何、概率统计、解析几何、导数等几大版块问题。这些问题都是以知识为载体,立意于能力,让数学思想方法和数学思维方式贯穿于整个试题的解答过程之中。

二、亮点试题分析

1.【试卷原题】11.已知,,A B C 是单位圆上互不相同的三点,且满足AB AC →

=,则A BA C →→

?的最小值为( )

A .1

4- B .12-

C .34-

D .1-

【考查方向】本题主要考查了平面向量的线性运算及向量的数量积等知识,是向量与三角的典型综合题。解法较多,属于较难题,得分率较低。

【易错点】1.不能正确用OA ,OB

,OC 表示其它向量。

2.找不出OB 与OA 的夹角和OB

与OC 的夹角的倍数关系。

【解题思路】1.把向量用OA ,OB

,OC 表示出来。

2.把求最值问题转化为三角函数的最值求解。

【解析】设单位圆的圆心为O ,由AB AC →

=得,22

()()OB OA OC OA -=- ,因为

1OA OB OC ===

,所以有,OB OA OC OA ?=? 则()()AB AC OB OA OC OA ?=-?-

2OB OC OB OA OA OC OA =?-?-?+

21OB OC OB OA =?-?+

设OB 与OA 的夹角为α,则OB

与OC 的夹角为2α

所以,cos22cos 1AB AC αα?=-+ 211

2(cos )22

α=--

即,AB AC ? 的最小值为1

2

-,故选B 。

【举一反三】

【相似较难试题】【2015高考天津,理14】在等腰梯形ABCD 中,已知

//,2,1,60AB DC AB BC ABC ==∠= ,动点E 和F 分别在线段BC 和DC 上,且,1,,9BE BC DF DC λλ

== 则AE AF ? 的最小值为.

【试题分析】本题主要考查向量的几何运算、向量的数量积与基本不等式.运用向量的几何

运算求,AE AF ,体现了数形结合的基本思想,再运用向量数量积的定义计算AE AF ? ,体

现了数学定义的运用,再利用基本不等式求最小值,体现了数学知识的综合应用能力.是思维能力与计算能力的综合体现. 【答案】

2918

【解析】因为1,9DF DC λ= 12

DC AB =

119199918CF DF DC DC DC DC AB λλλλλ

--=-=-== ,

AE AB BE AB BC λ=+=+ ,19191818AF AB BC CF AB BC AB AB BC λλλλ

-+=++=++=+ ,

()

221919191181818AE AF AB BC AB BC AB BC AB BC

λλλλλλλλλ+++?????=+?+=+++?? ? ?????

19199421cos1201818

λλ

λλ++=

?++???

?2117172992181818λλ=

++≥+= 当且仅当2192λλ=即23λ=时AE AF ? 的最小值为

29

18

. 2.【试卷原题】20. (本小题满分12分)已知抛物线C 的焦点()1,0F ,其准线与x 轴的

交点为K ,过点K 的直线l 与C 交于,A B 两点,点A 关于x 轴的对称点为D . (Ⅰ)证明:点F 在直线BD 上; (Ⅱ)设8

9

FA FB →

?=

,求BDK ?内切圆M 的方程. 【考查方向】本题主要考查抛物线的标准方程和性质,直线与抛物线的位置关系,圆的标准方程,韦达定理,点到直线距离公式等知识,考查了解析几何设而不求和化归与转化的数学思想方法,是直线与圆锥曲线的综合问题,属于较难题。

【易错点】1.设直线l 的方程为(1)y m x =+,致使解法不严密。

2.不能正确运用韦达定理,设而不求,使得运算繁琐,最后得不到正确答案。 【解题思路】1.设出点的坐标,列出方程。 2.利用韦达定理,设而不求,简化运算过程。 3.根据圆的性质,巧用点到直线的距离公式求解。

【解析】(Ⅰ)由题可知()1,0K -,抛物线的方程为24y x =

则可设直线l 的方程为1x my =-,()()()112211,,,,,A x y B x y D x y -, 故2

14x my y x =-??

=?整理得2

440y my -+=,故121244

y y m y y +=??=? 则直线BD 的方程为()212221y y y y x x x x +-=--即2

222144y y y x y y ?

?-=- ?-??

令0y =,得1214

y y

x ==,所以()1,0F 在直线BD 上.

(Ⅱ)由(Ⅰ)可知121244

y y m y y +=??=?,所以()()2

12121142x x my my m +=-+-=-,

()()1211111x x my my =--= 又()111,FA x y →=-,()221,FB x y →

=-

故()()()2

1212121211584FA FB x x y y x x x x m →→

?=--+=-++=-,

则2

84

84,93

m m -=

∴=±,故直线l 的方程为3430x y ++=或3430x y -+=

21y y -==

故直线BD 的方程330x -=或330x -=,又KF 为BKD ∠的平分线,

故可设圆心()(),011M t t -<<,(),0M t 到直线l 及BD 的距离分别为3131

,54t t +--------------10分 由

31315

4t t +-=

得1

9t =或9t =(舍去).故圆M 的半径为31253

t r +=

= 所以圆M 的方程为2

21499x y ?

?-+= ??

?

【举一反三】

【相似较难试题】【2014高考全国,22】 已知抛物线C :y 2=2px(p>0)的焦点为F ,直线y =4与y 轴的交点为P ,与C 的交点为Q ,且|QF|=5

4|PQ|.

(1)求C 的方程;

(2)过F 的直线l 与C 相交于A ,B 两点,若AB 的垂直平分线l′与C 相交于M ,N 两点,且A ,M ,B ,N 四点在同一圆上,求l 的方程.

【试题分析】本题主要考查求抛物线的标准方程,直线和圆锥曲线的位置关系的应用,韦达定理,弦长公式的应用,解法及所涉及的知识和上题基本相同. 【答案】(1)y 2=4x.

(2)x -y -1=0或x +y -1=0. 【解析】(1)设Q(x 0,4),代入

y 2=2px ,得

x 0=8

p

所以|PQ|=8p ,|QF|=p 2+x 0=p 2+8

p

.

由题设得p 2+8p =54×8

p ,解得p =-2(舍去)或p =2,

所以C 的方程为y 2=4x.

(2)依题意知l 与坐标轴不垂直,故可设l 的方程为x =my +1(m≠0). 代入y 2=4x ,得y 2-4my -4=0. 设A(x 1,y 1),B(x 2,y 2), 则y 1+y 2=4m ,y 1y 2=-4.

故线段的AB 的中点为D(2m 2+1,2m), |AB|=

m 2+1|y 1-y 2|=4(m 2+1).

又直线l ′的斜率为-m ,

所以l ′的方程为x =-1

m y +2m 2+3.

将上式代入y 2=4x ,

并整理得y 2+4

m y -4(2m 2+3)=0.

设M(x 3,y 3),N(x 4,y 4),

则y 3+y 4=-4

m

,y 3y 4=-4(2m 2+3).

故线段MN 的中点为E ? ????

2m

2+2m 2+3,-2m ,

|MN|=

1+1

m 2|y 3-y 4|=4(m 2+1)2m 2+1

m 2

.

由于线段MN 垂直平分线段AB ,

故A ,M ,B ,N 四点在同一圆上等价于|AE|=|BE|=1

2|MN|,

从而14|AB|2+|DE|2=1

4|MN|2,即 4(m 2+1)2+

? ????2m +2m 2+? ??

??2

m 2+22=

4(m 2+1)2(2m 2+1)

m 4

化简得m 2-1=0,解得m =1或m =-1, 故所求直线l 的方程为x -y -1=0或x +y -1=0.

三、考卷比较

本试卷新课标全国卷Ⅰ相比较,基本相似,具体表现在以下方面: 1. 对学生的考查要求上完全一致。

即在考查基础知识的同时,注重考查能力的原则,确立以能力立意命题的指导思想,将知识、能力和素质融为一体,全面检测考生的数学素养,既考查了考生对中学数学的基础知识、基本技能的掌握程度,又考查了对数学思想方法和数学本质的理解水平,符合考试大纲所提倡的“高考应有较高的信度、效度、必要的区分度和适当的难度”的原则. 2. 试题结构形式大体相同,即选择题12个,每题5分,填空题4 个,每题5分,解答题8个(必做题5个),其中第22,23,24题是三选一题。题型分值完全一样。选择题、填空题考查了复数、三角函数、简易逻辑、概率、解析几何、向量、框图、二项式定理、线性规划等知识点,大部分属于常规题型,是学生在平时训练中常见的类型.解答题中仍涵盖了数列,三角函数,立体何,解析几何,导数等重点内容。

3. 在考查范围上略有不同,如本试卷第3题,是一个积分题,尽管简单,但全国卷已经不考查了。

四、本考试卷考点分析表(考点/知识点,难易程度、分值、解题方式、易错点、是否区分度题)

STATA面板数据模型操作命令

S T A T A面板数据模型操 作命令 Revised by Jack on December 14,2020

S T A T A 面板数据模型估计命令一览表 一、静态面板数据的STATA 处理命令 εαβit ++=x y it i it 固定效应模型 εαμit +=it it 随机效应模型 (一)数据处理 输入数据 ●tsset code year 该命令是将数据定义为“面板”形式 ●xtdes 该命令是了解面板数据结构 ●summarize sq cpi unem g se5 ln 各变量的描述性统计(统计分析) ●gen lag_y= αi αi αi εit ~e it ~1-t e i ,8858.0~=θ5.0-~=θ验:是否存在门槛效应 混合面板: reg is lfr lfr2 hc open psra tp gr,vce(cluster sf) 固定效应、随机效应模型 xtreg is lfr lfr2 hc open psra tp gr,fe est store fe xtreg is lfr lfr2 hc open psra tp gr,re est store re hausman fe 两步系统GMM 模型 xtdpdsys rlt plf1 nai efd op ew ig ,lags(1) maxldep(2) twostep artests(2) 注:rlt 为被解释变量,“plf1 nai efd op ew ig ”为解释变量和控制变量;

maxldep(2)表示使用被解释变量的两个滞后值为工具变量;pre()表示以某一个变量为前定解释变量;endogenous()表示以某一个变量为内生解释变量。 自相关检验:estat abond 萨甘检验:estat sargan 差分GMM模型 Xtabond rlt plf1 nai efd op ew ig ,lags(1) twostep artests(2) 内生:该解释变量的取值是(一定程度上)由模型决定的。内生变量将违背解释变量与误差项不相关的经典假设,因而内生性问题是计量模型的大敌,可能造成系数估计值的非一致性和偏误; 外生:该解释变量的取值是(完全)由模型以外的因素决定的。外生解释变量与误差项完全无关,不论是当期,还是滞后期。 前定:该解释变量的取值与当期误差项无关,但可能与滞后期误差项相关。

STATA面板数据模型操作命令要点

STATA 面板数据模型估计命令一览表 一、静态面板数据的STATA 处理命令 εαβit ++=x y it i it 固定效应模型 μβit +=x y it it ε αμit +=it it 随机效应模型 (一)数据处理 输入数据 ●tsset code year 该命令是将数据定义为“面板”形式 ●xtdes 该命令是了解面板数据结构 ●summarize sq cpi unem g se5 ln 各变量的描述性统计(统计分析) ●gen lag_y=L.y /////// 产生一个滞后一期的新变量

gen F_y=F.y /////// 产生一个超前项的新变量 gen D_y=D.y /////// 产生一个一阶差分的新变量 gen D2_y=D2.y /////// 产生一个二阶差分的新变量 (二)模型的筛选和检验 ●1、检验个体效应(混合效应还是固定效应)(原假设:使用OLS混合模型)●xtreg sq cpi unem g se5 ln,fe 对于固定效应模型而言,回归结果中最后一行汇报的F统计量便在于检验所有的个体效应整体上显著。在我们这个例子中发现F统计量的概率为0.0000,检验结果表明固定效应模型优于混合OLS模型。 ●2、检验时间效应(混合效应还是随机效应)(检验方法:LM统计量) (原假设:使用OLS混合模型) ●qui xtreg sq cpi unem g se5 ln,re (加上“qui”之后第一幅图将不会呈现) xttest0

可以看出,LM检验得到的P值为0.0000,表明随机效应非常显著。可见,随机效应模型也优于混合OLS模型。 ●3、检验固定效应模型or随机效应模型(检验方法:Hausman检验) 原假设:使用随机效应模型(个体效应与解释变量无关) 通过上面分析,可以发现当模型加入了个体效应的时候,将显著优于截距项为常数假设条件下的混合OLS模型。但是无法明确区分FE or RE的优劣,这需要进行接下来的检验,如下: Step1:估计固定效应模型,存储估计结果 Step2:估计随机效应模型,存储估计结果 Step3:进行Hausman检验 ●qui xtreg sq cpi unem g se5 ln,fe est store fe qui xtreg sq cpi unem g se5 ln,re est store re hausman fe (或者更优的是hausman fe,sigmamore/ sigmaless) 可以看出,hausman检验的P值为0.0000,拒绝了原假设,认为随机效应模型的基本假设得不到满足。此时,需要采用工具变量法和是使用固定效应模型。

(完整)stata命令总结,推荐文档

stata11 常用命令 注:JB统计量对应的p大于0.05 ,则表明非正态,这点跟sktest 和 swilk 检验刚好相反;dta 为数据文件;gph 为图文件;do 为程序文件;注 意stata 要区别大小写;不得用作用户变量名: _all _n _N _skip _b _coef _cons _pi _pred _rc _weight double float long int in if using with 命令:读入数据一种方式 input x y 14 2 5.5 3 6.2 47.7 58.5 end su/summarise/sum x 或su/summarise/sum x,d 对分组的描述: sort group by group:su x %%%%% tabstat economy,stats(max)%返回变量economy的最大值 %%stats括号里可以是:mean,count(非缺失观测值个数),sum(总 和),max,min,range , %% sd ,var ,cv(变易系数=标准差/ 均值),skewness,kurtosis , median,p1(1 %分位 %% 数,类似地有p10, p25, p50, p75, p95, p99),iqr(interquantile range = p75 –p25) _all %描述全部 _N 数据库中观察值的总个数。 _n 当前观察值的位置。 _pi 圆周率π 的数值。 list gen/generate % 产生数列egen wagemax=max(wage) clear use by(分组变量)

[推荐] stata基本操作汇总常用命令

[推荐] Stata基本操作汇总——常用命令 help和search都是查找帮助文件的命令,它们之间的 区别在于help用于查找精确的命令名,而search是模糊查找。 如果你知道某个命令的名字,并且想知道它的具体使用方法,只须在stata的命令行窗口中输入help空格加上这个名字。回车后结果屏幕上就会显示出这个命令的帮助文件的全部 内容。如果你想知道在stata下做某个估计或某种计算,而 不知道具体该如何实现,就需要用search命令了。使用的 方法和help类似,只须把准确的命令名改成某个关键词。回车后结果窗口会给出所有和这个关键词相关的帮助文件名 和链接列表。在列表中寻找最相关的内容,点击后在弹出的查看窗口中会给出相关的帮助文件。耐心寻找,反复实验,通常可以较快地找到你需要的内容.下面该正式处理数据了。我的处理数据经验是最好能用stata的do文件编辑器记下你做过的工作。因为很少有一项实证研究能够一次完成,所以,当你下次继续工作时。能够重复前面的工作是非常重要的。有时因为一些细小的不同,你会发现无法复制原先的结果了。这时如果有记录下以往工作的do文件将把你从地狱带到天堂。因为你不必一遍又一遍地试图重现做过的工作。在stata 窗口上部的工具栏中有个孤立的小按钮,把鼠标放上去会出

现“bring do-file editor to front”,点击它就会出现do文件编 辑器。 为了使do文件能够顺利工作,一般需要编辑do文件的“头”和“尾”。这里给出我使用的“头”和“尾”。capture clear (清空内存中的数据)capture log close (关闭所有 打开的日志文件)set more off (关闭more选项。如果打开该选项,那么结果分屏输出,即一次只输出一屏结果。你按空格键后再输出下一屏,直到全部输完。如果关闭则中间不停,一次全部输出。)set matsize 4000 (设置矩阵的最大阶数。我用的是不是太大了?)cd D: (进入数据所在的盘符和文件夹。和dos的命令行很相似。)log using (文件名).log,replace (打开日志文件,并更新。日志文件将记录下所有文件运行后给出的结果,如果你修改了文件内容,replace选项可以将其更新为最近运行的结果。)use (文件名),clear (打开数据文件。)(文件内容)log close (关闭日志文件。)exit,clear (退出并清空内存中的数据。) 实证工作中往往接触的是原始数据。这些数据没有经过整理,有一些错漏和不统一的地方。比如,对某个变量的缺失观察值,有时会用点,有时会用-9,-99等来表示。回归时如果 使用这些观察,往往得出非常错误的结果。还有,在不同的数据文件中,相同变量有时使用的变量名不同,会给合并数

Stata操作入门

Stata软件基本操作和数据分析入门 第一讲Stata操作入门 张文彤赵耐青 第一节概况 Stata最初由美国计算机资源中心(Computer Resource Center)研制,现在为Stata公司的产品,其最新版本为7.0版。它操作灵活、简单、易学易用,是一个非常有特色的统计分析软件,现在已越来越受到人们的重视和欢迎,并且和SAS、SPSS一起,被称为新的三大权威统计软件。 Stata最为突出的特点是短小精悍、功能强大,其最新的7.0版整个系统只有10M左右,但已经包含了全部的统计分析、数据管理和绘图等功能,尤其是他的统计分析功能极为全面,比起1G以上大小的SAS系统也毫不逊色。另外,由于Stata在分析时是将数据全部读入内存,在计算全部完成后才和磁盘交换数据,因此运算速度极快。 由于Stata的用户群始终定位于专业统计分析人员,因此他的操作方式也别具一格,在Windows席卷天下的时代,他一直坚持使用命令行/程序操作方式,拒不推出菜单操作系统。但是,Stata的命令语句极为简洁明快,而且在统计分析命令的设置上又非常有条理,它将相同类型的统计模型均归在同一个命令族下,而不同命令族又可以使用相同功能的选项,这使得用户学习时极易上手。更为令人叹服的是,Stata语句在简洁的同时又拥有着极高的灵活性,用户可以充分发挥自己的聪明才智,熟练应用各种技巧,真正做到随心所欲。

除了操作方式简洁外,Stata的用户接口在其他方面也做得非常简洁,数据格式简单,分析结果输出简洁明快,易于阅读,这一切都使得Stata成为非常适合于进行统计教学的统计软件。 Stata的另一个特点是他的许多高级统计模块均是编程人员用其宏语言写成的程序文件(ADO文件),这些文件可以自行修改、添加和下载。用户可随时到Stata网站寻找并下载最新的升级文件。事实上,Stata的这一特点使得他始终处于统计分析方法发展的最前沿,用户几乎总是能很快找到最新统计算法的Stata程序版本,而这也使得Stata自身成了几大统计软件中升级最多、最频繁的一个。 由于以上特点,Stata已经在科研、教育领域得到了广泛应用,WHO的研究人员现在也把Stata作为主要的统计分析工作软件。 第二节Stata操作入门 一、Stata的界面 图1即为Stata 7.0启动后的界面,除了Windows版本的软件都有的菜单栏、工具栏,状态栏等外,Stata的界面主要是由四个窗口构成,分述如下: 1.结果窗口:位于界面右上部,软件运行中的所有信息,如所执行的命令、执行结果和出错信息等均在这里列出。窗口中会使用不同的颜色区分不同的文本,如白色表示命令,红色表示错误信息。 2.命令窗口:位于结果窗口下方,相当于DOS软件中的命令行,此处用于键入需要执行的命令,回车后即开始执行,相应的结果则会在结果窗口中显示出来。

Stata统计分析命令

Stata统计分析常用命令汇总 一、winsorize极端值处理 范围:一般在1%和99%分位做极端值处理,对于小于1%的数用1%的值赋值,对于大于99%的数用99%的值赋值。 1、Stata中的单变量极端值处理: stata 11.0,在命令窗口输入“findit winsor”后,系统弹出一个窗口,安装winsor模块 安装好模块之后,就可以调用winsor命令,命令格式:winsor var1, gen(new var) p(0.01) 或者在命令窗口中输入:ssc install winsor安装winsor命令。winsor命令不能进行批量处理。 2、批量进行winsorize极端值处理: 打开链接:https://www.360docs.net/doc/0810681425.html,/judson.caskey/data.html,找到winsorizeJ,点击右键,另存为到stata中的ado/plus/目录下即可。命令格式:winsorizeJ var1var2var3,suffix(w)即可,这样会生成三个新变量,var1w var2w var3w,而且默认的是上下1%winsorize。如果要修改分位点,则写成如下格式:winsorizeJ var 1 var2 var3,suffix(w) cuts(5 95)。 3、Excel中的极端值处理:(略) winsor2 命令使用说明 简介:winsor2 winsorize or trim (if trim option is specified) the variables in varlist at particular percentiles specified by option cuts(# #). In defult, new variables will be generated with a suffix "_w" or "_tr", which can be changed by specifying suffix() option. The replace option replaces the variables with their winsorized or trimmed ones. 相比于winsor命令的改进: (1) 可以批量处理多个变量; (2) 不仅可以winsor,也可以trimming; (3) 附加了by() 选项,可以分组winsor 或trimming; (4) 增加了replace 选项,可以不必生成新变量,直接替换原变量。 范例: *- winsor at (p1 p99), get new variable "wage_w" . sysuse nlsw88, clear . winsor2 wage *- left-trimming at 2th percentile . winsor2 wage, cuts(2 100) trim *- winsor variables by (industry south), overwrite the old variables . winsor2 wage hours, replace by(industry south) 使用方法: 1. 请将winsor 2.ado 和winsor2.sthlp 放置于stata12\ado\base\w 文件夹下; 2. 输入help winsor2 可以查看帮助文件;

stata统计操作命令

一, 分类数据的整理: 1. 将softdrink 数据粘贴到stata 的data editor ,形成变量var1 2. 输入命令 generate var2 = 1,生成变量var2 3. 点击 statistics —summaries-tables —one way tables 输入var1,OK ,产生 频数分布表;或输入命令 tabulate var1 Total 50 100.00 Sprite 5 10.00 100.00 Pepsi-Cola 13 26.00 90.00 Dr. Pepper 5 10.00 64.00 Diet Coke 8 16.00 54.00Coke Classic 19 38.00 38.00 var1 Freq. Percent Cum.tabulate var1 4. 点击 graphics —bar chart –在main 下 选择sum var2,在catageries 下选择group1 var1,在bars 下,打钩 label with total bar height ,OK 产生条形图。或命令:graph bar (sum) var2, over(var1) blabel(total) s u m o f v a r 2 5. 输入命令 graph pie var2, over(var1) plabel(_all percent) 生成饼形图

二,数值型数据的整理: 1.将wageweb(50个营销副总裁的年薪1000$)粘贴到stata的data editor上。 2.输入:histogram var1, width(10) start(90) percent addlabel norm 或点击graphics—histogram,输入var1 ,在width of bin 输入10,在lower limited 输入90,在add height label 打钩,在density plot 下打钩normal,生成直方图。 3.点击graphics—box plot ,输入var1,生成箱线图 4.点击statistics—summaries-distributional plot—stem-and-leaf display 选择var1 产生茎叶图。 5,点击statistics—summaries-summary-summary statistics,选择var1,在display additional statistics项打钩,产生数据分布的概括性度量指标。

stata常用命令

面板数据估计 首先对面板数据进行声明: 前面是截面单元,后面是时间标识: tsset company year tsset industry year 产生新的变量:gen newvar=human*lnrd 产生滞后变量Gen fiscal(2)=L2.fiscal 产生差分变量Gen fiscal(D)=D.fiscal 描述性统计: xtdes :对Panel Data截面个数、时间跨度的整体描述 Xtsum:分组内、组间和样本整体计算各个变量的基本统计量 xttab 采用列表的方式显示某个变量的分布 Stata中用于估计面板模型的主要命令:xtreg xtreg depvar [varlist] [if exp] , model_type [level(#) ] Model type 模型 be Between-effects estimator fe Fixed-effects estimator re GLS Random-effects estimator pa GEE population-averaged estimator mle Maximum-likelihood Random-effects estimator 主要估计方法: xtreg: Fixed-, between- and random-effects, and population-averaged linear models xtregar:Fixed- and random-effects linear models with an AR(1) disturbance xtpcse :OLS or Prais-Winsten models with panel-corrected standard errors xtrchh :Hildreth-Houck random coefficients models

STATA统计分析入门

STATA统计分析入门 STATA统计软件包是目前世界上最著名的统计软件之一,与SAS、SPSS一起被并称为三大权威软件。它广泛的应用于经济、教育、人口、政治学、社会学、医学、药学、工矿、农林等学科领域,同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点,几乎可以完成全部复杂的统计分析工作。其功能非常强大且操作简单、使用灵活、易学易用、运行速度极快,在许多方面别具一格。 STATA最为突出的特点是短小精悍、功能强大,整个系统一般在200M左右,但是已经包含了全部的统计分析。数据管理和绘图等功能,尤其是它的统计分析功能极为全面,比起1G以上大小的SAS系统也毫不逊色。而且STATA在分析时是将数据全部读入内存,在计算全部完成后才和磁盘交换数据,因此运算速度极快。STATA的命令语句也极为简洁明快,而且在统计分析命令的设置上又非常有条理,它将相同类型的统计模型均归在同一个命令族下,而不同命令族又可以使用相同功能的选项,这使得用户学习时极易上手。STATA语句在简洁的同时又拥有着极高的灵活性,用户可以充分发挥自己的聪明才智,熟练应用各种技巧,真正做到随心所欲。 STATA的另一个特点是他的许多高级统计模块均是编程人员用宏语言写成的程 序文件(ADO文件),这些文件可以自行修改、添加和下载。用户可随时到STATA 网站寻找并下载最新的升级文件。 课程简介: 该课程主要是为大家介绍STATA的基本用法和简单的统计分析。 课程大纲: 第一课:STATA简介 介绍STATA基本情况(统计编程及作图功能),软件窗口界面及基本数据处理的操作方法。 第二课:STATA中的图形制作 介绍图形制作的基本命令和一些基本图形的绘制(直方图、散点图、箱线图、饼图等) 第三课:假设检验与方差分析ANOVA STATA下单双因素方差分析的操作,及假设检验 第四课:简单与多元回归 介绍大小样本下的最小二乘法与多元线性回归,介绍如何用STATA做回归诊断 课程基础: 简单的英文基础,因为STATA是英文版的

stata命令大全

调整变量格式: format x1 %10.3f ——将x1的列宽固定为10,小数点后取三位 format x1 %10.3g ——将x1的列宽固定为10,有效数字取三位 format x1 %10.3e ——将x1的列宽固定为10,采用科学计数法 format x1 %10.3fc ——将x1的列宽固定为10,小数点后取三位,加入千分位分隔符 format x1 %10.3gc ——将x1的列宽固定为10,有效数字取三位,加入千分位分隔符 format x1 %-10.3gc ——将x1的列宽固定为10,有效数字取三位,加入千分位分隔符,加入“-”表示左对齐 合并数据: use "C:\Documents and Settings\xks\桌面\2006.dta", clear merge using "C:\Documents and Settings\xks\桌面\1999.dta" ——将1999和2006的数据按照样本(observation)排列的自然顺序合并起来 use "C:\Documents and Settings\xks\桌面\2006.dta", clear merge id using "C:\Documents and Settings\xks\桌面\1999.dta" ,unique sort ——将1999和2006的数据按照唯一的(unique)变量id来合并,在合并时对id进行排序(sort)建议采用第一种方法。 对样本进行随机筛选: sample 50 在观测案例中随机选取50%的样本,其余删除 sample 50,count 在观测案例中随机选取50个样本,其余删除 查看与编辑数据: browse x1 x2 if x3>3 (按所列变量与条件打开数据查看器) edit x1 x2 if x3>3 (按所列变量与条件打开数据编辑器) 数据合并(merge)与扩展(append) merge表示样本量不变,但增加了一些新变量;append表示样本总量增加了,但变量数目不变。one-to-one merge: 数据源自stata tutorial中的exampw1和exampw2 第一步:将exampw1按v001~v003这三个编码排序,并建立临时数据库tempw1 clear use "t:\statatut\exampw1.dta" su ——summarize的简写 sort v001 v002 v003 save tempw1 第二步:对exampw2做同样的处理 clear use "t:\statatut\exampw2.dta" su sort v001 v002 v003 save tempw2 第三步:使用tempw1数据库,将其与tempw2合并: clear use tempw1 merge v001 v002 v003 using tempw2

如何运用Stata完成统计数据汇总工作论文.doc

本加总在一起,合并后样本变量数目不变,样本数增加,也就是数据文件变长了。最常见的纵向合并情况是对一项调查在不同地区或者不同时间得来的数据进行合并。Stata 纵向合并数据文件的命令为“append”.比如,我们将调查得到的包含北京市调查数据的数据文件“bj.dta”和包含天津市调查数据的数据文件“tj.dta”纵向合并的Stata命 令为: use bj,clear append using tj 需要注意的是,在纵向合并两个数据文件前,两个文件中相同变量的变量名要一致,否则将会被当成两个变量处理,并产生无用的缺失值。同时,相同变量的变量类型要一致。 汇总问卷调查结果 问卷调查时效性较强,调查结果容易量化,便于统计处理与分析,是常用的统计调查方法。问卷调查结果用Stata 进行汇总非常方便,使用“tabulate”命令,可方便的生成列联表,根据变量的频数分布可以得到问卷回答情况的汇总结果。比如,对10000个样本企业开展问卷调查,涉及10 个问题,分别为:

WT1,WT2, ……,WT10(每个问题的答案均为A、B、C、D 四个选项)。汇总问题WT1 的回答情况时,只需输入命令:tabulateWT1,即可得到WT1 样本回答情况的频数(Freq)、百分比(Percent)及累计百分比(Cum)指标(Stata 输出结果见表1)。从Freq 输出结果可见,样本企业对WT1 的回答情况为:选择答案A、B、C、D 的企业数量分别为1000、3000、4000 和2000 个。Percent结果给出了选择答案1、2、3、4 的比重分别为10%,30%、40% 和20%. 同时,“tabulate”命令还可以生成2 维列联表,比如,需要对问题WT1 做分省回答结果的汇总时,只需对省代码(sf)和WT1 执行“tabulate”汇总。Stata 命令为:tabulate sf WT1,即可输出表 2 格式的汇总结果{ 假设调查只涉及北京市(代码11)、天津市(代码12)、河北省(代码13)}. 类似的,可以对每一个问题的调查结果分行业、分登记注册类型、分控股情况等做交叉分组汇总。 汇总生产经营情况调查结果 现行的统计报表制度更多的是对调查单位的生产经营情况开展年度、季度或者是月度调查。日常的数据汇总工作更多的是对生产经营指标做各种交叉分组汇总。 与问卷调查结果不同,生产经营情况的调查结果需要对调查指标数据加总或者通过计算生成新的指标,因此,我们首先要生成新的变量,来记录相应指标的汇总结果。Stata 生成新变量的命令为“generate”及其扩展命令“egen”.“generate”用来生

运用Stata做计量经济学

运用Stata做计量经济学 运用Stata建模的7步骤: 1、准备工作;目录、日志、读入数据、熟悉数据、时间变量、more、……; 2、探索数据:数据变换、描述统计量、相关系数、趋势图、散点图、……; 3、建立模型:regress、经济理论检验、实际经济问题要求、统计学检验、计量经济学检验:R2,T,t,残差; 4、诊断模型:异方差、序列相关、多重共线性、随机解释变量问题、……; 5、修正模型:WLS、GLS、工具变量法(ivregress),……; 6、应用模型:置信区间、预测、结构分析、边际分析、弹性分析、常用模型回归系数的意义、……; 7、整理:关闭日志、生成do文件备用 1、准备工作 让STATA处于初始状态,清除所有使用过的痕迹clear 指明版本号version11 设定并进入工作文件夹:cd D:\ (设定路径,将数据、程序和输出结果文件均存入该文件夹) 关闭以前的日志capture log close 建立日志:log using , replace 设定内存:set mem 20m

关闭more:set more off 读入数据:use .dta, clear 认识变量:describe 建立时间变量:tsset 2、用描述统计方法探索数据特征 必要的数据转换:gen、replace、……; 描述统计量:summarize, detail 相关系数矩阵:corr/pwcorr 散点图和拟合直线图:scatter y x || lfit y x 矩阵散点图:graph matrix y x1 x2 x3,half 线性趋势图:line y x 3、建立模型 OLS建立模型:regress y x1 x2 x3; 由方差分析表并用F和R2检验模型整体显著性; 依据p值对各系数进行t检验,一次只能剔出一个最不显著的变量,直到不包含不显著的变量; 估计参数,判别变量的相对重要性; 构造和估计约束模型,用以检验经济理论

stata命令大全(全)

*********面板数据计量分析与软件实现********* 说明:以下do文件相当一部分容来自于大学连玉君STATA教程,感他的贡献。本人做了一定的修改与筛选。 *----------面板数据模型 * 1.静态面板模型:FE 和RE * 2.模型选择:FE vs POLS, RE vs POLS, FE vs RE (pols混合最小二乘估计) * 3.异方差、序列相关和截面相关检验 * 4.动态面板模型(DID-GMM,SYS-GMM) * 5.面板随机前沿模型 * 6.面板协整分析(FMOLS,DOLS) *** 说明:1-5均用STATA软件实现, 6用GAUSS软件实现。 * 生产效率分析(尤其指TFP):数据包络分析(DEA)与随机前沿分析(SFA) *** 说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,侧重于比较C-D与Translog 生产函数,一步法与两步法的区别。常应用于地区经济差异、FDI溢出效应(Spillovers Effect)、工业行业效率状况等。 * 空间计量分析:SLM模型与SEM模型 *说明:STATA与Matlab结合使用。常应用于空间溢出效应(R&D)、财政分权、地方政府公共行为等。 * --------------------------------- * --------一、常用的数据处理与作图----------- * --------------------------------- * 指定面板格式 xtset id year (id为截面名称,year为时间名称) xtdes /*数据特征*/ xtsum logy h /*数据统计特征*/ sum logy h /*数据统计特征*/ *添加标签或更改变量名 label var h "人力资本" rename h hum *排序 sort id year /*是以STATA面板数据格式出现*/ sort year id /*是以DEA格式出现*/ *删除个别年份或省份 drop if year<1992 drop if id==2 /*注意用==*/

Stata命令大全 面板数据计量分析与软件实现

Stata命令大全面板数据计量分析与软件实现 说明:以下do文件相当一部分内容来自于中山大学连玉君STATA教程,感谢他的贡献。本人做了一定的修改与筛选。 *----------面板数据模型 * 1.静态面板模型:FE 和RE * 2.模型选择:FE vs POLS, RE vs POLS, FE vs RE (pols混合最小二乘估计) * 3.异方差、序列相关和截面相关检验 * 4.动态面板模型(DID-GMM,SYS-GMM) * 5.面板随机前沿模型 * 6.面板协整分析(FMOLS,DOLS) *** 说明:1-5均用STATA软件实现, 6用GAUSS软件实现。 * 生产效率分析(尤其指TFP):数据包络分析(DEA)与随机前沿分析(SFA) *** 说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,侧重于比较C-D与Translog生产函数,一步法与两步法的区别。常应用于地区经济差异、FDI 溢出效应(Spillovers Effect)、工业行业效率状况等。 * 空间计量分析:SLM模型与SEM模型 *说明:STATA与Matlab结合使用。常应用于空间溢出效应(R&D)、财政分权、地方政府公共行为等。 * --------------------------------- * --------一、常用的数据处理与作图----------- * --------------------------------- * 指定面板格式 xtset id year (id为截面名称,year为时间名称) xtdes /*数据特征*/ xtsum logy h /*数据统计特征*/ sum logy h /*数据统计特征*/ *添加标签或更改变量名 label var h "人力资本"

Stata教程:描述性统计命令与输出结果说明

本节STATA命令摘要 by 分组变量:]summarize变量名1变量名2… 变量名m[,detail] ci变量名1变量名2… 变量名m[,level(#)binomial poissonexposure(varname)by(分组变量)] cii 样本量 均数 标准差[,level(#)] tab1变量名[,generate(变量名)] · 资料特征描述(均数,中位数,离散程度) 例:某地测定克山病患者与克山病健康人的血磷测定值如下表(数据摘自四川医学院主编的卫生统计学,1978出版,p21): 患者 2.6 3.24 3.73 3.73 4.32 4.73 5.18 5.58 5.78 6.40 6.53 健康人 1.67 1.98 1.98 2.33 2.34 2.50 3.60 3.73 4.14 4.17 4.57 4.82 5.78 并假定这些数据已以STATA格式存入ex2.dta文件中,其中变量x1为患者的血磷测定值数据,变量x2为健康人的血磷测定值数据。上述数据也可以用变量x表示血磷测

定值,分组变量group=0表示患者组和group=1表示健康组(如:患者组中第一个数据为2.6,则x=2.6,group=0;又如:健康组中第三个数据为1.98,则x为1.98以及group为1),并假定这些数据已以STATA格式存入ex2a.dta文件中。 计算资料均数,标准差命令summarize,以述资料为例: useex2,clear summarizex1x2 结果: 变量 样本数 均数 标准差 最小值 最大值 Variable| Obs Mean Std.Dev. Min Max ---------+ x1| 11 4.710909 1.302977 2.6 6.53 x2| 13 3.354615 1.304368 1.67 5.78 即:本例中急性克山病患者组的样本数为11,血磷测定值均数为4.711(mg%),相应的标准差为1.303,最小值为2.6以及最大值为6.53;健康组的样本量为13,血磷测定值均数为3.3546,相应的标准差为1.3044,最小值为1.67以及最大值为5.78。 计算资料均数,标准差,中位数,低四分位数和高四分位数的命令summarize 以及子命令detail,仍以述资料为例: use ex2,clear summarizex1x2,detail 结果: x1 Percentiles Smallest(最小值) 1%

Stata统计分析命令

S t a t a统计分析命令 Company number:【0089WT-8898YT-W8CCB-BUUT-202108】

Stata统计分析常用命令汇总 一、winsorize极端值处理 范围:一般在1%和99%分位做极端值处理,对于小于1%的数用1%的值赋值,对于大于99%的数用99%的值赋值。 1、Stata中的单变量极端值处理: stata ,在命令窗口输入“findit winsor”后,系统弹出一个窗口,安装winsor模块 安装好模块之后,就可以调用winsor命令,命令格式:winsor var1, gen(new var) p 或者在命令窗口中输入:ssc install winsor安装winsor命令。winsor命令不能进行批量处理。 2、批量进行winsorize极端值处理: 打开链接:,找到winsorizeJ,点击右键,另存为到stata中的ado/plus/目录下即可。命令格式:winsorizeJ var1var2var3,suffix(w)即可,这样会生成三个新变量,var1w var2w var3w,而且默认的是上下1%winsorize。如果要修改分位点,则写成如下格式:winsorizeJ var 1 var2 var3,suffix(w) cuts(5 95)。 3、Excel中的极端值处理:(略) winsor2 命令使用说明 简介:winsor2 winsorize or trim (if trim option is specified) the variables in varlist at particular percentiles specified by option cuts(# #). In defult, new variables will be generated with a suffix "_w" or "_tr", which can be changed by specifying suffix() option. The replace option replaces the variables with their winsorized or trimmed ones. 相比于winsor命令的改进: (1) 可以批量处理多个变量; (2) 不仅可以 winsor,也可以 trimming; (3) 附加了 by() 选项,可以分组 winsor 或 trimming;

STATA面板数据模型操作命令

S T A T A面板数据模型 操作命令 集团标准化工作小组 #Q8QGGQT-GX8G08Q8-GNQGJ8-MHHGN#

S T A T A 面板数据模型估计命令一览表 一、静态面板数据的STATA 处理命令 εαβit ++=x y it i it 固定效应模型 εαμit +=it it 随机效应模型 (一)数据处理 输入数据 ●tsset code year 该命令是将数据定义为“面板”形式 ●xtdes 该命令是了解面板数据结构 ●summarize sq cpi unem g se5 ln 各变量的描述性统计(统计分析) ●gen lag_y= αi αi αi εit ~e it ~1-t e i ,8858.0~=θ5.0-~=θ验:是否存在门槛效应 混合面板: reg is lfr lfr2 hc open psra tp gr,vce(cluster sf) 固定效应、随机效应模型 xtreg is lfr lfr2 hc open psra tp gr,fe est store fe xtreg is lfr lfr2 hc open psra tp gr,re est store re hausman fe 两步系统GMM 模型 xtdpdsys rlt plf1 nai efd op ew ig ,lags(1) maxldep(2) twostep artests(2) 注:rlt 为被解释变量,“plf1 nai efd op ew ig ”为解释变量和控制变量;

maxldep(2)表示使用被解释变量的两个滞后值为工具变量;pre()表示以某一个变量为前定解释变量;endogenous()表示以某一个变量为内生解释变量。 自相关检验:estat abond 萨甘检验:estat sargan 差分GMM模型 Xtabond rlt plf1 nai efd op ew ig ,lags(1) twostep artests(2) 内生:该解释变量的取值是(一定程度上)由模型决定的。内生变量将违背解释变量与误差项不相关的经典假设,因而内生性问题是计量模型的大敌,可能造成系数估计值的非一致性和偏误; 外生:该解释变量的取值是(完全)由模型以外的因素决定的。外生解释变量与误差项完全无关,不论是当期,还是滞后期。 前定:该解释变量的取值与当期误差项无关,但可能与滞后期误差项相关。

在STATA使用statsby命令做分组回归

在STATA使用statsby命令做分组回归 赵岩徐畅 (吉林大学商学院会计系) 在实际的回归分析中,经常需要做多分组的回归,譬如:分别按年度、行业进行回归。如果仅仅使用regress命令,那么必然造成进行重复多次的繁重劳动。当然,一种办法就是通过编程来实现,不过这需要拥有较好的编程能力,绝大多数初学者甚至是资深人士都不愿选择的。其实STATA中已经提供了相应的命令完成这个貌似繁重的工作,即statsby,这个可以专门用来处理分组数据的命令。 一、statsby的命令格式及说明 statsby命令格式为: statsby [exp_list] [, options ]: command 其具体内容,请参见STA TA的help文件,即: help statsby 在分组回归中,statsby最重要的是如下三个部分: (1)[, options ],应使用分组变量,如:“,by(year industry)”; (2)command,应选用相应的回归命令,如果是OLS,那么就为“regress y x1 x2”; (3)[exp_list],要统计的相应参数,如:系数拟合值、拟和优度、自由度等,可参见对应command的help文件。 综合起来,命令可以写为: use “d:\statsbydata.dta”,clear sort year industy Statsby _b _se e(r2) e(r2_a) e(df_m) e(df_r) e(F) e(N), by(year industry) saving(d:\statsbyresults.dta, replace): regress y x1 x2 其中: d:\statsbydata.dta为举例使用数据库,包括变量为:y、x1、x2、year和industry,其中year和industry是用来做分组回归的分组标识变量; sort是排序命令,建议养成好习惯对分组变量排序,为了后续研究做准备。 _b为各变量的回归系数; _se为各变量的标准误; e(r2)为回归方程的拟和优度r2; e(r2_a)为回归方程的调整后r2; e(df_m)为回归方程的模型自由度,一般的统计、计量的书籍都记为(K-1); e(df_r)为回归方程的剩余自由度,一般的统计、计量的书籍都记为(n-K); e(F)为回归方程的F值; e(N)为进入回归方程的有效样本数N,一般的统计、计量的书籍都记为n,也即前述提及的n; by(year industry),使用变量year和industry作为分组变量,进行分组统计; saving(d:\statsbyresults.dta, replace),将结果保存,也可以保存在临时表里; regress y x1 x2,进行回归,这部分可以参看regress命令自身格式进行扩充。 此命令结束后,将在D盘下产生一个名字为statsbyresults.dta的文件,上述统计量都将在此文件中。这里需要说明的是_b和_se是系统生成的向量,因此不能随便赋给变量,而e()

相关文档
最新文档