第二讲 stata画图和线性回归基础

合集下载

chap06stata基本回归分析

无自相关
误差项之间不存在自相关，即误差项的过去值不应该影响当前值。
线性关系
因变量和自变量之间存在线性关系，即它们之间的关系可以用直线来描述。
无异方差性
误差项的方差应该是一个常数，以确保模型具有一致性。
无随机误差项
误差项应该是随机的，并且与自变量无关。
04
Stata基本回归分析操作
Stata回归分析命令
考虑数据的非线性关系
线性回归假设自变量和因变量之间存在线性关系。如果实际关系是非线性的，可以考虑使用其他模型或对自变量进行转换。
重视多元共线性问题
当多个自变量之间高度相关时，可能会导致多元共线性问题，影响回归结果的稳定性。在实际应用中，应重视这一问题，并采取相应措施解决或缓解。
THANKS
感谢观看
检查模型假设条件
回归分析需要满足一定的假设条件，如线性关系、误差项独立同分布等，需要对这些假设条件进行检查。
优化模型
根据评估结果，对模型进行优化，可以考虑增加或删除自变量、改变模型形式等，以提高模型的拟合优度和预测精度。
06
案例分析
数据来源与处理
总结词
数据清洗与整理
详细描述
在进行回归分析之前，需要确保数据的准确性和完整性。数据来源应可靠，避免出现异常值和缺失值。使用 Stata进行数据清洗和整理，包括数据排序、变量转换、缺失值处理等步骤，为后续分析做好准备。
解释回归系数的意
义
回归系数的大小和正负可以用来解释自变量对因变量的影响程度和方向，从而深入理解数据之间的关系。
考虑其他因素的影
响
在解释回归结果时，需要综合考虑其他潜在因素的影响，以避免对结果的过度解读或误导。

金融数据库如何使用STATA做回归分析 ppt课件

– 实验数据：在实验环境中获得 – 非实验数据：对个人、企业或者经济系统中进
行观测得到
• 通常情况下，社会科学使用非实验数据。
金融数据库如何使用STATA做回归分析
数据类型
• 时间序列：变量由不同时间的观测值构成。如1993年至 2015年股票价格，GDP, CPI，汽车销售量。
• 横截面数据：在某个时点对个人、企业、家庭、国家等个体采集样本形成的数据。如某时点股票价格、GDP, CPI, 汽车销售量，某年份个人、家庭收入，企业销售额。
– 多元回归，回归分析推断，大样本理论 – 虚拟变量回归 – 异方差，自相关
• 使用STATA做多元回归分析
– 数据导入、描述、画图 – 回归分析、回归诊断
金融数据库如何使用STATA做回归分析
教材
• 计量经济学
– 伍德里奇，计量经济学导论，人民大学出版社 – Chattefueer & Hadi, Regression Analysis by Sample – Stock & Watson, 计量经济学导论 – Jonhnston: Econometric Methods
–
金融数据库如何使用STATA做回归分析
国内常用微观数据5
• 中国家庭动态跟踪调查数据。（ Chinese Family Panel Studies, CFPS）。
– 是北京大学中国社会科学调查中心(ISSS)实施的一项旨在通过跟踪搜集个体、家庭、社区三个层次的数据，反映中国社会、经济、人口、教育和健康的变迁。2008年在北京、上海、广东的展开探索性调查，调查规模为2400户；2009年在北京、上海、广东三地展开工具性测试跟踪调查，测试CAPI技术、调查进程实时管理技术、调查进程实时技术支持系统、数据质量实时监控技术的稳定性和可靠性。2010年在全国（西藏、青海、新疆、宁夏、内蒙古、海南、香港、澳门、台湾不在其列）正式实施，调查规模为 16000户，每年一次跟踪调查。

Stata基本操作和数据分析入门直线回归

差，即使 0 ，其估计值往往不为0，所以需要对回归系数是否为0
进行假设检验。回归系数的假设检验一般要求资料满足独立性、正态性和等方差。
直线回归对资料的要求小结
❖ 独立性（independent)：指任意两条记录互相独立，一个个体的取值不受其它个体的影响。通常可以利用专业知识或经验来判断这项假定是否成立。
直线回归系数的估计
❖ 用最小二乘法拟合直线，选择a和b使其残差（样本点到直线的垂直距离)平方和达到最小。即:使下列的SSE达到最小值。
SSE ( yi yˆi )2 ( yi a bxi )2
由此得到
b
( yi y)( xi (xi x)2
x)
,a
y
bx
回归系数的意义
❖由总体回归方程可知 Y|X X ❖回归系数表示：x增加一个单位，总体均数 Y X
❖ 正态 (normal)：假定线性模型的误差项服从正态分布（等价于当为定值时的值也呈正态分布）。由于残差是误差项的估计值，所以一般只需检验残差是否服从正态分布，可以直接对残差作正态性检验或正态概率图来考察这一条件是否成立。样本量较大时，可以忽略残差的正态性要求。
❖ 等方差（equal variance)：是指在自变量取值范围内，不论取什么值，都具有相同的方差，等价于残差的方差齐性。通常可采用散点图或残差的散点图判断该假设。
增加个单位
❖由于 Yˆ a bX 是 Y|X X
的估计表达式，所以(样本）回归系数b表示x增加一个单位，样本观察值y平均增加b个单位。
回归系数假设检验的必要性
❖由于＝0时， Y|X ，Y与x之间不存在直
线回归关系，因此是否为0，涉及到所建立的回归方程是否有意义的重大问题，然而即使＝0，样本回归系数b一般不为0(原因?)，因此需要对回归

stata操作介绍之基础部分PPT幻灯片课件

数据编辑器
38
注意：
1.如果为某一变量输入的第一个值是一个数字，比如对人口、失业率和预期寿命这些变量，那么stata便会认为这一列是一个“数值变量”，从此以后只允许数字作为取值。 2.如果为某一变量第一次输入的是非数值字符，比如像地名的输入（或者输入了带逗号的数字），那么stata会判断此列是字符串或文本变量。 3.在数据编辑器或数据浏览器中，字符串变量值显示为红色，这将其与数值变量（黑色）或加标签的数值变量（蓝色）区分开来。
23
Stata 菜单栏简介
包含八项下拉菜单:文件、编辑、数据、绘图、统计分析、用户、窗口及帮助。
24
1.9 Stata命令输入
• Stata的命令输入方式： 1、点击菜单栏输入命令； 2、在命令窗口输入命令； 3、运行命令程序（利用.do文件）；
25
1.10 Stata文件格式
• Stata常用的文件格式：
文件类型
扩展名
数据文件
.dta
命令程序文件
.do
运行程序文件
.ado
帮助文件
.hlp
说明
stata使用的数据
一系列命令的集合
用于完成用户提交的数据处理与统计分析任务的程序文件
与相应的.ado文件有相同的文件名，形成一堆文件，并提供在线帮助
26
1.11 Stata命令包安装
利用Stata做统计分析时，官方提供的命令包并不一定能满足需求，因此许多研究者编写了大量的非官方命令包（包括.do文件、 .ado文件和帮助文件），使用此类非官方命令包之前需要对其进行安装。
Stata中有两个命令对于用户寻找与安装命令包相当有用：search 和findit。
通过这两个命令可以找到相关搜索内容中有哪些额外的命令，点击链接后安装即可。

统计学---Stata 应用与分析课件第二章数据的图示

label(1 "固定资产投资") label(2 "社会融资")”:图例内容的设定
position(11)”:图例位置的设定 ring(0):使图例显示在图形内部 row(2):使图例分两行显示 clpattern(solid dash:实线和虚线的设定，表示第1 条为实线，第2条为虚线
作业要求
2.命令的扩展 pie(1,explode) ：饼1突出显示 pie(2,color(yellow))：饼2改成黄色 plabel：饼加标签
第二节直方图与箱线图
一、直方图
（一）直方图的实验范围
直方图是用矩形的面积（即长度和宽度）来表示频数分布的图形，在平面直角坐标系中，一般用纵轴表示频数或频率，用横轴表示数据的分组。通过该种图形，可以较为直观地了解数据的整体情况，如分布类型、中心位置、分散程度等。对于等距分组的数据而言，由于各组组距相同，因此绘制直方图时常常直接以频数（或频率）作为纵轴，此时柱形面积正比于各组频数（或频率）。
2.命令的扩展 ylabel：Y轴标签 ytick：Y轴刻度 title：图形标题 stack：图形堆积
二、饼图
（一）饼图的使用范围饼图是数据分析中常见的一种经典图形，
是用圆形及圆内扇形的大小表示总体中各部分所占比例的统计图，通常用来表示各部分在总体中所占份额。
（二）stata绘图
1.基本命令 graph pie
（二）stata绘图
1.基本命令 histogram x1 2.命令的扩展 bin(10：设置直方条数目为10 note(数据来源于中国劳动统计年鉴：设定脚注的内容 xtick(0(05)400：设定横轴刻度起始值为0，终止值是400，间隔是50 xtitle(职工数/单位：万人)：设定横轴标题； Norm：正态曲线的绘制 Addlabels：标注直方条的高度。

【统计学】基本Stata使用手册（2）：OLS回归

【统计学】基本Stata使⽤⼿册（2）：OLS回归本篇为⾃⼰总结的基本Stata使⽤⼿册~今天更新的是第⼀部分：OLS回归。

⽬录2. OLS 回归2.1⼀元线性回归⼀元回归.regression y x.regression y x,noconstant %表⽰是⽆常数项的回归Monte Carlo模拟.clear.set obs 30.set seed 10101.gen x=rnormal(3,4).gen e=rnormal(0,9).gen y=1+2*x+e.reg y x2.2 多元线性回归.reg y x1 x2.reg lnw s expr ,noc %⽆常数项回归.reg lnw s expr if rns %rns 为虚拟变量，为真时回归.reg lnw s expr if ~rns %rns 为虚拟变量，为假时回归.predict y %预测拟合值.predict e,residual %预测残差.vce %显⽰回归系数的协⽅差矩阵.quietly reg y x1 x2 %不显⽰回归结果.test s=0.1 %作单个回归系数的假设检验2.3 ⼤样本 OLS.reg y x1 x2 x3,robust %解决异⽅差问题输出稳健标准误.dis 1/_b[lnq] %_b[lnq]这lnq的 OLS估计值2.4 ⼆值选择模型.probit y x1 x2 x3,r %Probit 模型.logit y x1 x2 x3,r or %Logit模型，or表⽰显⽰机率⽐不显⽰回归系数.predict y1.estat clas %计算准确预测的百分⽐.margins,dydx(*) %计算所有解释变量的平均边际效应.margins,dydx(*) atmeans %计算所有解释变量在平均值处和边际效应.margins,dydx(*) at(x1=0) %计算所有解释变量在 x1=0处的平均边际效应.margins,dydx(x1) %计算解释变量 x1的平均边际效应.margins,eyex(*) %计算平均弹性.margins,eydx(*) %计算平均半弹性，x变化⼀单位引起 y变化百分之⼏.margins,dyex(*) %计算平均半弹性，x变化1%引起 y变化⼏个单位。

stata绘图基本知识

例1
绘制散点图旳基本语法 [twoway] scatter varlist [if] [in] [weight] [, option] 下列三个命令是等价旳 graph twoway scatter…… twoway scatter…… scatter……
connect(1)表白以直线旳方式连接相邻旳两个点； msymbol(i)表白散点旳显示方式为“看不见”，假如我们将括号中旳i改为O，那么这个选项旳意思就是以“黑圈”旳
绘制标绘图和拟合图绘制一次拟合图形 twoway lfit yvar xvar [if] [in] [weight] [,option]
绘制二次拟合图 twoway qfit yvar xvar [if] [in] [weight] [,option]
绘制lowess拟合图形 twoway lowess yvar xvar [if] [in] [,option]
此次主要简介
绘制散点图散点显示选项、散点标签选项、连线选项、振荡选项
二维绘图选项坐标轴尺度选项、坐标轴刻度选项、坐标轴标题选项、
轴线选择选项、scale选项旳设定。
绘制曲线标绘图和连线标绘图绘制拟合图形（一次拟合图形和二次拟合图形）绘制条形图绘制箱线图
详细例题涉及旳知识点
gmin命令表达在最小值处增长网格线 gmax命令表达在最大值处增长网格线
例6
by选项旳设定 by旳根据是分类变量，例如性别、民族、国内国外等， by选项旳语法为：by(varlist[,byopts])
选项total表达除了对每一种组别分别作图外，还要添加一种具有全部样本旳图形；
为y轴变量，而将最终一种变当成x轴变量。
散点显示选项(marker_options)

Stata_画图专题(2)：基础绘图命令

2
1.2 scatter：散点图
命令格式
[
]
[ ][ ][
][
]
twoway scatter varlist if in weight , options
[
][
]
scatter varlist || lfit varlist || line varlist
其中下划线、方括号的含义与前面相同，不赘述。此处 varlist 是变量列表，一般二维的散点图就是两个变量；[options] 是可选参数，参数很多，请 help scatter 来查看。常用的有 “连线” connect(l) 和 “去散点” msymbol(i)，在下面的结果中可以看到。在第二行的命令中给出了散点图的用途 —“构造回归曲线” lfit。第二行命令的意思是（1）画出散点图，（2）拟合回归直线并（3）按点的先后顺序连接起来。上述三个可以组合起来使用。
• “堆叠”，即表示多个柱状图叠在一起（看累计总值及每组占比），命令是 stack。
其余的选项请 help graph bar 来查看。上述两行命令区别是第二行命令只是水平 (horizontal) 形式的条形图。
表 3: 描述统计命令命令含义
mean median
p1 p50 p99
sd sum count max/min ﬁrst/last
string functions
programming functions
datetime_functions time-series functions
matrix functions
三角函数、取整、对/指数、最值等伯努利、卡方、正态、几何分布等符合某一概率分布的随机数组字符串拼接、提取、长度及 ASCII 码等 e/r/s 型返回值及其他编程方面的函数对于日期/时间数据的转化、提取等

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

作图时命令方式比较复杂，建议多用菜单方式。一起来做下列图形：简单图形打开wage1.dta 1。男性和女性工资均值的条形图 2。白人和其他人的工资的饼状图 3。 wage的直方图，并检验是否服从正态分布。 4。 wage的核密度分布图。
组合图形画出price与weight的散点图，并画出其拟合线。图形界面设计：图形标题，X轴标志，Y轴标志，样式选择，图例，分组标志。
19
20
21
22
23
24
1980
1990 lngdp_China lngdp_usa
2000 year
2010 Fitted values Fitted values
2020
小样本OLS
OLS原理
320
11 10 9 8 7
280 消费
300
260
6 5 4 2 3 1
220
240
250
300
回归结果的存放：e()
e(N) number of observations e(mss) model sum of squares e(df_m) model degrees of freedom e(rss) residual sum of squares e(df_r) residual degrees of freedom e(r2) R-squared e(r2_a) adjusted R-squared e(F) F statistic e(rmse) root mean squared error 可以使用命令 eret list 查看。
回归结果解读
MSS：回归平方和 df1 MMS=MSS/df1 RSS：残差平方和 df2 RMS=RSS/df2 TSS：总平方和 df3 TMS=TSS/df3 F值：系数的联合检验调整的R2 Root MSE=sqrt(RMS) Coef：回归系数 Std.Err：系数的标准误差 t统计量 t的临界值 95%置信区间自由度
例二：利用phillips的数据拟合预期增强的菲利普斯曲线为其中，unemt表示第t期的失业率（%）， inft 表示第t期的通货膨胀率（%），infte表示预期通货膨胀率，μ0表示自然失业率（%）。按照适应性预期理论， infte = inft-1。令Δinft=inft - inft-1，上述模型可以简化为：
1。要求方程省略常数项 2。稳健性估计（一般用于大样本OLS） 3。重新设置置信区间（默认95%） 4。标准化系数（回归系数对被解释变量的重要性） 5。回归redict 1。拟合值的获得： predict yhat, xb 或者 predict yhat 2。残差的获得 predict e , residuals 或者 predict e, res 3。残差分布图 rvfplot yline(0)
R2=MSS/TSS
p值
模型常用的其他形式：对数半对数平方项 n次方指数交乘项虽然对函数形式和自变量的选取有选择和检验的方法，但最好还是从“经济意义”角度确定。例如：考察消费受收入影响的方程，即使参数项不显著，也不能把它删除掉。
例题
例一：利用wage2的数据检验明瑟(mincer) 工资方程的简单形式： Ln(wage)=b0+b1*educ+b2*exper +b3*exper^2+ u
垂直线
年收入
350
拟合线消费
400
Y 0 1 X1 2 X 2 k X k u Y Xβ μ
OLS假设条件： 1. E[u|X] = 0 2. 条件同方差、没有序列自相关 3. X与u不相关 4. Y和X之间存在线性关系。 5. 解释变量 X 是非随机变量，被解释变量Y 是随机变量。 6. X 是满秩的， rank(X) = k
inft inft 1 (unemt 0 ) ut
e
inft 0 1unemt ut
例三：我国某地区1955---1984农产品收购量sg、库存量kc存放在文件 warehouse.dta中估计如下方程： Sgt=a+b0kct+b1kct-1+u 存在滞后一期的变量
我们得到：
ˆ ( X ' X)1 X ' y β
习惯上我们用 y_hat = X*b （被解释变量的拟合值） e = Y - y_hat = Y - Xb （残差）
建立回归方程
打开系统文件auto，建立如下方程： regress命令详解： regress depvar [indepvars] [if] [in] [weight] [, options] sysuse auto,clear regress price mpg weight foreign
两个练习：
1。完成下列汽车拟合图。 2。查阅数据，并按照要求完成图形。
改上面五个标注，用twoway graph里面的legend （override default keys）: 1 "国产车" 2 "进口车" 3 "国产车拟合" 4 "进口车拟合" 5 "整体拟合"
2、中国的GDP（以购买力平价计）何时能超过美国？从Penn World Table（最权威的跨国宏观数据集）下载两国1978-2010年“Population”与 “Real GDP per capita” 数据，导入Stata中，将两国log(GDP)的时间趋势画在一张图上，并做简单外推预测（假设未来的增长率与1978-2010年间相同）。下载地址为： /php_site/pwt_i ndex.php。下载时选csv格式，按网站说明存储数据。
Stata 画图和回归基础
Stata作图
stata 提供各种曲线类型，包括点（scatter）、线（line）、面（area），直方图（histogram）、条形图（bar）、饼图（pie）、函数曲线（function）以及矩阵图（matrix）等。同时，对时间序列数据有以ts 开头的一系列特殊命令，如tsline。还有一类是对双变量的回归拟合图（lfit、qfit 、lowess）等。