stata常用命令

合集下载

stata入门常用命令

stata入门常用命令Stata是一种统计分析软件，在社会科学、医学等研究领域很常用。

以下是Stata入门常用命令：1.数据加载use "文件路径"：加载Stata数据，文件路径为数据文件所在的路径。

describe：显示数据集的变量名、数据类型、缺失值和数据分布等。

2.变量处理generate 变量名=表达式：生成新变量（如指数变量），并可以使用算数、统计和逻辑运算。

replace 变量名=新值：替换某变量中的指定值（如缺失值）为新值。

drop 变量名：删除数据集中的变量。

rename 旧变量名 = 新变量名...：将变量改名。

recode 变量名(包含的值) = 新值：根据变量取值对其离散化。

3.数据子集sort 变量名...：按指定变量排序数据。

by 变量名:...:在一个或多个变量上划分数据集，然后对每个子集应用命令。

if (条件)：指定一个条件，只选取满足条件的数据记录。

merge 命令：将两个或多个数据集根据指定变量进行合并。

4.数据汇总summarize：按变量计算数值统计（如平均值、标准差、中位数和四分位数）。

tabulate 变量名：对变量进行交叉分析，并产生表格输出。

5.数据可视化histogram 变量名：绘制直方图。

scatter 变量名1 变量名2：绘制散点图。

graph 命令：绘制多种类型的图表，例如线图和条形图。

6.线性回归regress 因变量自变量1 自变量2...：通过最小二乘法拟合多元线性回归模型。

test 命令：进行t检验、F检验、方差分析等统计检验。

predict 新变量名：计算回归模型的预测值或残差值，并存储在新的变量中。

7.度量方法计算correlate 命令：计算并存储所有变量的相关系数矩阵。

haase 命令：计算哈斯变换矩阵。

Inflate 命令：计算一个变量的方差膨胀因子和条件数。

8.模态分析（模拟）simulate 命令：用随机抽样模拟数据，计算一个或多个变量的特定函数或方程，并存储结果。

stata命令大全(全)

*--> R-sq: overall corr{x_it*b_w,y_it}A2
*
*-- F(4,373) = 855.93检验除常数项外其他解释变量的联合显著性
*-- corr(u_i, Xb)=-0.2347
*-- sigma_u, sigma_e, rho
* rho = sigma_uA2/(sigma_uA2+sigma_eA2)
*空间计量分析：SLM模型与SEM模型
*说明：STATA与Matlab结合使用。常应用于空间溢出效应（R&D）、财政分权、地方政府公共行为等。
、常用的数据处理与作图
*指定面板格式
xtset id year（id为截面名称，year为时间名称）
xtdes /*数据特征*/
xtsum logy h /*数据统计特征*/
drop if id==2/*注意用==*/
*如何得到连续year或id编号（当完成上述操作时, 为形成panel格式，需要用egen命令）
ege n year_ new二group（year）
xtset id year_ new
**保留变量或保留观测值
keep inv /*删除变量*/
**或
keep if year==2000
dis e(sigma_u)A2/(e(sigma_u)A2+e(sigma_e)A2)
个体效应是否显著?
*F(28,373) =338.86 HO: al=a2 = a3 = a4 = a29
*Prob > F = 0.0000表明，固定效应高度显著
*---如何得到调整后的R2即adj-R2?
ereturn list
考虑中国29个省份的C-D生产函数

Stata常用命令

Stata常用命令大学期间觉得学的最有用的软件之一就是stata了，对stata基本是在血和泪的尝试中爬过，到了最后基本属于只要stata不出现红字错误命令就开心得不得了。

顺便整理一下常用的stata命令如下，应该对付计量方向第一学期的入门问题不大（求stata大神不虐..），所以就只写了一部分常用的，有时间后面再补充吧。

主要就是分为基本操作和回归统计两部分：1、基本操作import/use/insheet/merge：基本常用的导入文件就是这四个了，建议直接从stata的menu菜单中导入，导入xlsx和csv这种常见的格式时还有一些备用选项可以自己体验一下（比如string和把第一行视为变量名之类）。

merge需要单独说一下，因为是将两个数据库合并为一个，原理也比较简单，两个数据库中根据一些相同的变量把其他数据“加”到原来的数据库中，也是建议直接菜单操作，不要用命令。

在Data的Combine datasets的merge two datasets中，分为1:1、m:1、1:m各种形式，基本用两次就差不多能搞懂。

help：一定第一个学的是这个！啥不会就help一下，不知道函数了就help function，不知道回归细节就help regress，多读help文件！gen/egen:最常用的建立函数的命令，这两个不同之处在于gen一般是初等函数，egen的函数会复杂一些。

常用的函数包括数学函数和其他函数，比如count/tag之类，建议直接到菜单里Data下Create data的create new variable或create new variable(extended)直接生成函数，会方便的多。

mean/abs/sqrt/max/min/sum/sd：常用数学函数，分别是求均值、绝对值、方根、最大最小、求和、方差用的。

keep if/drop if：这两个也是最常用的，在数据需要进行筛选的时候，两个命令的区别也很明显，keep是留下哪些，drop是去掉哪些。

STATA 常用命令

目录STATA 常用命令 (2)一、基本运算 (2)二、数据处理 (3)三、数据导入导出 (3)四、描述性统计 (4)五、相关系数 (4)六、t检验 (4)七、非参数检验Wilcoxon (4)八、多元线性回归 (4)九、面板数据多元回归 (4)十、Logit回归 (5)十一、主成分分析与因子分析 (5)十二、PSM（倾向性匹配） (5)十三、内生性检验 (6)十四、DID （双重差分模型） (6)十五、作图 (7)十六、错误修正 (7)十七、应用技巧 (7)STATA 常用命令一、基本运算2.新变量产生1至n（行数）的变量：gen z=_n新变量赋值：gen y=log(x) if x>0gen y=seq(x)gen y=rmean(x)gen y=x+zDummy 变量：gen d=1 if x>1replace d=0 if x<=1自动生成年度（year）的Dummy变量：tabulate year, gen(Dyear)替换变量中的数值：replace x=0 if x<0更换变量名称：rename var1 x字符型变量转换为数值型：destring x, replace force(手动操作：选定变量=>右键=>数据）提取年度：gen ymd=date(date,”YMD”)format %td ymdgen year=year(ymd)提取字符：gen code=substr(x,1,1)3.变量处理一阶滞后变量：gen lag_x=L.x将所有变量的缺失值改为0：mvencode _all, mv(0) override去掉重复数值：duplicates drop x, force变量的标准化：egen x1=std(x)变量的缩尾处理：先安装：ssc install winsor, replacewinsor x , gen (x1) p(0.01)二、数据处理1.基本操作帮助：help ttestsearch ttest打开文件：use “ “查看：list x in 1/4展示数据集：describe (d)频率：tab x 或tab x y z命令窗口的执行命令：enter命令文件的执行命令：ctrl +D命令窗口换行：ctrl+enter清空内存（对新数据集开始检验时先清除原数据）：clear点击历史窗口，可以将已执行的命令重新恢复为待执行的命令从小到大排列：sort x从大到小排列：gsort -x删除变量：drop x删除若干行：drop in 10/12删除前3行：drop in 1/3删除负数行：drop if x<0删除缺失值：drop if x==.删除不等于C的值：drop if x~=“C”保留变量x和y，删除其他变量：keep x y保留若干行，删除其他行：keep in 10/12保存：save “ 路径” , replace2.数据集合并横向合并：merge x y using “ “纵向合并：append using “ “按一个变量合并：merge 1:m code using "E:\Research\STATA\income.dta"drop _merge按两个变量合并：merge 1:1 code year using "E:\Research\STATA\income.dta"drop _merge3.三、数据导入导出1.Data=>data editor （改为数值型）=>将excel数据粘贴到data editor2.直接导入excel数据，并把第一行作为变量名称：import excel “路径”, firstrow clear3.导入stata 数据集：use “ ”4.导出: 安装asdoc: ssc intall asdoc, replace然后回归分析时：asdoc reg y x在结果窗口点击：Myfile.doc四、描述性统计1.summarize x2.su x3.su x if x>204.su 后不输入具体变量，则对全体变量进行描述性统计。

Stata常用15条命令

【命令1】：导入数据一般做实证分析使用的是excel中的数据，其后缀名为.xls，需要将其修改为.csvinsheet using name.csv, clear【命令2】：删除重复变量sort var1 var2duplicatesdrop var1 var2, force【命令3】：合并数据use data1, clearmerge m:m var1 var2 using data2drop if _merge==2drop if _merge==1drop _merge【命令4】：描述性统计分析tabstat var1var2, stat(n min mean median p25 p75 maxsd), if groupvar==0 or 1输出到word中：logout, save(name) word replace: tabstat var, stat(n min mean p50 max sd) col(stat)f(%9.2g)【命令5】：结果输出安装ssc install estout, replace单个回归reg y xesttab using name.rtf, compress nogap r2 ar2 star(* 0.1 ** 0.05 *** 0.01)多个回归一起reg y x1est store m1reg y x2est store m2esttab m1 m2 using name.rtf, compress nogap r2 ar2 star(* 0.1 ** 0.05 *** 0.01)【命令6】生成虚拟变量tab year, gen(year)tab industry, gen(industry)【命令7】数据缩尾处理findit winsor2之后安装winsor2 varname, replace cut(1 99)【命令8】异方差检验怀特检验ssc install whitetstreg y x1 x2estat imtest, white处理：“OLS+稳健标准差”reg y x1 x2 x3, robust【命令9】 DW检验gen id=_ntsset idestat dwatson【命令10】计算两个日期之间的间隔天数gen td=date(trading_date,'YMD')gen ed=date(eventdate,'YMD')form td ed %tdgen d=ed-td【命令11 】生成滞后、差分数据tsset code yeargen newvarname=l.varnamegen newvarname=d.varname【命令12】多重共线检验之方差膨胀因子reg y x1 x2 x3vif【命令13】多重共线修正之逐步回归stepwise, pe(0.1): reg y x【命令14】检验是否遗漏高次项reg y xestat ovtest或者estat ovtest, rhs【命令15】样本检验两样本均值T检验ttest var, by(groupvar)两样本中位数Z检验ranksum var, by(groupvar)。

stata常用命令

面板数据估计首先对面板数据进行声明：前面是截面单元，后面是时间标识：tsset company yeartsset industry year产生新的变量：gen newvar=human*lnrd产生滞后变量Gen fiscal(2)=L2.fiscal产生差分变量Gen fiscal(D)=D.fiscal描述性统计：xtdes ：对Panel Data截面个数、时间跨度的整体描述Xtsum：分组内、组间和样本整体计算各个变量的基本统计量xttab 采用列表的方式显示某个变量的分布Stata中用于估计面板模型的主要命令：xtregxtreg depvar [varlist] [if exp] , model_type [level(#) ]Model type 模型be Between-effects estimatorfe Fixed-effects estimatorre GLS Random-effects estimatorpa GEE population-averaged estimatormle Maximum-likelihood Random-effects estimator主要估计方法：xtreg： Fixed-, between- and random-effects, and population-averaged linear modelsxtregar：Fixed- and random-effects linear models with an AR(1) disturbance xtpcse ：OLS or Prais-Winsten models with panel-corrected standard errors xtrchh ：Hildreth-Houck random coefficients modelsxtivreg ：Instrumental variables and two-stage least squares for panel-data modelsxtabond：Arellano-Bond linear, dynamic panel data estimatorxttobit ：Random-effects tobit modelsxtlogit ： Fixed-effects, random-effects, population-averaged logit modelsxtprobit ：Random-effects and population-averaged probit models xtfrontier ：Stochastic frontier models for panel-dataxtrc gdp invest culture edu sci health social admin,betaxtreg命令的应用：声明面板数据类型：tsset sheng t描述性统计：xtsum gdp invest sci admin1.固定效应模型估计：xtreg gdp invest culture sci health admin techno,fe固定效应模型中个体效应和随机干扰项的方差估计值(分别为sigma u 和sigma e），二者之间的相关关系(rho)最后一行给出了检验固定效应是否显著的F 统计量和相应的P 值2.随机效应模型估计：xtreg gdp invest culture sci health admin techno,re检验随机效应模型是否优于混合OLS 模型：在进行随机效应回归之后，使用xttest0检验得到的P 值为0.0000，表明随机效应模型优于混合OLS 模型3. 最大似然估计Ml：xtreg gdp invest culture sci health admin techno,mleHausman检验Hausman检验究竟选择固定效应模型还是随机效应模型：第一步：估计固定效应模型，存储结果xtreg gdp invest culture sci health admin techno,feest store fe第二步：估计随机效应模型，存储结果xtreg gdp invest culture sci health admin techno,reest store re第三步：进行hausman检验hausman feHausman检验量为：H=(b-B)´[Var(b)-Var(B)]-1(b-B)～x2(k)Hausman统计量服从自由度为k的χ2分布。

stata 常用命令

stata 常用命令Stata是一个流行的统计分析软件，广泛应用于各个领域的数据分析和研究。

它提供了丰富的命令和功能，可帮助用户处理、分析和可视化数据。

在本文中，我将向您介绍一些常用的Stata命令，以及它们在数据分析中的应用。

1. 数据导入与导出在使用Stata进行数据分析之前，我们需要将数据导入软件环境中。

Stata支持多种数据格式，如Excel、CSV、SPSS等。

对于Excel数据，我们可以使用命令"import excel"将数据导入到Stata中；对于CSV数据，可以使用"import delimited"命令。

Stata还提供了"export"命令，可将分析结果导出为Excel、CSV等格式，便于与其他软件进行交互。

2. 数据清洗与处理在数据分析过程中，数据清洗是一个重要的步骤。

Stata提供了一系列命令来处理和净化数据。

"drop"命令可以删除数据集中的变量或观察值；"replace"命令用于修改变量的取值；"gen"命令可以创建新的变量等。

"merge"命令可用于合并不同数据集，"sort"命令可用于排序数据等。

3. 描述性统计分析Stata提供了简单而强大的描述性统计分析命令，帮助用户了解数据的基本特征。

"summarize"命令可用于计算变量的均值、标准差等统计量；"tabulate"命令可用于制作交叉分类表；"histogram"命令可绘制变量的直方图等。

这些命令使我们能够更好地理解数据的分布和特征。

4. 统计模型估计Stata是一个强大的统计软件，支持各种常见的统计模型估计。

"regress"命令可用于进行线性回归分析；"logit"命令可用于二元逻辑回归分析；"heckman"命令可用于处理选择模型等。

stata最常用命令大全

statasave‎命令File&#6‎1672;Save ‎A s例1. 表1‎.为某一降压药临床试‎验数据，试从键盘输入‎S tata，并保存为‎S tata格式文件。

‎STATA数据库的‎维护排序SORT‎变量名1 变量名2‎……变量更名‎r ename 原变量‎名新变量名STA‎T A数据库的维护删‎除变量或记录dro‎p x1 x2 ‎ /* ‎删除变量x1和x2‎d rop x1-x5‎‎/* 删除数据库中介‎于x1和x5间的所有‎变量(包括x1和x5‎)drop if ‎x<0 ‎ /* 删去x1<‎0的所有记录dro‎p in 10/12‎ /* 删‎去第10~12个记录‎drop if x‎==. ‎/* 删去x为缺失‎值的所有记录dro‎p if x==.|‎y==. /* 删‎去x或y之一为缺失值‎的所有记录drop‎if x==.&y‎==. /* 删去‎x和y同时为缺失值的‎所有记录drop ‎_all ‎ /* 删掉‎数据库中所有变量和数‎据STATA的变量‎赋值用genera‎t e产生新变量ge‎n erate 新变量‎＝表达式gener‎a te bh=_n ‎‎‎/* 将‎数据库的内部编号赋给‎变量bh。

gene‎r ate group‎=int((_n-1‎)/5)+1 ‎/* 按当前数据‎库的顺序，依次产生5‎个1，5个2，5个‎3……。

直到数据库结‎束。

generat‎e block=mo‎d(_n,6) ‎ /* 按‎当前数据库的顺序，依‎次产生1,2,3,4‎,5,0。

gene‎r ate y=log‎(x) if x>0‎‎/* 产生‎新变量y，其值为所有‎x>0的对数值log‎(x)，当x<=0时‎，用缺失值代替。

‎e gen产生新变量‎s et obs 12‎egen a=se‎q() ‎ /*产生1到‎N的自然数egen‎b=seq(),b‎(3) /*产生‎一个序列，每个元素重‎复＃次egen c‎=seq(),to(‎4) /*产生多个‎序列，每个序列从1到‎＃egen d=s‎e q(),f(4)t‎(6) /*产生多个‎序列，每个序列从#1‎到＃2encode‎字符变量名，ge‎n(新数值变量名)‎作用：将字符型变量转‎化为数值变量。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

twoway scatter price weight,mlabel(make) （做 price 和 weight 的散点图，并在每个点上标注“make”，即厂商的取值） twoway scatter price weight || lfit price weight,by(foreign) （按照变量 foreign 的分类，分别对不同类样本的 price 和 weight 做散点图和回归线图的叠加，两图呈左右分布） twoway scatter price weight || lfit price weight,by(foreign,col(1)) （按照变量 foreign 的分类，分别对不同类样本的 price 和 weight 做散点图和回归线图的叠加，两图呈上下分布） twoway scatter price weight [fweight= displacement],msymbol(ohl(oh)” 表示每个点均为中空的圆圈， [fweight= displacement]表示每个点的大小与 displacement 的取值大小成比例） twoway connected y1 time,yaxis(1) || y2 time,yaxis(2) （画出 y1 和 y2 这两个变量的时间点线图，并将它们叠加在一个图中，左边“yaxis(1)”为 y1 的度量，右边“yaxis(2)”为 y2 的） twoway line y1 time,yaxis(1) || y2 time,yaxis(2) （与上图基本相同，就是没有点，只显示曲线） graph twoway scatter var1 var4 || scatter var2 var4 || scatter var3 var4 （做三个点图的叠加） graph twoway line var1 var4 || line var2 var4 || line var3 var4 （做三个线图的叠加） graph twoway connected var1 var4 || connected var2 var4 || connected var3 var4 （叠加三个点线相连图） � 更多变量： graph matrix a b c y （画出一个散点图矩阵，显示各变量之间所有可能的两两相互散点图） graph matrix a b c d,half （生成散点图矩阵，只显示下半部分的三角形区域）用 auto 数据集： graph matrix price mpg weight length,half by( foreign,total col(1) ) （根据 foreign 变量的不同类型绘制 price 等四个变量的散点图矩阵，要求绘出总图，并上下排列】=具） � 其他图形： graph box y,over(x) yline(.22) （对应 x 的每一个取值构建 y 的箱型图，并在 y 轴的 0.22 处划一条水平线） graph bar (mean) y,over(x) 对应 x 的每一个取值，显示 y 的平均数的条形图。括号中的“mean”也可换成 median、sum、 sd、p25、p75 等 graph bar a1 a2,over(b) stack （对应在 b 的每一个取值，显示 a1 和 a2 的条形图，a1 和 a2 是叠放成一根条形柱。若不写入“stack”，则 a1 和 a2 显示为两个并排的条形柱） graph dot (median)y,over(x) （画点图，沿着水平刻度，在 x 的每一个取值水平所对应的 y 的中位数上打点） qnorm x （画出一幅分位-正态标绘图）
rchart a1 a2 a2 （画出质量控制 R 图，显示 a1 到 a3 的取值范围） � 简单统计量的计算： ameans x （计算变量 x 的算术平均值、几何平均值和简单调和平均值，均显示样本量和置信区间） mean var1 [pweight = var2] （求取分组数据的平均值和标准误，var1 为各组的赋值，var2 为每组的频数） summarize y x1 x2,detail （可以获得各个变量的百分比数、最大最小值、样本量、平均数、标准差、方差、峰度、偏度） ***注意*** stata 中 summarize 所计算出来的峰度 skewness 和偏度 kurtosis 有问题，与 ECELL 和 SPSS 有较大差异，建议不采用 stata 的结果。 summarize var1 [aweight = var2], detail （求取分组数据的统计量，var1 为各组的赋值，var2 为每组的频数） tabstat X1,stats(mean n q max min sd var cv) （计算变量 X1 的算术平均值、样本量、四分位线、最大最小值、标准差、方差和变异系数） � 概率分布的计算：（1）贝努利概率分布测试： webuse quick bitest quick==0.3,detail （假设每次得到成功案例‘1’的概率等于 0.3，计算在变量 quick 所显示的二项分布情况下，各种累计概率和单个概率是多少） bitesti 10,3,0.5,detail （计算当每次成功的概率为 0.5 时，十次抽样中抽到三次成功案例的概率：低于或高于三次成功的累计概率和恰好三次成功概率）（2）泊松分布概率： display poisson(7,6) .44971106 （计算均值为 7，成功案例小于等于 6 个的泊松概率） display poissonp(7,6) .14900278 （计算均值为 7，成功案例恰好等于 6 个的泊松概率） display poissontail(7,6) .69929172 （计算均值为 7，成功案例大于等于 6 个的泊松概率）（3）超几何分布概率： display hypergeometricp(10,3,4,2) .3 （计算在样本总量为 10，成功案例为 3 的样本总体中，不重置地抽取 4 个样本，其中恰好有 2 个为成功案例的概率） display hypergeometric(10,3,4,2) .96666667 （计算在样本总量为 10，成功案例为 3 的样本总体中，不重置地抽取 4 个样本，其中有小
第三步：使用 tempw1 数据库，将其与 tempw2 合并： clear use tempw1 merge v001 v002 v003 using tempw2 第四步：查看合并后的数据状况： ta _merge ——tabulate _merge 的简写 su 第五步：清理临时数据库，并删除_merge，以免日后合并新变量时出错 erase tempw1.dta erase tempw2.dta drop _merge 数据扩展 append：数据源自 stata tutorial 中的 fac19 和 newfac clear use "t:\statatut\fac19.dta" ta region append using "t:\statatut\newfac" ta region 合并后样本量增加，但变量数不变 � 单变量图 � 茎叶图： stem x1,line(2) （做 x1 的茎叶图，每一个十分位的树茎都被拆分成两段来显示，前半段为 0～ 4，后半段为 5～9） stem x1,width(2) （做 x1 的茎叶图，每一个十分位的树茎都被拆分成五段来显示，每个小树茎的组距为 2） stem x1,round(100) （将 x1 除以 100 后再做 x1 的茎叶图）直方图采用 auto 数据库 histogram mpg, discrete frequency normal xlabel(1(1)5) （discrete 表示变量不连续，frequency 表示显示频数， normal 加入正太分布曲线， xlabel 设定 x 轴，1 和 5 为极端值，(1)为单位） histogram price, fraction norm （fraction 表示 y 轴显示小数，除了 frequency 和 fraction 这两个选择之外，该命令可替换为 “percent”百分比，和“density”密度；未加上 discrete 就表示将 price 当作连续变量来绘图） histogram price, percent by(foreign) （按照变量“foreign”的分类，将不同类样本的“price”绘制出来，两个图分左右排布） histogram mpg, discrete by(foreign, col(1)) （按照变量“foreign”的分类，将不同类样本的“mpg”绘制出来，两个图分上下排布） histogram mpg, discrete percent by(foreign, total) norm （按照变量“foreign”的分类，将不同类样本的“mpg”绘制出来，同时绘出样本整体的 “总”直方图） � 二变量图： graph twoway lfit price weight || scatter price weight （作出 price 和 weight 的回归线图——“lfit”，然后与 price 和 weight 的散点图相叠加）
� stata 常用命令
� 调整变量格式： format x1 %10.3f ——将 x1 的列宽固定为 10，小数点后取三位 format x1 %10.3g ——将 x1 的列宽固定为 10，有效数字取三位 format x1 %10.3e ——将 x1 的列宽固定为 10，采用科学计数法 format x1 %10.3fc ——将 x1 的列宽固定为 10，小数点后取三位，加入千分位分隔符 format x1 %10.3gc ——将 x1 的列宽固定为 10，有效数字取三位，加入千分位分隔符 format x1 %-10.3gc ——将 x1 的列宽固定为 10，有效数字取三位，加入千分位分隔符，加入 “-”表示左对齐 � 合并数据： use "C:\Documents and Settings\xks\桌面\2006.dta", clear merge using "C:\Documents and Settings\xks\桌面\1999.dta" ——将 1999 和 2006 的数据按照样本（observation）排列的自然顺序合并起来 use "C:\Documents and Settings\xks\桌面\2006.dta", clear merge id using "C:\Documents and Settings\xks\桌面\1999.dta" ,unique sort ——将 1999 和 2006 的数据按照唯一的（ unique）变量 id 来合并，在合并时对 id 进行排序（sort）建议采用第一种方法。 � 对样本进行随机筛选： sample 50 在观测案例中随机选取 50%的样本，其余删除 sample 50,count 在观测案例中随机选取 50 个样本，其余删除查看与编辑数据： browse x1 x2 if x3>3 （按所列变量与条件打开数据查看器） edit x1 x2 if x3>3 （按所列变量与条件打开数据编辑器） � 数据合并（merge）与扩展（append） merge 表示样本量不变，但增加了一些新变量；append 表示样本总量增加了，但变量数目不变。 one-to-one merge：数据源自 stata tutorial 中的 exampw1 和 exampw2 第一步：将 exampw1 按 v001～v003 这三个编码排序，并建立临时数据库 tempw1 clear use "t:\statatut\exampw1.dta" su ——summarize 的简写 sort v001 v002 v003 save tempw1 第二步：对 exampw2 做同样的处理 clear use "t:\statatut\exampw2.dta" su sort v001 v002 v003 save tempw2