STATA 第二章 描述性统计命令与输出结果说明

合集下载

Stata结果输出常用命令整理

Stata结果输出常用命令整理

Stata结果输出常用命令整理*1.描述性统计输出结果asdoc sum `varlist', save(Myfile.doc) replace stat(N mean sd min p50 max) dec(3) title(asdoc_Table: Descriptive statistics)sum2docx `varlist' using Myfile.docx,replace stats(N mean(%9.2f) sd(%9.3f)min(%9.2f) median(%9.2f) max(%9.2f)) title(sum2docx_Table: Descriptive statistics) outreg2 using Myfile, sum(detail) replace word eqkeep(N mean sd min p50 max)fmt(f) keep(`varlist') sortvar(wage age grade) title(outreg2_Table: Descriptive statistics)estpost summarize `varlist', detailesttab using Myfile.rtf, cells("count mean(fmt(2)) sd(fmt(2)) min(fmt(2))p50(fmt(2)) max(fmt(2))") noobs compress replace title(esttab_Table: Descriptive statistics)*2分组T 均值检验输出local common_exp "save(Myfile.doc) by(south) stat(obs mean p)"asdoc ttest wage, `common_exp' replace title(asdoc_Table: T_test by group)asdoc ttest age, `common_exp' rowappendasdoc ttest race, `common_exp' rowappendasdoc ttest married, `common_exp' rowappendasdoc ttest grade, `common_exp' rowappendasdoc ttest collgrad, `common_exp' rowappendasdoc ttest union, `common_exp' rowappendt2docx `varlist' using Myfile.docx,replace not by(south) title(t2docx_Table: T_test by group)logout, save(Myfile) word replace: ttable2 `varlist', by(south)estpost ttest `varlist', by(south)esttab using Myfile.rtf, cells("N_1 mu_1(fmt(3)) N_2 mu_2(fmt(3)) b(star fmt(3))") starlevels(* 0.10 ** 0.05 *** 0.01) noobs compress replace title(esttab_Table: T_test by group)*3.相关系数矩阵输出asdoc cor `varlist', save(Myfile.doc) replace nonum dec(3) title(asdoc_Table: correlation coefficient matrix)corr2docx `varlist' using Myfile.docx, replace spearman(ignore) pearson(pw) star title(corr2docx_Table: correlation coefficient matrix)logout, save(Myfile) word replace : pwcorr_a `varlist', star1(0.01) star5(0.05)star10(0.1)estpost correlate `varlist', matrixesttab using Myfile.rtf, unstack not noobs compress nogaps replace star(* 0.1 ** 0.05 *** 0.01) b(%8.3f) p(%8.3f) title(esttab_Table: correlation coefficient matrix)*4.回归结果输出asdoc reg wage age married occupation, save(Myfile.doc) nest replace cnames(OLS-1) rep(se) add(race, no)asdoc reg wage age married collgrad occupation, save(Myfile.doc) nest append cnames(OLS-2) add(race, no)asdoc reg wage age married collgrad occupation race_num*, save(Myfile.doc) nest append add(race, yes) cnames(OLS-3) dec(3) drop(occupation race_num*) stat(r2_a, F, rmse, rss) title(asdoc_Table: regression result)reg wage age married occupationest store m1reg wage age married collgrad occupationest store m2reg wage age married collgrad occupation race_num*est store m3reg2docx m1 m2 m3 using Myfile.docx, replace indicate("race=race_num*")b(%9.2f) se(%7.2f) scalars(r2(%9.3f) r2_a(%9.2f) N) drop(occupation)order(married) title(reg2docx_Table: regression result) mtitles("OLS-1" "OLS-2" "OLS-3")reg wage age married occupationoutreg2 using Myfile, word replace title(outreg2_Table: regression result)ctitle(OLS-1) `subexp' addtext(race, no)reg wage age married collgrad occupationoutreg2 using Myfile, word append ctitle(OLS-2) `subexp' addtext(race, no)reg wage age married collgrad occupation race_num*outreg2 using Myfile, word append ctitle(OLS-3) `subexp' addtext(race, yes)reg wage age married occupationest store m1reg wage age married collgrad occupationest store m2reg wage age married collgrad occupation race_num*est store m3*可利用addest自行增加统计量addest, name("chi2") value(`chi2')addest, textn("Industry") texts("Yes")estadd scalar Hausman= r(chi2),replaceestadd scalar Hausman_Test = r(p),replaceesttab m1 m2 m3 using Myfile.rtf, replace star( * 0.10 ** 0.05 *** 0.01 ) nogaps compress order(married) drop(occupation) b(%20.3f) se(%7.2f) r2(%9.3f) ar2 aic bic obslast scalars(F) indicate("race=race_num*") mtitles("OLS-1" "OLS-2" "OLS-3") title(esttab_Table: regression result)。

【原创汇总】stata中描述性统计表格的输出

【原创汇总】stata中描述性统计表格的输出

【原创汇总】stata中描述性统计表格的输出导读:描述性统计通常对收集来的数据进行直接的频率、频数等描述,描述性统计分析一般对样本的最小值、最大值、平均值、标准偏差等进行分析,这些数据有助于了解样本数据特征,能够清晰的看到各个统计量的分布情况。

本文在stata培训会议的基础上,为大家再次呈现一些新的内容,作为补充。

-outreg-该命令描述为:outreg - reformat and write regression tables to a document file命令格式为outreg [using filename] [, options]将所有变量进行描述分析输出sysuse auto, clear(1978 Automobile Data).outreg2 using daqinxueshu.doc, replace sum(log)更多技能,指定变量,或者筛选,命令如下:以下数据来源于计量经济学服务中心stata论文写作专题中盈余管理数据outreg2 using daqinxueshu.doc, replace sum(log) ///keep(dacc rid tm size size debt14 eps)outreg2 using daqinxueshu3.doc, replace sum(log) ///keep(dacc rid tm size size )outreg2 using daqinxueshu3.doc, replace sum(log) /// keep(dacc rid tm size size ) eqkeep(N mean)outreg2 using daqinxueshu3.doc, replace sum(detail) /// keep(dacc rid tm size size debt14 eps)-描述性分析常用的统计量-mean,均值max,最大值min,最小值sd,标准差variance,方差semean,即sd/√n skewness,偏度kurtosis,峰度p1,第一分位数p5,第五分位数p10,第十分位数p50,中位数median,中位数range,max-min-技能-这个小技能你get到了吗global xx 'y x1 x2 x3 x4 x5 x6' des $xxtabstat $xx, stat(mean sd min max) columns(s) format(%4.2f) (XX已经代表了y x1 x2 x3 x4 x5 x6)tabstat y x1 x2 x3 x4 x5 x6tabstat y x1 x2 x3 x4 x5 x6,stats(mean p50 min max)tabstat y x1 x2 x3 x4 x5 x6, stats(mean med min max) col(s) format(%6.2f)tabstat y x1 x2 x3 x4 x5 x6, s(mean p25 med p75 min max) c(s) f(%6.2f)tabstat y x1 x2 x3 x4 x5 x6 , s(mean p25 med p75 min max) c(s) f(%6.2f) by(。

stata中如何导出描述性统计结果

stata中如何导出描述性统计结果

Stata入门——如何导出描述性统计1.打开stata,进入do file 界面。

2.导入需要分析的数据// use “文件路径”,clear (文件路径可以通过shift+鼠标右键获得)3.输入描述性统计命令// tabstat 变量1 变量2 变量3......变量X, s(N mean sd min max)f(%12.3f) c(s) (其中tabstat是进行表格格式统计;s为statistics,其后面根据的是所需要的统计量内容,若需要其他统计量,可以键入help tabstat,运行后得出帮助;f为数据汇报表格格式format,c(s)代表用统计量名称作为列名)进行完上述操作之后,基本完成了变量的描述性统计,接下来需要做的是将上述得到的结果导出到excel导出命令有的软件需要事先安装,安装编码为ssc install logout,运行后可继续操作4.输入导出命令//logout,save(mytable)word replace:)(word代表保存的格式,可以代替为excel等,replace代表若已存在该文件则替代,无则直接保存)//导出结果可以导出到excel再复制到word再右键自动调整格式,这样得出的表格格式会相对美观。

综上,导出描述性统计的完整命令可以键入为:logout,save(mytable)word replace:)(word代表保存的格式,可以代替为excel等,replace代表若已存在该文件则替代,无则直接保存)tabstat 变量1 变量2 变量3......变量X, s(N mean sd min max)f(%12.3f) c(s) (其中tabstat是进行表格格式统计;s为statistics,其后面根据的是所需要的统计量内容,若需要其他统计量,可以键入help tabstat,运行后得出帮助;f为数据汇报表格格式format,c(s)代表用统计量名称作为列名)。

Stata—描述性统计

Stata—描述性统计

Stata—描述性统计1.资料的基本信息①summarizesummarize:汇总所有变量的名称,个案数⽬,均值,标准差等,缩写为sumformat age %6.2f:指定age变量的统计量输出时的保留2位⼩数sum age, format:结合上个命令,对年龄变量进⾏描述的汇总保留2位⼩数sum age,detail:汇总更加详细的信息②codebookcodebook没有sum详细codebook:汇总所有变量codebook var:汇总var变量③inspectinspect age:可以画出简单的直⽅图2.基本信息的统计①tabulate和table命令tabulate places:对places变量进⾏列表统计,此命令可缩写为tabtable places:只有频数统计,不可缩写为tabtab places price:统计不同地⽅的价格的列表tab places price:统计不同places的price的列表②tabstat命令tabstat price places:显⽰2个变量的平均值tabstat price places, stats(mean med min max):显⽰2个变量的平均值,中位数等统计量tabstat price places, stat(mean med min max p25) col(s) format(%6.2f):均值等统计量在表格的⾏中,并且将结果⼩数点保持在2位。

此命令也可以写为tabstat price places, s(mean med min max) c(s) f(%6.2f)。

tabstat price places, s(mean med min max) c(s) f(%6.2f) by (gender):根据性别分类来陈述上述的统计量。

③结果呈现(1)将Stata中的结果选中,右击⿏标选择Copy table,直接贴⼊Excel或者Word。

Stata统计分析报告命令

Stata统计分析报告命令

Stata统计分析常用命令汇总一、winsorize极端值处理范围:一般在1%和99%分位做极端值处理,对于小于1%的数用1%的值赋值,对于大于99%的数用99%的值赋值。

1、Stata中的单变量极端值处理:stata 11.0,在命令窗口输入“findit winsor”后,系统弹出一个窗口,安装winsor 模块安装好模块之后,就可以调用winsor命令,命令格式:winsor var1, gen(new var) p(0.01) 或者在命令窗口中输入:ssc install winsor安装winsor命令。

winsor命令不能进行批量处理。

2、批量进行winsorize极端值处理:打开链接:/judson.caskey/data.html,找到winsorizeJ,点击右键,另存为到stata中的ado/plus/目录下即可。

命令格式:winsorizeJ var1var2var3,suffix(w)即可,这样会生成三个新变量,var1w var2w var3w,而且默认的是上下1%winsorize。

如果要修改分位点,则写成如下格式:winsorizeJ var 1 var2 var3,suffix(w) cuts(5 95)。

3、Excel中的极端值处理:(略)winsor2 命令使用说明简介:winsor2 winsorize or trim (if trim option is specified) the variables in varlist at particular percentiles specified by option cuts(# #). In defult, new variables will be generated with a suffix "_w" or "_tr", which can be changed by specifying suffix() option. The replace option replaces the variables with their winsorized or trimmed ones.相比于winsor命令的改进:(1) 可以批量处理多个变量;(2) 不仅可以 winsor,也可以 trimming;(3) 附加了 by() 选项,可以分组 winsor 或 trimming;(4) 增加了 replace 选项,可以不必生成新变量,直接替换原变量。

stata描述性统计分析报告

stata描述性统计分析报告

stata描述性统计分析报告describedescribe命令可以描述数据文件的整体,包括观测总数,变量总数,生成日期,每个变量的存储类型(storagetype),标签(label)等。

list[varlist][if exp][in range]summarize[varlist][weight][if exp][in range][,detail]summarize可以提供varlist指定变量(可以不止一个)的如下统计量:Percentiles(分位数),四大最大的数和四个最小的数,Variance(方差),Std.Dev.(标准差),Skewness(偏度),Kurtosis(斜度)tabstattabstat varlist[weight][if exp][in range][,stats(statname[...])]tabstat提供[,stats(statname[...])]指定的统计量,可供选择的有mean(均值),count(非缺失观测值个数),sum(总和),max(最大值),min(最小值),range(最大值-最小值),sd (标准差),var(方差),cv(变易系数=标准差/均值),skewness(偏度),kurtosis(斜度),median(中位数),p1(1%分位数,类似地有p5, p10,p25,p50,p75,p95,p99),iqr(interquantile range=p75–p25)。

比如,想知道变量pop在整个样本的均值和方差,可以使用如下命令:tabstat pop,stats(mean var)anova命令anova y x1 x2anova做方差分析(analysis of variance),研究y的平均值在分类变量x1和x2不同取值之间的差异。

signrank命令signrank y1=y2signrank做Wilcoxon秩检验。

stata初级入门3-描述性统计指标课件

stata初级入门3-描述性统计指标课件
stata初级入门3-描述性统计指标
• 菜单:Statistics > Summaries, tables, and tests > Tables > One/two-way table of summary statistics
stata初级入门3-描述性统计指标
五、经验分布函数
• 对变量累积分布函数的估计
指标。 • 范例:summarize price mpg
stata初级入门3-描述性统计指标
• 菜单:Statistics > Summaries, tables, and tests > Summary and descriptive statistics > Summary statistics
• 列联表给出从属于两个分类变量不同类别的观测值的 频数
• 如果两个分类变量各有r,c个类别,则列联表共有r×c 个单元格
C a r t y p e
D o m e s t i c F o r e i g n
T o t a l
i d 1
7 4
1 1
2
3 7 1 6
5 3
T o t a l
4 4 2 0
stata初级入门3-描述性统计指标
六、正态性检验
• sktest varname • swilk varname
stata初级入门3-描述性统计指标
本讲练习
stata初级入门3-描述性统计指标
stata入门3 ——统计指标篇
stata初级入门3-描述性统计指标
一、基本描述统计量
• summarize命令
• 可概括观测值个数、平均值、标准差、最大值和最小值 五个指标。

Stata统计分析命令

Stata统计分析命令

Stata统计分析命令Stata是一种用于数据分析的统计软件,具有广泛的应用领域,可以用于社会科学、健康科学、金融等领域的数据分析。

Stata具有强大的数据处理和统计分析功能,可以对数据进行清洗、整理和分析,还可以进行数据可视化和报告制作。

本文将介绍一些常用的Stata统计分析命令,以供参考。

数据导入与清洗在进行数据分析之前,需要先将数据导入Stata软件中,并进行数据清洗。

以下是常用的数据导入和清洗命令:导入数据•use:使用已有的Stata数据集•import delimited:导入以逗号为分隔符或制表符为分隔符的纯文本数据•import excel:导入Excel数据文件•insheet:将文本文件读入数据集数据清洗•drop:删除变量或数据•keep:保存变量或数据•rename:重命名变量•egen:生成新的变量•recode:将变量值重新编码•merge:合并两个数据集描述性统计分析在进行数据分析之前,需要先对数据进行描述性分析。

以下是常用的描述性统计分析命令:•summarize:计算变量的基本统计量,如均值、标准差、最小和最大值、中位数、1/4和3/4位数•tabulate:计算变量的频数和百分比,可以进行交叉分析•graph box:绘制箱线图•graph scatter:绘制散点图统计分析在进行统计分析时,需要根据变量的类型和分析目的选择不同的统计方法。

以下是常用的统计分析命令:单样本统计分析•ttest:单样本t检验•onesamplewilcoxon:单样本Wilcoxon秩和检验双样本统计分析•ttest:双样本t检验•ranksum:Wilcoxon秩和检验相关分析•correlate:计算两个或多个变量之间的相关系数•pwcorr:计算Pearson相关系数矩阵回归分析•regress:运行普通最小二乘回归•logit:运行二元Logistic回归模型•oprobit:运行有序Logistic回归模型数据可视化数据可视化是Stata的另一个强大特性,可以使分析人员更清晰、更直观地了解数据分析结果。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第二章描述性统计命令与输出结果说明
上述数据也可以用变量x表示血磷测定值,分组变量group=0表示患者组和group=1表示健康组(如:患者组中第一个数据为2.6,则x=2.6,group=0;又如:健康组中第三个数据为1.98,则x为1.98以及group为1),并假定这些数据已以STATA格式存入ex2a.dta文件中。

计算资料均数,标准差命令summarize,以述资料为例:
. summarize
Variable Obs Mean Std. Dev. Min Max
x1 11 4.710909 1.302977 2.6 6.53
x2 13 3.354615 1.304368 1.67 5.78
Mean 均值;Std.Dev.标准差
即:本例中急性克山病患者组的样本数为11,血磷测定值均数为4.711(mg%),相应的标准差为1.303,最小值为2.6以及最大值为6.53;健康组的样本量为13,血磷测定值均数为3.3546,相应的标准差为1.3044,最小值为1.67以及最大值为5.78。

计算资料均数,标准差,中位数,低四分位数和高四分位数的命令summarize 以及子命令detail,仍以述资料为例:
. summarize x1 x2,detail
x1
Percentiles Smallest
1% 2.6 2.6
5% 2.6 3.24
10% 3.24 3.73 Obs 11
25% 3.73 3.73 Sum of Wgt. 11
50% 4.73 Mean 4.710909
Largest Std. Dev. 1.302977
75% 5.78 5.58
90% 6.4 5.78 Variance 1.697749
95% 6.53 6.4 Skewness -.0813446
99% 6.53 6.53 Kurtosis 1.809951
x2
Percentiles Smallest
1% 1.67 1.67
5% 1.67 1.98
10% 1.98 1.98 Obs 13
25% 2.33 2.33 Sum of Wgt. 13
50% 3.6 Mean 3.354615
Largest Std. Dev. 1.304368
75% 4.17 4.17
90% 4.82 4.57 Variance 1.701377
95% 5.78 4.82 Skewness .2963943
99% 5.78 5.78 Kurtosis 1.875392
.
结果:
Percentiles 显示了从1%到99%的分位数的取值。

第二列是最小和最大的5个数。

第三列从上到下:obs观测值数目、mean平均数、std.dev标准差、variance 方差。

skewness偏度:偏度的绝对值越小,表明该数据的正态对称性越好。

kurtosis峰度:峰度值越大表明该数据的正态峰越明显。

95%可信限计算:
正态数据:ci 变量名
0-1 数据:ci 变量名,binomial
poisson分布数据:ci变量名,poisson
90%可信限计算(其它可信限类推)
正态数据:ci 变量名,level(90)
0-1数据:ci 变量名,level(90) binomial
poisson分布数据:ci 变量名,level(90) poisson
ci x1 x2
. ci x1 x2
Variable Obs Mean Std. Err. [95% Conf. Interval]
x1 11 4.710909 .3928624 3.835557 5.586261
x2 13 3.354615 .3617667 2.566393 4.142837 [95%Conf.Interval]为95%的可信限,因此x1的95%可信限为[3.8356,5.5863],x2的95%可信限为[2.5664,4.1428]。

根据样本数,样本均数和标准差计算可信限。

若数据服从正态分布,并已知样本均数和标准差以及样本数,则95%可信限计算为:
cii 样本数样本均数标准差[,level(#)]
例:已知样本数为90样本均数为40以及样本标准差为12,则:计算该样本均数的95%可信限为
cii 90 40 12
. cii 90 40 12
cii 90 40 12,level(90)
. cii 90 40 12,level(90)
计数资料中频数和比例
STATA命令:
tab1 变量名[,g(新变量名)
因为该命令主要适用描述计数资料(即:属性资料),当使用子命令g(新变量),则产生属性指示变量。

在回归分析中经常需要这些指示变量作为亚元变量进行分析。

例:50只小鼠随机分配到5个不同饲料组,每组10只小鼠。

在喂养一定时间后,测定鼠肝中的铁的含量(mg/g)如表所示:试比较各组鼠肝中铁的含量是否有显著性差别。

用x表示鼠肝中铁的含量以及用group=1,2,3,4,5分别表示
tab1 group,g(a)
. tab1 group,g(a)
-> tabulation of group
group Freq. Percent Cum.
1 10 20.00 20.00
2 10 20.00 40.00
3 10 20.00 60.00
4 10 20.00 80.00
5 10 20.00 100.00
Total 50 100.00
Freq.为各属性资料的频数;②Percent为该属性占整个资料样本数的百分比;
③Cum.为累计百分比。

本例中,总样本数为50,共有5组,每组有10个样本点,各占总样本数的10%。

因为使用了子命令g(a),从而产生5个指示变量(又可称亚元变量):a1,a2,a3,a4和a5。

变量a1用于指示第1组的资料:即:当资料属于第1组的(group=1),则a1=1;其它组的资料(group¹1),则a1=0。

变量a2用于指示第2组的资料,变量a3,a4和a5相应分别指示第3,4,5组的资料(详细见下表)。

相关文档
最新文档