stata初级入门3-描述性统计指标

合集下载

Stata软件基本操作：统计描述入门

Stata软件基本操作和数据分析入门第二讲统计描述入门赵耐青一调查某市1998年110名19岁男性青年的身高（cm）资料如下，计算均数、标准差、中位数、百分位数和频数表。

Stata数据结构(读者可以把数据直接粘贴到Stata的Edit窗口)在介绍统计分析命令之前，先介绍打开一个保存统计分析结果的文件操作：计算样本的均数、标准差、最大值和最小值命令1：su 变量名 (可以多个变量：即：su 变量名1 变量名2 …变量名m)命令2：su 变量名,d (可以多个变量:即：su 变量名1 变量名2 …变量名m,d) 本例命令su x本例命令. su x,d计算百分位数还可以用专用命令centile。

centile 变量名(可以多个变量)，centile(要计算的百分位数) 例如计算P2.5，P97.5等centile 变量名,centile(2.5 97.5)本例计算P2.5，P97.5，P50，P25，P75。

本例命令. centile x,centile(2.5 25 50 75 97.5)制作频数表，组距为2，从164开始，gen f=int((x-164)/2)*2+164 其中int( )表示取整数tab f 频数汇总和频率计算作频数图命令 graph 变量,bin(#) norm其中#表示频数图的组数;norm表示画一条相应的正态曲线(可以不要) 本例命令为graph x,bin(8) norm为了使坐标更清楚地在图上显示，可以输入下列命令graph x,bin(8) xlabel norm ylabel图形可以从Stata中复制到word中来，操作如下：计算几何均数可以用means 变量名(可以多个变量：即:means 变量1 …变量m) means x作Pie图描述构成比：每一类的频数用一个变量表示，命令：graph 各类频数变量名,pie第1地区血型构成比的Pie图的命令和图graph a b o ab if area==1,pie注意逻辑表达式中if area==1是两个等号。

第五章 statar软件教程-描述性统计分析

首先我们对wage变量进行偏度—峰度检验，
（2）接下来我们对wage变量分别进行W检验Swilk（Shapiro-Wilk W test for normality）和 W' 检验Sfrancia（Shapiro-Francia W' test for normality），
（3）最后演示D’ Agostino检验，使用的命令是sktestdc，这里我们使用未经调整过的卡方检验，即添加noadjust选项：
Page 11
STATA从入门到精通
5.4.3改变数据的分布
Stata提供了一个非常强大的工具“幂阶梯”（ladder of powers）可以尝试表5-11所列的九种转换的可能，然后依次进行偏度——峰度检验。
表5-11 幂转换阶梯
转换(tansfermation)
公式

立方(cube)
graph box命令的选项:
over(varname[, over_subopts]):设定分组变量，变量可以是数值型或者字符型变量，可以设置多达三个的分组变量。[, over_subopts]可以指定用于排序的变量名称，也可以使用sort(1)，则表明按照第一个分组变量排序。默认排序方式为从小到大，在[, over_subopts]加入 descending则指定为按照中位数从大到小降序排列。
Page 14
STATA从入门到精通
5.5相关系数
常用的相关系数共有如下四种：Pearson相关系数、.Kendall τ相关系数、 Spearman秩相关系数以及偏相关系数。 Stata的相关系数命令不仅可以得到通常的相关系数，还可以计算协方差矩阵，更为有用的是它还提供了对缺失值的不同处理方法。 Pearson相关系数

stata中如何导出描述性统计结果

Stata入门——如何导出描述性统计1.打开stata，进入do file 界面。

2.导入需要分析的数据// use “文件路径”，clear （文件路径可以通过shift+鼠标右键获得）3.输入描述性统计命令// tabstat 变量1 变量2 变量3......变量X, s（N mean sd min max）f(%12.3f) c(s) (其中tabstat是进行表格格式统计；s为statistics，其后面根据的是所需要的统计量内容，若需要其他统计量，可以键入help tabstat，运行后得出帮助；f为数据汇报表格格式format，c（s）代表用统计量名称作为列名)进行完上述操作之后，基本完成了变量的描述性统计，接下来需要做的是将上述得到的结果导出到excel导出命令有的软件需要事先安装，安装编码为ssc install logout,运行后可继续操作4.输入导出命令//logout，save（mytable）word replace：）（word代表保存的格式，可以代替为excel等，replace代表若已存在该文件则替代，无则直接保存）//导出结果可以导出到excel再复制到word再右键自动调整格式，这样得出的表格格式会相对美观。

综上，导出描述性统计的完整命令可以键入为：logout，save（mytable）word replace：）（word代表保存的格式，可以代替为excel等，replace代表若已存在该文件则替代，无则直接保存）tabstat 变量1 变量2 变量3......变量X, s（N mean sd min max）f(%12.3f) c(s) (其中tabstat是进行表格格式统计；s为statistics，其后面根据的是所需要的统计量内容，若需要其他统计量，可以键入help tabstat，运行后得出帮助；f为数据汇报表格格式format，c（s）代表用统计量名称作为列名)。

stata中变量描述分析和作图..

• Stata的默认方法是，tab后面的第一个变量被当成行变量，第二个变量被当成列变量
• .tab2也提供双变量的交叉分析表 • .tab和tab2的主要区别在于，前者仅可以用于两个变量的
交互分析（tab后面最多只能有两个变量）；tab2可同时生成多个两两变量之间的交互频数分布表
例1
.tab girl enroll, chi2 column row miss nokey ① ② ③④⑤
6.3．频数分布的常见错误之二
• too many values • 导致这类错误的原因在于，在试图生成两个变量的交叉表
时，每个变量都包含太多的取值。比如：
. tab age weight . too many values
（变量的取值太多）
• 这里，变量age和weight均为连续变量，且都有很多的取值，尤其是weight
多变量频数分布
. tab1 [变量a 变量b 变量c]
①
②
①：同时获得多个变量频数分布的基本命令
②：需要输出频数分布的变量名称
• 与tab或tabulate不同的是， . tab1可接多个变量 . tab girl urban
– 该命令告诉Stata，给变量girl和urban各自生成一张频数分布表
菜单窗口
• 在Stata的窗口菜单下，有多种描述数据频数分布特征的选项，每一选项都具有一定独特的功能，但有些功能是相通的
窗口路径 Table of summary statistics (table) Table of summary statistics (tabstat) One/two-way table of summary statistics One-way tables

stata初级入门描述性统计指标

选项：missing缺失值也作一类，plot作柱状图范例：tabulate foreign/tab1 foreign id
2020年10月13日星期二《计量经济学Fra bibliotek件应用》8
菜单1： Statistics > Summaries, tables, and
tests > Tables > One-way tables
《计量经济学软件应用》
4
菜单：Statistics>Summaries, tables, and tests >Tables>Table of summary statistics (tabstat)
2020年10月13日星期二
《计量经济学软件应用》
5
ameans命令
估计算术、几何和调和平均数语法：ameans [varlist] [if] [in] [weight]
stata入门3 ——统计指标篇
江金启沈阳农业大学经济管理学院
一、基本描述统计量
summarize命令
可概括观测值个数、平均值、标准差、最大值和最小值五个指标。
语法：summarize varlist [in] [if] [weight] [,options] 选项：detail可统计方差、偏度、峰度和各个分位
列联表给出从属于两个分类变量不同类别的观测值的频数
如果两个分类变量各有r,c个类别，则列联表共有 r×c个单元格
Car type
id
1
2
Total
Domestic Foreign
7
37
44
4
16
20
Total
11
53
64

stata描述性统计代码

stata描述性统计代码Stata是一种强大的数据分析软件，它提供了丰富的统计分析功能和数据处理工具。

在Stata中进行描述性统计分析是非常常见的一种数据处理任务，下面是一些常用的Stata描述性统计代码： 1. 描述性统计分析summarize varname通过summarize命令可以计算变量varname的描述性统计量，包括平均数、标准差、最小值、最大值、中位数等。

2. 频数统计tabulate varname通过tabulate命令可以计算变量varname的频数统计，包括每个取值的频数和频率。

3. 分组统计summarize varname, by(groupvar)通过by子句可以按照groupvar变量进行分组统计，计算每个组别内变量varname的描述性统计量。

4. 交叉统计tabulate varname1 varname2通过tabulate命令可以计算两个变量varname1和varname2的交叉统计表，包括每个组合的频数和频率。

5. 分组交叉统计tabulate varname1 varname2, by(groupvar)通过by子句可以按照groupvar变量进行分组交叉统计，计算每个组别内两个变量varname1和varname2的交叉统计表。

6. 相关分析correlate varname1 varname2通过correlate命令可以计算两个变量varname1和varname2之间的相关系数和协方差。

7. 回归分析regress depvar indepvar1 indepvar2...通过regress命令可以进行回归分析，其中depvar为因变量，indepvar1、indepvar2等为自变量。

以上是一些常用的Stata描述性统计代码，可以帮助你快速地完成数据分析任务。

stata描述性统计命令

stata描述性统计命令
Stata的描述性统计命令有多种，它们可以帮助研究者更好地了解数
据集的总体特征。

summarize命令用于描述变量的汇总统计。

它可以提供数据的总体基
本统计信息，包括变量的极值，求和和平均值，标准偏差，偏度和峰度等。

tabstat命令可以提供许多汇总统计，如平均数，极差，中位数，众数，标准偏差，偏度和峰度等。

means命令用于计算一般变量的平均值，可以指定组分的变量（空格
分隔），以计算某个变量对应不同组分的平均值。

summarize, tabstat和means命令都可以设置if和in选项，以按
某个条件或某组约束变量汇总统计。

假设检验命令可以用于检验某个假设是否为真。

t-test可以用来检
验均值之间是否存在显著差异；ranksum可以用来检验两个样本是否具有
相同或不同的数据分布；correlate可以用来检验两个变量之间是否存在
线性关系。

graph box可以创建箱线图，以显示一组数据的总体分布。

histogram可以创建一种特定的直方图，可以清楚地显示数据的分布
状况。

Stata还提供了其他描述性统计命令，比如contrast，prtest，correlate等，用于更深入地了解数据集的总体特征。

(完整版)STATA第二章描述性统计命令与输出结果说明

第二章描述性统计命令与输出结果说明上述数据也可以用变量x表示血磷测定值，分组变量group=0表示患者组和group=1表示健康组(如：患者组中第一个数据为2.6，则x=2.6，group=0；又如：健康组中第三个数据为1.98，则x为1.98以及group为1)，并假定这些数据已以STATA格式存入ex2a.dta文件中。

计算资料均数，标准差命令summarize，以述资料为例：. summarizeVariable Obs Mean Std. Dev. Min Maxx1 11 4.710909 1.302977 2.6 6.53x2 13 3.354615 1.304368 1.67 5.78Mean 均值；Std.Dev.标准差即：本例中急性克山病患者组的样本数为11，血磷测定值均数为4.711(mg%)，相应的标准差为1.303，最小值为2.6以及最大值为6.53；健康组的样本量为13，血磷测定值均数为3.3546，相应的标准差为1.3044，最小值为1.67以及最大值为5.78。

计算资料均数，标准差，中位数，低四分位数和高四分位数的命令summarize 以及子命令detail，仍以述资料为例：. summarize x1 x2,detailx1Percentiles Smallest1% 2.6 2.65% 2.6 3.2410% 3.24 3.73 Obs 1125% 3.73 3.73 Sum of Wgt. 1150% 4.73 Mean 4.710909Largest Std. Dev. 1.30297775% 5.78 5.5890% 6.4 5.78 Variance 1.69774995% 6.53 6.4 Skewness -.081344699% 6.53 6.53 Kurtosis 1.809951x2Percentiles Smallest1% 1.67 1.675% 1.67 1.9810% 1.98 1.98 Obs 1325% 2.33 2.33 Sum of Wgt. 1350% 3.6 Mean 3.354615Largest Std. Dev. 1.30436875% 4.17 4.1790% 4.82 4.57 Variance 1.70137795% 5.78 4.82 Skewness .296394399% 5.78 5.78 Kurtosis 1.875392.结果：Percentiles 显示了从1%到99%的分位数的取值。

Stata统计分析命令..

Stata统计分析常用命令汇总一、winsorize极端值处理范围：一般在1%和99%分位做极端值处理，对于小于1%的数用1%的值赋值，对于大于99%的数用99%的值赋值。

1、Stata中的单变量极端值处理：stata 11.0，在命令窗口输入“findit winsor”后，系统弹出一个窗口，安装winsor模块安装好模块之后，就可以调用winsor命令，命令格式：winsor var1, gen(new var) p(0.01) 或者在命令窗口中输入：ssc install winsor安装winsor命令。

winsor命令不能进行批量处理。

2、批量进行winsorize极端值处理：打开链接：/judson.caskey/data.html，找到winsorizeJ，点击右键，另存为到stata中的ado/plus/目录下即可。

命令格式：winsorizeJ var1var2var3,suffix(w)即可，这样会生成三个新变量，var1w var2w var3w，而且默认的是上下1%winsorize。

如果要修改分位点，则写成如下格式：winsorizeJ var 1 var2 var3,suffix(w) cuts(5 95)。

3、Excel中的极端值处理：（略）winsor2 命令使用说明简介：winsor2 winsorize or trim (if trim option is specified) the variables in varlist at particular percentiles specified by option cuts(# #). In defult, new variables will be generated with a suffix "_w" or "_tr", which can be changed by specifying suffix() option. The replace option replaces the variables with their winsorized or trimmed ones.相比于winsor命令的改进：(1) 可以批量处理多个变量；(2) 不仅可以winsor，也可以trimming；(3) 附加了by() 选项，可以分组winsor 或trimming；(4) 增加了replace 选项，可以不必生成新变量，直接替换原变量。

第五章 statar软件教程-描述性统计分析

sfrancia varlist [if] [in]
④D’ Agostino检验
sktestdc varlist [=exp] [if exp] [in range] [, noadjust]
Page 10
STATA从入门到精通
【例5-4】下面我们依次举例说明这四个命令的使用，这里用到的数据仍然是小时工资数据集wage1.dta。
变异程度的度量：极差、方差、标准差
相对位置的度量：标准得分偏度和峰度:如果数据的分布是对称的，则偏度系数为0；如果偏度系数明显不等于0，表明分布是非对称的。若偏度系数大于1或者小于-1，被称为高度偏态分布。峰度通常是与标准正态分布比较，Stata计算的峰度系数未减3，故而是与3作比较而不是与0作比较。若峰度系数等于3则服从标准正态分布，反之则意味着分布比正态分布更尖或者更平。
表511幂转换阶梯转换tansfermation公式作用立方cubex3缓解负偏态平方squarex2同上原始rawx无平方根squarerootx05缓解正偏态对数loglogx同上平方根负倒数negatinereciprocalrootx05同上负倒数negatinereciprocalx同上平方负倒数nagatinereciprocalquarex2同上立方负倒数nagatinereciprocalcubex3同上page14stata从入门到精通幂阶梯共有三个相关的命令第一个命令ladder尝试表58所涉及到的九种转换然后分别进行正态性检验这是幂阶梯最基本的命令
Page 15
STATA从入门到精通
【例5-6】使用数据集wage.dta，完成如下任务：
（1）得到的wage、educ、exper、tenure之间的相关系数矩阵，（2）得到的wage、educ、exper、tenure之间的协方差矩阵，

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数等指标。范例：summarize price mpg
2020年2月8日星期六
《计量经济学软件应用》
2
菜单：Statistics > Summaries, tables, and tests > Summary and descriptive statistics > Summary statistics
2020年2月8日星期六
《计量经济学软件应用》
19
六、正态性检验
sktest varname swilk varname
2020年2月8日星期六
《计量经济学软件应用》
20
本讲练习
2020年2月8日星期六
《计量经济学软件应用》
21
列联表给出从属于两个分类变量不同类别的观测值的频数
如果两个分类变量各有r,c个类别，则列联表共有 r×c个单元格
Car type
id
1
2
Total
Domestic Foreign
7
37
44
4
16
20
Total
11
53
64
2020年2月8日星期六
《计量经济学软件应用》
11
tabulate命令：语法1——指定两个变量的列联表
[,options] 范例：ameans price
2020年2月8日星期六
《计量经济学软件应用》
6
菜单：Statistics > Summaries, tables, and tests > Summary and descriptive statistics > Arith./geometric/harmonic means
2020年2月8日星期六
《计量经济学软件应用》
16
菜单：Statistics > Summaries, tables, and tests > Tables > One/two-way table of summary statistics
2020年2月8日星期六
《计量经济学软件应用》
17
五、经验分布函数
2020年2月8日星期六
《计量经济学软件应用》
15
四、列联表描述统计量
tabulate, summarize() ：单个或两个分类变量的描述性统计
格式：tabulate varname1 [varname2] [if] [in] [weight] [, options]
选项：[no] means（不）包含均值，[no] standard（不）包含标准差，[no] freq（不）包含频数，[no] obs（不）包含观测值个数， missing将缺失值作为一类
《计量经济学软件应用》
4
菜单：Statistics>Summaries, tables, and tests >Tables>Table of summary statistics (tabstat)
2020年2月8日星期六
《计量经济学软件应用》
5
ameans命令
估计算术、几何和调和平均数语法：ameans [varlist] [if] [in] [weight]
2020年2月8日星期六
《计量经济学软件应用》
9
菜单2：Statistics > Summaries, tables, and tests > Tables > Multiple one-way tables
2020年2月8日星期六
《计量经济学软件应用》
10
三、两个分类变量的列联表
列联表是考察两个分类变量相关关系的方法
2020年2月8日星期六
《计量经济学软件应用》
7
二、单个分类变量的汇总统计
tabulate/tab1命令
对分类变量的描述统计是观察其不同类别的频数或百分数。
语法1：tabulate varname [if] [in] [weight] [, options]
语法2： tab1 varlist [if] [in] [weight] [, options]
标值。 nototal不报告总体统计值，通常是与by()配合使用 missing用by()选项时，显示by()变量的缺失值也作
一类的结果。
范例：tabstat price mpg, by(id) statistics(mean ma mi sd n) missing
2020年2月8日星期六
选项：missing缺失值也作一类，plot作柱状图范例：tabulate foreign/tab1 foreign id
2020年2月8日星期六
《计量经济学软件应用》
8
菜单1： Statistics > Summaries, tables, and
tests > Tables > One-way tables
2020年2月8日星期六
《计量经济学软件应用》
3
tabstat命令
语法： tabstat varlist [if] [in] [weight] [, options] 选项：默认结果是均值。
by(varname) 按变量varname进行分组描述性统计； statistics(statname [...]) 报告指定的描述性统计指
stata入门3 ——统计指标篇
一、基本描述统计量
summarize命令
可概括观测值个数、平均值、标准差、最大值和最小值五个指标。
语法：summarize varlist [in] [if] [weight] [,options] 选项：detail可统计方差、偏度、峰度和各个分位
tabulate varname1 varname2 [if] [in] [weight] [, options]
范例：tabulate foreign id
2020年2月8日星期六
《计量经济学软件应用》
12
菜单：Statistics > Summaries, tables, and tests > Tables > Two-way tables with measures of association
对变量累积分布函数的估计
cumul命令：通常与scatter（做散点图）一起使用
格式：cumul varname [if] [in] [weight], generate (newvar) [options]
选项：freq使用频数作为累积分布
范例：cumul price, generate(cprice)
2020年2月8日星期六
《计量经济学软件应用》
13
语法2——多个变量内存在的所有可能列联分析结果
tab2 varlist [if] [in] [weight] [, options]
范例：tab2 foreign id rep78
2020年2月8日星期六
《计量经济学软件应用》
14
菜单：Statistics > Summaries, tables, and tests > Tables > All possible two-way tabulations

scatter cprice price
2020年2月8日星期六
《计量tatistics > Summaries, tables, and tests > Distributional plots and tests > Generate cumulative distribution