Stata教学:描述性统计与绘图

合集下载

stata初级入门3-描述性统计指标

stata初级入门3-描述性统计指标
数等指标。 范例:summarize price mpg
2020年2月8日星期六
《计量经济学软件应用》
2
菜单:Statistics > Summaries, tables, and tests > Summary and descriptive statistics > Summary statistics
2020年2月8日星期六
《计量经济学软件应用》
19
六、正态性检验
sktest varname swilk varname
2020年2月8日星期六
《计量经济学软件应用》
20
本讲练习
2020年2月8日星期六
《计量经济学软件应用》
21
列联表给出从属于两个分类变量不同类别的观测 值的频数
如果两个分类变量各有r,c个类别,则列联表共有 r×c个单元格
Car type
id
1
2
Total
Domestic Foreign
7
37
44
4
16
20
Total
11
53
64
2020年2月8日星期六
《计量经济学软件应用》
11
tabulate命令: 语法1——指定两个变量的列联表
[,options] 范例:ameans price
2020年2月8日星期六
《计量经济学软件应用》
6
菜单:Statistics > Summaries, tables, and tests > Summary and descriptive statistics > Arith./geometric/harmonic means

stata初级入门3-描述性统计指标

stata初级入门3-描述性统计指标
数等指标。 范例:summarize price mpg
2021/3/26
2
菜单:Statistics > Summaries, tables, and tests > Summary and descriptive statistics > Summary statistics
2021/3/26
2021/3/26
16
菜单:Statistics > Summaries, tables, and tests > Tables > One/two-way table of summary statistics
2021/3/26
17
五、经验分布函数
对变量累积分布函数的估计
cumul命令:通常与scatter(做散点图)一起使 用
如果两个分类变量各有r,c个类别,则列联表共有 r×c个单元格
C a r t y p e
i d 1
2 T o t a l
D o m e s t i c F o r e i g n
7 4
3 7 1 6
4 4 2 0
T o t a lFra bibliotek1 15 3
6 4
2021/3/26
11
tabulate命令: 语法1——指定两个变量的列联表
2021/3/26
13
语法2——多个变量内存在的所有可能列联分 析结果
tab2 varlist [if] [in] [weight] [, options]
范例:tab2 foreign id rep78
2021/3/26
14
菜单:Statistics > Summaries, tables, and tests > Tables > All possible two-way tabulations

Stata软件基本操作:统计描述入门

Stata软件基本操作:统计描述入门

Stata软件基本操作和数据分析入门第二讲统计描述入门赵耐青一调查某市1998年110名19岁男性青年的身高(cm)资料如下,计算均数、标准差、中位数、百分位数和频数表。

Stata数据结构(读者可以把数据直接粘贴到Stata的Edit窗口)在介绍统计分析命令之前,先介绍打开一个保存统计分析结果的文件操作:计算样本的均数、标准差、最大值和最小值命令1:su 变量名 (可以多个变量:即:su 变量名1 变量名2 …变量名m)命令2:su 变量名,d (可以多个变量:即:su 变量名1 变量名2 …变量名m,d) 本例命令su x本例命令. su x,d计算百分位数还可以用专用命令centile。

centile 变量名(可以多个变量),centile(要计算的百分位数) 例如计算P2.5,P97.5等centile 变量名,centile(2.5 97.5)本例计算P2.5,P97.5,P50,P25,P75。

本例命令. centile x,centile(2.5 25 50 75 97.5)制作频数表,组距为2,从164开始,gen f=int((x-164)/2)*2+164 其中int( )表示取整数tab f 频数汇总和频率计算作频数图命令 graph 变量,bin(#) norm其中#表示频数图的组数;norm表示画一条相应的正态曲线(可以不要) 本例命令为graph x,bin(8) norm为了使坐标更清楚地在图上显示,可以输入下列命令graph x,bin(8) xlabel norm ylabel图形可以从Stata中复制到word中来,操作如下:计算几何均数可以用means 变量名(可以多个变量:即:means 变量1 …变量m) means x作Pie图描述构成比:每一类的频数用一个变量表示,命令:graph 各类频数变量名,pie第1地区血型构成比的Pie图的命令和图graph a b o ab if area==1,pie注意逻辑表达式中if area==1是两个等号。

第五章 statar软件教程-描述性统计分析

第五章 statar软件教程-描述性统计分析
首先我们对wage变量进行偏度—峰度检验,
(2)接下来我们对wage变量分别进行W检验Swilk(Shapiro-Wilk W test for normality)和 W' 检验Sfrancia(Shapiro-Francia W' test for normality),
(3)最后演示D’ Agostino检验,使用的命令是sktestdc,这里我们 使用未经调整过的卡方检验,即添加noadjust选项:
Page 11
STATA从入门到精通
5.4.3改变数据的分布
Stata提供了一个非 常强大的工具“幂阶 梯”(ladder of powers)可以尝试 表5-11所列的九种转 换的可能,然后依次 进行偏度——峰度检 验。
表5-11 幂转换阶梯
转换(tansfermation)
公式

立方(cube)
graph box命令的选项:
over(varname[, over_subopts]):设定分组变量,变量可以是数值型或 者字符型变量,可以设置多达三个的分组变量。[, over_subopts]可以 指定用于排序的变量名称,也可以使用sort(1),则表明按照第一个分组 变量排序。默认排序方式为从小到大,在[, over_subopts]加入 descending则指定为按照中位数从大到小降序排列。
Page 14
STATA从入门到精通
5.5相关系数
常用的相关系数共有如下四种:Pearson相关系数、.Kendall τ相关系数、 Spearman秩相关系数以及偏相关系数。 Stata的相关系数命令不仅可以得到通常的相关系数,还可以计算协方差 矩阵,更为有用的是它还提供了对缺失值的不同处理方法。 Pearson相关系数

stata中变量描述分析和作图..

stata中变量描述分析和作图..
• Stata的默认方法是,tab后面的第一个变量被当成行变量, 第二个变量被当成列变量
• .tab2也提供双变量的交叉分析表 • .tab和tab2的主要区别在于,前者仅可以用于两个变量的
交互分析(tab后面最多只能有两个变量);tab2可同时 生成多个两两变量之间的交互频数分布表
例1
.tab girl enroll, chi2 column row miss nokey ① ② ③④⑤
6.3.频数分布的常见错误之二
• too many values • 导致这类错误的原因在于,在试图生成两个变量的交叉表
时,每个变量都包含太多的取值。比如:
. tab age weight . too many values
(变量的取值太多)
• 这里,变量age和weight均为连续变量,且都有很多的取值, 尤其是weight
多变量频数分布
. tab1 [变量a 变量b 变量c]


①:同时获得多个变量频数分布的基本命令
②:需要输出频数分布的变量名称
• 与tab或tabulate不同的是, . tab1可接多个变量 . tab girl urban
– 该命令告诉Stata,给变量girl和urban各自生成一张频数分布表
菜单窗口
• 在Stata的窗口菜单下,有多种描述数据频数分布 特征的选项,每一选项都具有一定独特的功能, 但有些功能是相通的
窗口路径 Table of summary statistics (table) Table of summary statistics (tabstat) One/two-way table of summary statistics One-way tables

stata初级入门3-描述性统计指标

stata初级入门3-描述性统计指标

2021/1/7
《计量经济学软件应用》
15
四、列联表描述统计量
tabulate, summarize() :单个或两个分类变量 的描述性统计
格式:tabulate varname1 [varname2] [if] [in] [weight] [, options]
选项:[no] means(不)包含均值,[no] standard(不)包含标准差,[no] freq(不) 包含频数,[no] obs(不)包含观测值个数, missing将缺失值作为一类
tab2 varlist [if] [in] [weight] [, options]
范例:tab2 foreign id rep78
2021/1/7
《计量经济学软件应用》
14
菜单:Statistics > Summaries, tables, and tests > Tables > All possible two-way tabulations
2021/1/7
《计量经济学软件应用》
5
ameans命令
估计算术、几何和调和平均数 语法:ameans [varlist] [if] [in] [weight]
[,options] 范例:ameans price
2021/1/7
《计量经济学软件应用》
6
菜单:Statistics > Summaries, tables, and tests > Summary and descriptive statistics > Arith./geometric/harmonic means
语法: tabstat varlist [if] [in] [weight] [, options] 选项:默认结果是均值。

stata初级入门3-描述性统计指标课件

stata初级入门3-描述性统计指标课件
stata初级入门3-描述性统计指标
• 菜单:Statistics > Summaries, tables, and tests > Tables > One/two-way table of summary statistics
stata初级入门3-描述性统计指标
五、经验分布函数
• 对变量累积分布函数的估计
指标。 • 范例:summarize price mpg
stata初级入门3-描述性统计指标
• 菜单:Statistics > Summaries, tables, and tests > Summary and descriptive statistics > Summary statistics
• 列联表给出从属于两个分类变量不同类别的观测值的 频数
• 如果两个分类变量各有r,c个类别,则列联表共有r×c 个单元格
C a r t y p e
D o m e s t i c F o r e i g n
T o t a l
i d 1
7 4
1 1
2
3 7 1 6
5 3
T o t a l
4 4 2 0
stata初级入门3-描述性统计指标
六、正态性检验
• sktest varname • swilk varname
stata初级入门3-描述性统计指标
本讲练习
stata初级入门3-描述性统计指标
stata入门3 ——统计指标篇
stata初级入门3-描述性统计指标
一、基本描述统计量
• summarize命令
• 可概括观测值个数、平均值、标准差、最大值和最小值 五个指标。

第三讲 描述性统计与统计绘图

第三讲 描述性统计与统计绘图

茎叶图及盒形图 通过茎叶图 (stem-and-leaf plot) 可了解数据分布 的结构,通过盒形图 (箱线图 box plot) 也能直观地 展现数据分布的主要特征. 茎叶图:由“茎”和“叶”两部分构成,其图形由数字 组成;以数据的高位数作树茎,低位数作树叶。 min 盒形图: Q1
中位数
Q3
第三讲 描述性统计与统计绘图
统计软件分析与应用
第三讲 描述性统计与统计绘图
§1 描述性统计分析 (descriptive analysis)
描述性统计分析是用表格、图形和描述统计量 等统计语言去描述数据的面貌特征,把数据本身所 包含的信息加以总结概括、整理简化.
一、描述性统计量
一维数据的描述性统计量有:均值、分位数 (中位数, 四分位数等),方差、标准差、变异 系数、极差、四分位极差,偏度系数、峰度系数等. 多维数据的数字特征有: 均值向量、协方差 矩阵、相关矩阵等. 统计软件分析与应用
例:书p77起例3-6——例3-9 统计软件分析与应用
第三讲 描述性统计与统计绘图
proc gchart 过程
proc gchart过程可以绘制垂直和水平的直方图、块形图、 圆饼图、星形图等,可形象地描述变量值的分布及两个以上 变量之间的关系. proc gchart 过程的语句格式:
proc gchart data=数据集; vbar 变量列表</<通用选项列表><vbar专用选项列表>>; hbar 变量列表</<通用选项列表><hbar专用选项列表>>; block 变量列表</<通用选项列表><block专用选项列表>>; pie 变量列表</<通用选项列表><pie专用选项列表>>; star 变量列表</<通用选项列表>< star专用选项列表>>; by 变量列表; run;
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 如果一行要寫很長,超過80字元的規定
• 可以用「#delimit ;」這個指令來處理,取代 原來的換行規定,Stata一直要讀到;才會執行 指令
• 復原的話用「#delimit cr」
儲存do-file
執行do-file
確認正確的路徑
變數名稱改變了
describe
在command視窗打 入describe,發現 變數值也已經執行 了
label variable height "身高" label variable nethour "每週上網時數" label variable havepc "住處有無電腦" label variable math "自評數學程度" label variable socstat "對社統的感覺"
用do-file來界定變數和變數值標籤
label values religion rellb label define yesno 1 "有" 2 "沒有" label values havepc yesno label define degree 5 "很好" 4 "好" 3 "還可以" 2 "不好" 1 "很不好" label values math degree label define fearlb 1 "很害怕" 2 "害怕" 3 "沒有感覺" 4 "喜歡" 5 "很喜歡" label values socstat fearlb
data- browser
• 工具列data-data browser (只能瀏覽, 不能改變)
連續變數的直方圖
• 工具列-graphics-histogram
輸入變數名稱
選擇Y軸項目
直方圖
分組需調整
summarize 變數名稱, detail
• 為了調整分組,我們先看看身高的分佈狀況
• summarize height, detail
分組從150到185為範圍數的直方圖
• 工具列-graphics-histogram
直方間要有間距 每個直方頂上 要標示次數 (人數)
調整X軸
自行輸入變數值標籤
間斷或類別變數的直方圖
類別變數的次數分配表
• Command視窗輸入 • Tab1 gender fethnic methnic religion
label values gender glb1 label define glb1 1 "男" 2 "女“ label define ethlb1 1 "本省閩南人" 2 "本省客家人" 3 "大陸各省市" 4 "原住民" 5 "其他 " label values fethnic ethlb1 label values methnic ethlb1 label define hrlb 1 "北北基" 2"桃竹苗" 3"中中彰投" 4 "雲嘉南" 5 "高高屏" 6 "花東宜 蘭" 7 "金馬澎湖" 8 "其他" label values hregist hrlb label define rellb 1"台灣民間信仰" 2"佛教" 3 "基督教" 4 "天主教" 5 "沒有宗教信仰" 6 "其他"
168
Mean
166.6
Largest Std. Dev. 7.582875
171
175
178
178 Variance
57.5
180
180 Skewness .2408674
181
181 Kurtosis 2.19615
重分組
• 150-185公分,每5公分為一組。
150到185每5每公個分直一方組以5公分為一組, 最低一組的最小值為150
身高
-------------------------------------------------------------
Percentiles Smallest
1%
153
153
5%
155
155
10%
160
160 Obs
25
25%
161
160 Sum of Wgt.
25
50%
75% 90% 95% 99%
Tab1的結果:次數分配表
出現6,因為當初變數值6沒有 給予標籤
出現more表示尚有結 果未呈現,按space
Tab1的結果:次數分配表
Stata教學
描述性統計
用do-file來界定變數並加上標籤
Do-file編輯器
用do-file來界定變數和變數值標籤
use student.dta rename var1 gender rename var2 hregist rename var3 fethnic rename var4 methnic rename var5 religion rename var6 height rename var7 nethour rename var8 havepc rename var9 math rename var10 socstat
label variable gender "性別" label variable hregist "戶籍地" label variable fethnic "父親籍貫" label variable methnic "母親籍貫" label variable religion "宗教信仰"
用do-file來界定變數和變數值標籤
相关文档
最新文档