数学建模中的统计分析问题(样本比较,置信度评估)

数学建模中的统计分析问题(样本比较,置信度评估)
数学建模中的统计分析问题(样本比较,置信度评估)

编号专用页

赛区评阅编号(由赛区组委会评阅前进行编号):

全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):

白血病临床治疗的统计分析问题

摘要

一、问题重述

为研究某药物6-MP是否有治疗以缓解病痛的作用,研究者在持续1年的急性白血病治疗的临床试验中,将42位急性白血病患者(进入项目的时间有先后)随机地分成两组(各21人)。对一组病人用药物6-MP治疗以缓解病痛,而另一组病人用安慰剂。安慰剂的外形和颜色与药物完全相同,但不含任何药物,病人自己并不知道实际服用的是药物还是安慰剂。研究者记录下每个病人病痛缓解的持续时间(以周为单位),持续时间越长则疗效越好。数据见表1。

表1数据后面有+者表示,当项目结束时缓解仍在持续。例如,处理组中的20+表示:该病人在项目结束前20小时进入临床治疗,使用6-MP后,缓解持续到项目结束。因此,该病人的实际缓解持续时间至少为20周,很可能大于20周。这种数据在统计学中称为删失数据。

我们需要回答的问题是:

问题1. 6-MP能否显著延长缓解的持续时间?

问题2.如果问题一不能得到肯定的回答,则对该药物没有必要进一步研究;反之,如果结论是肯定的,预测以后的病人在使用6-MP后的缓解持续时间的有关参数,对6-MP的效果给出有足够置信度的量化评估。

二、模型假设

1.假设在项目期间的食物,生存环境,其他药物等外界因素对6-MP药效及病人病痛无影响;

2.假设在项目期间各个阶段病人的6-MP药物服用量充足,治疗方式恰当;3.假设在项目期间无其他病痛误判,粗心等原因引起数据记录失误;

4.假设对同一个病人使用药物的效果始终一样;

5.假设每个病人的身体、精神素质都是相当的,不会因此而使药物的效果变化;6.假设病人自己并不知道实际服用的是药物还是安慰剂;

7.假设病人的年龄、性别对试验无影响;

8.假设两组病人是随机分配的。

三、符号说明及其概念解释

3.1符号说明

3.2概念解释

生存时间:疾病治疗的预后情况,一方面看结局好坏,另一方面还要看出现这种结局所经历的时间长短。所经历的时间称为生存时间。

完全与不完全数据:一部分研究对象可观察到死亡,从而得到准确的生存时间,所提供的信息是完全的,称为完全数据;另一部分病人由于失访、意外事故、或到观察结束时仍存活等原因,无法知道确切的生存时间,它提供了不完全的信息,称为不完全数据(截尾数据、删失数据)。

生存分析:生存时间一般是通过随访收集。不完全数据提供了部分信息。须要用专门的方法进行统计处理,这类统计方法起源于对寿命资料的统计分析,故称为生存分析。

死亡概率:指已活满t时刻的个体,在此后一段时期内(t至t t

+?)死亡的可能性。

生存概率:表示在某单位时段开始时存活的个体到该时段结束时仍存活的可能性大小。

四、 问题分析

本文研究者在持续1年的急性白血病治疗的临床试验中,对42位急性白血病患者随机均等地分成两组,一组病人用药物6-MP 治疗以缓解病痛,而另一组病人用安慰剂。通过对两组病人病痛缓解的持续时间进行对照比较分析,从而研究某药物6-MP 是否有治疗以缓解病痛的作用。

此问题可以转化为生存分析问题,即每个病人的缓解时间可以看每个成个体的寿命,从而可以采用生存分析的相关知识对问题进行分析求解。

由已知可知,每个病人进入项目试验的先后顺序不同,缓解病痛的时效也不同(如图一所示)。

图一:病人的缓解持续时间

通过对表1数据的分析,我们发现有些数据后面有+者表示,当项目结束时缓解仍在持续,这种数据在统计学中称为删失数据,又称截尾数据和不完全数据。对于这类数据的处理,如果我们丢弃删失数据只考虑确切数据,则会损失大量的信息;若将删失数据当作确切数据处理,则会低估了生存时间的平均水平。 用统计学的术语,白血病缓解效果的分析是一个“两样本比较”问题,一般用两正态样本均值比较的t 检验。但现在由于样本分布未知,而且在时间数据的分析中,由于数据分布有很大的偏度,正态分布是一个“坏”的模型。又因为数据是不完全的(有删失数据),常规的、用于完全数据的分析方法不能简单套用。 所以我们引入生存分析这一概念对本文进行分析求解。

生存时间经常服从的基线分布有指数分布、Weibull 分布、对数正态分布、对数logistic 分布和Gamma 分布。由于缓解持续时间不长,因此年龄、体质等可能影响缓解持续时间的因素作用不大,可以认为在任何时刻缓解持续的结束是随机的。又指数分布具有恒定危险率的特点,所以可假设生存时间服从指数分布,由次进行检验。

对于问题二,要预测持续时间参数,则先要给出其相关的参数,在对其置信

区间进行预测。

五、 模型建立与求解

5.1

问题一的模型 参数回归模型

本案例中样本容量不大,我们事先根据其生存函数曲线将分布假定为指数分布,所以可采用参数回归模型的分析方法,首先对指数分布进行检验,然后使用点估计的方法分别对两组数据的参数进行估计,接着对其有花都进行检验。用参数假设检验来判断处理组与控制组的缓解时间分布是否有显著差别从而判断药物6-MP 能否显著延长缓解的持续时间。

首先分别对处理组和控制组的数据进行分析处理,由此拟合一个满意的参数分布,再用参数假设检验来判断处理组和控制组的缓解时间分布是否有显著差别,从而回答问题一:6-MP 能否显著延长缓解的持续时间。

5.1.1 模型的准备

我们假设每个病人病痛缓解的持续时间为生存时间。在这批数据中,其中控制组(使用安慰剂)的数据是完全的,没有删失数据。因为完全数据的分析比较简单,所以我们先对控制组数据进行处理。在刻画时间分布模型的特征方面,“生存函数”和“危险率函数”是两个重要的函数。 对控制组数据进行处理

通过计算机吃力可得,控制组生存函数图像为:

生存函数又称可靠性函数。是个体寿命超过某个时刻的概率。X 记为个体的生存期,生存函数定义为:

()()S t P T t =>=t 时刻仍存活的例数

观察病人总数

累积生存函数为:12()()i i k S t P T t p p p =>=…

危险率函数也称为风险函数、瞬时死亡率、年龄别死亡率、条件死亡率,常用h (t )表示,它表示已存活到t 时刻的一个体,死于(t ,t t +?)小区间内的概率的极限。

0(|)

()lim t P t T t t t T h t t

?→<≤+?<=?

0()()lim (ln ())()t S t S t t d

S t t S t dx

?→-+?==-??

累积危险函数为:0

()()ln ()t

H t h u du S t t λ==-=?

λ为指数分布的危险率,或称为尺度参数,其大小决定了生存时间的长短,

危险率越大,生存率下降越快;危险率越小,生存时间越长。在指数分布模型中,λ是常数,与时间t 无关。

因为本文所给的生存资料分布具有不规则、不确定或未知分布的特点,所以采用非参数法估计生存率。 根据本文的样本含量为小样本,所以选择乘积极限估计法(Kaplan-meier )来出来数据。

乘积极限估计法简称积限法或PL 法,是直接用概率乘法原理估计生存率,它是由统计学家Kaplan 和Meier 于1958年首先提出的,因此又称为Kaplan-Meier 法。此法计算生存率时,先将每个个体的生存时间按照由小到大的顺序排列,排序时若截尾值与非截尾值的观察时间相同,则规定非截尾值小于截尾值,排在截尾值之前。然后依次计算出各时段的死亡概率、生存概率,进而计算出从观察开始至各时刻的生存率(如图一、二所示)。

1.对处理组和控制组的累计生存率取自然对数,即取其累计危险函数:y ln ()S t =;

2.以个体寿命t 为横坐标,y ln ()S t =为纵坐标画折线图。

由上图可明显看出其图形走势近似直线。从而可以证明我们构建指数模型的思路是可行的。 因此设

()-ln ()H t S t t λ==

即:

()t S t e λ-=

由此可以直观的认为指数分布对数据的拟合是比较满意。

5.1.2 指数回归模型的构建: 指数分布准备知识:

若随机变量T 具有概率密度函数为:()t f t e λλ-=,则称 T 服从参数为λ(为尺度参数)的指数分布,简记为~()X E λ。 T 的总体分布函数为:0()1t

u t F t e du e λλλ--==-?

由此可导出以下公式:

()1()t S t F t e λ-=-= ()()/()h t f t S t λ==

人们用不变的危险率λ来刻划指数分布的特征,λ为指数分布模型中唯一的参数,其极大似然估计为:

1

=n i

i m m T t λ∧==∑

其中,n 为样本含量;i t 为每个观察对象的生存时间,i =1,..,n 包括完全数

据和截尾数据;m 为数据中完全数据的个数。 指数分布只有中只有一个参数,令控制组参数为1λ

因为控制组的数据是完全的,我们使用如下方法对参数1λ进行估计。 1、没有删失数据的极大似然估计:

1

12n ()n

i

i t t t t n L e e e e

λ

λλλλλλλλ=----∑==…

两边取对数得:1

ln ()ln n

i i L n t λλλ==-∑

再对其进行求导得:1

ln ()n =0n

i i d L t d λλλ=-=∑

最后得:1

=n i

i n

t λ∧=∑

而控制组是完全数据不含删失数据,所以代入该极大似然估计模型得:

11

21==0.115182n i

i n t λ∧==∑

因此我们可以初步得出用0.115()t S t e -=来拟合控制组数据,为进一步确定这一假设,我们将对其拟合度进行优化检验。 用拟合优度对拟合效果进行评估

构造一个度量所假设的分布拟合数据优度的经验统计量D (0)D ≥,D 的值越小则表示拟合的越好。为了更好的确定其拟合的效果,我们令0.5ξ=,近似的认为当D ξ≤时拟合效果较好。

由于该分布为但一分布,则采用kolmogorov 检验法进行优度检验。

首先作出控制组总体分布的经验分布函数()n F t ,总体分布函数为0.115(t)F t e -= 假设控制组21人的病痛缓解的持续时间是总体的一样本,则可以得到控制组经验分布函数13()F t 的观察值为:

130

,12/21,124/21,235/21,347/21,459/21,58()13/21,81115/21,111217/21,121518/21,151719/21,172220/21,22231

,23x x x x x x F t x x x x x x x ≤??<≤?

?<≤?

<≤??<≤?

<≤??

=<≤??<≤?

<≤??

<≤??<≤?

<≤??>?

因为对于任一实数t ,当n →∞时,()n F t 以概率1一致收敛于分布函数()F t ,即:

{}

lim sup ()()01n n x P F t F t →∞-∞<<∞

-==

换句话说,对于任一实数t ,当n 充分大时,经验分布函数的任一个观察值()n F t 与总体分布函数()F t 只有微小的差别,从而在实际上可当作()F t 来使用。 检验统计量sup ()()i n i i t t

D F t F t ∈=-

为了便于求解,我们可简化 'max ()()i n i i t t

D D F t F t ∈≈=-

通过matlab 求解得:'0.1729D =,则'0

.5D D ε≈<=故此得到0.115()t S t e -=对控制数据的拟合较好。

对处理组数据的处理:

通过计算机处理得到处理组的生存函数曲线图

对于含有删失数据的分布,我们采用含有删失数据的乘积限估计。 因为处理组中含有删失数据,所以我们对n 个数据合为k 个不同的死亡时期,从小到大排列为:1230k t t t t <<<<…<。在时间i t 上重复的个数为i g ,满足大于或等于i t (死亡、刪失、重复)的个数记为i n 。 假设

①在区间[]1,i i t t +上的刪失数据,其时间不早于1i t +。 ②当1i i t t t +<<时,条件概率(T|)i P t t T ≤≤的经验估计为:

i

i

i i

n g p n ∧-= , i=0,1,…,k

由此得到其经验生存函数()n S t :

当0i t t t ≤≤,00

()n g S t n -==1

当1i i t t t +<<,由21(T)()(|)i P t P t T P t T t T ≤=≤≤≤… 得:

累积生存函数121

()i

j j

n i j j

n g S t p p p n ∧

=-==∏

使用excel 软件对附录一、二的数据做出如下处理:

1、对处理组和控制组的累计生存率取自然对数,即取其累计危险函数:

y ln ()S t =;

2、以个体寿命t 为横坐标,y ln ()S t =为纵坐标画折线图。

由上图可明显看出其图形走势近似直线。从而可以证明我们构建指数模型的思路是可行的。

因此设

()-ln ()H t S t t λ==

即:

()t S t e λ-=

由此可以直观的认为指数分布对数据的拟合是比较满意。

有删失数据的极大似然估计: 设有n 个急性白血病患者(观察对象)进入急性白血病治疗的临床试验中, 其中有删失数据 m 个,即病人治疗到一半项目结束(即12m 0t t t ≤≤≤≤…), 而另外n-m 个病人在m t 时能够接受到治疗。利用这一样本,我们用最大似然估计法来估计。

我们可以知道一个观察对象在[]t ,t t i i i d +失效的概率近似为

i i ()t t t i i f t d e d λλ-=(i =1,..,m ),而其余得n-m 个观察对象活过m t 得概率为

()

t =m

m

t

t t e d e λλλ∞--?

即:

()

()

n-m

t

=m

m

n m

t t

t e

d e λλλ∞

---?

故上述观察结果出现的概率近似地为:

()()()()

1

2m n-m

12m t t t m

t t t t n e d e d e d e m λλλλλλλ----?? ???

其中12m t t t d d d ,,…,为常数。因忽略一个常数因子不影响q 的最大似然估计,故可取似然函数为:

12[()]()m m t t t n m t m L e λλλ-++++-=…

对数似然函数为:

12ln ()mln [()]m m L t t t n m t λλλ=-++++-…

12ln ()m

=[()]0m m d L t t t n m t d λλλ

-++++-=…

于是得到λ的最大似然估计为:

m

=

()

m s t λ∧ 其中,12()()m m m s t t t t n m t =++++-…称为总观察时间,它表示直至时刻m t 为止n 个病人的试验时间的总和;m 表示出现观察终点的人数。

因为处理组中含有删失数据,所以将数据代入以上极大似然估计模型得:

2m 9===0.025()359m s t λ∧

因此我们可以初步得出用0.025()t S t e -=来拟合控制组数据,为进一步确定这一假设我们同样对其拟合度进行优化检验。(同控制组) 经检验得到0.025()t S t e -=能较好的拟合处理组数据。

由此得,控制组拟合函数为0.115()t S t e -=,处理组拟合函数为0.025()t S t e -= 12λλ>,则控制组的危险率要大于处理组,故同一时期控制组的生存率低。如下图所示,我们可以对两组病人的生存状况进行直观的比较。图中显示了两组病人的生存率随时间的延长成指数下降的趋势,处理组和控制组的下降率分别为0.025%/周和0.115%/周。

控制组和处理组的危险率比较

5.1.3 似然比检验模型

为了回答药物6-MP 能否显著延长缓解的持续时间,我们需构建似然比检验模型进行定性的分析:

原假设 0H : 12=λλ (两组患者的生存率是相同的) 备择假设 1H : 12λλ≠ (两组患者的生存率不相同) 因1λ,2λ的极大似然估计分别为:

111

m =T λ , 222m

=T λ

又根据两样本的合并样本得到合并的尺度参数的估计为:

12

12

c m m T T λ+=+

构造似然函数:

[][]1212121211221212()=exp exp ()m m m m L T T m m λλλλλλλλ--=-+,

[][]12121212()=exp ()exp ()m m m m c c c c L T T m m λλλλ++-+=-+

则似然比为:

12

121212

()==()m m c c m m L L λλλλλλ+∧,

相应的对数似然函数为:

1212112212log()=log[()]log log ()L m m m m λλλλλλ=+-+,,

1212log()=log[()]()log()()c c c L m m m m λλλ=+-+

如果0H 成立,则似然比统计量为:

[]2121,=2log 2log()log()~c G αλλλχ-∧=--,

即: []21211221,2()log()log log ~c G m m m m αλλλχ=-+-- 取显著性水平0.05α=,按自由度为 1的2χ界值作出决策。 同时:因为21,0.05 3.841χ=,

而统计量2χ的实测值216.75 3.841G χ==>。

由于16.75显著大于3.84,其否定区域,即备择假设成立。所以药物6-MP 能否显著延长缓解的持续时间。

综上所述,6-MP 具有显著延长缓解的持续时间,且其平均延长时间为控制组的4.6倍,即12/ 4.6λλ=。

由于控制组平均缓解时间()8.67i E t =控。则(t )8.67 4.640i E =?≈处周

5.2 问题二的模型

由问题一得出的结果证明了6-MP 能够显著延长缓解的持续时间,所以我们可以预测以后的病人在使用6-MP 后的缓解持续时间的有关参数,对6-MP 的效果给出有足够置信度的量化评估。

5.2.1 模型的建立

由研究者对42位急性白血病患者做持续1年的急性白血病治疗的临床试验可知,研究者不仅希望得到一种有效的药能够对急性白血病患者具有显著延长缓解的持续时间的作用,而且也想通过试验得到该药的有效适用范围。 由此,我们确定以下评估效果的参数:

1.以后的病人使用6-MP 后的期望缓解的持续时间;

2.以后的病人使用6-MP 后,其缓解的持续时间超过半年(26周)的概率; 3.以后的病人使用6-MP 后,具有70%的可能性其期望缓解的持续时间不低于某个下限。

由问题一的求解可知,处理组的指数分布能够较好的拟合其缓解持续时间分布,其指数拟合分布函数0.025()t S t e -=。

⑴ 由指数分布的性质知,以后的病人使用6-MP 后的期望缓解的持续时间最大似然估计值为:

11()400.025

u E x λ∧∧====周;

⑵ 以后的病人使用6-MP 后,其缓解的持续时间超过半年(26周)的概率为:

26260.025(26)0.522P x e e λ--?≥===;

⑶ 采用分为点估测法

设估计分位数为0.1x ,则满足0.30.3()1()0.7P x x P x x ≥=-<=

由此可知

0.30.3()0.7x P x x e λ-≥==

则0.3ln 0.7

x λ

-=

,由此得

0.3ln 0.7

14.270.025

x ∧

-=

=

得出理想值之后,我们需要对其效果给出足够置信度的量化估计,即:

1. 病人期望缓解持续时间的置信区间;

2. 持续时间超过半年(26周)的概率置信下限;

3. 病人使用6-MP 后,具有70%的可能性其期望缓解的持续时间不低于某个

下限的置信下限。

设处理组函数分布的似然函数为()L θ,θ为缓解期望时间估计值()E x 的待估

计量,信息函数2

2()ln ()I L θθθ

?=-?

由问题一可知,我们取的显著性水平0.05α=,则其置信水平10.95p α=-=。根据最大似然估计的渐进正态性有:

~(0,1)N ∧

,取u θ=。

另外,由于处理组服从指数分布,则似然函数123()(,,,...,;)n L L x x x x θθ=。 得:

123[...()]()m m x x x x n m x m L e λθθ-+++++-=,m 为处理组数据中完全数据的个数

同时取似然的自然对数得:

123ln ()ln [...()]m m L m x x x x n m x θθθ=-+++++-

对θ取二次偏微分得:

123ln ()[...()]m m L m

x x x x n m x θθθ

?=-+++++-? 222

ln ()L m

θθθ?=-?

由此知,229

()()0.005640m I I u u θ∧====

~(1,0)N ∧

不依赖任何未知参数,根据正态分布α的分位定义得:

2

1P Z αα??<=-???

即:22

1P u Z u u Z ααα∧∧??

<<=-????

所以我们得到期望时间的置信区间为:

(2

2

,u Z u Z αα∧

+)

又因为0.05α=,10.95p α=-=查表得0.0252

1.96Z Z α==

由代入上式可得期望延续时间u 为95%的置信区间

[u u ∧∧-+

0.75= 故:(1)u 的置信区间[39.853,40.147]。

由此可知:期望延续时间u 的置信下限为μ-

=39.853,此时的参数

1/1/39.853λμ∧

-

==

所以(2)(6)P X ≥的95%的置信下限为

26/39.853

(6)0.521X e

P --

≥==

(3)0.3x 的95%的置信下限为

(ln 0.7)/(ln 0.7)39.85314.215λ-=-?=

5.2.2 模型的求解

5.2.3模型的检验

六、模型的评价与推广

本文所建立的模型具有以下特点:

合理性:每个实际问题都有一定得“背景机理”,而我们选择的统计模型考虑了该问题的背景机理;

合适性:我们的模型能够较好的拟合数据;

简单性:我们建立的模型比较简单,同时又可以较好的拟合数据,能够避免由随机因素造成的模型变形,而且容易从背景机理上解释。

参考文献

附录

附录三:相关的程序及代码

clear,clc

t=[6 7 9 10 11 13 16 17 19 20 22 23 25 32 34 35 ];

p=[0.857142857 0.806722689 0.806722689 0.752941176

0.752941176 0.690196078 0.627450909 0.627450909

0.627450909 0.627450909 0.537815065 0.448179221

0.448179221 0.448179221 0.448179221 0.448179221

x=6:0.01:35;

yi_nearest=interp1(t,p,x,'nearest');

plot(t,p,'ko');hold on;

plot(x,yi_nearest,'g','linewidth',1.5);hold on; grid on;

title('nearest method')

置信区间与置信水平样本量的关系

置信区间与置信水平、样本量的关系 置信区间与置信水平、样本量的关系(2008-10-28 08:39:39)标签:置信区间与置信水平教育分类:数学相关 置信水平Confidence level 置信水平是指总体参数值落在样本统计值某一区内的概率;而置信区间是指在某一置信水平下,样本统计值与总体参数值间误差范围。置信区间越大,置信水平越高。 一、置信区间的概念 置信区间又称估计区间,是用来估计参数的取值范围的。常见的52%-64%,或8-12,就是置信区间(估计区间)。置信区间是按下列三步计算出来的: 第一步:求一个样本的均值 第二步:计算出抽样误差。 人们经过实践,通常认为调查: 100个样本的抽样误差为±10% 500个样本的抽样误差为±5% 1,200个样本时的抽样误差为±3% 第三步:用第一步求出的“样本均值”加、减第二步计算的“抽样误差”,得出置信区间的两个端点。 举例说明: 美国Gallup(盖洛普)公司就消费者对美国产品质量的看法,对美国、德国和日本三国共计3,500名消费者(每个国家约1,200名)分别进行了调查,调查结果:有55%的美国人认为美国产品质量好,而只有26%的德国人和17%的日本人持同样看法。抽样误差为±3%,置信水平为95%。则这三个国家消费者的置信区间分别为: 国别样本均值抽样误差置信区间 美国55% ±3% 52%-58% 德国26% ±3%23%-29% 日本17% ±3%14%-20% 二、关于置信区间的宽窄 窄的置信区间比宽的置信区间能提供更多的有关总体参数的信息。 假设全班考试的平均分数为65分,则 置信区间间隔宽窄度表达的意思 0-100分100 宽等于什么也没告诉你 30-80分50 较窄你能估出大概的平均分了(55分) 60-70分10 窄你几乎能判定全班的平均分了(65分)

SAS数据的描述性统计分析答案

实验一数据的描述性统计分析 一、选择题 1、以下( B )语句对变量进行分组,在使用前需按分组变量进行排序? 以下( C )语句可对变量进行分类,在使用前不必按分类变量进行排序? 用( A )语句可以选择输入数据集的一个行子集来进行分析? (A)WHERE语句(B)BY语句(C)CLASS语句(D)FREQ语句2、排序过程步中必须用什么语句对变量进行排序?( A ) (A)BY语句(B)CLASS语句(C)WHERE语句 3、如果要对数据集中的数据进行正态性检验,需要使用哪个过程?( B )(A)MEANS (B)UNIV ARIATE (C)FREQ 4、用UNIV ARIATE过程进行数据分析,要求此过程输出茎叶图、正态概率图等,应在语句中加上什么选项?(plot ) 5、用UNIV ARIATE过程进行数据分析,在输出结果中哪个统计量是对样本均值 为零的T检验的概率值?( A ) (A)T: Mean (B)Prob>|S| (C)Sgn Rank (D)Prob>|T| 二、假设某校100名女生的血清总蛋白含量(g/L)服从均值为75,标准差为3的正态分布,试产生样本数据,并利用SAS软件解决下面问题: 1、计算样本均值、方差、标准差、极差、四分位极差、变异系数、偏度、峰度; 2、画出直方图(垂直条形图); 3、画出茎叶图、盒形图和正态概率图; 4、试进行正态性检验。 Data N; DO i=1to100; x=75+3*normal(12345); output; end; proc print; run; proc univariate data=N; var x; run; proc gchart data=N; block x; run; proc univariate data=N plot; var x;

描述性统计分析报告--Descriptive Statistics菜单详解

第六章:描述性统计分析-- Descriptive Statistics菜单详解 描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中,最常用的是列在最前面的四个过程:Frequencies过程的特色是产生频数表;Descriptives过程则进行一般性的统计描述;Explore过程用于对数据概况不清时的探索性分析;Crosstabs 过程则完成计数资料和等级资料的统计描述和一般的统计检验,我们常用的X2检验也在其中完成。 本章讲述的四个过程在9.0及以前版本中被放置在Summarize菜单中。 §6.1 Frequencies过程 频数分布表是描述性统计中最常用的方法之一,Frequencies过程就是专门为产生频数表而设计的。它不仅可以产生详细的频数表,还可以按要求给出某百分位点的数值,以及常用的条图,圆图等统计图。 和国内常用的频数表不同,几乎所有统计软件给出的均是详细频数表,即并 不按某种要求确定组段数和组距,而是按照数值精确列表。如果想用Frequencies过程得到我们所熟悉的频数表,请先用第二章学过的Recode过程产生一个新变量来代表所需的各组段。 6.1.1 界面说明 Frequencies对话框的界面如下所示:

该界面在SPSS中实在太普通了,无须多言,重点介绍一下各部分的功能如下:【Display frequency tables复选框】 确定是否在结果中输出频数表。 【Statistics钮】 单击后弹出Statistics对话框如下,用于定义需要计算的其他描述统计量。 现将各部分解释如下:

抽样调查样本量确定

抽样调查样本量的确定 在贸易统计中, 对于限额以下批零餐饮企业普遍采用抽样调查方法进行解决。然而,由于当前市场经济情况的多样性,经济发展的不均衡性,以及地域宽广性,导致情况多种多样;实际情况的复杂,决定了方案的复杂性,增加了具体抽样的难度。经过多年的探讨,区域二相抽样调查比较符合当前我国的实际情况,我们在这里根据试点所掌握的情况针对采用区域二相抽样调查的贸易抽样方案中如何确定样本量进行分析。 一、样本单位数量的确定原则 一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。以及实际操作的可行性、经费承受能力等。根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需要从定量的角度考虑。 从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来,样本量的大小主要取决于: (1)研究对象的变化程度,即变异程度; (2)要求和允许的误差大小,即精度要求; (3)要求推断的置信度,一般情况下,置信度取为95%; (4)总体的大小; (5)抽样的方法。 也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。

样本量的确定

样本量的确定 北京广播学院新闻传播学院 调查统计研究所 二零零一年五月 沈浩 本讲主要内容 如何计算简单随机抽样的样本量确定 如何实现分层抽样中各层样本单位数的分配样本容量的确定 样本量=费用+精度 (函数) 确定样本容量,需要处理好预定的精度与现有经费,同时也要考虑资源和时间等限 制条件,最终的样本量确定是在上述因素之间的权衡关系。分层抽样分配样本的标准 总的样本容量事先确定 估计值要求达到的精度预先给定 影响调查样本容量的因素 调查估计值所希望达到的精度 调查估计值所能允许的误差。 估计量的抽样方差较小,估计值是精确的 估计值的精度越高,所需的样本容量就越大 影响精度的因素也同样影响着样本容量的大小 所研究指标在总体中的变异程度 总体的大小

样本设计和所使用的估计量 无回答率 客户提供的经费能支持多大容量的样本 整个调查持续的时间有多长 调查需要多少访员 能招聘到的访员有多少 除了估计值的精度以外,调查实际操作的限制条件也许是影响样本容量的最大因 素。 11>(给定精度水平下样本容量的确定样本容量的大小与调查估计值所要求的精度紧密相关 数据是通过抽样而不是普查收集的,就会产生抽样误差。 精度是由抽样方差来测量的。 随着样本容量的增加,调查估计值的精度也会不断提高。标准误差 误差界限 变异系数 抽样方差的几种计量方法 抽样调查中样本容量的确定,也经常会使用一种或多种这样的计量方法来对精度进 行说明。 非抽样误差 非抽样误差会对调查估计值的精度产生显著的影响 非抽样误差的大小与样本容量的大小却没有很大的关系 确定样本容量,就不必将这些误差作为影响因素加以考虑

05.第五讲 描述性统计分析评价方法

第五讲描述性统计分析评价方法——综合指标 实际上,从这一讲开始的教学内容都是介绍教育评价技术中的重要方法——教育统计分析方法,也即是分析资料的方法。其中包括描述性统计分析方法和推断性统计分析方法两大部分。 一、描述性统计分析评价方法的主要特点。对数据资料计算综合指标,然后根据综合指标值对教育客观事物给予评价。所谓综合指标指的是从数量方面综合说明事物特征的指标。常用的综合指标有绝对数、相对数、平均数和标准差。重点介绍后面两种。 二、综合指标的计算及解释 (一)绝对数(规模) (二)相对数(程度) (三)平均数(水平) 通常可用符号表示平均数 1.算术平均数(未经分类汇总的测量数据资料)计算方法见p62的(4.1)公式。 2.加权平均数(已经分类汇总的资料)

①组距数列平均数(对测量数据分组统计人数)例如P63表4-1的资料。计算方法如P63的(4.2)公式及83名教师平均年龄的计算。 * 为了减少计算的麻烦,在此介绍计算器统计功能的使用: A、操作步骤 计算器的统计功能的计算只能得到如下六个统计结果:n(数据个数)、(数据和)、(数据平方和)、(平均数)、(总体标准差)和S(样本标准差)。操作步骤如下:1)显示统计状态:2ndF STAT(或SD) 2)输入数据:每输入一个数据按DATA 3)取出统计结果:这时六个统计结果均处于待取状态,可根据需要取出其中的结果。 B、注意事项 1)若需继续进行第二组数据的统计运算时,需取消统计状态,再按上述步骤操作。按2ndF STAT即可取消统计的状态。 2)若不需要计算、、、、和S时(即进行 其他一般运算时),也应取消统计状态)。

样本量的确定方法.

如对你有帮助,请购买下载打赏,谢谢!样本量的确定方法(2008-10-14 09:12:34) 一、样本单位数量的确定原则 一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。以及实际操作的可行性、经费承受能力等。根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需要从定量的角度考虑。 从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来,样本量的大小主要取决于: (1)研究对象的变化程度,即变异程度; (2)要求和允许的误差大小,即精度要求; (3)要求推断的置信度,一般情况下,置信度取为95%; (4)总体的大小; (5)抽样的方法。 也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。 二、样本量的确定方法 如何确定样本量,基本方法很多,但是公式检验表明,当误差和置信区间一定时,不同的样本量计算公式计算出来的样本量是十分相近的,所以,我们完全可以使用简单随机抽样计算样本量的公式去近似估计其他抽样方法的样本量,这样可以更加快捷方便,然后将样本量根据一定方法分配到各个子域中去。所以,区域二相抽样不能计算样本量的说法是不科学的。

利用Excel进行数据整理和描述性统计分析

实训一利用Excel进行数据整理和描述性统计分析 一、实训目的 目的有三:(1)掌握Excel中基本的数据处理方法;(2)学会使用Excel进行统计分组;(3)学会使用Excel计算各种描述性统计指标,能以此方式独立完成相关作业。 二、实训要求 1、已学习教材相关内容,理解数据整理中的统计计算问题;理解描述性统计指标中的统计计算问题;已阅读本次实训指导书,了解Excel中相关的计算工具。 2、准备好一个统计分组问题、准备好一个或几个描述性统计指标计算问题及相应数据(可用本实训所提供问题与数据)。 3、以Word文件形式(其中的统计表和统计图用Excel制作)提交实训报告(含:实训过程记录、疑难问题发现与解决记录(可选))。此条为所有实训所要求。 三、实训内容和操作步骤 (一)问题与数据 有顾客反映某家航空公司售票处售票的速度太慢。为此,航空公司收集了解100位顾客购票所花费时间的样本数据(单位:分钟),结果如下表。 航空公司认为,为一位顾客办理一次售票业务所需的时间在五分钟之内就是合理的。上面的数据是否支持航空公司的说法?顾客提出的意见是否合理?请你对上面的数据进行适当的分析,回答下列问题。

(1)对数据进行等距分组,整理成频数分布表,并绘制频数分布图(直方图、折线图、饼图)。 (2)根据分组后的数据,计算中位数、众数、算术平均数和标准差。 (3)分析顾客提出的意见是否合理?为什么? (4)使用哪一个平均指标来分析上述问题比较合理? 答:(1): 2:

从表中我们可以得到中位数为2.5众数为1平均数为3.17标准差为2.864 (3):合理,虽然他的平均数是3.17<5属于正常范围,但是依旧有将近20%的购票时间>5分钟属于超过正常范围,那就是速度太慢了。平均数不能代表一切。 所以顾客提出的理由是正确的,购票太慢的现象确实存在。 (4):平均数比较合理,它能较好的反映购票的大概时间。比较有代表性! 实训二用Excel数据分析功能进行统计整理 和计算描述性统计指标 一、实训目的 学会使用Excel数据分析功能进行统计整理和计算各种描述性统计指标,能以此方式独立完成相关作业。 二、实训要求 1、已学习教材相关内容,理解统计整理和描述性统计指标中的统计计算问题;已阅读本次实验导引,了解Excel中相关的计算工具。 2、准备好一个统计分组问题、准备好一个或几个数字特征计算问题及相应数据(可用本实验导引所提供问题与数据)。 3、以Word文件形式(其中的统计表和统计图用Excel制作)提交实训报告(含:实训过程记录、疑难问题发现与解决记录(可选))。此条为所有实训所要求。 三、实训内容和操作步骤 (一)问题与数据 在一家财产保险公司的董事会上,董事们就加入世界贸易组织后公司的发展战略问题展开了激烈讨论,其中一个引人关注的问题就是如何借鉴国外保险公司的先进管理经验,提高自身的管理水平。有的董事提出,2003年公司的各项业务与去年相比有太大增长,除经济环境和市场竟争等因素外,对家庭财产保险的业务开展得不够,公司在管理方式上也存在问题。他认为,中国的家庭财产保险市场潜力巨大,应加大扩展这在业务的力度,同时,对公司家庭财产推销员实行目标管理,并根据目标完成情况建立相应的奖惩制度。董

样本量的确定方法

样本量的确定方法(2008-10-14 09:12:34) 一、样本单位数量的确定原则 一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。以及实际操作的可行性、经费承受能力等。根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需要从定量的角度考虑。 从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来,样本量的大小主要取决于: (1)研究对象的变化程度,即变异程度; (2)要求和允许的误差大小,即精度要求; (3)要求推断的置信度,一般情况下,置信度取为95%; (4)总体的大小; (5)抽样的方法。 也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。 二、样本量的确定方法 如何确定样本量,基本方法很多,但是公式检验表明,当误差和置信区间一定时,不同的样本量计算公式计算出来的样本量是十分相近的,所以,我们完全可以使用简单随机抽样计算样本量的公式去近似估计其他抽样方法的样本量,这样可以更加快捷方便,然后将样本量根据一定方法分配到各个子域中去。所以,区域二相抽样不能计算样本量的说法是不科学的。

多组和分类数据的描述性统计分析

§3.2多组和分类数据的描述性统计分析17 ?盒子图 盒子图能够直观简洁地展现数据分布的主要特征.我们在R 中使用boxplot()函数作盒子图.在盒子图中,上下四分位数分别确定中间箱体的顶部和底部,箱体中间的粗线是中位数所在的位置.由箱体向上下伸出的垂直部分为“触须”(whiskers),表示数据的散布范围,其为1.5倍四分位间距内距四分位点最远的数据点.超出此范围的点可看作为异常点(outlier). §3.2多组和分类数据的描述性统计分析 在对于多组数据的描述性统计量的计算和图形表示方面,前面所介绍的部分方法不能够有效地使用,例如许多函数都不能直接对数据框进行操作.这时我们需要一些其他的函数配合使用. 1.图形表示: ?散点图:前面介绍的plot,可直接对数据框操作.此时将绘出数据框中所对应的所有变量两两之间的散点图.所做图框中第一行的散点图是以第一个变量为纵坐标,分别以第二、三...个变量为横坐标的散点图.这里数据举例说明. library(DAAG);plot(hills) ?盒子图:前面介绍的boxplot,亦可直接对数据框操作,其在同一个作图区域内画出各组数的盒子图.但是注意,此时由于不同组数据的尺度可能差别很大,这样的盒子图很多时候表达出来不是很有意义.boxplot(faithful).因此这样做比较适合多组数据具有同样意义或近似尺度的情形.例如,我们想做某一数值变量在某个因子变量的不同水平下的盒子图.我们可采用类似如下的命令: boxplot(skullw ~age,data=possum),亦可加上参数horizontal=T,将该盒子图横向放置. boxplot(possum$skullw ~possum$sex,horizontal=T) ?条件散点图:当数据集中含有一个或多个因子变量时,我们可使用条件散点图函数coplot()作出因子变量不同水平下的多个散点图,当然该方法也适用于各种给定条件或限制情形下的作图.其调用格式为 coplot(formula,data)比如coplot(possum[[9]]~possum[[7]] possum[[4]]),或 coplot(skullw ~taill age,data=possum); coplot(skullw ~taill age+sex,data=possum)

描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。

一、描述统计 描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。 1、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率回归法、决策树法。 2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。 二、假设检验 1、参数检验 参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验。 1)U验使用条件:当样本含量n较大时,样本值符合正态分布 2)T检验使用条件:当样本含量n较小时,样本值符合正态分布 A 单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别; B 配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似; C 两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。 2、非参数检验 非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。 适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。

A 虽然是连续数据,但总体分布形态未知或者非正态; B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下; 主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。 三、信度分析 检査测量的可信度,例如调查问卷的真实性。 分类: 1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度 2、内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如 何,常用方法分半信度。 四、列联表分析 用于分析离散变量或定型变量之间是否存在相关。 对于二维表,可进行卡方检验,对于三维表,可作Mentel-Hanszel分层分析。列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。 五、相关分析 研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。 1、单相关:两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量; 2、复相关:三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量相关; 3、偏相关:在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量之间的相关关系称为偏相关。 六、方差分析

置信区间与置信水平、样本量的关系

置信水平Confidence level 置信水平是指总体参数值落在样本统计值某一区内的概率;而置信区间是指在某一置信水平下,样本统计值与总体参数值间误差范围。置信区间越大,置信水平越高。 一、置信区间的概念 置信区间又称估计区间,是用来估计参数的取值范围的。常见的52%-64%,或8-12,就是置信区间(估计区间)。置信区间是按下列三步计算出来的:第一步:求一个样本的均值 第二步:计算出抽样误差。 人们经过实践,通常认为调查: 100个样本的抽样误差为±10% 500个样本的抽样误差为±5% 1,200个样本时的抽样误差为±3% 第三步:用第一步求出的“样本均值”加、减第二步计算的“抽样误差”,得出置信区间的两个端点。 举例说明: 美国Gallup(盖洛普)公司就消费者对美国产品质量的看法,对美国、德国和日本三国共计3,500名消费者(每个国家约1,200名)分别进行了调查,调查结果:有55%的美国人认为美国产品质量好,而只有26%的德国人和17%的日本人持同样看法。抽样误差为±3%,置信水平为95%。则这三个国家消费者的置信区间分别为: 国别样本均值抽样误差置信区间

美国55% ±3% 52%-58% 德国26% ±3%23%-29% 日本17% ±3%14%-20% 二、关于置信区间的宽窄 窄的置信区间比宽的置信区间能提供更多的有关总体参数的信息。 假设全班考试的平均分数为65分,则 置信区间间隔宽窄度表达的意思 0-100分100 宽等于什么也没告诉你 30-80分50 较窄你能估出大概的平均分了(55分) 60-70分10 窄你几乎能判定全班的平均分了(65分) 三、样本量对置信区间的影响 影响:在置信水平固定的情况下,样本量越多,置信区间越窄。 下面是经过实践计算的样本量与置信区间关系的变化表(假设置信水平相同):样本量置信区间间隔宽窄度 100 50%—70% 20 宽 800 56.2%-63.2% 7 较窄 1,600 57.5%—63% 5.5 较窄 3,200 58.5%—62% 3.5 更窄 由上表得出: 1、在置信水平相同的情况下,样本量越多,置信区间越窄。

样本量的确定方法

样本量的确定方法 The pony was revised in January 2021

样本量的确定方法(2008-10-14 09:12:34) 一、样本单位数量的确定原则 一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。以及实际操作的可行性、经费承受能力等。根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需要从定量的角度考虑。 从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来,样本量的大小主要取决于: (1)研究对象的变化程度,即变异程度; (2)要求和允许的误差大小,即精度要求; (3)要求推断的置信度,一般情况下,置信度取为95%; (4)总体的大小; (5)抽样的方法。 也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。对于不同城市,如果总体不知道或很大,需要进行推断时,大城

部门间满意度评估表经理

部门间满意度评估表经理 Jenny was compiled in January 2021

内部客户满意度调查问卷 <部门经理用> 各位同志: 大家好! 为了更好地实现集团公司总部的绩效管理的工作,促进集团公司总部职能管理部门的工作质量的提高,人力资源部需要对职能管理部门进行客户满意度调查。 填写问卷大概需要占用您20分钟,您所提供的信息对我们、对公司非常有价值! 您的答案人力资源部将给予严格保密,每一个环节都有严格的保密控制! 期望您积极参与、客观评价,支持我们的工作。 一、行政后勤部 1.总体上,您对行政后勤部新财年的工作是否满意12345 2.您如何评价行政后勤部在新财年的工作表现 (1)有进步(2)无变化(3)有退步 3.具体有哪些变化 4.下面我们想了解一下您对该部门的看法,请您对以下选项分别进行满意度评 价 12345(2)问题解决12345(1)部门创新意 识 12345(4)工作效率12345(3)工作流程有 序 12345(6)实现承诺12345(5)持续改进服 务 (7)客户界面12345 5.您对行政后勤部的以下具体业务的满意情况如何12345 (1)在制度建设和管理政策制订上12345(2)公司物业环境的规模和建设12345

6.在问题中,如果您选择了的答案,烦请您具体说明原因,以便 具体工作的改进。 7.下季度,行政后勤部应重点加强哪些薄弱环节的工作 二、财务部 1.总体上,您对财务部新财年的工作是否满意12345 2.您如何评价财务部在新财年的工作表现 (1)有进步(2)无变化(3)有退步 3.具体有哪些变化 4.下面我们想了解一下您对该部门的看法,请您对以下选项分别进行满意度评 价 12345(2)问题解决12345(1)部门创新意 识 12345(4)工作效率12345(3)工作流程有 序 12345(6)实现承诺12345(5)持续改进服 务 (7)客户界面12345 5.您对财务部的以下具体业务的满意情况如何 (1)在制度建设和管理政策制订上12345(2)对各部门和下属企业的业务指导和支持12345 6.对财务报表工作的满意度12345 在哪些方面存在不足: (1)提供及时性(2)数据准确性(3)数据全面性 (4)其他 7.对公司经营分析工作的满意度12345 在哪些方面存在不足:

数据的描述性统计分析

统计分析往往是从了解数据的基本特征开始的。描述数据分布特征的统计量可分为两类:一类表示数量的中心位置,另一类表示数量的变异程度(或称离散程度)。两者相互补充,共同反映数据的全貌。 这些内容可以通过SPSS中的“Descriptive Statistics”菜单中的过程来完成。 1 频数分析 (Descriptive Statistics - Frequencies) 频数分布分析主要通过频数分布表、条形图和直方图,以及集中趋势和离散趋势的各 种统计量来描述数据的分布特征。 下面我们通过例子来学习单变量频数分析操作。 1) 输入分析数据 在数据编辑器窗口打开“data1-2.sav”数据文件。 2)调用分析过程 在主菜单栏单击“Analyze”,在出现的下拉菜单里移动鼠标至“Descriptive Statistics”项上,在出现的次菜单里单击“Frequencies”项,打开如图3-4所示的对话框。 图3-4 “Frequencies” 对话框 3)设置分析变量 从左则的源变量框里选择一个和多个变量进入“Variable(s):”框里。在这里我们选“三化 螟蚁螟[虫口数]”变量进入“Variable(s):”框。 4)输出频数分布表

Display frequency tables,选中显示。 5)设置输出的统计量 单击“Statistics”按钮,打开图3-5所示的对话框,该对话框用于选择统计量: 图3-5 “Statistics”对话框 ①选择百分位显示“Percentiles Values”栏: Quartiles:四分位数,显示25%、50%和75%的百分位数。 Cut points for 10 equal groups:将数据平分为输入的10个等份。 Percentile(s)::用户自定义百分位数,输入值0—100之间。选中此项后,可以利用“Add”、“Change”和 “Remove”按钮设置多个百分位数。 ②选择变异程度的统计量“Dispersion”:(离散趋势) Std.deviation标准差 Minimum 最小值 Variance 方差 Maximum 最大值 Range 极差 S.E.mean均值标准误 ③选择表示数据中心位置的统计量“Central Tendency”:(集中趋势) Mean 均值 Median 中位数 Mode 众数 Sum 算术和

描述性统计分析

第六章描述性统计分析-- Descriptive Statistics菜单详解 6.1 Frequencies过程 6.1.1 界面说明 6.1.2 分析实例 6.1.3 结果解释 6.2 Descriptives过程 6.2.1 界面说明 6.2.2 结果解释 6.3 Explore过程 6.3.1 界面说明 6.3.2 结果解释 6.4 Crosstabs过程 6.4.1 界面说明 6.4.2 分析实例 6.4.3 结果解释 描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中,最常用的是列在最前面的四个过程:Frequencies过程的特色是产生频数表;Descriptives过程则进行一般性的统计描述;Explore过程用于对数据概况不清时的探索性分析;Crosstabs 过程则完成计数资料和等级资料的统计描述和一般的统计检验,我们常用的X2检验也在其中完成。 §6.1 Frequencies过程 频数分布表是描述性统计中最常用的方法之一,Frequencies过程就是专门为产生频数表而设计的。它不仅可以产生详细的频数表,还可以按要求给出某百分位点的数值,以及常用的条图,圆图等统计图。 和国内常用的频数表不同,几乎所有统计软件给出的均是详细频数表,即并不按某种要求确定组段数和组距,而是按照数值精确列表。如果想用Frequencies过程得到我们所熟悉的频数表,请先用第二章学过的Recode过程产生一个新变量来代表所需的各组段。 6.1.1 界面说明

部门间满意度调查评估表

<部门经理用> 1. 1 总体上,您对行政后勤部新财年的工作是否满意? 2. 2 您如何评价行政后勤部在新财年的工作表现? (1). 1 有进步 (2).2无变化 (3). 3 有退步 3. 3 具体有哪些变化? 4. 4 下面我们想了解一下您对行政后勤部的看法,请您对以下选项分别进行满 意度评价 (1). 1 矩阵式管理模式的贯彻和落实 (2). 2 部门创新意识 (3). 3 工作流程有序 (4). 4 以客户为导向持续改进服务 (5). 5 客户界面 (6). 6 问题解决 (7).7 工作效率 (8).8 实现承诺 您对行政后勤部的以下具体业务的满意情况如何? 5. 5 在制度建设和管理政策制订上 6. 6 公司物业环境的规模和建设

7.7 对事业部和大区行政后勤的指导和帮助 8.8 在问题1-7中,如果您选择了1-3的答案,烦请您具体说明原因,以便 具体工作的改进。 9.9 下季度,行政后勤部应重点加强哪些薄弱环节的工作? 1. 1 总体上,您对财务部新财年的工作是否满意? 2. 2 您如何评价财务部在新财年的工作表现? (1). 1 有进步 (2). 2 无变化 (3). 3 有退步 3. 3 具体有哪些变化? 4. 4 下面我们想了解一下您对财务部的看法,请您对以下选项分别进行满意度 评价 (1). 1 矩阵式管理模式的贯彻和落实 (2). 2 部门创新意识 (3). 3 工作流程有序 (4). 4 以客户为导向持续改进服务

(5). 5 客户界面 (6). 6 问题解决 (7).7 工作效率 (8).8 实现承诺 您对财务部的以下具体业务的满意情况如何? 5. 5 在制度建设和管理政策制订上 6. 6 对各事业部和大区专港的业务指导和支持 7.7 对财务报表工作的满意度 在哪些方面存在不足: (1).1提供及时性 (2).2 数据准确性 (3).3 数据全面性 (4).4 其他 8.8 对公司经营分析工作的满意度 在哪些方面存在不足: (1).1报告及时性 (2).2数据准确性 (3).3内容适用性 (4).4分析深入 (5).5熟悉业务 (6).6其他

关于描述性统计分析

关于描述性统计分析 作者:记忆de&#…文章来源:csdn blog 点击数:156 更新时间:2007-2-12 在数据分析的时候,一般首先要对数据进行描述性统计分析(Descriptive Anal ysis),以发现其内在的规律,再选择进一步分析的方法。描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。 (1)数据的频数分析:在数据的预处理部分,我们曾经提到利用频数分析和交叉频数分析来检验异常值。此外,频数分析也可以发现一些统计规律。比如说,收入低的被调查者用户满意度比收入高的被调查者高,或者女性的用户满意度比男性低等。不过这些规律只是表面的特征,在后面的分析中还要经过检验。 (2)数据的集中趋势分析:数据的集中趋势分析是用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。各指标的具体意义如下: 平均值:是衡量数据的中心位置的重要指标,反映了一些数据必然性的特点,包括算术平均值、加权算术平均值、调和平均值和几何平均值。 中位数:是另外一种反映数据的中心位置的指标,其确定方法是将所有数据以由小到大的顺序排列,位于中央的数据值就是中位数。 众数:是指在数据中发生频率最高的数据值。 如果各个数据之间的差异程度较小,用平均值就有较好的代表性;而如果数据之

间的差异程度较大,特别是有个别的极端值的情况,用中位数或众数有较好的代表性。 (3)数据的离散程度分析:数据的离散程度分析主要是用来反映数据之间的差异程度,常用的指标有方差和标准差。方差是标准差的平方,根据不同的数据类型有不同的计算方法。 (4)数据的分布:在统计分析中,通常要假设样本的分布属于正态分布,因此需要用偏度和峰度两个指标来检查样本是否符合正态分布。偏度衡量的是样本分布的偏斜方向和程度;而峰度衡量的是样本分布曲线的尖峰程度。一般情况下,如果样本的偏度接近于0,而峰度接近于3,就可以判断总体的分布接近于正态分布。 (5)绘制统计图:用图形的形式来表达数据,比用文字表达更清晰、更简明。在SPSS软件里,可以很容易的绘制各个变量的统计图形,包括条形图、饼图和折线图等。 示例SIM手机描述性统计分析 为简化起见,我们只分析SIM手机用户满意调查中的两个变量:“总体感知质量”和“总体满意度”变量。 (1)数据的频数分析 用SPSS软件的频数分析可以很容易地画出两个变量的频数图:

置信度和置信区间

首先我们要弄清楚两个概念,置信度和置信区间 置信度:以测量值为中心,在一定范围内,真值出现在该范围内的几率。一般设定在2σ,也就是95%,95%是通常情况下置信度(置信水平)的设定值。 置信区间:在某一置信度下,以测量值为中心,真值出现的范围。 我们在论文里经常看到CI,CI是置信区间,一定概率下真值得取值范围(可靠范围)称为置信区间。其概率称为置信概率或置信度(置信水平) 真实数据往往是实际上不能获知的,我们只能进行估计,估计的结果是给出一对数据,比如从1到1.5,真实的值落在1到1.5之间的可能性是95%(也有5%的可能性在这区间之外的)。区间是由抽样的数据根据大样定律结合查表得来的。区间越小精度越高,区间越大置信度越高。打个比方,我们猜张燕燕的年龄,你给出区间是25-35,这个区间很小置信度很低但精度就很高,你说在8岁到80岁之间,那是百分百的置信度了不过精度太低毫无意义。的确99%准确度高于95%,但是它的精度(精密度)就低于95%。95%的置信度是一般通用的。

P值指的是比较的两者的差别是由机遇所致的可能性大小。P值越小,越有理由认为对比事物间存在差异。例如,P<0.05,就是说结果显示的差别是由机遇所致的可能性不足5%,或者说,别人在同样的条件下重复同样的研究,得出相反结论的可能性不足5%。P>0.05称“不显著”;P<=0.05称“显著”,P<=0.01称“非常显著”。 由于常用“显著”来表示P值大小,所以P值最常见的误用是把统计学上的显著与临床或实际中的显著差异相混淆,即混淆“差异具有显著性”和“具有显著差异”二者的意思。其实,前者指的是p<=0.05,即说明有充分的理由认为比较的二者来自同一总体的可能性不足5%,因而认为二者确实有差异,下这个结论出错的可能性<=5%。而后者的意思是二者的差别确实很大。举例来说,4和40的差别很大,因而可以说是“有显著差异”,而4和4.2差别不大,但如果计算得到的P值<=0.05,则认为二者“差别有显著性”,但是不能说“有显著差异”。

matlab在统计数据描述性分析的应用

统计数据的描述性分析 一、实验目的 熟悉在matlab中实现数据的统计描述方法,掌握基本统计命令:样本均值、样本中位数、样本标准差、样本方差、概率密度函数pdf、概率分布函数df、随机数生成rnd。 二、实验内容 1 、频数表和直方图 数据输入,将你班的任意科目考试成绩输入 >> data=[91 78 90 88 76 81 77 74]; >> [N,X]=hist(data,5) N = 3 1 1 0 3 X = 75.7000 79.1000 82.5000 85.9000 89.3000 >> hist(data,5)

2、基本统计量 1) 样本均值 语法: m=mean(x) 若x 为向量,返回结果m是x 中元素的均值; 若x 为矩阵,返回结果m是行向量,它包含x 每列数据的均值。 2) 样本中位数 语法: m=median(x) 若x 为向量,返回结果m是x 中元素的中位数; 若x 为矩阵,返回结果m是行向量,它包含x 每列数据的中位数3) 样本标准差 语法:y=std(x) 若x 为向量,返回结果y 是x 中元素的标准差; 若x 为矩阵,返回结果y 是行向量,它包含x 每列数据的标准差

std(x)运用n-1 进行标准化处理,n是样本的个数。 4) 样本方差 语法:y=var(x); y=var(x,1) 若x 为向量,返回结果y 是x 中元素的方差; 若x 为矩阵,返回结果y 是行向量,它包含x 每列数据的方差 var(x)运用n-1 进行标准化处理(满足无偏估计的要求),n 是样本的个数。var(x,1)运用n 进行标准化处理,生成关于样本均值的二阶矩。 5) 样本的极差(最大之和最小值之差) 语法:z= range(x) 返回结果z是数组x 的极差。 6) 样本的偏度 语法:s=skewness(x) 说明:偏度反映分布的对称性,s>0 称为右偏态,此时数据位于均值右边的比左边的多;s<0,情况相反;s 接近0 则可认为分布是对称的。 7) 样本的峰度 语法:k= kurtosis(x) 说明:正态分布峰度是3,若k 比3 大得多,表示分布有沉重的尾巴,即样本中含有较多远离均值的数据,峰度可以作衡量偏离正态分布的尺度之一。 >> mean(data) ,

相关文档
最新文档