统计学专业基础课与专业课之间的典型相关分析

统计学专业基础课与专业课之间的典型相关分析
统计学专业基础课与专业课之间的典型相关分析

统计学专业基础课与专业课之间的典型相关分析

摘要

本文基于统计学系0301-0302两个班的66名学生17门课程(包括专业基础课和专业课)的考试成绩,运用典型相关分析法研究了统计学系基础课和专业课的相关程度。通过运用统计分析软件SAS运行得到变量间的相关系数以及标准化后的典型相关系数,进而求出典型相关变量。最后结合分析结果和实际情况对教学提了一点小小的建议。

关键词:基础课;专业课;典型相关分析;典型相关系数

Canonical Correlation Analysis Between The Major and Basic

Subjects of The Statistics Major

Abstract

With the method of canonical correlation analysis,I study about the correlation between the major and basic subjects of the statistics major.The research is based on the examination scores of66students of classes0301and0302who are in the major of statistics,including only17 subjects,the major and basic subjects.The article then gives the standard canonical correlations between the variables from which we can know the canonical correlative variables.In the end,I give some suggestions about education,according to the output of the analysis and the matter of fact.

Key word:basic subject,major,canonical correlation,canonical coefficients

1引言

对于统计学系的学生来说,对数学理论的理解和掌握要求比较高,而且更重要的是要做到融会贯通,举一反三,学会理论联系实际,并利用统计分析的方法来解决日常生产生活中的问题,因而专业基础课程(如数学分析和高等代数等)的学习无疑是相当重要的,因为它直接关系到后续专业课的学习效果。本文通过对部分学生各个学科的成绩进行相关分析,来体现学科间的联系。运用典型相关分析法来分析基础课(数学分析和高等代数等)和后续的专业课(如多元统计分析等)的相关程度,只希望由此能够对今后的教学提出有价值性的建议。

数据来源于统计学系03级学生的成绩,共66人17门课程(仅包括专业基础课和专业课)的成绩。

2理论背景知识

2.1典型相关分析

典型相关分析(Canonical Correlation Analysis)又称正则相关分析或典则分析,是研究两组指标(变量)之间相关关系的一种多元统计方法。

大家知道,两个随机变量间的相关关系通常是用相关系数来衡量的,而复相系数则被用来研究一个随机变量和多个随机变量的线性相关关系。在实际研究问题时,也常常需要知道两个随机变量之间的相关关系。例如:在研究组织结构对“职业满意度“的影响时,需要分析职业特性变量(用户反馈、任务重要性、任务多样性、任务特权、自主权)和职业满意度变量(主管满意度、事业前景满意度、财政满意度、工作强度满意度、公司地位满意度、工种满意度、总体满意度)的相关程度;医学上要研究(抑郁症、健康状况)与(性别、年龄、教育程度、收入)是否具有某种相关性等。

典型相关分析的目的是识别并量化两组变量之间的联系,其研究焦点是一组变量的线性组合和另一组变量的线性组合之间的相关关系。

基本思想是:首先在每组变量中找出变量的线性组合,使得两者之间的相关达到最大(即两组典型变量的相关达到最大值),这两组指标多半是相同研究对象有关系的两组不同指标。这两组典型变量彼此之间的最大相关就是第一个典型相关,而线性组合的系数称为典型相关系数。然后再在和最初挑选的这对线性组合不相关的线性组合配对中,选取相

关系数最大的一对,如此反复迭代,直到两组变量之间的相关性被提取完毕(即配对的典型变量的个数等于两组原始变量中个数较少的那一个数)为止。

由于典型相关分析以对两组指标的每一组指标作为整体考虑,比一般相关分析仅考虑一个指标与一个指标间的关系或一个指标与多个指标间的关系,向前迈了一大步,更能反映现象的本质联系。因此,典型相关分析广泛应用于变量群之间的相关分析研究,在经济学,生物学,医药卫生以及教育统计中都有广泛的应用。

2.2典型变量和典型相关系数计算

设随机向量来代表第一组个变量,随机向量代表第二组的个变量。对于()1X p ()2X q 随机向量,,令设随机向量来代表第一组p 个变量,随机向量代表第二()1X ()2X ()1X ()2X 组的q 个变量。对于随机向量,,令

()1X ()2X ()()()

11E X μ=()()

111COV X =Σ()()()

2

2

E X μ=()22

2)(∑=X COV ()()T X X COV 211221),(∑=∑=()()()()()1122X E X E X μμμ????===????

????????

()()()()()()()()11121

1221222p p p p q X X X X X X X X X +++????????????????==????????

????????

????

M M ???

?

????∑∑∑∑=??=∑22211211

))((T X X E μμ协方差是第一组变量与第二组变量的协方差,个元素量度了两组变量之间的12∑p q ×联系。当p 和q 较大时,整体地解释中的元素基本上是不可能的。线性组合可以提12∑供对一组变量简单扼要的度量,为此,作两组变量的线性组合,设

()1T U a X =()

2T V b X =

()1

11var()cov()T T U a X a a a

==Σ()b b b X b V T T 222)cov()var(∑==()()b

a b X X T 1221T ),cov(a V)cov(U, ∑==b

b a a b a V U corr T T T 221112),(∑∑∑=

第一对典型变量,或第一典型变量配对是具有单位方差的线性组合U 和V 的配对,11它使对应的相关系数最大化。

第二对典型变量,或第二对典型变量配对是具有单位方差的线性组合U 和V 的配对,22且在与第一对典型变量不相关的所有配对中,其对应的相关系数最大。

第K 对典型变量,或第K 对典型变量配对是具有单位方差的线性组合U 和V 的配k k 对,且在第K -1个典型变量配对都不相关的所有配对中,其相关系数最大。

易见:我们希望寻找使相关系数达到最大的向量a ,b ,由于随机向量乘以常数时并不改变它们的相关系数,所以,为防止结果的重复出现,令:,1)var(11=∑=a a U T ,1)var(22=∑=b b V T b

a V U corr T 12),(∑=问题就成为在上述约束条件下,求使达到最大的系数向量a 和

b 。b a V U corr T 12),(∑=根据数学分析中极值的求法引入Lagrange 乘数,将问题转化为求

的极大值。由极值条件

)1(2

)1(2),(221112?∑??∑?∑=b b a a b a b a T T T μ

λ?(1)

0022211112=∑?∑=??=∑?∑=??b a b

a b a μ?

λ?

求解得λ恰好是线性组合U ,V 之间的相关系数。

(2)

00

2

12111

2112222112212111=?∑∑∑∑=?∑∑∑∑????b b a a λλ由式②求得:特征根,相应单位特征向量a ,a a ,b ,b b 222

120p λλλ≥≥≥L ()1()2L ()p ()1()2L ()

q P 对线性组合:,()()111T U a X =()()121;

T V b X =,()()212T U a X =()()222;

T V b X =

M

()()1,p T p U a X =()()

2p T p V b X =3典型相关分析的应用

通过编程运行SAS 统计软件得到以下结果:

表1给出了各个学科成绩的均值和标准差,从表2表3表4则可以看出两组变量各门课程之间的相关系数,表5表6分给出了相关系数的假设检验结果,而表7-8和表9-10则分别给出了标准化前后的典型相关系数。注:表1-表6见附录,表7-表10如下。

表7基础课变量的典型相关系数

表8专业课变量的典型相关系数

1

V 2

V 3

V 4

V 5

V 6

V 7

V 1

X 0.6627

0.464

-0.333

-0.4164

-0.0755

-0.2323

-0.0391

2

X 0.84810.0546-0.0479-0.05150.1162-0.42280.2838

3

X 0.7422-0.0357-0.2141-0.34270.49980.0544-0.1781

4

X 0.7301-0.071-0.2428-0.2424-0.24130.26670.4635

5

X 0.75720.49760.12410.33020.12650.19620.0079

6

X 0.6962-0.17660.4279-0.089-0.41370.0222-0.3485

7

X 0.75450.0806-0.480.3501-0.1533-0.1916-0.1046

1

W 2

W 3

W 4

W 5

W 6

W 7

W 8

X 0.8574-0.0568-0.2073-0.2057-0.10010.0699-0.32139X 0.67720.31420.3828-0.0145-0.34060.01730.140810

X 0.8432

0.1684

-0.1023

0.2015

0.0131

-0.0595

0.1342

表9标准化后的基础课变量的典型相关系数

表10标准化后的专业课变量的典型相关系数

11X 0.77350.18030.35410.14120.37310.0559-0.246212X 0.80540.20290.09580.1498-0.17680.20140.190913X 0.50180.1677-0.01210.5371-0.16060.20530.012114X 0.77730.04190.18220.1684-0.0739-0.40210.029115X 0.41570.7321-0.22480.04360.0636-0.2993-0.203216X 0.27370.36450.204-0.24460.26830.20640.44917

X 0.265

0.1934

-0.4107

0.2926

0.464

-0.2372

0.1112

1

V 2

V 3

V 4

V 5

V 6

V 7

V 1

X -0.1231

1.0909

-0.2719

-0.8589

-0.5215

-0.3251

-0.3149

2

X 0.2671-0.28090.65060.13520.4047-1.25390.8801

3

X 0.2706-0.5401-0.2659-0.32550.97620.4348-0.5603

4

X 0.1988-0.3007-0.2989-0.2509-0.4230.84710.8027

5

X 0.2160.88850.50230.52560.30310.60630.1427

6

X 0.3112-0.33390.6141-0.1942-0.5679-0.0253-0.6024

7

X 0.1708-0.4038-1.01240.8171-0.3281-0.1376-0.5254

1

W 2

W 3

W 4

W 5

W 6

W 7

W 8

X 0.4759

-0.3968

-0.6457

-0.8505

-0.0743

0.218

-0.3906

(1)由表9——标准化后的第一组变量的典型相关系数可以求出:专业基础课的第一对典型相关变量是:

11234567

0.12310.26710.27060.19880.21600.31120.1708Z X X X X X X X =?++++++同样由表10——标准化后的第二组变量的典型相关系数求出专业课的典型相关变量是:

1891011121314

151617

0.47590.13170.30970.09790.12040.08010.17980.21280.06630.1495W X X X X X X X X X X =++++?+?++在第一基础课变量中,各个学科所起的作用大致相当,稍微显著一点的是数学分析常微分方程和运筹学。在专业课变量中,起主导作用的是概率论和数理金融。W 和Z 的相关系11数为0.894891,可见Z 对W 的影响很大。由此可以得出结论:专业基础课每一科的学习11对于后续专业课的学习都相当重要。数学分析中就有很多重要的思想,比如极限思想可以说是由基础数学向高等数学迈进的最重要的一种思想。学好数学分析,对于我们视野的开阔和理性思维的培养是很有帮助的。运筹学中的规划和指派问题等的分析研究让我们拥有解决实际问题更有力的武器。而很多其他的专业课的学习过程中差不多都有关于概率的计算,置信区间的求法,还有中心极限定理和大数定律等的应用等等,这就是考验我们概率论的掌握情况的问题了。

注:同上由表和表10可以求出专业基础课和专业课的余下几对典型相关变量(2)专业基础课的第二对典型相关变量是:

9X 0.13170.50250.4897-0.3188-0.4804-0.34140.3310X 0.3097-0.2977-0.52030.26580.3576-0.11070.3811X 0.09790.0650.85360.27540.87990.3828-0.846712X 0.12040.2411-0.15510.1198-0.69880.98770.232113X -0.08010.0258-0.0680.9842-0.12920.3829-0.150814X 0.1798-0.63090.46310.0966-0.1641-1.33140.305615X -0.2128 1.0767-0.2255-0.0625-0.2606-0.1907-0.61416X 0.06630.09940.0583-0.57240.55590.14190.731817

X 0.1495

0.0345

-0.4632

0.095

0.446

-0.2672

-0.2672

21234567

1.09090.28090.54010.30070.88850.33390.4037Z X X X X X X X =???+??专业课的第二对典型相关变量是:

28910111213

14151617

0.39680.50250.29770.06500.24110.02580.6309 1.07670.09940.0345W X X X X X X X X X X =?+?+++?+++在第二基础课变量中,起主导作用的是高等代数,在第二专业课变量中,多元统计分析和抽样调查起到了主要作用。W 和Z 的相关系数为0.640345,Z 对W 的牵制作用也不2222小。因此我们可以总结出:高等代数中的代数理论使得我们的思维在扩展后的更多更高维的空间中得到升华,还有矩阵的学习让我们在描述大量信息时不再犯愁,对于复杂问题有了直观的理解。多元统计分析则结合理论和实际教会了我们不少分析解决实际问题的能力,我们可以利用降维的思想把多个指标转换为较少的几个不相关的综合指标(也就是主成分)来描述研究对象几乎所有的信息,也可以用几个潜在的不易观察的随机量去描述许多变量间的协方差关系,还可以通过求相关系数来分析两组变量之间的相关关系…….当然这一切都要建立在熟练掌握主成分分析,因子分析,相关分析等重要方法的基础上,不仅要知道如何去做,更重要的是要明白为什么要这样做。抽样调查则告诉我们怎样评价一个好的抽样方案,各种不同的抽样方法的适用范围和优缺点等,让我们知道如何根据具体的情况来抽取有代表性的样本,以便作出更加有价值的分析和决策。(3)专业基础课的第三对典型变量是:

31234567

0.27190.65060.26590.29890.50230.6104 1.0124Z X X X X X X X =?+??++?专业课的第三对典型变量是:

.

38910111213

14151617

0.64570.48570.52030.85360.15510.06800.46310.22550.05830.4632W X X X X X X X X X X =?+?+??+?+?在第三基础课变量中,起主导作用的是数值分析。在第二专业课变量中,概率论和随机过程起到了相对重要的作用。W 和Z 的相关系数为0.588848。

33其他的四对典型相关变量及其相关系数类似可得。不过在此仅仅需要选取两对典型变量就已经能够描述原变量的大部分信息和它们之间的相关程度了。

4总结和建议

以上的分析结果不是太理想,不能很好地说明专业基础课与专业课的相关程度。因为很多同学平时没有认真学习,只是在考前一个月或是更短的时间突击学习了一下,就算会

解题,对于知识的理解可能也只是一只半解,不能做到举一反三。更有甚者,有的同学还能把题目的完整的标准答案死记硬背下来。因为大学学习的课程比较多,一般老师在课程上完之后都会给学生划考试范围,让学生能够有针对性的复习,做到“有的放矢”,所以考试只是一种检验学生学习和老师教学的一种手段而已,并不能真实反映学生对知识的掌握情况和能力。

尽管如此,在一定的程度上从以上的成绩以及分析结果还是可以看出,高等代数和数学分析等专业基础课的学习对于后续专业课的学习效果有着举足轻重的作用.许多同学数学分析没学好,其他科目的成绩也好不到哪里去.因为不仅基础不过硬,计算能力也差劲,象随机过程等难度大的科目更是毫无头绪,甚至碰到一些简单的积分计算都不会,更别说那些繁琐的定理的证明了。有人高等代数没学好,碰到矩阵的乘法也会出错。就我个人而言,概率论就学得很不好,以至于后面很多科目象多元统计分析中要到中心极限定理或是大数定律的时候,因为掌握得不牢靠,也就谈不上灵活运用了.

数学分析和高等代数分别代表两种不同的思维方式.数学分析是学习分析类课程的基础,如复变函数就是数学分析在复数域上的推广.高等代数的矩阵理论在其他很多学科中也都会用到.常微分方程则让我们学会更多的解方程的办法,而且不仅仅局限于低阶方程,一些高阶方程只要方法恰当求解也不会太复杂.运筹学中的对偶理论可以使复杂的问题简单化,其他的一些规划问题等等可以让我们在日常的生产生活过程中更好地节约人力,物力,才力还有资源。概率论中有很多检验方法用来检验总体的分布,我们可依此作出更准确合理的判断。数理金融教给我们一些金融方面的定理如一价律,套利定理等等,如果能熟练掌握我想对于今后的投资决策和理财应该会有不小的帮助。

对于刚步入统计系学生来说,数学分析、高等代数等专业基础课学起来也会有点吃力,但是千里之行始于足下的道理相信谁都懂,所以基础课的学习不容忽视。虽然纯理论的东西学起来会有些枯燥,但只要端正学习态度,多花时间和精力就一定能学好,而且一旦学好了真可以说是有“一劳永逸的”的效果。即便这样,我们千万要避免走向另一个极端,有的人只注重理论的理解和推导,却忽略了计算能力的培养。只动脑而不动手,这是绝对不行的,要知道看得懂与会做并不是一回事,甚至可以说有很大的差距。我们系2007年考研情况很不理想,有的人就是因为数学没考好。我个人认为:作为统计系的学生,在数学理论方面比别人学得深,本应比工科学生更有优势,却反而栽在数学上,这显然跟部分人眼高手低有很大关系。只希望今后的同学能够吸取经验教训,在思想和行动上重视学好专业基础课的重要性。不仅在课堂上要认真听老师讲课,课余时间也要多下功夫,复习、预

习等环节绝不能少,力争把理论弄懂吃透,遇到确实不明白的地方就去请教老师。还要多做习题,在熟练掌握理论知识的基础上灵活运用计算方法练习,提高计算能力,也迫切希望老师能够给予学生更多的督促、建议和帮助。

参考文献:

[1]Richard A.Johnson Dean W.Wichern.实用多元统计分析.北京:清华大学出版社,2001

[2]黄平,梁满发.统计分析与SAS软件.华南理工大学出版社,75-76

[3]薛富波,张文彤,田晓燕.SAS8.2统计应用软件.北京希望电子出版社:16,212-220

[4]何晓群,多元统计分析.中国人民大学出版社,2004:288-289

[5]薛薇.统计分析与SPSS的应用.北京:中国人民大学出版社,2002.11

附录:

SAS程序代码【2】

DATA D123;

TITLE'统计系成绩分析';

INPUT X1-X17;

LABEL

X1='GAODENGDAISHU'X2='SHUXUEFENXI'X3='CHANGWEIFENFANGCHENG' X4='FUBIANHANSHU'X5='XIANDAIFENXIJICHU X6='YUNCHOUXUE'

X7='SHIZHI FENXI`X8='GAILVLUN`X9='SHULITONGJI'

X10='SHULIJINRONG'X11='SUIJIGUOCHENG'X12='SHIYONG HUIGUIFNXI'

X13='SHIJIANXULIEFENXI'X14='DUOYUANTONGJIFENXI'X15=`CHOUYANGDIAOCHA' X16='TONGJIJISUAN'X17='ZHILIANGGUANLI';

CARDS;

8980789392989092858268788174829377 8185908471819094737372827166858886 6279687876878176667567726072808782 97929395911009994868870887884909387 8778838568826882917269727663699576 93929385881009489968583908285829188 6971667772609674676548687165717989 8182828897969996969384897484898086 6669747760807074885563656776768782 6869608577678081627361729166939889 8181979580778997818370707376818282 8288848773809594626563627470689390 7280656060839386646163606782777882 7974738462639287637754647771688678 63706579621008584806363666260547082 9492978792899597938885878090969492 6372647663866773846060736160417087 8778778765918495897066707565919282 6451746360616766605454405131758285 8979687793798973926868797874919385 8474637182929190968871877477968386 8269767491889496857481947576949888 9183829887929093828169886886918186 9483808864948986858371746771949785 9187959095949595949188947892949788 91919495871009897899577888587927886 8984938995909397919182888687959485 72816995959182857570888173919487 9382866965888765877472788068838186 6576796287949587817280778977828382

82667098871009084826768906775749678 8081796697629086958078828578939890 8162746264608087625152547365.8877 8581778177878980756661798072859186 6980709870838991958587828284878890 89979698978399100938385787474688882 7879636472288166716460.6454609381 8988658786829394876870788974877587 959297989310095100959392848394969482 7576656762837687706372746673799774 6269654476886183846663627477839873 6568606268787960746768647668709278 6252745561616763666560796965668684 6061757576877992896860688470749178 8174697868658867727444607662859382 6362608368627581877061608364758873 6174617560888777887463867881679878 8985889777708785846162706467669678 6565785670849085816860607064728377 6062746966716775747464556168669374 8281688771928294937661747884948874 7785779296809198957574878366799674 8791978595909390969377897286919790 7590799588869390978468808081809288 7587848187848982858066777676839478 9791939077849798959885948389919786 6880849082788595758083987888889582 9682799186879896998468807684958878 8778786888928780816478707266738584 8086788375818587987964868265698474 8382749284919286987569787676799277 7874638377868785877972647963698582 8284739197899796999770857976829184 8081819287968987928261898082809576 6976716988948983908473707668769183 7578667493849381968475747876919178 ;

RUN;

PROC CANCORR data=D123simple corr vprefix=v wprefix=w;

Title'DIANXING XIANGGUAN FENXI';

var X1-X7;

with X8-X17;

RUN;

注:X -X 为第一组变量,X -X 为第二组变量,X 高等代数,X 数学分析

1781712X 常微分方程,X 复变函数X 现代分析基础X 运筹学X 数值分析X 概率论X 数理统345678计X 数理金融X 随机过程X 实用回归分析X 时间序列分析X 多元统计分析X 抽101112131415样调查X 统计计算X 质量管理

1617表1

表2第一组变量各门课程之间的相关系数

变量均值标准差标签178.3174610.9836高等代数278.111119.789908数学分析376.9047610.96875常微分方程481.1428612.75053复变方程579.174612.24421现代分析基础683.2063513.30918运筹学786.936519.226318数值分析886.142869.619968概率论984.0317511.31081数理统计1075.9047611.1003数理金融1169.5396810.30945随机过程1275.9523811.81228实用回归分析1369.539687.940189时间序列分析1474.7777810.72311多元统计分析1575.9523811.4599抽样调查1674.77778 6.888104统计计算17

74.1746

5.27886

质量管理

1

X 2

X 3

X 4

X 5

X 6

X 7

X 1X 10.70320.64590.57080.49850.31380.61172X 0.703210.640.63020.58040.40860.68273X 0.64590.6410.49080.4770.31840.47154X 0.57080.63020.490810.43280.38280.51425X 0.49850.58040.4770.432810.41230.60976

X 0.3138

0.4086

0.3184

0.3828

0.4123

1

0.3701

表3第二组变量各门课程之间的相关系数

表4两组变量之间的相关矩阵

7

X 0.61170.68270.47150.51420.60970.37011

8

X 9

X 10

X 11

X 12

X 13

X 14

X 15

X 16

X 17

X 8

X 1

0.481

0.6084

0.5759

0.5599

0.4781

0.5953

0.4175

0.1753

0.0963

9

X 0.48110.63960.51760.58550.46740.48080.26570.264-0.0846

10

X 0.60840.639610.61470.68560.53480.65610.50560.29930.1979

11

X 0.57590.51760.614710.66620.37250.6570.43870.2740.3323

12

X 0.55990.58550.68560.666210.46330.72590.42150.34310.25

13

X 0.47810.46740.53480.37250.463310.48730.36230.377-0.0041

14

X 0.59530.48080.65610.6570.72590.487310.55210.3080.2141

15

X 0.41750.26570.50560.43870.42150.36230.552110.3530.3401

16

X 0.17530.2640.29930.2740.34310.3770.3080.3531-0.1453

17

X 0.0963-0.08460.19790.33230.25-0.00410.21410.3401-0.14531

8

X 9

X 10

X 11

X 12

X 13

X 14

X 15

X 16

X 17

X 1

X 0.5673

0.4291

0.5391

0.4081

0.4848

0.252

0.4366

0.5196

0.2477

0.2483

2

X 0.62820.50690.65970.5750.590.34680.62730.37150.23320.2657

表5相关系数及假设检验结果

表6零检验:当前行典型相关其余的行相关度为零

极大似然估计

3

X 0.62030.33210.53810.52060.46290.23220.44950.29590.21470.2569

4

X 0.59540.41810.54570.38220.53620.29950.44370.22020.19140.1491

5

X 0.51940.57120.64180.64510.64030.46710.44370.4910.30780.2578

6

X 0.53340.52270.46160.50970.51090.29520.52570.12150.12-0.047

7

X 0.61450.37760.63460.43360.54310.42360.52310.40450.07720.3309

典型相关系数调整后的典型相关系数

近似的标准误差

典型相关系数的平方值

10.8948910.8676940.0252950.8008320.6403450.489753

0.0749250.41004230.5888480.0829640.34674240.3985950.152413

0.1068230.15887850.3492780.1115070.12199560.2693690.1177850.072567

0.203936

0.121718

0.04159

Ratio

F Value Num DF Den DF Pr>F 10.0503874 2.6370275.04<.000120.2529876 1.454244.250.04630.4288229 1.1440212.020.27840.65643730.7928178.090.76850.78043050.7218141.910.78460.88886820.62101020.7947

0.9584101

0.56

4

52

0.6897

spss的数据分析报告范例

关于某地区361个人旅游情况统计分析报告 一、数据介绍: 本次分析的数据为某地区361个人旅游情况状况统计表,其中共包含七变量,分别是:年龄,为三类变量;性别,为二类变量(0代表女,1代表男);收入,为一类变量;旅游花费,为一类变量;通道,为二类变量(0代表没走通道,1代表走通道);旅游的积极性,为三类变量(0代表积极性差,1代表积极性一般,2代表积极性比较好,3代表积极性好 4代表积极性非常好);额外收入,一类变量。通过运用spss统计软件,对变量进行频数分析、描述性统计、方差分析、相关分析,以了解该地区上述方面的综合状况,并分析个变量的分布特点及相互间的关系。 二、数据分析 1、频数分析。基本的统计分析往往从频数分析开始。通过频数分地区359个人旅游基本 状况的统计数据表,在性别、旅游的积极性不同的状况下的频数分析,从而了解该地区的男女职工数量、不同积极性情况的基本分布。 统计量 积极性性别 N 有效359 359 缺失0 0 首先,对该地区的男女性别分布进行频数分析,结果如下

性别 频率百分比有效百分 比 累积百分 比 有效女198 55.2 55.2 55.2 男161 44.8 44.8 100.0 合计359 100.0 100.0 表说明,在该地区被调查的359个人中,有198名女性,161名男性,男女比例分别为44.8%和55.2%,该公司职工男女数量差距不大,女性略多于男性。 其次对原有数据中的旅游的积极性进行频数分析,结果如下表: 积极性 频率百分比有效百分 比 累积百分 比 有效差171 47.6 47.6 47.6 一般79 22.0 22.0 69.6 比较 好 79 22.0 22.0 91.6 好24 6.7 6.7 98.3 非常 好 6 1. 7 1.7 100.0 合计359 100.0 100.0 其次对原有数据中的积极性进行频数分析,结果如下表: 其次对原有数据中的是否进通道进行频数分析,结果如下表:

2014年7月高等教育自学考试 00974《统计学原理》试题及答案

2014年7月高等教育自学考试 统计学原理试卷及答案 (课程代码 00974) 一、单项选择题(本大题共20小题,每小题1分,共20分) 1.构成统计总体的每一个别事物,称为 C A .调查对象 B .调查单位 C .总体单位 D .填报单位 2.对事物进行度量,最精确的计量尺度是A A .定比尺度 B .定序尺度 C .定类尺度 D .定距尺度 3.《中华人民共和国统计法》对我国政府统计的调查方式做的概括中指出,调查方式的主体是C A .统计报表 B .重点调查 C .经常性抽样调查 D .周期性普查 4.是非标志的成数p 和q 的取值范围是D A .大于零 B .小于零 C .大于1 D .界于0和1之间 5.在经过排序的数列中位置居中的数值是A A .中位数 B .众数 C .算术平均数 D .平均差 6.确定中位数的近似公式是A A .d f S f L m m ?-+ -∑1 2 B .d L ??+??+ 2 11 C .∑∑? f f x D . ∑-)(x x 7.反映现象在一段时间内变化总量的是B A .时点指标 B .时期指标 C .动态指标 D .绝对指标 8.重置抽样与不重置抽样的抽样误差相比A A .前者大 B .后者大 C .二者没有区别 D .二者的区别需要其他条件来判断 9.如果总体内各单位差异较大,也就是总体方差较大,则抽取的样本单位数A A .多一些 B .少一些 C .可多可少 D .与总体各单位差异无关 10.进行抽样调查时,样本对总体的代表性受到一些可控因素的影响,下列属于可控因素的是D A .样本数目 B .样本可能数目 C .总体单位数 D .样本容量 11.在12个单位中抽取4个,如果进行不重置抽样,样本可能数目M 为B A .4 12 B . ! 8!4! 12 C .12×4 D .12 4 12.方差是各变量值对算术平均数的A A .离差平方的平均数 B .离差平均数的平方根 C .离差平方平均数的平方根 D .离差平均数平方的平方根

年度医院医疗统计分析报告

2013年度医疗统计分析报告 综合全年医疗统计数字,对比去年同期,对期内统计数据做以分析,为医院综合工作提供参考,进一步提高医疗服务质量和工作效率。 工作效率分析,即运用统计指标来分析和评定医院工作效率,可以了解医院科室人员、设施、设备、技术、物资的利用情况。反映医院管理方面的成效和问题,对改进医院管理有重要意义。 按照国家对二级甲等医院临床医疗质量与工作效率的指标,实际床位使用率应≥85%,从此数据反映平均每天使用床位与实有床位的比例情况;平均住院日≤12天,超过则说明病床负担过重;术前平均住院日<3天,反映了术前诊断质量、术前准备质量、手术室管理水平。 我们通过分析认为,我院2013全年床位使用率还是低于范围值,平均住院日及术前住院日都在允许范围内。积极深入查找原因,及时反馈有关部门,在保证医疗质量的前提下,提高床位使用率,不仅能节省床位投资,使现有的卫生资源得到充分有效的利用,也使我们医院的技术优势能够得到充分的发挥。 一、床位使用率、平均住院日、术前平均住院日分析 1、资料与方法 资料来源于我院病案统计2013年与2012年统计数据汇总。 2、结果 表一: 3、分析 由表一可以看出:我院2013年总体床位使用率为57.40%,虽比2012年同期上升12.7%,但是离国家卫生主管部门规定≥85%的标准差距太大,依然处于低效率运行状态。 我院2013年出院病人平均住院日10.14天,同比2012年同期下降0.27天,低于规定≤12天标准,处于正常效率运行状态。

我院2013年术前平均住院日2.04天,低于规定<3天标准,处于正常效率运行状态。 从表上数据看我院2013年床位使用率低效率运行科室是妇产科和五官科。妇产科孕产妇就诊率极低,与市里专业性极强的妇、产医院竞争,实力明显薄弱。五官科亦面临同样的问题。 结果分析反映出: 我院2013年床位未得到充分利用,出院病人平均住院日处于正常效率运行状态,而床位使用率处于低效率运行,说明住院病人率低。 建议:加大人才培养力度,广招贤能充实医院卫生专业技术人员队伍,选派技术骨干进修学习,提高医疗技术水平、强化优质服务和管理力度,合理用药合理医治,降低患者治疗成本,吸引患者,提高床位运行效率。 我院2013年同比2012年同期的术前平均住院日,均处于正常效率运行状态,它反映术前诊断质量、术前准备质量、手术安排合理性、手术室管理均达到标准水平。 二、门诊诊疗工作状态分析 1、来源:门诊工作数据来源主要通过门诊电脑就诊挂号系统提取,并每月定期收集门诊专家工作日志,深入查看门诊患者的入住率。 2、结果:2013及2012年门诊工作量对比 表二 3、结果分析: 2013年我院门诊工作量同比2012年同期增长21.80%。 门诊量增长幅度不是太大,因素:2013年上半年诊疗工作在老院,下半年10月搬迁入新住院楼,千头万绪,新环境、新设备,医务人员缺口大,业务工作于2013年年底才基本进入有序轨道运行。 建议:2014年国家还会加大医疗保险的投入,社会保险人群大幅度增加,尤其是新农合报销比例也在不断增加,大形势越好竞争也就越激烈,我们还得在宣传力度和医疗技术与服务上投大力气、下大功夫吸引患者,加上我院几年来一直深入农村、村屯、各农牧场开展免费诊疗,随队人员都是主任医师、副主任医师,我们一定能克服客观困难,争取提高工作量。 三、临床诊断质量分析 1、来源:医疗统计系统提取报表数据 2、对照

统计学原理试题及答案解析

统计学原理试题(6) 一、单项选择题:(每小题1分,共20分) 1、设某地区有200家独立核算得工业企业,要研究这些企业得产品生产情 况,总体就是( )。 A、每一家工业企业 B、200家工业企业 C、每一件产品 D、200家工业企业得全部工业产品 2、有600家公司每位职工得工资资料,如果要调查这些公司得工资水平情 况,则总体单位就是( )。 A、600家公司得全部职工 B、600家公司得每一位职工 C、600家公司所有职工得全部工资 D、600家公司每个职工得工资 3、一个统计总体( )。 A、只能有一个指标 B、可以有多个指标 C、只能有一个标志 D、可以有多个标志 4、以产品等级来反映某种产品得质量,则该产品等级就是( )。 A、数量标志 B、品质标志 C、数量指标 D、质量指标 5、在调查设计时,学校作为总体,每个班作为总体单位,各班学生人数就是( )。 A、变量值 B、变量 C、指标值 D、指标 6、年龄就是( )。 A、变量值 B、连续型变量 C、离散型变量 D、连续型变量,但在实际应用中常按离散型处理 7、人口普查规定统一得标准时间就是为了( )。 A、登记得方便 B、避免登记得重复与遗漏 C、确定调查得范围 D、确定调查得单位 8、以下哪种调查得报告单位与调查单位就是一致得( )。 A、职工调查 B、工业普查 C、工业设备调查 D、未安装设备调查 9、通过调查大庆、胜利、辽河等油田,了解我国石油生产得基本情况。这 种调查方式就是( )。 A、典型调查 B、抽样调查 C、重点调查 D、普查 10、某市进行工业企业生产设备普查,要求在10月1日至15日全部调查完 毕,则这一时间规定就是( )。 A、调查时间 B、登记期限 C、调查期限 D、标准时间 11、统计分组得关键问题就是( )。 A、确定分组标志与划分各组界限 B、确定组距与组中值

应用统计学试题和答案分析.

六、计算题:(要求写出计算公式、过程,结果保留两位小数,共4题,每题10分) 1、某快餐店对顾客的平均花费进行抽样调查,随机抽取了49名顾客构成一个简单随机样本,调查结果为:样本平均花费为元,标准差为元。试以%的置信水平估计该快餐店顾客的总体平均花费数额的置信区 间;(φ(2)=)49=n 是大样本,由中心极限定理知,样本均值的极限分布为正态分布,故可用正态分布对总体均值进行区间估计。 已知:8.2,6.12==S x 0455.0=α 则有: 202275 .02 ==Z Z α 平均误差=4.07 8 .22==n S 极限误差8.04.022 2 =?==? n S Z α 据公式 x x ±=±? 代入数据,得该快餐店顾客的总体平均花费数额%的置信区间为(,) 3 要求:①、利用最小二乘法求出估计的回归方程;②、计算判定系数R 。 附:10805 1 2 ) (=∑-=i x x i 8.3925 1 2 ) (=∑-=i y y i 58=x 2.144=y 3题 解 ① 计算估计的回归方程: ∑∑∑∑∑--= )(22 1x x n y x xy n β) ==-??-?290 217900572129042430554003060 = =-= ∑∑n x n y ββ)) 1 0 – ×58= 估计的回归方程为:y ) =+x ② 计算判定系数: 4 计算下列指数:①拉氏加权产量指数;②帕氏单位成本总指数。 4题 解: ① 拉氏加权产量指数

= 1 000 00 1.1445.4 1.13530.0 1.08655.2 111.60%45.430.055.2q p q q p q ?+?+?==++∑∑ ② 帕氏单位成本总指数= 11100053.633.858.5 100.10%1.1445.4 1.13530.0 1.08655.2q p q q p q ++==?+?+?∑∑ 模拟试卷(二) 一、填空题(每小题1分,共10题) 1、我国人口普查的调查对象是 ,调查单位是 。 2、___ 频数密度 =频数÷组距,它能准确反映频数分布的实际状况。 3、分类数据、顺序数据和数值型数据都可以用 饼图 条图 图来显示。 4、某百货公司连续几天的销售额如下:257、276、297、252、238、310、240、236、265,则其下四分位数 5、某地区2005年1季度完成的GDP=30亿元,2005年3季度完成的GDP=36亿元,则GDP 年度化增长率6、某机关的职工工资水平今年比去年提高了5%,职工人数增加了2%,则该企业工资总额增长了 % 。 7、对回归系数的显着性检验,通常采用的是 t 检验。 8、设置信水平=1-α,检验的P 值拒绝原假设应该满足的条件是 p e M >o M ③、x >o M >e M 3、比较两组工作成绩发现σ甲>σ乙,x 甲>x 乙,由此可推断 ( )

统计学原理练习题及答案

统计学原理练习题及答案 2007-12-7 9:32:24 阅读数:6162 《统计学原理》综合练习题 一、判断题(把正确的符号“√”或错误的符号“×”填写在题后的括号中。) 1、社会经济统计的研究对象是社会经济现象总体的各个方面。() 2、在全国工业普查中,全国企业数是统计总体,每个工业企业是总体单位。() 3、总体单位是标志的承担者,标志是依附于单位的。() 4、数量指标是由数量标志汇总来的,质量指标是由品质标志汇总来的。() 5、全面调查和非全面调查是根据调查结果所得的资料是否全面来划分的()。 6、调查单位和填报单位在任何情况下都不可能一致。() 7、在统计调查中,调查标志的承担者是调查单位。() 8、对全同各大型钢铁生产基地的生产情况进行调查,以掌握全国钢铁生产的基本情况。这种调查属于非全面调查。() 9、统计分组的关键问题是确定组距和组数( ) 10、按数量标志分组的目的,就是要区分各组在数量上的差别( ) 11、总体单位总量和总体标志总量是固定不变的,不能互相变换。() 12、相对指标都是用无名数形式表现出来的。() 13、众数是总体中出现最多的次数。() 14、国民收入中积累额与消费额之比为1:3,这是一个比较相对指标。() 15、总量指标和平均指标反映了现象总体的规模和一般水平。但掩盖了总体各单位的差异情况,因此通过这两个指标不能全面认识总体的特征。() 16、抽样推断是利用样本资料对总体的数量特征进行估计的一种统计分析方法,因此不可避免的会产生误差,这种误差的大小是不能进行控制的。() 17、从全部总体单位中按照随机原则抽取部分单位组成样本,只可能组成一个样本。() 18、在抽样推断中,作为推断的总体和作为观察对象的样本都是确定的、唯一的。() 19、抽样估计置信度就是表明抽样指标和总体指标的误差不超过一定范围的概率保证程度。() 20、在其它条件不变的情况下,提高抽样估计的可靠程度,可以提高抽样估计的精确度。() 21、抽样平均均误差反映抽样的可能误差范围,实际上每次的抽样误差可能大于抽样平均误差,也可能小于抽样平均误差。() 22、施肥量与收获率是正相关关系。() 23、计算相关系数的两个变量都是随机变量() 24、利用一个回归方程,两个变量可以互相推算()

统计学相关 典型相关分析

典型相关分析 在SPSS中可以有两种方法来拟合典型相关分析,第一种是采用Manova过程来拟合,第二种是采用专门提供的宏程序来拟合,第二种方法在使用上非常简单,而输出的结果又非常详细,因此这里只对他进行介绍。该程序名为Canonical correlation.sps,就放在SPSS的安装路径之中,调用方式如下: 文件——新建——语法 INCLUDE 'C:\Program Files\SPSSInc\PASWStatistics18\Samples\English\Canonical correlation.sps'. CANCORR SET1=体重腰围脉搏 /SET2=单杠仰卧起坐跳高. 复制后,点击“运行”——“全部”即可 1.Correlations for Set-1 Correlations for Set-2 首先给出的是两组变量内部各自的相关矩阵,可见生理指标之间具有相关性、训练指标之间也有相关性。 2.Correlations Between Set-1 and Set-2 接着给出的是两组变量间各变量的两两相关矩阵,可见生理指标与训练指标之间确实存在相关性。 3.Canonical Correlations 提取典型相关系数的大小,可见第一典型相关系数为0.796

4.Test that remaining correlations are zero 检验各典型相关系数有无统计学意义,可见第一典型相关系数有统计学意义,第二第三典型相关系数没有统计学意义(<0.1)。 5.Standardized Canonical Coefficients for Set-1 Raw Canonical Coefficients for Set-1 各典型变量与变量组1中各变量间标化与未标化的系数列表,由此我们可以写出典型变量的转换公式(标化的):U1=0.775x1-1.579x2+0.059x3 6.各典型变量与变量组2中各变量间标化与未标化的系数列表,同理可以写出 典型变量的转换公式:V1=0.349y1+1.054y2-0.716y3

统计学调查分析报告

承诺 本报告由小组成员共同完成,所用数据与资料均已注明其来源, 如使用了他人已经发表或撰写过的分析结果或观点均已进行了规范引用,特此声明。 小组成员 1 姓名与签字: 小组成员 2 姓名与签字: 小组成员 3 姓名与签字: 小组成员 4 姓名与签字:

目录 承诺............................................................... IIII 正文........................ 错. 误!未定义书签。错误!未定义书签。1. 确定研究问题............ 错误!未定义书签。错误!未定义书签。 1.1背景分析....................................... 错误!未定义书签。错误!未定义书签。 1.2确定研究问题................................... 错误!未定义书签。错误!未定义书签。 2. 选择统计分析方法........ 错误!未定义书签。错误!未定义书签。 2.1问卷设计....................................... 错误!未定义书签。错误!未定义书签。 2.2问卷内容....................................... 错误!未定义书签。错误!未定义书签。 2.3选择处理软件................................... 错误!未定义书签。错误!未定义书签。 3. 收集样本数据 ................................................................... 2.. . 4. 数据分析 (2) 4.1初步分析 (2) 4.2男女生平均缺课次数相等的假设分析 (6) 4.3年级与缺课次数的相关分析 (8) 4.4 学生缺课原因分析 (9) 4.5 年级与缺课原因直接的可重复双因素分析 (9) 4.6 上课环境对上课意愿的影响分析 (9) 5. 总结与建议 (12) 6. 调查优缺点分析 (13) 7. 参考文献 (14)

统计学原理-计算题

《统计学原理》 计算题 1.某地区国民生产总值(GNP)在1988-1989年平均每年递增15%,1990-1992年平均每年递增12%,1993-1997年平均每年递增9%,试计算: 1)该地区国民生产总值这十年间的总发展速度及平均增长速度 答:该地区GNP在这十年间的总发展速度为 115%2×112%3×109%5=285.88% 平均增长速度为 111.08% == 2)若1997年的国民生产总值为500亿元,以后每年增长8%,到2000年可达到多少亿元? 答:2000年的GNP为 500(1+8%)13=1359.81(亿元) 2.某地有八家银行,从它们所有的全体职工中随机动性抽取600人进行调查,得知其中的486人在银行里有个人储蓄存款,存款金额平均每人3400元,标准差500元,试以95.45%的可靠性推断:(F(T)为95.45%,则t=2) 1)全体职工中有储蓄存款者所占比率的区间范围 答:已知:n=600,p=81%,又F(T)为95.45%,则t=2所以 0.1026% == 故全体职工中有储蓄存款者所占比率的区间范围为 81%±0.1026% 2)平均每人存款金额的区间范围 3.某厂产品产量及出厂价格资料如下表: 要求:对该厂总产值变动进行因素分析。(计算结果百分数保留2位小数) 答:①总产值指数 11 00500010012000604100020 104.08% 600011010000504000020 p q p q ?+?+? ==?+?+? ∑ ∑ 总成本增加量 Σp1q1-Σp0q0=2040000-1960000=80000(元)②产量指数

2019年统计学数据分析报告

统计学数据分析报告 一、调查研究方案的设计与组织实施 (一)调查目的 (1)描述和反映本校商学院14级金融系学生对于毕业去向的意向,分析并研究各意向的分布情况; (2)在专业,性别,家庭因素,个人因素等方面对毕业意向的分布进行研究,探究这些因素对于毕业意向分布的影响。(3)分析和解释形成毕业意向分布差异的因素和原因; (二)调查对象和调查单位 本次调查的基本调查对象是本校商学院金融类的部分同学。调查单位为此范围内的每一个同学。 在此基础上,在每个专业内随机抽取样本进行抽样调查,进而对整体进行推断。 (三)调查的组织和实施方法 获取资料的方法:问卷法、文献法本小组采用的基本方法为问卷法,发放问卷60份,收回问卷54份。辅助方法为文献法,通过图书馆和网络获取相关背景资料,对研究素材进行丰富和补充。调查方法:抽样调查抽样方法:分层抽样 将调查对象按专业分为金融工程、金融学和信用管理三个类别,然后从各个类别中随机抽取组成样本,用于对整体进行推断。数据资料整理结果如下:

在全部被调查对象中,男生23人,占43%,女生31人,占57%,金融学18人,占总体1/3,信用管理18人,占总体1/3,金融工程18人,占总体1/3。选择考研的有14人,占总体的26%。选择出国深造的有1人,占总体的2%。选择自主创业的有3人,占总体6%。选择直接就业的有29人,占总体54%。选择考公务员的有7人,占总体12%。 (四)调查时间和调查期限 调查时间:20XX年5月9日 调查期限:20XX年5月9日―20XX年5月14日(五)调查项目和调查表 调查项目:性别年级专业毕业意向家庭收入情况性格特点就业优势调查表如下: 二、统计数据的整理和分析 (一)总体分布情况与相关分析 根据问卷统计的数据得到的频数分布表和毕业意向分布饼图如下: 由上表可以得到以下结论: 选择直接就业的人数占总体的比例最大,占总体的54%其次是选择考研和考公务员,分别占总体的26%和12%。 选择出国深造和自主创业的人数最少,只占总体的2%和6%。可以看出大部分同学的毕业意向集中在直接就业和考研两个方面,而出国深造和自主创业对本校商学院来说仍旧是比较冷僻的意向。

统计学数据分析报告记录

统计学数据分析报告记录

————————————————————————————————作者:————————————————————————————————日期:

统计学数据分析报告 一、调查研究方案的设计与组织实施 (一)调查目的 (1)描述和反映本校商学院14级金融系学生对于毕业去向的意向,分析并 研究各意向的分布情况; (2)在专业,性别,家庭因素,个人因素等方面对毕业意向的分布进行研 究,探究这些因素对于毕业意向分布的影响。 (3)分析和解释形成毕业意向分布差异的因素和原因; (二) 调查对象和调查单位 本次调查的基本调查对象是本校商学院金融类的部分同学。 调查单位为此范围内的每一个同学。 在此基础上,在每个专业内随机抽取样本进行抽样调查,进而对整体进行推断。 (三)调查的组织和实施方法获取资料的方法:问卷法、文献法 本小组采用的基本方法为问卷法,发放问卷60份,收回问卷54份。 辅助方法为文献法,通过图书馆和网络获取相关背景资料,对研究素材进行丰富和补充。 调查方法:抽样调查 抽样方法:分层抽样 将调查对象按专业分为金融工程、金融学和信用管理三个类别,然后从各个类别中随机抽取组成样本,用于对整体进行推断。 数据资料整理结果如下:

在全部被调查对象中,男生23人,占43%,女生31人,占57%,金融学18人,占总体1/3,信用管理18人,占总体1/3,金融工程18人,占总体 1/3。选择考研的有14人,占总体的26%。选择出国深造的有1人,占总体的2%。选择自主创业的有3人,占总体6%。选择直接就业的有29人,占总体54%。选择考公务员的有7人,占总体12% 。 (四)调查时间和调查期限 调查时间:2016年5月9日 调查期限:2016年5月9日―2016年5月14日 (五)调查项目和调查表 调查项目:性别年级专业毕业意向家庭收入情况性格特点就业优势 调查表如下: 毕业意向 专业性别 考研出国深造自主创业直接就业考公务员金融工程男7 0 0 0 6 1 女11 2 0 0 8 1 金融学男8 2 1 0 4 1 女10 6 0 1 2 1 信用管理男8 1 0 1 5 1 女10 3 0 1 4 2 合计54 14 1 3 29 7 二、统计数据的整理和分析

统计学原理第九章(相关与回归)习题答案

第九章相关与回归 一.判断题部分 题目1:负相关指的是因素标志与结果标志的数量变动方向是下降的。() 答案:× 题目2:相关系数为+1时,说明两变量完全相关;相关系数为-1时,说明两个变量不相关。() 答案:√ 题目3:只有当相关系数接近+1时,才能说明两变量之间存在高度相关关系。() 答案:× 题目4:若变量x的值增加时,变量y的值也增加,说明x与y之间存在正相关关系;若变量x的值减少时,y变量的值也减少,说明x与y之间存在负相关关系。() 答案:× 题目5:回归系数和相关系数都可以用来判断现象之间相关的密切程度。() 答案:× 题目6:根据建立的直线回归方程,不能判断出两个变量之间相关的密切程度。() 答案:√ 题目7:回归系数既可以用来判断两个变量相关的方向,也可以用来说明两个变量相关的密切程度。() 答案:×

题目8:在任何相关条件下,都可以用相关系数说明变量之间相关的密切程度。() 答案:× 题目9:产品产量随生产用固定资产价值的减少而减少,说明两个变量之间存在正相关关系。() 答案:√ 题目10:计算相关系数的两个变量,要求一个是随机变量,另一个是可控制的量。() 答案:× 题目11:完全相关即是函数关系,其相关系数为±1。() 答案:√ 题目12:估计标准误是说明回归方程代表性大小的统计分析指标,指标数值越大,说明回归方程的代表性越高。() 答案× 二.单项选择题部分 题目1:当自变量的数值确定后,因变量的数值也随之完全确定,这种关系属于()。 A.相关关系 B.函数关系 C.回归关系 D.随机关系 答案:B 题目2:现象之间的相互关系可以归纳为两种类型,即()。 A.相关关系和函数关系 B.相关关系和因果关系

生物统计学 第九章 多元统计分析

第九章多元统计分析简介 多元统计分析主要研究多个变量之间的关系以及具有这些变量的个体之间的关系。无论是自然科学还是社会科学,无论是理论研究还是应用决策,多元统计分析都有较广泛的应用。近年来,随着计算机的普及和广泛应用,多元统计分析的应用越来越广泛,越来越深入。生物学研究中,有许多问题要考虑样本与样本之间的关系、性状与性状之间的关系,也要考虑样本与性状之间的关系,为了能够正确处理这些错综复杂的关系,就需要借助于多元统计分析方法来解决这些问题。 从应用的观点看,多元统计分析就是要研究多个变量之间的关系,但哪些问题才是多元统计的内容,并无严格的界限。一般认为,典型的多元统计分析主要可以归结为两类问题:第一类是决定某一样本的归属问题:根据某样品的多个性状(特征)判定其所属的总体。如判别分析、聚类分析即属于此类内容。第二类问题是设法降低变量维数,同时将变量变为独立变量,以便更好地说明多变量之间的关系。主成分分析、因子分析和典型相关分析均属于此类问题。此外,多因素方差分析、多元回归与多元相关分析和时间序列分析,均是研究一个变量和多个变量之间的关系的,也是多元统计分析的内容。 第一节聚类分析(Cluster Analysis) 聚类分析是研究分类问题的一种多元统计方法,聚类分析方法比较粗糙,但由于这种方法能解决许多实际问题,应用比较方便,因此越来越受到人们的重视。近年来聚类分析发展较快,内容也越来越多。常见的有系统聚类、模糊聚类、灰色聚类、信息聚类、图论聚类、动态聚类、最优分割、概率聚类等方法,本节重点介绍系统聚类法。 系统聚类法是目前应用较多的聚类分析方法,这种聚类方法从一批样本的多个观测指标(变量)中,找出能度量样本之间相似程度的统计数,构成一个相似矩阵,在此基础上计算出样本(或变量)之间或样本组合之间的相似程度或距离,按相似程度或距离大小将样本(或变量)逐一归类,关系密切的归类聚集到一个小分类单位,关系疏远的聚集到一个大的分类单位,直到把所有样本(或变量)都聚集完毕,形成一个亲疏关系谱系图,直观地显示分类对象的差异和联系。 第二节判别分析(Discriminant Analysis) 判别分析是多元统计分析中较为成熟的一类分类方法,它是根据两个或多个总体的观测结果,按照一定的判别准则和相应的判别函数,来判断某一样本属于哪一类总体。判别分析的内容很多,常见的有距离判别、贝叶斯判别、费歇判别、逐步判别、序贯判别等方法。 第三节主成分分析(Principal components analysis)

统计学调查报告

统计学课程设计大学生熬夜调查报告 班级:xxxx 学号:xxxx 姓名:xxxx

目录 一、引言 (3) 二、调查方案 (4) 三、问卷设计 (5) 四、问卷发放 (6) 五、数据分析 (7) 六、结论 (11)

一、引言 俗话说,“早睡早起身体好”,这是有一定科学道理的。人在睡眠的时候,意识相对不清楚,肌肉的随意运动停止,从而帮助大家恢复体能、巩固记忆力,其重要性仅次于呼吸和心跳,是维持健康不可缺少的。有了良好的睡眠,可以使第二天保持清醒和活力。 鉴于此,我们对身边的大一大二大三学生,进行了一次抽样问卷调查活动。本着了解如今大学生的作息基本情况,还有宣传熬夜的危害和早睡早起的良好作息习惯的目的,举行了这此调查。虽然调查持续了一个月,但颇有收益。研究目的:对于有些人,熬夜已经成为生活方式的一部分。但是,从健康的角度讲,熬夜还是害处多多的。熬夜会导致人疲劳,免疫力下降;头痛;皮肤干燥、长黑斑、青春痘等;长期熬夜还会慢慢地出现失眠、健忘、易怒、焦虑不安等神经、精神症状。通过这次探究,发现大学生熬夜状况及深层原因。这次调查包括熬夜的比例、原因等,希望以此为基础,探究大学生的熬夜现象,并且提出切实可行的解决措施,为大家的作息时间提出一点建议,减少大学生熬夜现象,同时也希望通过这份调查报告给大家带来提醒,希望大家能制定一个科学的休息时间,为生活和学习打好基础。

二、调查方案 (一)调查目的 我们想更加深入的了解与大学生的熬夜相关的一系列问题,并根据调查情况,并根据调查情况,做出调查报告。 (二)调查对象 身边的在校大学生 (三)调查单位 在校大学生共42名 (四)调查程序: 1.确定调查内容 2.设计调查问卷 3.确定调查对象及单位(采用分层抽样的方式,男生21份,女生21份),发放 问卷(采用留置调查法)并回收问卷 4.问卷整理并进行数据统计、数据分析、数据总结 5.对问卷总结分析得出结论 (五)调研期限 调研期限: 2019年12月1日—2019年12月30日 (五)调查方式 过问卷星在网上发布调查报告,对不同大学不同专业不同年级的大学生进行调查,并用统计学的方法处理数据,从而得到结果。 关键词:大学生熬夜健康 在大学,对于许多大学生来说,熬夜早已成为一种生活常态。每天的深夜 和凌晨都会看到这样的情景:宿舍的灯熄了,但是电脑的屏幕还是亮着的;校 园的街道是安静的,而宿舍的楼道依然是吵闹着的。这样的情景使大部分同学 的生活变得很不规律。或者是习惯于晚睡晚起。熬夜已成了一种习惯,不熬夜 反倒少见。因此作为一名大学生,在自己处于这种情况下,对大学生熬夜情况 很感兴趣。研究大学生熬夜情况有助于帮助大学生正确安排自己的作息时间,并 关注自己的健康。

统计学原理例题分析一(20200920021933)

统计学原理例题分析(一) 一、判断题(把“V”或“X”填在题后的括号里) 1.社会经 济统计的研究对象是社会经济现象总体的各个方面。()参考答案:X 2.总体单位是标志的承担者,标志是依附于单位的。() 参考答案:“ 3?标志通常分为品质标志和数量标志两种。() 参考答案:“ 4.当对品质标志的标志表现所对应的单位进行总计时就形成统计指标。() 参考答案:“ 5.调查方案的首要问题是确定调查对象。() 参考答案:“ 6.我国目前基本的统计调查方法是统计报表、抽样调查和普查。() 参考答案:“ 7.调查单位和填报单位在任何情况下都不可能一致。() 参考答案:X 8.按数量标志分组,各组的变量值能准确的反映社会经济现象性质上的差别。() 参考答案:X 9.在确定组限时,最大组的上限应低于最大变量值。() 参考答案:X 10.按数量标志分组的目的,就是要区别各组在数量上的差别。() 参考答案:X 11.离散型变量可以作单项式分组或组距式分组,而连续型变量只能作组距式分组。() 参考答案:2

12.对于任何两个性质相同的变量数列,比较其平均数的代表性,都可以采

用标准差指标。() 参考答案:X 13.样本成数是指在样本中具有被研究标志表现的单位数占全部样本单位数的比重。() 参考答案:“ 14.样本容量指从一个总体中可能抽取的样本个数。() 参考答案:X 15.在抽样推断中,作为推断对象的总体和作为观察对象的样本都是确定、唯一的。() 参考答案:X 16.产量增加,则单位产品成本降低,这种现象属于函数关系。() 参考答案:X 17.在直线回归方程Y = a +bx中,b值可以是正的,也可以是负的。 () 参考答案:“ 18.回归系数b和相关系数丫都可用来判断现象之间相关的密切程度。 () 参考答案:X 19.平均指标指数是综合指数的一种变形。() 参考答案:X 20.序时平均数与一般平均数完全相同,因为它们都是将各个变量值的差异抽象化了。() 参考答案:X 二、单项选择题(从下列每小题的四个选项中,选出一个正确的,请将正确答案的序号填在括号内) 1 ?以产品的等级来衡量某种产品的质量好坏,则该产品等级是() A.数量标志 E.品质标志 C.数量指标 D.质量指标。

统计学原理第三章习题答案

第三章统计资料整理 一.判断题部分 1:对统计资料进行分组的目的就是为了区分各组单位之间质的不同。(×) 2:统计分组的关键问题是确定组距和组数。(×) 3:组中值是根据各组上限和下限计算的平均值,所以它代表了每一组的平均分配次数。(×) 3:分配数列的实质是把总体单位总量按照总体所分的组进行分配。(∨) 4:次数分配数列中的次数,也称为频数。频数的大小反映了它所对应的标志值在总体中所起的作用程度。(∨) 5:某企业职工按文化程度分组形成的分配数列是一个单项式分配数列。(×) 6:连续型变量和离散型变量在进行组距式分组时,均可采用相邻组组距重叠的方法确定组限。(∨) 7:对资料进行组距式分组,是假定变量值在各组内部的分布是均匀的,所以这种分组会使资料的真实性受到损害。(∨) 8:任何一个分布都必须满足:各组的频率大于零,各组的频数总和等于1 或100%。(×) 9:按数量标志分组形成的分配数列和按品质标志分组形成的分配数列,都可称为次数分布。( ∨ ) 10:按数量标志分组的目的,就是要区分各组在数量上的差异。(×) 11:统计分组以后,掩盖了各组内部各单位的差异,而突出了各组之间单位的差异。(∨) 12:分组以后,各组的频数越大,则组的标志值对于全体标志水平所起的作

用也越大;而各组的频率越大,则组的标志值对全体标志水平所起的作用越小。(×) 二.单项选择题部分 1:统计整理的关键在( B )。 A、对调查资料进行审核 B、对调查资料进行统计分组 C、对调查资料进行汇总 D、编制统计表 2:在组距分组时,对于连续型变量,相邻两组的组限( A )。 A、必须是重叠的 B、必须是间断的 C、可以是重叠的,也可以是间断的 D、必须取整数 3:下列分组中属于按品质标志分组的是( B )。 A、学生按考试分数分组 B、产品按品种分组 C、企业按计划完成程度分组 D、家庭按年收入分组 4:有一个学生考试成绩为70分,在统计分组中,这个变量值应归入( B )。 A、60---70分这一组 B、70---80分这一组 C、60—70或70—80两组都可以 D、作为上限的那一组 5:某主管局将下属企业先按轻、重工业分类,再按企业规模分组,这样的分组属于( B )。 A、简单分组 B、复合分组 C、分析分组 D、结构分组 6:简单分组和复合分组的区别在于( B )。 A、选择的分组标志的性质不同 B、选择的分组标志多少不同

统计学调查报告全新

《大学生日常消费和理财情况》 SPSS 调查分析数据报告 学校:天津农学院 学院:经济管理学院 专业:国际经济与贸易 小组成员与分工: 和煜、周丽君--设计、发放、回收问卷 夏英俊:录入调查问卷以及数据 左飘飘、孟令尚:录入数据闫晓晴:写调查报告

大学生日常消费与理财情况调查分析 本次调查问卷设计了12个问题,共发放了40份问卷,回收有效问卷40份。采用SPSS对大学生日常消费与理财情况进行调查分析,以下从频率、描述统计、交叉表、回归、图形、单因素方差分析等方面进行分析。 、频率 由上表分析可以得到,大学生生活费主要来源为父母给予,

奖学金、兼职实习和其他所占比重小。所以目前大学生的生活费还是依赖父母,独立性差

大学生经常去的娱乐场所为公园、KTV咖啡厅,这些地方消费水平大学生可以接受,同时也是大学生喜爱去的地方。不经常去游泳馆、健身房、台球厅,反映出大学生在娱乐时不太喜欢运动。美容店和按摩店消费水平高,所以很少到这里消费。如今大学生喜欢各式各样的饮料,所以在茶馆的消费低。酒吧和网吧的环境比较乱,消费也低。总体来说,大学生的消费观念还是较为正确理性的。 二、描述统计

消费时看重商品的品牌、外观、质量这三者中,外观和质量的均值较大,品牌的方差较小,说明其波动小。 三、交叉表 性别记账的习惯交叉制表 总体来说,有记账习惯的大学生中,女生要高过男生,因为女生心思细腻,冻得节俭。每日记流水账的人少,说明大学生很少及时记录当日消费情况。想起才记账和不记账的人占比较大,说明很多大学生没有养成记账的习惯。我们应该培养记账习 惯,注重日常每一笔消费。 四、回归

统计学分析方法

统计分析方法总结 分享 胡斌 00:06分享,并说:统计 1.连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。 1.1.2 资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验;(2)采用非参数检验,如Wilcoxon检验。 1.1.3 资料方差不齐,(1)采用Satterthwate 的t’检验;(2)采用非参数检验,如Wilcoxon检验。 1.2 两组配对样本的比较 1.2.1 两组差值服从正态分布,采用配对t检验。 1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。 1.3 多组完全随机样本比较 1.3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。 1.3.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal-Wallis法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用成组的Wilcoxon检验。 1.4 多组随机区组样本比较 1.4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。 1.4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni 法校正P值,然后用符号配对的Wilcoxon检验。 ****需要注意的问题: (1)一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。 (2)当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。**绝不能对其中的两组直接采用t检验,这样即使得出结果也未必正确** (3)关于常用的设计方法:多组资料尽管最终分析都是采用方差分析,但不同设计会有差别。常用的设计如完全随即设计,随机区组设计,析因设计,裂区设计,嵌套设计等。 2.分类资料

统计学原理例题分析及综合练习

统计学原理例题分析及综合练习 第一部分例题分析 一、判断 1.社会经济统计工作的研究对象是社会经济现象总体的数量方面。【√】 2.全面调查包括普查和统计报表。【×】 3.统计分组的关键是确定组限和组距。【×】 4.变异指标和平均指标从不同侧面反映了总体的特征,因而变异指标的数值越大则平均指标的代表性越高,反之平均指标的代表性越低。【×】 5.抽样极限误差总是大于抽样平均误差。【×】 6.根据样本各单位标志值或标志属性计算的综合指标称为统计量(样本指标)。【√】7.(甲)某产品产量与单位成本的相关系数是-0.8:(乙)产品单位成本与利润率的相关系数是-0. 95;因此,(乙)比(甲)的相关程度高。【√】 8.已知:工资(元)倚劳动生产率(千元)的回归方程为:y。=10+80x因此,当劳动生产率每增长1千元,工资就平均增加90元。【×】 9.在综合指数中,要求其同度量因素必须固定在同一时期。【√】 10.某产品产量在一段时间内发展变化的速度,平均来说是增长的,因此该产品产量的环比增长速度也是年年上升的。【×】 11.已知各期环比增长速度为3%、2%、7%和5%,则相应的定基增长速度的计算方法为【103%×102%×107%×105%】 -100%。【√】二、单选1.设某地区有670家工业企业,要研究这些企业的产品生产情况,总体单位是【C.每一件产品】。 2.对一个统计总体而言【D.可以有多个指标】。 3.在某班学生学习情况调查中【C.全班平均成绩是指标】。 4.全面调查与非全面调查的划分是以【C.调查对象所包括的单位是否完全来划分的】。 5.全国工业企业设备普查,全国每个工业企业是【D.填报单位】。 6.下列分组中哪个是按品质标志分组【B.半成品按品种分组】。 7.某市场销售洗衣机,2009年共销售60000台,年底库存50台。这两个指标是【C.前者是时期指标,后者是时点指标】。 8.反映抽样指标与总体指标之间可允许的误差范围的指标是【B.抽样极限误差】。 9.当所有的观察值y都落在直线yc=a+bx上时,则x与y之间的相关系数为【B.γ=1】。 10.某工厂今年一季度同去年一季度相比,产量提高了5%,产值增长了15%,则产品价格提高了【B.9.5%】。 11.某企业第一、第二季度和下半年的原材料平均库存额分别为l0万元、15万元和20万元,则全年平均库存额为【B.16. 25万元】。 三、多选 1.总体单位是总体的基本组成单位,是标志的直接承担者。因此【A.在国营企业这个总体下,每个国营企业就是总体单位 D.在全部工业产品这个总体下,每一个工业产品就是总体单位】 2.在全国人口普查中【B.每个人是总体单位 C.年龄是变量 E.具有大专以上文化程度的人数是指标】 3.有三个学生,其统计学原理成绩分别是60分、70分、80分。这三个数字是【C.数量标志表现 D.标志值 E.变量值】 4.要了解某市商业企业经营状况,则统计指标是【A.该市商业企业个数 B.该市商业职工数 D.该市商业企业销售额】 5.在对工业企业生产设备的调查中【B.工业企业的全部生产设备是调查对象 C.每台生产设备是调查单位 E.每个工业企业是填报单位】 6.在统计调查中【C.调查时限是调查工作起止的期限 D.抽样调查与典型调查的根本区

相关文档
最新文档