统计案例分析及典型例题

统计案例分析及典型例题
统计案例分析及典型例题

统计案例分析及典型例题

§11.1 抽样方法

1.为了了解所加工的一批零件的长度,抽取其中200个零件并测量了其长度,在这个问题中,总体的一个样本是 . 答案 200个零件的长度

2.某城区有农民、工人、知识分子家庭共计2 004户,其中农民家庭1 600户,工人家庭303户,现要从中抽取容量为40的样本,则在整个抽样过程中,可以用到下列抽样方法:①简单随机抽样,②系统抽样,③分层抽样中的 . 答案 ①②③

3.某企业共有职工150人,其中高级职称15人,中级职称45人,初级职称90人.现采用分层抽样抽取容量为30的样本,则抽取的各职称的人数分别为 . 答案 3,9,18

4.某工厂生产A 、B 、C 三种不同型号的产品,其相应产品数量之比为2∶3∶5,现用分层抽样方法抽出一个容量为n 的样本,样本中A 型号产品有16件,那么此样本的容量n = . 答案 80

例1 某大学为了支援我国西部教育事业,决定从2007应届毕业生报名的18名志愿者中,选取6人组成志愿小组.请

用抽签法和随机数表法设计抽样方案. 解 抽签法:

第一步:将18名志愿者编号,编号为1,2,3, (18)

第二步:将18个号码分别写在18张外形完全相同的纸条上,并揉成团,制成号签; 第三步:将18个号签放入一个不透明的盒子里,充分搅匀; 第四步:从盒子中逐个抽取6个号签,并记录上面的编号; 第五步:所得号码对应的志愿者,就是志愿小组的成员

.

基础自测

随机数表法:

第一步:将18名志愿者编号,编号为01,02,03, (18)

第二步:在随机数表中任选一数作为开始,按任意方向读数,比如第8行第29列的数7开始,向右读;

第三步:从数7开始,向右读,每次取两位,凡不在01—18中的数,或已读过的数,都跳过去不作记录,依次可得到12,07,15,13,02,09.

第四步:找出以上号码对应的志愿者,就是志愿小组的成员.

例2 某工厂有1 003名工人,从中抽取10人参加体检,试用系统抽样进行具体实施. 解 (1)将每个人随机编一个号由0001至1003. (2)利用随机数法找到3个号将这3名工人剔除. (3)将剩余的1 000名工人重新随机编号由0001至1000. (4)分段,取间隔k =

10

000

1=100将总体均分为10段,每段含100个工人.

(5)从第一段即为0001号到0100号中随机抽取一个号l .

(6)按编号将l ,100+l ,200+l ,…,900+l 共10个号码选出,这10个号码所对应的工人组成样本. 例3 (14分)某一个地区共有5个乡镇,人口3万人,其中人口比例为3∶2∶5∶2∶3,从3万人中抽取一个300人

的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法?并写出具体过程.

解 应采取分层抽样的方法.

3分

过程如下:

(1)将3万人分为五层,其中一个乡镇为一层.

5分

(2)按照样本容量的比例随机抽取各乡镇应抽取的样本. 300×153=60(人);300×

15

2

=40(人); 300×155=100(人);300×15

2=40(人); 300×

15

3=60(人),

10分

因此各乡镇抽取人数分别为60人,40人,100人,40人,60人.

12分

(3)将300人组到一起即得到一个样本.

14分

练习:

一、填空题

1.(安庆模拟)某校高中生共有900人,其中高一年级300人,高二年级200人,高三年级400人,现分层抽取容量为45的样本,那么高一、高二、高三年级抽取的人数分别为 .

答案15,10,20

2.某牛奶生产线上每隔30分钟抽取一袋进行检验,则该抽样方法为①;从某中学的30名数学爱好者中抽取3人了解学习负担情况,则该抽样方法为②.那么①,②分别为 .

答案系统抽样,简单随机抽样

3.下列抽样实验中,最适宜用系统抽样的是(填序号).

①某市的4个区共有2 000名学生,且4个区的学生人数之比为3∶2∶8∶2,从中抽取200人入样

②某厂生产的2 000个电子元件中随机抽取5个入样

③从某厂生产的2 000个电子元件中随机抽取200个入样

④从某厂生产的20个电子元件中随机抽取5个入样

答案③

4.(2013·重庆文)某校高三年级有男生500人,女生400人,为了解该年级学生的健康情况,从男生中任意抽取25人,从女生中任意抽取20人进行调查,这种抽样方法是 .

答案分层抽样法

5.某中学有高一学生400人,高二学生300人,高三学生200人,学校团委欲用分层抽样的方法抽取18名学生进行问卷调查,则下列判断不正确的是(填序号).

①高一学生被抽到的概率最大

②高三学生被抽到的概率最大

③高三学生被抽到的概率最小

④每名学生被抽到的概率相等

答案①②③

6.某商场有四类食品,其中粮食类、植物油类、动物性食品类及果蔬类分别有40种、10种、30种、20种,现从中抽取一个容量为20的样本进行食品安全检测,若采用分层抽样的方法抽取样本,则抽取的植物油类与果蔬类食品种数之和是 .

答案 6

7.(天津文,11)一个单位共有职工200人,其中不超过45岁的有120人,超过45岁的有80人.为了调查职工的健康状况,用分层抽样的方法从全体职工中抽取一个容量为25的样本,应抽取超过45岁的职工人.

答案10

8.将参加数学竞赛的1 000名学生编号如下0001,0002,0003,…,1000,打算从中抽取一个容量为50的样本,按系统抽样的方法分成50个部分,如果第一部分编号为0001,0002,…,0020,从第一部分随机抽取一个号码为0015,则第40个号码为 . 答案 0795

9.某政府机关有在编人员100人,其中副处级以上干部10人,一般干部70人,工人20人,上级机关为了了解政府机构改革意见,要从中抽取一个容量为20的样本,试确定用何种方法抽取,如何抽取? 解 用分层抽样抽取. (1)∵20∶100=1∶5, ∴5

10=2,5

70=14,5

20=4

∴从副处级以上干部中抽取2人,一般干部中抽取14人,从工人中抽取4人.

(2)因副处级以上干部与工人人数较少,可用抽签法从中分别抽取2人和4人;对一般干部可用随机数表法抽取14人.

(3)将2人、4人、14人编号汇合在一起就得到了容量为20的样本.

10.某单位有工程师6人,技术员12人,技工18人,要从这些人中抽取一个容量为n 的样本.如果采用系统抽样法和分层抽样法抽取,不用剔除个体;如果样本容量增加一个,则在采用系统抽样时,需要在总体中先剔除1个个体,求样本容量n .

解 总体容量为6+12+18=36.当样本容量是n 时,由题意知,系统抽样的间隔为n

36,分层抽样的比例

36

n ,抽取工程师

36

n ×6=6n (人),

抽取技术人员36

n ×12=3

n (人),

抽取技工

36

n

×18=2

n (人).

所以n 应是6的倍数,36的约数即n =6,12,18,36.

当样本容量为(n +1)时,在总体中剔除1人后还剩35人,系统抽样的间隔为1

35

+n ,因为

1

35+n 必须是

整数,所以n 只能取6,即样本容量为6.

总体分布的估计与总体特征数的估计

基础自测

1.一个容量为20的样本,已知某组的频率为0.25,则该组的频数为 . 答案 5

2.(2008·山东理)右图是根据《山东统计年鉴2007》中的资料作成的1997年至2006年我省城镇居民百户家庭人口数的茎叶图.图中左边的数字从左到右分别表示城镇居民百户家庭人口数的百位数字和十位数字,右边的数字表示城镇居民百户家庭人口数的个位数字.从图中可以得到1997年至2006年我省城镇居民百户家庭人口数的平均数为 . 答案 30

3.6

3.在抽查产品的尺寸过程中,将其尺寸分成若干组,[a ,b )是其中的一组,抽查出的个体在该组上的频率为m ,该组在频率分布直方图的高为h ,则|a -b |= . 答案 h

m

4.(2008·山东文,9)从某项综合能力测试中抽取100人的成绩,统计如表,则这100人成绩的标准差为 .

答案 5

10

2

5.为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为17.5岁~18岁的男生体重(kg ),得到频率分布直方图如下:

根据上图可得这100名学生中体重在[56.5,64.5)的学生人数是 . 答案 40

典型例题:

例1 在学校开展的综合实践活动中,某班进行了小制作评比,作品上交时间

为5月1日至30日,评委会把同学们上交 作品的件数按5天一组分组统计,绘制了频率分布直方图(如图所示),已知从左到右各长方形高的比为2∶3∶4∶6∶4∶1,第三组的频数为12,请解答下列问题:

(1)本次活动共有多少件作品参加评比? (2)哪组上交的作品数量最多?有多少件?

(3)经过评比,第四组和第六组分别有10件、2件作品获奖,问这两组哪组获奖率高? 解 (1)第三组的频率为1464324

+++++=5

1

又因为第三组的频数为12,∴参评作品数为5

112=60.

(2)根据频率分布直方图,可以看出第四组上交的作品数量最多,共有60×1

464326

+++++=18(件).

(3)第四组的获奖率是18

10=9

5,第六组上交的作品数量为60×

1

464321

+++++=3(件),

∴第六组的获奖率为3

2=9

6,显然第六组的获奖率高.

例4(14分)某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30 min 抽取一包产品,称其重量,分别 记录抽查数据如下: 甲:102, 101, 99, 98, 103, 98,

99;

乙:110, 115, 90,

85,

75,

115, 110.

(1)这种抽样方法是哪一种? (2)将这两组数据用茎叶图表示;

(3)将两组数据比较,说明哪个车间产品较稳定. 解 (1)因为间隔时间相同,故是系统抽样. 2分

(2)茎叶图如下:

5分

(3)甲车间: 平均值:

1x =

7

1(102+101+99+98+103+98+99)=100,

7分

方差:s 12=7

1[(102-100)2+(101-100)2+…+(99-100)2]≈3.428 6.

9分

乙车间:

平均值:2x =71(110+115+90+85+75+115+110)=100,

11分

方差:s 22=7

1[(110-100)2+(115-100)2+…+(110-100)2]≈228.571 4.

13分

∵1x =2x ,s 12<s 22,∴甲车间产品稳定.

14分

练习:

1.为了了解小学生的体能情况,抽取了某小学同年级部分学生进行跳绳测试,将所得数据整理后,画出频率分布直方图如图所示,已知图中从左到右前三个小组的频率分别是0.1,0.3,0.4,第一小组的频数为5.

(1)求第四小组的频率;

(2)参加这次测试的学生人数是多少?

(3)在这次测试中,学生跳绳次数的中位数落在第几小组内? 解 (1)第四小组的频率=1-(0.1+0.3+0.4)=0.2. (2)设参加这次测试的学生人数是n , 则有n =第一小组频率

第一小组频数=5÷0.1=50(人).

(3)因为0.1×50=5,0.3×50=15,0.4×50=20,0.2×50=10,即第一、第二、第三、第四小组的频数分别为5、15、20、10,所以学生跳绳次数的中位数落在第三小组内. 练习:

一、填空题

1.下列关于频率分布直方图的说法中不正确的是 .

①直方图的高表示取某数的频率

②直方图的高表示该组上的个体在样本中出现的频率 ③直方图的高表示该组上的个体数与组距的比值

④直方图的高表示该组上的个体在样本中出现的频率与组距的比值 答案 ①②③

2.甲、乙两名新兵在同样条件下进行射击练习,每人打5发子弹,命中环数如下:甲:6,8,9,9,8;乙:10,7,7,7,9.则这两人的射击成绩 比 稳定. 答案 甲 乙

4.某班50名学生在一次百米测试中,成绩全部介于13秒与19秒之间,将测试结果分

成六组:右图是得到的频率分布直方图.

设成绩小于17秒的学生人数占全班总人数的百分比为x ,成绩大于等于15秒且小于17秒的学生人数为y ,则从频率分布直方图中可分析出x 和y 分别为 . 答案 0.9, 35

6.甲、乙两名同学在5次体育测试中的成绩统计的茎叶图如图所示,若甲、乙两人的

平均成绩

分别是x 甲、x 乙,则x 甲 x 乙, 比 稳定. 答案 < 乙 甲

7.(上海,9)已知总体的各个体的值由小到大依次为2,3,3,7,a ,b ,12,13.7,18.3,20,且总体的中位数为10.5.若要使该总体的方差最小,则a 、b 的取值分别是 . 答案 10.5、10.5

二、解答题

10.为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图所示),图中从左到右各小长方形面积之比为2∶4∶17∶15∶9∶3,第二小组频数为12.

(1)第二小组的频率是多少?样本容量是多少?

(2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少? (3)在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由. 解 (1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小, 因此第二小组的频率为:

3

91517424

+++++=0.08.

又因为频率=样本容量

第二小组频数,

所以样本容量=第二小组频率第二小组频数=

08

.012

=150. (2)由图可估计该学校高一学生的达标率约为

3

91517423

91517++++++++×100%=88%.

(3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内.

线性回归方程

1.下列关系中,是相关关系的为 (填序号). ①学生的学习态度与学习成绩之间的关系; ②教师的执教水平与学生的学习成绩之间的关系; ③学生的身高与学生的学习成绩之间的关系; ④家庭的经济条件与学生的学习成绩之间的关系. 答案 ①②

2.为了考察两个变量x 、y 之间的线性相关关系,甲、乙两同学各自独立地做10次和15次试验,并利用最小二乘法求得回归直线分别为l 1和l 2.已知在两人的试验中发现变量x

的观测数据的平均值恰好

基础自测

相等,都为s,变量y的观测数据的平均值也恰好相等,都为t,那么下列说法中正确的是(填序号).

①直线l

1,l

2

有交点(s,t)

②直线l

1,l

2

相交,但是交点未必是(s,t)

③直线l

1,l

2

由于斜率相等,所以必定平行

④直线l

1,l

2

必定重合

答案①

3.下列有关线性回归的说法,正确的是(填序号).

①相关关系的两个变量不一定是因果关系

②散点图能直观地反映数据的相关程度

③回归直线最能代表线性相关的两个变量之间的关系

④任一组数据都有回归直线方程

答案①②③

4.下列命题:

①线性回归方法就是由样本点去寻找一条贴近这些样本点的直线的数学方法;

②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;

③通过回归直线y?=b?x+a?及回归系数b?,可以估计和预测变量的取值和变化趋势.

其中正确命题的序号是 .

答案①②③

5.已知回归方程为y?=0.50x-0.81,则x=25时,y?的估计值为 .

答案11.69

例1下面是水稻产量与施化肥量的一组观测数据:

施化肥量15 20 25 30 35 40 45

水稻产量320 330 360 410 460 470 480

(1)将上述数据制成散点图;

(2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水稻产量会一直随施化肥量的增加而增长吗?

解(1)散点图如下:

(2)从图中可以发现施化肥量与水稻产量具有线性相关关系,当施化肥量由小到大变化时,水稻产量由小变大,图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系,但水稻产量只是在一定范围内随着化 肥施用量的增加而增长.

例2 (14分)随着我国经济的快速发展,城乡居民的生活水平不断提高,为研究某市家庭平均收入与月平均生活支出

的关系,该市统计部门随机调查了10个家庭,得数据如下:

(1)判断家庭平均收入与月平均生活支出是否相关? (2)若二者线性相关,求回归直线方程. 解 (1)作出散点图:

5分

观察发现各个数据对应的点都在一条直线附近,所以二者呈线性相关关系. 7分

(2)x =

10

1 (0.8+1.1+1.3+1.5+1.5+1.8+2.0+2.2+2.4+2.8)=1.74,

y

=

10

1(0.7+1.0+1.2+1.0+1.3+1.5+1.3+1.7+2.0+2.5)=1.42,

9分

b

?=∑∑==-?-n

i i

n

i i i x n x

y

x n y x 1

2

21

≈0.813 6,

a

?=1.42-1.74×0.813 6≈0.004 3,

13分

∴回归方程y ?=0.813 6x +0.004 3. 14分

例3 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨)标准煤的几组对照数据.

(1)请画出上表数据的散点图;

(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y

?=b ?x +a ?; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解 (1)散点图如下图:

(2)x =4

6543+++=4.5,y =4

5.4435.2+++=3.5

∑=4

1i i

i y

x =3×2.5+4×3+4×5+6×4.5=66.5.

∑=4

1

2

i i

x

=32+42+52+62=86

∴b

?=2

4

1

24

1

44x x y

x y

x i i i i

i -?-∑

∑===25

.44865.45.345.66?-??-=0.7

a

? =y -b

?x =3.5-0.7×4.5=0.35. ∴所求的线性回归方程为y

?=0.7x +0.35. (3)现在生产100吨甲产品用煤

y =0.7×100+0.35=70.35,

∴降低90-70.35=19.65(吨)标准煤.

1.科研人员为了全面掌握棉花新品种的生产情况,查看了气象局对该地区年降雨量与年平均气温的统计数据(单位分别是mm,℃),并作了统计.

(1)试画出散点图;

(2

)判断两个变量是否具有相关关系. 解 (1)作出散点图如图所示,

(2)由散点图可知,各点并不在一条直线附近,所以两个变量是非线性相关关系.

2.在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如下:

由资料看y 与x 呈线性相关,试求回归方程. 解 x =30,y =5

0.1283.1120.850.767.66++++=93.6.

b

?=2

5

1

25

1

55x x

y

x y

x i i

i i

i -?-∑∑==≈0.880 9.

a

?=y -b

?x =93.6-0.880 9×30=67.173. ∴回归方程为y

?=0.880 9x +67.173.

3.某企业上半年产品产量与单位成本资料如下:

(1)求出线性回归方程;

(2)指出产量每增加1 000件时,单位成本平均变动多少? (3)假定产量为6 000件时,单位成本为多少元? 解 (1)n =6,∑=6

1

i i x =21,∑=6

1

i i y =426,x =3.5,y =71,

=6

1

2

i i x =79,∑=6

1

i i i y x =1 481,

b

?=2

6

1

26

1

66x

x y

x y

x i i i i

i -?-∑

∑===2

5

.3679715.364811

?-??-=-1.82.

a

?=y -b

?x =71+1.82×3.5=77.37. 回归方程为y

?=a ?+b ?x =77.37-1.82x . (2)因为单位成本平均变动b

?=-1.82<0,且产量x 的计量单位是千件,所以根据回归系数b 的意义有: 产量每增加一个单位即1 000件时,单位成本平均减少1.82元. (3)当产量为6 000件时,即x =6,代入回归方程:

y

?=77.37-1.82×6=66.45(元)

当产量为6 000件时,单位成本为66.45元.

一、填空题

1.观察下列散点图,则①正相关;②负相关;③不相关.它们的排列顺序与图形对应顺序是

.

答案 a ,c ,b

2.回归方程y

?=1.5x -15,则下列说法正确的有 个. ①y =1.5x -15 ②15是回归系数a ③1.5是回归系数a ④x =10时,y =0 答案 1

3.(2009.湛江模拟)某地区调查了2~9岁儿童的身高,由此建立的身高y (cm)与年龄x (岁)的回归模

型为y

?=8.25x +60.13,下列叙述正确的是 . ①该地区一个10岁儿童的身高为142.63 cm ②该地区2~9岁的儿童每年身高约增加8.25 cm ③该地区9岁儿童的平均身高是134.38 cm

④利用这个模型可以准确地预算该地区每个2~9岁儿童的身高 答案 ②

4.三点(3,10),(7,20),(11,24)的回归方程是 .

答案 y

?=1.75x +5.75 5.某人对一地区人均工资x (千元)与该地区人均消费y (千元)进行统计调查,y 与x 有相关关系,得到

回归直线方程y

?=0.66x +1.562.若该地区的人均消费水平为7.675千元,估计该地区的人均消费额占人均工资收入的百分比约为 . 答案 83%

6.某化工厂为预测产品的回收率y ,需要研究它和原料有效成分含量x 之间的相关关系,现取8对观测值,计算,得∑=8

1

i i x =52, ∑=8

1

i i y =228, ∑

=8

1

2

i i x =478, ∑=8

1

i i i y x =1 849,则其线性回归方程为 .

答案 y

?=11.47+2.62x 7.有下列关系:①人的年龄与他(她)拥有的财富之间的关系;②曲线上的点与该点的坐标之间的关系;

③苹果的产量与气候之间的关系;④森林中的同一种树木,其断面直径与高度之间的关系.其中,具有相关关系的是 . 答案 ①③④

8.已知关于某设备的使用年限x 与所支出的维修费用y (万元),有如下统计资料:

若y 对x 呈线性相关关系,则回归直线方程y

?=b ?x +a ?表示的直线一定过定点 . 答案 (4,5) 二、解答题

9.期中考试结束后,记录了5名同学的数学和物理成绩,如下表:

(1)数学成绩和物理成绩具有相关关系吗?

(2)请你画出两科成绩的散点图,结合散点图,认识(1

)的结论的特点. 解 (1)数学成绩和物理成绩具有相关关系.

(2)以x 轴表示数学成绩,y 轴表示物理成绩,可得相应的散点图如下:

由散点图可以看出,物理成绩和数学成绩对应的点不分散,大致分布在一条直线附近. 10.以下是某地搜集到的新房屋的销售价格y 和房屋的面积x 的数据:

(1)画出数据对应的散点图;

(2)求线性回归方程,并在散点图中加上回归直线. 解 (1)数据对应的散点图如图所示:

(2)x =109,y =23.2,∑=5

12i i x =60 975,

∑=5

1

i i

i

y x

=12 952,

b

?=2

5

1

25

1

55x x

y

x y

x i i

i i

i -?-∑∑==≈0.196 2

a

?=y -b

?x ≈1.814 2 ∴所求回归直线方程为

y

?=0.196 2x +1.814 2.

11.某公司利润y 与销售总额x (单位:千万元)之间有如下对应数据:

(1)画出散点图; (2)求回归直线方程;

(3)估计销售总额为24千万元时的利润. 解 (1)散点图如图所示:

(2)x =7

1(10+15+17+20+25+28+32)=21,

y

=7

1(1+1.3+1.8+2+2.6+2.7+3.3)=2.1,

=7

12

i i x =102+152+172+202+252+282+322=3 447,

∑=7

1

i i

i

y x

=10×1+15×1.3+17×1.8+20×2+25×2.6+28×2.7+32×3.3=346.3,

b

?=2

7

1

27

1

77x x y

x y

x i i i i

i -?-∑

∑===2

21

744731

.22173.346?-??-≈0.104, a

?=y -b

?x =2.1-0.104×21=-0.084, ∴y

?=0.104x -0.084. (3)把x =24(千万元)代入方程得,

y

?=2.412(千万元).

∴估计销售总额为24千万元时,利润为2.412千万元.

12.某种产品的广告费支出x 与销售额y (单位:百万元)之间有如下对应数据:

(1)画出散点图; (2)求回归直线方程;

(3)试预测广告费支出为10百万元时,销售额多大? 解 (1)根据表中所列数据可得散点图如下:

(2)列出下表,并用科学计算器进行有关计算:

因此,x =5

25=5,y =5

250 =50,

=5

1

2

i i x =145, ∑

=5

1

2

i i y =13 500, ∑=5

1

i i i y x =1 380.

于是可得:b

?=2

5

1

25

1

55x x

y

x y

x i i

i i

i -?-∑∑===5

5514550553801

??-??

-=6.5;

a

?=y -b

?x =50-6.5×5=17.5. 因此,所求回归直线方程为:y

?=6.5x +17.5. (3)根据上面求得的回归直线方程,当广告费支出为10百万元时,y

?=6.5×10+17.5=82.5(百万元),即这种产品的销售收入大约为82.5百万元.

§11.4 统计案例

1.对有线性相关关系的两个变量建立的回归直线方程y ?=a ?+b ?x 中,回归系数b

?与0的大小关系为 .(填序号) ①大于或小于 ②大于

③小于 ④不小于

答案 ①

2.如果有90%的把握说事件A 和B 有关系,那么具体计算出的数据χ2 2.706.(用“>”,“<”,“=”填空) 答案 >

3.对两个变量y 与x 进行回归分析,分别选择不同的模型,它们的相关系数r 如下,其中拟合效果最好的模型是 .

基础自测

①模型Ⅰ的相关系数r 为0.98 ②模型Ⅱ的相关系数r 为0.80 ③模型Ⅲ的相关系数r 为0.50 ④模型Ⅳ的相关系数r 为0.25 答案 ①

4.下列说法中正确的有:①若r >0,则x 增大时,y 也相应增大;②若r <0,则x 增大时,y 也相应增大;③若r =1或r =-1,则x 与y 的关系完全对应(有函数关系),在散点图上各个点均在一条直线上 . 答案 ①③

例1 (14分)调查339名50岁以上人的吸烟习惯与患慢性气管炎的情况,获数据如下:

试问:(1)吸烟习惯与患慢性气管炎是否有关? (2)用假设检验的思想给予证明. (1)解 根据列联表的数据,得到

χ

2

=

)

)()()(()(2

c d b d c a b a bc ad n ++++-

2分 =134

28356205)1316212143(3392

????-??=7.469>6.635

6分 所以有99%的把握认为“吸烟与患慢性气管炎有关”.

9分

(2)证明 假设“吸烟与患慢性气管炎之间没有关系”,由于事件A ={χ2≥6.635}≈0.01,即A 为小概率事件,而小概率事件发生了,进而得假设错误,这种推断出错的可能性约有1%.

14分

例2 一台机器使用时间较长,但还可以使用.它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有 缺点零件的多少,随机器运转的速度而变化,下表为抽样试验结果:

2016-2018年高级统计师高级统计实务与案例分析试卷考试真题

2016年高级统计师高级统计实务与案例分析试卷考试真题 1.本试卷有两部分,共8道题,满分150分。其中第一部分为必答题,共6道题,满分130分;第二部分为选答题,要求选答1道题,若多答,评卷时只对前1道答题打分,满分20分。 2.在你拿到试卷的同时将得到一份专用答题卡,所有试题务必在专用答题卡上作答,在试卷或草稿纸上作答不得分。 3.用铅笔填涂答题卡首页的准考证号;答题以及需要填写姓名、准考证号码的地方用黑色签字笔书写。 4.答题时请认真阅读试题,对准题号作答。 第一部分必答题 第一题(25分) 简述当前开展“三新”(新产业、新业态、新商业模式)统计的意义。 第二题(20分) 简述国民经济核算中的基本总量指标及其平衡关系。 第三题(25分) 某地有三家工业企业A、B、C,共属于同一家集团公司,A企业为该集团公司的核心企业。2016年2月,政府统计机构没有在规定时间收到三家企业的统计报表,向三家企业分别发出要求其补报有关统计资料的催报单。A企业汇总三家企业的生产经营情况后,在催报期限内,以A企业的名义将三家企业的生产经营情况一并予以上报;B企业在催报期限内补报了本企业的统计报表,但经核查,统计报表中有多项统计指标没有填写;C企业认为A企业已经将本企业情况一并打捆上报,因此没有补报本企业的统计报表。请回答:(1)该案例中三家企业是否都存在违法行为?分别是哪些统计违法行为? (2)应当如何处罚? 第四题(20分) 阐述抽样调查中可能产生的误差,并结合实际提出控制误差的建议。 第五题(20分) 解释人口老龄化的概念,并结合表中数据分析该地区人口老龄化的状况及可能产生的影响。 第六题(20分) 根据下图简要分析我国近年经济发展的基本特征。

典型相关分析及其应用实例

摘要 典型相关分析是多元统计分析的一个重要研究课题.它是研究两组变量之间相关的一种统计分析方法,能够有效地揭示两组变量之间的相互线性依赖关系.它借助主成分分析降维的思想,用少数几对综合变量来反映两组变量间的线性相关性质.目前它已经在众多领域的相关分析和预测分析中得到广泛应用. 本文首先描述了典型相关分析的统计思想,定义了总体典型相关变量及典型相关系数,并简要概述了它们的求解思路,然后深入对样本典型相关分析的几种算法做了比较全面的论述.根据典型相关分析的推理,归纳总结了它的一些重要性质并给出了证明,接着推导了典型相关系数的显著性检验.最后通过理论与实例分析两个层面论证了典型相关分析的应用于实际生活中的可行性与优越性. 【关键词】典型相关分析,样本典型相关,性质,实际应用

ABSTRACT The Canonical Correlation Analysis is an important studying topic of the Multivariate Statistical Analysis. It is the statistical analysis method which studies the correlation between two sets of variables. It can work to reveal the mutual line dependence relation availably between two sets of variables. With the help of the thought about the Principal Components, we can use a few comprehensive variables to reflect the linear relationship between two sets of variables. Nowadays It has already been used widely in the correlation analysis and forecasted analysis. This text describes the statistical thought of the Canonical Correlation Analysis firstly, and then defines the total canonical correlation variables and canonical correlation coefficient, and sum up their solution method briefly. After it I go deep into discuss some algorithm of the sample canonical correlation analysis thoroughly. According to the reasoning of the Canonical Correlation Analysis, sum up some of its important properties and give the identification, following it, I infer the significance testing about the canonical correlation coefficient. According to the analysis from the theories and the application, we can achieve the possibility and the superiority from canonical correlation analysis in the real life. 【Key words】Canonical Correlation Analysis,Sample canonical correlation,Character,Practical applications

应用统计学案例——市场调查分析

市场调查分析案例 市场调查分析是市场调查的重要组成部分。通过市场调查收集到的原始资料,是处于一种零散、模糊、浅显的状态,只有经过进一步的处理和分析,才能使零散变为系统、模糊走向清晰、浅显发展为深刻,分析研究其规律性,达到正确认识社会现象目的,为准确的市场预测提供参考依据,最终为调查者正确决策提供有力的依据。 市场调查分析的原则:从全部事实出发,坚持事实求实的观点;全面分析问题,坚持一分为二的观点;必须从事物的相互联系,相互制约中分析问题; 市场调查分析方法:单变量统计量分析、单变量频数分析、多变量统计量分析、多变量频数分析、相关分析、聚类分析、判别分析、因子分析等。 案例:某市家用汽车消费情况调查分析案例 随着居民生活水平的提高,私车消费人群的职业层次正在从中高层管理人员和私营企业主向中层管理人员和一般职员转移,汽车正从少数人拥有的奢侈品转变为能够被更多普通家庭所接受的交通工具。了解该市家用汽车消费者的构成、消费者购买时对汽车的关注因素、消费者对汽车市场的满意程度等对汽车产业的发展具有重要意义。 本次调研活动中共发放问卷400份,回收有效问卷368份,根据整理资料分析如下。 一、消费者构成分析 1 、有车用户家庭月收入分析

5000元以上8.69 100.00 目前该市有车用户家庭月收入在2000?3000元间的最多;有车用户平均月收入为2914.55元,与该市民平均月收入相比,有车用户普遍属于收入较高人群。61.96%的有车用户月收入在3000元以下,属于高收入人群中的中低收入档次。因此,目前该市用户的需求一般是每辆10?15万元的经济车型。 2、有车用户家庭结构分析 表2: 有车用户家庭结构 Di nk家庭(double in come no kid ),即夫妻二人无小孩的家庭,占有车家 庭的比重大,为36.96%。其家庭收入较高,负担较轻、支付能力较强,文化层次高、观念前卫,因此Dink家庭成为有车族中最为重要的家庭结构模式。核心家庭,即夫妻二人加上小孩的家庭,比重为34.78%。核心家庭是当前社会中最普遍的家庭结构模式,因此比重较高不足为奇。联合家庭,即与父母同住的家庭, 仅有8.70%。单身族占17.39%,这部分人个人收入高,且时尚前卫,在有车用户中占据一定比重。另外已婚用户比重达到了81.5%,而未婚用户仅为18.5%。 3、有车用户职业分析 调查显示有29%勺消费者在企业工作,20%勺消费者是公务员,另外还有自由职业者、机关工作人员和教师等。目前企业单位的从业人员,包括私营业主、高级主管、白领阶层仍是最主要的汽车使用者。而自由职业者由于收入较高及其工作性质,也在有车族中占据了较 高比重。详见图1。

统计学计算例题及答案

计算题例题及答案: 1、某校社会学专业同学统计课成绩如下表所示。 社会学专业同学统计课成绩表 学号成绩学号成绩学号成绩101023 76 101037 75 101052 70 101024 91 101038 70 101053 88 101025 87 101039 76 101054 93 101026 78 101040 90 101055 62 101027 85 101041 76 101056 95 101028 96 101042 86 101057 95 101029 87 101043 97 101058 66 101030 86 101044 93 101059 82 101031 90 101045 92 101060 79 101032 91 101046 82 101061 76 101033 80 101047 80 101062 76 101034 81 101048 90 101063 68 101035 80 101049 88 101064 94 101036 83 101050 77 101065 83 要求: (1)对考试成绩按由低到高进行排序,求出众数、中位数和平均数。

(2)对考试成绩进行适当分组,编制频数分布表,并计算累计频数和累计频率。答案: (1)考试成绩由低到高排序: 62,66,68,70,70,75,76,76,76,76,76,77,78,79, 80,80,80,81,82,82,83,83,85,86,86,87,87,88, 88,90,90,90,91,91,92,93,93,94,95,95,96,97, 众数:76 中位数:83 平均数: =(62+66+……+96+97)÷42 =3490÷42 =83.095 (2) 按成绩 分组频数频率(%) 向上累积向下累积 频数频率(%) 频数频率(%) 60-69 3 7.143 3 7.143 42 100.000 70-79 11 26.190 14 33.333 39 92.857 80-89 15 35.714 29 69.048 28 66.667

概率与数理统计典型例题

《概率与数理统计》 第一章 随机事件与概率 典型例题 一、利用概率的性质、事件间的关系和运算律进行求解 1.设,,A B C 为三个事件,且()0.9,()0.97P A B P A B C ==U U U ,则()________.P AB C -= 2.设,A B 为两个任意事件,证明:1|()()()|.4 P AB P A P B -≤ 二、古典概型与几何概型的概率计算 1.袋中有a 个红球,b 个白球,现从袋中每次任取一球,取后不放回,试求第k 次 取到红球的概率.(a a b +) 2.从数字1,2,,9L 中可重复地任取n 次,试求所取的n 个数的乘积能被10整除的 概率.(58419n n n n +--) 3.50只铆钉随机地取来用在10个部件上,其中有3个铆钉强度太弱,每个部件用3只铆钉,若将3只强度太弱的铆钉都装在一个部件上,则这个部件强度就太 弱,从而成为不合格品,试求10个部件都是合格品的概率.(19591960 ) 4.掷n 颗骰子,求出现最大的点数为5的概率. 5.(配对问题)某人写了n 封信给不同的n 个人,并在n 个信封上写好了各人的地址,现在每个信封里随意地塞进一封信,试求至少有一封信放对了信封的概率. (01(1)! n k k k =-∑)

6.在线段AD上任取两点,B C,在,B C处折断而得三条线段,求“这三条线段能构成三角形”的概率.(0.25) 7.从(0,1)中任取两个数,试求这两个数之和小于1,且其积小于 3 16 的概率. (13 ln3 416 +) 三、事件独立性 1.设事件A与B独立,且两个事件仅发生一个的概率都是 3 16 ,试求() P A. 2.甲、乙两人轮流投篮,甲先投,且甲每轮只投一次,而乙每轮可投两次,先投 中者为胜.已知甲、乙每次投篮的命中率分别为p和1 3 .(1)求甲取胜的概率; (2)p求何值时,甲、乙两人的胜负概率相同?( 95 ; 5414 p p p = + ) 四、条件概率与积事件概率的计算 1.已知10件产品中有2件次品,现从中取产品两次,每次取一件,去后不放回,求下列事件的概率:(1)两次均取到正品;(2)在第一次取到正品的条件下第二次取到正品;(3)第二次取到正品;(4)两次中恰有一次取到正品;(5)两次中 至少有一次取到正品.(28741644 ;;;; 45954545 ) 2.某人忘记了电话号码的最后一个数字,因而他随意地拨号,假设拨过了的数字不再重复,试求下列事件的概率:(1)拨号不超过3次而接通电话;(2)第3次拨号才接通电话.(0.3;0.1) 五、全概率公式和贝叶斯公式概型 1.假设有两箱同种零件:第一箱内装50件,其中10件为一等品;第二箱内装30件,其中18件为一等品,现从两箱中随意挑选出一箱,然后从该箱中先后随机取出两个零件(取出的零件均不放回),试求:(1)先取出的零件是一等品的概率;(2)在先取出的零件是一等品的条件下,第二次取出的零件仍然是一等品 的概率.(2690 ; 51421 ) 2.有100个零件,其中90个一等品,10个二等品,随机地取2个,安装在一台设备上,若2个零件中有i个(0,1,2 i=)二等品,则该设备的使用寿命服从参

统计案例分析典型例题

统计案例分析及典型例题 §抽样方法 1.为了了解所加工的一批零件的长度,抽取其中200个零件并测量了其长度,在这个问题中,总体的一个样本是 . 答案 200个零件的长度 2.某城区有农民、工人、知识分子家庭共计2 004户,其中农民家庭1 600户,工人家庭303户,现要从中抽取容量为40的样本,则在整个抽样过程中,可以用到下列抽样方法:①简单随机抽样,②系统抽样,③分层抽样中的 . 答案①②③ 3.某企业共有职工150人,其中高级职称15人,中级职称45人,初级职称90人.现采用分层抽样抽取容量为30的样本,则抽取的各职称的人数分别为 . 答案3,9,18 4.某工厂生产A、B、C三种不同型号的产品,其相应产品数量之比为2∶3∶5,现用分层抽样方法抽出一个容量为n的样本,样本中A型号产品有16件,那么此样本的容量n= . 答案80 例1某大学为了支援我国西部教育事业,决定从2007应届毕业生报名的18名志愿者中,选取6人组成志愿小组.请 用抽签法和随机数表法设计抽样方案. 解抽签法: 第一步:将18名志愿者编号,编号为1,2,3, (18) 第二步:将18个号码分别写在18张外形完全相同的纸条上,并揉成团,制成号签; 第三步:将18个号签放入一个不透明的盒子里,充分搅匀; 第四步:从盒子中逐个抽取6个号签,并记录上面的编号; 基础自测

第五步:所得号码对应的志愿者,就是志愿小组的成员. 随机数表法: 第一步:将18名志愿者编号,编号为01,02,03, (18) 第二步:在随机数表中任选一数作为开始,按任意方向读数,比如第8行第29列的数7开始,向右读; 第三步:从数7开始,向右读,每次取两位,凡不在01—18中的数,或已读过的数,都跳过去不作记录,依次可得到12,07,15,13,02,09. 第四步:找出以上号码对应的志愿者,就是志愿小组的成员. 例2 某工厂有1 003名工人,从中抽取10人参加体检,试用系统抽样进行具体实施. 解 (1)将每个人随机编一个号由0001至1003. (2)利用随机数法找到3个号将这3名工人剔除. (3)将剩余的1 000名工人重新随机编号由0001至1000. (4)分段,取间隔k= 10 0001=100将总体均分为10段,每段含100个工人. (5)从第一段即为0001号到0100号中随机抽取一个号l. (6)按编号将l ,100+l ,200+l,…,900+l 共10个号码选出,这10个号码所对应的工人组成样本. 例3 (14分)某一个地区共有5个乡镇,人口3万人,其中人口比例为3∶2∶5∶2∶3,从3万人中抽取一个300人 的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法并写出具体过程. 解 应采取分层抽样的方法. 3分 过程如下: (1)将3万人分为五层,其中一个乡镇为一层. 5分 (2)按照样本容量的比例随机抽取各乡镇应抽取的样本. 300×153=60(人);300× 15 2 =40(人); 300×155=100(人);300×15 2=40(人); 300× 15 3=60(人), 10分 因此各乡镇抽取人数分别为60人,40人,100人,40人,60人. 12分 (3)将300人组到一起即得到一个样本. 14分

统计学计算题答案..

第 1 页/共 12 页 1、下表是某保险公司160名推销员月销售额的分组数据。书p26 按销售额分组(千元) 人数(人) 向上累计频数 向下累计频数 12以下 6 6 160 12—14 13 19 154 14—16 29 48 141 16—18 36 84 112 18—20 25 109 76 20—22 17 126 51 22—24 14 140 34 24—26 9 149 20 26—28 7 156 11 28以上 4 160 4 合计 160 —— —— (1) 计算并填写表格中各行对应的向上累计频数; (2) 计算并填写表格中各行对应的向下累计频数; (3)确定该公司月销售额的中位数。 按上限公式计算:Me=U- =18-0.22=17,78 2、某厂工人按年龄分组资料如下:p41 工人按年龄分组(岁) 工人数(人) 20以下 160 20—25 150 25—30 105 30—35 45 35—40 40 40—45 30 45以上 20 合 计 550 要求:采用简捷法计算标准差。《简捷法》 3、试根据表中的资料计算某旅游胜地2004年平均旅游人数。P50 表:某旅游胜地旅游人数 时间 2004年1月1日 4月1日 7月1日 10月1日 2005年1月1 日 旅游人数(人) 5200 5000 5200 5400 5600 4、某大学2004年在册学生人数资料如表3-6所示,试计算该大学2004年平均在册学生人数. 时间 1月1日 3月1日 7月1日 9月1日 12月31日 在册学生人数(人) 3408 3528 3250 3590 3575

数理统计复习题第五章

第五章 大数定律与中心极限定理 一、 典型题解 例1设随机变量X 的数学期望()(){}2,3E X u D X X u σσ==-≥方差,求P 的大小区间。 解 令3εσ=,则有切比雪夫不等式有: ()() ()22 221 ,339D X P X E X P X E X σεσεσ????-≥≤ -≥≤=????有 例2在n 次独立试验中,设事件A 在第i 次试验中发生的概率为()1,2,....i p i n = 试证明:A 发生的频率稳定于概率的平均值。 证 设X 表示n 次试验中A 发生的次数,引入新的随机变量0i A X A ?=??1,发生? ,不发生 ()12,...i n =, ,则X 服从()01-分布,故 ()()(),1i i i i i i i E X p D X p p p q ==-=, 又因为 () ()2 2 4140i i i i i i i i p q p q p q p q -=+-=-≥, 所以 ()()1 1,2, (4) i i i D X p q i n =≤ = 由切比雪夫大数定理,对,o ε?>有()11lim 1n i i n i p X E X n ε→∞ =?? -<=???????? ∑ 即 11lim 1n i n i X p p n n ε→∞ =?? -<=???? ∑ 例 3 对于一个学生而言,来参加家长会的家长人数是一个随机变量,设一个学 生无家长,1名家长、2名家长来参加会议的概率分别为。若学校共有400名学生,设各学生参加会议的家长数相互独立,且服从同一分布。(1)求参加会议的家长数X 超过450的概率;(2)求有1名家长来参加会议的学生数不多于340的概率。 解(1)以()400,,2,1 =k X k 记第k 个学生来参加会议的家长数,则k X 的分布律为 k X 0 1 2 k P 0.05 0.8 0.15

统计学期末考试试题(含答案)

西安交大统计学考试试卷 一、单项选择题(每小题2分,共20分) 1.在企业统计中,下列统计标志中属于数量标志的是( C) A、文化程度 B、职业 C、月工资 D、行业 2.下列属于相对数的综合指标有(B ) A、国民收入 B、人均国民收入 C、国内生产净值 D、设备台数 3.有三个企业的年利润额分别是5000万元、8000万元和3900万元,则这句话中有( B)个变量 A、0个 B、两个 C、1个 D、3个 4.下列变量中属于连续型变量的是(A ) A、身高 B、产品件数 C、企业人数 D、产品品种 5.下列各项中,属于时点指标的有(A ) A、库存额 B、总收入 C、平均收入 D、人均收入 6.典型调查是(B )确定调查单位的 A、随机 B、主观 C、随意 D盲目 7.总体标准差未知时总体均值的假设检验要用到( A ): A、Z统计量 B、t统计量 C、统计量 D、X统计量 8. 把样本总体中全部单位数的集合称为(A ) A、样本 B、小总体 C、样本容量 D、总体容量 9.概率的取值范围是p(D ) A、大于1 B、大于-1 C、小于1 D、在0与1之间 10. 算术平均数的离差之和等于(A ) A、零 B、 1 C、-1 D、2 二、多项选择题(每小题2分,共10分。每题全部答对才给分,否则不计分) 1.数据的计量尺度包括( ABCD ): A、定类尺度 B、定序尺度 C、定距尺度 D、定比尺度 E、测量尺度 2.下列属于连续型变量的有( BE ): A、工人人数 B、商品销售额 C、商品库存额 D、商品库存量 E、总产值 3.测量变量离中趋势的指标有( ABE ) A、极差 B、平均差 C、几何平均数 D、众数 E、标准差 4.在工业企业的设备调查中( BDE ) A、工业企业是调查对象 B、工业企业的所有设备是调查对象 C、每台设备是 填报单位 D、每台设备是调查单位 E、每个工业企业是填报单位 5.下列平均数中,容易受数列中极端值影响的平均数有( ABC ) A、算术平均数 B、调和平均数 C、几何平均数 D、中位数 E、众数 三、判断题(在正确答案后写“对”,在错误答案后写“错”。每小题1分,共10分) 1、“性别”是品质标志。(对) 2、方差是离差平方和与相应的自由度之比。(错) 3、标准差系数是标准差与均值之比。(对) 4、算术平均数的离差平方和是一个最大值。(错) 5、区间估计就是直接用样本统计量代表总体参数。(错) 6、在假设检验中,方差已知的正态总体均值的检验要计算Z统计量。(错)

数理统计复习题第八章

第七章 假设检验 三、典型题解 例1:某车间用一台包装机包装葡萄糖, 包得的袋装糖重是一个随机变量, 它服从正态分布.当机器正常时, 其均值为0.5千克, 标准差为0.015千克.某日开工后为检验包装机是否正常, 随机地抽取它所包装的糖9袋, 称得净重为(千克): 0.498 0.506 0.518 0.524 0.498 0.511 0.520 0.515 0.512, 问机器是否正常? 解: 根据样本值判断5.05.0≠=μμ还是.提出两个对立假设 0100:5.0:μμμμ≠==H H 和 选择统计量:)1,0(~/0 N n X Z σμ-= 取定0.05a =,则/20.025 1.96,z z a ==又已知 9, 0.015, n s ==由样本计算得0.511x =, 2.2 1.96=>,于是拒绝假设 0H , 认为包装机工作不正常. 例2:某工厂生产的固体燃料推进器的燃烧率服从正态分布),(2 σμN , s cm s cm /2,/40==σμ,现用新方法生产了一批推进器,从中随机取25n =只,测得燃 烧率的样本均值为s cm x /25.41=.设在新方法下总体均方差仍为s cm /2,问这批推进器的燃烧率是否较以往生产的推进器的燃烧率有显著的提高?(取显著性水平05.0=α) 解:根据题意需要检验假设 00 :40H m m ?(即假设新方法没有提高了燃烧率), 10 :H m m >(即假设新方法提高了燃烧率), 这是右边检验问题,拒绝域为 0.05 1.645x z z = ?,由 3.125 1.645 x z = =>可得z 值落到拒绝域中故在显著性水平0.05 a =下拒绝0 H . 即认为这批推进器的燃烧率较以往有显著提高. 例3:某切割机在正常工作时, 切割每段金属棒的平均长度为10.5cm, 标准差是0.15cm, 今

典型相关分析SPSS例析

典型相关分析 典型相关分析(Canonical correlation )又称规则相关分析,用以分析两组变量间关系的一种方法;两个变量组均包含多个变量,所以简单相关和多元回归的解惑都是规则相关的特例。典型相关将各组变量作为整体对待,描述的是两个变量组之间整体的相关,而不是两个变量组个别变量之间的相关。 典型相关与主成分相关有类似,不过主成分考虑的是一组变量,而典型相关考虑的是两组变量间的关系,有学者将规则相关视为双管的主成分分析;因为它主要在寻找一组变量的成分使之与另一组的成分具有最大的线性关系。 典型相关模型的基本假设:两组变量间是线性关系,每对典型变量之间是线性关系,每个典型变量与本组变量之间也是线性关系;典型相关还要求各组内变量间不能有高度的复共线性。典型相关两组变量地位相等,如有隐含的因果关系,可令一组为自变量,另一组为因变量。 典型相关会找出一组变量的线性组合**=i i j j X a x Y b y =∑∑与 ,称 为典型变量;以使两个典型变量之间所能获得相关系数达到最大,这一相关系数称为典型相关系数。i a 和j b 称为典型系数。如果对变量进 行标准化后再进行上述操作,得到的是标准化的典型系数。 典型变量的性质 每个典型变量智慧与对应的另一组典型变量相关,而不与其他典型变量相关;原来所有变量的总方差通过典型变量而成为几个相互独立的维度。一个典型相关系数只是两个典型变量之间的相关,不能代

表两个变量组的相关;各对典型变量构成的多维典型相关,共同代表两组变量间的整体相关。 典型负荷系数和交叉负荷系数 典型负荷系数也称结构相关系数,指的是一个典型变量与本组所有变量的简单相关系数,交叉负荷系数指的是一个典型变量与另一组变量组各个变量的简单相关系数。典型系数隐含着偏相关的意思,而典型负荷系数代表的是典型变量与变量间的简单相关,两者有很大区别。 重叠指数 如果一组变量的部分方差可以又另一个变量的方差来解释和预测,就可以说这部分方差与另一个变量的方差之间相重叠,或可由另一变量所解释。将重叠应用到典型相关时,只要简单地将典型相关系数平方(2 CR),就得到这对典型变量方差的共同比例,代表一个典型变量的方差可有另一个典型变量解释的比例,如果将此比例再乘以典型变量所能解释的本组变量总方差的比例,得到的就是一组变量的方差所能够被另一组变量的典型变量所能解释的比例,即为重叠系数。 例1:CRM(Customer Relationship Management)即客户关系管理案例,有三组变量,分别是公司规模变量两个(资本额,销售额),六个CRM实施程度变量(WEB网站,电子邮件,客服中心,DM 快讯广告Direct mail缩写,无线上网,简讯服务),三个CRM绩效维度(行销绩效,销售绩效,服务绩效)。试对三组变量做典型相关分析。

完整word版经济统计分析案例

案例2-1 Gulf Real Estate Properties公司 Gulf Real Estate Properties有限责任公司是佛罗里达西南部的一家房地产公司。企业在广告中称自己是“真正的地产专家”。公司通过搜集有关地点、定价、售价和每套售出花费天数,对房屋的销售进行监督。如果房屋位于墨西哥湾,则称之为“看得见海湾的房屋”;如果房屋位于墨西哥湾附件的其他海湾或者高尔夫球场,则称之为“看不见海湾的房屋”。来自佛罗里达州那不勒斯的多元列表服务的样本数据,给出了最近售出的40套看得见海湾的房屋和18套看不见海湾的房屋的数据。数据见GulfProp.xls,价格以千美元计。 管理报告 1.对看得见海湾的房屋,求售价的总体均值以及售出中花费天数的总体均值的95%置信区间,并解释你的结论。 2.对看不见海湾的房屋,求售价的总体均值以及售出中花费天数的总体均值的95%置信区间,并解释你的结论。 3.假定分公司的经理要求在40000美元的边际误差下对看得见海湾的房屋售价的均值进行估计,在15000美元的边际误差下对看不见海湾的房屋售价的均值进行估计。取置信度为95%,则应选取多大的样本容量。 解答:利用Excel软件求得一些数据如图1、图2: 图1:看得见海湾

图2:看不见海湾 ?未知的情况,售价首先对看得见海湾的房间,根据题意,易知这是属于1. ?X 106454.2?X , ,出售天数的总体均值的总体均值21 :则售价的95%置信区间为SS 192.5192.5?????? 1nn ?1?392.65,515.79????454.2?2.0232.023?X ?t ?,X ?t ,454.2?????11 ??nn 4040???? 22 售出中花费天数的均值的95%置信区间为: SS 52.252.2?????? 1n 1?n ?89.30,122.70?106?2.023?t ?,X ?t ??,106?2.023?X ?????22 ??nn 4040???? 22 ?2. 未知的情况,售价的总体均值对于看不见海湾的房间,依旧是 X ?135.0203.2X ? ,售出天数的总体均值21所以售价的总体均值的95%置信区间 为: SS 43.8943.89??????

统计学计算题例题及计算分析报告

计算分析题解答参考 1.1.某厂三个车间一季度生产情况如下: 计算一季度三个车间产量平均计划完成百分比和平均单位产品成本。 解:平均计划完成百分比=实际产量/计划产量=733/(198/0.9+315/1.05+220/1.1) =101.81% 平均单位产量成本 X=∑xf/∑f=(15*198+10*315+8*220)/733 =10.75(元/件) 1.2.某企业产品的有关资料如下: 试分别计算该企业产品98年、99年的平均单位产品成本。 解:该企业98年平均单位产品成本 x=∑xf/∑f=(25*1500+28*1020+32*980)/3500 =27.83(元/件) 该企业99年平均单位产品成本x=∑xf /∑(m/x)=101060/(24500/25+28560/28+48000/32) =28.87(元/件) 年某月甲、乙两市场三种商品价格、销售量和销售额资料如下: 1.3.1999 解:三种商品在甲市场上的平均价格x=∑xf/∑f=(105*700+120*900+137*1100)/2700 =123.04(元/件) 三种商品在乙市场上的平均价格x=∑m/∑(m/x)=317900/(126000/105+96000/120+95900/137) =117.74(元/件) 2.1.某车间有甲、乙两个生产小组,甲组平均每个工人的日产量为22件,标准差为 3.5件;乙组工人日产量资料:

试比较甲、乙两生产小组中的哪个组的日产量更有代表性? 解:∵X 甲=22件 σ甲=3.5件 ∴V 甲=σ甲/ X 甲=3.5/22=15.91% 列表计算乙组的数据资料如下: ∵x 乙=∑xf/∑f=(11*10+14*20+17*30+20*40)/100 =17(件) σ 乙=√[∑(x-x)2 f]/∑f =√900/100 =3(件) ∴V 乙=σ乙/ x 乙=3/17=17.65% 由于V 甲<V 乙,故甲生产小组的日产量更有代表性。 2.2.有甲、乙两个品种的粮食作物,经播种实验后得知甲品种的平均产量为998斤,标准差为162.7斤;乙品种实验的资料如下: 试研究两个品种的平均亩产量,确定哪一个品种具有较大稳定性,更有推广价值? 解:∵x 甲=998斤 σ甲=162.7斤 ∴V 甲=σ甲/ x 甲=162.7/998=16.30% 列表计算乙品种的数据资料如下:

应用统计学试题及答案

北京工业大学经济与管理学院2007-2008年度 第一学期期末应用统计学 主考教师 专业:学号:姓名:成绩: 1 C 2 B 3 A 4 C 5 B 6 B 7 A 8 A 9 C 10 C 一.单选题(每题2分,共20分) 1.在对工业企业的生产设备进行普查时,调查对象是 A 所有工业企业 B 每一个工业企业 C 工业企业的所有生产设备 D 工业企业的每台生产设 备 2.一组数据的均值为20, 离散系数为, 则该组数据的标准差为 A 50 B 8 C D 4 3.某连续变量数列,其末组为“500以上”。又知其邻组的组中值为480,则末组的组中值为

A 520 B 510 C 530 D 540 4. 已知一个数列的各环比增长速度依次为5%、7%、9%,则最后一期的定基增长速度为 A .5%×7%×9% B. 105%×107%×109% C .(105%×107%×109%)-1 D. 1%109%107%1053- 5.某地区今年同去年相比,用同样多的人民币可多购买5%的商品,则物价增(减)变化的百分比为 A. –5% B. –% C. –% D. % 6.对不同年份的产品成本配合的直线方程为x y 75.1280? -=, 回归系数b= -表示 A. 时间每增加一个单位,产品成本平均增加个单位 B. 时间每增加一个单位,产品成本平均下降个单位 C. 产品成本每变动一个单位,平均需要年时间 D. 时间每减少一个单位,产品成本平均下降个单位 7.某乡播种早稻5000亩,其中20%使用改良品种,亩产为600 公

斤,其余亩产为500 公斤,则该乡全部早稻亩产为 A. 520公斤 B. 530公斤 C. 540公斤 D. 550公斤 8.甲乙两个车间工人日加工零件数的均值和标准差如下: 甲车间:x=70件,σ=件乙车间: x=90件, σ=件哪个车间日加工零件的离散程度较大: A甲车间 B. 乙车间 C.两个车间相同 D. 无法作比较 9. 根据各年的环比增长速度计算年平均增长速度的方法是 A 用各年的环比增长速度连乘然后开方 B 用各年的环比增长速度连加然后除以年数 C 先计算年平均发展速度然后减“1” D 以上三种方法都是错误的 10. 如果相关系数r=0,则表明两个变量之间 A. 相关程度很低 B.不存在任何

统计学案例分析

统计学案例实习教学大纲(课程编号:00700397) 适用年级: 是否双语:是 否

课程类别:E:集中性实践 学时学分:课程总学时2周其中实验(上机)学时学分 2 先修课程:《统计学》《统计学案例》《市场调查与分析》 开课单位:管理学院统计系 适用专业统计学 开课学期 4 二、实践环节简介 统计学案例实习课程是统计学专业的一门技术基础课,是专业选修课程,也是统计学专业的重要实践环节课。它是在学习了统计学、市场调查与分析相关理论和方法的基础上,如何将相关理论和方法运用于实际问题的解决。拉近理论与现实的距离,使统计学专业的学生更好地掌握统计综合指标的计算和应用,抽样调查的基本理论和方法,统计预测的理论、方法及应用,并提高实践动手能力和综合分析能力。 三、实践环节教学目的与基本要求 教学目的: 1.通过课程实习,应使学生掌握统计学的基本理论,统计研究的基本方法,掌握统计综合指标的计算和应用,统计指数的编制和分析,抽样调查的基本理论和方法,掌握统计预测的理论、方法及应用。 2.通过课程实习,培养学生具备对经济运行的实际内容进行具体的计算分析,培养学生用统计方法解决实际问题的能力。 3.通过具体而全面的统计案例实习来启发学生的悟性,挖掘学生的潜能,培养学生用统计理论和统计方法解决实际问题的动手能力和创新能力,提高学生的统计素质。 基本要求: 在已学习了统计学、市场调查与分析和统计学案例等课程的前提下,要求学生既能够独立完成各项实习,又能够养成团队协作的精神,共同撰写实习报告。 四、实践环节注意事项 实习方式:学生自己动手实习。 1、以小组为单位进行实习。 2、实行开放式实习教学,增加学生选择实验项目和实验时间的自主性。 注意事项:1、实习前由教师向学生讲明课程内容、进度安排、书写实验报告要求等。 2、实习4-6人为一组, 分工、协作共同完成。 3、实习报告是本实习教学的一个重要环节, 需要学生掌握的内容可以通过实习报告反映学生对其掌握程度, 让教师了解尚存在的问题。 五、实践环节主要内容与时间安排 (一) 实习项目一大学生生活费收支状况调查 知识点:调查方案设计的基本内容,设计方法 重点:各种抽样统计调查方法的特点和应用条件 难点:大学生生活费收支状况分析 实习项目二关于逃课问题的调查 知识点:调查方案设计 重点:问卷设计 难点:对逃课问题分析。 实习项目三福州大学本科生自习情况调查 知识点:调查方案设计 重点:问卷设计

统计学计算题及答案

1002 1050 1 ■ 1050 1020 汇2 = 1032 (人) 上半年平均人数: 1002 1050 1 1050 1020 2 1020 1008 3 二 1023 计算题 1 .某公司某年9月末有职工250人,10月上旬的人数变动情况是:10月4日新招 聘12名大学生上岗,6日有4名老职工退休离岗,8日有3名青年工人应征入伍, 同日又有3名职 工辞职离 岗,9日招聘7名营销人员上岗。试计算该公司 10月上旬的平均在岗人数。 af 250 3 262 2 258 2 252 1 259 2 答案1 . a 256 送 f 3+2+2+1+2 要求:⑴具体说明这个时间序列属于哪一种时间序列。 (2)分别计算该银行2001年第一季度、第二季度和上半年的平均现金库存额。 1)这是个等间隔的时点序列 (答案: 3° - a , - a 2,a 3 亠,亠 a n 」-3n 2 - 2 n 第一季度的平均现金库存额: 500 520 + 480 +450 + 2 2 3 第二季度的平均现金库存额: 二480 (万元) 500 580 550 600 2 2 3 上半年的平均现金库存额: = 566 .67(万元) 500 580 + 480 + …+550 +600 + 2 -------------------------------------------- J 二 52 3 .33,或 = 480 566.67 = 523.33 6 答:该银行2001年第一季度平均现金库存额为 480万元,第二季度平均现金库存额为 566.67 万元,上半年的平均现金库存额为 523.33万元. 3某单位上半年职工人数统计资料如下: 要求计算:①第一季度平均人数;②上半年平均人数 答案:第一季度平均人数 2 12 3

数理统计典型例题分析

典型例题分析 例1.分别从方差为20和35的正态总抽取容量为8和10的两个样本,求第一个样本方差是第二个样本方差两倍的概率的范围。 解 以21 S 和22 S 分别表示两个(修正)样本方差。由22 22 12σσy x S S F =知统计量 22 2 1222175.13520S S S S F == 服从F 分布,自由度为(7,9)。 1) 事件{}2 2 212S S =的概率 {}{}05.32035235 20222221222122 2 1 ===??? ????==??????===F P S S P S S P S S P 因为F 是连续型随机变量,而任何连续型随机变量取任一给定值的概率都等于0。 2) 现在我们求事件{}二样本方差两倍第一样本方差不小于第=A 的概率: {} {}5.322 221≥=≥=F P S S P p 。 由附表可见,自由度9,721==f f 的F 分布水平α上侧分位数),(21f f F α有如下数值: )9,7(20.45.329.3)9,7(025.005.0F F =<<=。 由此可见,事件A 的概率p 介于0.025与0.05之间;05.0025.0<

解 由随机变量2χ分布知,随机变量σ/12S n )(-服从2χ分布,自由度 1-=n v ,于是,有 {}{}95.0)1(5.1)1(5.1)1(2,05.0222 2=≤≥-≤=? ?????-≤-=v v v P n P n S n P χχχσ 其中2v χ表示自由度1-=n v 的2χ分布随机变量,2 ,05.0v χ是自由度为1-=n v 的水 平05.0=α的2χ分布上侧分位数(见附表)。我们欲求满足 2,05.015.1v n χ≥-)( 的最小1+=v n 值,由附表可见 2 26,05.0885.3839)127(5.1χ=>=-, 22505.0652.375.401265.1,)(χ=<=-。 于是,所求27=n 。 例3.假设随机变量X 在区间[]1,+θθ上有均匀分布,其中θ未知: )(1n X X ,, 是来自X 的简单随机样本,X 是样本的均值,{} n X X X ,,min 1)1( =是最小观察值。证明 21?1-=X θ 和 11?12+-=n X ) (θ 都是θ的无偏估计量。 解 由X 在[]1,+θθ上均匀分布,知2/)12(+==θEX EX i 。 1) 由 θθθθ=-+=-+=-=∑∑==2 121212221211?111n i n i i n EX n E , 可见1?θ是θ的无偏估计量。 2) 为证明2?θ是θ的无偏估计。我们先求统计量)1(X 的概率分布。

SPSS典型相关分析及结果解释

SPSS典型相关分析及结果解释 SPSS 11.0 - 23.0 典型相关分析 1方法简介 如果要研究一个变量和一组变量间的相关,则可以使用多元线性回归,方程的复相关系数就是我们要的东西,同时偏相关系数还可以描述固定其他因素时某个自变量和应变量间的关系。但如果要研究两组变量的相关关系时,这些统计方法就无能为力了。比如要研究居民生活环境与健康状况的关系,生活环境和健康状况都有一大堆变量,如何来做?难道说做出两两相关系数?显然并不现实,我们需要寻找到更加综合,更具有代表性的指标,典型相关(Canonical Correlation)分析就可以解决这个问题。 典型相关分析方法由Hotelling提出,他的基本思想和主成分分析非常相似,也是降维。即根据变量间的相关关系,寻找一个或少数几个综合变量(实际观察变量的线性组合)对来替代原变量,从而将二组变量的关系集中到少数几对综合变量的关系上,提取时要求第一对综合变量间的相关性最大,第二对次之,依此类推。这些综合变量被称为典型变量,或典则变量,第1对典型变量间的相关系数则被称为第1典型相关系数。一般来说,只需要提取1~2对典型变量即可较为充分的概括样本信息。 可以证明,当两个变量组均只有一个变量时,典型相关系数即为简单相关系数;当一组变量只有一个变量时,典型相关系数即为复相关系数。故可以认为典型相关系 1

数是简单相关系数、复相关系数的推广,或者说简单相关系数、复相关系数是典型相关系数的特例。 2引例及语法说明 在SPSS中可以有两种方法来拟合典型相关分析,第一种是采用Manova过程来拟合,第二种是采用专门提供的宏程序来拟合,第二种方法在使用上非常简单,而输出的结果又非常详细,因此这里只对它进行介绍。该程序名为Canonical correlation.sps,就放在SPSS的安装路径之中,调用方式如下: INCLUDE 'SPSS所在路径\Canonical correlation.sps'. CANCORR SET1=第一组变量的列表 /SET2=第二组变量的列表. 在程序中首先应当使用include命令读入典型相关分析的宏程序,然后使用cancorr名称调用,注意最后的“.”表示整个语句结束,不能遗漏。 这里的分析实例来自曹素华教授所著《实用医学多因素统计分析方法》第176页:为了研究兄长的头型与弟弟的头型间的关系,研究者随机抽查了25个家庭的两兄弟的头长和头宽,数据见文件canonical lianxiti.sav,希望求得两组变量的典型变量及典型相关系数。显然,代表兄长头形的变量为第一组变量,代表弟弟头形的变量为第二组变量,这里希望求得的是两组变量间的相关性,在语法窗口中键入的程序如下: INCLUDE 'D:\SpssWin\Canonical correlation.sps'. 请使用时改为各自相应的安装目录 CANCORR SET1=long1 width1 列出第一组变量 2

相关文档
最新文档