统计学作业
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计软件学期作业
学院:理学院
专业:统计学
学号: 1109030133
姓名:郑文星
指导教师:马建军
一.在T1.sav中数据为某工厂职工的部分基本信息,其中性别变量中男女分别用
1,2表示,按教育程度共分为5类,婚姻状况中用0代表未婚,1代表已婚. (1)决策者希望了解不同受教育水平已婚职工和未婚职工之间的收入差别,试用
一条形图反映有关信息.
(2)绘制一线图,以反映出不同受教育水平的男职工和女职工之间的收入差异.
(3)绘制出反映不同受教育程度员工数量的饼图.
(4)绘制一散点图,反映出不同工作年限类别员工的工作满意程度.
(5)绘制出可以反映不同工作年限类别收入水平的箱图.
二在T2.sav中给出了2007年某股票83个交易日的交易信息.
(1) 绘制反映该股票每日价格最高值和最低值信息的高低图.
(2)绘制出该股票每个交易日收盘价的时间序列图,并对每日收盘价格进行自相关分析.
自相关分析:
模型描述
模型名称MOD_2
序列名1High
转换无
非季节性差分0
季节性差分0
季节性期间的长度无周期性
最大滞后数16
为计算自相关的标准误而假定的过程独立性(白噪音)a
显示并绘图所有滞后
正在应用来自 MOD_2 的模型指定。
a. 不适用于计算偏自相关的标准误。
(3)创建一双轴线图,使之同时反映出该股票每日收盘价格和交易量.
三某调查者想考察果汁饮料销售量的影响因素,为此调查者观察了碳酸饮料销售量, 茶饮料销售量, 固体冲泡饮料销售量和咖啡类饮料的销售量,单位均为万升, 全部数据如果T3.sav文件中. 试利用相关分析或偏相关分析研究果汁饮料与碳酸饮料销售量的相关性.
相关分析:
描述性统计量
均值标准差N
碳酸饮料销售量45.895318.8392615
果汁销售量25.9893 4.9280115
Pearson相关系数为0.825,二者之间的不相关的双侧显著值为0.000<0.01所以,所以在显著性水平为0.01下可拒绝二者不相关的假设。所以可得结论二者存在显著相关性。
四某实验室培养一种菌群研究其活性,菌群活性和培养天数的部分观测数据见T4.sav文件.
试利用回归分析研究菌群活性与培养天数之间的关系.
第一步:绘制散点图
上图由知菌群活性与培养天数之间呈现出显著的线性关系。第二步:回归分析
输入/移去的变量b
模型输入的
变量
移去的
变量方法
1 培养天
数a
. 输入
a. 已输入所有请求的变量。
b. 因变量: 活性
模型汇总
模型R R 方调整 R
方
标准估计
的误差
1 .941a.886 .877 5.891
a. 预测变量: (常量), 培养天数。
(拟合优度检验部分)相关系数R=0.941,判定系数2R=0.886,调整的判定系数为0.877,回归估计的标准差S=5.891.从中判断该回归方程的拟合优度很高。
(回归方程的显著性检验部分)由上表数据得在0.01水平上显著(即F=100.617>F(1,12))。 (回归系数的显著性检验)
由上表得知t=16.820>)12(2
a t ,所以认为该回归系数与零有显著差异,该自变量与
因变量之间存在显著地线性关系。
五 在文件T5.sav 中是研究脑溢血发病机制的数据文件,包括病人和正常人的六项指标, 其中病人为分组序号为”1”, 正常人为”0”. 希望建立上述指标与脑溢血发病之间的联系,以便可以对脑溢血的发病进行早期诊断.(提示可以利用logistic 回归或判别分析)
判别分析:
分析案例处理摘要
未加权案例N 百分比
有效60 100.0 排除的缺失或越界组代码0 .0
0 .0
至少一个缺失判别变
量
缺失或越界组代码还
0 .0
有至少一个缺失判别
变量
合计0 .0 合计60 100.0 上图给出了样本数量、有效值和剔除值的相关信息。
上图给出了各组和所有预测的均值、标准差和加权与未加权的有效值。
Wilks 的 Lambda
函数检验Wilks 的
Lambda 卡方df Sig.
1 .613 26.913 6 .000
上图给出了Wilks的Lambda检验的结果,从检验结果可以看出,引入的变量对提高分类精度是有作用的。
结构矩阵
函数
1
高密度胆固醇 -.746 低密度胆固醇
.590 总胆固醇 .567 载脂蛋白B .389 甘油三脂 .286 载脂蛋白A1
-.255
判别变量和标准化典型判别式函数之间的汇聚组间相关性
按函数内相关性的绝对大小排序的变量。
上图给出了判别函数的系数与结构矩阵,可以看出,所有变量均在判别分析中使用。
表5-7
上图给出了组重心处的判别函数值。
上图给出了两个组的先验概率。
预测的分组结果作为新的变量被保存,从中我们可以看出这60位人员的分组,并可以看出spss 对未分类观测进行的分类,分类被保存在“Dis_1”变量中,“1”表示病人,“0”表示正常人,与我们在建立变量时的设置有微小的出入,有13个分组不一样。
六
根据我国历年钢产量的数据,(可以查<<中国工业经济统计年鉴>>或其它统计数据资源), 试分析拟合钢铁产量的长期趋势. 曲线拟合: