第四讲统计分析及数据处理

合集下载

《数据分析与统计软件》使用教案

《数据分析与统计软件》使用教案数据分析与统计软件课程教案一、课程概述《数据分析与统计软件》是一门旨在培养学生使用数据分析与统计软件进行数据分析和统计的课程。

通过本课程的学习，学生将了解数据分析和统计的基本概念和方法，并能够灵活应用数据分析和统计软件进行数据处理、分析和展示。

二、课程目标1.了解数据分析和统计的基本概念和方法，包括数据的采集、整理、处理、分析和展示。

2. 掌握常用的数据分析和统计软件，如Excel、SPSS、R等，并能够熟练使用这些软件进行数据处理、分析和展示。

3.培养学生的数据分析和统计能力，提高其解决实际问题的能力。

三、教学内容1.数据分析和统计的基本概念和方法a.数据的采集b.数据的整理和处理c.数据的描述统计分析d.数据的推断统计分析2.常用的数据分析和统计软件a. Excelb.SPSSc.R3.数据处理、分析和展示的实际案例四、教学方法1.理论授课：讲解数据分析和统计的基本概念和方法。

2.实践教学：通过案例分析和实际操作，让学生运用数据分析和统计软件进行数据处理、分析和展示。

3.小组讨论：鼓励学生在小组进行思考和讨论，分享经验和解决问题。

五、教学时长和安排本课程为实践性课程，总共需要20学时。

具体的教学安排如下：1.第1学时：介绍课程目标和内容。

2.第2学时：讲解数据的采集和整理。

3.第3-5学时：介绍数据的描述统计分析的方法和步骤，通过案例分析进行实践操作。

4.第6学时：介绍SPSS软件的基本操作和常用功能。

5.第7-9学时：讲解数据的推断统计分析的方法和步骤，通过案例分析进行实践操作。

6. 第10学时：介绍Excel软件的基本操作和常用功能。

7.第11学时：介绍R软件的基本操作和常用功能。

8.第12-15学时：通过案例分析进行数据的处理、分析和展示操作。

9.第16-18学时：学生自主完成一个小型数据分析项目，并撰写实验报告。

10.第19-20学时：学生进行报告展示和总结。

第四讲方差分析

黄冈师范学院
第四讲方差分析
一、教学目标 1、理解方差分析的基本原理； 2、掌握方差分析方法。二、教学重点方差分析方法。三、教学难点方差分析表的建立。四、教学方法讲述法。五、教学学时 4学时生物统计学六、练习题 3题.
黄冈师范学院第一节基本原理
一、方差分析的一般概念方差分析称变量分析（analyses of variance）：是用来检验两个或两个以上均数的差异显著性并能分析变异原因的一种统计分析方法。 1928年，英国数学家R·A·Fisher提出方差分析方法，故称为F测验（F test）。方差分析与t 检测比较：方差分析与检测比较： 1、能同时检测更多的样本间差异； 2、简化； 3、准确性和精确度相应的有所提高。生物统计学
∑
1 mn
x − 2 ∑ xX +
2 1 mn mn 1 mn
∑
1
X
2
mn
=
∑
1 mn
x2 − 2∑ x(
∑
1 2
x ) + mn(
mn
∑
1
x )2
mn +
mn
=
∑
1 mn
x2 − 2
(∑ x )
1
(∑ x )2
1
mn
mn 1
mn
=
∑
1
x2 −
(∑ x )2 mn
生物统计学
黄冈师范学院
同理可证明样本间的平方和为：
黄冈师范学院统计学确定其F值95％临界点在1.6 以内。如果抽出的
一对样本方差F＝1.6，可能这两样本不是从同一总体或方差相等的总体中抽出来的，而F值大于1.6，那么可能至少其中有一个S2是因受到外量条件（试验因素）的影响，而发生了改变，使其超出了抽样误差的范围。方差分析就是由组内方差去衡量组间方差的大小，方差分析就是由组内方差去衡量组间方差的大小，并以概率标准确定差异的显著与否。并以概率标准确定差异的显著与否。例：不同温度对实验反应的影响

第四讲-比较均值

同一受试对象处理前后的数据，例如服用某种药物前和服用之后的血压变化；同一受试对象两个部位的数据，同一样本用两种方法测量的数据；配对的两个受试对象分别接受两种处理后的数据。
两配对样本T检验的前提条件

两样本应是配对的。即受试对象的年龄、性别、体重等非处理因素都相同或相似；两个样本所来自的总体应服从正态分布（大样本情况下，T检验较为稳健）
两类错误

“小概率事件在一次试验中几乎不会发生” ，但是小概率事件并非是不可能发生，只是其发生的概率很小，并不能完全排斥其发生的可能性。因而假设检验有可能犯两类错误：

第一类错误：原假设正确，而错误地拒绝了它，即“拒真” 的错误，其发生的概率为犯第一类错误的概率。第二类错误：原假设不正确，而错误地没有拒绝它，即“受伪”错误，其发生的概率为犯第二类错误的概率。

在“层1的1”框中，yrsscale; 单击【下一张】，把position变量选入“层2的2”框中。
两因素的均值分析报告
Anova和Eta

由于均值过程只对第一层的自变量进行方差分析和线性相关检验，因此两个因素或者两个以上因素的均值分析过程的方差分析结果和单因素一样。不同的是描述性统计量，多因素的描述性统计量是对于各个交叉组别进行统计。
单样本T检验

选择【分析】→【比较均值】→【单样本T检验】
单样本T检验结果
机器号 t 1 刹车片直径（mm） -.533 2 刹车片直径（mm） 5.336 3 刹车片直径（mm） -.655 4 刹车片直径（mm） -2.613 5 刹车片直径（mm） 1.847 6 刹车片直径（mm） 1.134 7 刹车片直径（mm） 2.650 8 刹车片直径（mm） -1.713 15 15 15 15 15 15 15 15 df Sig.(双侧) .602 .000 .522 .020 .085 .274 .018 .107 均值差值 -.0014858 .0142629 -.0017174 -.0045649 .0042486 .0024516 .0061813 -.0033014 差分的 95％置信区间下限 -.007413 .008566 -.007302 -.008289 -.000655 -.002154 .001210 -.007409 上限 .004459 .019960 .003868 -.000841 .009152 .007058 .011153 .000806

数学数据分析统计

数学数据分析统计数据分析是数学中一个重要的分支，它通过对数据的收集、整理、处理和解释，帮助我们揭示现象背后的规律和趋势。

统计学作为数据分析的一种方法论，提供了有效的工具和技术来解决现实世界中的各种问题。

本文将介绍数学数据分析统计的基本概念和应用，以及它们在各个领域中的价值。

一、数据收集数据收集是数据分析的第一步，它包括确定研究目标、制定调查计划、设计问卷和采集数据等环节。

在这个过程中，统计学提供了抽样技术和调查方法，帮助我们从整体中获取样本，以便做出对总体的推断。

例如，我们要评估某一产品的市场份额，可以通过抽取一定数量的消费者进行调查，然后利用统计学方法来估计整个市场的情况。

二、数据整理数据整理是将收集到的原始数据转换为可供分析的格式，包括数据清洗、变量构建、缺失值处理等步骤。

在这个过程中，统计学提供了描述性统计的方法，如计算均值、中位数、标准差等，帮助我们了解数据的基本特征。

此外，统计学还提供了可视化方法，如绘制直方图、散点图和箱线图等，帮助我们展现和交流数据的信息。

三、数据处理数据处理是利用数学模型和统计方法对数据进行分析和推断，从而得出结论或作出预测。

统计学提供了各种方法，如假设检验、回归分析、时间序列分析等，帮助我们研究变量之间的关系和变化趋势。

例如，在医学研究中，统计学可以帮助我们评估某种治疗方法的疗效，并判断其与其他方法的差异是否显著。

四、数据解释数据解释是将分析结果转化为易于理解和接受的形式，并对结论的可靠性进行评估。

在这个过程中，统计学提供了推论统计的方法，如置信区间、样本容量计算等，帮助我们给出结果的不确定性范围和置信水平。

此外，统计学还提供了交叉验证和模型选择的技术，帮助我们验证和改进分析模型，提高结果的准确性和可靠性。

五、数据应用数据分析统计在各个领域中都有广泛的应用。

在经济学领域，统计学可以帮助我们分析经济增长的影响因素、预测市场走势，并做出相应的政策建议。

在社会学领域，统计学可以帮助我们研究人口特征、社会关系和社会变迁等问题。

北师大版初三数学下册教学计划（精选8篇）

初三数学下册教学计划北师大版初三数学下册教学计划（精选8篇）时间一晃而过，我们的教学工作又将在忙碌中充实着，在喜悦中收获着，让我们一起来学习写教学计划吧。

以期更好地开展接下来的教学工作，以下是小编精心整理的北师大版初三数学下册教学计划（精选8篇），欢迎大家分享。

初三数学下册教学计划1一、指导思想以《初中数学新课程标准》为依据，全面推进素质教育。

数学是人们生活、劳动和学习必不可少的工具，能够帮助人们处理数据、进行计算、推理和证明，数学模型可以有效地描述自然现象和社会现象；数学为其他科学提供了语言、思想和方法，是一切重大技术发展的基础；数学在提高人的推理能力、抽象能力、想像力和创造力等方面有着独特的作用；数学是人类的一种文化，它的内容、思想、方法和语言是现代文明的重要组成部分。

学生的数学学习内容应当是现实的、有意义的、富有挑战性的，这些内容要有利于学生主动地进行观察、实验、猜测、验证、推理与交流等数学活动。

内容的呈现应采用不同的表达方式，以满足多样化的学习需求。

有效的数学学习活动不能单纯地依赖模仿与记忆动手实践、自主探索与合作交流是学生学习数学的重要方式。

由于学生所处的文化环境、家庭背景和自身思维方式的不同，学生的数学学习活动应当是一个生动活泼的、主动的和富有个性的过程。

二、教材目标及要求1、分式的重点是分式的四则运算，难点是分式四则混算、解分式方程以及列分式方程解应用题。

2、反比例函数掌握反比例函数的概念，性质，并利用其性质解决一些实际问题。

进一步理解变量与常量的辩证关系，进一步认识数形结合的思维方法。

3、勾股定理：会用勾股定理和逆定理解决实际问题。

4、四边形的重点是平行四边形的定义、性质和判定，难点是平行四边形与各种特殊平行四边形之间的联系和区别以及中心对称。

5、数据描述三、教学措施1、加强教学“六认真”，面向全体学生。

由于学生在知识、技能方面的发展和兴趣、特长等不尽相同，所以要因材施教。

在组织教学时，应从大多数学生的实际出发，并兼顾学习有困难的和学有余力的学生。

高二数学下第四讲用样本估计总体2(正稿)

第四讲用样本估计总体一．高考大纲要求1.了解分布的意义和作用，会列频率分布表，会画频率分布直方图、频率折线图、茎叶图，理解它们各自的特点/理解样本数据标准差的意义和作用，会计算数据标准差及方差/能从样本数据中提取基本的数字特征(如平均数、标准差)，并作出合理的解释/会用样本的频率分布估计总体分布，会用样本的基本数字特征估计总体的基本数字特征，理解用样本估计总体的思想/会用随机抽样的基本方法和样本估计总体的思想，解决一些简单的实际问题．2.会作两个相关变量的数据的散点图，会利用散点图认识变量的相关关系/了解最小二乘法的思想，能根据给出的线性回归方程系数公式建立线性回归方程/了解独立性检验(只要求2×2列联表)的基本思想、方法简单应用/了解假设检验的基本思想、方法简单应用/了解聚类分析的基本思想、方法简单应用．二．知识梳理1．频率分布直方图：(1)通常我们对总体作出的估计一般分成两种，一种是用体的分布．另一种是用．(2)在频率分布直方图中，纵轴表示频率组距，数据落在各小组内的频率用形的面积表示．各小长方形的面积总和 .(3)连接频率分布直方图中各小长方形上端的中点，就得到频率分布折线图．随着的增加，作图时所分的增加，相应的频率分布折线图就会越来越接近于一条光滑的曲线，统计中称之为，它能够更加精细的反映出．(4)当样本数据较少时，用茎叶图表示数据的效果较好，它不但可以，而且，给数据的和都带来方便． 2．用样本的数字特征估计总体的数字特征 (1)众数、中位数、平均数：众数：在一组数据中，出现次数的数据叫做这组数据的众数．中位数：将一组数据按大小依次排列，把处在位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数．平均数：样本数据的算术平均数．即x ＝1n(x 1＋x 2＋…＋x n )．在频率分布直方图中，中位数左边和右边的直方图的面积应该． (2)样本方差、标准差:标准差s ＝1n[(x 1－x )2＋(x 2－x )2＋…＋(x n －x )2] ，其中x n 是，n 是，x 是．标准差是反映总体波动大小的特征数，样本方差是标准差的．通常用样本方差估计总体方差，当时，样本方差很接近总体方差．3．两个变量的线性相关:(1)正相关:在散点图中，点散布在从到的区域内，对于两个变量的这种相关关系，我们将它称为正相关．(2)负相关:点散布在从到的区域内，两个变量的这种相关关系称为负相关．(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在，就称这两个变量之间具有线性相关关系，这条直线叫做回归直线．4．回归方程 (1)最小二乘法:求回归直线使得样本数据的点到它的的方法叫做最小二乘法．(2)回归方程:方程^y ＝bx ＋a 是两个具有线性相关关系的变量的一组数据(x 1，y 1)，(x 2，y 2)，…，(x n ，y n )的回归方程，其中a ，b 是待定参数．⎩⎪⎨⎪⎧b ＝∑i ＝1n(x i－x )(y i－y )∑i ＝1n (x i－x )2＝∑i ＝1nx i y i－n x y∑i ＝1n x 2i－n x 2a ＝y －b x其中x ＝1n ∑i ＝1n x i ，y ＝1n ∑i ＝1nx i ，(x ，y )称为样本中心点．5．独立性检验 (1)分类变量：变量的不同“值”表示个体所属的，像这类变量称为分类变量．(2)列联表：列出两个分类变量的，称为列联表，假设有两个分类变量X 和Y ，它们的可能取值分别为{x 1，x 2}和{y 1，y 2}，其样本频数列联表(称为2×2列联表)为：2×2列联表构造一个随机变量K 2＝n (ad －bc )(a ＋b )(c ＋d )(a ＋c )(b ＋d )，其中n ＝为样本容量．(3)独立性检验:利用随机变量来确定是否能以一定把握认为“两个分类变量 ”的方法称为两个分类变量的独立性检验．三．思考提问1.总体平均数与总体方差分别反映了总体的什么特征，有哪些区别？提示：总体平均数即总体期望值，是反映总体平均水平的一个值；而总体方差是反映总体的波动情况的一个量，二者反映的角度不同，不可相互比较，但有些问题在总体期望值差距不大时，可考虑用总体方差进一步区分．2.在独立性检验中经常由K2得到观测值k，则k＝K2吗？提示：K2与k的关系并不是k＝K2，k是K2的观测值，或者说K2是一个随机变量，它在a，b，c，d取不同值时，K2可能不同，而k是取定一组数a，b，c，d后的一个确定的值．四．典例剖析题型一频率分布直方图【例1】为了解某校初中毕业男生的体能状况．从该校初中毕业班学生中抽取若干名男生进行铅球测试，把所得数据(精确到0.1米)进行整理后，分成6组画出频率分布直方图的一部分(如下图)，已知从左到右前5个小组的频率分别为0.04,0.10,0.14,0.28,0.30.第6小组的频数是7.(1)请将频率分布直方图补充完整；(2)该校参加这次铅球测试的男生有多少人？(3)若成绩在8.0米以上(含8.0米)的为合格，试求这次铅球测试的成绩的合格率；(4)在这次测试中，你能确定该校参加测试的男生铅球成绩的众数和中位数各落在哪个小组内吗？反思感悟：用频率分布直方图解决相关问题时，应正确理解图表中各个量的意义，识图掌握信息是解决该类问题的关键．频率分布直方图有以下几个要点：(1)纵轴表示频率/组距．(2)频率分布直方图中各长方形高的比也就是其频率之比．(3)直方图中第一个矩形的面积是样本数据落在这个区间上的频率，所有的小矩形的面积之和等于1，即频率之和为1.迁移发散1．为了解某校高三学生的视力情况，随机地抽查了该校100名高三学生的视力情况，得到频率分布直方图如下图，由于不慎将部分数据丢失，但知道前4组的频数成等比数列，后6组的频数成等差数列，设最大频率为a，视力在4.6至5.0之间的学生数为b，则a、b的值分别为A．0.27,78 B．0.27,83 C．2.7,78 D．2.7,83题型二茎叶图【例2】某良种培育基地正在培育一种小麦新品种A.将其与原有的一个优良品种B进行对照试验．两种小麦各种植了25亩，所得亩产数据(单位：千克)如下：品种A：357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430, 434,443,445,445,451,454品种B：363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407, 410,412,415,416,422,430(1)作出数据的茎叶图；(2)用茎叶图处理现有的数据，有什么优点？(3)通过观察茎叶图，对品种A与B的亩产量及其稳定性进行比较，写出统计结论．反思感悟：茎叶图刻画数据的优点(1)所有的数据信息都可以从茎叶图中得到．(2)茎叶图便于记录和表示，且能够展示数据的分布情况．迁移发散2．下图是根据《山东统计年鉴2007》中的资料作成的1997年至2006年我省城镇居民百户家庭人口数的茎叶图．图中左边的数字从左到右分别表示城镇居民百户家庭人口数的百位数字和十位数字，右边的数字表示城镇居民百户家庭人口数的个位数字．从图中可以得到1997年至2006年我省城镇居民百户家庭人口数的平均数为()A．304.6 B．303.6 C．302.6 D．301.6题型三样本的特征数【例3】某班40人随机平均分成两组，两组学生一次考试的成绩情况如下表：反思感悟：善于总结，养成习惯：平均数反映了数据取值的平均水平，标准差、方差描述了一组数据围绕平均数波动的大小．标准差、方差越大，数据的分散程度越大，越不稳定；标准差、方差越小，数据的分散程度越小，越稳定．迁移发散3．在发生公共卫生事件期间，有专业机构认为该事件在一段时间内没有发生大规模群体感染的标志是“连续10天，每天新增疑似病例不超过7人”，根据过去10天，甲乙丙丁四地新增疑似病例数据，一定符合该标志的是() A．甲地：总体均值为3，中位数为4 B．乙地：总体均值为1，方差大于0 C．丙地：中位数为2，众数为3 D．丁地：总体均值为2，总体方差为3题型四相关关系的判断【例4】山东鲁洁棉业公司的科研人员在7块并排、形状大小相同的试验田上对某棉花新品种进行施化肥量x 对产量y 影响的试验，得到如下表所示的一组数据(单反思感悟：善于总结，养成习惯：判断两个变量正相关还是负相关，有三种方法：(1)利用散点图；(2)利用相关系数r 的符号．当r ＞0时，正相关；r ＜0时，负相关；(3)在已知两变量线性相关时，也可以利用回归方程y ^＝a ＋bx .当b ＞0时，y ^＝a ＋bx 是增函数，两变量是正相关，当b ＜0时，y ^＝a ＋bx 是减函数，两变量是负相关．迁移发散4．某市居民2005～2009年家庭平均收入x (单位：万元)与年平均支出Y (单位：万元)的统计资料如下表所示：根据统计资料，居民家庭年平均收入的中位数是________，家庭年平均收入与平均支出有________线性相关关系．题型五线性回归方程【例5】一台机器使用时间较长，但还可以使用．它按不同的转速生产出来的某机械零件有一些会有缺点，每小时生产有缺点零件的多少，随机器运转的速度而变化，下表为抽样试验结果：(1)对变量y与x进行相关性检验；(2)如果y与x有线性相关关系，求回归直线方程；(3)若实际生产中，允许每小时的产品中有缺点的零件最多为10个，那么，机器的运转速度应控制在什么范围内？反思感悟：善于总结，养成习惯：对具有相关关系的两个变量进行统计分析时，首先要作出散点图，然后进行相关性检验，在确认具有线性相关关系后，再求其回归直线．迁移发散5．假设关于某设备的使用年限x和所支出的维修费用y(万元)，有如下的统计资料：(1)y与x间是否有线性相关关系？若有，求出线性回归方程；(2)估计使用年限为10年时的维修费用．题型六独立性检验【例6】某企业有两个分厂生产某种零件，按规定内径尺寸(单位：mm)的值落在[29.94,30.06)的零件为优质品．从两个分厂生产的零件中各抽出了500件，量其内径尺寸，得结果如下表：甲厂：乙厂：(1)试分别估计两个分厂生产的零件的优质品率；(2)由以上统计数据填下面2×2列联表，并问是否有99%的把握认为“两个分厂生附：K2＝n(ad－bc)(a＋b)(c＋d)(a＋c)(b＋d)，反思感悟：善于总结，养成习惯：所谓独立性检验，就是根据采集样本的数据，先作2×2列联表，再利用公式计算K2的值，比较它与临界值的大小关系，来判断事件X与Y是否有关的问题．迁移发散6．(2010·辽宁理，18)为了比较注射A，B两种药物后产生的皮肤疱疹的面积，选200只家兔做试验，将这200只家兔随机地分成两组，每组100只，其中一组注射药物A，另一组注射药物B.(1)甲、乙是200只家兔中的2只，求甲、乙分在不同组的概率；(2)下表1和表2分别是注射药物A和B后的试验结果．(疱疹面积单位：mm2)(ⅰ)完成下面频率分布直方图，并比较注射两种药物后疱疹面积的中位数大小；（ⅱ)完成下面2×2列联表，并回答能否有99.9%的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”．表3：附：K2＝n(ad－bc)(a＋b)(c＋d)(a＋c)(b＋d)五．课后小结1．应了解简单随机抽样、系统抽样和分层抽样的操作方法和理论依据，分层抽样即按比例抽样．2．频率分布直方图：频率分布是指一个样本数据在各个小范围内所占比例的大小．一般用频率分布直方图反映样本的频率分布．(1)估计众数：频率分布直方图面积最大的方条的横轴中点数字．(最高矩形的中点)(2)估计中位数：中位数把频率分布直方图分成左右两边面积相等．(3)估计平均数：频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和．3．了解利用样本估计总体平均值和方差的基本思想方法．4．求回归方程，关键在于正确求出系数a，b，由于a，b的计算量大，计算时应仔细谨慎，分层进行，避免因计算而产生错误．(注意回归直线方程中一次项系数为b ，常数项为a ，这与一次函数的习惯表示不同)．5．回归分析是处理变量相关关系的一种数学方法．主要解决：①确定特定量之间是否有相关关系，如果有就找出它们之间贴近的数学表达式；②根据一组观察值，预测变量的取值及判断变量取值的变化趋势；③求出回归直线方程．6．独立性检验是一种假设检验，在对总体的估计中，通过抽取样本，构造合适的随机变量，对假设的正确性进行判断.六家庭作业（高考回顾）一、选择题 1．（2011年四川高考）有一个容量为66的样本，数据的分组及各组的频数如下： [11．5，15．5） 2 [15．5,19．5） 4 [19．5，23．5） 9 [23．5,27．5） 18 [27．5，31．5） 1l [31．5，35．5） 12 [35．5．39．5） 7 [39．5,43．5） 3 根据样本的频率分布估计，数据落在[31．5，43．5）的概率约是A ．16 B ．13C ．12D ．23 2.（2011年陕西高考）设（1x ，1y ），（2x ，2y ），…，（n x ，n y ）是变量x 和y 的n 个样本点，直线l 是由这些样本点通过最小二乘法得到的线性回归直线（如图），以下结论中正确的是 A ．x 和y 的相关系数为直线l 的斜率 B ．x 和y 的相关系数在0到1之间C ．当n 为偶数时，分布在l 两侧的样本点的个数一定相同D ．直线l 过点(,)x y3.5 根据上表可得回归方程ˆˆy bx a =+中的ˆb 为9．4，据此模型预报广告费用为6万元时销售额为 A ．63．6万元 B ．65．5万元 C ．67．7万元 D ．72．0万元 4.（2011年江西高考）变量X 与Y 相对应的一组数据为（10，1），（11.3，2），（11.8，3），（12.5，4），（13，5）；变量U 与V 相对应的一组数据为（10，5），（11.3，4），（11.8，3），（12.5，2），（13，1），1r 表示变量Y 与X 之间的线性相关系数，2r 表示变量V 与U 之间的线性相关系数，则A ．210r r <<B ．210r r <<C ．210r r <<D ．21r r= 5.（2011年湖南高考）通过随机询问110名性别不同的大学生是否爱好某项运动，得到如下由()()()()()22n ad bc K a b c d a c b d -=++++算得，()22110403020207.860506050K ⨯⨯-⨯=≈⨯⨯⨯．参照附表，得到的正确结论是 A ．再犯错误的概率不超过0．1%的前提下，认为“爱好该项运动与性别有关” B ．再犯错误的概率不超过0．1%的前提下，认为“爱好该项运动与性别无关” C ．有99%以上的把握认为“爱好该项运动与性别有关” D ．有99%以上的把握认为“爱好该项运动与性别无关” 二、填空题6.（2011年天津高考）一支田径队有男运动员48人，女运动员36人，若用分层抽样的方法从该队的全体运动员中抽取一个容量为21的样本，则抽取男运动员的人数为___________7.（2011年辽宁高考）调查了某地若干户家庭的年收入x （单位：万元）和年饮食支出y （单位：万元），调查显示年收入x 与年饮食支出y 具有线性相关关系，并由调查数据得到y 对x 的回归直线方程：321.0254.0ˆ+=x y .由回归直线方程可知，家庭年收入每增加1万元，年饮食支出平均增加____________万元.8.（2011年江苏高考）某老师从星期一到星期五收到信件数分别是10，6，8，5，6，则该组数据的方差___2=s9.（2011年广东高考）某数学老师身高176cm ，他爷爷、父亲和儿子的身高分别是173cm 、170cm 和182cm ．因儿子的身高与父亲的身高有关，该老师用线性回归分析的方法预测他孙子的身高为_____cm ．三、解答题10.（2011年北京高考）以下茎叶图记录了甲、乙两组个四名同学的植树棵树。

matlab数据的基本统计分析

第四讲数据的基本统计分析数据的基本统计分析1．数据的描述性统计分析通常在得到数据并对数据进行除错的预处理后，需要对数据进行描述性的统计分析。

比如：对数据中变量的最小值、最大值、中位数、平均值、标准差、偏度、峰度以及正态性检验等进行分析。

对于这些经常性遇到的重复过程，我们可以自己编写函数，将函数保存在MATLAB自动搜索文件夹下，然后就可以直接调用自己定义的函数了。

对于上述描述性统计分析，我们可以在MATLAB命令窗口中输入：edit discription，然后在弹出的窗口中选择yes，就创建了一个文件名为discription的M文件。

然后在弹出的空白文件中编写以下M函数： function D=discription(x)%descriptive statistic analysis%input:%x is a matrix, and each colummn stands for a variable%output:%D:structure variable,denotes Minimium,Maximium,Mean,Median,%Standard_deviation,Skewness,Kurtosis,and normal distribution test,respectively.%notes:when the number of oberservations of the colummn variables less than 30,%Lilliefors test is used for normal distribution test,and output D.LSTA denotes%test statistic and D.LCV denote critical value under 5% significant level;%otherwise, Jarque-Bera test is used, and output D.JBSTA denotes test statistic%and D.JBCV denote critical value under 5% significant level.If test statistic is%less than critical value,the null hypothesis (normal distribution) can not%be rejected under 5% significant level.D.Minimium=min(x);D.Maximium=max(x);D.Mean=mean(x);D.Median=median(x);D.Standard_deviation=std(x);D.Skewness=skewness(x);D.Kurtosis=kurtosis(x);if size(x,1)<30disp('small observations,turn to Lilliefors test for normal distribution')for i=1:size(x,2)[h(i),p(i),Lilliefors(i),LCV(i)]=lillietest(x(:,i),0.05);endD.LSTA=Lilliefors;D.LCV=LCV;elsefor i=1:size(x,2)[h(i),p(i),Jarque_Bera(i),JBCV(i)]=jbtest(x(:,i),0.05);endD.JBSTA=Jarque_Bera;D.JBCV=JBCV;end注意在上面给出的函数例子中，我们使用了discription作为文件名，这与函数文件中第一行中的discription保持了一致。

物化政专业的实验数据处理与统计分析方法

物化政专业的实验数据处理与统计分析方法实验数据处理和统计分析是物化政专业在研究和实践中必不可少的环节。

本文将介绍物化政专业实验数据处理的基本流程以及常用的统计分析方法，为物化政专业学生提供一些参考。

一、实验数据处理实验数据处理分为数据清洗、数据整理、数据分析和数据展示四个步骤。

1. 数据清洗数据清洗是指对实验数据进行筛选、排除异常值、纠正错误等操作，确保数据的准确性和可靠性。

在数据清洗过程中，可以利用软件工具进行数据筛选和异常值检测，如Excel、SPSS等。

2. 数据整理数据整理是对清洗后的数据按照一定的格式进行整理和排序，以方便后续的数据分析和统计。

常用的数据整理方法包括数据编码、数据分类和数据归档。

3. 数据分析数据分析是实验数据处理的核心环节，主要通过统计学方法对数据进行分析，从中提取有用的信息和规律。

常用的数据分析方法包括描述性统计分析、推断性统计分析和相关性分析等。

4. 数据展示数据展示是将分析结果以图表的形式直观地展示出来，以便于读者理解和掌握。

常见的数据展示方式包括条形图、折线图、饼图等。

二、统计分析方法1. 描述性统计分析描述性统计分析主要是对实验数据的集中趋势和离散程度进行描述和总结。

常用的描述统计指标有均值、中位数、众数、标准差、极差等。

通过描述性统计分析，可以对实验数据有一个整体的认识。

2. 推断性统计分析推断性统计分析是基于样本数据对总体特征进行推断和推理。

常用的推断性统计分析方法有假设检验和置信区间估计。

通过推断性统计分析，可以对总体特征进行推断，判断实验结果的显著性和可靠性。

3. 相关性分析相关性分析是研究两个或多个变量之间的关系强度和方向性的方法。

常用的相关性分析方法包括皮尔逊相关系数和斯皮尔曼等级相关系数。

通过相关性分析，可以研究变量之间的相关关系，发现变量之间的规律和联系。

以上介绍了物化政专业实验数据处理的基本流程和常用的统计分析方法。

实验数据处理和统计分析是物化政专业学生必须掌握的技能，对于实验结果的准确理解和科学研究具有重要意义。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第四讲统计分析及数据处理一、描述性统计分析在统计工具箱中，一般将向量视为随机样本，如果分析对象是矩阵，则将矩阵的每一列视为随机变量的样本。

mean(x) 当x 为向量，返回向量的均值，当x 为矩阵，返回矩阵每列元素均值构成的行向量。

特例min 、max 、sort 、median 、std 、var 、sum 、prod 、cumsum 、cumprod 等函数的用法与mean 类似。

cov(x,y) 求样本x 与y 的协方差。

（11()()1n x y i i i S x x y y n ==---∑）cov(X) 这里X 是矩阵，将矩阵各列看成一个样本，求样本的协方差矩阵。

corrcoef 用法与cov 类似，求相关系数或相关系数矩阵。

（xyxy x y S R s s =）[y,I]=sort(x) 当x 为向量，y 返回x 的升序排列，I 返回y 各元素原来的位置，即y=x(I)，当x 为矩阵，分别对各列排序。

如果要按降序排列，[y,I]=sort(x,’descend ’)，如果要将矩阵的各行排序，[y,I]=sort(x,2)。

[y,I]=sortrows(x,k) 将矩阵x 的各行按第k 列的升序排列.y=prctile(x,p) 当x 为向量，y 返回x 的p%下分位数，当x 为矩阵，分别求各列的下分位数。

相关知识：样本百分位数（percentiles ）将样本()12,,,n x x x 按升序排列为()(1)(2)(),,,n x x x ，则样本的p%下分位数表示这样一个值p x ：比p x 小的样本占总样本数的p%，当p=50时的下分位数称为中位数。

trimmean(x,p) 剔除上下各(p/2)%数据以后的均值。

例4.1：data=[11 57 29;13 54 78;10 66 54;9 46 37;16 75 24;15 70 56;9 40 31];观察下列指令的运行结果：mean(data)std(data)var(data) %考虑var(data)与std(data)的关系cov(data)corrcoef(data)[y,I]=sort(data)[y,I]=sortrows(data ，2)prctile(data,[25,50])median(data)trimmean(data,20)二、概率函数y=pdf(dist,x,p1,p2,…) 返回以p1,p2,…为参数的服从dist 分布的概率密度函数（Probability density functions ）在x 处的值。

常用分布及相关参数为：dist 说明参数 ‘bino ’ or ‘Binomial ’ 二项分布B(n,p) n,p‘chi2’or ‘Chisquare’χ2分布χ2(n) n‘exp’or ‘Exponential’指数分布μ‘f’or ‘F’F分布F(n1,n2) n1,n2‘norm’or ‘Normal’正态分布N(μ,σ) μ,σ‘poiss’or ‘Poisson’泊松分布P(λ)，λ‘t’or ‘T’t-分布T(n) n‘unif’or ‘Uniform’连续型均匀分布U(a,b) a,b‘unid’or ‘Discrete Uniform’离散型均匀分布U(n)y=cdf(dist,x,p1,p2,…) 返回dist分布在x处的分布函数值(Cumulative distribution functions)。

y=icdf(dist,x,p1,p2,…) 求逆分布函数值（即下分位数）y=normpdf(x,mu,sigma) 正态分布N(mu,sigma)的概率密度值p=normcdf(x,mu,sigma) 正态分布N(mu,sigma)的分布函数值x=norminv(p,mu,sigma) 正态分布N(mu,sigma)的p下分位数。

例4.2：观察下列指令，并解释其概率意义。

>> a=normpdf(90,80,10)-normpdf(70,80,10)>> b=normcdf(90,80,10)-normcdf(70,80,10)>> p=(1-b)/2;c=norminv(p,80,10)>> d=norminv(1-p,80,10)>> pdf('norm',90,80,10)>> p=cdf('norm',90,80,10)>> icdf('norm',p,80,10)>> icdf('t',0.95,20)>> pdf('bino',5,10,0.5)三、统计推断1、参数估计[mu,sigma,muci,sigmaci]=normfit(x,alpha) 正态总体N(μ, σ2)的参数估计，x 为样本数据，alpha 为显著性水平（缺省值为0.05），输出mu 和sigma 为总体均值和标准差的点估计值，muci 和sigmaci 为相应的区间估计。

phat=mle(data,’distribution ’,dist) 根据数据data ，求分布dist 中参数的极大似然估计phat 。

2、假设检验ttest 单样本的t-检验，主要格式：[h,p]=ttest(x,m,name,value) 检验零假设0:H m μ=，其中x 是来自方差未知的正态总体。

输出h 的值为0或1，若h=1，则拒绝零假设，否则若h=0，则不能拒绝零假设；同样，p 值的大小也可以对假设进行推断，若p<alpha,则拒绝原假设。

name 和value 是可选的成对的属性及其取值，主要控制显著性水平和被择假设，如’alpha ’属性表示显著性水平（缺省值为0.05），’tail ’表示被择假设的类型，tail=0（默认）表示1:H m μ≠（双侧检验），tail=1表示1:H m μ>，tail=-1表示1:H m μ<。

ttest2 两个独立的正态总体的均值是否相等的假设检验。

[h,p]=ttest2(x,y,name,value) 其中x 是来自正态总体N(μ1, σ12)的样本，y 是来自N(μ2, σ22)的样本，方差均未知，零假设012:H μμ=。

成对参数选项与ttest 相同之外，还有属性’vartype ’，可选值为’equal ’(表示方差相等)和’unequal ’（表示方差不等）。

3、分布的检验h=jbtest(x) 检验样本数据x 是否来自均值和方差未知的正态总体，返回值h=1表示拒绝来自正态总体的假设，h=0则做出相反的结论。

h=kstest(x) 检验样本数据x 是否来自标准正态分布的总体。

h=kstest2(x,y) 检验两个数据样本x 和y 是否具有相同的连续分布，若h=1,则拒绝原假设，即x 和y 是来自不同的分布。

例4.3：>> x=randn(200,1); %生成来自标准正态分布的200个随机数>> [h,p]=kstest(x) %检验是否服从标准正态分布h = 0 %接受原假设，即服从标准正态分布 p = 0.7723 % p>0.05 ,同样表示接受原假设>> [mu,sigma,muci,sigmaci]=normfit(x) %参数估计mu = 0.0252 %均值的点估计值sigma = 1.0883 %标准差的点估计值muci = -0.12650.1769 %均值的区间估计sigmaci = 0.99111.2068 %标准差的区间估计>> h=ttest(x) %检验均值是否为0h = 0 %接受原假设例4.4：>> x=binornd(10,0.8,200,1); %生成服从二项分布B(10,0.8)的200个随机数>> mle(x,'distribution','bino','ntrials',10) %对B(10,p)中参数p的极大似然估计ans = 0.8065例4.5：测得一批钢件的20个样品的屈服点（单位：T/mm2）为4.985.11 5.20 5.11 5.00 5.61 4.88 5.27 5.38 5.205.46 5.27 5.23 4.96 5.35 5.15 5.35 4.77 5.33 5.54并假设屈服点服从正态分布。

已知总体均值为5.20，试判断该样本均值与总体均值之间是否有显著差异。

即检验原假设0: 5.20H x>> x=[4.98 5.11 5.20 5.11 5.00 5.61 4.88 5.27 5.38 5.20 ...5.46 5.27 5.23 4.96 5.35 5.15 5.35 4.77 5.33 5.54]; >> [h,p,ci]=ttest(x,5.20) %总体均值的t-检验h = 0 %接受原假设，即样本均值等于5.20p = 0.8796 % p>0.05 ，同样表示接受原假设ci = 5.1052 5.3098 %样本均值的置信区间例4.6：对两种不同的水稻品种A，B分别统计了8个地区的单位面积产量（单位：kg）。

品种A：86 87 56 93 84 93 75 79品种B：80 79 58 91 77 82 76 66试检验两个水稻品种的单位面积产量之间是否有显著差异。

即检验原假设0:A BHμμ=>> x=[86 87 56 93 84 93 75 79];>> y=[80 79 58 91 77 82 76 66 ];>> [h,p,ci]=ttest2(x,y) %两个正态总体均值相等的t-检验h = 0 %接受原假设，即两个品种没有显著差异p = 0.3393 %p>0.05，接受原假设ci = -6.4236 17.4236 %均值差的置信区间例4.7：下面列出了84个伊特拉斯坎（Etruscan）人男子的头颅的最大宽度（mm），试检验这些数据是否服从正态分布。

141 148 132 138 154 142 150 146 155 158150 140 147 148 144 150 149 145 149 158143 141 144 144 126 140 144 142 141 140145 135 147 146 141 136 140 146 142 137148 154 137 139 143 140 131 143 141 149148 135 148 152 143 144 141 143 147 146150 132 142 142 143 153 149 146 149 138142 149 142 137 134 144 146 147 140 142140 137 152 145在命令窗口输入：>> x=[141 148 132 138 154 142 150 146 155 158 ...150 140 147 148 144 150 149 145 149 158 ...143 141 144 144 126 140 144 142 141 140 ...145 135 147 146 141 136 140 146 142 137 ... 148 154 137 139 143 140 131 143 141 149 ... 148 135 148 152 143 144 141 143 147 146 ... 150 132 142 142 143 153 149 146 149 138 ... 142 149 142 137 134 144 146 147 140 142 ... 140 137 152 145];>> [h,p,jbtest,cv]=jbtest(x) %正态总体分布的假设检验h = 0 %接受原假设，即服从正态分布p = 0.5000 %p>0.05，与上述结论一致jbtest = 0.7399 %检验统计量cv = 5.3417 %拒绝零假设的临界值，即拒绝域为（5.3417，+∞）四、插值和曲线拟合在生产实践和科学研究中，常常有这样的问题：由实验或测量得到变量间的一批离散样本点，要求得到变量之间的函数关系或得到样本点之外的数据。