第七章-数据处理

合集下载

第七章结构试验的数据处理

第七章结构试验的数据处理（P135）
第一节数据的整理和换算第二节误差分析第三节数据的表达

第一节数据的整理和换算

数据的整理：剔除不可靠或不可信数据和统一数据精度；
数据的换算：把整理后的试验数据通过基础理论来计算另一物理量的过程。《数值修约规则》（P239页）。

四舍五入？？

ห้องสมุดไป่ตู้
3、过失误差
人为产生的差错。
第二节误差分析

误差：真值与测试值的差值，由于真值无法测试，所以通常用平均值代替真值。

一、误差的分类（P238） 1、系统误差（准确度表示）由某些固定原因所造成，在整个测试过程中始终存在，其绝对值和符号保持一定规律变化。

2、随机误差（精密度表示）
由随机因素造成，其绝对值和符号变化无常，但是符合正态分布。

第七章静态测试数据处理

而在一般测量工作中，测量次数远小于370次，因此，如果
出现绝对值大于3 的误差，就可以认为，这个误差属于过失误差。因此，可以把3 作为区分随机误差和过失误差的一种
界限。
图7-3是标准差与测量次数n的关系曲线，从图中可以
看出，当测量次数较少时，增加测量次数，可明显减小测量误差；但当测量的次数超过15～20次时，再增加测量次数，则测量误差几乎不变。
测试误差按其性质的不同分为三类，即：系统误差随机误差过失误差（粗大误差）
系统误差保持一定数值或按一定规律变化的误差，称为系统误差。如：由于仪器标度尺刻划的不准确；测量者观察仪器指针时习惯于斜视等原因引起的误差，就具有系统误差的特性。
随机误差即使在相同的条件下，对同一参数重复的进行多次测量，所得到的测定值也不可能完全相同。其测量误差具有各不相同数值与符号，这种误差称为随机误差。
分布检验法
因为随机误差服从正态分布，所以只包含随机误差的测定值也服从正态分布。如果发现测定值不服从正态分布，就有理由怀疑测定值中包含变化的系统误差，这就是分布检验法的基本思想。显然，分布检验法只适用于重复测量次数足够多的情况。
3）系统误差的消除
由于产生系统误差的原因非常复杂，消除系统误差不可能有统一的方法,因此需根据具体情况，采取适当的措施。消除系统误差可从以下两方面着手。
第七章静态测试数据处理
本章的主要内容有测量误差、测量列的处理步骤与测量结果的表达、一元线性回归和多元线性回归方法等。
7.1 测量误差
一、测试精度与误差测试精度：又称为精确度，用来描述测量结果与真值的接近程度。测试误差：在任何测量中，由于各种因素的影响，测量所得到的数值与被测参数的真值不可能完全相同，而总会有差别，这个差别称为测试误差。

误差理论与数据处理第七章动态测试数据处理基本方法

误差理论与数据处理第七章动态测试数据处理基本方法第七章《动态测试数据处理基本方法》是《误差理论与数据处理》一书中的重要章节。

本章主要介绍了动态测试数据处理的基本方法，包括对动态测试数据进行平均处理、标准差处理、最小二乘法拟合以及误差传递等内容。

首先，动态测试数据处理一般需要进行数据平均处理，通过多次测试得到的数据进行求和并取平均值，以提高测试结果的准确度和可信度。

对于多次测试的数据，可以使用算术平均法、几何平均法或加权平均法等方法进行平均处理。

其次，动态测试数据的标准差处理是对数据的离散程度进行衡量的一种方法。

标准差可以反映数据的稳定性和可靠性，通过计算数据的标准差可以判断数据的散布范围。

标准差越小表示数据集中度越高，数据的可信度也越高。

进一步，最小二乘法拟合是一种常用的数据处理方法，可以通过对实际测量数据进行拟合，得到一条或多条曲线，以求解相关物理参数或者确定拟合曲线的函数表达式。

最小二乘法拟合可以将实际测量数据与拟合曲线之间的差异最小化，得到最优解。

最后，误差传递是动态测试数据处理中一个重要的概念。

在实际测试中，各种测量仪器的误差是不可避免的，这些误差会传递到最终的测试结果中。

误差传递原理可以通过误差传递公式来描述，同时也需要考虑误差的传递规律和误差的传递方式。

总之，动态测试数据处理是现代科学实验中必不可少的一个环节。

通过对动态测试数据进行平均处理、标准差处理、最小二乘法拟合以及误差
传递等基本方法的应用，可以提高数据的准确性和可信度，为科学实验的研究结果提供有力支撑。

误差和分析数据处理

第二节误差及其表示方法
为了减小误差，提高分析结果的准确度，必须了解分析过程中各种误差的来源及规律，正确设计和控制卫生分析的测试过程，对实验数据进行正确处理，使分析误差减小到预期水平。一、误差（error）（一）误差的分类、产生的原因及消除方法误差按其性质和产生的原因，可以分为系统误差、随机误差和过失误差。
第七章误差和分析数据处理
第一节概述第二节误差及其表示方法第三节数据处理第四节质量控制简介
第一节概述
一、分析数据的质量检测数据的质量包括：（1）代表性：决定
于调查或取样的方案，采样人员的资职和技能，样品的采集、保存与运输的技术。（2）可靠性：决定于分析技术，它由数据的精密度和准确度组成。（3）可比性：是指在权威性
2、随机误差（random error）
（1）在系统误差已消除的情况下，测量结果减去在相同条件下对同一被测物进行无限多次测量结果的平均值即为随机误差。
随机误差遵从正态分布，具有如下特点： a. 有界性； b. 单峰性； c. 对称性； d. 抵偿性。（2）产生的原因是大量随机因素造成的误差的迭加。（3）减小随机误差的方法增加测量次数。
不确定度的A类评定用对观测列进行统计分析的方法来评定标准不确定度，
称为不确定度A类评定；所得到的相应标准不确定度称为A类不确定度分量。它是用实验标准偏差来表征。不确定度的B类评定
用不同于对观测列进行统计分析的方法来评定标准不确定度，称为不确定度B类评定；所得到的相应标准不确定度称为B类不确定度分量。它是用实验或其他信息来估计，含有主观鉴别的成分。对于某一项不确定度分量究竟用A类方法评定，还是用B类方法评定，应有测量人员根据具体情况选择。B类评定方法应用相当广泛。

第七章工程的变形监测和数据处理

• 3、运动模型： • ①回归模型（缺点：回归多项式过于简单；每个点都模拟相同的速度和加速度；相邻点间相差很大，产生不连续。） • ②卡尔曼滤波模型（优点：有严密的递推算法；不需要保留使用过的观测值序列；可把模型参数预计与预报结合起来。） • 4、动态模型： • 不仅研究点的运动，同时还研究引起运动的作用力。
变形模型
• 一、变形影响因子和动态变形模型变形影响因子和动态变形模型 • 1、变形影响因子－－引起变形的原因。它包括：地壳运动、基础变形、地下开采、地下水位变化、建筑荷载等。 • 2、动态变形数学模型：
y (t ) = ∫ g (t ) x(t − T )dT
0
∞
• • • •
二、典型动态变形模型典型动态变形模型分类：周期模型非周期模型：[跳跃变化（突变）、线性变化（渐变）] • 突变模型：
变形监测资料整理、变形监测资料整理、成果表达和解释
• 一、资料整理资料整理： • 1、资料整理——对原始资料进行汇集、审核、整理、编排，使之集中、系统化、规格化和图表化，并刊印成册。
• 2、资料整理的目的： • 便于应用分析； • 提供资料和归档保存。
• 3、资料整理的内容： • ①收集资料； • ②审核资料； • ③填表和绘图； • ④编写整理成果说明。 • 4、观测资料分析分类： • 定性分析；定量分析；定期分析；不定期分析；综合分析。
• 三、测量方法选择所应考虑的问题：测量方法选择所应考虑的问题： • 1、测量精度的确定： • 应尽可能采用所能获得的最好的仪器和技术，达到其最高精度。 • 2、一周期内观测时间的确定： • 对于长周期可以考虑用大地测量技术； • 对于短周期可以考虑用摄影测量或自动化测量。 • 3、监测费用的确定： • ①、建立检测系统的一次性花费。 • ②、每一个观测周期花费。 • ③、维护和管理费。

第7章快速成型技术中的数据处理

第一节 CAD三维模型的构建方法
1.2 反求工程
新产品开发过程中的另一条重要路线就是样件的反求。反求工程技术（Reverse Engineering，RE）又称逆向工程技术，是20世纪80年代末期发展起来的一项先进制造技术，是以产品及设备的实物、软件(图纸、程
序及技术文件等)或影像(图片、照片等)等作为研究对象，反求出初始的
第二节 STL数据文件及处理
2. STL的二进制文件格式
二进制文件采用IEEE类型整数和浮动型小数。文件用84字节的头文件和50字节的后述文件来描述一个三角形。注意到每个面目录都是50个字节，如果是所生成的 STL 文件是由 10000 个小三角形构成的，再加上84字节的头文件，该二进制STL文件的大小便是84＋50×10000 ＝500084 B≈0.5MB。若同样的精度下，采用 ASCII 形式输出该 STL 文件，则此时的 STL 文件的大小约为6×0.5MB=3.0MB。
第二节 STL数据文件及处理
2.1 STL文件的格式
STL文件的主要优势在于表达简单清
晰，文件中只包含相互衔接的三角形片面
节点坐标及其外法矢。STL数据格式的实质是用许多细小的空间三角形面来逼近还
原CAD实体模型，这类似于实体数据模型
的表面有限元网格划分，如图7-5所示。 STL模型的数据是通过给出三角形法向量的三个分量及三角形的三个顶点坐标来实现的。STL文件记载了组成STL实体模型的所有三角形面，它有二进制（BINARY）和文本文件（ASCII）两种形式。
第七章快速成型技术中的数据处理
1
2 3 4 5
CAD三维模型的构建方法
STL数据文件及处理三维模型的切片处理 STL数据编辑与处理软件Magics RP CT图像数据处理软Mimics

误差理论第七章动态测量数据处理

2
Sx ( f )
Gx ( f )
（3） Gx ( f ), S x ( f )
0 （4） S x ( f ) 的特性 S x ( f ) 是非负实偶函数 S x ( )
f
傅立叶变换
Rx ( )
17
§7-3 随机过程特征量的实际估计
一、平稳随机过程及其特征量（一）平稳随机过程
若随机过程x(t)的所有特征量与t无关，即其特征量不随 t 的推移而变化，则称x(t)为平稳随机过程。否则称为非平稳随机过程。
（三）自相关函数（相关函数）
反映随机过程不同时刻之间的相关程度。即：
Rx (t , t ) E[{x(t ) mx (t )}{x(t ) mx (t )}]
Rx (t , t ) 标准自相关函数： x (t , t ) x (t ) x (t )
平稳随机过程据又分为各态历经和非各态历经。
8
动态测试数据
确定性数据周期数据正弦周期复杂周期非周期数据
随机过程数据
平稳过程各态历经非各态历经
9
非平稳过程
准周期
瞬态数据
§7-2 随机过程及其特征
一、研究随机过程理论的实际意义由于被测量随时间、空间连续变化，导致测量过程和结果是随时间而连续变化。
x(t )
x(t )
x(t )
0
平稳随机过程
t 0
t 0
非平稳随机过程
t
18
平稳随机过程的条件： ①随机过程是平稳的第一个条件是均值为常数；
mx (t ) mx C
②随机过程是平稳的第二个条件是其方差为常数；

第7章调查数据的处理

注意：变量名和变量标签不能重复，多选题尤其要注意。
录入数据
利用SPSS进行数据管理
打开SPSS数据库→进入数据视图
(1)每一行代表一份问卷数据 (2)每一列代表一个变量
数据视图页面
本章结构
1. 审核数据的主要方法 2. 编码的规则 3. 利用SPSS管理数据 4. 清洗数据的主要方法
清洗数据
审核数据的主要方法
（2）审核数据的步骤
审核数据主要包括三个步骤，即检查问卷数据、接收问
卷数据和校对问卷数据。
第一步：检查问卷数据
内容包括： ①受访对象是否符合样本配额和问卷甄别要求； ②问卷回收是否超过了时限要求； ③问卷是否填写完整； ④是否存在规律性回答； ⑤是否存在没有按要求回答。并尽可能了解其中的原因。
清洗数据
③离群值检测与处理
处理方法：删除异常值个案进行变量变换
不是关键变量时，设为缺失值。 ③放弃整份问卷。当不合要求问卷占样本量比例很小，且不
合要求的答案比例很大或者关键变量值缺失时，放弃整份问卷。 ④返回现场重新调查。当总体样本量很小，不合要求问卷比
例较高时（超过10%），根据问卷作业证明记载信息进行回访，尽可能补上缺失值。
本章结构
1. 审核数据的主要方法 2. 编码的规则 3. 利用SPSS管理数据 4. 清洗数据的主要方法
利用SPSS进行数据管理
定义打开SPSS数据库→进入数据视图→打开变量视图变量
变量名
变量标签变量值标签
需要定义
变量视图
变量度量标准
变量类型缺失值
默认即可
变量显示格式
利用SPSS进行数据管理
定义变量名：
变量名建议采用字母+数字形式

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第七章数据处理及应用【教学目的】：本章着重介绍数据的插值、拟合与多元回归分析,并利用Ｍatlab相应工具结合具体案例进行分析。

【教学重点难点】：教学重点:插值与拟合,回归分析,聚类与分类。

教学难点：定性与定量的结合，如何在定性分析基础上给出适当的定量关系。

【课时安排】:8学时【教学方法】:采用多媒体教学手段，配合实例教学法，通过对典型例题的讲解启发学生思维，并给与学生适当的课后思考讨论的时间,加深知识掌握的程度。

安排一定课时的上机操作。

【教学内容】：7.1数据插值与拟合在工程和科学实验中，当研究对象的机理不清楚的时候，经常需要从一组实验观测数据(x i , y i) (i= 1, 2, …，n)中寻找自变量x与因变量y之间的某种函数关系y＝ｆ(x)。

比如测量了人的身高和体重的一些数据,要确定两者的函数关系,但身高与体重的机理我们不清楚，所以寻找尽量吻合这组测量数据的近似函数模型就很重要了。

函数f(x）的产生办法因观测数据与要求的不同而异,通常可采用数据插值与数据拟合的方法。

7.1.１数据插值１．插值问题的描述对给定的一组测量数据,要确定通过所有这些数据点的曲线或曲面的问题就是插值问题。

对一维插值问题可以这样描述：设f(x)在区间[a, b]上连续,x０，x1,…,x n为[ａ,b]上ｎ１个互不相同的点，且已知f（x)的一组实验观测数据(xｉ, ｙi ) (i = 1，２,…, n)，要求一个性质优良、便于计算的近似函数ϕ(ｘ)，使得i i y x =)(ϕ,i =0,1,…,n （7．1）成立，这就是一维插值问题。

其中称[a ， b ]为插值区间，点ｘ0，x 1,…，x n 为插值节点，函数ϕ（ｘ）为插值函数，f （x )为被插值函数,式(１)为插值条件。

求插值函数ϕ(x )的方法称为插值法。

关于高维插值可类似定义,本节只介绍一维和二维插值。

2.基本插值方法简介插值函数的取法很多,可以是代数多项式，也可以是三角多项式或有理函数;可以是[a ,ｂ］上任意光滑函数，也可以是分段光滑函数。

对一维插值,最常用最基本的插值方法有:分段多项式插值与三次样条插值；二维插值根据数据分布规律可分为网格节点插值和散乱数据插值，相应的方法有双三次样条插值方法和改进的Sh ｅp ａr ｄ方法。

具体的方法原理请参阅计算方法的专业书籍,这里不再详细介绍。

下面我们着重介绍M ａｔl ａb 中如何实现数据插值。

3.插值方法的Ｍatlab 实现一维数据插值MATL ＡB 中用函数in ｔerp1()来处理一维数据插值，它提供了四种插值方法供选择:线性插值、三次样条插值、三次插值和最临近插值。

命令 int ｅr ｐ1格式 y i = ｉnter ｐ1（x ， y, x ｉ, 'ｍeth ｏd') ％对被插值节点x i , 用me ｔhod 方法进行插值.说明 (1）.输入参数说明:x ，ｙ为插值节点，均为向量;x i 为任取的被插值点,可以是一个数值,也可以是一个向量；y i 为被插值点x i 处的插值结果；（2）.其中m ｅthod 是选用的插值方法，具体有：'ｎeａrest'—表示最临近插值'ｌinear'—表示线性插值,默认＇cubic'—表示三次插值'spline'—表示三次样条函数插值注意上述mｅｔhod中所有的插值方法都要求x是单调的,并且x i不能超过x的取值范围,其中最后一种插值的曲线比较平滑；（３)三次样条插值函数的调用格式有两种等价格式：yｉ= iｎterｐ１(ｘ，y，xｉ，'spline')ｙｉ=spliｎe(x, ｙ, xｉ)例1：下表给出了12名成年女子的身高与腿长的测量数据：试研究身高与腿长的关系，并给出身高为１４８、1５0、160时腿长的预测值。

解：在matlab中输入代码:158ﻩ１５9ﻩ1６２ 164]；%插x=[143 1４5 1４6ﻩ１４9ﻩ15３15５ﻩ１56 １５7ﻩ值节点ﻩ９3 96 9８97ﻩ９6 98 70 ７2]；y=[88 85ﻩ８8ﻩ92x１=143:０.2：164; %被插值节点，用于确定插值函数．pｌot(ｘ,y，'o');hｏld ｏｎ%原始测量数据散点图.ｙ1=interp1（x，y,x１,＇sｐlｉne');%求被插值节点处的函数值．yp=inｔerp1(x,y,[１４8 1５0 16０],＇spｌｉne') %求身高为１４8、１5０、160时腿长.plot(ｘ１,y１，x,y,'r：'）%画出插值函数图形及测量数据的折线图.ｘlａbｅl('身高'),ｙlaｂel('腿长＇) %加坐标轴标签输出结果为:ｙｐ=9１.4561 ９2.194２99.47８7 %对应身高的腿长输出图形见图7．1：图7.1注意:1).mａtｌａb只会给出被插值节点处的函数值，而不会给出具体的函数解析表达式，这有点类似于我们求微分方程的数值解。

需要求点对应的插值（未知的)，可以将被插值节点放在xｉ中;2).图7．1中有三条曲线，其中圆圈点是原始测量数据点（横坐标为插值节点)，实线是插值函数图形，虚线是插值节点间的连接折线段。

二维数据插值针对二维插值中的插值基点为网格节点和散乱节点,MＡTLAＢ中分别提供了函数ｉｎｔｅrｐ２()和gｒiddaｔa()来进行二维插值。

先介绍规则区域上给定数据有规律分布的二维插值。

命令ｉntｅrp2格式ｚi＝inteｒp2（ｘ,y, z，x i, y i, ＇method') %针对网格节点的二维插值．说明（1）.输入参数说明：ｘ，y,ｚ为插值节点，其中x和y是自变量，x是ｍ维向m 阶矩阵,表量,指明数据网格的横坐标，y是n维向量，指明数据网格的纵坐标,z是n示相应于网格点的函数值；z i 为被插值点(ｘｉ, yｉ) 处的插值结果；（2).其中methｏd是选用的插值方法,具体有：'ｎeaｒest'—表示最临近插值'lｉneaｒ'—表示双线性插值,默认'ｃuｂic'—表示双三次插值'spline'—表示双三次样条函数插值注意上述ｍeｔhod中所有的插值方法都要求x和y是单调的网格,x和y可以是等距的也可以是不等距的。

xｉ和ｙｉ应是方向不同的向量,即一个是行向量,另一个是列向量。

几种方法中最后一种插值的曲面比较平滑。

例2:已知在某山区测得一些地点的高程如下表。

其平面区域为≤x,360040001200≤≤y,试用不同的插值方法作出该山区的地貌图。

1200≤解：输入程序代码：x=１20０：4００:400０;y=1200：4０0:3６０0;z=[１１30 1250ﻩ12３0ﻩ7４0 900 ５00 700128085０1320 1450 14２0 14０0 13０0 700 9０0ﻩ1390 1500 1５00 1４0０900 17０76095０1500 １２0０170ﻩ1350ﻩ14５0 1200 11５０771500 １２０0ﻩ071155０16０0 1550 13８０７7０1500ﻩ1550ﻩ16001５50 160０１60０ﻩ１6００１5５0１4８０1５０0ﻩ15５0 157 1430 1３0０ﻩ1２0０９８０]; ％原始数据的山区地貌图figｕrｅ（1)meshz(x,y，z）xlａｂel('X＇)，ｙlabｅl('Y'),zlaｂel（'Z＇）title（'原始数据地貌图＇）%为平滑曲面，加密网格x１=1200：50:4０００;y1=1200:50:3６00;%最临近插值fiｇurｅ（2）ｚｎ=iｎterｐ2(x,y,ｚ,x1,y１＇,'ｎeareｓt＇)；ｓｕｒｆc(x１，y1,zn)xｌabｅl（'X'），ylabeｌ('Y'）,zlabｅl('Z')title('最临近插值地貌图'）%双线性插值ｆiｇｕre(3）zｌ=interp２(x,y,z,x1，ｙ1','ｌiｎeａr'); surfc(x1,ｙ1,zl)ｘlabｅl('Ｘ'），ylabｅl('Y'）,zｌabel(＇Z') ｔiｔle（＇双线性插值地貌图'）%双三次插值fiｇure(4)zc＝interp2(x,y,ｚ,x１，y１'，'cubic'); surfc(x１,y１,ｚc)xｌabel('X'）,ｙlabel('Y')，zｌabel('Z＇) tiｔlｅ('双三次插值地貌图＇)%双三次样条函数插值figｕre（5)zs=interp2(ｘ，ｙ，z,ｘ1,y1',＇splｉnｅ'); surfｃ（x1，y1,zs)xlabel('Ｘ'）,ylａbeｌ(＇Y')，zlaｂel（'Z') ｔiｔlｅ('双三次样条函数插值地貌图') 输出可视化图形分别见图7.2—图７．6:图7.2图7.3图7．4 图7.5图7.6从图形可以看出，原始数据地貌图是很粗糙的,因为测量点比较少。

几种插值方法中最临近插值和双线性插值效果较差，而最后一种插值的曲面比较平滑，效果较好。

如果给定的数据是在规则区域上的散乱数据或随机分布的数据,即数据不是在网格上取的，则可用函数gｒiddaｔa（)来解决二维插值问题。

命令griddａｔa格式zｉ=griｄｄata(x, ｙ，z, x i，y i, 'method') %针对散乱数据的二维插值．说明(１).输入参数说明:x，y,z都是n维向量，分别指明所给插值节点的横坐标、纵坐标和z坐标；z i 为被插值点(x i, ｙi) 处的插值结果；x i和y i应是方向不同的向量，即一个是行向量,另一个是列向量；(2)．其中method是选用的插值方法，具体有:'neａrｅst'—表示最临近插值＇lｉｎeａr'—表示双线性插值,默认'cubic'—表示双三次插值'v４'—表示mａtlab提供的插值方法其中'ｖ４'方法比较好。

针对二维散乱插值问题,在ｍａｔlab中还提供了两个插值函数：e01sef(）和ｅ01sｆｆ（)。

通常两者要配合使用，其调用格式为:[fnodｅｓ, ａ, ｒｎw, b,c] =e01sｅｆ(x，y，z)[sｚ（i，ｊ), ifail] =ｅ０1sｆf(ｘ, ｙ，z,rnw, ｆnｏdｅs, sx(ｉ),sy（j)）其中：x, y, ｚ—为插值节点，均为n维向量;sx(i), sy（j）—为被插值节点;sｚ（i, j）—为被插值点(sx(i）,ｓy(j))处的插值结果；其他输出参数涉及插值算法。