“华为杯”竞赛论文模板

合集下载

2014年第十一届全国研究生数模竞赛获奖论文-C题

2014年第十一届全国研究生数模竞赛获奖论文-C题
M 1 m M / 2 n , l 0,..., L 1 hl [n] blm exp j 2 k KN m0
(7)
其 中 K 为 过 采 样 倍 数 , CE-BEM 不 存 在 过 采 样 倍 数 K 1 , GCE-BEM 和 OGCE-BEM 2 Kf d NT / M OGCE-BEM 中的过采样倍数 K 2 ; k 。 CE BEM and GCE BEM 1 (2) 多项式 BEM 模型(P-BEM) 多项式 BEM(P-BEM)运用泰勒级数展开并近似得到,此时信道估计的数学 模型为[2]
二、问题假设
1. 多条路径之间信道数据相互独立; 2. 不考虑无线通信信道的阴影衰落; 3. 不考虑背景电磁波对通信频段的干扰; 4. 不考虑信道数据采样所造成的误差; 5. 不考虑具体的载波搬移方式 。
三、符号说明
1. 2. 3. 4. 5.
v: c: f: fd : Vd :
移动台运动速度 电磁波传播速度 3 105 km/s 载波频率 平移台运动速度 归一化最大平移台运动速度
M 1 N hl [n] blm n , l 0,..., L 1 2 m0 m
(8)
这里介绍的 P-BEM 模型,釆用单一的多项式,在信道变化比较平缓的时候 模型误差较小,但 P-BEM 模型对多普勒扩展比较敏感,在高的多普勒扩展下性 能下降比较明显。 3. 模型性能评价指标 为了比较各 BEM 建模的拟合性能, 定义 BEM 信道建模的归一化均方误差 (Normalized MSE, NMSE)为
-6-
NMSE
| h (n) h (n) |
n 0 l 0 N 1 L 1 n 0 l 0 l l

第十届华为杯全国研究生数学建模竞赛获奖论文

第十届华为杯全国研究生数学建模竞赛获奖论文

参赛密码(由组委会填写)第十届华为杯全国研究生数学建模竞赛学校上海工程技术大学参赛队号10856015队员姓名1.徐小剑2.谭英花3.徐彪参赛密码(由组委会填写)第十届华为杯全国研究生数学建模竞赛题目中等收入定位与人口度量模型研究摘要:中等收入人口比重是反映收入分配格局的重要指标,这一人口比重越大,意味着收入分配结构越合理,称之为“橄榄型”收入分配格局,这种收入格局下,社会的差距不大,有利于社会的稳定。

本文主要是明确中等收入群体的含义,对题目提到的测定中等收入群体的现有方法进行改进,对一系列收入数据进行定量描述,分析一定时间内某个区域的中等收入人口的变化,最后提出题目提到的方法之外的方法对中等收入人口进行测算。

对于问题1,本文在满足(9)式的基础上,构建关于),pL的新模型,即(L(p)=pα(tan(p*pi/4))υ,其中α≥0,υ≥1。

利用Mathematica编制程序,应用lsqnonlin 非线性最小二乘拟合函数,求解模型参量,拟合出洛伦兹曲线,并对参考文献中的10个模型进行拟合。

然后,采用均方误差(MSE,mean squared error)的方法,对新建的模型与来自参考文献中的10个模型进行拟合精度的比较,RESNORM值反映新建模型的拟合精度较好,高于部分模型。

对于问题2,改进方法一,用部分排序法对收入空间法进行改进,其原理在于,中等收入是一个变化的区间,随着收入水平的提高,中等收入人口的比重会有所变化,一般而言是增加,那么中等收入人口的比例范围也应有所增加,而不是一个固定的区间,将范围依次确定为75%~125%、75%~150%,从而实现纵向比较。

但该方法改进有限,文章又提出改进方法二,用模糊分析法进行改进,让收入人口的收入比例随即在区间[(1-a)*S1,(1+a)*S1]内变化。

对于人口分布法的改进,主要考虑不同社会发展阶段,中等收入人群的比重是不一样的,除去固定比重的局限,选择不同的参数值对应的人口比例区间进行计算,同时可以结合基尼系数G帮助选择。

华为杯报告_匡鑫_刘洋 Verilog

华为杯报告_匡鑫_刘洋 Verilog

电光学院第六届华为杯电子设计竞赛报告题目:数字AGC的FPGA实现学院:南京理工大学电光学院姓名:匡鑫、刘洋时间:2015年5月一、题目要求1.任务用数字方法设计一个自动增益控制(AGC)电路。

2.要求1.基本要求利用EDA实验平台中的A/D、D/A扩展版设计并实现一个AGC电路,要求输入信号频率为100KHz,最大幅度为2VPP,实现方法参考下图:(1)设计接口电路,用ADC对输入信号进行采样,并用DAC恢复输入信号。

(2)实现对输入信号的手动增益控制。

2.发挥部分(1)实现对输入信号的自动增益控制,要求输出信号幅度保持2VPP,AGC的动态范围不小于20dB。

(2)进一步提高AGC电路的动态范围,优化响应时间和幅度稳定度。

(3)其他功能,自由发挥二、实现原理和结果分析1.利用按键开关实现手动控制。

原理:先将DDS源发生的信号送入AD转换,转换后的值乘以增益k,然后输出到DA转换,最后用示波器显示。

原始信号频率为100k,根据奈奎斯特采样定理fs至少为200k才能保证恢复原始信号。

当然采样频率越高越好,(频率很高时,单周期内的样点数较多,不用插值恢复即可得到完美的波形)由于AD/DA芯片支持最高20M的采样率,这里我们采用12M的采样率,直接用系统48M时钟4分频得到,免去设计复杂的非整数分频的分频器。

得到8位采样数据后,应用寄存器将其保存。

同时将8位按键开关的输入值用寄存器保存。

将二者相乘输出到10位DA转换。

这里应当注意考虑溢出和可调节范围(即动态增益)的问题。

通过推算,参考电压Vref是4v,要求输入峰峰值电压Vpp是2v代码中,如下代码较为合适,兼顾增益和调节范围。

assign da_out=ad_reg_in*reg_key/16;实验结果:成功实现256梯度调节,但是调节过程较麻烦,而且不能做到连续调节。

下面讨论改进方案。

2. 利用旋钮实现连续控制看到实验板上有个旋钮,于是考虑用旋钮实现手动调节,更加方便实用。

华为杯第十五届全国研究生数学建模竞赛

华为杯第十五届全国研究生数学建模竞赛
5
航迹的其余航迹点仍需通过前面规定的“同源检验”),该航迹就被继续保留。针对上述 航迹维持策略,协同无人机编队的飞行,有可能产生更多的虚假航迹。该组网雷达系统 的每一部雷达的数据更新率仍为 10 秒。至多还可产生出多少条虚假的航迹。给出每一 架无人机的运动规律和协同策略,分析每一条虚假航迹的运动规律和合理性。依次完成: a) 讨论由 9 架无人机组成的编队在 5 分钟内,完成附件 1 要求的虚假航迹。 b) 讨论完成上一步的前提下,讨论至多还可产生出多少条虚假的航迹,给出每一架无人
2
一、 符号说明
Ait
第 i 架无人机 t 时刻的空间位置
B kt
第 i 架无人机 t 时刻被干扰雷达的 空间位置
Ct i, p
t 时刻第 i 架无人机产生的第 p 个 有源假目标的空间位置
disit, j
t 时刻第 i 架无人机与第 j 架无人机 的距离
disitm ,tn 第 i 架无人机 tm 时刻和 tn 时刻空间 位置距离
“华为杯”第十五届全国研究生 数学建模竞赛
题目
(E)多无人机对组网雷达的协同干扰
摘要
组网雷达系统的工作原理是应用两部或两部以上空间位置互相分离而覆盖范围互 相重叠的雷达观测或判断目标,具有搜索、跟踪和识别的功能,在军事中被广泛应用。 为摆组网雷达系统的“监视”,研究无人机如何对组网雷达系统进行有效干扰成为了一项 重要的研究课题。本文基于当前研究,建立多无人机对组网雷达系统协同干扰的数学模 型,以最优化理论为基础,利用遗传算法和蚁群算法寻找在无人机飞行姿态约束条件下, 虚假目标航迹给定时的最少无人机架数最优解和无人机架数给定时的最多虚假目标航 迹最优解;除此,本文还分析了组网雷达系统的融合机制对最优解的影响。本文的研究 算法和计算结果能为多无人机对组网雷达系统协同干扰的研究提供一定帮助。

数学建模优秀论文

数学建模优秀论文
参赛密码 (由组委会填写)
第九届“华为杯” 全国研究生数学建模竞赛


北京交通大学
北京邮电大学
参赛队号 1. 队员姓名 2. 3.
K002 曾龙基 杨 韩 涛 江
-1-
参赛密码 (由组委会填写)
第九届“华为杯”全国研究生数学建模竞赛
题 目
基于卫星云图的风矢场度量模型与算法探讨(D 题)

要:
云导风矢量是描述示踪云运动向量,根据云移动情况,在一定程度上反映 风场的度量。 风矢量可通过对具有一定时间间隔的两幅相关卫星云图分析获得。 本模型问题一中海岸线的数据值并不是与圆锥投影坐标系中的坐标值一一 对应的,因此需要进行坐标转换的工作。本文采用解析几何的方式求解出海岸 线经纬度坐标对应圆锥投影系中的坐标值,并通过画图的方式将卫星云图灰度 图与海岸线坐标结合。 本模型问题二中云块的识别本质上是图像模板匹配问题,本文采用的主算 法为交叉相关系数法。针对实际情况中可能出现的匹配多峰值问题,提出改进 交叉相关系数法,主要是通过甄别判定方式实现的:选取最优的前 α%个点,采 取距离标准差方式,生成权重向量,匹配的结果由加权平均的方式获得。 本模型问题三中需要解决的是模板匹配的精度问题,在传统算法中,是在 固定窗口大小和搜索范围内,对云迹风进行模板匹配识别。其存在着以下几个 问题:1.搜索范围可能不满足云快速变化的趋势,导致匹配结果错误;2.对于不 同的云,需要的窗口大小并不一致,有效的自适应算法可以减少计算复杂度。 在此情况下,本文提出了自适应调整窗口大小和搜索范围算法模型。当获得风 矢集合以后,需要采用质量控制的方法对上述求得的原始云迹风场进行优化, 目的在于剔除不满足风场时空连续性和风矢唯一性要求的劣质风矢,以提高输 出的云迹风场的质量,并达到优化效果目的。 本模型问题四主要是通过灰度值与压强值的对应关系找出风矢所在的等压 线,本文提出了映射的流程,可以有效的通过灰度值获得压强值。 关键词:云导风, 模板匹配, 自适应,质量控制, 交叉相关系数

2023年华为杯数学建模写作模板

2023年华为杯数学建模写作模板

2023年华为杯数学建模写作模板尊敬的评委们:感谢您们百忙之中抽出时间来审阅我们的数学建模报告。

本文档将向您展示我们团队在2023年华为杯数学建模竞赛中所完成的工作,并详细介绍我们对于问题的解决方案和模型的建立与验证过程。

在这篇报告中,我们将按照以下的结构来展示我们的研究成果:第一部分:问题分析与建模思路在这一部分,我们将对于竞赛问题进行详细的分析,并分析问题的关键点与难点。

我们会给出我们的建模思路,并解释为什么我们选择了特定的建模方法来解决这一问题。

通过这一部分的介绍,您能够清晰地了解我们团队在问题分析和建模思路上所做的工作。

第二部分:模型建立与求解这一部分是我们报告的核心部分。

我们将详细地介绍我们建立的数学模型,并解释模型中每个变量和参数的含义与作用。

我们还会逐步展示模型求解的过程,包括数据的预处理、数值计算的方法与步骤。

通过这一部分的介绍,您能够了解我们是如何通过数学方法来解决这一问题的。

第三部分:模型验证与灵敏度分析为了验证我们建立的模型的有效性和准确性,我们进行了详细的模型验证过程。

我们将给出模型验证的指标和方法,并展示实际数据与模型结果的对比。

同时,我们还进行了灵敏度分析,以评估模型对于参数变化的敏感程度。

这一部分将展示我们模型的可靠性和鲁棒性。

第四部分:结果分析与优化方案在这一部分,我们将对模型的求解结果进行详细的分析,并给出针对不同情况下的优化方案。

我们将考虑实际应用中的限制和约束条件,并提出可行的解决方案和策略。

我们的目标是通过科学合理的分析和优化来达到问题的最佳解决方案。

最后,我们将通过总结来总结我们的研究成果,并对未来的工作和改进方向提出建议。

我们感谢您的审阅,并诚挚希望我们的报告能对您有所启发。

如果您在审阅过程中有任何问题或建议,我们将非常欢迎您的反馈和指导。

全国研究生数学建模论文模板

全国研究生数学建模论文模板

参赛密码(由组委会填写)第九届“华为杯”全国研究生数学建模竞赛学校参赛队号队员姓名参赛密码(由组委会填写)第九届“华为杯”全国研究生数学建模竞赛题目摘要:目录一、问题的重述............................................................1.1 问题由来 ..........................................................1.2 问题要求 ..........................................................1.3 问题的提出 ........................................................二、问题的假设............................................................三、符号说明..............................................................四、问题的分析 (2)五、模型的建立与求解 ......................................................5.1 问题1的分析与求解 ................................................5.2 问题2的分析及求解 ................................................5.3问题3,4的求解....................................................六、模型优缺点及其改进 ....................................................一、问题的重述1.1 问题由来1.2 问题要求1.3 问题的提出二、问题的假设三、符号说明a:b:c:r::四、问题的分析4.1对问题1的分析4.2对问题2的分析4.3对问题3和问题4的分析五、模型的建立与求解5.1 问题1的分析与求解5.2 问题2的分析及求解5.3问题3,4的求解六、模型优缺点及其改进参考文献:。

2014“华为杯”建模竞赛A题优秀论文

2014“华为杯”建模竞赛A题优秀论文

xt As t nt
T
T
(1)
式中, st s1 t , , s N t 为 N 维未知源信号矢量; xt x1 t , , xM t 为 M 维 观测数据矢量, A 为 M N 维混合矩阵。利用信号在时域和频域上的差别和统计特征, 分离源信号中各个独立成分。 2.5 对问题 5 的分析 利用问题 4 中的信号分离模型, 分离出与视觉刺激相关的脑电波成分和可能与呼吸 相关的脑电波信号成分。 然后通过相关性分析与刺激相关的脑电波与刺激曲线之间的相 关性。筛选出进行视觉刺激的两幅图片对应的时间坐标,提取出图片 1 对应的脑电波和 图片 2 对应的脑电波,然后进行方差分析,分析其是否具有显著性差异。
5 模型的建立
5.1 信号分离模型 5.1.1 模型介绍 近几年来, 盲信号分离已成为信号处理学界和神经网络学界共同感兴趣的研究热点 领域,并获得了迅速的发展。简而言之,盲信号分离就是根据观测到的混合数据向量确 定一变换,以恢复原始信号或信源。典型情况下, 观测数据向量是一组传感器的输出, 其中每个传感器接收到的是源信号的不同组合。 术语“盲”有两重含义 : (1)源信号不能被观测; (2)源信号如何混合是未知的。 显然, 当从信源到传感器之间的传输很难建立其数学模型,或者关于传输的先验 知识无法获得时,盲信号分离是一种很自然的选择。 5.1.2 FFT 算法 FFT,即为快速傅氏变换,是离散傅氏变换的快速算法,它是根据离散傅氏变换的 奇、偶、虚、实等特性,对离散傅立叶变换的算法进行改进获得的。它对傅氏变换的理 论并没有新的 FFT 算法图即蝴蝶算法发现, 但是对于在计算机系统或者说数字系统中应 用离散傅立叶变换,可以说是进了一大步。 为了在科学计算和数字信号处理等领域使用计算机进行傅里叶变换, 必须将函数定 义在离散点上而非连续域内,且须满足有限性或周期性条件。这种情况下,序列 xn n 0 的离散傅里叶变换为:
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

竞赛论文模板Realthought题目降低汽油精制过程中的辛烷值损失模型摘要:本文主要针对汽油辛烷值进行量化分析,依据从催化裂化汽油精制装置采集的325个数据样本(每个数据样本都有354个操作变量),通过降维分析法找到主要变量,并且借助数据挖掘技术来建立汽油辛烷值(RON)损失的预测模型,找出每个样本的优化操作条件,在汽油产品脱硫效果得到有效保证,并且满足产品硫含量不大于5μg/g的前提要求下,尽量降低汽油辛烷值损失在30% 以上。

针对问题1,原始数据采集来自于中石化高桥石化实时数据库(霍尼韦尔PHD)及LIMS 实验数据库,其中操作变量数据来自于实时数据库,特点是变量较多且数据采集时间长,导致数据精确处理难大,特别地会有空值或者是部分为空值,所以首先要对原始数据做一些处理后方可使用。

针对问题2,由于催化裂化汽油精制过程是连续的,虽然操作变量每3 分钟就采样一次,但辛烷值(因变量)的测量比较麻烦,一周仅2次无法对应。

但根据实际情况可以认为辛烷值的测量值是测量时刻前两小时内操作变量的综合效果,因此预处理中取操作变量两小时内的平均值与辛烷值的测量值对应,从367个操作变量中通过降维的方法筛选出建模主要变量,使之尽可能具有独立性、代表性,特别地将原料辛烷值纳入变量,从而找到建模地主变量。

针对问题3,采用上述样本和建模主要变量,将数据分为训练集和测试集,通过深度学习技术进行建模,进而构建深层神经网络并进行模型验证。

针对问题4,为寻找最优操作变量,我们通过构建粒子群算法,找到可接受的最优辛烷值的操作变量参数。

针对问题5,将问题4的过程进行可视化即可。

_关键词:汽油辛烷值;操作变量;分析降维法;深层神经网络;预测模型;操作变量优化;模型可视化展示;粒子群算法。

目录一,问题重述 (2)1、背景叙述 (2)2、数据采集 (3)3、问题解析 (3)3、1问题1,处理数据 (3)3、2问题2,寻找建模主变量 (6)3、3 问题3,建立辛烷值(RON)损失预测模型 (8)3、4 问题4,主要操作变量方案的优化 (9)3、5问题五,模型的可视化展示 (13)二、问题结论 (13)1、问题1、2:数据处理结果 (13)2、问题3,建立辛烷值(RON)损失预测模型 (13)3、问题4、5,操作方案的优化及模型可视化 (13)三、参考文献 (14)一,问题重述1、背景叙述在世界的各个角落,小型车辆的主要燃料是汽油,然而汽油燃烧产生的尾气排放大气中,对大气环境有不可忽略的重要影响。

因此,在各个国家切合本国国情并且日益严格的汽油质量标准相继被拟定出来。

汽油清洁化重点是尽量保持其辛烷值的同时,降低汽油中的硫、烯烃含量。

图1中国作为全球主要石油消费大国之一,其中超过70%原油要依赖进口,且从中东地区进口的大部分原油都不同程度含有较高的硫。

原油中的重油通常占比40-60%,这部分重油(以硫为代表的杂质含量也高)很难充分直接利用。

为了加大重油资源的利用效率,我国大力发展了以催化裂化为核心的重油轻质化工艺技术,以此将重油转化为相对环保的汽油、柴油和低碳烯烃等可使用油。

在我国,由催化裂化生产得到超过70% 的汽油,因此催化裂化汽油提供了成品汽油中95% 以上的硫和烯烃。

因而有必要对催化裂化汽油进行进一步的精制化处理,从而达到对汽油辛烷值达到国家标准或者更优。

辛烷值(以RON表示)是对于汽油燃烧性能最重要的指标,并且汽油的商品牌号(例如89#、92#、95#)以辛烷值作为标准。

然而,现有以催化裂化汽油的方法进行脱硫和降烯烃过程中,汽油辛烷值普遍偏低。

根据目前市场价来计算,每降低1个单位的辛烷值,相当于约150 元/吨的损失。

以一个100 万吨/年催化裂化汽油精制装置为例,若能降低RON损失0.3个单位,其经济效益损失将达到四千五百万元。

一般通过数据关联或机理建模的方法来实现化工过程的建模,虽然已经取得了不错的成果,但是出于炼油工艺过程的复杂性以及设备的多样性的原因,使得它们的操作变量(控制变量)之间有高度非线性和相互强耦联的关系存在,然而传统的数据关联模型中存在变量相对较少存在,使得机理建模对原料的分析要求较高,同时过程优化的响应并不及时,因而并未达到理想的效果。

某石化企业运行了4年催化裂化汽油精制脱硫装置,积累了大量可用的原始数据,有平均为1.37个单位的汽油产品辛烷值损失,然而同类装置的最小损失值仅仅只有0.6个单位,因而优化空间比较大。

本文将探索利用数据挖掘技术来解决化工过程建模问题,通过模型可视化方法,从而达到找出优化汽油辛烷值的目的。

2、数据采集从LIMS实验数据库及中石化高桥石化实时数据库(霍尼韦尔PHD),我们得到大量的原始数据,其中实时数据库为我们提供了大量的操作变量数据,采集时间从2017年4月至2020年5月,时间跨度大约为3年,采集操作位点数共354 个。

从2017 年4月到2019年9月,数据采集频次为3 分钟/次;自2019 年10 月至2020 年5 月,数据采集频次为6 分钟/次。

原料、催化剂和产品数据来源于LIMS的实验数据库,数据时间范围为3年,即从2017 年4 月至2020年5 月。

我们以每周2/次的采集频次,采集到重要的建模变量为原料及产品的辛烷值这两样数据。

3、问题解析3、1问题1,处理数据在原始数据中,大部分变量数据是正常的,但每套装置的数据难免都有部分位点会存在问题,部分变量只含有某时间段的数据,部分变量的数据部分为空值或全部数据为空值。

因此,处理后的原始数据方可以使用,我们对数据进行剔除或者补全两种办法进行预处理。

数据处理方法如下:步骤一:假如325个样本中数据全部为空值的位点,则表明对该问题毫无帮助,古我们只能选择删除。

步骤二:如果某个点位的缺失个数占总数据量的比值达到给定阈值,则将此点位删除。

在此假设下,情况(2)当归属于情况(1)。

根据数据取值范围信息,绝大部分操作变量取值范围不包含0 值,但亦有个别操作变量可取0值。

有鉴于此,我们假定,如果某个操作变量随时间的变化量取0值的个数占总量的比值也超过给定阈值,就把该操作变量当作不可置信的数据;另外,如果某个点位超出范围的数据个数占总数据量的比值达到给定阈值,则认为该点位置信度较差,将其删除。

此外,对于缺失值,我们也可以用缺失值比率的方法进行量化。

该方法基本的思想就是基于包含太多缺失值的数据列,则该数列包含有用信息的可能性也就应当越低。

所以,我们可以去掉数据缺失值大于某个阈值的列。

阈值越大,降维方法效果更佳。

一般地,数据缺失值大于90%的时候,我们可以考虑把这列去掉。

在某些特定的行业如信用评分建模时,我们可以考虑把缺失值大于90%的变量设置成特殊规则,这里我们考虑使用pandas 包的dropna 方法。

步骤三:对于部分数据为空值的位点,这里我们可以利用前后面的数值,然后用拉格朗日插值法,给空值位点赋值。

这里我们介绍一下拉格朗日值法在处理操作变量上的应用:命题1:假设有函数 是互不相等的一系列点这里的为有限个数列我们将称为关于的一阶差商(也称均差),可以记为即j i j i j i x x x f x f x x f --=)()(],[。

下面的式子,我们称为一阶差商的差商,即为)(x f 关于k j i x x x ,,的二阶差商,记为],,[k j i x x x f 。

一般地,称是)(x f 关于k x x x ,...,,10的k 阶差商。

定义了差商之后,我们发现了如下性质,有点像对称矩阵:此时我们要开始对公式进行预测,发现一阶是线性插值,然后可以逐次往高阶迭代。

线性插值表示为:称为一次Newton公式。

一般地,由各阶差商的定义,我们可的把以上式子从下往上依次带入,我们就得到一下多项式,。

这样我们就可以得到插值多项式和误差函数,及插值多项式为误差函数为步骤四:根据质量要求与操制经验,原始数据变量的操作范围需要被提取出来,然后采用最大最小的限幅方法找出一部分不在此范围的样本,然后予以剔除,具体操作就是如果某个点位超出范围的数据个数占总数据量的比值达到给定阈值,则认为该点位置信度较差,将其删除。

步骤五;去除异常值,我们用拉依达准则(3σ准则)。

具体操作如下:首先对被测量的数据进行处理,这里我们用精准测量的方法。

得到n x x x ,...,,21,把它们的算术平均值算出来,将i x x -=i v 作为剩余误差,并且σ由贝塞尔公式算出。

如果某个位点的剩余误差b v 与其测量值b x 达到σ3||||≥-=b b x x v 的条件,则认为b x 是含有较大误差,视为不好的值,应将其删除,或者用平均值代替。

贝塞尔公式如下:。

3、2问题2,寻找建模主变量由于催化裂化汽油精制过程是连续的,虽然操作变量每3 分钟就采样一次,但辛烷值(因变量)的测量比较麻烦,一周仅能完成至多完成两次测量。

但根据实际情况可以认为辛烷值的测量值是测量时刻前两小时内操作变量的综合效果,因此预处理中取操作变量两小时内的平均值与辛烷值的测量值对应这样产生了325个样本。

建立降低辛烷值损失模型涉及包括7个原料性质、2个待生吸附剂性质、2个再生吸附剂性质、2个产品性质等变量以及另外354个操作变量(共计367个变量),工程技术应用中经常使用先降维后建模的方法,这有利于忽略次要因素,发现并分析影响模型的主要变量与因素。

因此,根据提供的325个样本数据,通过降维的方法从367个操作变量中筛选出建模主要变量,使之尽可能具有 独立性 、代表性,为了工程应用方便,建议降维后的主要变量会控制在在30 个以下,并且将原料的辛烷值作为建模变量之一。

PCA 主成分分析方法可以实现把数据降维到30个维度以内,然后用回归分析的方法,进行曲线拟合,虽然能实现降维处理,但有可能拟合效果较差。

因此我们用数据挖掘技术,采用最小冗余最大相关(mRMR ) 这种滤波特征选择方法使之能够达到选择30 个以内的特征的目的。

这里我们将介绍mRMR 的基本原理。

有一种常用的特征选择方法就是分类变量与最大化特征之间的相关度,就是选择与分类变量拥有最高相关度的前k 个变量,然而,在特征选择中,单个好的特征的组合不能达到增加分类器的性能的目的,原因是有可能特征之间是高度相关的,这就导致了特征变量的冗余。

这就是Peng et.al 说的“the m best features are not the best m features ”。

因而找到一种实现最小化特征与特征之间的相关性或者最大化特征与分类变量之间的相关性的方法显得尤为重要,诞生mRMR 的背景就是如此。

互信息:假设y x ,为随机变量,然后给出他们的概率密度因变量为),(),(),(y x p y p x P ,则互信息为mRMR 的目的就是找出含有m 个特征子集的S 。

相关文档
最新文档