近红外光谱定量分析模型的样本影响研究
近红外光谱定量分析法的验证方法研究进展

近红外光谱定量分析法的验证方法研究进展近红外光谱分析法以其快速、无损、样品几乎无需处理、信息丰富等优点在制药领域得到了广泛应用。
在方法开发的生命周期中,分析方法需要经过规范的验证才能投入使用,而目前对于近红外光谱分析法的具体实验性验证尚无明确的标准与判别指标,各类文献报道中采用了不同的方式对近红外光谱分析法进行了评估与验证。
该文对药学领域近红外光谱定量分析法的验证进行综述,对现有的相关标准文件内容与主要的验证思路进行分析、讨论,为近红外光谱分析技术在药学领域的规范应用提供参考。
标签:近红外光谱法;方法验证;药物分析近红外(near infrared,NIR)光谱技术是20世纪60年代逐渐发展起来的一种光谱分析技术,最早应用于农业领域[1]。
NIR光谱易获取,包含丰富的信息,当引入化学计量学方法提取光谱信息后,NIR光谱技术得到了迅速发展,在烟草、食品、化工、医药等领域都显示出了其特有的优势。
分析方法的生命周期是一个动态过程,循环进行并不断改进[2]。
其中在方法开发完成后,为了证明所建分析法适用于分析目的[3],需要进行方法学验证。
验证结果从一定程度上反映了方法定性或定量的能力。
分析方法只有通过方法学验证才能证明其是有效的,由此保证该方法在常规使用中获得准确可靠的数据。
NIR光谱分析法通过校正建模技术建立光谱与指标间的模型,用模型来预测未知样品属性,同样需要进行方法学验证。
NIR光谱分析法的验证可以通过模型内部交叉验证和外部验证2种方式进行。
内部交叉验证通过内部检查获知模型性能,主要用于模型优化,常常需要与外部验证配合进行模型评价。
为了确认模型能否适应实际分析工作中可能遇到的样品,采用独立的样本集进行外部验证是比较合理的方案。
验证集的构建需要纳入实际分析中尽可能多的变异,由此获得的模型性能信息才足够可靠。
在药学领域,有一系列的标准与指南规定了NIR光谱分析模型的验证项目,使得方法验证有据可循,但仍缺乏更具体的实验性指导。
近红外检测实验报告

一、实验目的本次实验旨在通过近红外光谱法,利用近红外光谱仪对样品进行定量和定性分析,掌握近红外光谱分析的基本原理和实验技术,提高对样品成分、结构和性质的认识。
二、实验原理近红外光谱法是一种利用近红外光区(750-2500nm)的电磁波对物质进行检测的方法。
该波段的电磁波具有较长的波长,能够穿透样品,与样品中的分子振动、转动和电子跃迁相互作用,从而产生特征光谱。
根据样品的光谱特征,可以实现对样品的定量和定性分析。
三、实验仪器与试剂1. 仪器:海能Unity近红外光谱仪SpectraStar2500XL1、近红外光谱仪专用样品池、数据处理软件。
2. 试剂:实验样品、标准品、溶剂。
四、实验步骤1. 样品准备:将实验样品和标准品分别称量,按照一定比例混合,加入适量的溶剂,制成待测溶液。
2. 光谱采集:将待测溶液倒入样品池,置于近红外光谱仪中,采集光谱数据。
3. 数据处理:利用数据处理软件对采集到的光谱数据进行预处理,包括基线校正、平滑、一阶导数等操作。
4. 定量分析:根据标准品的光谱数据,建立定量分析模型,对实验样品进行定量分析。
5. 定性分析:根据实验样品的光谱特征,与标准品的光谱数据进行比对,判断实验样品的成分和结构。
五、实验结果与分析1. 定量分析结果:根据建立的定量分析模型,对实验样品进行定量分析,结果如下:样品名称 | 定量结果(%) | 相对误差(%)--------|--------------|--------------样品1 | 85.2 | 1.2样品2 | 78.6 | 1.5样品3 | 90.1 | 1.12. 定性分析结果:根据实验样品的光谱特征,与标准品的光谱数据进行比对,得出以下结论:样品1:含有成分A、B、C,结构较为复杂。
样品2:含有成分A、B,结构较为简单。
样品3:含有成分A、B、C、D,结构较为复杂。
六、实验讨论1. 近红外光谱法具有快速、简便、非破坏性等优点,适用于多种样品的定量和定性分析。
样本集选择对近红外定量分析模型稳健性影响研究的开题报告

样本集选择对近红外定量分析模型稳健性影响研究的开题报告一、选题的背景与意义随着近红外光谱技术在化学、医药、食品、环境等领域的广泛应用,近红外定量分析模型的建立和应用也变得越来越重要。
近年来,许多研究工作者在近红外定量分析领域进行了大量研究工作,但是由于样本集选择对近红外定量分析模型稳健性的影响还有待深入研究,因此本研究选取了样本集选择对近红外定量分析模型稳健性影响的研究方向。
本研究的意义在于探讨样本集选择对近红外定量分析模型稳健性的影响,提高模型的稳健性和泛化能力。
同时,研究结果可以为样本集选择提供一些理论依据和实践指导,为近红外定量分析模型的应用提供参考依据和实际应用的保障。
二、研究内容和方法1. 研究内容本研究主要包含以下内容:(1)分析样本集对近红外定量分析模型稳健性的影响;(2)建立多种近红外定量分析模型,并比较其稳健性。
2. 研究方法本研究采用以下研究方法:(1) 收集并预处理近红外光谱数据和实验数据,建立样本集;(2) 选择不同的样本集,分别建立近红外定量分析模型;(3) 对不同的样本集分别进行预测,并比较预测结果的差异;(4) 研究预测结果的差异与样本集选择的关系,并分析样本集对近红外定量分析模型稳健性的影响;(5) 计算并比较不同近红外定量分析模型的预测误差和稳健性。
三、预期研究成果与意义1. 预期研究成果本研究预期获得以下成果:(1) 确定样本集选择对近红外定量分析模型稳健性的影响;(2) 分析不同方法的模型比较,以得出最终预测结论的方法;(3) 建立近红外定量分析模型,并比较其稳健性。
2. 预期研究意义本研究的预期意义在于:(1) 深入研究样本集选择对近红外定量分析模型稳健性的影响,提高模型的稳健性和泛化能力;(2) 为近红外定量分析模型的实际应用提供理论依据和实践指导;(3) 为相关研究领域提供新的实验数据和实验方法。
现代近红外光谱技术及应用进展

现代近红外光谱技术及应用进展近红外光谱技术是一种快速、高效、无损的分析技术,广泛应用于化学、食品、药物等领域。
尤其是随着科学技术的发展,现代近红外光谱技术在样品制备、光谱采集、数据处理等方面都有了显著的提升,极大地扩展了近红外光谱技术的应用范围。
近红外光谱是指介于可见光和中红外光之间的电磁波,波长范围为700-2500nm。
现代近红外光谱技术利用近红外光子的能量和量子力学中的跃迁原理,通过对样品进行照射,使样品中的分子吸收近红外光子的能量后从基态跃迁到激发态,再返回基态时发出特征光谱。
通过对特征光谱进行定性和定量分析,可以获取样品的组成、结构和性质等信息。
化学分析:现代近红外光谱技术在化学分析领域的应用主要体现在有机物和无机物的定性和定量分析上。
例如,利用近红外光谱技术对石油样品进行定性和定量分析,可以有效地识别石油中的不同组分,同时也可以对石油中的含硫量、含氮量等进行快速准确的测定。
食品质量检测:在食品质量检测方面,现代近红外光谱技术可以用于食品成分分析、食品质量评估和食品掺假检测等。
例如,利用近红外光谱技术对奶粉进行检测,可以快速准确地检测出奶粉中的蛋白质、脂肪、糖等主要成分的含量。
药物研究:现代近红外光谱技术在药物研究方面的应用主要体现在药物成分分析、药物代谢研究和药物疗效评估等方面。
例如,利用近红外光谱技术对中药材进行检测,可以快速准确地测定中药材中的有效成分含量,为中药材的质量控制提供了一种有效的手段。
近年来,现代近红外光谱技术在国内外都取得了显著的研究进展。
在国内,中国科学院上海药物研究所利用近红外光谱技术对中药材进行有效成分的快速检测,取得了重要的成果。
国内的一些高校和研究机构也在近红外光谱技术的研究和应用方面开展了大量的工作,推动了近红外光谱技术的发展。
在国外,近红外光谱技术已经成为药物研发和食品质量检测的重要手段。
例如,荷兰的菲利普公司成功开发出了一款基于近红外光谱技术的药物代谢研究仪器,可以为新药的开发和疗效评估提供快速准确的数据支持。
近红外光谱分析法来检测饲料混合均匀度的方法-畜牧兽医论文-农学论文

近红外光谱分析法来检测饲料混合均匀度的方法-畜牧兽医论文-农学论文——文章均为WORD文档,下载后可直接编辑使用亦可打印——0 、引言饲料混合均匀度是衡量饲料加工工艺的重要指标,混合均匀与否关系到动物采食饲料能否获得全面、足够的养分;而对于占据我国饲料产品结构百分之八十(2011 年)以上的配合饲料来说,组分的均匀性更关系到动物发育生长及食用肉质的安全性。
目前,我国对于饲料混合均匀度的检测主要依据混合过程中饲料组分变异系数的化学试验值CV 值来确定。
一般的检测方法大多依赖试验室的化学分析,如沉淀法需利用四氯化碳对样本化学分离,甲基紫法需对示踪物甲基紫化学测定,摩尔法需配置碱性溶液、做滴定试验等。
这些方法不仅过程相对繁琐,对操作专业性与试验环境条件的要求较高,使得检测的难度与成本上升了很多,导致很多饲料厂只能通过延长混合时间或延缓检测周期来保证生产效率,降低成本。
因此,在我国饲料工业飞速发展的背景下,需要有一种准确、简易、无损的新型饲料混合均匀度检测方法来克服传统方法的缺陷。
近红外(Near infrared,NIR)光谱分析技术具有采样简单、数据分析快、无损检测等优点,近年来被广泛应用于农牧业、食品、药品及石化等多个行业。
就饲料工业而言,近红外检测的应用主要集中在饲料营养成分的测定、营养价值的评价、饲料矿物质、微量元素及其他次生物物质的测定。
在混合均匀度测定方面,近红外已经有被应用于药物均匀度检测的研究案例。
而关于营养价值评价当中的饲料均匀度检测所做的研究工作还极为有限。
由于配合饲料各组分对光谱反射特性的差异,本研究提出利用近红外光谱分析法来检测饲料混合均匀度,通过对配合饲料在混合不同阶段的样本分析,取得了光谱及均匀度变化的信息,并对比了 3 种不同的近红外定性分析法对均匀度判别的效果。
1 、仪器与设备光谱信息收集分析仪器,美国ASD 生产的Quali-tySpec Pro VNIR / SWIR1 5070 型可见近红外光谱仪;光纤(垂直测量角度:125)白板;铅蓄电池,CAMO 公司的Unscrambler X 化学计量学软件;仿丹麦4KB 型锤片式饲料粉碎混合机。
近红外光谱法定量分析及其应用研究

近红外光谱法定量分析及其应用研究一、本文概述随着科学技术的发展,光谱分析技术以其独特的优势在多个领域得到了广泛的应用。
其中,近红外光谱法作为一种重要的光谱分析技术,因其无损、快速、环保等特点,在定量分析领域具有独特的优势。
本文旨在深入探讨近红外光谱法定量分析的基本原理、方法、技术及其在各个领域的应用研究,以期为该领域的研究者提供有益的参考和启示。
本文将简要介绍近红外光谱法的基本原理和定量分析的基本方法,包括光谱数据的获取、预处理、特征提取以及模型的建立与优化等。
本文将重点分析近红外光谱法在农业、食品、医药、石油化工等领域的应用案例,探讨其在实际应用中的优势和局限性。
本文还将对近红外光谱法定量分析的发展趋势和前景进行展望,以期为该领域的发展提供新的思路和方向。
通过本文的研究,我们期望能够为近红外光谱法定量分析的理论研究和实际应用提供有益的参考,同时也希望能够推动该领域的技术创新和发展。
二、近红外光谱法的基本原理与技术近红外光谱法(Near-Infrared Spectroscopy,NIRS)是一种利用物质在近红外区(波长范围通常为780-2500nm)的吸收特性进行定性和定量分析的技术。
其基本原理主要基于分子振动产生的吸收光谱,这些光谱信息能够反映分子内部的结构和组成。
近红外光谱法的基本原理是物质对近红外光的吸收与其内部的分子结构、化学键合状态以及分子间的相互作用有关。
当近红外光通过物质时,某些特定波长的光会被物质吸收,这些被吸收的波长与物质的特定化学成分和分子结构密切相关。
因此,通过测量物质在近红外区的吸收光谱,可以获取到关于物质成分和结构的信息。
近红外光谱法的技术包括光谱采集、光谱预处理、模型建立与验证等步骤。
光谱采集是使用近红外光谱仪对样品进行扫描,得到其近红外吸收光谱。
光谱预处理是为了消除光谱中的噪声和干扰,提高光谱的质量和可靠性。
模型建立与验证是通过化学计量学方法,如多元线性回归、主成分回归、偏最小二乘回归等,建立光谱数据与物质成分之间的定量关系模型,并对模型进行验证和优化。
近红外光谱定量分析法的验证方法研究进展

近红外光谱定量分析法的验证方法研究进展作者:罗雨李文龙瞿海斌来源:《中国中药杂志》2016年第19期[摘要] 近红外光谱分析法以其快速、无损、样品几乎无需处理、信息丰富等优点在制药领域得到了广泛应用。
在方法开发的生命周期中,分析方法需要经过规范的验证才能投入使用,而目前对于近红外光谱分析法的具体实验性验证尚无明确的标准与判别指标,各类文献报道中采用了不同的方式对近红外光谱分析法进行了评估与验证。
该文对药学领域近红外光谱定量分析法的验证进行综述,对现有的相关标准文件内容与主要的验证思路进行分析、讨论,为近红外光谱分析技术在药学领域的规范应用提供参考。
[关键词] 近红外光谱法;方法验证;药物分析近红外(near infrared, NIR)光谱技术是20世纪60年代逐渐发展起来的一种光谱分析技术,最早应用于农业领域[1]。
NIR光谱易获取,包含丰富的信息,当引入化学计量学方法提取光谱信息后,NIR光谱技术得到了迅速发展,在烟草、食品、化工、医药等领域都显示出了其特有的优势。
分析方法的生命周期是一个动态过程,循环进行并不断改进[2]。
其中在方法开发完成后,为了证明所建分析法适用于分析目的[3],需要进行方法学验证。
验证结果从一定程度上反映了方法定性或定量的能力。
分析方法只有通过方法学验证才能证明其是有效的,由此保证该方法在常规使用中获得准确可靠的数据。
NIR光谱分析法通过校正建模技术建立光谱与指标间的模型,用模型来预测未知样品属性,同样需要进行方法学验证。
NIR光谱分析法的验证可以通过模型内部交叉验证和外部验证2种方式进行。
内部交叉验证通过内部检查获知模型性能,主要用于模型优化,常常需要与外部验证配合进行模型评价。
为了确认模型能否适应实际分析工作中可能遇到的样品,采用独立的样本集进行外部验证是比较合理的方案。
验证集的构建需要纳入实际分析中尽可能多的变异,由此获得的模型性能信息才足够可靠。
在药学领域,有一系列的标准与指南规定了NIR光谱分析模型的验证项目,使得方法验证有据可循,但仍缺乏更具体的实验性指导。
大豆质量检测的近红外光谱分析方法研究

大豆质量检测的近红外光谱分析方法研究一、前言大豆是一种重要的农作物,也是我国重要的经济作物之一,其质量检测的准确性对于大豆加工及销售至关重要。
传统质量检测方法需要耗费大量的时间和金钱,而近红外光谱分析方法则具有快速、便捷、可重复性强等优点,因此在大豆质量检测领域备受瞩目。
本文将介绍大豆质量检测中近红外光谱分析方法的研究进展及其应用。
二、近红外光谱分析法基本原理近红外光谱分析法是一种无损检测方法,与传统的化学分析方法相比,具有高效、准确、无需样品处理等优点。
其基本原理是将样品通过近红外光谱仪光路,收集其反射、透射或散射的光谱信号,并将其转化为能够体现样品组成的波长和强度数值。
通过对光谱数据的数学处理和分析,可以获得与样品组成相关的信息。
三、大豆近红外光谱分析法的研究进展1. 大豆主要成分的近红外光谱分析方法研究1996年,Liu等首次将近红外光谱分析方法应用于大豆主要成分的检测,探究了近红外光谱法在大豆成分分析中的应用。
在该研究中,Liu等通过主成分分析法(PCA)建立大豆中蛋白质、脂肪、水分和纤维素含量的模型,获得了较高的预测精度。
2. 大豆品质参数的近红外光谱分析方法研究近年来,国内外学者在大豆品质参数的近红外光谱分析方法研究方面取得了重要进展。
Yuan等通过近红外光谱法,建立了大豆蛋白质、脂肪、水分、色泽和氨基酸含量等品质参数的定量分析模型,实现了高效、准确、无损的大豆品质检测。
3. 近红外光谱分析法在大豆基因分型中的应用近年来,近红外光谱分析法被广泛应用于大豆基因分型中。
依托近红外光谱分析法,学者们研究了大豆芽、大豆豆角、大豆和黄豆等不同种类的基因分型,有效地区分了不同种类的大豆,并为大豆新品种的培育提供了技术支持。
四、大豆近红外光谱分析法的优点和应用1. 无损检测近红外光谱分析法无需样品处理,不会对样品造成伤害,因此可进行非破坏性检测,确保了样品的完整性和可重复性。
2. 高效、准确近红外光谱分析快速、准确、可靠,可同时检测多个指标,大大缩短了检测时间和降低了成本,提高了检测效率。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
( ) 4
’ ∰
种 情 况,
✕ e m p =
1 ^ ( ) ∳ ,θ (∳) æ ∑ ∰∳ =1 ^ 2 通常 = ‖æ ∳ - θ‖
可进行 ∬( 次 重 复 计 算 ,这 种 剩 余 样 本 验 证 误 差 作 为 ∬≤ ) 泛化误差的一个估计度量 , ( ) 2 1 ^ ( ) ✕v 5 ✕g e n = a l( ’) ∑ ∬∲ =1 ) 式( 中一个极端的特例 ,也是最常用的特例就是 ’=1, 5 ∬= ’, ( 此剩余样本验证 误 差 的 估 计 方 法 被 称 作 留 一 验 证 l e a v e ∰ , 。由 于 留 一 验 证 对 样 本 具 有 很 好 o n eo u tv a l i d a t i o n L O OV) 的无偏特性 ,所以常被用作泛 化 误 差 的 估 计 器 。上 述 原 理 同
[ 1]
泛 ,数据的分析建模算法也同 样 有 效 ,但 是 生 物 样 本 的 复 杂 性使得 N I R S 技术普遍 地 存 在 模 型 的 选 择 、失 效 、修 正 维 护 等问题 。生物样本与化学样本 之 间 存 在 本 质 的 差 别 ,生 物 样 本具有高变异性 、高 离 散 性 、低 稳 定 性 、干 扰 成 分 未 知 和 样 本采样受限等特点 ,这是大多数化学样本 分 析 时 不 存 在 的 问
’ ∰ ’
若θ 是能决定学习结果的 因 素 集 合 ,则 称θ 为 样 本 的 模 型参数 。 ^ ^ , 为希尔伯 θ 是由模型θ 得到的学习结果 。 ,θ ∈ ) 特( 空间 ,这是一个泛函 空 间 ,学 习 过 程 或 建 模 就 是 H i l b e r t 寻找经验数据风险误 差 最 小 化 的 模 型 θ o t 的 过 程 。通 常 经 验 p ) 风险误差可表示为式 ( 2
6] ,如图 1 所 示 ,其 中 1 样 本 预 处 理 ( , 制 备) 操 程[ 2测量(
推断统计 、分析信息对研究目 标 的 解 释 ,直 至 最 后 对 解 决 问 题的决策信息的提取和确定 。因此这种基 于 统 计 学 习 建 模 的 推断测量过程是一个相对复杂而内涵极其丰富的高知识密度 的技术系统 ,每个环节都涉及数学 、物理 、化学等学科或 光 、 机 、电 、算等工程领域的相关知识 。因此 ,可以认为 N I R S技 术是一种通过各种层面的高知识密度集 成 技 术 ,在 数 据 及 分 析模型基础上最大限度地获取各种物理化学信息或生物信息 的一种综合性极高的现代测量技术方法 。
∰ ɶ∑提出的分析测量流程框图 ∰∯ ‟ ∳ ‟∭ ‟ ˋ ∑∭ ∰ ˇ’ ∑ ‟ ‟∑∭ æ ∰ ɶ∑
上述分析问题的过程可以被归于统 计 学 习 理 论 范 畴 ,其 过程是一种研 究 训 练 样 本 有 限 情 况 下 的 机 器 学 习 规 律 的 学 科 。统计学习理论从一些观测 ( 训 练) 样 本 出 发 ,试 图 得 到 一 些目前不能通过原理进 行 分 析 得 到 的 规 律 ( 可精确表述的数 ,并利用 这 些 规 律 来 分 析 和 解 释 客 观 对 象 ,从 而 可 学模型 ) 以利用规律来对新的样本或数据的较为 准 确 的 推 测 。数 学 上 可看作是基于经验数据进行函数估计问 题 ,或 者 说 是 在 离 散 数据基础上寻找近似的函数依赖关系 。 一般来说 ,在基于大小为 ∰ 的 样 本 集 ,考 虑 逼 近 目 标 函 数的学习问题 ,可表示为 : 设学习目标 函 数 ( ) 维欧几里德 ∹ 是 ∈ ∹ , ( ) 空间 。训练样本由样本点解释数据 ∭ 和相对应的样 E u c l i d ) 本响应数据值 æ 1 ∭ 构成 ,见式 ( (∳, (∳) ={ β +ε } ∳) ∭ = æ æ
∳ =Ω ∳ ∳ =1
) 理论 ,可以得到 一 个 经 验 误 差 与 实 际 误 差 二 者 之 d i m e n s i o n 差的上确界 , s u β✕ p e x e m p -✕ p β= φ ( ) 即 β✕ 3 e x e m ≤φ p -✕ pβ ) 式( 中✕ 3 ✕ e x e m p 是期望误差 , p 是经验 误 差 ,通 常 可 以 将 所 求 模型与数据之间的拟合残差 作 为 经 验 误 差 , φ 是经验误差的 置信范围 。 1 2 基于子空间信息重采样的期望误差估计 实际上 ✕ e x p 是不可预知的 ,但 是 利 用 子 空 间 信 息 的 重 采
7] 。通 过 样 本 集 样方法 ,可以提供一种期望误 差 的 估 计 手 段 [ 合 学习得到 的 一 个 模 型 的 估 计 解 表 示 为^ 。若 想 子模型 群 集 学 习 的 思 路 来 实现 。选择具有∰-’ 个样本空间的子样本空间表示为
∰-’
, 作) 3 信号校验 , 4 评价/校正 , 5数 据 解 释 与 评 价, 6& 7化 学计量算法 。该过程从采样和 选 择 分 析 方 法 开 始 ,经 过 试 验 设计 、测量过程 的 控 制 和 优 化 、分 析 仪 器 所 得 信 号 的 处 理 、
图 1 ∳ 1 ∯ ∬ ∳ ∑ ∭
近红外光谱定量分析模型的样本影响研究
郑 峰1,刘丽莹1,刘小溪2,李 野1,石晓光1,张国玉1,宦克为1
1.长春理工大学 ,吉林 长春 1 3 0 0 2 2 2.吉林省科学技术信息研究所 ,吉林 长春 1 3 0 0 0 0
摘 要 作为二次分析方法 ,近红外光谱分析 的 重 现 性 和 可 靠 性 非 常 依 赖 于 建 模 过 程 。以 近 红 外 光 谱 小 麦 蛋白质定量分析模型为例 ,研究了多变量定标 建 模 过 程 中 异 常 样 本 问 题 ,旨 在 讨 论 复 杂 样 本 建 模 中 的 样 本 对模型的影响和作用 。以 P L S R 算法建模中校正方差与验 证 方 差 的 解 释 百 分 比 曲 线 的 背 离 特 性 作 为 异 常 样 本存在的判据 ,当两个百分比曲线显著偏离时 ,则认为 样 本 集 中 存 在 异 常 样 本 ,并 对 建 模 产 生 了 显 著 影 响 。 异常样本的识别和处理 ,以及影响分析是本文 主 要 的 创 新 性 工 作 ,采 用 了 基 于 样 本 删 除 的 子 模 型 遍 历 统 计 方法 ,能够渐次识别并提取出异常样本 。在剔除异常样本后的模型预测结果中 ,以模型的预测残差标准差作 为参考距离对异常样本进行了离群程度分级 ,可分为显著离群样本 ,相对离群样本以及潜在离群样本 ,数据 集 中显著离群样本约占 7 . 8% ,相对离群样本约占 1 5 . 6% 。异常样本对模型的影响表现在对正常样本的预测 残差上 ,使预测值偏离理想拟合直线 ,分散性增加 。剔除异常样本或以样本权重建模可有效抑制异常样本的 影响 ,使模型的解释性更偏向于多数样本数据 ,降低模型的经验风险误差 。 关键词 近红外光谱 ;样本影响 ;灰色系统 ;子模型群集学习 / ( ) 中图分类号 : . i s s n . 1 0 0 0 0 5 9 3 O 6 5 7 . 3 文献标识码 :A ⦠ : 1 0 . 3 9 6 4 2 0 1 6 1 1 3 5 2 3 0 7 j 间关系的紧密性 ,N I R S在 生 物 领 域 的 研 究 与 应 用 也 非 常 广
其中 “ 广义 ” 一词的含义意指先验信息 非 常 少 。本 文 以 近 红 外 光谱小麦蛋白质定量模型的样本影响统 计 诊 断 为 例 ,重 点 研
5] 究根据统计学习理论 [ 和子模型信息进 行 模 型 优 化 。对 于 信
息有限的灰色系统建模问题来讲 ,在异常 样 本 识 别 后 建 立 的 模型更具健壮性 。
,
, ∳ ∈ ❋, ∳ ∈ æ ( ) 1
在这个 子 样 本 集 合 上 学 习 得 到 的 一 个 模 型 估 计 解 表 示 为 ^S n -p ,可以用余下 的 ’ 个样本上的误差来反映实际的期望 误差 ,将这个剩余样本的误差 叫 做 验 证 误 差 ,作 为 期 望 误 差 ( ) 或泛化误差 ) 的一种估计 ,可表示为式 ( 4 1 ^ -’ (∳) ( ) ✕v a l( ∳, ∰ ’)= æ ∑ ’∳ =1 ∰-’ 子 集 的 构 建 属 于 抽 样 组 合 ,可 有 由 于
3 4] , 谱建模问题被梁逸曾教授称为广义灰色系统的建模问 题 [
。在 化 学 领 域 的 应 用 过 程 中 ,由
于大多数研究对象通常具有相对稳定的 成 分 构 成 ,不 含 或 极 少存在干扰杂质成分 ,使得 N I R S技术可以非常有效地取代 很多传统化学测量方法 ,极受 化 学 分 析 工 作 者 的 关 注 ,随 之 产生了 大 量 的 关 于 该 技 术 中 数 学 算 法 的 研 究 工 作 , 使 得 N I R S 的建模算法的发 展 极 为 迅 速 。由 于 生 物 和 化 学 领 域 之
3 5 2 4
光谱学与光谱分析 第 3 6卷 数据的处理与分析 ,再到数据 模 型 的 评 价 解 释 、分 析 结 果 的
1 原 理
1 1 分析测量过程和统计学习 按照德国的分析化学家 D a n z e r教 授 对 分 析 测 量 过 程 的 描绘 ,整个测量过程实际上是一个解决实 际 分 析 问 题 的 全 过
引 言
吸收光谱在近红外光谱区已成为一个非常普遍的能得到 产品指纹特征 质 量 指 标 的 测 量 方 法 。近 红 外 光 谱 ( 技 N I R S) 术是一种通过多元数据处理或其他化学计量学方法进行建模 预测的二次测量方法 。作为一 种 二 次 测 量 方 法 ,近 红 外 光 谱 分析技术的重现性和稳健性非常依赖于 统 计 建 模 过 程 ,光 谱 数据的数学处理和基于适当的参考方法校准使得化学成分或 物理性质可以通过近红外光谱来确定 。由 于 该 方 法 的 非 入 侵 无损检测形式和快速多指标同时确定的 特 点 ,被 广 泛 地 应 用 于化学和生物领域的研究
2 0 1 5 0 8 0 5,修订日期 : 2 0 1 5 1 2 2 1 收稿日期 : , 气象 ) 科研专项课题( 2 0 1 4 年度国家公益性行业 ( G YHY 2 0 1 4 0 6 0 3 7) 2 0 1 1年高等学校博士学科点专项科研基金联合资助项目 基金项目 : ( ) 资助 2 0 1 1 2 2 1 6 1 1 0 0 0 6 : 1 9 8 1 年生 ,长春理工大学博士研究生 e m a i l f e n 1 2 1 4@1 2 6. c o m 作者简介 :郑 峰 , g : m a i l h u a n k e w e i 2 6. c o m 通讯联系人 e @1