中红外光谱预测牛奶及奶产品成分含量的回归模型及其特点
近红外光谱分析技术在奶制品检测中的应用

2 原理和方法
2.1 近红外光谱原理
近红外光谱(Near Infra Red Spectrum, NIRS) 是指介于可见光和中红外的电磁波,其波长范围为 780nm~2526nm[2]。近红外光谱主要是由于分子振 动的非谐振性使分子振动从基态向高能级跃迁时产生 的,记录的是分子中单个化学键的基频振动倍频和合 频信息,它常常受含氢基团x-H(x为C、N、O)的倍频 和合频的重叠主导,所以在近红外光谱范围内,测量 的主要是含氢基团x—H振动的倍频和合频吸收。通过 扫描样品的近红外光谱,可以得到样品中有机分子含 氢基团的振动情况,从而能反映有机分子的组成成分 信息。
3.3 奶制品成分在线及现场检测
在线检测是指没有人工介入的情况下,与近红外
37
Vol. 4 No.2/ Feb. 2010 仪器相连的计算机自动实时提供分析数据。现场分析 是指充分利用近红外光谱技术快速方便的特征,实时 检测待测物光谱数据,并现场给出分析结果。在线检 测能够保证生产过程的全程质量监控,现场检测有利 于及时发现质量问题,控制问题产品的扩散。 在牛奶生产过程中,由于要达到出厂产品一致化 的目标,有时常常需要保持原料成分含量的一致性, 有时需要保持发酵进程的统一性。然而,现实加工过 程的连续性又不能使生产过程停止来满足检测合格的 目的。近红外技术适于在线检测的特点与光纤技术相 结合具有实现生产过程实时控制的潜力。 国内关于近红外对奶制品的现场在线分析有一 些理论研究,如朱俊平等(2003)[16]使用多元线性回归 法分别建立了用近红外检测的儿童高钙奶粉水分、蛋 白、脂肪、乳糖和蔗糖的快速测定模型。将近红外法 的测定结果和标准方法的测定结果进行了比较,比较 结果相当一致。他们认为近红外光谱法可以用于奶粉 生产过程中的质量控制,并可为食品的无损、快速检 测提供一种新的方法。刘蓉等(2005)[17]利用半数重采 样法(RMH)和最小半球体积法(SHV)这两种简单算法 对测得的牛奶成分的近红外光谱进行了奇异点的剔除 实验。结果表明,两种算法都具有简单快速、无需计 算逆矩阵等优点,具有很好的数值稳定性,两种算法 的结合是剔除奇异点的一条有效途径。尤其适用于在 线测量和分析,可以大大提高模型的稳健性和分析精 度。但由于实际条件限制,对于在线和现场分析检测 但尚未进行有效的实验验证,更未在实际的生产线上。 国外已有文献报道利用近红外技术监控酸奶的发 酵生产过程。也有研究利用近红外光谱技术实时监测 牛奶中主成分含量,控制掺入比例,保证奶制品的均 匀一致[18]。Adamopuulos等(2001)[19]利用近红外光 谱技术对传统奶酪生产过程进行了监控,结果表明, 近红外光谱技术能够实时检测奶酪加工过程中主要 指标的变化。Masataka Kawasaki等(2008)[20]构建 了一个近红外光谱传感系统,该系统包括一台近红外 光谱仪、牛奶流量计、牛奶采样器和电脑系统。并分 别建立了挤奶过程中非均质牛奶中脂肪、蛋白质、乳 糖、体细胞和尿素氮含量的校准模型。结果表明,该 系统能实时自动评估挤奶过程中牛奶质量,可以为奶 农提供单个牛的牛奶质量和生理条件信息,这些信息 再反馈给牛奶场管理者。 总体上讲,关于奶制品的现场及在线监测的研 究多还停留在实验室阶段,特别是国内,奶制品的现 场在线近红外检测走向实用化还需要做很多的铺垫工 作。
用近红外光谱检测牛奶中的三聚氰胺

第29卷第1期2010年2月红外与毫米波学报J.I nfrared M illi m .W avesVol .29,No .1February,2010文章编号:1001-9014(2010)01-0053-04收稿日期:2009202220,修回日期:2009209205 Rece i ved da te:2009202220,rev ised da te:2009209205基金项目:国家科技支撑计划子课题资助项目(2006BAD11A12202);北京市优秀人才资助项目(20081D0500300130)作者简介:徐 云(19722),女,山东莱阳人,讲师,博士,主要研究领域为近红外光谱分析检测技术,sdxuyun@s ohu .com.用近红外光谱检测牛奶中的三聚氰胺徐 云1, 王一鸣1, 吴静珠2, 张小超3(1.中国农业大学信息与电气工程学院,北京 100083;2.北京工商大学信息工程学院,北京 100037;3.中国农业机械化科学研究院,北京 100083)摘要:研究了用近红外光谱法快速定性和定量检测纯牛奶中三聚氰胺.实验分别配制了两组不同三聚氰胺含量的纯牛奶样品,用于定性和定量分析.通过近红外光谱与聚类分析法相结合,可将含有和不含有三聚氰胺的牛奶样品有效分类;结合光谱预处理和波长选择及模型优化方法建立的检测三聚氰胺的近红外定量分析模型具有较好的稳定性和预测能力.结果表明,近红外光谱分析是一种快速、方便和环保的检测乳制品中三聚氰胺的新方法.关 键 词:近红外光谱;三聚氰胺;定性分析;定量分析中图分类号:0657.33 文献标识码:ADETECTI NG THE M E LA M I NE OF PURE M I LKB Y NEAR I NFRARE D SPECTRAXU Yun 1, WANG Yi 2M ing 1, WU J ing 2Zhu 2, ZHANG Xiao 2Chao3(1.College of I nfor mati on and Electrical Engineering,China Agricultural University,Beijing 100083,China;2.School of I nfor mati on Engineering,Beijing Technol ogy and Business University,Beijing 100037,China;3.Chinese Acade my of AgriculturalMechanizati on Sciences,Beijing 100083,China )Abstract:Rap id qualitative and quantitative detecti on f or mela m ine in pure m ilk was studied by using near infrared s pectra (N I RS ).Experi m entwas conducted by p reparing t w o gr oup s pure m ilk samp les in which melam ine contentwas different for qualitative and quantitative analysis .By combining N I RS technol ogy with the cluster analysis method,t w o kinds of m ilk sa mp les with and without mela m ine were classfied effectively .Spectru m p retreat m ent and wavelength choice methods were e mp l oyed before model op ti m izati on .I n this way,N I RS quantitative model f or detecting mela m ine was established .The re 2sults show that N I RS model of detecting mela m ine content in pure m ilk has good stability and p redictive ability .It suggestes that N I RS can be used as a quick,green and convenient method f or detecting mela m ine in dairy .Key words:near infrared s pectra (N I RS );mela m ine;qualitative analysis;quantitative analysis引言三聚氰胺(mela m ine )即蜜胺,又称氰尿酰胺,是一种白色晶体,其分子中含氮量高达66.7%[1].在生鲜乳及乳制品中添加三聚氰胺,可以提高含氮量,冒充成高蛋白食品,从而大幅度降低成本.2008年“奶粉中非法添加三聚氰胺”事件的出现对乳制品中三聚氰胺的检测方法提出了迫切需求.2008年10月7日,国家质检总局、国家标准委员会批准了G B /T22388—2008《原料乳与乳制品中三聚氰胺检测方法》[2]和G B /T22400—2008《原料乳中三聚氰胺快速检测2液相色谱法》[3].该国标法是目前奶制品生产企业和各个实验室所用的主要方法.上述检测方法,都需要对样品进行前处理,而且还需要多种化学药品和较为昂贵的仪器设备,虽然检测精度较高,但不便于现场的快速检测.近红外技术[4](N I R )是20世纪70年代后发展起来的一种新的快速定性定量分析技术,近红外光谱包含丰富的物质信息,其谱图与物质本身的组成密切相关,通过对光谱特征的分析,可以获得有关物质结构与组成的信息.其主要特点是无需复杂的前处理即可通过对光谱信息的分析提取出物质的特征信息,因此特别适合用于快速鉴别物质的品质,已广泛地应用于农业、化工和食品行业中[5~7].三聚氰红外与毫米波学报29卷胺[1]呈稳定的三角架结构,三个角的碳原子分别连接两个N 原子和一个NH 2.C 2N 键的谱峰很难识别,而NH 2的波动却是正好处于近红外区域,理论上可以据此对三聚氰胺进行近红外分析.目前国内外利用近红外光谱分析法对牛奶中三聚氰胺含量进行快速定性、定量分析研究的文献报道较少.本文用近红外光谱分析的方法检测纯牛奶中三聚氰胺含量,探讨其作为一种乳制品中三聚氰胺含量快速、无破坏性的绿色分析技术的可行性和实用性.1 实验设计本文研究将近红外光谱用于纯牛奶中三聚氰胺含量快速检测尚属于探索性研究,因此实验首先从定性分析开始,即配制含有三聚氰胺的牛奶样品(由于是定性分析,因此可将三聚氰胺的含量范围配制的较宽)和不含有三聚氰胺的牛奶样品,通过采集样品的近红外光谱和定性分析方法相结合来建立定性分析模型.根据定性分析的结果,进一步配制用于定量分析的三聚氰胺的牛奶样品(由于是定量分析,因此不可将三聚氰胺的含量范围配制的较宽),通过采集样品的近红外光谱和定量建模方法相结合,建立定量分析模型,分析定量模型的实用性.1.1 样品制备样品制备所需主要材料和仪器:三聚氰胺分析纯500g,同一批次的三元牌纸袋纯牛奶4L,感量为0.1mg 的电子天平,水浴锅,容量瓶,移液管等.第一组样品用于定性分析:共配制三聚氰胺含量范围为0.0973~96.7806mg/kg 的牛奶样品共19个(样品标号为01~19),不含有三聚氰胺的纯牛奶样品5个(样品标号为21~25).制样时,用电子天平称取一定质量的三聚氰胺加入到牛奶样品中来得到不同含量的样品,摇匀,在40℃水浴锅中加热10m in .第二组样品用于定量分析:用相同方法配制三聚氰胺含量范围为0.9754~19.5672mg/kg 的牛奶样品19个,在40℃水浴加热10m in .1.2 光谱采集实验仪器采用德国BRUKER 公司的MAT R I X 2I 型傅里叶变换近红外光谱仪(漫反射积分球附件;PbS 检测器)进行全谱测定,采集牛奶样品在近红外光谱整个区域的光谱信息.装样时需将牛奶样品倒入至样品杯一半高度以上(不让光源的光透过),采用积分球和旋转台测定样品N I R 漫反射光谱.仪器参数设定如下:扫描范围为12500~3600c m -1,分辨率为16c m -1,重复扫描64次求平均光谱.两组牛奶样品的近红外光谱如图1和图2所示.2 基于N I R 的纯牛奶中三聚氰胺的定性分析本文研究的纯牛奶中三聚氰胺的定性分析是基于样品的近红外光谱特征.近红外光谱能反映被测样品的组成和结构性质,相同或近似的样品有着相同或接近的光谱;反之,如果样品的组成和结构性质有较大的差异,则其近红外光谱也存在较大的差异.聚类分析[8]是根据“物以类聚”的道理,在没有先验知识的情况下,能合理地按样品各自的特性来进行合理的分类.在本实验中将近红外光谱法与聚类分析法结合针对第一组实验样品进行分类.为了验证定性分类的准确性,基于含量梯度法的原则选取第一组样品中19个作为建模样品(其中:15个为含有三聚氰胺的样品,4个为不含有三聚氰胺的样品),5个作为451期徐 云等:用近红外光谱检测牛奶中的三聚氰胺测试集样品(其中,4个为含有三聚氰胺的样品,1个为不含有三聚氰胺的样品).本实验中的定性分析采用OP US6.0中的聚类分析功能.在使用样品全谱、光谱预处理为矢量归一化的条件下,采用标准算法[8]计算光谱距离,分别在singl linkage,average linkage,weighted Av .L ink 2age,Median A lgorith m ,Centr oid A lgorithm 和W ard ’s A lgorithm 六种聚类分析算法下,均可将含有和不含有三聚氰胺的牛奶样品准确分类,选取average link 2age 聚类分析下的结果如下图3所示.从图中可以明显看出,当选取类间距离大于0.015,小于0.025时(如图3中虚线所示),则含有三聚氰胺的样品(标号为01~19的样品)和不含有三聚氰胺的样品(标号为21~25的样品)可以被明显分成两类.在已建立的6个定性模型基础上,分别对5个测试样品进行测试,结果表明,5个测试样品可以被准确快速地定性识别为是否含有三聚氰胺的牛奶样品. 图3 Average linkage 聚类分析图 Fig .3 Average linkage cluster analysis diagra m结果表明,在本文的实验条件下,采用近红外光谱和聚类分析相结合来定性检测牛奶中是否含有三聚氰胺的方法是可行的.在此基础上,本文作了进一步研究,采用近红外光谱法来定量分析牛奶样品中三聚氰胺的含量.3 基于NI R 的纯牛奶中三聚氰胺的定量分析本实验采用近红外光谱分析法针对第二组配制的样品建立偏最小二乘(P LS )定量分析模型来预测牛奶样品中三聚氰胺的含量.首先采用含量梯度法从配制的第二组样品中挑选建模集样品15个(三聚氰胺含量范围:0.9754~19.5672mg/kg )和测试集样品4个(三聚氰胺含量范围:3.9003~15.6424mg/kg ).实验中为了评价模型的预测能力和实用性,引入了如下几个评价参数:校正集交叉验证决定系数R 2和定标标准差R MSECV ,用校正模型对测试集样品进行预测的决定系数R 2、预测标准差R MSEP 、相对标准差RS D 和相对分析误差RP D.RS D 它反映模型对某一组分总体的预测效果.一般情况下,当RS D <10%,模型可用于实际的检测.RP D 用来验证模型的稳定性和预测能力.当RP D >3,则模型具有较高的稳定性和良好的预测能力.当RS D 越小,RP D 越大,模型性能更优[9].本实验中的定量分析采用OP US 6.0中的定量分析功能,通过自动优化功能建立P LS 模型.实验结果如表1所示,其中nf 为主成分数.从表中可以看出:所建立的定量模型满足RS D <10%,RP D >3,因此定标模型具有良好的稳定性和实用性.用4个测试样品代入定量分析模型,预测结果如表2所示.根据表2中马氏距离[10]的值,4号样品的预测结果被认为是异常样品,因此这里将4号测试样品剔除.定标模型的校验结果如表3所示,RS D <10%,RP D >3,预测结果良好.从实验结果看,在本文的实验条件下,用近红外光谱定量检测牛奶中三聚氰胺的方法是可行的.4 结论本文针对近期国内乳制品中非法添加三聚氰胺事件,将近红外光谱法用于纯牛奶中三聚氰胺的快速定性和定量检测.实验结果表明,通过近红外光谱法与聚类分析法相结合可将含有和不含有三聚氰胺的牛奶样品有效分类;在此基础上,实验进一步结合光谱预处理和波长选择及模型优化方法,建立了三表1 三聚氰胺定标模型指标Table 1 M el am i n e ca li bra ti on m odel i n d i ca tors预处理方法nfwavenu mber c m -1R 2RMSECV RS D (%)RP DMean centering612504.8-6094.30.980.602.8720.89表2 测试集样品的预测结果Table 2 Pred i cted results of testi n g s am ples样品名真值预测值绝对误差马氏距离.433.90 1.94 1.960.9687.82 6.930.890.721211.7212.34-0.610.411615.6416.45-0.810.43表3 定标模型的校验结果Table 3 Results of ca li bra ti on m odel va li da ti onR 2RMSEP RS D (%)RP D 0.96860.4513.84458.665155红外与毫米波学报29卷聚氰胺的近红外定量分析模型.结果表明,在本文的实验条件下所建立的牛奶中三聚氰胺含量的近红外定量分析模型具有较好的稳定性和预测能力.本文尚属探索性研究,还需进一步结合实际的样品作深入的研究工作,反复实验,收集更丰富的样品,才能建立更完善稳定的近红外模型,用于乳制品中三聚氰胺的检测.REFERENCES[1]Che m ical D ictionary[M].Beijing:chem ical industry p ress(王箴.化工辞典.北京:化学工业出版社),2003.[2]Peop le’s Republic of China p r ofessi on standard G B/T22388—2008Rap id deter m inati on of mela m ine in ra w m ilk H igh perf or mance liquid chr omat ography method[S].(中华人民共和国国家标准管理委员会中华人民共和国行业标准G B/T22388—2008《原料乳与乳制品中三聚氰胺检测方法》),2008.10.[3]Peop le’s Republic of China p r ofessi on standard G B/T22400—2008Deter m inati on of mela m ine in ra w m ilk and dairy p r oducts[S].(中华人民共和国国家标准管理委员会中华人民共和国行业标准G B/T22400—2008《原料乳中三聚氰胺快速检测2液相色谱法》),2008.10.[4]Y AN Yan2Lu,ZHAO Long2L ian,HAN Dong2Hai,et al.N ear2infrared Spectral A nalysis Foundation and A pplication [M].Beijing:Chinese L ight industry Press(严衍禄,赵龙莲,韩东海,等.近红外光谱分析基础与应用.北京:中国轻工业出版社),2005.[5]WANG L i,HE Yong,L I U Fei,et al.Rap id detecti on ofsugar content and pH in beer by using s pectr oscopy tech2 nique combined with support vect or machines[J].J.Infra2 red M illi m.W aves(王莉,何勇,刘飞,等.应用光谱技术和支持向量机分析方法快速检测啤酒糖度和pH值.红外与毫米波学报),2008,27(1):51—55.[6]L I U Yan2De,LUO J i,CHE N Xing2M iao.Analysis of s olu2ble s olid content in nan2feng mandarin fruitwith visible near infrared s pectr oscopyr[J].J.Infrared M illin.W aves(刘燕德,罗吉,陈兴苗.可见/近红外光谱的南丰蜜桔可溶性固形物含量定量分析.红外与毫米波学报),2008,27(2):1192122.[7]WU D i,HE Yong,FE NG Shui2Juan,et al.App licati on ofinfrared s pectra techique based on LS2Support vect or ma2 chines t o the non2destructive measure ment of fat content in m ilk power[J].J.Infrared M illi m.W aves(吴迪,何勇,冯水娟,等.基于LS2S VM的红外光谱技术在奶粉脂肪含量无损检测中的应用.红外与毫米波学报),2008,27(3): 1802184.[8]CHE N N ian2Yi,Q I N Pei,CHE N Rui2L iang,et al.PatternRecognition is U sed in Che m istry and Che m ical Industry [M].Beijing:Science Press(陈念贻,钦佩,陈瑞亮,等.模式识别方法在化学化工中的应用.北京:科学出版社),2002.[9]WU J ing2Zhu.Sdudy on Q uality D etection of A griculturalP roducts B ased on N ear Infrared Spectroscopy Technology[D].Beijing:China Agriculture University(吴静珠.农产品品质检测中的近红外光谱分析技术研究.北京:中国农业大学),2006.[10]Maesschalk R De,Jouan2R i m baud D,Massart D L.TheMahalanobis distance[J].Che m o m etrics and Intelligent L aboratory Syste m s,2000,50(1):1—18.(上接14页)[2]C AP OB I A NCO J A,VETRONE F,BOYER J C.Enhance2ment of red em issi on(4F9/2→4I15/2)via upconversi on in bulk and nanocrystalline cubic Y2O3:Er3+[J].J.Phys.Che m.B,2002,106:1181—1187.[3]VETRONE F,BOYER J C,CAP OB I A NCO J A.N I R t ovisible upconversi on in nanocrystalline and bulk Lu2O3: Er3+[J].J.Phys.Che m.B,2002,106:5622—5628. [4]H I RA I T,OR I K OS H I T.Preparati on of Gd2O3:Yb,Er andGd2O2S:Yb,Er infrared2t o2visible conversi on phos phor ul2 trafine particles using an e mulsi on liquid me mbrane syste m [J].Journal of Colloid and Interface Science,2004,269(1):103—108.[5]Y ANG L in2M ei,S ONG Hong2W ei.Synthesis and lu m ines2cence p r operties of nanowires and nanoslices of Gd2O3: Yb3+/Er3+[J].Chinese Journal of L um inescence(杨林梅,宋宏伟.Gd2O3:Er/Yb纳米线、纳米片的制备与发光性质.发光学报),2006,27(6):987—990.[6]CHE N Yi2M ing,Z HANG Hai2Yan,Z HU Q ing2Feng,et al.Synthesis of aligned carbon nanotubes array by radi o fre2 quency p las ma2enhanced hot fila ment che m ical vapor depo2 siti on[J].J.Infrared M illi m.W aves(陈易明,张海燕,朱清锋,等.取向碳纳米管阵列的等离子体复合化学气相沉积法制备.红外与毫米波学报),2008,27(6):470—474.[7]Z HAO W ei2M ing,G AN Xin2Hui,DA IM ing,et al.Self2as2se mbly ofⅡ2Ⅳcompound nanocrystals on si wafer at r oom te mperature[J].J.Infrared M illi m.W aves(赵伟明,甘新慧,戴明等.室温下Ⅱ2Ⅵ族纳米晶粒在Si衬底上的化学自组装.红外与毫米波学报),2008,27(3):176—179. [8]HUANG Zheng2M ing,Z HANG Y,Z,K OT AKIM,et al.Arevie w on poly mer nanofibers by electr os p inning and their app licati ons in nanocomposites[J].Co m posites Science and Technology,2003,63(15):2223—2253.[9]MCCANN JESSE T,MARQUEZMANUE L,X I A You2Nan.M elt coaxial electr os p inning:a versatile method f or the en2 cap sulati on of s olid materials and fabricati on of phase change nanofibers[J].N ano L etters,2006,6(12):2868—2872. [10]DONG Xiang2Ting,WANG J in2Xian,CU I Q i2Zheng,etal.Preparati on of LaFe O3por ous holl ow nanofibers by e2 lectr o2s p inning[J].International Journal of Che m istry,2009,1(1):13—17.[11]NAK ANE K,Y AMASH I T A T,I W AK URA K,et al.Pr op2erties and structure of poly(vinyl alcohol)/silica compos2 ites[J].J A ppl.Polym.Sci.,1999,74(1):133—138. [12]YI Guang2Shun,S UN Bao2Quan,Y ANG Feng2Zhen,etal.Synthesis and characterizati on of high2efficient up2con2 versi on phos phors:ytterbiu m and erbiu m co2dopped lan2 thanu m molybdate[J].Che m.M ater.,2002,14(7):2910—2914.[13]P OLLNAU M,G AM E L I N D R,LUTH I S R,et al.Powerdependence of upconversi on lu m inescence in lanthanide and transiti on2metal2i on syste m s[J].Phys.Rev.B,2000,61(5):3337—3346.65。
简析近红外光谱分析技术在牛奶化学分析上的应用

简析近红外光谱分析技术在牛奶化学分析上的应用作者:张珊来源:《中国科技博览》2016年第11期[摘要]近红外光分析技术应用范围不断拓展,如今其在牛奶制品化学分析中也得到了较为广泛的应用。
我们应当进一步加快对近红外光谱分析技术在牛奶化学分析应用的研究,促进其在乳品生产检测中的高效应用。
本文首先分析了近红外光谱分析技术原理,并具体探讨了近红外光谱分析技术在牛奶化学分析中的应用,最后对近红外光谱分析技术在牛奶化学分析中的应用进行了展望[关键词]近红外光谱分析技术牛奶化学分析应用中图分类号:TS207.3 文献标识码:A 文章编号:1009-914X(2016)11-0258-01近红外光具体指波长在780-2526nm范围内的电磁波,近红外光谱分析技术则是光谱测量技术同化学计量学的有机结合。
近红外光分析技术应用范围不断拓展,在食品行业中应用于调味品、酒制品、肉类等成分鉴别以及真伪鉴别,近年来其在牛奶制品化学分析中也得到了较为广泛的应用。
分析近红外光谱技术在牛奶及其制品分析检测中的应用,实施对牛奶及其制品的质量安全控制,有着重要的现实意义。
一、近红外光谱分析技术原理近红外光谱分析技术是近几十年来发展最为迅速的高新分析技术之一。
我国从上世纪80年代开始应用近红外光谱分析技术,并逐渐拓展到食品、农业、石化等多个领域,近红外光谱是分子振动光谱倍频与合频吸收光谱,主要为X-H键吸收。
由于不同基团(例如苯环,甲基等)所生成的光谱在吸收峰的强度以及位置上有差异性,结合朗伯-比耳吸收定律,光谱特征将锁着样品成分含量的变化而变化。
近红外光谱分析技术具体有以下几个优点:传输性能良好,近红外光在光导纤维中传输性能较好,能够实现对生产工艺流程的在线检测;检测手段无损。
近红外光谱分析技术检测不对样品产生损伤,特别是在活体检测上有着非常大的优势;分析速度快捷。
近红外光谱分析技术不用对样品进行预处理,对于样品的测量通常在1分钟之内可以完成,其分析速度较快,效率较高;绿色环保。
基于中红外光谱的牛奶中三种氨基酸含量预测模型的建立及应用

畜牧兽医学报 2023,54(8):3299-3312A c t a V e t e r i n a r i a e t Z o o t e c h n i c a S i n i c ad o i :10.11843/j.i s s n .0366-6964.2023.08.016开放科学(资源服务)标识码(O S I D ):基于中红外光谱的牛奶中三种氨基酸含量预测模型的建立及应用褚 楚1,张静静1,丁 磊1,樊懿楷1,包向男2,向世馨1,刘 锐1,罗雪路1,任小丽1,李春芳1,刘文举1,王 亮1,刘 莉1,李永青1,江 汉1,李委奇3,孙 伟2,李喜和2,温 万3,周佳敏3,张淑君1*(1.华中农业大学动物科学技术学院㊁动物医学院,动物遗传育种与繁殖教育部实验室,武汉430070;2.内蒙古国家乳业技术创新中心有限责任公司,呼和浩特011517;3.宁夏回族自治区畜牧工作站,银川750000)摘 要:旨在建立牛奶中游离精氨酸㊁组氨酸和异亮氨酸含量的中红外光谱快速批量检测的方法,并进行大量外部验证㊂本研究以来自华北㊁华中和西北3个地区4个省份的217份健康中国荷斯坦牛牛奶样本为研究对象,利用4种光谱预处理算法(S G 平滑㊁差分㊁多元散射校正㊁标准正态变换)㊁4种特征选择算法(已知信息区域㊁适应重加权算法㊁遗传算法及最小角回归算法)及两种建模算法(偏最小二乘回归和岭回归),分别建立了牛奶中游离的精氨酸㊁组氨酸和异亮氨酸含量的M I R 光谱定量预测模型,将建立的最优模型应用于另外9个不同奶牛场的4690头牛采集的32559个牛奶样本的M I R 光谱进行预测分析,以探讨泌乳阶段㊁牧场㊁胎次及季节对M I R 预测的精氨酸㊁组氨酸及异亮氨酸含量的影响㊂结果表明:1)基于C A R S 特征选择算法㊁无光谱预处理和P L S R 建模算法开发的精氨酸含量预测模型效果最好,该模型R P 2=0.58,R M S E p =6.89n m o l ㊃m L -1;基于C A R S 特征选择算法㊁S G 平滑(窗口长度为11,2阶多项式)预处理及P L S R 建模算法开发的组氨酸含量预测模型效果最好,该模型R P 2=0.56,R M S E p=0.88n m o l ㊃m L -1;基于274个特征信息波点㊁S G 平滑(窗口长度为29,3阶多项式)预处理及P L S R 建模算法开发的异亮氨酸含量预测模型效果最好,该模型R P 2=0.49,R M S E p =1.75n m o l ㊃m L -1;2)将最优模型进行跨地区外部验证时,预测准确性有所降低;3)将建立的模型应用于E 省(未参与模型建立)大规模光谱数据库,以预测牛奶中游离精氨酸㊁组氨酸和异亮氨酸含量,发现泌乳阶段㊁牧场㊁季节对牛奶中游离精氨酸㊁组氨酸及异亮氨酸含量均有极显著影响(P <0.001),而胎次对精氨酸含量无显著影响,对组氨酸和异亮氨酸有极显著影响(P <0.001)㊂结果表明,利用M I R 预测牛奶中游离氨基酸含量是可行的,特别是在牛奶氨基酸含量高低趋势分析方面具有一定预测能力,而该预测模型还需要更多的有代表性样本进行优化,提高模型的准确性和通用性㊂关键词:中红外光谱(M I R );牛乳氨基酸;预测模型;牛奶;机器学习中图分类号:S 823.91 文献标志码:A 文章编号:0366-6964(2023)08-3299-14收稿日期:2022-11-25基金项目:国家重点研发计划政府间国际科技创新合作(2021Y F E 0115500);国家乳业技术创新中心项目(2022-科研攻关-3);湖北省国际合作项目(2022E H B 043)作者简介:褚 楚(1999-),女,山东枣庄人,硕士,主要从事动物遗传育种与繁殖研究,E -m a i l :1346409454@q q.c o m ;张静静(1996-),女,山东烟台人,硕士,主要从事动物遗传育种与繁殖研究,E -m a i l :1462210902@q q.c o m ㊂褚楚和张静静为同等贡献作者*通信作者:张淑君,主要从事动物抗病分子遗传育种㊁牛奶M I R 指纹及奶牛生物标记的研究,E -m a i l :s j x i a o z h a n g@m a i l .h z a u .e d u .c n E s t a b l i s h m e n t a n d A p pl i c a t i o n o f P r e d i c t i o n M o d e l o f T h r e e A m i n o A c i d s i n M i l k B a s e d o n M i d -i n f r a r e d S p e c t r o s c o p yC HU C h u 1,Z H A N G J i n g j i n g 1,D I N G L e i 1,F A N Y i k a i 1,B A O X i a n gn a n 2,X I A N G S h i x i n 1,L I U R u i 1,L U O X u e l u 1,R E N X i a o l i 1,L I C h u n f a n g 1,L I U W e n j u 1,WA N G L i a n g 1,L I U L i 1,L I Y o n g q i n g 1,J I A N G H a n 1,L I W e i qi 3,S U N W e i 2,L I X i h e 2,畜牧兽医学报54卷W E N W a n3,Z HO U J i a m i n3,Z H A N G S h u j u n1*(1.L a b o r a t o r y o f A n i m a l G e n e t i c s,B r e e d i n g a n d R e p r o d u c t i o n o f M i n i s t r y o f E d u c a t i o n,C o l l e g e o f A n i m a l S c i e n c e a n d T e c h n o l o g y/C o l l e g e o f A n i m a l M e d i c i n e,H u a z h o n gA g r i c u l t u r a l U n i v e r s i t y,W u h a n430070,C h i n a;2.I n n e r M o n g o l i a N a t i o n a l C e n t e r o fT e c h n o l o g y I n n o v a t i o n f o r D a i r y I n d u s t r y,H o h h o t011517,C h i n a;3.N i n g x i a H u iA u t o n o m o u s R e g i o n A n i m a l H u s b a n d r y W o r k s t a t i o n,Y i n c h u a n750000,C h i n a)A b s t r a c t:T h e p u r p o s e o f t h i s s t u d y w a s t o e s t a b l i s h a r a p i d b a t c h d e t e r m i n a t i o n m e t h o d f o r f r e e a r g i n i n e,h i s t i d i n e a n d i s o l e u c i n e i n m i l k b y m i d-i n f r a r e d s p e c t r o s c o p y,a n d t o c a r r y o u t a l a r g e n u m b e r o f e x t e r n a l v e r i f i c a t i o n s.A t o t a l o f217C h i n e s e H o l s t e i n m i l k s a m p l e s f r o m4p r o v i n c e s i n N o r t h C h i n a,C e n t r a l C h i n a a n d N o r t h w e s t C h i n a w e r e t a k e n a s t h e r e s e a r c h o b j e c t s,u s i n g4 s p e c t r a l p r e p r o c e s s i n g a l g o r i t h m s(S G s m o o t h i n g,d i f f e r e n c e,m u l t i v a r i a t e s c a t t e r i n g c o r r e c t i o n, s t a n d a r d n o r m a l t r a n s f o r m a t i o n),4f e a t u r e s e l e c t i o n a l g o r i t h m s(k n o w n i n f o r m a t i o n r e g i o n, a d a p t i v e h e a v y w e i g h t i n g a l g o r i t h m,g e n e t i c a l g o r i t h m a n d m i n i m u m a n g l e r e g r e s s i o n a l g o r i t h m) a n d2m o d e l i n g a l g o r i t h m s(p a r t i a l l e a s t s q u a r e s r e g r e s s i o n a n d r i d g e r e g r e s s i o n),t h e M I R s p e c t r a l q u a n t i t a t i v e p r e d i c t i o n m o d e l s o f f r e e a r g i n i n e,h i s t i d i n e a n d i s o l e u c i n e c o n t e n t s i n m i l k w e r e e s t a b l i s h e d.T h e o p t i m a l m o d e l w a s a p p l i e d t o t h e M I R s p e c t r a o f32559m i l k s a m p l e s c o l l e c t e d f r o m4690c o w s i n9d i f f e r e n t d a i r y f a r m s t o e x p l o r e t h e e f f e c t s o f l a c t a t i o n s t a g e, p a s t u r e,p a r i t y a n d s e a s o n o n t h e p r e d i c t e d a r g i n i n e,h i s t i d i n e a n d i s o l e u c i n e c o n t e n t s b y M I R. T h e r e s u l t s s h o w t h a t:1)T h e p r e d i c t i o n m o d e l o f a r g i n i n e c o n t e n t b a s e d o n C A R S f e a t u r e s e l e c t i o n a l g o r i t h m,n o n-s p e c t r a l p r e t r e a t m e n t a l g o r i t h m a n d P L S R m o d e l i n g a l g o r i t h m w a s t h e b e s t,R P2=0.58,R M S E p=6.89n m o l㊃m L-1;T h e p r e d i c t i o n m o d e l o f h i s t i d i n e c o n t e n t b a s e d o n C A R S f e a t u r e s e l e c t i o n a l g o r i t h m,S G s m o o t h i n g(w i n d o w l e n g t h i s11,2-o r d e r p o l y n o m i a l) p r e t r e a t m e n t a n d P L S R m o d e l i n g a l g o r i t h m w a s t h e b e s t,R P2=0.56,R M S E p=0.88n m o l㊃m L-1;B a s e d o n274c h a r a c t e r i s t i c i n f o r m a t i o n w a v e p o i n t s,S G s m o o t h i n g(w i n d o w l e n g t h i s29, 3-o r d e r p o l y n o m i a l)p r e t r e a t m e n t a n d P L S R m o d e l i n g a l g o r i t h m,t h e p r e d i c t i o n m o d e l o f i s o l e u c i n e c o n t e n t w a s t h e b e s t,R P2=0.49,R M S E p=1.75n m o l㊃m L-1;2)W h e n t h e o p t i m a l m o d e l w a s v e r i f i e d e x t e r n a l l y a c r o s s r e g i o n s,t h e p r e d i c t i o n a c c u r a c y w a s r e d u c e d;3)A p p l y i n g t h e e s t a b l i s h e d m o d e l t o t h e l a r g e-s c a l e s p e c t r a l d a t a b a s e o f E p r o v i n c e(n o t p a r t i c i p a t i n g i n t h e e s t a b l i s h m e n t o f t h e m o d e l),t h e c o n t e n t s o f f r e e a r g i n i n e,h i s t i d i n e a n d i s o l e u c i n e i n m i l k w a s p r e d i c t e d,i t w a s f o u n d t h a t l a c t a t i o n s t a g e,p a s t u r e a n d s e a s o n h a d s i g n i f i c a n t e f f e c t s o n t h e c o n t e n t s o f f r e e a r g i n i n e,h i s t i d i n e a n d i s o l e u c i n e i n m i l k(P<0.001),w h i l e p a r i t y h a d n o s i g n i f i c a n t e f f e c t o n a r g i n i n e c o n t e n t,b u t h a d s i g n i f i c a n t e f f e c t o n h i s t i d i n e a n d i s o l e u c i n e(P< 0.001).T h e r e s u l t s s h o w t h a t i t i s f e a s i b l e t o p r e d i c t t h e c o n t e n t o f f r e e a m i n o a c i d s i n m i l k b y M I R,e s p e c i a l l y,i t h a s c e r t a i n p r e d i c t i v e a b i l i t y i n t h e t r e n d a n a l y s i s o f m i l k a m i n o a c i d c o n t e n t, a n d t h e p r e d i c t i o n m o d e l n e e d s m o r e r e p r e s e n t a t i v e s a m p l e s t o o p t i m i z e,s o a s t o i m p r o v e t h e a c-c u r a c y a n d u n i v e r s a l i t y o f t h e m o d e l.K e y w o r d s:m i d-i n f r a r e d s p e c t r o s c o p y(M I R);m i l k a m i n o a c i d;p r e d i c t i o n m o d e l;m i l k;m a c h i n e l e a r n i n g*C o r r e s p o n d i n g a u t h o r:Z H A N G S h u j u n,E-m a i l:s j x i a o z h a n g@m a i l.h z a u.e d u.c n动物摄取蛋白质是为了获得其中的氨基酸,尤其是对动物生长发育至关重要的必需氨基酸[1]㊂牛奶中的氨基酸组成与人奶相似,富含人体内不能合成的必需氨基酸及3种支链氨基酸,是较为优质的00338期褚楚等:基于中红外光谱的牛奶中三种氨基酸含量预测模型的建立及应用乳蛋白资源[2]㊂其中,牛奶中富含的异亮氨酸(i s o l e u c i n e,I l e)㊁精氨酸(a r g i n i n e,A r g)㊁组氨酸(h i s t i d i n e,H i s)是成年人㊁儿童㊁早产儿重要的必需氨基酸,在人类生命代谢中占有特别重要的地位㊂牛奶中的异亮氨酸占牛奶中总氨基酸含量的5.8%左右,具有提高机体免疫力[3]㊁促进蛋白质合成㊁激活抗氧化防御系统[4]㊁改善生长性能㊁提高肠道免疫和物理屏障功能等重要生物功能[5]㊂牛奶中的组氨酸占奶中总氨基酸含量的2.6%左右,是处于生长发育阶段动物非常重要的一类营养物质[6],它在酶的活性部位发挥着特别重要的作用[7-8]㊂牛奶中的精氨酸占奶中总氨基酸含量的3.5%左右[9],研究发现摄入精氨酸可以改善机体免疫力[10]㊁促进氨转化成尿素进而降低人体血氨,是维持婴幼儿生长和氮平衡必不可少的氨基酸[11]㊂因此,牛奶中游离氨基酸含量的准确检测有助于奶牛的健康养殖,同时,也是稳定乳制品质量,实现标准化加工的前提㊂关于奶制品中游离氨基酸的测定方法目前暂无国家标准,当前用于游离氨酸含量检测的分析技术主要有氨基酸自动分析仪分析法㊁高效液相色谱法[12]㊁液相色谱-质谱仪[13]㊁气相色谱-质谱仪㊁毛细管电泳㊁核磁共振等,该技术测定准确率较高,但此类方法也存在成本高㊁耗时长㊁难操作和仪器设备要求高等不足,难以在奶牛生产性能测定D H I的实践中快速批量化使用[14-17]㊂中红外光谱(m i d-i n f r a r e d s p e c-t r o s c o p y,M I R)技术是一种非常经济高效的检测工具,具有方便快捷㊁无污染㊁无破坏性㊁无前处理等优势[18],弥补了传统检测方法的不足,近年来已经成为一种检测趋势㊂在定量分析过程中,中红外光谱的灵敏度比其他光谱要高[19]㊂我国现已通过中红外光谱技术对牛奶中蛋白总量和脂肪总量等常规乳成份指标进行检测,已广泛应用于奶牛生产性能D H I测定中[20-21]㊂目前对牛奶中游离氨基酸含量的快速批量检测方法研究较少,仅有一篇国外研究将M I R应用于牛奶中游离氨基酸含量的定量检测, M c D e r m o t t等[22]利用来自7个研究牛群和69个商业牛群的715个奶样建立了基于M I R的牛奶中游离氨基酸含量的定量模型,并探讨了泌乳阶段㊁胎次㊁月份㊁遗传等对牛奶中游离氨基酸含量的影响㊂然而,目前尚无基于牛奶M I R的中国荷斯坦牛游离氨基酸含量的预测模型,也没有我国奶牛群体氨基酸含量及其影响因素相关研究信息㊂本研究利用中红光谱M I R不同预处理方法㊁特征波段选择算法及建模方法,建立中国荷斯坦牛牛奶中3种重要游离氨基酸(精氨酸㊁组氨酸㊁异亮氨酸)含量的M I R预测潜力模型,并将所建立的M I R 预测模型应用于大规模奶牛奶数据的预测,从群体水平上探讨牛奶中游离精氨酸㊁组氨酸和异亮氨酸含量,以及在不同胎次㊁泌乳阶段㊁季节及牧场之间的变异特征㊂若M I R预测准确性良好,则将提供一种方法来估计大量牛奶中游离氨基酸含量,有望应用于我国奶牛生产性能测定D H I中,增加奶牛奶品质性状的表型指标㊂1材料与方法1.1试验材料从我国华北㊁华中和西北4个省份(A㊁B㊁C㊁D)的9个中国荷斯坦奶牛养殖场中,采集健康状况良好的奶牛奶样共217份,采样时间为2018年10月至2019年1月㊂牛奶采集利用自动挤奶装置完成,奶样一式两份,一份用于M I R测定,一份用于氨基酸参考值测定,每份牛奶采集约40m L,分装到D H I检测瓶中,依次编号,并向每个采样瓶里立即加入溴硝丙二醇防腐剂,缓慢摇晃使其充分溶解㊂运回途中在奶样周围放置冰袋(2~4ħ)防止变质,样本到达实验室后立即进行光谱采集㊂1.2仪器、设备和试剂M i l k o S c a n T M F T+[傅里叶变换中红外光谱仪(F T I R),丹麦F O S S公司];全自动氨基酸分析仪(德国S y k a m S433D);游离氨基酸分析柱(L C A K07/L i,4.6mmˑ150mm);游离氨基酸分析除氨柱;针管过滤器;0.45μm尼龙滤膜;涡漩振荡器;离心机;进样瓶㊂氨基酸标准溶液(34A A,P H游离,货号A A-S000031);茚三酮(N105629-500g,阿拉丁);缓冲液A㊁缓冲液B㊁缓冲液C㊁再生液D均购于德国S y k a m公司;L i O HˑH2O;柠檬酸ˑH2O;H C l(浓度为37%);辛酸;磺基水杨酸;其他试剂均为国产分析纯㊂1.3方法1.3.1中红外光谱的采集将采样瓶放在42ħ水浴锅内预热15~20m i n,将预热后奶样放在检测铁架上反转摇晃数次使牛奶中成分分布均匀,在保持环境温度为室温的前提下,将样品放上检测履带,打开瓶盖,依次通过F T-M I R仪进行检测,检测结果输出牛奶M I R㊁牛奶常规乳成分(乳脂㊁乳蛋白㊁1033畜牧兽医学报54卷乳糖㊁尿素氮㊁总固形物)及牛奶体细胞数数据㊂1.3.2牛奶中游离精氨酸㊁组氨酸和异亮氨酸的含量测定 1)100n m o l㊃m L-1标准液配制:取100μL标准液加900μL样品稀释液,涡旋混匀㊂上机前用0.45μm尼龙滤膜过滤㊂2)奶样的处理:吸取约8m L奶样于离心管中,3000r㊃m i n-1离心5m i n(达到分离固态物的目的即可),若奶样中悬浮物不至于干扰取样均匀性,则此步骤可跳过;离心后准确吸取上清液1m L于另外的离心试管中,加入2%磺基水杨酸9m L,混匀静置15m i n;设置离心机转速为3000r㊃m i n-1离心20m i n或10000r㊃m i n-1离心10m i n,离心后取上清液;上机前用0.45μm 尼龙滤膜过滤㊂色谱条件:色谱柱:L C A K07/L i;流速:洗脱泵0.45m L㊃m i n-1+衍生泵0.25m L㊃m i n-1;检测波长:570n m+440n m;反应器温度:38~74ħ梯度升温;平均每批次检测20个样品,一批次只需进样一次标准液,若中途更换试剂(流动相㊁茚三酮等)则标准液需重新进样㊂1.4异常值的筛选首先去除光谱为空值的记录,其次对真实值进行筛选,即真实值在平均值ʃ标准差范围内则归为正常值,否则为异常值㊂217条数据经异常值筛选后,保留精氨酸数据185条,组氨酸数据197条,赖氨酸数据197条,具体信息见表1㊂表1牛奶样本在不同地区的分布情况T a b l e1D i s t r i b u t i o n o f m i l k s a m p l e s i n d i f f e r e n t r e g i o n s氨基酸A m i n o a c i d ABCD 精氨酸A r g7*******组氨酸H i s9*******异亮氨酸I l e89344133 A㊁B㊁C㊁D分别代表中国4个省份,分布于华北㊁华中和西北A,B,C a n d D r e p r e s e n t4p r o v i n c e s i n C h i n a,d i s t r i b u t e d i n N o r t h C h i n a,C e n t r a l C h i n a a n d N o r t h w e s t C h i n a,r e s p e c-t i v e l y1.5光谱预处理、特征提取牛奶胶束的散射以及仪器运行过程中产生的随机噪声会对光谱造成干扰,因此光谱中不仅包含许多有用的化学信息,还存在大量的背景噪声和无用信息㊂为去除光谱采集过程中环境㊁仪器及操作引起的系统误差,正式建模前需先对光谱进行预处理㊂本研究采用的光谱预处理方法包括标准正态变量变换(s t a n d a r d n o r m a l v a r i a t e t r a n s f o r m a t i o n,S N V)㊁多元散射校正(m u l t i v a r i a t e s c a t t e r c o r r e c t i o n, M S C)㊁差分及S a v i t s k y-G o l a y(S G)平滑(S G平滑包含w和k两个参数,w指窗口长度,该值需为正奇整数;k指对窗口内的数据点进行k阶多项式拟合)㊂结果仅展示最优光谱预处理㊂牛奶M I R由925~5008c m-1范围内的1060个单独的波点组成,中红外光谱特征维数较多,不同波段之间信息有一定的重叠性,通过特征提取算法,能够大大降低光谱维数,提高建模速度,并且可去除光谱中的噪音㊂本研究利用竞争性自适应重加权算法(c o m p e t i t i v e a d a p t i v e r e w e i g h t e d s a m-p l i n g,C A R S)㊁遗传算法(g e n e t i c a l g o r i t h m,G A)及最小角回归算法(l e a s t a n g l e r e g r e s s i o n,L A R)提取特征变量,并与目前国际上牛奶M I R建模常用的274个信息波点(925~1584c m-1㊁1719~ 1784c m-1及2652~2976c m-1,以下称为 信息波点 )相比较㊂1.6建模1.6.1数据集划分根据4个地区,将总数据集划分为3部分,即训练集㊁测试集和外部验证集,三者数据比例约为4ʒ1ʒ1,训练集用于训练模型,测试集用于测试模型性能,外部验证集用于验证模型的泛化能力㊂在第一轮,A㊁B㊁C地区数据用于训练集及测试集,D地区数据用于外部验证集;在第二轮, A㊁B㊁D地区数据用于训练集及测试集,C地区数据用于外部验证集;以此类推,直至每个地区的数据都用于一次外部验证㊂此过程不仅可了解模型对于建模地区数据的预测力(测试集结果),还可了解其对其他地区数据的预测能力(外部验证集结果)㊂1.6.2建模方法本研究比较了两种建模算法,即偏最小二乘回归(p a r t i a l l e a s t s q u a r e s r e g r e s-s i o n)及岭回归㊂1.7模型的评价指标本研究利用训练集决定系数(R2c)㊁训练集均方根误差(r o o t m e a n s q u a r e e r r o r o f c a l i b r a t i o n,R M-S E C)㊁测试集决定系数(R2p)㊁测试集均方根误差(r o o t m e a n s q u a r e d e r r o r o f p r e d i c t i o n,R M S E P)㊁平均绝对误差(M e a n a b s o l u t e e r r o r,MA E)及性能偏差比(r a t i o o f p e r f o r m a n c e t o d e v i a t i o n,R P D)综合评价模型性能以筛选出最佳模型㊂对于建模预测而言,R2越接近1,R P D越大,MA E及R M S E越小,表明模型预测性能越好[23]㊂20338期褚楚等:基于中红外光谱的牛奶中三种氨基酸含量预测模型的建立及应用1.8模型的应用为探讨模型的应用性能,将预测模型应用于从E省(未参与建模的省份)9个不同奶牛场4690头牛采集的32559个牛奶样本的M I R光谱,去除光谱及常规乳成分空值㊁真实值范围之外的异常值后获得样本23707个㊂然后,通过比较氨基酸预测值与真实值的差异㊁氨基酸与乳成分及体细胞数相关性的差异,进一步确定模型在大规模数据集上外部验证的性能㊂最后,使用混合线性模型分析胎次㊁泌乳阶段㊁季节(春季:3~5月;夏季:6~8月;秋季: 9~11月;冬季:12月~次年2月)及牧场对牛奶中游离精氨酸㊁组氨酸及异亮氨酸含量的影响,以探讨模型的预测应用效果:y i j k l m n=D I M i+P a r i t y j+S e a s o n k+H e r d l+ C o w m+e i j k l m n其中,y i j k l m n为分析的3种氨基酸性状表型,包括精氨酸㊁组氨酸和异亮氨酸;D I M i为第i水平D I M的固定效应(i=1,2, ,12,以30d为间隔分为12个水平,其中第12类包括D I M>330d的样本);P a r i t y j是奶牛的第j胎的固定效应(j=1:第一胎次;j=2:第2胎次;j=3:第3胎次;j=4:第4胎次;j=5:第5胎次;j=6:第6及后胎次);S e a s o n k 是季节固定效应(k=1:春季;k=2:夏季;k=3:秋季;k=4:冬季);H e r d l是第l个牧场的随机效应(l=1~9);C o w m是奶牛个体的随机效应;e i j k l m n为随机残差,假设服从e i j k l m n~N(0,σe2)正态分布,其中σe2是残差方差㊂2结果2.1牛奶的中红外光谱M I R特征牛奶的原始光谱如图1所示㊂牛奶M I R由925~5008c m-1范围内的1060个单独的波点组成,共包含5个区域,大致分为短波红外区(S W I R)㊁中波红外区(MW I R)和长波红外区(L W I R)㊂5010~3673c m-1被称为S W I R区域,此区域通常被认为与牛奶成分的化学键无关[24-25]; 3669~3052c m-1被称为S W I R-MW I R区域; 3048~1701c m-1被称为MW I R-1区域,此区域与C-H,C=O,C-N和N-H键有关,所有这些键均与乳脂含量有关[26];1698~1585c m-1被称为MW I R-2区域;1582~925c m-1被称为MW I R-L W I R区域,此区域被称为 指纹区 ,该区域通常被认为是预测牛奶成分最重要的区域,因为它与化学键C-H,芳香族C=C,C-O和N-O有关[27]㊂不同样本在MW I R-2(1698~1585c m-1)及S W I R-S W I R.短波红外或近红外区域;MW I R.中波红外区域(3.0~8.0μm);L W I R.长波红外区域(8.0~15.0μm)S W I R.S h o r t-w a v e l e n g t h i n f r a r e d o r n e a r-i n f r a r e d;MW I R.M i d-w a v e l e n g t h i n f r a r e d(3.0-8.0μm);L W I R.L o n g-w a v e-l e n g t h i n f r a r e d(8.0-15.0μm)图1牛奶样本原始光谱F i g.1O r i g i n a l s p e c t r u m o f m i l k s a m p l e s3033畜牧兽医学报54卷MW I R(3669~3052c m-1)区域吸光度的变异很大,这是由水吸收导致,一般认为,水吸收区域不含信息特征,因此来自吸水区域的波数通常被认为不能用于预测牛奶成分或任何其他特性[28]㊂在MW I R-1区域及MW I R-L W I R区域均观察到特征吸收峰,在S W I R区域未观察到特征吸收峰㊂2.2基于牛奶M I R的3种氨基酸预测模型的建立利用两种建模算法㊁3种波段选择算法及4种光谱预处理算法对牛奶中游离精氨酸㊁组氨酸及异亮氨酸分别建立基于M I R的预测模型,模型结果见表2㊂表2不同建模算法及特征选择方法对氨基酸预测模型性能的影响T a b l e2E f f e c t s o f d i f f e r e n t m o d e l i n g a l g o r i t h m s a n d f e a t u r e s e l e c t i o n m e t h o d s o n t h e p e r f o r m a n c e o f a m i n o a c i d p r e d i c t i o n m o d e l s建模算法M o d e l i n g a l g o r i t h m 性状T r a i t特征提取1F e a t u r e ss e l e c t i o n特征数量F e a t u r e sn u m b e r最优预处理2B e s tp r e t r e a t m e n t因子数4F a c t o rn u m b e r指标M e t r i c s3训练集T r a i n测试集T e s tR M S E c R c2MA E R M S E p R P2MA E R P D偏最小二乘回归P a r t i a l l e a s t s q u a r e s r e g r e s s i o n精氨酸A r g组氨酸H i s异亮氨酸I l e信息波点274S G(19.2)28.090.266.616.780.505.341.43G A389S G(23.4)77.040.445.397.900.456.291.23C A R S71N O N E135.900.584.846.890.585.641.41L A R100S G(21.4)38.000.276.487.090.455.821.37信息波点274S G(19.2)61.130.320.831.040.500.831.38G A377N O N E41.290.231.000.860.340.671.66C A R S93S G(11.2)140.890.600.700.880.560.701.63L A R100D I F F21.240.250.910.870.470.721.64信息波点274S G(29.3)52.370.201.711.750.491.341.55G A480N O N E32.140.211.542.720.321.981.00C A R S92N O N E151.650.551.282.350.381.791.15L A R100N O N E22.390.191.772.020.281.561.34岭回归R i d g e r e g r e s s i o n精氨酸A r g组氨酸H i s异亮氨酸I l e信息波点274S N V-8.410.206.827.530.386.111.29G A389M S C-8.050.336.647.710.286.361.26C A R S71S N V-7.550.396.296.830.365.271.42L A R100D I F F-8.470.236.967.890.156.201.23信息波点274S N V-1.230.260.931.030.260.751.39G A377N O N E-1.210.270.931.090.250.871.31C A R S93S N V-1.140.360.871.080.260.801.32L A R100D I F F-1.240.210.971.200.180.881.19信息波点274S N V-2.370.201.702.090.271.671.30G A480D I F F-2.310.261.742.000.241.501.36C A R S92S N V-2.240.291.691.980.351.411.37L A R100D I F F-2.460.161.861.910.301.291.421信息波点.包含925~1584c m-1㊁1719~1784c m-1及2652~2976c m-1范围内的274个波点;C A R S.竞争性自适应重加权算法;G A.遗传算法;L A R.最小角回归算法㊂2S G(w,k).平滑预处理,w值指窗口长度;k值指对窗口内的数据点进行k阶多项式拟合;N O N E.无光谱预处理;D i f f.差分预处理;M S C.多元散射校正预处理;S N V.标准正态变量变换预处理㊂3R c2.训练集决定系数;R M S E c.训练集均方根误差;R P2.测试集决定系数;R M S E p.测试集均方根误差;MA E.平均绝对误差;R P D.性能偏差比㊂4因子数.偏最小二乘回归算法中最佳主因子数1i n f o r m a t i o n w a v e p o i n t s.T h e274w a v e p o i n t s i n t h e r a n g e o f925-1584c m-1,1719-1784c m-1a n d2652-2976c m-1;C A R S.C o m p e t i t i v e a d a p t i v e w e i g h t i n g a l g o r i t h m;G A.G e n e t i c a l g o r i t h m;L A R.M i n i m u m a n g l e r e g r e s s i o n a l g o r i t h m.2S G (w,k).S m o o t h i n g p r e p r o c e s s i n g,w v a l u e r e f e r s t o w i n d o w l e n g t h;k v a l u e r e f e r s t o k-o r d e r p o l y n o m i a l f i t t i n g f o r d a t a p o i n t s i n t h e w i n d o w;N O N E.N o s p e c t r a l p r e t r e a t m e n t;D i f f.D i f f e r e n t i a l p r e t r e a t m e n t;M S C.M u l t i v a r i a t e s c a t t e r i n g c o r r e c t i o n p r e p r o c e s s i n g;S N V.S t a n d a r d n o r m a l v a r i a b l e t r a n s f o r m p r e p r o c e s s i n g.3R c2.D e t e r m i n a t i o n c o e f f i c i e n t o f t r a i n i n g s e t;R M-SE c.R o o t m e a n s q u a r e e r r o r o f t r a i n i n g s e t;R p2.D e t e r m i n a t i o n c o e f f i c i e n t o f t e s t s e t;R M S E p.R o o t m e a n s q u a r e e r r o r o f t e s t s e t;MA E.M e a n a b s o l u t e e r r o r;R P D.R a t i o o f p e r f o r m a n c e t o d e v i a t i o n.4F a c t o r n u m b e r.T h e b e s t p r i n c i p a l f a c t o r n u m-b e r i n p a r t i a l l e a s t s q u a r e s r e g r e s s i o n a l g o r i t h m40338期褚楚等:基于中红外光谱的牛奶中三种氨基酸含量预测模型的建立及应用2.2.1光谱预处理㊁特征选择算法及建模算法的选择建模前,使用C A R S㊁G A和L A R算法分别对光谱数据进行特征提取,分别找出能够代表精氨酸㊁组氨酸㊁异亮氨酸含量的特征变量,然后利用S G平滑㊁差分㊁M S C㊁S N V方法对光谱进行预处理㊂对于精氨酸,利用C A R S算法提取到的光谱特征建模效果好(R P2=0.58),其次是274个信息波点(R P2=0.50),G A和L A R算法表现出相似的结果(R P2=0.45)㊂对于组氨酸,表现出和精氨酸类似的规律,即C A R S算法(R P2=0.56)优于274个信息波点(R P2=0.50)建模,G A(R P2=0.34)和L A R (R P2=0.47)算法差于274个信息波点建模㊂对于异亮氨酸,利用274个特征信息波点(R P2=0.49)建模效果最好,优于C A R S(R P2=0.38)㊁G A(R P2= 0.32)及L A R(R P2=0.28)㊂3种氨基酸建模最优波段在M I R上的分布范围如下:精氨酸经过C A R S 算法共选择出71个波点:9个分布在MW I R-1区域㊁5个分布在MW I R-2区域;13个分布在MW I R-L W I R区域㊁26个分布在S W I R区域㊁18个分布在S W I R-MW I R区域㊂组氨酸经过C A R S算法共选择出93个波点:27个分布在MW I R-1区域㊁2个分布在MW I R-2区域;26分分布在MW I R-L W I R区域;16个分布在S W I R区域㊁22个分布在S W I R-MW I R区域㊂目前,国际上牛奶M I R建模常用的274个信息波点分布在925~1584c m-1㊁1719~ 1784c m-1及2652~2976c m-1范围内,包含了MW I R-1中的乳脂吸收区及MW I R-L W I R(牛奶指纹)区域㊂从表2可以看出,与岭回归相比,利用P L S R算法建立精氨酸㊁组氨酸和异亮氨酸模型效果较好,此类模型的R2及R P D较高㊁R M S E及M A E较低㊂综上所述,采用C A R S特征选择算法+无光谱预处理+ P L S R建模算法开发的精氨酸含量预测模型效果最好,该模型R P2=0.58,R M S E p=6.89n m o l㊃m L-1, MA E=5.64n m o l㊃m L-1,R P D=1.41;采用C A R S 特征选择算法+S G平滑(窗口长度为11,2阶多项式)预处理+P L S R建模算法开发的组氨酸含量预测模型效果最好,该模型R P2=0.56,R M S E p= 0.88n m o l㊃m L-1,MA E=0.70n m o l㊃m L-1, R P D=1.63;采用274个特征信息波点+S G平滑(窗口长度为29,3阶多项式)预处理+P L S R建模算法开发的异亮氨酸含量预测模型效果最好,该模型R P2=0.49,R M S E p=1.75n m o l㊃m L-1,MA E=1.34n m o l㊃m L-1,R P D=1.55㊂2.2.2预测最优模型的跨地区外部验证利用所建立的最优预测模型对来自不同地区的未参加建模的奶牛奶进行外部验证,以探讨建立的氨基酸预测模型对其他地区数据的预测能力,即跨地区预测能力㊂由表3可看出,数据集的划分不同,模型的外部验证结果略有差异,对于精氨酸㊁组氨酸和异亮氨酸,跨地区外部验证的预测误差分别为7.70~ 10.11n m o l㊃m L-1,1.22~1.49n m o l㊃m L-1, 2.01~2.76n m o l㊃m L-1㊂由图2可看出,真实值和预测值的散点图围绕在y=x(真实值等于预测值),表明在小规模数据集上,跨不同地区外部验证数据的预测值与真实值呈现出一定的相关趋势㊂综合模型在跨不同地区外部验证数据集上的预测误差及相关关系结果,表明目前建立的氨基酸最优预测模型可用于区分高氨基酸含量牛奶及低氨基酸含量牛奶,即分析氨基酸含量高低趋势,可用于奶牛性能高低评估,若模型用于较准确地预测真实含量还需要进一步优化和提高㊂2.3模型在9大规模牧场中预测应用为了进一步探讨模型对牛场大规模奶牛群牛奶的预测应用效果,利用建立的最优精氨酸㊁组氨酸㊁异亮氨酸含量预测模型对来自没有参加建模的另外9个不同奶牛场(位于E省)的4690头牛采集的32559个牛奶样本的M I R光谱进行预测分析㊂2.3.1模型预测的氨基酸含量及其高低趋势2.2.2 说明了基于M I R的氨基酸含量预测模型对氨基酸含量高低趋势具有一定的预测潜力㊂由表4可知,在进行跨不同地区或牧场的外部验证时,3种氨基酸含量的预测值略低于真实值,但在含量值的高低趋势是相似的,精氨酸含量最高,其次是异亮氨酸,组氨酸的含量最低㊂2.3.2模型预测的氨基酸含量与牛奶常规乳成分相关3种氨基酸预测值与牛奶常规乳成分和体细胞数及产奶量的相关性同3种氨基酸测定真实值与牛奶常规乳成分和体细胞数及产奶量的相关性相比,均呈现相同的正相关或负相关,预测值与牛奶常规乳成分(牛奶常规乳成分㊁体细胞数㊁产奶量)的相关强度略低于真实值与三者的相关强度(图3)㊂综合以上结果,建立的预测模型具有预测奶牛氨基酸含量及其变化趋势的潜力㊂5033畜牧兽医学报54卷表3最优模型的跨地区验证T a b l e3C r o s s-r e g i o n a l v a l i d a t i o n o f t h e o p t i m a l m o d e l性状T r a i t建模集T r a i n d a t a s e t外部验证集E x t e r n a l v a l i d a t i o nd a t a se t训练集T r a i n测试集T e s t外部验证集E x t e r n a l v a l i d a t i o n d a t a s e t数据量N u m b e r MA E MA E数据量N u m b e r MA E精氨酸A r g A㊁B㊁C地区数据D地区数据1244.845.643010.11 A㊁B㊁D地区数据C地区数据1155.416.91418.07 A㊁C㊁D地区数据B地区数据1196.126.51367.70 C㊁D㊁B地区数据A地区数据866.885.86787.80组氨酸H i s A㊁B㊁C地区数据D地区数据1330.700.70311.34 A㊁B㊁D地区数据C地区数据1250.730.88411.24 A㊁C㊁D地区数据B地区数据1300.920.94351.49 C㊁D㊁B地区数据A地区数据861.100.89901.22异亮氨酸I l e A㊁B㊁C地区数据D地区数据1311.711.34332.76 A㊁B㊁D地区数据C地区数据1251.631.26412.19 A㊁C㊁D地区数据B地区数据1301.931.31342.01 C㊁D㊁B地区数据A地区数据861.781.42892.59MA E.平均绝对误差MA E.M e a n a b s o l u t e e r r o r2.3.3模型预测氨基酸含量的影响因素经过混合线性模型分析可知,泌乳阶段㊁牧场㊁季节对牛奶中游离精氨酸㊁组氨酸及异亮氨酸含量均有极显著影响(P<0.001),而胎次对精氨酸含量无显著影响,对组氨酸和异亮氨酸有极显著影响(P<0.001) (表5)㊂图4A展示了泌乳阶段对牛奶中精氨酸㊁异亮氨酸及组氨酸含量的影响㊂共观察到两种变化规律,第一个对应异亮氨酸和组氨酸,在泌乳前2个月含量降低,随后小幅度增加,至泌乳6个月后又有降低趋势,在后期趋于稳定;第二种变化规律对应精氨酸,在泌乳前期和中期(1~9月)牛奶中精氨酸含量不断升高,泌乳9~11月略微降低,随后又转为上升趋势㊂图4B可看出,不同牧场之间氨基酸含量有差异,令人感兴趣的是,精氨酸和异亮氨酸在不同牧场之间的变化规律几乎相同,而组氨酸表现出与二者完全相反的变化规律㊂由图4C可知,随着从低胎次到高胎次的过渡,牛奶中精氨酸㊁异亮氨酸和组氨酸含量有降低趋势,但变化不明显,差异不显著㊂图4D展现了牛奶中精氨酸㊁异亮氨酸和组氨酸含量在不同季节中的变化㊂精氨酸㊁组氨酸和异亮氨酸对于季节的变化响应了相似的变化规律,即春季到秋季含量升高,在秋季含量到达顶峰,随后降低㊂3种氨基酸的最高值均出现在秋季,精氨酸的最低值出现在春季,异亮氨酸和组氨酸的最低值出现在冬季㊂3讨论3.1基于牛奶M I R的3种氨基酸预测模型的准确性本研究利用不同的特征选择方法㊁光谱预处理方法及建模算法建立了基于M I R的牛奶(原料牛奶)中游离精氨酸㊁组氨酸和异亮氨酸含量的预测模型,三者最优预测模型的预测性能相似,R P2均在0.5左右(0.58㊁0.56㊁0.49),R P D在1.5左右(1.41㊁1.63㊁1.55),预测误差R M S E p也在预期范围内(6.89㊁0.88㊁1.75n m o l㊃m L-1),这些结果表明,虽然建立的氨基酸预测模型目前不能进行精准定量检测,但可用于预测牛奶中的氨基酸含量,鉴别高游离氨基酸牛奶和低游离氨基酸牛奶,即用于牛奶氨基酸含量高低趋势分析,也可用于奶牛的品质性状指标氨基酸含量预测及其高低的比较㊂目前,国内外仅有一篇文献研究M I R对牛奶中游离氨基酸含量的定量预测,M c D e r m o t t等[22]使用P L S R方法,利用712个奶样的M I R及参考值建立了牛奶中游离总氨基酸㊁谷氨酸㊁甘氨酸㊁赖氨酸㊁精氨酸㊁天冬氨酸㊁丝氨酸及缬氨酸含量的定量预测模型,验证集中相关系数为0.26(精氨酸)~0.75(甘氨酸)(对应R2为0.07~0.56),R P D为1.07(丝氨603370338期褚楚等:基于中红外光谱的牛奶中三种氨基酸含量预测模型的建立及应用a.A㊁B㊁C地区数据建模,D地区数据做外部验证(最优模型外部验证结果);b.A㊁B㊁D地区数据建模,C地区数据做外部验证(最优模型外部验证结果);c.A㊁C㊁D地区数据建模,B地区数据做外部验证(最优模型外部验证结果);d.C㊁D㊁B地区数据建模,A地区数据做外部验证(最优模型外部验证结果)a.A,B,C a r e a d a t a m o d e l i n g,D a r e a d a t a f o r e x t e r n a l v a l i d a t i o n(o p t i m a l m o d e l e x t e r n a l v a l i d a t i o n r e s u l t s);b.A,B,D a r e a d a t a m o d e l i n g,C a r e a d a t a f o r e x t e r n a l v a l i d a t i o n(o p t i m a l m o d e l e x t e r n a l v a l i d a t i o n r e s u l t s);c.A,C,D a r e a d a t a m o d e l i n g,B a r e a d a t a f o r e x t e r n a l v a l i d a t i o n(o p t i m a l m o d e l e x t e r n a l v a l i d a t i o n r e s u l t s);d.C,D,B a r e a d a t a m o d e l i n g,A a r e a d a t a f o r e x t e r n a l v a l i d a t i o n(o p t i m a l m o d e l e x t e r n a l v a l i d a t i o n r e s u l t s)图2最优模型跨不同地区外部验证结果F i g.2E x t e r n a l v a l i d a t i o n r e s u l t s o f t h e o p t i m a l m o d e l a c r o s s d i f f e r e n t r e g i o n s。
红外光谱分析技术在乳及乳制品检测中的应用

红外光谱分析技术在乳及乳制品检测中的应用李欢欢卜秀秀(蒙牛乳业(焦作)有限公司,河南焦作454150)摘要:近年来,国内乳品行业多次发生质量问题,导致国内乳品消费者的基本权益受到了威胁,国家就此提出了许多解决方法,且相关检测技术的研究也进一步提升,国内乳品行业质量得到了保障。
红外光谱分析技术在乳及乳制品的检测过程中起到了重要作用。
本文主要就红外光谱分析技术在乳及乳制品检测中的应用展开讨论。
关键词:红外光谱分析技术;乳及乳制品;检测;应用进入21世纪以来,我国社会经济及科技发展迅速,相关检测技术得到了完善,但随着技术的完善,越来越多的质量问题也得到了进一步的确认。
如从发生最早、危害最广的三聚!胺毒奶粉事件,再到多个品牌产品致病菌超标事件以及多次反复出现的化学添加剂超标事件等等,国家相关部门对此类事件进行了严厉的打击,进一步加强了相关物质的检测技术研究,此类事件得到了进一步解决。
然而这并不是结束。
虽然国家已经进一步完善了相关的检测技术,但始终有不良商家试图寻找法律及技术的漏洞,为满足其自身的欲望,使用不合格的化学添加剂以延长产品的保质期及增强口感,或使用非牛乳的其它蛋白来降低乳及乳制品的制作成本等等,可谓无所不有,而这首先要重视对先进计算机信息技术的应用,充分发挥出计算机信息技术的价值与作用,建立具备丰富育苗、移栽、造林知识和技术的信息平台,为新时期移栽造林工作的开展提供重要的参考。
其次要制定健全完善的移栽造林管理制度,明确移栽造林工作流程,保证移栽造林工作的科学化、规范化展开。
要健全并落实动态化监管制度,实现对苗木选种、培育、移栽、生长等全过程的标准化管理,达到最佳的苗木培育和移栽造林质量。
2.5加强后期养护苗木移栽造林后,做好后期的养护管理工作也具有重要的现实意义,这是保障苗木良好生长的关键。
在养护管理过程中,应密切留意不同苗木的生长状况,及时地发现缺苗、死苗等现象,及时进行补苗。
针对弱苗,应架设支架进行固定,避免其被刮倒。
快速检测牛奶成分的近红外光谱测量方法及系统研究

四、结论
本次演示通过对近红外光谱技术在牛奶成分测量方面的应用进行研究,提出 了一种快速、无损、准确的牛奶成分测量方法及系统。该方法及系统通过光谱解 析和模型建立实现对牛奶成分的预测,具有快速、无损、环保等优点。该方法及 系统的应用可以实现对牛奶生产过程的实时监测,提高生产效率和产品质量。作 为一种重要的食品检测技术,近红外光谱技术在食品安全领域具有广泛的应用前 景。
研究方法:本研究选取了60种中药及中成药作为研究对象,采用近红外光谱 仪采集样品的近红外光谱数据。在数据采集过程中,采用了漫反射和透射两种方 式,并对数据进行预处理,以消除噪声和基线漂移等干扰因素。同时,运用化学 计量学方法,建立了近红外光谱与中药及中成药品质指标之间的模型,从而实现 了对中药及中成药品质的快速、无损检测。
4、牛奶中的抗生素残留是一个备受的问题。抗生素残留对人体健康有一定 危害,因此需要对其进行检测和监控。NIRS可以通过测量牛奶的透射光谱来预测 抗生素残留量。通过建立数学模型,可以将测量得到的光谱数据与标准化学方法 测定的抗生素含量进行比较,从而得到抗生素残留量的准确值。
三、结论
近红外光谱技术在牛奶及其制品品质检测中具有广泛的应用前景,可以快速 准确地检测牛奶及其制品中的营养成分和化学成分,实现对产品质量的快速非破 坏性检测。未来随着技术的不断发展和完善,NIRS在牛奶及其制品品质检测中的 应用将更加广泛和深入。
实验结果与讨论:通过对比实验结果,我们发现近红外光谱法能够有效地对 中药及中成药的品质进行评估。在所选取的60种中药及中成药中,预测结果的准 确率达到了95%以上,具有较高的可靠性。同时,该方法具有快速、无损、无需 前处理等优点,为中药及中成药品质检测带来了新的思路和方法。
在深入讨论实验结果的过程中,我们发现近红外光谱法的预测结果受到多种 因素的影响,如样品形态、采集部位、采集时间等。因此,为了更好地应用近红 外光谱法,需要严格控制实验条件和样品处理过程,以提高模型的准确性和稳定 性。此外,我们发现不同种类的中药及中成药的近红外光谱特征也有所差异,这 为分类和鉴别提供了可能。
基于近、中红外光谱数据融合掺假牛奶的判定

基于近、中红外光谱数据融合掺假牛奶的判定张海洋;廖彩淇;杨仁杰;鲍秀君;王威;靳皓;张伟玉【摘要】将近、中红外光谱数据进行融合,并结合偏最小二乘法建立了两个品牌掺杂牛奶的判别模型.分别准备伊利和蒙牛纯牛奶样品各40个、掺杂三聚氰胺牛奶样品各40个.室温下,采集所有样品的近红外透射光谱和中红外衰减全反射光谱.在融合近、中红外光谱数据的基础上,分别建立了伊利、蒙牛以及两品牌牛奶的判别模型,3个模型对预测集未知样品的判别正确率分别为96.2%、96.2%和94.2%.为了比较,分别建立了单一近红外光谱和中红外光谱的伊利、蒙牛以及两品牌牛奶的判别模型.研究结果表明:相对于单一的近红外光谱和中红外光谱,融合近、中红外光谱能减小不同牛奶品牌对模型预测性能的影响,可提供更好的分析结果.【期刊名称】《天津农学院学报》【年(卷),期】2017(024)004【总页数】5页(P52-56)【关键词】近红外光谱;中红外光谱;数据融合;不同品牌牛奶;判别分析;三聚氰胺【作者】张海洋;廖彩淇;杨仁杰;鲍秀君;王威;靳皓;张伟玉【作者单位】天津农学院工程技术学院,天津300384;天津农学院工程技术学院,天津300384;天津农学院工程技术学院,天津300384;天津农学院工程技术学院,天津300384;天津农学院工程技术学院,天津300384;天津农学院工程技术学院,天津300384;天津农学院工程技术学院,天津300384【正文语种】中文【中图分类】O657.33众所周知,牛奶由于能提供人体生长发育以及维持人体健康水平所必需的营养成份,如蛋白质、碳水化合物、脂肪等,被称为“白色血液”,深受广大消费者的喜爱。
随着牛奶供给量不断增加,一些奶制品销售商为了使“不合格牛奶”转变为“合格牛奶”,往往在牛奶中添加一些不属于牛奶组成的“外来物质”,以获取最大利润。
因此,发展一种便捷、精准的检测方法对于控制乳制品的质量具有重要的意义[1]。
牛奶的中红外光谱相关指标及遗传规律研究进展

Research Progress on Vitrification Freezing of Bovine Embryo
ZHANG Peipei, HAO Haisheng, DU Weihua, PANG Yunwei, LIU Yan, ZHAO Shanjiang, ZHAO Xueming*, ZHU Huabin
2020 年 第 56 卷 第 03 期
Review Papers·综述
牛奶的中红外光谱相关指标及遗传规律研究进展
娄文琦 1,罗汉鹏 1,刘 林 2,邹 杨 2,王雅春 1* (1. 中国农业大学动物科学技术学院,北京 100193;2. 北京奶牛中心,北京 100192)
摘 要:中红外光谱分析技术(MIRS)作为一种快速且经济的检测手段广泛应用于生产,中红外(MIR)光
划,有利于提升牛奶品质,满足消费需求。这种对牛奶 进行快速、廉价、准确、高通量分析的方法促使中红外 (Mid-Infrared,MIR)光谱在畜牧业和食品领域大量 应用。在 MIR 区域中,物质被电磁辐射穿过,分子键 位因吸收能量而发生改变,根据被照射样品的能量吸 收程度,结合光谱分析,可对样品进行定性和定量分 析。中红外光谱分析技术 (Mid-Infrared Spectroscopy, MIRS) 作 为 潜 在 工 具 可 用 于 大 群 的 表 型 及 遗 传 数 据 收集,正成为乳品科学的主要课题之一 [2]。国内牛奶 MIRS 作为奶牛相关性状的研究和应用还未见报道,故 本文总结了目前牛奶 MIR 光谱相关指标及其遗传规律, 旨在深入认识 MIR 光谱的遗传特性,为通过牛群选育
收稿日期:2019-04-24;修回日期:2019-05-09 资 助 项 目: 现 代 农 业( 奶 牛) 产 业 技 术 体 系 建 设 专 项 资 金 (CARS-36);长江学者和创行团队发展计划(IRT_15R62); 北京市科技技术课题(D171100002417001) 作者简介:娄文琦(1996-),男,江西吉安人,硕士研究生, 主要从事奶牛遗传育种研究,E-mail:2931373916@ * 通讯作者:王雅春,主要从事动物分子数量遗传学研究,E-mail: wangyachun@
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
SCIENCE & RESEARCH4科学研究2019·5中红外光谱预测牛奶及奶产品成分含量的回归模型及其特点阮健1,陈焱森1,万平民2,潘中保2,张震3,闫磊3,任小丽3,张淑君1(1.华中农业大学,动物遗传育种与繁殖教育部实验室,武汉 430070;2.武汉金旭畜牧科技发展有限公司,武汉 430065;3.河南省奶牛生产性能测定中心,郑州 450046)中图分类号:S8-1 文献标识码:A 文章编号:1004-4264(2019)05-0004-04DOI: 10.19305/ki.11-3009/s.2019.05.001摘 要:牛奶中各种成分含量是影响牛奶品质的重要因素,也是决定其价格的重要因素之一,高品质的牛奶和奶产品往往对人们的健康具有重要的意义。
而具有高效低成本的中红外光谱(MIR)已逐渐成为奶产品品质检测的有效新方法。
十多年来,欧美发达国家已利用MIR建立了牛奶和奶产品中脂肪酸、蛋白质、矿物质等成分含量预测模型,并投入生产使用。
然而,我国在利用MIR预测牛奶中成分的研究较晚、没有得到有效应用。
在建立模型的过程中,可选择较多的建模方法,其中回归建模方法的正确选用是决定模型预测能力的关键所在,而正确的预测方法往往意味着更高的预测精度和更强的泛化能力。
偏最小二乘法(PLS)、最小二乘支持向量机(LS-SVM)、人工神经网络(ANN)以及贝叶斯回归(Bayes-R)因为其各自不同的优点已成为目前使用较多的几种预测方法。
本文对这些方法及其特征进行介绍和总结。
关键词:牛奶;奶产品;MIR;回归模型;建模方法牛奶及其奶产品中物质含量丰富,中红外光谱(MIR)技术是一项能够快速、无损、定性、定量检测奶及奶产品中各种有机物与无机物的检测技术。
其光谱条带密度与官能团的比例关系可用于定量分析[1]。
为了建立准确度和精度高的预测模型,国内外研究人员对大量的建模方法进行了比较试验。
使用正确的建模方法可以极大提高模型的健壮性,在进行外部验证时会得到较高的决定系数(R 2)。
回归建模方法主要分为线性和非线性两种,其中非线性方法的应用最广泛。
除此之外,有些多用于分类分析的方法也可以用于回归建模。
2006年,国外学者通过MIR成功建立了预测模型,可预测奶牛中大部分脂肪酸含量[2],并在后来的几年里,通过不断改进方法,提高了模型的预测准确性。
2010年,科学家用MIR顺利预测了牛奶的蛋白质组成[3],2011年应用MIR预测了牛奶的真蛋白质含量[4]。
在随后的几年中,建立了大量具有高精度的预测模型。
在研究人员不断地尝试和选择中,根据均方根误差(RMSEP)和决定系数(R 2)等参数大小,对模型进行了比较和评价。
本文对这些常用于牛奶及奶产品中成分定量回归建模的方法及其特征给与介绍和总结,以期为我国以后相关研究及应用提供参考。
1 回归方法及其特征1.1 偏最小二乘法(PLS)收稿日期:2018-08-20基金项目:国家重点研发计划(2017YFD0501903);奶业技术体系岗位(CARS-36)资助。
通讯作者:张淑君,教授,博士生导师,主要研究方向为动物遗传育种与繁殖。
SCIENCE & RESEARCH5科学研究2019·5牛奶及奶产品通过中红外光谱仪得到的MIR以及其转化的数据矩阵往往存在自变量之间的多重相关性,如果采用最小二乘法(LS),这种变量多重相关性会严重危害参数估计,扩大模型预测误差,影响模型稳定性。
而偏最小二乘法(PLS)能规避这个问题。
现行的校正方法即是偏最小二乘法(PLS)[5],偏最小二乘回归的基本作法是首先在自变量集中提出第一成分t 1(t 1是x 1,x 2,…,x m 的线性组合,且尽可能多地提取原自变量集中的变异信息);同时在因变量集中也提取第一成分u1,并要求t1与u1相关程度达到最大。
此方法运用了部分主成分分析法(PCA)的思想,PCA可以解决变量间共线性的问题。
二者的不同在于PCA是从数据中抽提出的主成分进行回归,一般来说是选择自变量得分靠前的几个主成分,只考虑了自变量的主成分,所提取的主成分对自变量系统有很强的解释能力,它们是通过自变量之间的相关系数矩阵的特征值、特征向量得出的,包含了大部分自变量的变异信息,在提取主成分的过程中,与因变量是完全分开的,二者之间没有任何联系[6]。
然后根据得分系数矩阵将原变量代回到所得的新模型中。
而PLS不仅考虑了自变量的主成分得分,也考虑了自变量与因变量之间各自主成分的相关关系。
因此,可以认为两种方法选择的主成分是不同的主成分,PCA筛选出的主成分t1是离差信息最大的方向,而PLS通常不是。
因此,偏最小二乘回归是一种多因变量对多自变量的回归。
通过PCA建立模型的时候,往往不能包括所有的样本信息,导致回归方程的拟合度较差。
而使用PLS时,在最终模型中将包含原有的所有自变量。
2009年,Mauer等[7]定量检测婴幼儿奶粉中的三聚氰胺,通过PLS建立奶粉中三聚氰胺浓度回归模型,其决定系数R 2>0.99,交叉验证均方误RMSECV≤0.9,残差预测偏差RPD>12。
光谱因子分析能够将未掺杂的婴儿配方奶粉与含有1ppm三聚氰胺的样品以99.99%的置信度分开,对样品区的分类准确无误。
1.2 最小二乘支持向量机(LS-SVM)Lu等人基于最小二乘支持向量机(LS-SVM)建立了一种使用近红外光谱检测奶粉中纯三聚氰胺的新颖且快速的方法[8]。
在应用红外光谱技术对奶粉中脂肪含量进行无损检测时,采用LS-SVM对光谱透射率和脂肪含量值进行建模时,模型对脂肪含量有较好的预测值,预测误差均方根(RMSEP)为0.8367[9]。
支持向量机(SVM)是一种建立在结构风险最小化基础上的机器学习方法,具有小样本、非线性、高维度、预测精度高等特点。
它在解决非线性问题上有很多特有的优势。
SVM 除了能处理分类问题和判别分析问题外,也能特别成功地处理回归问题。
支持向量回归机的基本思想是寻求一个线性回归方程去拟合所有的样本点,它寻求的最优超平面不是将两类最大限度分开,而是使样本点离超平面总方差最小。
分类问题中求得的超平面也可以用于解决回归问题。
其算法是通过一个非线性映射φ,将数据x映射到高维特征空间F,并在这个空间进行线性回归。
即f(x)=ωΦ(x))+b Φ.R n →F,ω∈Fb为阈值。
因此,它将实际问题通过非线性变换转换到高维的特征空间,在高维空间中构造线性决策函数来实现原空间中的非线性决策函数,回归建模将低维非线性的输入映射到高维线性的输出[10]。
而LS-SVM是基于SVM算法的一种衍生算法。
相对于SVM,LS-SVM把不等式的约束条件变成了等式约束,从而使拉格朗日乘子的求解方便许多,加快了求解速度[11]。
但是LS-SVM 的预测精度比SVM稍差一些。
吴迪等[9,12]采用LS-SVM 算法成功实现了奶粉中脂肪和蛋白质的无损检测,且预测结果要优于传统的PLS的预测结果。
1.3 人工神经网络(ANN)在对汽油光谱数据进行处理时研究人员比较了包括ANN和PLS以及PCA等不同方法的准确性。
结果表明,当数据是非线性时,ANN比PLS表现更好[13,14]。
通过将一个隐层神经网络应用于平均中心吸收光谱,得到了实验数据的最佳结果[14]。
Balabin等在用光谱法检测液态奶、婴儿配方奶粉和普通奶粉中的三聚氰胺时比较了多种回归方法。
同样,对于非线性的数据,ANN比PLS有更好的表现[15]。
ANN是受神经元的工作原理启发得来的,每一个神经元细胞通过树突接受从其他神经元细胞传来的电化学信号。
当电化学信号的总强度达到一定阈值时,神经元便可以被激活,之后电化学信号通过突触被传送到与之相连的神经元。
神经元之间的连接可以随着连通次数的增加而增强,对每个输入信号αi 均要乘以连接系数w i 来表示连接的强弱。
所有信号乘以相应的连接系数并求和后需减去一定的阈值b。
如果总和大于0,SCIENCE & RESEARCH6科学研究2019·5则神经元是激活的,若小于0,则神经元是抑制的。
总信号∑n i=1W i αi -b作为变量输入传递函数f(x),而传递函数的值是神经元后处理的信号,可以将其输出或者输入到下一个神经元[16]。
神经网络的回归分析,是基于通过对样本的学习,来实现网络结构中自变量对应变量的映射的。
也就是说神经网络不能得到简单的回归方程数学表达式,其结果是经过网络结构以及阈值等确定的。
预测时,输入一个自变量,就会得到一个因变量作为结果输出[17]。
ANN方法的主要缺点是其计算的复杂性和随机性。
1.4 贝叶斯回归(Bayes-R)Ferragina等在对牛奶成分进行分析时比较了偏最小二乘法(PLS)、修改后-偏最小二乘法(MPLS)、贝叶斯岭回归(Bayes RR)、贝叶斯A(Bayes A)、贝叶斯B(Bayes B)共五个回归预测方法 。
该实验从气相色谱分析的47个脂肪酸(FA)中选择了4个足以代表所有47个FA在饮食、生理、碳酸链长度(小、中、长)、FA结构中双键存在与否及比例等方面变化的FA 作为参考物质,结果表明,与PLS和MPLS相比,剩下的三个方法表现出同样好的预测准确性[18]。
贝叶斯模型的表现型是基于标准化光谱的线性回归模型:其中β0是截距,{X ij }是标准化的波长数据,βj 是每一个波长的效果,εi 是假定为独立且相同分布的模型残差(iid),其中正态分布以零为中心,方差是σε2。
鉴于上述假设,给定效果和方差参数的数据的条件分布是其中y = {y i },θ代表了收集到的模型参数,。
先验密度是:其中截距被指定为具有非常大方差的正态先验,这相当于把截距视为“固定”效应,残差方差被指定为自由度为df ε的倒数比例卡方(χ-2)比重和比例参数Sε,波长的影响被指定为由一组超参数Ω索引且随机独立同分布先验p(βj |Ω)。
p(Ω)代表先验分布的超参数;p(βj |Ω)和p(βj |Ω)根据所述应用的模型而不同。
贝叶斯岭回归(Bayes RR),贝叶斯A(Bayes A)和贝叶斯B(Bayes B)区别在于分配给效果的占优比重的形式不同。
Bayes RR:在贝叶斯RR中,效果被赋予高斯先验。
该规范将估计值缩小到零,贝叶斯A和贝叶斯B 也发生了这种情况;收缩的程度在效果上是均匀的,并且该方法不执行变量选择[19,20]。
Bayes A:在贝叶斯A 中,(βj |Ω)iid ~ t(βj |dfε,S β) 是一个t比例的密度,与高斯先验相比,其可引起效应估计的差异收缩,而与表型弱相关的预测因子的估计效应则向零强烈收缩,是具有强关联的预测因子的收缩,并随着反应缩小到较小程度[19,20]。