基于物理化学性质的葡萄酒质量的可视化评价研究
基于理化指标分析的葡萄与葡萄酒的评价

基于理化指标分析的葡萄与葡萄酒的评价摘要针对酿酒葡萄与葡萄酒理化指标的统计,通过聚类法,典型相关分析及逐步回归分析法等,建立数据统计模型:对于问题一,首先对两组数据进行整理分析,然后利用spss软件进行配对数据t-检验(详见第三页表二),从而判断出两组评酒员的评价结果具有显著性差异。
而后利用excel进行方差分析-无重复双因子分析得出二组结果更为可信。
详细见第 3 页。
对于问题二,使用matlab软件对原始变量进行主成分分析得出中和变量,然后使用spss软件应用离差平方和法对中和变量进行聚类分析,从而根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级,为了检验欧式测距是否可以正确区分出葡萄的等级,所以对主成份分析后的理化指标求均值,经过验证,均值相差大,足以区分葡萄等级,最终将红葡萄分为3级,白葡萄分为4级。
详细见第 5 页。
对于问题三,首先通过matlab软件对葡萄酒的理化指标进行主成分分析,得出中和指标。
然后使用spss软件进行典型相关分析,得到葡萄酒的理化指标与酿酒葡萄的理化指标的关联度。
再通过对关系度表格的分析,得到酿酒葡萄与葡萄酒的理化指标之间的联系。
详细见第 14 页。
对于问题四,考虑到葡萄酒质量与酿酒葡萄和葡萄酒理化指标可能成线性关系,故应用逐步回归分析,将葡萄酒质量设为因变量,酿酒葡萄和葡萄酒理化指标设为自变量,列出线性回归方程,通过spss软件进行数据拟合和显著性分析,排除影响不显著的变量,将因变量与评酒员打分结果对比,得出拟合结果基本符合。
再通过分析得到分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响。
最后根据F检验判断所得数据的正确性。
由于葡萄酒可能会收到年份和贮藏环境等其他因素的影响,因此不能单纯地通过葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
详细见第 16 页。
关键字:典型相关分析 t检验主成分分析一、问题重述葡萄酒是一种成分复杂的酒精饮料,不同产地、年份和品种的葡萄酒成分不同。
基于理化指标统计分析的葡萄酒质量评价的论文

基于理化指标统计分析的葡萄酒质量评价的论文基于理化指标统计分析的葡萄酒质量评价的论文1.问题重述确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评,从而确定葡萄酒的质量。
酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。
通过给定的得分及理化指标数据解决下列问题:(1)分析两组评酒员的评价结果有无显著性差异,哪一组结果更可信?(2)根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
(3)分析酿酒葡萄与葡萄酒的理化指标之间的联系。
(4)分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?2.问题分析与预备知识2.1问题一利用SPSS等统计软件对评价结果进行数据分析,并采用计算均值、T-检验的方法进行计算分析,用以评判两组评酒员评价结果的差异性,从而判断评价结果可信性。
T-检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。
当总体分布是正态分布,如总体标准差a未知且样本容量n<30,那么样本平均数与总体平均数的离差统计量呈t分布。
检验统计量为:其中,t为样本平均数与总体平均数的离差统计量,无为样本平均数,/x 为总体平均数,ax为样本标准差,n为样本容量。
2.2问题二在第一问的基础上,选取第二组评酒师对红白葡萄酒的评价结果平均值作为标准,先通过主成分分析法将问题简化,从而便于排序与分类,再使用聚类分析对主成分的特征向量进行分析。
最后参考酒类等级建立标准W,并使用数据分析结果支持结论。
2.3问题三根据第二问分级结果,使用SPSS软件对葡萄酒和葡萄的主要理化指标进行相关性及多元回归分析[51,从而确定酿酒葡萄与葡萄酒理化指标之间的联系。
2.4问题四根据葡萄酒评价结果与葡萄酒及酿酒葡萄主要理化指标间的关系,筛选出对葡萄酒的分有重要影响的指标,然后做多元线性回归分析,并通过数据带入对比检验后,用得出评价葡萄酒质量的公式。
葡萄酒的评价与理化指标检验

葡萄酒的评价与等级指标检验前言: 中国葡萄与葡萄酒产业发展迅速,已进入世界前列。
2004年中国葡萄栽培面积和产量列世界第5位,鲜食葡萄生产规模居世界首位;葡萄酒产量近37万t,近年来年平均增长15%以上。
葡萄与葡萄酒在产业结构调整、特色经济发展、农民增收中发挥着越来越重要的作用。
目前,中国葡萄生产正处在从数量扩张型向质量效益型转变的关键时期。
葡萄与葡萄酒产业涉及农业、轻工业、商业以及文化传播等多种行业,各行业必须互相协调、有机结合,才能促进中国葡萄酒事业健康、有序的发展。
现代葡萄与葡萄酒产业的发展己上升到高度综合的层次,传统的生产管理模式越来越表现出它的局限性,既表现在决策过程的盲目性,又表现于研究成果推广应用的低效率、低质量,这与发达国家以电子信息技术为代表的现代化葡萄与葡萄酒生产管理形成了鲜明对比。
智能系统及其相关技术是一种全新的处理葡萄与葡萄酒行业问题的思想方法和技术手段,利用现代智能化信息技术,可以实现葡萄与葡萄酒生产、管理、营销的科学化和合理化,加速对传统生产管理模式的改造和升级,大幅度提高生产效率、管理和经营决策水平。
21世纪是信息经济的时代,信息技术已成为推动社会经济发展的重要力量。
信息化是葡萄与葡萄酒产业现代化的标志和关键,利用现代信息技术改造传统产业,使信息技术与传统产业有机结合,已成为葡萄与葡萄酒产业经济实现跨越式发展的必然趋势。
1智能系统概况1.1智能系统的概念智能系统(Intelligent System,IS)起源于人工智能中的专家系统(Expert System,ES),是目前人工智能研究的一个最活跃、最具成效的分支。
智能系统采用了推理机与知识库相分离的构造原则,具有相关领域专家水平的专门知识,能根据用户提供问题的初始事实,运用知识库中的知识,进行有效的推理求解。
与人类专家能够通过学习不断获取知识一样,高级的智能系统具有进一步获取知识的能力。
同时,智能系统具有海量数据表现和筛选能力,能解释其推理过程或某个决定,满足用户的智能化使用和个性化服务需求。
葡萄酒质量评价的优秀论文

葡萄酒质量的综合评价分析模型中国海洋大学罗聃徐兴成谭萍指导教师高翔【摘要】近年来,我国掀起了一场葡萄酒热,对葡萄酒的需求与日俱增,特别是随着食品科学技术的发展,人们不再满足传统感官评价葡萄酒的水平,如何运用数据资料定量研究葡萄酒的品质,加快建立葡萄酒市场指标规则成为人们关注的焦点。
本文主要研究了葡萄酒的品质与葡萄酒自身以及酿酒葡萄的理化指标的关系,给出了基于葡萄酒自身的理化指标以及酿酒葡萄的理化指标与芳香物质的定量综合评价模型。
首先基于两组评酒员对同一批葡萄酒的评价分数数据,采用假设检验中的t检验法建立评估两组数据差异的模型,得到了两组评酒员的评分存在显著差异的结论,并通过对两组数据进行方差分析,以判别结果具有的稳定性作为标准,得到第二组比较可靠。
接下来我们结合酿酒葡萄的理化指标和可信组评酒员的打分所刻画的葡萄酒的质量对酿酒葡萄进行分级,用聚类分析的方法将红,白葡萄酒和酿酒葡萄各分成了5类,然后对分好的葡萄类所酿造的葡萄酒进行统计,得到各类葡萄所对应的级别。
更进一步,我们分析了酿酒葡萄和葡萄酒的理化指标之间的联系,运用主成分分析的方法,从酿酒葡萄的30个指标中提取出了12个主要成分,进而通过逐步回归的方法建立起酿酒葡萄和葡萄酒的理化指标联系的模型。
最后我们将提取葡萄及葡萄酒的理化指标与芳香物质中的主成分,利用逐步回归的方法考察理化指标与芳香物质对葡萄酒质量的影响程度,通过对芳香物质对葡萄酒质量影响比重得到芳香物质对葡萄酒的质量有30%以上的影响比重(白葡萄的芳香物质对白葡萄酒的质量影响相对更大),故而不能完全用酿酒葡萄和葡萄酒的理化指标评价葡萄酒的质量。
关键词:假设检验聚类分析主成分分析逐步回归一、问题重述1.1问题背景葡萄酒是由新鲜葡萄或葡萄汁经过酒精发酵而得到的一种含酒精饮料。
葡萄酒质量是其外观、香气、口感、整体的综合表现。
一方面,酒中的糖、酸、矿物质和酚类化合物,都具有各自独特的风味,它们组成了葡萄酒的酒体;另一方面,酒中大量的挥发性物质,包括醇、脂、醛、碳氢化合物等,都具有不同浓度、不同愉悦程度的香气,葡萄酒最终的质量则是葡萄酒中各种成分协调平衡的结果。
基于数据分析的葡萄酒评价模型

基于数据分析的葡萄酒评价模型摘要本文就葡萄酒的评价问题进行了分析研究,首先对所有评酒员的评分结果采用逐对比较法()1(2-≥=hn t hns hd ht hdα)和双样本t 假设检验法进行分析,然后对葡萄和葡萄酒的理化指标基本数据进行统计分析及无量纲化处理,再对其用主成分分析法(),,2,1,(),(p j i e x z p l ij i j i ij ===λ)、典型性相关分析法、多元线性规划分析法([][]alpha X Y regress stats r b b ,,int,int,,=,int),(r r rcopht )和TOPSIS 法(n j m i a a b mi ijijij ,,2,1,,,2,1,12===∑=)进行相关性分析,最后针对各个问题建立模型求解.针对问题一,我们首先利用EXCEL 对葡萄酒品尝评分表的分数数据进行处理,然后利用MATLAB 软件绘制出所有葡萄酒样品的分数曲线图,因为样本总体相同,i i y x -服从正态分布,采用逐对比较法得到两组红白葡萄酒综合评价的差值,确定出两组评分无显著性差异.再利用双样本t 假设检验方法判断最终得出第二组评酒员的评分结果更可信.针对问题二,我们首先利用EXCEL 及MATLAB 软件对附件二指标总表中的一、二级指标数据分别进行处理,然后利用主成份分析法,用贡献率(),,2,1(1p i pk ki=∑=λλ)对各主成分加权求和,得到样本总得分,由于我们在问题一中已得出第二组评酒员的评分结果更可信,故设样本总得分与第二组数据符合二八原理,计算得到一组综合分数,最终分析确定红葡萄可分为五个等级,白葡萄可分为六个等级.针对问题三,我们首先对酿酒葡萄和葡萄酒的理化指标数据进行预处理,提取两个有代表性的综合变量,再利用典型性相关分析处理得到两组指标之间的整体相关性联系,呈现出对应相关关系.针对问题四,由于在问题三中已得出酿酒葡萄和葡萄酒的理化指标之间存在着整体相关关系,我们首先对附件二指标总表中的数据进行无量纲化处理,然后采用多元线性回归分析得到酿酒葡萄和葡萄酒的理化指标与葡萄酒质量(分数)的线性相关关系,最后利用TOPSIS 法论证确定出不能用葡萄和葡萄酒的理化指标来评价葡萄酒的质量.关键字 t 假设检验 无量纲化 主成分分析 典型性相关分析 多元线性规划分析一问题提出1.1问题重述确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评.每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量.酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量.附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据.请尝试建立数学模型讨论下列问题:1. 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级.3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系.4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?1.2 问题分析问题要求我们通过研究葡萄酒和酿酒葡萄的理化指标以及葡萄酒的品尝评分,分析评价结果的差异性、可信度,以及酿酒葡萄对葡萄酒质量之间的影响,说明酿酒葡萄与葡萄酒的理化指标之间的关系,确定是否能用葡萄酒和葡萄的理化指标来评价葡萄酒的质量.问题一,根据附件一中两组品酒员对红白两种葡萄酒的评分,利用逐对比较法得出hd,bd,hs,bs,hd,bd,再得出btht,值,在利用双样本均值差t检验法得出两组评价结果有无显著性差异,再对所得数据进行双样本t假设检验方法判断哪组更可信.问题二,根据附件二中酿酒葡萄的理化指标,先对每种含量进行求和再平均,(见附录三表三、表四),然后利用主成分分析法,得出所有成分中的主成分、特征值特征向量以及主成分得分等,最后利用贡献率对主成分得分加权,得出一组得分,将总得分与附件一中二组的数据根据一定的比例进行加权计算,得到总得分,对总得分进行排序,就得到了酿酒葡萄的分级.问题三,针对本问题,先提取两组变量中具有代表性的数据,利用典型性分析,对这些数据建模求解,得到一个整体的相关性.反应酿酒葡萄与葡萄酒理化指标之间的联系.问题四,因为酿酒葡萄和葡萄酒的理化指标之间有联系,所以在考虑他们对葡萄酒质量影响时,可以把它们两个综合起来考虑对葡萄酒质量的影响,即希望能建立一种关系,所以用多元线性回归分析,这样便能得出它们对葡萄酒的质量有否影响.二模型假设1、假设题目所给数据真实可靠.2、假设每组评酒员品的是同一样酒.3、假设附件一中评酒员的评价结果反映了葡萄酒的质量.4、假设葡萄酒样品和葡萄酒一一对应,例如27号红葡萄酒是由27号红葡萄生产而来.5、假设二级指标影响很小,我们可以忽略它的影响.6、不考虑因个人口味、爱好不同对葡萄酒打分的影响,不考虑因环境等不同对葡萄酒和葡萄理化指标的影响.三符号说明x:第一组得分.y:第二组得分.hx:第一组每位品酒师对每个红酒样品各个方面评分的和,即综合评价.bx:第一组每位品酒师对每个白酒样品各个方面评分的和,即综合评价.hy:第二组每位品酒师对每个红酒样品各个方面评分的和,即综合评价.by:第二组每位品酒师对每个白酒样品各个方面评分的和,即综合评价.hd:两组红葡萄酒综合评价的差值.bd:两组白葡萄酒综合评价的差值.hs:hd的标准差.bs:bd的标准差.hd:hd的平均值.bd:bd的平均值.hn:红葡萄酒样品个数,即27.bn:白葡萄酒样品个数,即28.四模型建立与求解问题一1、数据处理利用附件一中的数据,求出每个评酒员对每个酒样评价的综合评分,用MATLAB 对这些数据进行处理,见附录三(表一,表二).2、模型建立我们首先考虑对每个样品的十个综合评分求平均值,用MATLAB作图(见下图),结果不能判断有无显著性差异.然后采用逐对比较法,以红葡萄酒为例:红葡萄酒共有27对相互独立的观察结果:),(,),,(),,(27272211hy hx hy hx hy hx ,令272727222111,,,hy hx hd hy hx hd hy hx hd -=-=-= ,则2721,,,hd hd hd 相互独立,又由于2721,,,hd hd hd 是有统一因素所引起的,可认为他们服从同一分布.今假设i hd ~),(2hd hd N δμ,27,,2,1 =i .这就是说2721,,,hd hd hd 构成正态总体),(2hd hd N δμ的一个样本,其中2,hd hd δμ未知.我们需要基于这一样本检验假设: (1);0:,0:10≠=hd hd H H μμ (2);0:,0:10〉≤hd hd H H μμ (3) ;0:,0:10〈≥hd hd H H μμ分别记2721,,,hd hd hd 的样本均值和样本方差的观察值,hd 2hd s .检验问题(1),(2),(3)的拒绝域分别为(显著性水平为α):)1(2-≥=hn t hns hd ht hdα,)1(-≥=hn t hns hd ht hdα, )1(--≤=hn t hns hd ht hd α.现在回过来讨论本例的检验问题.先做出同一试块分别由y x h h ,测得的结果之差.按题意需检验假设;0:,0:10≠=hd hd H H μμ现在4786.2)26()26(,27005.02===t t h n ε即知拒绝域为4786.2≥=hns hd ht hd.若4786.2〈ht ,则t 的值不落在拒绝域内,故接受0H ,认为两组对红葡萄酒的评分无显著性差异,反之则反. 3、 模型求解利用逐对比较法(程序见附录二附件一),求出ht 与bt (见图1),在α=0.01下进行t 分布的显著性分析,得出两组评酒员的评价结果无显著性差异,再对数据进行双样本均值差t 检验法(见图二),结果得出二组更可信.问题二1、 数据分析首先对附件二酿酒葡萄的理化指标进行数据处理(见附录三表三、表四) 2、 模型建立1)计算相关系数矩阵⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=pp p p p p r r r r r r r r r R 212222111211... (1) ij r (p j i ,...2,1,=)为原变量的i x 与j x 之间的相关系数,其计算公式为∑∑∑===----=nk nk j kj i kij j k nk i ik j i x x x xx x x xr 11221)()()()( (2)因为R 是是对称矩阵(即i j j i r r =),所以只需计算上三角元素或下三角元素即可. 2)计算特征值与特征向量首先解特征方程0=-R I λ,通常可用雅可比法(Jacobi )求出特征值),,2,1(p i i =λ,并使其按顺序大小排列,即0...,321≥≥≥≥p λλλλ;然后分别求出对应于特征值i λ的特征向量),,2,1(p i e i =.这里要求,1=即∑==pj ij e 121,其中ij e 表示向量i e 的第j 个分量.3)计算主成分贡献率及累计贡献率 主成分i z 的贡献率i α为),,2,1(1p i pk ki=∑=λλ累计贡献率为),,2,1(11p i pk kik k=∑∑==λλ一般取累计贡献率达85-95%的特征值m λλλλ,,,,321 所对应的第一、第二、第)(p m m ≤个主成分. 4)计算主成分载荷量 其计算公式为),,2,1,(),(p j i e x z p l ij i j i ij ===λ (3)得到各主成分的载荷后,利用特征向量,得到各主成分的得分⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=nm n n m m z z z z z z z z z Z 212222111211 (4)5)主成分分析用于系统评估利用主成分p z z z ,,,21 做线性组合,并以每一个主成分i z 的方差贡献率i α作为权数,构造一个综合评价函数p p z z z y ⋅++⋅+⋅=ααα 2211 (5) 也称y 为评估指数,依据对每个样品得出的y 值进行分级. 3、 模型求解利用MATLAB 编写程序,得出y 的值.(程序见附录二附件二) 得出的y 值越大说明酿酒葡萄的质量越高,葡萄酒质量的衡量用附件一中二组的数据(由题一知二组比一组更可靠),利用二八原理得出葡萄酒和酿酒葡萄的综合得分(见附录三表五),找出最大值max ,最小值min ,组距6min)(max -=d ,红葡萄酒得出5个小区间,划分为5个等级,白葡萄酒得出6个小区间,划分为6个等级,划分等1、 数据分析在两组变量中提取有代表性的两个综合变量,对综合变量进行标准化处理(见附录二附件三),利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性.2、 模型建立本模型对两组指标酿酒葡萄和葡萄酒的理化指标作典型相关分析.其中, 酿酒葡萄指标:211,,A A葡萄酒的理化指标:3022,,A A第一步,计算相关系数阵3030)(⨯=ij r R ,具体结果见附录表1A 2A … 29A 30A⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡--------0000.13113.02401.03680.03113.00000.13486.01073.02401.03486.00000.11097.03680.01073.01097.00000.1302921A A A A 第二步,典型相关系数及其检验,将酿酒葡萄指标和葡萄酒的理化指标数据经过整理利用 MATLAB 软件的canoncorr 函数进行处理,得出如表1所示结果:由表1可知,前6个典型相关系数均较高,表明相应典型变量之间密切相关.进行相关系数的2χ统计量检验确定典型变量相关性的显著程度,比较统计量2χ计算值从上表得知这9对典型变量均通过统计量检验,表明相应典型变量之间相关关系显著,酿酒葡萄与葡萄酒的理化指标之间有相关联系.第三步:典型相关模型由于原始变量的计量单位不同,不宜直接比较,本文采用标准化的典型系数,给出典型相关模型,如公式⑴~⑹所示⎪⎪⎪⎩⎪⎪⎪⎨⎧+++++=++++++++++++-=302928272625242322121201918171615141312111098765432110.1859A -0.1243A 0.8060A0.9033A - 0.1438A 0.7253A 1.1161A -0.5222A 0.9882A V0.2576A - 0.6898A 0.6145A 0.3881A 0.8054A -0.9221A -0.0797A 0.8424A 0.1035A-0.1112A 0.6588A 0.5552A - 0.6333A - 0.8875A 2.1858 -0.53080.07880.53010.0333- 0.14192666.0 A A A A A A A U ⑴ ⎪⎪⎪⎩⎪⎪⎪⎨⎧++++++=++++++++=302928272625242322221201918171615141312111098765432120.3811A 1.0582A 1.9635A0.7222A 0.6133A - 1.1626A -2.8979A 1.2812A - 0.5658A V0.2346A 0.2256A -0.1844A 0.1093A 0.0087A -1.4993A 0.1513A 0.7407A - 0.6954A-0.6504A - 0.3317A - 0.1804A - 0.0854A - 0.6617A -0.7315 0.2775 0.4173- 0.0114 0.0908- 0.8853-0.1777 A A A A A A A U ⑵ ⎪⎪⎪⎩⎪⎪⎪⎨⎧+-+++=+++++-+++++=302928272625242322321201918171615141312111098765432130.6108A 1.1652A -0.2270A0.2647A 0.5229A 0.4005A 1.3208A -0.3465A -0.0115A V0.7740A 0.0768A 0.1494A - 0.5894A 0.7736A 0.8003A 0.0571A 0.0390A -0.1631A - 0.1316A 0.3281A - 0.3523A - 0.5051A 0.7135A -1.9691 1.6219-0.6603 1.1176-0.4611- 0.0626 -0.1341A A A A A A A U ⑶ ⎪⎪⎪⎩⎪⎪⎪⎨⎧-++++=++++++++++++=302928272625242322421201918171615141312111098765432140.8632A - 0.6128A -2.1413A0.3405A 0.1296A 0.1725A 1.7119A -1.1137A 2.7421A - V0.4821A 0.2111A -0.0337A - -0.4764A 0.8511A - 3.8525A -0.4394A -0.8279A 0.7593A 1.6148A 1.4068A 0.0829A 0.4232A -1.5406A 2.0668 -0.90220.17060.2461-0.5411 0.1621-0.0964A A A A A A A U ⑷ ⎪⎪⎪⎩⎪⎪⎪⎨⎧-+++=+++++++++++=302928272625242322521201918171615141312111098765432150.9032A -0.5843A -1.5873A0.0911A - 0.1586A 0.1056A 1.3940A 1.8497A -1.4755A - VA 0.2073 0.0210A 0.6044A - 0.1196A - 0.8591A 0.2084A 0.2593A -0.1736A - 0.7033A - -0.3871A - 0.0474A 0.1275A - 0.3342A 0.0629A - 1.6602 -1.22400.1262 0.3456- 0.4287- 0.2810 -0.0774A A A A A A A U ⑸ ⎪⎪⎪⎩⎪⎪⎪⎨⎧-++=+++++++++++++=302928272625242322621201918171615141312111098765432160.0113A - 0.2930A -1.2336A 0.5983A 0.6340A 1.1863A -1.1943A -0.1001A -0.1006A V1.1199A 1.6234A -0.5710A - 0.4459A 1.2038A 1.1480A -1.0176A -0.2293A 0.1792A0.1712A 0.4702A 0.3912A 0.8888A 0.0378A - 1.1037 2.3197-0.59180.4889-0.2723 0.3094 0.3201- A A A A A A A U ⑹ 3、结果分析由公式⑴典型相关方程可知,酿酒葡萄的主要指标是7A ,8A ,14A ,16A ,17A ,说明酿酒葡萄中影响葡萄酒理化指标的主要因素是总酚(7A )、单宁(8A )、PH(14A )、干物质含量(16A )、果穗质量(17A ),葡萄酒的第一典型变量1V 与22A ,24A ,27A ,28A 呈高度相关;根据公式⑵典型相关方程,2A (花色苷)是酿酒葡萄的主要因素,葡萄酒的第二典型变量2V 与23A ,24A ,25A ,28A ,29A 呈高度相关;公式⑶中酿酒葡萄的主要指标是6A ,7A ,16A ,葡萄酒的第三典型变量3V 与24A ,29A 呈高度相关;公式⑷酿酒葡萄的主要指标是6A ,7A ,8A ,11A ,12A ,14A ,17A ,葡萄酒的第四典型变量4V 与22A ,23A ,24A ,28A 呈高度相关;公式⑸酿酒葡萄的主要指标是6A ,7A ,葡萄酒的第五典型变量5V 与22A ,23A ,24A ,28A 呈高度相关;公式⑹酿酒葡萄的主要指标是15A ,16A ,17A ,20A ,21A ,葡萄酒的第六典型变量6V 与24A ,25A ,28A 呈高度相关.由于第一组典型变量信息比重较大,所以总体上酿酒葡萄与葡萄酒主要理化高度相关的主要指标是7A ,6A ,16A ,17A ,8A ,14A ,2A ,11A ,12A ,14A ,15A ,20A ,21A ,反映葡萄酒的理化指标与酿酒葡萄高度相关的指标为22A ,23A ,24A ,25A ,27A ,28A ,29A .问题四1、模型建立[][]alpha X Y regress stats r b b ,,int,int,,= int),(r r rcophtn j m i aa b mi ijijij ,,2,1,,,2,1,12 ===∑=程序见附表二附件,残差图见附录一图三、图四. 2、结果分析 以红葡萄酒为例 2997.5;5148.7010==ββ y =70.5148+5.29971x ,9842.02=r ;(越接近于1,回归效果越显著) 05.00255.0≤=p ,回归模型成立.从残差图可以看出,除第8,11,20三个数据外,其余数据的残差离零点均较近,且残差的置信区间均包含零点,这说明回归模型y =70.5148+5.29971x ,能较好的符合原始数据,而这三个个数据可视为异常点. 同理,白葡萄的多元线性回归成立. 用TOPSIS 法,对能否用葡萄酒和葡萄酒的理化指标来评价葡萄酒的质量进行分析, (1)用向量规划化的方法求得规范决策矩阵。
酿酒葡萄的理化指标与葡萄酒的理化指标的联系

摘要为寻求并解释酿酒葡萄的理化指标对葡萄酒的理化指标的影响程度,本模型主要围绕利用统计软件和统计分析方法解决问题,利用两者的理化指标为原始数据,用spss分析软件的相关性分析研究理化指标之间的相关性程度,然后进行记录,分类工作。
经过查阅书籍、小组共同讨论并研究,利用统计手段和有效利用建模方法,由于数据庞大且有较大随机性,首先利用spss软件分析理化指标的主成分,然后记录和分类,建立超定方程模型,把理化指标的关系转化为二阶最小二乘解的问题,运用spss软件中的最小二乘法,记录计算数据。
关键字理化指标之间的相关性程度超定方程最小二乘法双变量分析5.2.3数据预处理1附件二可知,白藜芦醇是由顺式白藜芦醇、反式白藜芦醇、順式白藜芦醇苷和反式白藜芦醇苷组成;黄酮醇是由杨梅黄酮、槲皮素、山萘酚和异鼠李素组成,还原糖是由果糖和葡萄糖组成,氨基酸是由天门冬氨酸、苏氨酸、丝氨酸等组成,这些一级指标都由二级指标构成。
因此,在数据处理之时我们以一级指标作为标准进行处理。
2相关性分析的原始数据有所改动,对于三次实验值,分析的原始数据改为取均值。
3第三问中颜色指标的取值与第二问中的颜色指标雷同5.2.3分析酿酒葡萄与葡萄酒的理化指标之间的联系。
5.2.3.1由于数据过于庞大,我们有必要先整理数据,因此我们利用主成分分析,下面运用SPSS软件对白葡萄酒与白葡萄的理化指标进行系统主成份分析,我们把葡萄酒与葡萄的理化指标的主成份得出的结果,做了归类如下表5.2.3.1模型的建立通过查阅部分书籍,我们意识到要清楚数据中元素之间的联系,可以通过统计方法的相关性分析,把得出的相关性参数利用matlab 软件,建立两种指标间的联系,将问题转化为用线性最小二乘拟合求解超定方程组的问题。
5.2.3.2相关性分析红葡萄与红葡萄酒的理化指标的相关性分析相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。
分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量

图 1 逐步回归交互式界面 复判定系数为 R 2 0.8711 ,检验值 F 15.2108 ,得到最终模型为 y 0.1423 y1 0.1782 y2 0.1027 y6 0.1936 y12 0.3670 y13 此回归方程即为酿酒红葡萄和红葡萄酒的理化指标对红葡萄酒质量的影响方程,
Matlab 程序
clc,clear gj=xlsread('…\葡萄酒评价\葡萄酒和葡萄.xlsx'); gj=zscore(gj); %数据标准化 r=corrcoef(gj); %计算相关系数矩阵 %下面利用相关系数矩阵进行主成分分析,x 的列为 r 的特征向量,即主成分的 系数 [x,y,z]=pcacov(r) %y 为 r 的特征值,z 为各个主成分的贡献率 contr=cumsum(z)/sum(z) t=x(:,1:19) t1=z(1:19) y1=zeros(27,19); y1=gj*t Y=[68.1 74 74.6 71.2 72.1 66.3 65.3 66 78.2 68.8 61.6 68.3 68.8 72.6 65.7 69.9 74.5 65.4 72.6 75.8 72.2 71.6 77.1 71.5 68.2 72 71.5]; Y=zscore(Y); %数据标准化
yi 表示酿酒红葡萄、红葡萄酒理化指标的第 i 个主成分。
通过逐步回归分析后, 影响红葡萄酒质量的红葡萄和红葡萄酒理化指标的主成分只剩下
yi (i 1, 2, , 6), y12 , y13 。结合红葡萄及红葡萄酒理化指标的主成分,糖转化为酒精,酸影
对影响葡萄酒品质的理化指标进行简化

对影响葡萄酒品质的理化指标进行简化,提高葡萄品质的检验效率。
通过主成分分析、相关性分析、聚类分析的数学方法对所测得的55个葡萄品种的28个理化指标进行简化,从而简化影响葡萄品质的理化指标。
将反映葡萄品质的28个指标简化为5个指标,分别为可溶性固形物、固酸比、总酸、果胶和VC,经初步分析,这5个指标能够代表葡萄的甜度、酸度、酸甜度、涩味和果实硬度。
可溶性固形物、固酸比、总酸、果胶和VC这5个指标基本可以反映葡萄的品质。
数据统计分析采用DPS6.50软件,运用主成成分析、相关性分析和聚类分析法对所测得数据进行分析,从中得出影响葡萄品质的主要指标。
结果与分析影响葡萄品质的主成分的确定组成成分析能将许多相关的随机变量压缩成少量的综合指标,同时又能反映原来较多因素的信息。
按照主成分分析的理论,若前R个主成分的累计率达到了85%原则,则这R个主成分能反映足够的信息。
研究对5 5个葡萄品种的28个指标进行组成分析,从积累贡献率分析并简化评价葡萄品质的主要指标,研究表明,前五个主成分的累积贡献率已达到89.91%,故选取前5个特征值,即5个相互独立的新的综合性指标你,使得他们能够较全面的反应出果实品质的主要信息。
表1的正相关。
因此,第1主成分可称之为糖分因子;第2主成分与总酸、VC有较大正相关,但与固酸比有较大的负相关,因此,第2主成分可称之为酸因子;第3主成分与单宁、多酚含量有较大正相关;第4主成分与果胶有较大正相关;第5主成分与纤维素有较大负相关。
表2Vc、单宁、还原糖、可溶性固形物、固酸比数据图红酿酒葡萄Vc、单宁、还原糖、可溶性固形物、固酸比数据图白酿酒葡萄影响葡萄品质的主要指标对55个葡萄品种的28个指标进行相关性分析。
结果表明:还原糖与总糖、可溶性固形物呈极显著正相关;固酸比与可溶性固形物呈极显著正相关,与总酸、VC含量呈极显著负相关,其中总酸与VC含量呈极显著正相关;纤维素与单宁、多酚含量呈极显著正相关,这与成分分析的结果具有一致性。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘 要:提出了一种可视化的方法评价葡萄酒质量。葡萄酒数据来自于认证阶段的物理化学分析测试,其中输 入变量是 11 个,输出变量是葡萄酒质量,共得到 1599 个的红葡萄酒样本和 4898 个的白葡萄酒样本。结果表明 该方法的效果优于传统的神经网络和支持向量机方法,并且具有可视化的优点。这对于改进酿酒品酒评价和葡 萄酒生产都有重要意义,并且对根据消费者口味细分目标市场也很有帮助。
红葡萄酒 11 个理化性质可视化平行坐标图如
而且没有超参数,它广泛用于分类中并取得了很好 图 1 所示。红葡萄酒的主成分可视化图如图 2 所
的效果。此时测试样本被分类到具有最大后验概率 示,其中 3,4,5,6,7,8 分别表示第 3 类到第
的类别中,即误分类的概率最小。应用贝叶斯理 8 类。。从图 1 看出这几类数据的在很多理化性质
第 34 卷 第 2 期 2010 年 3 月
文章编号:
燕山大学学报 Journal of Yanshan University
Vol. 34 No. 2 Mar. 2010
基于物理化学性质的葡萄酒质量的可视化评价研究
王金甲 1,2,尹 涛 2,李 静 1,3,洪文学 1, *,马崇霄 4
(1. 燕山大学 电气工程学院,河北 秦皇岛 066004;2. 燕山大学 信息科学与工程学院,河北 秦皇岛 066004; 3. 燕山大学 理学院,河北 秦皇岛 066004;4. 河北科技师范学院 机电工程学院,河北 昌黎 066000)
信息技术的进展使得搜集、存储和处理数据成 为可能。数据挖掘、神经网络、模式识别、机器学 习等技术都能在葡萄酒分类中应用。复杂的模型容 易过拟合导致泛化能力减弱,模型太简单导致学习 能力有限。神经网络、支持向量机两种方法均有参 数可以调整,能获得令人满意的效果。
采用了 1599 个红葡萄酒样本和 4898 个白葡 萄酒样本用于口味质量评价 [3]。提出了多元数据图
其中, = 2 , =1, 2, , , 和 +1表示归一化特
征样本的第 维变量和第 +1维变量的值,一般由预 处理计算得到;弧度 = 2 为第 维变量和第 +1维 变量间的夹角弧度。
因此一个 维特征的样本就会产生一个对应的 维图形特征的样本。例如对有 3 类 150 样本 4 维 特征的 Iris 数据集,因为每个样本有 4 维特征,图 形特征由相邻变量产生且变量首尾相连,所以每个 样本产生 4 个图形特征,最终形成了 150×4 个图 形特征。那么 Iris 数据集的图形特征就是 150×4 的 矩阵。这和原始数据的矩阵行列一样。
134
燕山大学学报
2010
萄酒 7 类,分别评价为 3 至 9。
必然有差别。因此固定某种特征排序,再研究多元
1.2 质量评估方法
神经网络采用常见的 BP 神经网络方法 [4],它 包括输入层,中间层和输出层,其中输入层的维数 等于变量个数即 11,中间层可调,输出层的维数 等于类别数即红葡萄酒 6 类 (评价为 3 至 8) 和白 葡萄酒 7 类 (评价为 3 至 9)。网络参数的初始值采 用随机初始化,选择 20 次中效果最好的那次初始 值。训练方法采用 Matlab 的 lm 算法,它速度快效 果好。迭代次数设为 1 万次,误差设为 1×10 6。
如 filter、wrapper 和 embedded 特征选择方法,或 属于哪个类别。提出一种新的方法如下:对于第
者基于全局搜索算法 (如遗传算法、粒子群优化算 个样本,利用分类方法得到一个类别标签 ,利用
法和微分进化算法) 的特征选择方法等等。可以想 回归方法得到一个排序的预测值 ,如果 和 的绝
根据理化测试得到的输入变量包括 11 个,分 别是固定酸度(酒石酸),g/L,挥发酸(乙酸), g/L,柠檬酸,g/L,残糖,g/L,氯(氯化钠),g/L, 游离二氧化硫,mg/L,总二氧化硫,mg/L,密度, g/mL,pH 值,硫酸盐(硫酸钾),g/L,酒精度。 基于感觉数据的输出变量是葡萄酒质量,评分为 0 至 10。红葡萄酒 6 类,分别评价为 3 至 8;白葡
计。LDA 假定数据分布是多元正态分布,并且各 类都有同样的协方差矩阵。
这是非常重要的;第 11 个变量酒精度的增加倾向 于导致更好的质量评价;第 2 个变量挥发酸有负面
1.4 排序分类器 上述 3 种分类方法,都可以修改为回归方法。
影响。从主成分可视化图 2 上看出各类大大混叠在 一起。从图 1 和图 2 可看出葡萄酒质量评价是个非 常困难的分类任务。
数据图表示问题更有意义。
基于多元图的升维变换和特征选取思想 [7-8] 如 下:一个特征矢量在某种固定特征排序下只对应一 个星点图 (或其它多元图) 和它对应的图形特征, 那么一个特征矢量在所有特征排序下对应的星点 图 (或其它多元图) 的图形特征就十分丰富,将其 和原始特征组合并从中选择出部分特征,可以猜测 选取特征分类性能较好。
为了确保分类性能公平比较,并避免训练集和 测试集的依赖,指标分类器错误率的估计采用 10 交叉验证 (10-fold cross validation, 10CV),取 20 次独立实验的平均结果。即红、白葡萄酒数据各进 行了 10×20=200 次实验。整个系统采用 MATLAB 软件编程实现设计思想。实验结果如表 1 所示。
表示来可视化分类葡萄酒的新方法。实验结果证明 图表示方法不仅分类效果好,而且具有可视化的特 点。葡萄酒数据来自于 UCI 数据库。
1 葡萄酒数据的可视化质量评价
1.1 葡萄酒数据
葡萄酒数据包括 1599 个的红葡萄酒样本和 4898 个的白葡萄酒样本,输入变量包括客观的测 试 (如 pH 值),输出变量基于感觉数据 (葡萄酒专 家提出的至少 3 个评价的均值)。每位专家的葡萄 酒质量分级介于 0 (极坏的) 和 10 (非常优秀)。极 好的和极差的葡萄酒的样本都是少数,评价为中间 的葡萄酒样本最多。神经网络、支持向量机和图表 示分类方法用于建模数据,分类准则为正确率。
支持向量机 [5] (support vector machines, SVM) 是 Vapnik 基于 VC 维理论和结构风险最小化提出 的目前比较优秀的分类方法。SVM 相对于传统分 类方法的主要优点是 SVM 的解总是全局最优的, 并且避免训练过程的局部最小值和过拟合问题。 SVM 基本思想是首先将输入矢量通过核函数映射 到高维空间,然后寻找线性的最优分类面。它分为 线性 SVM,广义线性 SVM 和非线性 SVM 三种基 本形式。SVM 的核心问题是惩罚因子和核函数参 数。惩罚因子控制最大间隔和最小训练错误率之间 的平衡,用于核空间上非线性可分的数据。常用的
象寻优选择的 维特征的分类性能较好。很可能寻 对值小于阈值 1,那么样本 属于 类;否则样本 属
优选择的 维特征不是一个星点图产生的鉴别重心 于距离预测值 最近的类。例如,第 个样本的分类
图形特征,而是很多个星点图产生的一部分重心图 标签 =5,排序的预测值 =5.2,那么第 个样本属
形特征的组合。
图 1 红葡萄酒数据的可视化平行坐标图 Fig. 1 Visual diagram of parallel coord plot of red wine
136
燕山大学学报
2010
图 2 红葡萄酒数据的主成分可视化图示
Fig. 2 Visual diagram of principal component of red wine
多维数据进行多元图表示存在一个问题:多维数据
这样特征排序影响重心图形特征的问题就能
不同排列顺序对多元图表达的非唯一性。即对同一 够解决,它转化为一个特征选择问题,即将一组
个多维数据,一种特征排序会产生一种多元图,不 同的特征排序会产生不同的多元图。不同的多元图 会产生不同的图形特征,不同的图形特征分类性能
维数据按照重心图形特征提取式 (1) 升维到
+3 2
维的空间,然后从 +3 维的高维空间中选择出 2
第2期
王金甲 等 基于物理化学性质的葡萄酒质量的可视化评价研究
135
维特征,并希望这 维特征具有最好的类别鉴别能 那么第 个样本得到的结果就是一个回归值 ,一般
力。这个过程可用传统的特征选择方法来实现,比 这个回归值和那个类别标签距离近,第 个样本就
于类别 5;第 个样本的分类标签 =5,排序的预测
分类器选择最简单的线性判别分析(linear dis- 值 =6.2,那么第 个样本属于类别 6。
criminate analysis, LDA),LDA 分类器产生的判 别函数和决策面边界都是线性的,这就是称之为线
2 仿真实例
性判别分析的原因。由于 LDA 需要估计的参数少,
关键词:评价;可视化;支持向量机;神经网络;多元数据图表示
பைடு நூலகம்
中图分类号:
文献标识码:
0 引言
葡萄酒是一种成分复杂的酒精饮料,不同产 地、年份和品种的葡萄酒成分不同。成分与葡萄酒 的质量关系密切,是划分葡萄酒等级的重要依据。 国内外普遍的是采用近红外光谱 [1] 和三维荧光光 谱 [2] 等技术,它的缺点是需要复杂的化学计量学 知识,而且解释困难 [1]。而通过测量葡萄酒的物理 化学性质进而评估其质量,应该是最有效的方法。 理化实验室常规检验包括葡萄酒的密度,酒精或 pH 值,而质量评价主要依靠专家的感官。应该强 调指出味道是最难理解的一种感官,因此葡萄酒质 量分类是一项艰巨的任务。此外理化性质和感官分 析之间的关系很复杂,现在也不能完全理解。
论,这 个 规 则 表 述 如 下:如 果
>
,所有的 ,那么指定 属于类 。这
上几乎相同,只有第 6 个变量游离二氧化硫和第 7 个变量总二氧化硫不同,这说明这两个理化性质大
里
是类概率密度函数, 是类 的先验 大影响口味。从输入变量分析,第 10 个变量硫酸