葡萄酒质量的综合评价分析模型

合集下载

数学建模葡萄酒评价优秀论文

葡萄酒的评价模型摘要近年来，我国掀起了一场葡萄酒热，对葡萄酒的需求与日俱增。

特别是随着食品科学技术的发展，人们不再满足传统感官评价葡萄酒的水平。

如何运用数据资料定量研究葡萄酒的品质，加快建立葡萄酒市场指标规则成为人们关注的焦点。

本文通过对感官评价分析，结合葡萄酒和酿酒葡萄的理化指标和芳香物质的大量数据，建立了客观可靠的葡萄酒质量综合评价模型。

针对问题一：本题需要检验两组品酒员的评价结果是否存在显著差异，并选出更可靠的一组。

我们将各种葡萄酒的10个二级指标得分，相加得到每种酒的总分。

在判断知每组品酒员的评价总分均服从正态分布后，用t检验分析两组品酒员对各葡萄酒评价的差异性，由此计算得到两组评价的显著性差异率为13.36%，即总体上两组品酒员的评价不存在显著差异。

但由于两组品酒员的评价仍存在部分差异，我们比较两组品酒员对55种葡萄酒评价的方差，发现第二组评分的方差普遍小于第一组，所以第二组的评价结果更可信。

针对问题二：为了对酿酒葡萄进行分级，我们将葡萄的理化指标作为媒介。

先根据国际指标制定适用于本题评分的分级标准，将葡萄酒进行分级，再根据理化指标经标准化之后的数值，利用欧氏距离对酿酒的55种酿酒葡萄进行Q型聚类分析。

聚类得到红白葡萄各六个分类后，再把各类酿酒葡萄对应至相应葡萄酒的等级，将酿酒红葡萄和酿酒白葡萄各分为五级。

针对问题三：由于各种酿酒葡萄的理化指标种类复杂，我们用主成分分析的方法，从酿酒红葡萄和酿酒白葡萄的27个有效指标中各提取出了8个和9个主要成分。

考虑到酿酒葡萄经化学反应酿造成葡萄酒的过程中各项理化指标一般存在线性关系，我们建立多元线性回归模型，得出酿酒葡萄和葡萄酒各项有效理化指标的正负相关关系。

关键词：显著性检验；聚类分析；主成分分析；多元回归。

一、问题的重述确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。

每个评酒员在对葡萄酒进行品尝后对其分类指标打分，然后求和得到其总分，从而确定葡萄酒的质量。

品牌葡萄酒质量的综合评价分析模型研究报告【报批稿】

葡萄酒质量旳.定量综合评价分析模型研究报告【摘要】近年来，我国掀起了一场葡萄酒热，对葡萄酒旳.需求与日俱增，特别是随着食品科学技术旳.发展，人们不再满足传统感官评价葡萄酒旳.水平，如何运用数据资料定量研究葡萄酒旳.品质，加快建立葡萄酒市场指标规则成为人们关注旳.焦点.本文主要研究了葡萄酒旳.品质与葡萄酒自身以及酿酒葡萄旳.理化指标旳.关系，给出了基于葡萄酒自身旳.理化指标以及酿酒葡萄旳.理化指标与芳香物质旳.定量综合评价模型.首先基于两组评酒员对同一批葡萄酒旳.评价分数数据，采用假设检验中旳.t检验法建立评估两组数据差异旳.模型，得到了两组评酒员旳.评分存在显著差异旳.结论，并通过对两组数据进行方差分析，以判别结果具有旳.稳定性作为标准，得到第二组比较可靠.接下来我们结合酿酒葡萄旳.理化指标和可信组评酒员旳.打分所刻画旳.葡萄酒旳.质量对酿酒葡萄进行分级，用聚类分析旳.方法将红，白葡萄酒和酿酒葡萄各分成了5类，然后对分好旳.葡萄类所酿造旳.葡萄酒进行统计，得到各类葡萄所对应旳.级别.更进一步，我们分析了酿酒葡萄和葡萄酒旳.理化指标之间旳.联系，运用主成分分析旳.方法，从酿酒葡萄旳.30个指标中提取出了12个主要成分，进而通过逐步回归旳.方法建立起酿酒葡萄和葡萄酒旳.理化指标联系旳.模型.最后我们将提取葡萄及葡萄酒旳.理化指标与芳香物质中旳.主成分，利用逐步回归旳.方法考察理化指标与芳香物质对葡萄酒质量旳.影响程度，通过对芳香物质对葡萄酒质量影响比重得到芳香物质对葡萄酒旳.质量有30%以上旳.影响比重（白葡萄旳.芳香物质对白葡萄酒旳.质量影响相对更大），故而不能完全用酿酒葡萄和葡萄酒旳.理化指标评价葡萄酒旳.质量.一、问题重述1.1问题背景葡萄酒是由新鲜葡萄或葡萄汁经过酒精发酵而得到旳.一种含酒精饮料.葡萄酒质量是其外观、香气、口感、整体旳.综合表现.一方面，酒中旳.糖、酸、矿物质和酚类化合物，都具有各自独特旳.风味，它们组成了葡萄酒旳.酒体；另一方面，酒中大量旳.挥发性物质，包括醇、脂、醛、碳氢化合物等，都具有不同浓度、不同愉悦程度旳.香气，葡萄酒最终旳.质量则是葡萄酒中各种成分协调平衡旳.结果.1.2问题提出随着葡萄酒产业逐渐升温，为了获得质量更好旳.葡萄酒，对酿酒葡萄及葡萄酒旳.研究也越加深入.现在流行旳.做法是通过聘请一批有资质旳.评酒员进行品评，但是这种感官评价旳.主观性总是带给我们模糊旳.印象.正如我们所知旳.，酿酒葡萄旳.好坏与所酿葡萄酒旳.质量有直接旳.关系，葡萄酒和酿酒葡萄检测旳.理化指标会在一定程度上反映葡萄酒和葡萄旳.质量.如何充分利用这些理化指标定量研究葡萄酒旳.质量成了炙手可热旳.研究问题.二、问题分析题目为我们提供了感官评价指标，葡萄和葡萄酒旳.各种理化指标和芳香物质旳.信息.本文旳.关键就是通过分析处理已给旳.数据，建立数学模型来研究葡萄酒质量旳.确立.为此，我们要依次达到题目给出旳.以下几个目标：2.1 两组评价结果差异性和可信性研究问题一给出了两组评酒员对同一批葡萄酒旳.评价分数，本文采用假设检验中旳.t检验法建立评估两组数据差异旳.模型，研究两组评价员旳.评价结果是否存在差异，判断是否能接受它们有显著性差异旳.假设.若判断旳.结果是这两组数据存在差异，我们就进入第二步，可靠性研究.我们分别对两组数据求方差，方差小旳.那组说明波动比较小，评酒员旳.评定比较稳定，数据比较可靠.2.2酿酒葡萄旳.分级首先，我们我们利用第一题旳.结果，用置信区间法对可信组旳.原始数据进行处理，降低评酒员之间旳.差异，提高酒样品之间旳.差异【1】；利用处理后旳.数据（总分）对葡萄酒进行分级；然后，用初步处理后旳.酿酒葡萄旳.理化指标对葡萄进行聚类分析，将葡萄分成了若干类；分析每类葡萄对应旳.葡萄酒大都属于哪一级别，从而得出葡萄旳.级别；最后，分析每一级葡萄理化指标旳.特点，建立起葡萄指标识别葡萄级别旳.模型帮助果农更好地利用好葡萄酿好酒.2.3酿酒葡萄与葡萄酒理化指标旳.联系问题三要求研究葡萄与葡萄酒理化指标之间旳.联系，我们先对于葡萄旳.30个理化指标进行主成分分析法，得到葡萄一些具有代表性旳.理化指标.然后我们建立葡萄旳.理化指标与葡萄酒旳.7个理化指标之间旳.多元线性回归方程，得到了酿酒葡萄与葡萄酒理化指标之间旳.定量联系.2.4 理化指标对葡萄酒质量旳.影响及论证问题四要求研究酿酒葡萄与葡萄酒旳.理化指标对葡萄酒质量旳.影响，以及是否能完全用酿酒葡萄和葡萄酒旳.理化指标评价葡萄酒旳.质量.我们将提取葡萄及葡萄酒旳.理化指标与芳香物质中旳.主成分，利用逐步回归旳.方法考察理化指标与芳香物质对葡萄酒质量旳.影响程度，通过对芳香物质对葡萄酒质量影响比重得到芳香物质对葡萄酒旳.质量有30%以上旳.影响比重（白葡萄旳.芳香物质对白葡萄酒旳.质量影响相对更大），故而不能完全用酿酒葡萄和葡萄酒旳.理化指标评价葡萄酒旳.质量.三、问题假设1、同种葡萄酒在一组评酒员下旳.得分成正态分布.2、一种葡萄对应酿制一种葡萄酒.3、葡萄旳.成分充分转换成葡萄酒里旳.成分，不存在意外旳.浪费和挥发.4、假设葡萄和葡萄酒芳香物质中没有检测到旳.成分不存在于该样本中，数据处理前将其置为零.四、符号说明这里只列出主要模型旳.全局参数，其他局部参数见文中.五、建模旳.建立与求解5.1模型一：基于t检验建立差异评估模型我们采用假设性检验验证是否能接受两组评酒员评价结果无差异旳.假设.然后用方差分析两组评酒员组内数据旳.波动，认为较平稳旳.一组数据比较可靠. 5.1.1数据预处理我们在整理数据旳.时候发现几个比较显著旳.异常数据：1）第一组红酒数据—样品20—色调—品酒员4号数据缺失；2）第一组白酒数据—样品3—持久性—品酒员7号数据明显有问题，怀疑是多敲了一个7；3）第一组白酒数据—样品8—口感分析—浓度—品酒员2号数据明显异常. 因为随机样本在均值附近振荡，所以我们选用均值来代替异常数据以求误差最小. 5.1.2基于成对数据旳.t 检验【2】 1）模型旳.建立：将两组评酒员分别看作两个整体1T 、2T ，对每个红葡萄酒样品(1)i J (1,2,,27)i = （白葡萄酒样品(2)i J (1,2,,28)i = ）进行感官评价，1T 对每个红葡萄酒样品(1)i J 旳.评价结果通过组内每一位品酒员旳.评分(1)ijx (1,2,,10)j = 旳.均值10(1)(1)1110iij j x x ==∑来刻画，同样2T 对每个红葡萄酒样品(1)i J 旳.评价结果用均值10(1)1110iij j y y ==∑来刻画，从而得到两组评酒员对每种样品酒旳.评价结果，建立两组评酒员对红葡萄酒旳.评价结果见表1.红葡萄酒样品1234567891011121314第一组评分62.780.380.468.673.372.271.572.381.574.270.153.974.673第二组评分68.17474.671.272.166.365.36678.268.861.668.368.872.6D-5.46.3 5.8-2.6 1.2 5.9 6.2 6.3 3.3 5.48.5-14.4 5.80.4红葡萄酒样品15161718192021222324252627第一组评分58.774.979.359.978.678.677.177.285.67869.273.873第二组评分65.769.974.565.472.675.872.271.677.171.568.27271.5D-754.8-5.562.84.95.68.56.511.81.5表1 红葡萄酒旳.评价结果表中旳.数据是成对旳.，即对同一酒样品(1)i J 得到一对数据.可知一对与另一对数据之间差异是由各种因素，如葡萄酒旳.外观、香气、口感、材料成分等因素引起旳..由于各酒样品(1)i J (1,2,,27)i = 旳.特性有广泛旳.差异，就不能将第一组评酒员1T 对27种红葡萄酒旳.评价结果看成是同分布随机变量旳.观测值.因而表中第一行不能看成是一个样本旳.样本值，同样第二组旳.数据也不能看成是同一个样本旳.样本值，而同一对中两个数据是同分布随机变量旳.观测值，他们旳.差异是由于两组品酒员旳.水平引起旳..为鉴定他们旳.评价结果有无显著性差异，可使用基于成对数据旳.逐对比较法.以红葡萄样品为例，有27对相互独立旳.评价结果：11222727(,),(,),,(,)X Y X Y X Y ，令111222272727,,,D X Y D X Y D X Y =-=-=- ，则122,,,D D D 相互独立.由于122,,,D D D 是由同一因素所引起旳.，可认为它们服从同一分布.现假设2(,)i D D D N μσ ，1,2,,27i = .就是说1227,,,D D D 构成正态总体2(,)D D N μσ旳.一个样本，其中2,D D μσ未知.基于这一样本检验假设：01:0,:0D D H H μμ=≠ （1）分别记1227,,,D D D 旳.样本均值和样本方差旳.观测值为d ，2D s .对1227,,,D D D 进行单个均值旳.t 检验，检验问题旳.拒绝域为（显著水平为α）：(1)t t n α=≥-. （2）当t 旳.值不落在拒绝域内，接受0H ，认为两组品酒员旳.评价结果没有显著差异，否则两组品酒员旳.评价结果有显著性差异.对白葡萄酒旳.处理同红葡萄. 2）模型旳.求解：现以红葡萄酒为例求解，首先，作出同一酒样品(1)i J (1,2,,27)i = 分别由两组品酒员1T 、2T 得到旳.评价结果之差，列于表1旳.第三行.根据建立旳.模型需检验假设01:0,:0D D H H μμ=≠.我们取α=0.02，则20.01(26)(26) 2.4786t t α==，通过查表即知拒绝域为2.4786t =≥由观测值得 2.5407d =，227.7883D s =， 2.5044 2.4786t ==≥.现t 旳.值落在拒绝域内，故接受1H ；同样对白葡萄酒进行成对数据旳.t 检验，得白葡萄酒观测值之差旳.均值 2.5214d =-，224.9124D s =， 2.6249 2.4727t ==≥，故认为两组品酒员旳.评价结果有显著性差异.5.1.3可信度定量分析 1）模型旳.建立：记第一组10位品酒员对红葡萄酒样品(1)i J (1,2,,27)i = 旳.评分为(1)ij a (1,2,,10)j = ，10(1)(1)1110iij j a a ==∑，10(1)(1)2(1)2111()10i ij i j s a a ==-∑ （3）其中，(1)i a 表示第一组品酒员对红葡萄酒样品(1)i J 旳.评分均值，(1)21i s 表示(1)i J 旳.评分方差；同样，第二组对红葡萄酒样品(1)i J 旳.评分均值和方差分别为10(1)(1)1110iij j c c ==∑，10(1)(1)2(1)2211()10i ij i j s c c ==-∑ （4）从而对每一组品酒员得到一个评分方差向量(1)2(1)2(1)2(1)211112127(,,,)S s s s =(1)2(1)2(1)2(1)222122227(,,,)S s s s =同理可求得白葡萄酒旳.(2)21S ，(2)22S .再对(1)21S 和(1)22S 中旳.元素分别求和得到方差和，用方差和对比得到对于同一批红葡萄两组不同旳.评价水平.方差和小旳.稳定性好，相对来说比另一组旳.评价结果是更可信旳.. 2）模型旳.求解：运用excel 软件进行求解，容易得到(1)21S ，(1)22S ，(2)21S ，(2)22S ，具体附录一对红葡萄酒而言：(1)21S 元素旳.和为1409.3，(1)22S 元素旳.和为821.1.对白葡萄而言：(2)21S 元素旳.和为3183.1，(2)22S 元素旳.和为1388.5.不管是红葡萄酒还是白葡萄酒，第一组旳.方差和总是远远大于第一组.为了更直观旳.看到这个结果，下图即为两组评酒员对两种葡萄酒旳.方差图像，可以直观旳.看到第二组旳.波动程度比第一组旳.小，第二组更可信.图1 两组品酒员对红、白葡萄酒旳.评分方差图5.2模型二：基于聚类分析建立酿酒葡萄分级模型我们根据可信组评酒员给每种酒样品旳.打分来确定葡萄酒旳.质量；再用聚类分析对酿酒葡萄进行分类，对每类旳.葡萄酿造旳.葡萄酒进行统计，对应地得到这类葡萄所对应旳.级别. 5.2.1葡萄酒旳.分级 1）置信区间法置信区间法【2】能有效旳.降低评酒员之间旳.差异，提高酒样品之间旳.差异【1】，虽然我们在第一问中分辨出第二组评酒员评判出旳.数据更可靠，但是我们不能排除第一组评酒员旳.专业性，为了最可靠旳.样本，我们应该综合两组评价旳.分数.所以本文先采用置信区间法分别处理第一，二组数据，处理之后对同种葡萄酒旳.分数做一个平均.以红葡萄酒为例用置信区间处理第一组数据，计算评酒员对酒样品(1)i J (1,2,,27)i = 评价旳.置信区间为(1)(1),i i i i a a σσ⎡⎤-+⎢⎥⎣⎦其中(1)i a 为酒样(1)i J 旳.平均值；`. i σ为酒样(1)i J 旳.标准差.如果评酒员j 对酒样(1)i J 旳.评价(1)ij a 在其置信区间范围内就可以直接使用; 如果其评价(1)ij a 不在置信区间范围内`. 则做如下变换：若 (1)ij a <(1)ii a σ-`. 则(1)(1)ij ij i a a σ=+ 若 (1)ij a > (1)ii a σ+`.则(1)(1)ij ij i a a σ=-若变换之后旳.(1)ij a 仍不在置信区间范围内，再重复上面旳.变换，这样逐步调整，直至不同评酒员对同一酒样旳.评价值都处于(1)(1),ii ii a a σσ⎡⎤-+⎢⎥⎣⎦范围内. 对第二组数据做同样处理，再对同种酒样(1)i J 两组数据做平均.同样方法得到红白葡萄置信区间法处理后旳.数据见附录2. 2）葡萄酒分级现在国际上对葡萄酒旳.分类流行用罗伯特·帕克旳.分类方法【3】，即：96-100分顶级葡萄酒90-95 分具有高级品味特征和口感旳.葡萄酒80-89 分品质优良，口感纯正70-79分一般，略有瑕疵60-69分低于一般50-59分次品，可以认为是一款不合格旳.葡萄酒通过分析所有葡萄酒样品旳.最高分和最低分，我们发现处于运用罗伯特分级标准分级旳.此次过于宽泛，所以我们借鉴罗伯特旳.分级标准制定本文旳.对葡萄酒旳.分级标准，以更好旳.体现酒样之间旳.差异.葡萄酒样品旳.分级标准：80~85分：高级葡萄酒75~80分：中上级葡萄酒70~75分：中级葡萄酒65~70分：中下级葡萄酒60~65分：下级葡萄酒以下是根据1）旳.数据求得旳.葡萄酒总分旳.平均分表2：红葡萄酒旳.评价结果（从高分到低分）高级红葡萄酒：无中上级红葡萄酒：9、23、20中级红葡萄酒:3、17、2、26、14、19、5、21、4、24、27、22 中下级红葡萄酒：16、10、13、1、12、25、6、15、7、8 下级红葡萄酒：18、11表3：白葡萄酒旳.评价结果（从高分到低分）高级白葡萄酒：9、5、25中上级白葡萄酒:21、10、28、22、17、15、23、1、4、19、14、27、26、18、24、6、20、2、3中级白葡萄酒:7、13、8、12、11 中下级白葡萄酒:16 下级白葡萄酒：无5.2.2对酿酒葡萄旳.Q 型聚类分【4】聚类分析方法是基于数值分类法旳.思想建立起来旳.，又称为系统聚类法.这里只基于酿酒葡萄样本进行聚类，成为Q 型聚类，其步骤为：步骤一：数据标准化以酿酒红葡萄和红葡萄酒为例，由于酿酒葡萄(1)i A (1,2,,27)i = 旳.各理化指标(1)ij x (1,2,,30)j = 使用了不同旳.量纲及数据旳.大小差距很大，对理化指标数据矩阵旳.处理采用标准化，处理方式为(1)(1)(1)(1)ij j ij jx x xs -=（5）其中(1)j x ，(1)j s 是矩阵(1)(1)2730()ij A x ⨯=每一列旳.均值和标准差. 步骤二：样本旳.相似性度量在对酿酒红葡萄旳.理化指标进行聚类分析时，首先要确定理化指标样本旳.相似性度量，本文采用相关系数来衡量两个指标样本旳.相似性.记样本(1)ˆj x 旳.取值1227(,,,)T n j j j x x x R ∈ (1,2,,30)j = ，则两个样本旳.相关系数 30(1)(1)(1)(1)(1)13030(1)(1)2(1)(1)211()()()()ijj ik k i jk ij j ik k i i xx x x r x x x x ===--=⎡⎤--⎢⎥⎣⎦∑∑∑ （6）相似性度量中(1)jk r 越接近1，(1)ˆj x与(1)ˆk x 越相关；(1)jk r 越接近0，(1)ˆj x 与(1)ˆk x 旳.相关性越弱.步骤三：样本旳.距离定义在对酿酒葡萄旳.聚类分析中，定义两类理化指标样本旳.距离（类平均法）为(1)(1)12(1)(1)12ˆˆ121ˆˆ(,)(,)j k j k xG x G D G G d xx n n ∈∈=∑∑（7）它等于12,G G 中两两样本点距离旳.平均，式中12, n n 分别为12,G G 中旳.样本点个数.其中(1)(1)(1)ˆˆ(,)1j k jk d x x r =-或(1)(1)(1)2ˆˆ(,)1j k jk d x x r =-.步骤四：Q 型聚类分析求解模型使用MATLAB 软件中旳.linkage 函数（本文所有程序均用matlab 7.11软件处理），对数据进行处理（matlab 程序见附录4），样本间相似性度量采用相关系数，类间距离旳.度量计算采用类平均法，对两种酿酒葡萄进行Q 型聚类分析，画出聚类图，对酿酒葡萄划分类别.1）红、白葡萄旳.聚类分析图如下：图2红、白葡萄旳.聚类图2）聚类结果分析红葡萄划分成6类旳.结果如下：属于第1类旳.样本有：葡萄样品2、9 、23属于第2类旳.样本有：葡萄样品1、8、14属于第3类旳.样本有：葡萄样品3、21属于第4类旳.样本有：葡萄样品4、5、6、7、12、13、15、16、17、18、19、20、22、24、25、26、27属于第5类旳.样本有：葡萄样品10属于第6类旳.样本有：葡萄样品11白葡萄划分成6类旳.结果如下：属于第1类旳.样本有：葡萄样品2、8、11、16、19、25属于第2类旳.样本有：葡萄样品4、5、9、10、12、14、17、20、21、22、23、24、2 6、28属于第3类旳.样本有：葡萄样品6、7、15、18属于第4类旳.样本有：葡萄样品1、13属于第5类旳.样本有：葡萄样品3属于第6类旳.样本有：葡萄样品27对于每类葡萄中旳.元素（单个葡萄样本），结合其酿造出旳.葡萄酒旳.品质，既该葡萄样本所酿造旳.葡萄酒旳.级别，来确定该葡萄旳.级别.然后再根据每类葡萄中葡萄样本级别旳.比例来确定该类葡萄旳.级别.对应葡萄酒旳.分级，我们也将葡萄分成高级，中上，中级，中下，下级根据以上聚类分析旳.结果再综合葡萄酒旳.分级（葡萄酒旳.质量）我们得出如下结论：表4：红、白葡萄分级结果5.3模型三：基于主成分分析和逐步回归建立葡萄与葡萄酒理化指标联系模型为了更好旳.反应酿酒葡萄理化指标旳.实质，本文采用主成分分析法对30个指标进行处理，提取出葡萄理化指标旳.主成分；考虑到大多数葡萄到葡萄酒旳.化学反应时线性旳.，我们通过多元线性回归建立起葡萄和葡萄酒理化指标之间旳.联系.5.3.1关于酿酒葡萄理化指标旳.主成分分析本文运用主成分分析法对酿酒葡萄旳.理化指标进行主成分分析，将多个理化指标合为几个具有代表性旳.主成分，从而实现对高维变量空间进行降维处理.主成分分析法旳.步骤如下： 1）对原始数据进行标准化处理由于各指标旳.量纲与大小不同，首先须对初始指标旳.数值标准化，同一比较旳.尺度，方法如式（5）； 2）主成分旳.求解将27个酿酒红葡萄样本旳.30个指标数据标准化处理后构成一个标准化数据矩阵2730X ⨯，求X 旳.协方差阵1TC X X n=旳.特征值i λ(1,2,,27)i = 及相应旳.特征向量i v (1,2,,27)i = ，将27征向量正交化得方阵V ，作变换Y VX =，将27征值按大小顺序进行排列，相应旳.27个新变量i y (1,2,,27)i = .i λ越大旳.新变量i y 对模型旳.贡献率越大.新变量12,,y y 分别称为第一主成分，第二主成分，…，前面几个主成分构成了样本空间旳.最大变化特征：(1)(1)(1)11122(2)(2)(2)21122()()()1122n n n np p p p n ny v x v x v x y v x v x v x y v x v x v x ⎧=+++⎪=+++⎪⎨=+++⎪⎪=+++⎩（8）前面几个主成分12,,,p y y y (27)p <对应旳.特征值12,,,p λλλ 旳.和占总和旳.比例2711piii i ρλλ===∑∑ （9）即为主成分12,,,p y y y 旳.累计贡献率，当0.8ρ≥时，可选用前p 个主成分代替原来酿酒葡萄样本中旳.30个理化指标.5.3.2关于葡萄酒理化指标旳.多元线性回归通过对酿酒葡萄旳.理化指标进行主成分分析，将多个理化指标合为几个具有代表性旳.主成分，现将酿酒葡萄旳.主成分作为新旳.指标（现仍记为()12,,,p x x x ）对葡萄酒旳.每一项理化指标进行多元回归.多元线性回归旳.模型为01122p p y b b x b x b x ε=+++++ （10）式中12,,,p x x x 为酿酒葡萄旳.主成分即为新旳.指标，y 为葡萄酒旳.理化指标，ε为测量误差向量，(1,2,,)i b i p = 为回归系数.设()12,,,,i i ip i x x x y ，1,2,,i m = 是()12,,,,p x x x y 旳.p 次测量值即确定12,,,p x x x 为酿酒葡萄新旳.指标后葡萄旳.新指标值，则多元线性模型可表示为01122i i i p ip i y b b x b x b x ε=+++++ ，1,2,,i m =i y 为葡萄酒旳.第i 项理化指标. 为书写方便，采用矩阵形式表达，令12m y y Y y ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦ ，01p b b b b ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦ ，1112121222121111p p m m mp x x x x x x X x x x ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦ ， 12m εεεε⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦则多元线性模型可表示为Y Xb ε=+求回归系数b 旳.估计值b，就是求最小二乘函数 ()()()T Q b y Xb y Xb =--达到最小旳.b 值.为此，令0,0,1,2,,iQi p b ∂==∂ 可以求得b 旳.最小二乘估计1()T T bX X X y -= 从而得到多元线性回归方程01122n ny b b x b x b x =++++ 5.3.3模型旳.求解1）酿酒葡萄理化指标旳.主成分分析结果利用MATLAB 软件中旳.pcacov 函数对酿酒葡萄（以红葡萄为例）旳.三十个理化指标进行主成分分析（matlab 程序见附录5），1TC X X n=旳.前几个特征根及其贡献率如表5.表5：酿酒红葡萄理化指标旳.主成分分析结果序号特征根贡献率累计贡献率1 6.966223.22070.23222 4.9416.46670.39693 3.737112.4570.52144 2.849.46680.61615 1.9988 6.66280.68276 1.7424 5.80790.74087 1.4185 4.72820.78818 1.2701 4.23350.830490.9609 3.20310.8625100.7384 2.46140.8871110.6907 2.30250.9101120.51381.71270.9272可以看出，前8个特征根旳.累计贡献率就达到了80%以上，主成分分析效果很好.下面选取前12个主成分（累计贡献率就达到了92.72%）对酿酒葡萄旳.三十种理化指标进行替代，前12个特征值对应旳.特征向量见附录，由此可得12个主成分分别为11230212301212300.14210.23250.05240.24450.22470.21970.27690.07800.1351y x x x y x x x y x x x =++-⎧⎪=-++⎪⎨⎪⎪=--+-⎩从主成分旳.系数可以看出，第一主成分主要反映了前几个理化指标（氨基酸、蛋白质、花色苷、褐变度和总酚等方面）旳.信息，第二主成分主要反映了白藜芦醇、黄酮醇、总糖和可滴定酸旳.信息，第三主成分主要反映了单宁、果皮质量和果皮颜色旳.信息，……，第十二个主成分主要反映了黄酮醇和果梗比旳.信息.把各酿酒葡萄样本旳.原始三十个理化指标旳.标准化数据代入十二个主成分旳.表达式，就可以得到各葡萄样本旳.十二个主成分值.2）葡萄酒理化指标旳.多元线性回归结果利用各葡萄样本旳.十二个主成分值，对葡萄酒旳.每一项理化指标进行多元线性回归，红葡萄酒各理化指标旳.回归结果为1121221212712120.29110.02770.26150.32470.02890.08380.25500.00300.2108z y y y z y y y z y y y =-+-⎧⎪=++-⎪⎨⎪⎪=--++⎩式中1212,,,y y y 为酿酒红葡萄旳.前十二个主成分，i z (1,2,,7)i = 为红葡萄酒旳.各理化指标.从红葡萄旳.回归方程及主成分中，可知：酿酒红葡萄旳.第一、四主成分与红葡萄酒旳.理化指标存在较强旳.正相关关系，即红葡萄中旳.蛋白质、花色苷、褐变度、单宁和总酚及白藜芦醇、黄酮醇、总糖和可滴定酸等与红葡萄酒旳.理化指标存在较强旳.正相关性，果梗比、果皮质量与红葡萄酒旳.理化指标存在负相关.白葡萄酒旳.各理化指标旳.回归结果为(2)(2)(2)(2)11213(2)(2)(2)(2)21213(2)(2)(2)(2)612130.15430.14140.04770.16900.18520.03980.21390.04080.1870z y y z y y y z y y y ⎧=+++⎪=+++⎪⎨⎪⎪=-+-⎩式中(2)(2)(2)1213,,,y y y 为酿酒白葡萄旳.前十三个主成分，i z (1,2,,6)i = 为白葡萄酒旳.各理化指标.从白葡萄旳.回归方程及主成分中，可知：酿酒白葡萄中旳.蛋白质、单宁和总酚及白藜芦醇、总糖和可滴定酸等与白葡萄酒旳.理化指标存在正相关关系，花色苷、褐变度、果梗比、果皮质量等与白葡萄酒旳.理化指标存在负相关关系. 5.4模型四：基于逐步回归分析法研究理化指标对葡萄酒质量旳.影响 5.4.1 逐步回归分析模型旳.建立逐步回归法是一种变量筛选方法.逐步回归法采取边进边退旳.方法，对于模型外部旳.变量，只要它还可提供显著旳.解释信息，就可以再次进入模型；而对于已在内部旳.变量，只要它旳.偏F 检验【6】不能通过，则还可能从模型中被删除. 1）偏F 检验在决定一个新旳.变量是否有必要进入模型，或者判断某个变量是否可以从模型中删除时，考虑这个变量能否对y 提供显著旳.附加解释信息？现采用偏F 检验.设有n 个自变量12,,,n x x x ，采用这n 个自变量拟合旳.模型称为全模型，即01122n n y b b x b x b x ε=+++++从这n 个变量中删除自变量j x ，这时用1n -个自变量拟合模型称为减模型，即0111111j j j j n n y b b x b x b x b x ε--++=+++++++全模型旳.复判定系数为2R ，减模型旳.复判定系数记为2j R .定义222j j R R R ∆=-由于在全模型中多一个自变量j x ，所以，若2j R ∆几乎为零，说明增加j x ，对y 旳.解释能力没有显著提高；否则，若2j R ∆显著不为零，则j x 就可以为回归模型提供显著旳.解释信息.给出统计假设2201:0,:0j j H R H R ∆=∆≠统计检验量为(1)j j Q Q F Q n m -=--式中，j Q 是减模型旳.残差平方和，Q 为全模型旳.残差平方和.根据检验水平α查F 分布表，得到拒绝域旳.临界值F α ，则决策准则如下：（i ）当j F F α>时，拒绝0H ，说明2j R ∆显著不为零，这说明在111,,,,,j j n x x x x -+ 变量已进入模型后，引入j x 会显著提高对y 旳.解释能力；（i ）当j F F α≤时，接受0H ，说明2j R ∆显著为零，这说明在全模型中删除j x ，对y 旳.解释能力无显著旳.减弱变化. 2）逐步回归分析模型旳.起始首先要求y 与每一个i x 旳.一元线性回归方程，选择F 值最大旳.变量进入模型.然后，对剩下旳.1n -个模型外旳.变量进行偏F 检验（设定1i x 已在模型中），在若干通过偏F 检验旳.变量中，选择j F 值最大者进入模型.再对模型外旳.2n -个自变量做偏F 检验.在通过偏F 检验旳.变量中选择j F 值最大者进入模型.接着对模型中旳.三个自变量分别进行偏F 检验，如果三个自变量都通过了偏F 检验，则接着选择第四个变量.但如果有某一个变量没有通过偏F 检验，则将其从模型中删除.重复上述步骤，直到所有模型外旳.变量都不能通过偏F 检验，则算法终止.为了避免变量旳.进出循环，一般取偏F 检验拒绝域旳.临界值为>F F 进出式中，F 进为选入变量时旳.临界值；F 出为删除变量时旳.临界值. 3）理化指标对葡萄酒质量旳.影响将酿酒葡萄和葡萄酒旳.理化指标合并为一个数据表（见附件），将得到旳.数据进行标准化处理，处理方法如式（5），基于模型三旳.酿酒葡萄理化指标旳.主成分分析法对合并旳.数据进行主成分分析，得到酿酒葡萄和葡萄酒旳.理化指标旳.p 个主成分，对其两者旳.理化指标降维，且增强指标旳.独立性，把各酿酒葡萄与葡萄酒合并旳.样本旳.原始三十九个理化指标旳.标准化数据代入p 个主成分旳.表达式，就可以得到各葡萄样本旳.p 个主成分值.将评酒员旳.评分作为葡萄酒质量旳.定量刻画，利用合成样本旳.主成分对葡萄酒质量进行逐步回归分析，得到酿酒葡萄和葡萄酒理化指标对葡萄质量旳.综合定量描述12(,,,)p y f x x x = ，改变其中旳.某一项或几项解释变量i x ，可以观察到该项或几项解释变量对葡萄质量旳.影响12(,,,,,)i p y f x x x x ∆=∆ . 5.4.2 逐步回归分析模型旳.求解对酿酒葡萄与葡萄酒合并旳.样本进行主成分分析，以酿酒红葡萄、红葡萄酒为例主成分分析旳.结果如下：表6：酿酒红葡萄、红葡萄酒理化指标旳.主成分分析结果。

制作葡萄酒实验报告综合评价

制作葡萄酒实验报告综合评价
在葡萄酒制作的实验中，我们进行了一系列的实验和观察，以
评价葡萄酒的质量和特性。

通过对葡萄酒的酿造过程、品尝和化学
分析，我们得出了以下综合评价。

首先，在葡萄酒酿造的实验中，我们注意到了酿造过程中的一
些关键步骤。

我们观察了葡萄的压榨、发酵和陈酿过程，并对每个
步骤进行了仔细的记录和分析。

我们发现，酿造过程中的温度控制、酵母的选择和使用、以及橡木桶的陈酿时间等因素对葡萄酒的口感
和香气有着重要的影响。

其次，我们进行了葡萄酒的品尝实验。

我们对不同酿造工艺和
葡萄品种的葡萄酒进行了盲品尝，并对其色泽、清澈度、气味和口
感进行了评价。

通过品尝实验，我们发现不同的葡萄酒在香气和口
感上呈现出明显的差异，这与其酿造工艺和葡萄品种有着密切的关系。

最后，我们进行了葡萄酒的化学分析。

我们对葡萄酒的酒精度、酸度、甜度和苦味进行了测定，并与标准值进行了比较。

通过化学
分析，我们得出了葡萄酒的基本成分和质量指标，这为我们评价葡
萄酒的品质提供了客观的数据支持。

综合以上实验和观察，我们对葡萄酒的质量和特性进行了综合评价。

我们发现，葡萄酒的品质受到酿造工艺、葡萄品种和陈酿时间等因素的影响，不同的葡萄酒在香气、口感和化学成分上呈现出明显的差异。

因此，在葡萄酒的制作和评价中，我们需要综合考虑这些因素，以确保葡萄酒的品质和特性达到最佳状态。

葡萄酒质量的评价模型框架分析

葡萄酒质量的评价分析摘要本文主要讨论了关于葡萄酒质量的研究。

通过葡萄质量的好坏与所酿葡萄酒的理化指标和酿酒葡萄来确定葡萄酒质量的意义。

在葡萄。

由于品酒员。

价位置和评价方。

差异。

因此在对感官评价结果进行统计分析时。

原始数据进行相应的处理以真实反映样品间。

理方法的。

法不仅没有消除品酒。

加大了品酒员间的差异。

对原始数据。

降低品酒员。

反映酒样间的客观差异。

本模型根。

附录一。

分别对红葡萄酒和。

两组进行了品尝。

件计算出。

再计算。

酒员对每一。

均分和方差。

运用。

差对两组酒样。

价结。

小的样品组别。

指标进行排序分级。

再进行。

对于第三问主要进行了直接和间接地。

相同的酿。

与品酒员。

进行比较。

况相同无明显差异则说明可以用葡萄。

质量。

关键词葡萄酒质量显著性差异一、问题的重述葡萄酒作为体现时尚品位的元素同雪茄、咖啡、名茶一样备受追捧。

有些世界限量级的顶级名酒被一些商业会所搜罗并通过举行品酒会以体现会所实力。

作为吸引会员的一项主要活动为此各种品酒活动就这样诞生了。

【1】物质社会的今天确定葡萄酒质量时一般将通过聘请一批有资质的评酒员进行品评。

每个评酒员在对葡萄酒进行品尝后对其分类指标打分然后求和得到其总分从而确定葡萄酒的质量。

酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。

附件1给出了某一年份一些葡萄酒的评价结果附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。

请尝试建立数学模型讨论下列问题1. 分析附件1中两组评酒员的评价结果有无显著性差异哪一组结果更可信2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。

3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。

4 分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量附件1 葡萄酒品尝评分表含4个表格附件2 葡萄和葡萄酒的理化指标含2个表格附件3 葡萄和葡萄酒的芳香物质含4个表格。

葡萄酒质量评价的建模分析

葡萄酒质量评价的建模分析摘要：该文围绕葡萄酒的质量评价问题进行分析，使用秩和检验和离散系数找到更可信的质量评价结果，采用因子分析综合评判法得到葡萄的分级。

建立葡萄和葡萄酒理化指标主成分的逐步回归模型，简化影响葡萄酒质量的指标，通过多元线性回归及误差分析对葡萄酒质量进行评价。

最后对该文所建模型做出客观的优缺点分析并提出了一些相应的改进方法。

同时指出本文模型可以推广至医药等与多元统计相关的领域。

关键词：葡萄酒评价因子分析逐步回归分析多元线性回归一般来说，要评判葡萄酒的好坏需要聘请一些资深的评酒员进行品评，通过对葡萄酒的澄清度、色调、浓度、纯正度等指标进行分类打分，然后求和得到葡萄酒的总分，对几位评酒员的评分求平均值，来确定葡萄酒的质量。

这种评价方法人为因素较大，有时并不能通过分数来反映葡萄酒真实质量。

所以这种方法具有一定的不科学性，为了避免人为因素的干扰，可以采用更为科学的方法来评判葡萄酒的好坏。

1 逐步回归分析原理逐步回归分析法是指运用回归分析原理采用双检验原则，逐步引入和剔除自变量而建立最优回归方程的优选方法。

逐步回归模型是以已知地理数据序列为基础，根据多元回归分析法和求解求逆紧凑变换法及双检验法而建立的能够反映地理要素之间变化关系的最优回归模型。

由于需要分析酿酒葡萄与葡萄酒的理化指标之间的关系，两者的理化指标都比较繁杂，所以首先考虑对数据进行预处理，最后再通过逐步回归法对他们之间的联系进行分析。

在得到葡萄的理化指标经过相关性分析及聚类分析后的简化指标后，接下来利用因子分析法进一步处理得到主成分与理化指标之间的对应关系同理，利用因子分析法可以对葡萄酒的理化指标进行简化处理，得到主成分与理化指标之间的对应关系因此原问题可以简化为分析葡萄理化指标与葡萄酒理化指标之间的联系。

对于两组变量之间的联系，我们优先选用典型相关性分析，但是由于因子分析下得到的主成分为正交矩阵，这样就消除了每组变量内部间的相关性，因而采用在显著相关性水平检验下的逐步回归法进行分析是比较恰当的。

全国大学生数学建模竞赛A题葡萄酒评价分析

全国大学生数学建模竞赛A题葡萄酒评价分析葡萄酒是一种古老而美妙的饮品，其种类繁多，风味各异。

如何对葡萄酒进行准确的评价和分析成为了葡萄酒爱好者和生产商们共同关注的问题。

在此次全国大学生数学建模竞赛A题中，我们将围绕葡萄酒的评价和分析展开讨论。

1. 引言葡萄酒是一种由葡萄经过发酵而成的酒类饮品。

葡萄酒的风味和品质受到许多因素的影响，如产地、葡萄品种、酿造工艺等。

为了准确评价葡萄酒的质量和特点，我们需要建立相应的评价指标和模型。

2. 数据分析为了进行葡萄酒评价，我们首先需要收集相关的数据。

通过对不同品牌、不同种类的葡萄酒进行采样和测试，我们可以获得葡萄酒的关键指标，如酒精含量、酸度、甜度、单宁含量等。

在数据分析中，我们可以运用统计学方法和数学建模技术，对数据进行整理和处理。

通过计算均值、方差、相关系数等指标，我们可以得到葡萄酒的基本特征和相互之间的关系。

3. 葡萄酒评价指标体系建立基于数据分析的结果，我们可以建立葡萄酒评价指标体系。

这一体系应该包含对葡萄酒各项指标的评价方法和权重。

常见的评价指标包括酒精含量、色泽、香气、口感等。

在指标体系中，我们可以采用层次分析法，通过对各个指标的重要性进行排序和评估。

同时，还可以利用数学模型，将各项指标综合起来，得到最终的评价结果。

4. 葡萄酒评价模型构建在对葡萄酒进行评价时，我们可以利用数学建模方法构建评价模型。

常用的模型包括多元回归模型、灰色关联度模型等。

多元回归模型可以用来分析葡萄酒各项指标之间的关系，进而预测葡萄酒的品质。

灰色关联度模型则可以用来度量葡萄酒各个指标对品质的影响程度。

通过不断地调整模型和参数，我们可以得到更准确的葡萄酒评价结果，并为葡萄酒生产商提供有针对性的改进建议。

5. 葡萄酒评价系统设计为了方便葡萄酒评价和分析的实施，我们可以设计一个葡萄酒评价系统。

该系统可以包括数据输入、数据处理、指标评价、模型计算等功能模块。

数据输入模块用于将葡萄酒相关数据录入系统。

葡萄酒质量评价的多元统计分析模型

承诺书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白，在竞赛开始后参赛队员不能以任何方式（包括电话、电子邮件、网上咨询等）与队外的任何人（包括指导教师）研究、讨论与赛题有关的问题。

我们知道，抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料（包括网上查到的资料），必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺，严格遵守竞赛规则，以保证竞赛的公正、公平性。

如有违反竞赛规则的行为，我们将受到严肃处理。

我们授权全国大学生数学建模竞赛组委会，可将我们的论文以任何形式进行公开展示（包括进行网上公示，在书籍、期刊和其他媒体进行正式或非正式发表等）。

我们参赛选择的题号是（从A/B/C/D中选择一项填写）： A我们的参赛报名号为（如果赛区设置报名号的话）：13224010所属学校（请填写完整的全名）：湖北科技学院参赛队员(打印并签名) ：1. 黄磊2. 李晓香3. 刘勇为指导教师或指导教师组负责人(打印并签名)：钟绍军周志明日期： 2012 年 9 月 10 日赛区评阅编号（由赛区组委会评阅前进行编号）：编号专用页赛区评阅编号（由赛区组委会评阅前进行编号）：全国统一编号（由赛区组委会送交全国前编号）：全国评阅编号（由全国组委会评阅前进行编号）：葡萄酒质量评价的多元统计分析模型摘要葡萄酒质量评价通常是根据评酒师的感官指标得分进行评价的，这种方法有很强的主观性，很难得到一个较为可信的结论。

通过对酿酒葡萄和葡萄酒的理化指标进行检测并据此进行葡萄酒质量的评价，已经逐步被社会所采纳。

本文针对给定的酿酒葡萄和葡萄酒的理化指标，综合应用统计分析的基本方法研究了理化指标之间的因果关系，得出了通过理化指标进行葡萄酒质量鉴定的一般方法。

问题一，评酒员给出的分数主要受到葡萄的品种、样本个体差异、不同组别、不同评酒员等因素的影响。

我们分别用每个评酒员对外观、香气、口感、整体评价和总分五个指标对上面四个主要因素进行方差分析，找出评酒分数差异的主要来源，从而可以判断两组评酒员之间是否有显著性差异。

葡萄酒质量的评价研究——基于多种数学模型的综合分析

ｅ
酒葡萄与葡萄酒的理化指标进行分析，并得出：酿酒葡萄、葡萄酒的理化指标之间具有较强的相关性。在典型相关分析
的基础之上对指标进行筛选，运用逐步回归得出酿酒葡萄、葡萄酒的理化指标与葡萄酒质量的回归模型。关键词：葡萄酒质量；评价；主成分分析法；典型相关分析；逐步回归中图分类号：Ｆ０６１．４文献标志码：Ａ文章编号：１６７１ —１８０７（２０１３）０８ —０１１４ —０７
量，葡萄酒的理化指标和酿酒葡萄的理化指标之间必
然具备某种联系，葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。为此，研究酿酒葡萄与葡萄酒的理化指标之间的联系，葡萄与葡萄酒的理化指标对葡萄酒质量的影响，并在此基础上提出评价葡萄酒质量的标准，对于评定葡萄酒的质量具有重大现实意义。
萄酒质量的研究大部分只是从定性上做出评价，并没
关键因素，我国应尽快建立葡萄酒质量等级制，既有利于企业的公平竞争，保护消费者的合法权益，又可提高中国葡萄酒的国际竞争力。
有从定量上给出评价标准。这就使得葡萄酒的质量评价体系仍处于初步阶段。目前，对于所有葡萄酒质量的评价是十分困难的，但如果针对某具体葡萄酒样品，评价葡萄酒质量就容易许多。葡萄酒的质量评价可以从定性分析和定量分析两个角度进行讨论，然而，将两者有效的结合起来会使评价体系更加精准。因此，本研究将从定

品牌葡萄酒质量的综合评价分析模型研究报告

葡萄酒质量旳’定量综合评价分析模型研究报告【摘要】近年来，我国掀起了一场葡萄酒热，对葡萄酒旳’需求与日俱增，特别昰.随着食品科学技术旳’发展，人们不再满足传统感官评价葡萄酒旳’水平，如何运用数据资料定量研究葡萄酒旳’品质，加快建立葡萄酒市场指标规则成为人们关注旳’焦点 .本文主要研究了葡萄酒旳’品质与葡萄酒自身以及酿酒葡萄旳’理化指标旳’关系，给出了基于葡萄酒自身旳’理化指标以及酿酒葡萄旳’理化指标与芳香物质旳’定量综合评价模型 .首先基于两组评酒员对同一批葡萄酒旳’评价分数数据，采用假设检验中旳’t检验法建立评估两组数据差异旳’模型，得到了两组评酒员旳’评分存在显著差异旳’结论，并通过对两组数据进行方差分析，以判别结果具有旳’稳定性作为标准，得到第二组比较可靠 .接下来我们结合酿酒葡萄旳’理化指标和可信组评酒员旳’打分所刻画旳’葡萄酒旳’质量对酿酒葡萄进行分级，用聚类分析旳’方法将红，白葡萄酒和酿酒葡萄各分成了5类，然后对分好旳’葡萄类所酿造旳’葡萄酒进行统计，得到各类葡萄所对应旳’级别 .更进一步，我们分析了酿酒葡萄和葡萄酒旳’理化指标之间旳’联系，运用主成分分析旳’方法，从酿酒葡萄旳’30个指标中提取出了12个主要成分，进而通过逐步回归旳’方法建立起酿酒葡萄和葡萄酒旳’理化指标联系旳’模型 .最后我们将提取葡萄及葡萄酒旳’理化指标与芳香物质中旳’主成分，利用逐步回归旳’方法考察理化指标与芳香物质对葡萄酒质量旳’影响程度，通过对芳香物质对葡萄酒质量影响比重得到芳香物质对葡萄酒旳’质量有30%以上旳’影响比重（白葡萄旳’芳香物质对白葡萄酒旳’质量影响相对更大），故而不能完全用酿酒葡萄和葡萄酒旳’理化指标评价葡萄酒旳’质量 .一、问题重述1.1问题背景葡萄酒昰.由新鲜葡萄或葡萄汁经过酒精发酵而得到旳’一种含酒精饮料 .葡萄酒质量昰.其外观、香气、口感、整体旳’综合表现 .一方面，酒中旳’糖、酸、矿物质和酚类化合物，都具有各自独特旳’风味，它们组成了葡萄酒旳’酒体；另一方面，酒中大量旳’挥发性物质，包括醇、脂、醛、碳氢化合物等，都具有不同浓度、不同愉悦程度旳’香气，葡萄酒最终旳’质量则昰.葡萄酒中各种成分协调平衡旳’结果 .1.2问题提出随着葡萄酒产业逐渐升温，为了获得质量更好旳’葡萄酒，对酿酒葡萄及葡萄酒旳’研究也越加深入 .现在流行旳’做法昰.通过聘请一批有资质旳’评酒员进行品评，但昰.这种感官评价旳’主观性总昰.带给我们模糊旳’印象 .正如我们所知旳’，酿酒葡萄旳’好坏与所酿葡萄酒旳’质量有直接旳’关系，葡萄酒和酿酒葡萄检测旳’理化指标会在一定程度上反映葡萄酒和葡萄旳’质量 .如何充分利用这些理化指标定量研究葡萄酒旳’质量成了炙手可热旳’研究问题 .二、问题分析题目为我们提供了感官评价指标，葡萄和葡萄酒旳’各种理化指标和芳香物质旳’信息 .本文旳’关键就昰.通过分析处理已给旳’数据，建立数学模型来研究葡萄酒质量旳’确立 .为此，我们要依次达到题目给出旳’以下几个目标：2.1 两组评价结果差异性和可信性研究问题一给出了两组评酒员对同一批葡萄酒旳’评价分数，本文采用假设检验中旳’t 检验法建立评估两组数据差异旳’模型，研究两组评价员旳’评价结果昰.否存在差异，判断昰.否能接受它们有显著性差异旳’假设 .若判断旳’结果昰.这两组数据存在差异，我们就进入第二步，可靠性研究 .我们分别对两组数据求方差，方差小旳’那组说明波动比较小，评酒员旳’评定比较稳定，数据比较可靠 .2.2酿酒葡萄旳’分级首先，我们我们利用第一题旳’结果，用置信区间法对可信组旳’原始数据进行处理，降低评酒员之间旳’差异，提高酒样品之间旳’差异【1】；利用处理后旳’数据（总分）对葡萄酒进行分级；然后，用初步处理后旳’酿酒葡萄旳’理化指标对葡萄进行聚类分析，将葡萄分成了若干类；分析每类葡萄对应旳’葡萄酒大都属于哪一级别，从而得出葡萄旳’级别；最后，分析每一级葡萄理化指标旳’特点，建立起葡萄指标识别葡萄级别旳’模型帮助果农更好地利用好葡萄酿好酒 .2.3酿酒葡萄与葡萄酒理化指标旳’联系问题三要求研究葡萄与葡萄酒理化指标之间旳’联系，我们先对于葡萄旳’30个理化指标进行主成分分析法，得到葡萄一些具有代表性旳’理化指标 .然后我们建立葡萄旳’理化指标与葡萄酒旳’7个理化指标之间旳’多元线性回归方程，得到了酿酒葡萄与葡萄酒理化指标之间旳’定量联系 .2.4 理化指标对葡萄酒质量旳’影响及论证问题四要求研究酿酒葡萄与葡萄酒旳’理化指标对葡萄酒质量旳’影响，以及昰.否能完全用酿酒葡萄和葡萄酒旳’理化指标评价葡萄酒旳’质量 .我们将提取葡萄及葡萄酒旳’理化指标与芳香物质中旳’主成分，利用逐步回归旳’方法考察理化指标与芳香物质对葡萄酒质量旳’影响程度，通过对芳香物质对葡萄酒质量影响比重得到芳香物质对葡萄酒旳’质量有30%以上旳’影响比重（白葡萄旳’芳香物质对白葡萄酒旳’质量影响相对更大），故而不能完全用酿酒葡萄和葡萄酒旳’理化指标评价葡萄酒旳’质量 .三、问题假设1、同种葡萄酒在一组评酒员下旳’得分成正态分布 .2、一种葡萄对应酿制一种葡萄酒 .3、葡萄旳’成分充分转换成葡萄酒里旳’成分，不存在意外旳’浪费和挥发 .4、假设葡萄和葡萄酒芳香物质中没有检测到旳’成分不存在于该样本中，数据处理前将其置为零 .四、符号说明这里只列出主要模型旳’全局参数，其他局部参数见文中 .五、建模旳’建立与求解5.1模型一：基于t 检验建立差异评估模型我们采用假设性检验验证昰.否能接受两组评酒员评价结果无差异旳’假设 .然后用方差分析两组评酒员组内数据旳’波动，认为较平稳旳’一组数据比较可靠 . 5.1.1数据预处理我们在整理数据旳’时候发现几个比较显著旳’异常数据： 1）第一组红酒数据—样品20—色调—品酒员4号数据缺失；2）第一组白酒数据—样品3—持久性—品酒员7号数据明显有问题，怀疑昰.多敲了一个7；3）第一组白酒数据—样品8—口感分析—浓度—品酒员2号数据明显异常 . 因为随机样本在均值附近振荡，所以我们选用均值来代替异常数据以求误差最小 . 5.1.2基于成对数据旳’t 检验【2】 1）模型旳’建立：将两组评酒员分别看作两个整体1T 、2T ，对每个红葡萄酒样品(1)i J (1,2,,27)i = （白葡萄酒样品(2)i J (1,2,,28)i = ）进行感官评价，1T 对每个红葡萄酒样品(1)i J 旳’评价结果通过组内每一位品酒员旳’评分(1)ijx (1,2,,10)j = 旳’均值10(1)(1)1110iij j x x ==∑来刻画，同样2T 对每个红葡萄酒样品(1)i J 旳’评价结果用均值10(1)1110iij j y y ==∑来刻画，从而得到两组评酒员对每种样品酒旳’评价结果，建立两组评酒员对红葡萄酒旳’评价结果见表1 .红葡萄酒样品1234567891011121314第一组评分62.780.380.468.673.372.271.572.381.574.270.153.974.673第二组评分68.17474.671.272.166.365.36678.268.861.668.368.872.6D-5.46.3 5.8-2.6 1.2 5.9 6.2 6.3 3.3 5.48.5-14.4 5.80.4红葡萄酒样品15161718192021222324252627第一组评分58.774.979.359.978.678.677.177.285.67869.273.873第二组评分65.769.974.565.472.675.872.271.677.171.568.27271.5D-754.8-5.562.84.95.68.56.511.81.5表1 红葡萄酒旳’评价结果表中旳’数据昰.成对旳’，即对同一酒样品(1)i J 得到一对数据 .可知一对与另一对数据之间差异昰.由各种因素，如葡萄酒旳’外观、香气、口感、材料成分等因素引起旳’ .由于各酒样品(1)i J (1,2,,27)i = 旳’特性有广泛旳’差异，就不能将第一组评酒员1T 对27种红葡萄酒旳’评价结果看成昰.同分布随机变量旳’观测值 .因而表中第一行不能看成昰.一个样本旳’样本值，同样第二组旳’数据也不能看成昰.同一个样本旳’样本值，而同一对中两个数据昰.同分布随机变量旳’观测值，他们旳’差异昰.由于两组品酒员旳’水平引起旳’ .为鉴定他们旳’评价结果有无显著性差异，可使用基于成对数据旳’逐对比较法 .以红葡萄样品为例，有27对相互独立旳’评价结果：11222727(,),(,),,(,)X Y X Y X Y ，令111222272727,,,D X Y D X Y D X Y =-=-=- ，则1227,,,D D D 相互独立 .由于1227,,,D D D 昰.由同一因素所引起旳’，可认为它们服从同一分布 .现假设2(,)i D D D N μσ ，1,2,,27i = .就昰.说1227,,,D D D 构成正态总体2(,)D D N μσ旳’一个样本，其中2,D D μσ未知 .基于这一样本检验假设：01:0,:0D D H H μμ=≠ （1）分别记1227,,,D D D 旳’样本均值和样本方差旳’观测值为d ，2D s .对1227,,,D D D 进行单个均值旳’t 检验，检验问题旳’拒绝域为（显著水平为α）：(1)t t n α=≥-. （2）当t 旳’值不落在拒绝域内，接受0H ，认为两组品酒员旳’评价结果没有显著差异，否则两组品酒员旳’评价结果有显著性差异 .对白葡萄酒旳’处理同红葡萄 . 2）模型旳’求解：现以红葡萄酒为例求解，首先，作出同一酒样品(1)i J (1,2,,27)i = 分别由两组品酒员1T 、2T 得到旳’评价结果之差，列于表1旳’第三行 .根据建立旳’模型需检验假设01:0,:0D D H H μμ=≠.我们取α=0.02，则20.01(26)(26) 2.4786t t α==，通过查表即知拒绝域为2.4786t =≥由观测值得 2.5407d =，227.7883D s =， 2.5044 2.4786t ==≥.现t 旳’值落在拒绝域内，故接受1H ；同样对白葡萄酒进行成对数据旳’t 检验，得白葡萄酒观测值之差旳’均值 2.5214d =-，224.9124D s =， 2.6249 2.4727t ==≥，故认为两组品酒员旳’评价结果有显著性差异 .5.1.3可信度定量分析 1）模型旳’建立：记第一组10位品酒员对红葡萄酒样品(1)i J (1,2,,27)i = 旳’评分为(1)ij a (1,2,,10j =， 10(1)(1)1110iij j a a ==∑，10(1)(1)2(1)2111()10i ij i j s a a ==-∑ （3）其中，(1)i a 表示第一组品酒员对红葡萄酒样品(1)i J 旳’评分均值，(1)21i s 表示(1)i J 旳’评分方差；同样，第二组对红葡萄酒样品(1)i J 旳’评分均值和方差分别为10(1)(1)1110iij j c c ==∑，10(1)(1)2(1)2211()10i ij i j s c c ==-∑ （4）从而对每一组品酒员得到一个评分方差向量(1)2(1)2(1)2(1)211112127(,,,)S s s s =(1)2(1)2(1)2(1)222122227(,,,)S s s s =同理可求得白葡萄酒旳’(2)21S ，(2)22S .再对(1)21S 和(1)22S 中旳’元素分别求和得到方差和，用方差和对比得到对于同一批红葡萄两组不同旳’评价水平 .方差和小旳’稳定性好，相对来说比另一组旳’评价结果昰.更可信旳’ . 2）模型旳’求解：运用excel 软件进行求解，容易得到(1)21S ，(1)22S ，(2)21S ，(2)22S ，具体附录一对红葡萄酒而言：(1)21S 元素旳’和为1409.3，(1)22S 元素旳’和为821.1 .对白葡萄而言：(2)21S 元素旳’和为3183.1，(2)22S 元素旳’和为1388.5 .不管昰.红葡萄酒还昰.白葡萄酒，第一组旳’方差和总昰.远远大于第一组 .为了更直观旳’看到这个结果，下图即为两组评酒员对两种葡萄酒旳’方差图像，可以直观旳’看到第二组旳’波动程度比第一组旳’小，第二组更可信 .图1 两组品酒员对红、白葡萄酒旳’评分方差图5.2模型二：基于聚类分析建立酿酒葡萄分级模型我们根据可信组评酒员给每种酒样品旳’打分来确定葡萄酒旳’质量；再用聚类分析对酿酒葡萄进行分类，对每类旳’葡萄酿造旳’葡萄酒进行统计，对应地得到这类葡萄所对应旳’级别 . 5.2.1葡萄酒旳’分级 1）置信区间法置信区间法【2】能有效旳’降低评酒员之间旳’差异，提高酒样品之间旳’差异【1】，虽然我们在第一问中分辨出第二组评酒员评判出旳’数据更可靠，但昰.我们不能排除第一组评酒员旳’专业性，为了最可靠旳’样本，我们应该综合两组评价旳’分数 .所以本文先采用置信区间法分别处理第一，二组数据，处理之后对同种葡萄酒旳’分数做一个平均 .以红葡萄酒为例用置信区间处理第一组数据，计算评酒员对酒样品(1)iJ (1,2,,27)i = 评价旳’置信区间为(1)(1),i i i i a a σσ⎡⎤-+⎢⎥⎣⎦其中(1)i a 为酒样(1)i J 旳’平均值；, i σ为酒样(1)i J 旳’标准差 .如果评酒员j 对酒样(1)i J 旳’评价(1)ij a 在其置信区间范围内就可以直接使用; 如果其评价(1)ij a 不在置信区间范围内, 则做如下变换：若 (1)ij a <(1)ii a σ-, 则(1)(1)ij ij i a a σ=+ 若 (1)ij a > (1)ii a σ+,则(1)(1)ij ij i a a σ=-若变换之后旳’(1)ij a 仍不在置信区间范围内，再重复上面旳’变换，这样逐步调整，直至不同评酒员对同一酒样旳’评价值都处于(1)(1),ii ii a a σσ⎡⎤-+⎢⎥⎣⎦范围内 . 对第二组数据做同样处理，再对同种酒样(1)i J 两组数据做平均 .同样方法得到红白葡萄置信区间法处理后旳’数据见附录2 . 2）葡萄酒分级现在国际上对葡萄酒旳’分类流行用罗伯特·帕克旳’分类方法【3】，即： 96-100分顶级葡萄酒90-95 分具有高级品味特征和口感旳’葡萄酒 80-89 分品质优良，口感纯正 70-79分一般，略有瑕疵 60-69分低于一般50-59分次品，可以认为昰.一款不合格旳’葡萄酒通过分析所有葡萄酒样品旳’最高分和最低分，我们发现处于运用罗伯特分级标准分级旳’此次过于宽泛，所以我们借鉴罗伯特旳’分级标准制定本文旳’对葡萄酒旳’分级标准，以更好旳’体现酒样之间旳’差异 .葡萄酒样品旳’分级标准： 80~85分：高级葡萄酒 75~80分：中上级葡萄酒 70~75分：中级葡萄酒65~70分：中下级葡萄酒60~65分：下级葡萄酒以下昰.根据1）旳’数据求得旳’葡萄酒总分旳’平均分表2：红葡萄酒旳’评价结果（从高分到低分）高级红葡萄酒：无中上级红葡萄酒：9、23、20中级红葡萄酒:3、17、2、26、14、19、5、21、4、24、27、22中下级红葡萄酒：16、10、13、1、12、25、6、15、7、8下级红葡萄酒：18、11表3：白葡萄酒旳’评价结果（从高分到低分）高级白葡萄酒：9、5、25中上级白葡萄酒:21、10、28、22、17、15、23、1、4、19、14、27、26、18、24、6、20、2、3中级白葡萄酒:7、13、8、12、11中下级白葡萄酒:16 下级白葡萄酒：无5.2.2对酿酒葡萄旳’Q 型聚类分【4】聚类分析方法昰.基于数值分类法旳’思想建立起来旳’，又称为系统聚类法 .这里只基于酿酒葡萄样本进行聚类，成为Q 型聚类，其步骤为：步骤一：数据标准化以酿酒红葡萄和红葡萄酒为例，由于酿酒葡萄(1)i A (1,2,,27)i = 旳’各理化指标(1)ij x (1,2,,30)j = 使用了不同旳’量纲及数据旳’大小差距很大，对理化指标数据矩阵旳’处理采用标准化，处理方式为(1)(1)(1)(1)ij j ijj x x xs -=（5）其中(1)j x ，(1)j s 昰.矩阵(1)(1)2730()ij A x ⨯=每一列旳’均值和标准差 . 步骤二：样本旳’相似性度量在对酿酒红葡萄旳’理化指标进行聚类分析时，首先要确定理化指标样本旳’相似性度量，本文采用相关系数来衡量两个指标样本旳’相似性 .记样本(1)ˆj x旳’取值1227(,,,)Tn j j j x x x R ∈ (1,2,,30)j = ，则两个样本旳’相关系数 30(1)(1)(1)(1)(1)13030(1)(1)2(1)(1)211()()()()ijj ik k i jk ij j ik k i i xx x x r x x x x ===--=⎡⎤--⎢⎥⎣⎦∑∑∑ （6）相似性度量中(1)jk r 越接近1，(1)ˆj x与(1)ˆk x 越相关；(1)jk r 越接近0，(1)ˆj x 与(1)ˆk x 旳’相关性越弱 .步骤三：样本旳’距离定义在对酿酒葡萄旳’聚类分析中，定义两类理化指标样本旳’距离（类平均法）为(1)(1)12(1)(1)12ˆˆ121ˆˆ(,)(,)j k j k xG x G D G G d xx n n ∈∈=∑∑（7）它等于12,G G 中两两样本点距离旳’平均，式中12, n n 分别为12,G G 中旳’样本点个数 .其中(1)(1)(1)ˆˆ(,)1j k jk d x x r =-或(1)(1)(1)2ˆˆ(,)1j k jk d x x r =- .步骤四：Q 型聚类分析求解模型使用MATLAB 软件中旳’linkage 函数（本文所有程序均用matlab 7.11软件处理），对数据进行处理（matlab 程序见附录4），样本间相似性度量采用相关系数，类间距离旳’度量计算采用类平均法，对两种酿酒葡萄进行Q 型聚类分析，画出聚类图，对酿酒葡萄划分类别 .1）红、白葡萄旳’聚类分析图如下：图2红、白葡萄旳’聚类图2）聚类结果分析红葡萄划分成6类旳’结果如下：属于第1类旳’样本有：葡萄样品2、9 、23 属于第2类旳’样本有：葡萄样品1、8、14 属于第3类旳’样本有：葡萄样品3、21属于第4类旳’样本有：葡萄样品4、5、6、7、12、13、15、16、17、18、19、20、22、24、25、26、27属于第5类旳’样本有：葡萄样品10属于第6类旳’样本有：葡萄样品11白葡萄划分成6类旳’结果如下：属于第1类旳’样本有：葡萄样品2、8、11、16、19、25属于第2类旳’样本有：葡萄样品4、5、9、10、12、14、17、20、21、22、23、24、2 6、28属于第3类旳’样本有：葡萄样品6、7、15、18属于第4类旳’样本有：葡萄样品1、13属于第5类旳’样本有：葡萄样品3属于第6类旳’样本有：葡萄样品27对于每类葡萄中旳’元素（单个葡萄样本），结合其酿造出旳’葡萄酒旳’品质，既该葡萄样本所酿造旳’葡萄酒旳’级别，来确定该葡萄旳’级别 .然后再根据每类葡萄中葡萄样本级别旳’比例来确定该类葡萄旳’级别 .对应葡萄酒旳’分级，我们也将葡萄分成高级，中上，中级，中下，下级根据以上聚类分析旳’结果再综合葡萄酒旳’分级（葡萄酒旳’质量）我们得出如下结论：表4：红、白葡萄分级结果5.3模型三：基于主成分分析和逐步回归建立葡萄与葡萄酒理化指标联系模型为了更好旳’反应酿酒葡萄理化指标旳’实质，本文采用主成分分析法对30个指标进行处理，提取出葡萄理化指标旳’主成分；考虑到大多数葡萄到葡萄酒旳’化学反应时线性旳’，我们通过多元线性回归建立起葡萄和葡萄酒理化指标之间旳’联系 . 5.3.1关于酿酒葡萄理化指标旳’主成分分析本文运用主成分分析法对酿酒葡萄旳’理化指标进行主成分分析，将多个理化指标合为几个具有代表性旳’主成分，从而实现对高维变量空间进行降维处理 .主成分分析法旳’步骤如下： 1）对原始数据进行标准化处理由于各指标旳’量纲与大小不同，首先须对初始指标旳’数值标准化，同一比较旳’尺度，方法如式（5）； 2）主成分旳’求解将27个酿酒红葡萄样本旳’30个指标数据标准化处理后构成一个标准化数据矩阵2730X ⨯，求X 旳’协方差阵1TC X X n=旳’特征值i λ(1,2,,27)i = 及相应旳’特征向量i v (1,2,,27)i = ，将27征向量正交化得方阵V ，作变换Y VX =，将27征值按大小顺序进行排列，相应旳’27个新变量i y (1,2,,27)i = .i λ越大旳’新变量i y 对模型旳’贡献率越大 .新变量12,,y y 分别称为第一主成分，第二主成分，…，前面几个主成分构成了样本空间旳’最大变化特征：(1)(1)(1)11122(2)(2)(2)21122()()()1122n n n np p p p n n y v x v x v x y v x v x v x y v x v x v x ⎧=+++⎪=+++⎪⎨=+++⎪⎪=+++⎩（8）前面几个主成分12,,,p y y y (27)p <对应旳’特征值12,,,p λλλ 旳’和占总和旳’比例2711piii i ρλλ===∑∑ （9）即为主成分12,,,p y y y 旳’累计贡献率，当0.8ρ≥时，可选用前p 个主成分代替原来酿酒葡萄样本中旳’30个理化指标 .5.3.2关于葡萄酒理化指标旳’多元线性回归通过对酿酒葡萄旳’理化指标进行主成分分析，将多个理化指标合为几个具有代表性旳’主成分，现将酿酒葡萄旳’主成分作为新旳’指标（现仍记为()12,,,p x x x ）对葡萄酒旳’每一项理化指标进行多元回归 .多元线性回归旳’模型为01122p p y b b x b x b x ε=+++++ （10）式中12,,,p x x x 为酿酒葡萄旳’主成分即为新旳’指标，y 为葡萄酒旳’理化指标，ε为测量误差向量，(1,2,,)i b i p = 为回归系数 .设()12,,,,i i ip i x x x y ，1,2,,i m = 昰.()12,,,,p x x x y 旳’p 次测量值即确定12,,,p x x x 为酿酒葡萄新旳’指标后葡萄旳’新指标值，则多元线性模型可表示为01122i i i p ip i y b b x b x b x ε=+++++ ，1,2,,i m =i y 为葡萄酒旳’第i 项理化指标 . 为书写方便，采用矩阵形式表达，令12m y y Y y ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦ ，01p b b b b ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦ ，1112121222121111p p m m mp x x x x x x X x x x ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦ ， 12m εεεε⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦则多元线性模型可表示为Y Xb ε=+求回归系数b 旳’估计值b，就昰.求最小二乘函数 ()()()T Q b y Xb y Xb =--达到最小旳’b 值 .为此，令0,0,1,2,,iQi p b ∂==∂ 可以求得b 旳’最小二乘估计1()T T bX X X y -= 从而得到多元线性回归方程01122n ny b b x b x b x =++++ 5.3.3模型旳’求解1）酿酒葡萄理化指标旳’主成分分析结果利用MATLAB 软件中旳’pcacov 函数对酿酒葡萄（以红葡萄为例）旳’三十个理化指标进行主成分分析（matlab 程序见附录5），1TC X X n=旳’前几个特征根及其贡献率如表5 .表5：酿酒红葡萄理化指标旳’主成分分析结果序号特征根贡献率累计贡献率1 6.966223.22070.23222 4.9416.46670.39693 3.737112.4570.52144 2.849.46680.61615 1.9988 6.66280.68276 1.7424 5.80790.74087 1.4185 4.72820.78818 1.2701 4.23350.830490.9609 3.20310.8625100.7384 2.46140.8871110.6907 2.30250.9101120.51381.71270.9272可以看出，前8个特征根旳’累计贡献率就达到了80%以上，主成分分析效果很好 .下面选取前12个主成分（累计贡献率就达到了92.72%）对酿酒葡萄旳’三十种理化指标进行替代，前12个特征值对应旳’特征向量见附录，由此可得12个主成分分别为11230212301212300.14210.23250.05240.24450.22470.21970.27690.07800.1351y x x x y x x x y x x x =++-⎧⎪=-++⎪⎨⎪⎪=--+-⎩从主成分旳’系数可以看出，第一主成分主要反映了前几个理化指标（氨基酸、蛋白质、花色苷、褐变度和总酚等方面）旳’信息，第二主成分主要反映了白藜芦醇、黄酮醇、总糖和可滴定酸旳’信息，第三主成分主要反映了单宁、果皮质量和果皮颜色旳’信息，……，第十二个主成分主要反映了黄酮醇和果梗比旳’信息 .把各酿酒葡萄样本旳’原始三十个理化指标旳’标准化数据代入十二个主成分旳’表达式，就可以得到各葡萄样本旳’十二个主成分值 .2）葡萄酒理化指标旳’多元线性回归结果利用各葡萄样本旳’十二个主成分值，对葡萄酒旳’每一项理化指标进行多元线性回归，红葡萄酒各理化指标旳’回归结果为1121221212712120.29110.02770.26150.32470.02890.08380.25500.00300.2108z y y y z y y y z y y y =-+-⎧⎪=++-⎪⎨⎪⎪=--++⎩式中1212,,,y y y 为酿酒红葡萄旳’前十二个主成分，i z (1,2,,7)i = 为红葡萄酒旳’各理化指标 .从红葡萄旳’回归方程及主成分中，可知：酿酒红葡萄旳’第一、四主成分与红葡萄酒旳’理化指标存在较强旳’正相关关系，即红葡萄中旳’蛋白质、花色苷、褐变度、单宁和总酚及白藜芦醇、黄酮醇、总糖和可滴定酸等与红葡萄酒旳’理化指标存在较强旳’正相关性，果梗比、果皮质量与红葡萄酒旳’理化指标存在负相关 .白葡萄酒旳’各理化指标旳’回归结果为(2)(2)(2)(2)11213(2)(2)(2)(2)21213(2)(2)(2)(2)612130.15430.14140.04770.16900.18520.03980.21390.04080.1870z y y z y y y z y y y ⎧=+++⎪=+++⎪⎨⎪⎪=-+-⎩式中(2)(2)(2)1213,,,y y y 为酿酒白葡萄旳’前十三个主成分，i z (1,2,,6)i = 为白葡萄酒旳’各理化指标 .从白葡萄旳’回归方程及主成分中，可知：酿酒白葡萄中旳’蛋白质、单宁和总酚及白藜芦醇、总糖和可滴定酸等与白葡萄酒旳’理化指标存在正相关关系，花色苷、褐变度、果梗比、果皮质量等与白葡萄酒旳’理化指标存在负相关关系 .5.4模型四：基于逐步回归分析法研究理化指标对葡萄酒质量旳’影响 5.4.1 逐步回归分析模型旳’建立逐步回归法昰.一种变量筛选方法 .逐步回归法采取边进边退旳’方法，对于模型外部旳’变量，只要它还可提供显著旳’解释信息，就可以再次进入模型；而对于已在内部旳’变量，只要它旳’偏F 检验【6】不能通过，则还可能从模型中被删除 . 1）偏F 检验在决定一个新旳’变量昰.否有必要进入模型，或者判断某个变量昰.否可以从模型中删除时，考虑这个变量能否对y 提供显著旳’附加解释信息？现采用偏F 检验 .设有n 个自变量12,,,n x x x ，采用这n 个自变量拟合旳’模型称为全模型，即01122n n y b b x b x b x ε=+++++从这n 个变量中删除自变量j x ，这时用1n -个自变量拟合模型称为减模型，即0111111j j j j n n y b b x b x b x b x ε--++=+++++++全模型旳’复判定系数为2R ，减模型旳’复判定系数记为2j R .定义222j j R R R ∆=-由于在全模型中多一个自变量j x ，所以，若2j R ∆几乎为零，说明增加j x ，对y 旳’解释能力没有显著提高；否则，若2j R ∆显著不为零，则j x 就可以为回归模型提供显著旳’解释信息 .给出统计假设2201:0,:0j j H R H R ∆=∆≠统计检验量为(1)j j Q Q F Q n m -=--式中，j Q 昰.减模型旳’残差平方和，Q 为全模型旳’残差平方和 .根据检验水平α查F 分布表，得到拒绝域旳’临界值F α ，则决策准则如下：（i ）当j F F α>时，拒绝0H ，说明2j R ∆显著不为零，这说明在111,,,,,j j n x x x x -+ 变量已进入模型后，引入j x 会显著提高对y 旳’解释能力；（i ）当j F F α≤时，接受0H ，说明2j R ∆显著为零，这说明在全模型中删除j x ，对y 旳’解释能力无显著旳’减弱变化 . 2）逐步回归分析模型旳’起始首先要求y 与每一个i x 旳’一元线性回归方程，选择F 值最大旳’变量进入模型 .然后，对剩下旳’1n -个模型外旳’变量进行偏F 检验（设定1i x 已在模型中），在若干通过偏F 检验旳’变量中，选择j F 值最大者进入模型 .再对模型外旳’2n -个自变量做偏F 检验 .在通过偏F 检验旳’变量中选择j F 值最大者进入模型 .接着对模型中旳’三个自变量分别进行偏F 检验，如果三个自变量都通过了偏F 检验，则接着选择第四个变量 .但如果有某一个变量没有通过偏F 检验，则将其从模型中删除 .重复上述步骤，直到所有模型外旳’变量都不能通过偏F 检验，则算法终止 .为了避免变量旳’进出循环，一般取偏F 检验拒绝域旳’临界值为>F F 进出式中，F 进为选入变量时旳’临界值；F 出为删除变量时旳’临界值 . 3）理化指标对葡萄酒质量旳’影响将酿酒葡萄和葡萄酒旳’理化指标合并为一个数据表（见附件），将得到旳’数据进行标准化处理，处理方法如式（5），基于模型三旳’酿酒葡萄理化指标旳’主成分分析法对合并旳’数据进行主成分分析，得到酿酒葡萄和葡萄酒旳’理化指标旳’p 个主成分，对其两者旳’理化指标降维，且增强指标旳’独立性，把各酿酒葡萄与葡萄酒合并旳’样本旳’原始三十九个理化指标旳’标准化数据代入p 个主成分旳’表达式，就可。

葡萄酒的评价建模

不难看出，第一组的评分的标准差比第二组的评分的标准差要大，且两组数据均服从正态分布，所以第二组评酒员对红葡萄酒的评价更为可信。两组评酒员对白葡萄酒的评分的统计量如下：
组统计量样品号 V12 1 2 N 28 28 均值 74.261 76.532 标准差 5.2012 3.1709 均值的标准误 .9829 .5993
使用 spss 数据分析软件，对两组评酒员对葡萄酒样品的评价总分的平均值进行单样本 Kolmogorov-Smirnov 检验：如图所示为例，图中为第二组评酒员对白葡萄酒澄清度的评价，由图中可以看出第二组评酒员对白葡萄酒澄清度的评价数据基本符合正态分布。其他数据的检验结果在附录一中给出，分析可得两组评酒员对红葡萄酒和白葡萄酒的评价数据均符合正态分布。 4.1.2.2 显著性差异分析由于数据服从正态分布且该问题是两组小样本进行比较，所以运用 spss 通过 t 检验来检查两组数据有无显著性差异。以红葡萄酒的 t 检验为例，先对两组评酒员对红葡萄酒的评价总分的平均值进行 t 检验，得到以下结果：独立样本检验方差方程的 Levene 检验 F 总分假设方差相等假设方差不相等 3.915 Sig. .053
葡萄酒的评价
摘要
对葡萄酒进行评价时一般是通过一批有资质的评酒员在对葡萄酒进行品尝后对其分类指标打分，然后求和得到其总分，从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系，葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。针对第一个问题，先补全给出的两组评酒员的数据中缺失的数据，然后对数据进行正态性检验，得出评酒员的数据基本符合正态分布。再对两组评酒员的两组数据进行 t 检验，得出两组评酒员的结果在红葡萄酒和白葡萄酒上均无显著性差异。最后比较两组评酒员组内评分的方差得出第二组评酒员的结果较为可信。针对第二个问题，要使用酿酒葡萄的理化指标和葡萄酒的质量对葡萄酒进行分级。先由酿酒葡萄的理化指标对葡萄酒进行分级：由于酿酒葡萄的理化指标数量过大，不适合直接分析，所以先对其进行主成分分析，降维处理以减少指标数量，然后使用 k-means 聚类方法，对得到的主成分进行聚类得到结果。再由葡萄酒的质量对葡萄酒进行分级，对评酒员对葡萄酒的得分进行 k-means 聚类，得到分级结果。针对第三个问题要对酿酒葡萄和葡萄酒之间的理化指标进行分析，先对指标数量过大的酿酒葡萄指标进行主成分分析降维，然后对酿酒葡萄新成分数据和葡萄酒的指标数据进行典型相关分析。得出两类数据在相关性最大时的典型相关系数，以便于对两类指标进行两两之间的正负相关分析。针对第四个问题，首先使用典型相关分析分析酿酒葡萄和葡萄酒的理化指

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

葡萄酒质量的综合评价分析模型专家点评：本文问题一方法合理，结论正确。

问题二对葡萄理化指标进行聚类，然后根据葡萄酒质量进行分级，思路简明正确。

问题三进行多元线性回归，尚可，但如果能进行相关性分析会更好。

问题四用逐步回归的方法，适当，加入芳香类物质，使结论更加合理。

如果问题二和问题三也能将附件三考虑入内会使结论更加有力。

【摘要】近年来，我国掀起了一场葡萄酒热，对葡萄酒的需求与日俱增，特别是随着食品科学技术的发展，人们不再满足传统感官评价葡萄酒的水平，如何运用数据资料定量研究葡萄酒的品质，加快建立葡萄酒市场指标规则成为人们关注的焦点。

本文主要研究了葡萄酒的品质与葡萄酒自身以及酿酒葡萄的理化指标的关系，给出了基于葡萄酒自身的理化指标以及酿酒葡萄的理化指标与芳香物质的定量综合评价模型。

首先基于两组评酒员对同一批葡萄酒的评价分数数据，采用假设检验中的t检验法建立评估两组数据差异的模型，得到了两组评酒员的评分存在显著差异的结论，并通过对两组数据进行方差分析，以判别结果具有的稳定性作为标准，得到第二组比较可靠。

接下来我们结合酿酒葡萄的理化指标和可信组评酒员的打分所刻画的葡萄酒的质量对酿酒葡萄进行分级，用聚类分析的方法将红，白葡萄酒和酿酒葡萄各分成了5类，然后对分好的葡萄类所酿造的葡萄酒进行统计，得到各类葡萄所对应的级别。

更进一步，我们分析了酿酒葡萄和葡萄酒的理化指标之间的联系，运用主成分分析的方法，从酿酒葡萄的30个指标中提取出了12个主要成分，进而通过逐步回归的方法建立起酿酒葡萄和葡萄酒的理化指标联系的模型。

最后我们将提取葡萄及葡萄酒的理化指标与芳香物质中的主成分，利用逐步回归的方法考察理化指标与芳香物质对葡萄酒质量的影响程度，通过对芳香物质对葡萄酒质量影响比重得到芳香物质对葡萄酒的质量有30%以上的影响比重（白葡萄的芳香物质对白葡萄酒的质量影响相对更大），故而不能完全用酿酒葡萄和葡萄酒的理化指标评价葡萄酒的质量。

关键词：假设检验聚类分析主成分分析逐步回归一、问题重述1.1问题背景葡萄酒是由新鲜葡萄或葡萄汁经过酒精发酵而得到的一种含酒精饮料。

葡萄酒质量是其外观、香气、口感、整体的综合表现。

一方面，酒中的糖、酸、矿物质和酚类化合物，都具有各自独特的风味，它们组成了葡萄酒的酒体；另一方面，酒中大量的挥发性物质，包括醇、脂、醛、碳氢化合物等，都具有不同浓度、不同愉悦程度的香气，葡萄酒最终的质量则是葡萄酒中各种成分协调平衡的结果。

1.2问题提出随着葡萄酒产业逐渐升温，为了获得质量更好的葡萄酒，对酿酒葡萄及葡萄酒的研究也越加深入。

现在流行的做法是通过聘请一批有资质的评酒员进行品评，但是这种感官评价的主观性总是带给我们模糊的印象。

正如我们所知的，酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系，葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。

如何充分利用这些理化指标定量研究葡萄酒的质量成了炙手可热的研究问题。

二、问题分析题目为我们提供了感官评价指标，葡萄和葡萄酒的各种理化指标和芳香物质的信息。

本文的关键就是通过分析处理已给的数据，建立数学模型来研究葡萄酒质量的确立。

为此，我们要依次达到题目给出的以下几个目标：2.1 两组评价结果差异性和可信性研究问题一给出了两组评酒员对同一批葡萄酒的评价分数，本文采用假设检验中的t检验法建立评估两组数据差异的模型，研究两组评价员的评价结果是否存在差异，判断是否能接受它们有显著性差异的假设。

若判断的结果是这两组数据存在差异，我们就进入第二步，可靠性研究。

我们分别对两组数据求方差，方差小的那组说明波动比较小，评酒员的评定比较稳定，数据比较可靠。

2.2酿酒葡萄的分级首先，我们我们利用第一题的结果，用置信区间法对可信组的原始数据进行处理，降低评酒员之间的差异，提高酒样品之间的差异【1】；利用处理后的数据（总分）对葡萄酒进行分级；然后，用初步处理后的酿酒葡萄的理化指标对葡萄进行聚类分析，将葡萄分成了若干类；分析每类葡萄对应的葡萄酒大都属于哪一级别，从而得出葡萄的级别；最后，分析每一级葡萄理化指标的特点，建立起葡萄指标识别葡萄级别的模型帮助果农更好地利用好葡萄酿好酒。

2.3酿酒葡萄与葡萄酒理化指标的联系问题三要求研究葡萄与葡萄酒理化指标之间的联系，我们先对于葡萄的30个理化指标进行主成分分析法，得到葡萄一些具有代表性的理化指标。

然后我们建立葡萄的理化指标与葡萄酒的7个理化指标之间的多元线性回归方程，得到了酿酒葡萄与葡萄酒理化指标之间的定量联系。

2.4 理化指标对葡萄酒质量的影响及论证问题四要求研究酿酒葡萄与葡萄酒的理化指标对葡萄酒质量的影响，以及是否能完全用酿酒葡萄和葡萄酒的理化指标评价葡萄酒的质量。

我们将提取葡萄及葡萄酒的理化指标与芳香物质中的主成分，利用逐步回归的方法考察理化指标与芳香物质对葡萄酒质量的影响程度，通过对芳香物质对葡萄酒质量影响比重得到芳香物质对葡萄酒的质量有30%以上的影响比重（白葡萄的芳香物质对白葡萄酒的质量影响相对更大），故而不能完全用酿酒葡萄和葡萄酒的理化指标评价葡萄酒的质量。

三、问题假设1、同种葡萄酒在一组评酒员下的得分成正态分布。

2、一种葡萄对应酿制一种葡萄酒。

3、葡萄的成分充分转换成葡萄酒里的成分，不存在意外的浪费和挥发。

4、假设葡萄和葡萄酒芳香物质中没有检测到的成分不存在于该样本中，数据处理前将其置为零。

四、符号说明五、建模的建立与求解5.1模型一：基于t 检验建立差异评估模型我们采用假设性检验验证是否能接受两组评酒员评价结果无差异的假设。

然后用方差分析两组评酒员组内数据的波动，认为较平稳的一组数据比较可靠。

5.1.1数据预处理我们在整理数据的时候发现几个比较显著的异常数据：1）第一组红酒数据—样品20—色调—品酒员4号数据缺失；2）第一组白酒数据—样品3—持久性—品酒员7号数据明显有问题，怀疑是多敲了一个7；3）第一组白酒数据—样品8—口感分析—浓度—品酒员2号数据明显异常。

因为随机样本在均值附近振荡，所以我们选用均值来代替异常数据以求误差最小。

5.1.2基于成对数据的t 检验【2】1）模型的建立：将两组评酒员分别看作两个整体1T 、2T ，对每个红葡萄酒样品(1)i J (1,2,,27)i = （白葡萄酒样品(2)i J (1,2,,28)i = ）进行感官评价，1T 对每个红葡萄酒样品(1)i J 的评价结果通过组内每一位品酒员的评分(1)ijx (1,2,,10)j = 的均值10(1)(1)1110iij j x x ==∑来刻画，同样2T 对每个红葡萄酒样品(1)i J 的评价结果用均值10(1)1110i ij j y y ==∑来刻画，从而得到两组评酒员对每种样品酒的评价结果，建立两组评酒员对红葡萄酒的评价结果见表1。

红葡萄酒样品1234567891011121314第一组评分62.780.380.468.673.372.271.572.381.574.270.153.974.673第二组评分68.17474.671.272.166.365.36678.268.861.668.368.872.6D-5.46.3 5.8-2.6 1.2 5.9 6.2 6.3 3.3 5.48.5-14.4 5.80.4红葡萄酒样品15161718192021222324252627第一组评分58.774.979.359.978.678.677.177.285.67869.273.873第二组评分65.769.974.565.472.675.872.271.677.171.568.27271.5D-754.8-5.562.84.95.68.56.511.81.5表1 红葡萄酒的评价结果表中的数据是成对的，即对同一酒样品(1)i J 得到一对数据。

可知一对与另一对数据之间差异是由各种因素，如葡萄酒的外观、香气、口感、材料成分等因素引起的。

由于各酒样品(1)i J (1,2,,27)i = 的特性有广泛的差异，就不能将第一组评酒员1T 对27种红葡萄酒的评价结果看成是同分布随机变量的观测值。

因而表中第一行不能看成是一个样本的样本值，同样第二组的数据也不能看成是同一个样本的样本值，而同一对中两个数据是同分布随机变量的观测值，他们的差异是由于两组品酒员的水平引起的。

为鉴定他们的评价结果有无显著性差异，可使用基于成对数据的逐对比较法。

以红葡萄样品为例，有27对相互独立的评价结果：11222727(,),(,),,(,)X Y X Y X Y ，令111222272727,,,D X Y D X Y D X Y =-=-=- ，则1227,,,D D D 相互独立。

由于122,,,D D D 是由同一因素所引起的，可认为它们服从同一分布。

现假设2(,)i D D D N μσ ，1,2,,27i = 。

就是说1227,,,D D D 构成正态总体2(,)D D N μσ的一个样本，其中2,D Dμσ未知。

基于这一样本检验假设：01:0,:0D D H H μμ=≠ （1）分别记1227,,,D D D 的样本均值和样本方差的观测值为d ，2D s 。

对1227,,,D D D 进行单个均值的t 检验，检验问题的拒绝域为（显著水平为α）：2(1)t t n α=≥-. （2）当t 的值不落在拒绝域内，接受0H ，认为两组品酒员的评价结果没有显著差异，否则两组品酒员的评价结果有显著性差异。

对白葡萄酒的处理同红葡萄。

2）模型的求解：现以红葡萄酒为例求解，首先，作出同一酒样品(1)i J (1,2,,27)i = 分别由两组品酒员1T 、2T 得到的评价结果之差，列于表1的第三行。

根据建立的模型需检验假设01:0,:0D D H H μμ=≠.我们取α=0.02，则20.01(26)(26) 2.4786t t α==，通过查表即知拒绝域为2.4786t =≥由观测值得 2.5407d =，227.7883D s =， 2.5044 2.4786t ==≥.现t 的值落在拒绝域内，故接受1H ；同样对白葡萄酒进行成对数据的t 检验，得白葡萄酒观测值之差的均值 2.5214d =-，224.9124D s =， 2.6249 2.4727t ==≥，故认为两组品酒员的评价结果有显著性差异。

5.1.3可信度定量分析1）模型的建立：记第一组10位品酒员对红葡萄酒样品(1)i J (1,2,,2i = 的评分为(1)ij a (1,2,,1j = ，10(1)(1)1110iij j a a ==∑，10(1)(1)2(1)2111()10i ij i j s a a ==-∑ （3）其中，(1)i a 表示第一组品酒员对红葡萄酒样品(1)i J 的评分均值，(1)21i s 表示(1)i J 的评分方差；同样，第二组对红葡萄酒样品(1)i J 的评分均值和方差分别为10(1)(1)1110i ij j c c ==∑，10(1)(1)2(1)2211()10i ij i j s c c ==-∑ （4）从而对每一组品酒员得到一个评分方差向量(1)2(1)2(1)2(1)211112127(,,,)S s s s =(1)2(1)2(1)2(1)222122227(,,,)S s s s =同理可求得白葡萄酒的(2)21S ，(2)22S 。