葡萄酒的评价数学建模论文

承诺书

我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.

我们完全明白，在竞赛开始后参赛队员不能以任何方式（包括电话、电子邮件、网上咨询等）与队外的任何人（包括指导教师）研究、讨论与赛题有关的问题。

我们知道，抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料（包括网上查到的资料），必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺，严格遵守竞赛规则，以保证竞赛的公正、公平性。如有违反竞赛规则的行为，我们将受到严肃处理。

我们授权全国大学生数学建模竞赛组委会，可将我们的论文以任何形式进行公开展示（包括进行网上公示，在书籍、期刊和其他媒体进行正式或非正式发表等）。

我们参赛选择的题号是（从A/B/C/D中选择一项填写）： A

我们的参赛报名号为（如果赛区设置报名号的话）：

所属学校（请填写完整的全名）：

参赛队员(打印并签名) ：1.

指导教师或指导教师组负责人(打印并签名)：

日期： 2012 年 9 月 10 日赛区评阅编号（由赛区组委会评阅前进行编号）：

编号专用页

赛区评阅编号（由赛区组委会评阅前进行编号）：

全国统一编号（由赛区组委会送交全国前编号）：全国评阅编号（由全国组委会评阅前进行编号）：

葡萄酒的评价

摘要

本文以酿酒葡萄和葡萄酒为对象,根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进行了分级,建立了酿酒葡萄与葡萄酒理化指标间的联系,并就酿酒葡萄与葡萄酒理化指标对葡萄酒质量的影响进行了分析讨论。

针对问题一，首先用EXCEL软件分别对红白葡萄酒的两组评价结果进行处理，得到其打分分数的平均值，然后考虑到本题确定的两个独立样本的分布形态不确定，所以选用非参数检验中的Mann-Whitney U检验和Kolmogorov- Smirnov检验方法对评价结果进行显著性分析，发现两组评酒员的评价结果有显著性差异，最后分别对两组评分数据求标准差并进行比较，确定出第二组评酒员的评价结果可信度高。

针对问题二，我们用聚类分析和主成分分析两种方法对葡萄样品进行分类，并比较两种方法的优劣性。首先用SPSS软件中的聚类分析法对葡萄样品进行分类，结果将葡萄分为四类，然后用主成分分析法简化酿酒葡萄的理化指标，并求出简化后理化指标的权重，得出葡萄样品的综合排名，对其进行排序，用建立好的评级指标可以将样品分为

针对问题三，首先根据问题二中主成分分析法的结果对酿酒葡萄的指标进行简化，将问题转化为一个多元函数的求解问题，然后分别对酿酒葡萄中的指标和葡萄酒理化指标进行相关性分析，得出指标间的相关性关系，将问题转化为求解超定方程组的解，最后利用最小二乘法建立了酿酒葡萄与葡萄酒理化指标间的关系式。

针对问题四，首先把评酒员对酒样品的评分作为葡萄酒质量的评价，用相关性分析方法求出酿酒葡萄和葡萄酒的理化指标与葡萄酒质量之间的相关性，然后再把芳香度作为葡萄酒质量的评价，求出理化指标与葡萄酒质量之间的相关性，对比这两种方法的结果可以得出结论：在一定程度上不能用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。

关键词：非参数检验聚类分析法主成分分析法相关性分析

一问题重述

确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分，然后求和得到其总分，从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系，葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件1给出了某一年份一些葡萄酒的评价结果，附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。请尝试建立数学模型讨论下列问题：

1. 分析附件1中两组评酒员的评价结果有无显著性差异，哪一组结果更可信？

2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。

3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。

4．分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响，并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量？

二问题分析

对于问题一，要想得到差异的显著性，首先就要处理数据得到两组评价结果的平均值，但考虑到两个独立样本的分布形态不确定，所以用非参数检验法更加准确。针对这个问题，我们采用最常用的两种方法：Mann-Whitney U检验和Kolmogorov- Smirnov检验来判断是否有显著性差异。对于可信度，考虑到标准差是反应一组数据离散程度最常用的一种量化形式，是表示精确度的重要指标，可以反映组内个体间的离散程度，所以采用标准差值的大小来衡量测量结果的可信度。

对于问题二，我们可以用聚类分析对葡萄样品进行分类，也可以用主成分分析求出主要的影响指标及其权重，进而对样品进行排序并分类。最后通过对比两种方法的优劣性得出较优方法，从而得到葡萄的质量分级。

对于问题三，由于酿酒葡萄的指标很多，所以首先应该对酿酒葡萄的指标进行简化将问题转化为一个多对多的模型，然后分别对酿酒葡萄中的指标和葡萄酒理化指标进行相关性分析，得出指标间的相关性关系，将问题转化为求解超定方程组的解，最后可以利用最小二乘法建立酿酒葡萄与葡萄酒理化指标间的联系。

对于问题四，首先根据问题三的结果可以将酿酒葡萄和葡萄酒的理化指标进行进一步的简化，然后把评酒员对酒样品的评分作为葡萄酒质量的评价，用SPSS软件中的相关性分析方法求出酿酒葡萄和葡萄酒的理化指标与葡萄酒质量之间的相关性，就可以得出他们之间的影响程度，然后再把芳香度作为葡萄酒质量的评价，求出理化指标与葡萄酒质量之间的相关性，对比这两种方法的结果来论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。

三模型假设

1.假设酿酒葡萄和葡萄酒是一一对应的关系；

2.假设葡萄酿酒过程中的卫生指标符合规定，本题不予以考虑；

3.假设评酒员在评分时不受其他主观因素的影响；

4.假设酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系；

5.假设两组评酒员都是随机选取的；

6.为了便于问题解决，假设酿酒葡萄和葡萄酒的理化指标属于线性关系；

7.芳香物质是葡萄酒质量的重要指标,文中将芳香物质摩尔总和用于评价葡萄酒质量。

四符号说明

五模型的建立与求解

5.1 问题一求解

本文首先分析了影响评酒员对葡萄酒进行评价的相关因素，发现他们是从外观、香气和口感等方面来对白葡萄酒和红葡萄酒的各样本进行打分的，为了综合这些因素，能够更好地比较出两组评分结果的差异性与可信度，需要对附件1的数据进行处理，这里我们分别求出第一组和第二组评酒员对白葡萄酒和红葡萄酒打分分数的平均值。处理的数据见表1.1.1,表1.1.2,表1.1.3,表1.1.4：

根据不同组评酒员针对不同品种和样本葡萄酒的打分情况，可以将这两组的打分情况看作两个独立的样本。这样就将问题转化为求两独立样本的参数检验问题。

利用T 检验方法可以得到两个总体是否存在显著性差异，但T 检验方法要求两个独立样本来自的总体服从正态分布，甚至对两个总体的方差也要求相等或者已知。所以我们利用两独立样本的非参数检验过程对两个总体的分布是否存在显著性差异进行检验。由于非参数检验的方法比较多，这里主要运用Mann-Whitney U 检验和Kolmogorov- Smirnov 检验两种方法，并给出不同检验的相关结果。 1. Mann-Whitney U 检验

Mann-Whitney U 检验可用于检验两独立样本是否来自于同一总体，它是最常用的两独立的非参数检验方法，该检验方法的零假设是这种检验方法是利用两独立样本的秩的比较得到的。它的检验步骤为：（1）提出假设

0H :两样本来自于无显著差异的总体

:1H 两样本来自于有显著差异的总体（2）计算相应检验统计量值或P 值（3）作出判断

若α>P ,接受0H ，认为两个样本无显著性差异；否则，拒绝0H ，认为两个样本有

显著性差异（P 值为双侧显著性水平，05.0=α）。

分别将表1.1.1和表1.1.3、表1.1.2和表1.1.4的数据导入SPSS 软件运用Mann-Whitney U 检验得到红葡萄酒和白葡萄酒的秩和检验统计量，如表1.1.5和表1.1.6所示：

表1.1.5：红葡萄酒检验的秩和检验统计量

秩

g N 秩均值秩和 sur

1.00 27 3

2.69 882.50 2.00 27 22.31

602.50

总数

表1.1.6：白葡萄酒检验的秩和检验统计量

从表1.1.5和表1.1.6可以看出，两种葡萄酒的P 值均小于0.05，所以拒绝0H ，认为两个样本即两组评价结果有显著性差异。 2. Kolmogorov- Smirnov(K-S)检验

Kolmogorov- Smirnov 检验用于检验一组样本观测结果的经验分布同某一指定的理论分布之间是否一致。K-S 检验的基本思路为：将顺序分类数据的理论积累频率分布同观测的经验累积频率分布加以比较，求出它们最大的偏离值，然后再给定的显著性水平上检验这种偏离值是否是偶然出现的。设理论葡萄酒累积频数分布为)(x F ，n 次观测的随机样本的经验分布函数)(x F n ，K-S 检验的步骤如下：（1）零假设0H ：经验分布与理论分布没有显著差别。

（2）把样本观测值从小到大排列为：()()()n x x x ,,,21 ，计算经验累积分布函数：

()()()()()1,,2,1101-=??

??+∞

<≤≤≤<<∞-=+n i x x x x x x x n

i x F n i i i n

和理论累积分布函数()x F 。

记检验统计量()n i x F x F D i i n ,,2,1|

)()(|m ax =-=，K-S 检验将计算D 值以及相应

检验统计量b

sur Mann-Whitney U 224.500 Wilcoxon W

602.500 Z

-2.422 渐近显著性(双侧)

.015 Monte Carlo 显著性

（双侧）

显著性

.000a 95% 置信区间下限

.000 上限

.105 Monte Carlo 显著性

（单侧）

显著性 .000a 95% 置信区

间

下限 .000 上限

.105

秩

g N 秩均值秩和 sur

1.00 28 23.79 666.00

2.00 28 3

3.21

930.00

总数

检验统计量a

sur Mann-Whitney U 260.000 Wilcoxon W

666.000 Z

-2.163 渐近显著性(双侧)

.031

a. 分组变量: g

的概率P 值。在给定显著性水平的条件下，如果概率P 值小于显著性水平，则拒绝零假设，认为两样本有显著性差异，反之，则没有显著性差异。

分别将表1.1.1和表1.1.3、表1.1.2和表1.1.4的数据导入SPSS 软件运用Kolmogorov- Smirnov 检验得到红葡萄酒和白葡萄酒的频率（频数）和检验统计量，如表1.2.1和表1.2.2所示：

表1.2.1：红葡萄酒检验的频率和检验统计量

频率

g N sur

1.00 27

2.00 27 总数

表1.2.2：白葡萄酒检验的频率和检验统计量

频率

g N sur

1.00 28

2.00 28 总数

这里给出显著性水平 =0.06，从上面的表格可以看出，概率P 值均小于显著性水平，所以拒绝零假设，认为两组结果有显著性差异。

通过上面两种检验方法，可以得出结论：两组评酒员的评价结果均有显著性差异。 3.可信度的评判

对于可信度，我们用标准差进行评判。因为标准差是反应一组数据离散程度最常用的一种量化形式，是表示精确度的重要指标，可以反映组内个体间的离散程度，即标准差小的表示数据的波动小，离散程度低，稳定性高，可信度高。反之，则离散程度高，稳定性低，可信度小。结合表1.1.1、表1.1.2、表1.1.3和表1.1.4的数据进行计算，得出两组评酒员对葡萄酒的评价结果的标准差，见表1.3.1。

检验统计量b

sur 最极端差别

绝对值 .407 正 .111 负

-.407 Kolmogorov-Smirnov Z 1.497 渐近显著性(双侧)

.023

Monte Carlo 显著性（双侧）显著性 .000a 95% 置信区间下限 .000 上限 .105

a. 基于 27 个具有起始种子 334431365 的采样表。

b. 分组变量: g 检验统计量a

sur 最极端差别

绝对值 .357 正 .357 负

-.071 Kolmogorov-Smirnov Z 1.336 渐近显著性(双侧)

0.056

a. 分组变量: g