统计方法在葡萄理化指标简化中的应用

合集下载

分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量

全模型的复判定系数为 R 2 ，减模型的复判定系数记为 R 2 j 。定义
2 2 R 2 j R Rj
由于在全模型中多一个自变量 x j ，所以，若 R 2 j 几乎为零，说明增加 x j ，对 y 的解释能力没有显著提高；否则，若 R 2 j 显著不为零，则 x j 就可以为回归模型提供显著的解释信息。
（15）
（4）理化指标与芳香物质对葡萄酒质量的影响比重理化指标对葡萄酒质量影响比重计算为
SI1
k
i 1
11
(1) i 13
k
i 1
11
(1) i
k
j 1
（16）
(2) j
芳香物质对葡萄酒质量影响比重计算为
SI 2
k
j 1
13
(2) j 13
k
i 1
11
(1) i
k
（3）两种综合主成分的逐步回归将葡萄和葡萄酒的理化指标及芳香物质的综合主成分看作同等地位的变量对葡萄酒的质量会产生一定的影响，现对其三者之间进行逐步回归分析（用 matlab 的 Stepwise Regression 窗口实现），得到理化指标与芳香物质的回归方程:
(2) (1) (1) y 0.4504 y9 0.1637 y1(1) 0.1806 y2 0.1194 y5
现将前 19 个主成分代替原来的理化指标，然后对葡萄酒的质量进行逐步回归。运用 MATLAB 中的 Stepwise Regression 窗口（matlab 程序见附录）进行交互式逐步回归，如图 1。
图 1 逐步回归交互式界面复判定系数为 R 2 0.8711 ，检验值 F 15.2108 ，得到最终模型为 y 0.1423 y1 0.1782 y2 0.1027 y6 0.1936 y12 0.3670 y13 此回归方程即为酿酒红葡萄和红葡萄酒的理化指标对红葡萄酒质量的影响方程，

基于理化指标分析的葡萄及葡萄酒的评价

基于理化指标分析的葡萄及葡萄酒的评价葡萄及葡萄酒的评价是葡萄酒产业中非常重要的一环，而基于理化指标的分析是评价葡萄和葡萄酒质量的一种方法。

下面我们将对基于理化指标分析的葡萄及葡萄酒的评价进行详细讨论。

首先，对于葡萄而言，理化指标主要包括果实大小、果皮厚度、果实颜色、果汁含糖量、酸度、酚类化合物含量等。

果实大小与产量密切相关，通常越大的葡萄产量越高。

果皮厚度与葡萄外观和保存性能有关，较厚的果皮可以保护果实不受外界因素的影响。

果实颜色通常被视为葡萄的品质指标之一，深色葡萄通常含有更多的花青素，而花青素是葡萄酒中重要的色素成分。

果汁含糖量与葡萄糖度相关，是判断果实成熟度和甜度等级的指标之一、酸度是葡萄品质的重要指标之一，过低的酸度可能导致葡萄酒口感平淡。

酚类化合物含量则与葡萄的芳香物质和抗氧化能力等相关。

通过对这些理化指标的分析，可以全面评价葡萄的品质和适用于酿酒的潜力。

对于葡萄酒而言，理化指标主要包括酒精度、总酸度、挥发性酸度、PH值、葡萄酒中的有机酸、糖分、酚类化合物、色素等。

酒精度是葡萄酒中的酒精含量，对于葡萄酒的风味和醇度影响很大。

总酸度和挥发性酸度分别是葡萄酒中总酸和挥发性酸的含量，对于葡萄酒的酸度和口感起到重要作用。

PH值是葡萄酒的酸碱度，对于葡萄酒的稳定性和口感也有影响。

葡萄酒中的有机酸是葡萄酒中的重要成分，不同有机酸的含量和比例会影响葡萄酒的口感和风味。

糖分是判断葡萄酒甜度的重要指标。

酚类化合物和色素是葡萄酒中的重要成分，对于葡萄酒的色泽和口感产生显著影响。

基于理化指标的分析的定量化方法可以通过仪器设备进行测量，然后用数学和统计学的方法进行分析和处理。

利用这些分析结果，我们可以对葡萄和葡萄酒的品质进行判断和评价。

同时，可以通过与历史数据和目标品质进行对比，从而找出改进和调整的方向。

此外，还可以通过对不同产地、不同品种的葡萄以及不同酿造方法的葡萄酒进行理化指标的分析比较，探索出最佳的生产和酿造工艺。

统计分析在葡萄酒评价中的应用

23
24
25
26
27
第一组平均打
77.1 77.2 85.6
78
69.2 73.8
73
分
第二组平均打
72.2 71.6 77.1 71.5 68.2
72
71.5
分
白葡萄酒样品 1
2
3
4
5
6
7
8
9
10
第一组平均打分
第二组平均打分
82 77.9
74.2 75.8
85.3 75.6
79.4 76.9
71 81.5
2012 高教社杯全国大学生数学建模竞赛
承诺书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则. 我们完全明白，在竞赛开始后参赛队员不能以任何方式（包括电话、电子邮件、网上咨询等）与队外的任何人（包括指导教师）研究、讨论与赛题有关的问题。我们知道，抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料（包括网上查到的资料），必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺，严格遵守竞赛规则，以保证竞赛的公正、公平性。如有违反竞赛规则的行为，我们将受到严肃处理。我们授权全国大学生数学建模竞赛组委会，可将我们的论文以任何形式进行公开展示（包括进行网上公示，在书籍、期刊和其他媒体进行正式或非正式发表等）。
针对问题四，要分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响，本文采用了三种模型，分别为：多元线性回归、多元逐步回归、相关性分析。首先，直接运用多元线性回归模型建立它们之间的函数关系式，然后再建立多元逐步回归模型，剔除一些不显著的、贡献不高的、影响不大的变量，抓住一些关键变量，最后通过相关性分析得到自变量和因变量之间的皮尔逊相关系数，用相关性系数大的的变量去刻画葡萄酒的质量，取得了较好的效果。对于题目中能否用酿酒葡萄和葡萄酒的理化指标来评价葡萄酒的质量这一问题，我们在对前面的模型进行相关检验后发现检验效果较好，即通过前面的模型说明可以用葡萄和葡萄酒的理化指标来评价葡萄酒的质量，但是考虑到芳香物质对葡萄酒质量有着一定影响，为此，我们将芳香物质纳入葡萄酒的影响因素之中，重新建立更加全面的葡萄酒质量评价体系。首先，利用题目所给附表 3 中葡萄和葡萄酒的芳香物质求其与葡萄酒质量之间的皮尔逊相关系数，对芳香物质数据进行筛选，再将筛选后的数据纳入影响葡萄酒质量的因素系列中，通过对所有这些因素做多元回归分析和多元逐步回归分析，发现考虑芳香物质后拟合优度更好。

多元统计分析在葡萄酒品质评鉴中的应用

多元统计分析在葡萄酒品质评鉴中的应用多元统计分析是一种对大量多变量数据进行统计分析的技术，由数据的统计学推断和形式模型的建立两部分组成，它的基本思想是描述、表达和分析数据之间的关系，以达到深入理解数据背后含义的目的[1]。

在葡萄酒品质评鉴中，多元统计分析可以捕捉到葡萄酒的多种品位特征及其复杂关系，从而更准确地预测品质。

评鉴葡萄酒的品质是一件复杂的事情，有时需要多个葡萄酒参数来评判一种葡萄酒的质量，而这些参数之间可能存在复杂的关系。

这一点可以通过建立多元统计模型来解决。

在多元统计模型中，可以对葡萄酒的台糖含量、酸度、游离氮、乙醇含量、挥发性酸含量、醇度、香气等作为多个变量，进行多变量分析，以便更深入地了解葡萄酒品质之间的复杂关系[2]。

在多元统计分析中，可以运用不同的统计技术来探索此类复杂关系。

有用的技术包括多元回归分析、主成分分析和聚类分析，其中所述的分析技术都可以用于预测葡萄酒品质的优劣。

例如，利用多元统计分析，可以通过观察葡萄酒的理化指标作为依据，结合不同的口感和气味特征，探讨并预测葡萄酒品质的潜在变化趋势[3]。

同时，多元统计分析还可以将葡萄酒品质与微生物组合研究相结合，以进一步了解葡萄酒差异程度，展示出复杂的范围和细节。

经过多元统计技术的分析，可以通过测量几个参数来预测葡萄酒品质，比如以台糖含量、酸度、游离氮、乙醇含量等参数的组合，来评价葡萄酒的质量是否优良，以及该葡萄酒是否有特殊口感和各种其他优势[4]。

因此，多元统计分析可以帮助酿酒者更加准确地评价葡萄酒的品质，以便更快更准确地获取最优质的葡萄酒产品。

综上所述，多元统计分析是一种帮助酿酒者更准确评价葡萄酒品质的有效技术，它通过识别葡萄酒的各项参数之间的复杂关系，可以更有效地预测和预测葡萄酒的品质。

同时，多元统计分析技术也可以结合微生物组合研究，以便更深入了解葡萄酒差异程度，使之更具特色。

因此，多元统计分析在葡萄酒品质评鉴中具有重要的作用，值得酿酒者好好利用。

统计分析方法在葡萄酒评价中的应用

酒样６６
品２
酒样７９品１１
酒样７４
品ｌ５
４８４８
８７８４
７ｌ６７
８Ｉ７９
６１６４
７９７８
６７６８
７４８１
８２７３
７２４０１０８８７２００１０１４
＿表示第ｊ项理化指标的均值；
６表示第ｊ项理化指标的标准差。四、模型的建立与求解为了体现评委对红、白葡萄酒评价得分的区别，分别对两种酒建立显著性差异检验模型。（一）评价得分的描述性分析由问题的分析，以白葡萄酒为例通过对评价得分的数据处理，得到两组评酒员的检验数据表，如表１所示：
酒样７５
品４
７７
６６６８
８０
８０８２
６５
６９７１
７７
８Ｏ８３
８３
８２８ｌ
８８
７８８，１
７８
７１６２
８５
８７８７
８６
７５８０
酒样７８
品１４
分析评价结果是否可信，主要依赖于两个指标：一是评价得分偏离标准值的大小；二是评价结果的离散性。由于聘请的品酒师是有一定资质的，因此可以把专家的平均水平作为品评的标准值。但考虑到品酒师对某个酒样品感官分析可能出现的失误性（引注），剔除２０个品酒师对每类酒样品评分的异样点。对于剩余的得分求均值作为标准评价值的无偏估计。再用评价得分与标准值的偏差代表每组评酒员评价结果与标准值的接近程度；用方差来反映每组评价结果的离散程度。在与标准值的偏差不明显的情况下，比较评价方差的大小，作为综合判断每组评价结果的可信度的依据。

基于理化指标统计分析的葡萄酒质量评价的论文

基于理化指标统计分析的葡萄酒质量评价的论文基于理化指标统计分析的葡萄酒质量评价的论文1.问题重述确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评，从而确定葡萄酒的质量。

酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系，葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。

通过给定的得分及理化指标数据解决下列问题：(1)分析两组评酒员的评价结果有无显著性差异，哪一组结果更可信？(2)根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。

(3)分析酿酒葡萄与葡萄酒的理化指标之间的联系。

(4)分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响，并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量？2.问题分析与预备知识2.1问题一利用SPSS等统计软件对评价结果进行数据分析，并采用计算均值、T-检验的方法进行计算分析，用以评判两组评酒员评价结果的差异性，从而判断评价结果可信性。

T-检验是用t分布理论来推论差异发生的概率，从而比较两个平均数的差异是否显著。

当总体分布是正态分布，如总体标准差a未知且样本容量n<30，那么样本平均数与总体平均数的离差统计量呈t分布。

检验统计量为：其中，t为样本平均数与总体平均数的离差统计量，无为样本平均数，/x 为总体平均数，ax为样本标准差，n为样本容量。

2.2问题二在第一问的基础上，选取第二组评酒师对红白葡萄酒的评价结果平均值作为标准，先通过主成分分析法将问题简化，从而便于排序与分类，再使用聚类分析对主成分的特征向量进行分析。

最后参考酒类等级建立标准W，并使用数据分析结果支持结论。

2.3问题三根据第二问分级结果，使用SPSS软件对葡萄酒和葡萄的主要理化指标进行相关性及多元回归分析[51，从而确定酿酒葡萄与葡萄酒理化指标之间的联系。

2.4问题四根据葡萄酒评价结果与葡萄酒及酿酒葡萄主要理化指标间的关系，筛选出对葡萄酒的分有重要影响的指标，然后做多元线性回归分析，并通过数据带入对比检验后，用得出评价葡萄酒质量的公式。

应用多元统计分析葡萄、葡萄酒理化指标与葡萄酒质量的相关性

１．３红葡萄酒的测定指标
数学建模竞赛题目。本竞赛给出了两组品尝员（每
组１ｏＸ）对２７个红葡萄酒５９２８个白葡萄酒进行的品
除花色苷外，其余与白葡萄酒相同。１．４红、白葡萄酒中的芳香物质测定指标７４种１．５红、白葡萄酒评价标准
酶活力、褐变度、ＤＰＰＨ自由基１／ＩＣ５０、总酚、单宁、葡萄总黄酮、白藜芦醇、反式白藜芦醇苷、顺
原料及葡萄酒的理化指标，也能在很大程度上看出
葡萄酒质量高低。
式白藜芦醇苷、反式白藜芦醇、顺式白藜芦醇、黄
关键词：葡萄酒质量评价；主成分分析；偏最小二乘回归；逐步回归
作为酿酒原料，葡萄与葡萄酒之间关系密切，
标表（含２个表格），葡萄和葡萄酒的芳香物质表
（含４个表格）。
其理化指标会在一定程度上反映葡萄酒的质量。确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行感官品评，每个评酒员对葡萄酒的感官指标进行打分，然后求和得到其总分或平均分。本文通
本文通过引入偏小二乘回归法对其理化指标和品尝结果之间的关系进行分析，试图找出酿酒葡萄与葡萄酒理化指标之间的联系，以及酿酒葡萄、葡萄酒理化指标对葡萄酒质量的影响，以探讨用葡萄

根据葡萄酒理化指标对葡萄酒质量的统计分析

根据葡萄酒理化指标对葡萄酒质量的统计分析作者：黄潇逸来源：《商情》2013年第28期【摘要】本文将根据葡萄酒成分的理化指标，主要通过统计中的逻辑回归与数据挖掘中的决策树实现对葡萄酒质量的分类评估，关注影响葡萄酒质量分类的关键指标。

【关键字】葡萄酒，理化指标，质量分类，逻辑回归分析，决策树一、问题提出葡萄酒是一种成分复杂的酒精饮料，葡萄酒行业评价葡萄酒质量时，惯用的是感官评价，但这种方法受评定人员的嗜好、习惯、情绪、年龄、经验等因素的影响较大，评定常有一定程度的主观性和不确定性，尤其在葡萄酒质量差别不大时，更易引起打分不一致和数据分析产生偏差，使品评结果不够科学。

对葡萄酒质量通过量化的方法进行评价，为酿酒行业对葡萄酒进行质量分类提供理论参考成为必然。

葡萄酒的成分与葡萄酒的质量关系密切，是判定葡萄酒质量的重要依据。

本文将根据葡萄酒成分的理化指标，主要通过统计中的逻辑回归方法与数据挖掘中的决策树实现对葡萄酒质量的分类评估，得到影响葡萄酒质量分类的重要指标。

二、主要研究方法针对葡萄酒质量及其理化指标的关系的理论研究方法，现在主要有多元线性回归、神经网络、支持向量机等方法。

本文主要采用数据挖掘中的逻辑回归分析与决策树及其优化对葡萄酒质量分类问题进行对比研究。

逻辑回归模型主要研究某些因素与二分类变量之间的联系，通过逻辑变换，建立因变量与自变量的线性模型，其中，因变量的系数表示为该因素改变一个单位，个体发生事件概率与不发生事件概率之比的自然对数变化值。

系数得到则主要通过最大似然估计。

决策树通过选择分类效果最好的属性，把实例从根节点排列到某个叶子节点来分类实例，叶子结点即为实例的分类。

本文主要通过Rattle中包含的决策树的CART算法对葡萄酒质量进行分类研究。

此外，本文还引入了Adaboost算法对决策树分类进行优化，以得到对葡萄酒质量最佳的分类结果。

三、指标选取及数据探索本文主要选择葡萄酒的理化指标作为分类依据进行研究。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

承诺书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白，在竞赛开始后参赛队员不能以任何方式（包括电话、电子邮件、网上咨询等）与队外的任何人（包括指导教师）研究、讨论与赛题有关的问题。

我们知道，抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料（包括网上查到的资料），必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺，严格遵守竞赛规则，以保证竞赛的公正、公平性。

如有违反竞赛规则的行为，我们将受到严肃处理。

我们授权全国大学生数学建模竞赛组委会，可将我们的论文以任何形式进行公开展示（包括进行网上公示，在书籍、期刊和其他媒体进行正式或非正式发表等）。

我们参赛选择的题号是（从A/B/C/D中选择一项填写）：_________A____________我们的参赛报名号为（如果赛区设置报名号的话）：____________13_____________所属学校（请填写完整的全名）：__________________________________________参赛队员 (打印并签名) ：1. _____________________________________________2. _____________________________________________3. _____________________________________________指导教师或指导教师组负责人 (打印并签名)：_____________________________日期： 2012 年 _9_月 10 日赛区评阅编号（由赛区组委会评阅前进行编号）：编号专用页赛区评阅编号（由赛区组委会评阅前进行编号）：全国统一编号（由赛区组委会送交全国前编号）：全国评阅编号（由全国组委会评阅前进行编号）：统计方法在葡萄酒评价中的应用摘要本文针对葡萄酒质量评价问题，首先对葡萄理化指标和葡萄酒理化进行分析，然后对基本数据进行统计分析及无量纲化处理，再对各指标进行相关性分析，最后针对各个问题建立模型并求解。

问题一，利用方差分析对两组评酒员的红酒的打分数据进行显著性检验，得到两组是显著差异的，利用方差知识，认为第二组评酒员打分更可信；问题二，利用主成分对一级指标进行聚类，将红（白）酿酒葡萄都分成三类，根据葡萄酒的打分，对葡萄进行分级；问题三，利用典型相关分析，将葡萄指标和红（白）葡萄酒理化指标进行分析，均得到两对典型变量；最后，用逐步回归分析对葡萄指标、葡萄酒指标与葡萄酒打分，得到回归模型，将回归模型进行拟合，利用残差数据论证葡萄和葡萄酒的理化指标来评价葡萄酒的质。

关键词：方差分析相关分析主成分典型相关分析逐步回归一．问题重述如题所说，葡萄酒质量一般是通过聘请一批有资质的评酒员进行品评确定的。

通过每个评酒员在对葡萄酒进行品尝后，对其分类指标打分的总和，从而确定葡萄酒的质量。

葡萄酒的质量与所用酿酒葡萄的好坏有直接的关系，同时，该葡萄酒和所用酿酒葡萄的质量，在一定程度上是由在这二者中所检测到的理化指标所表现的。

题目中给出了某一年份一些葡萄酒的评价结果，这是由两组评酒员做出的评价。

并给出了与之质量相关的各种数据，数据信息很充分。

在此基础上，要求建立必要的数学模型，进而研究如下几个问题：第一，分析两组评价结果，考查是否存在显著性差异，得出一组更可信的结果；第二，根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级，其实就是确定酿酒葡萄的好坏；第三，分析酿酒葡萄与葡萄酒的理化指标之间的联系；第四，分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响，即分析酿酒葡萄和葡萄酒的理化指标是如何影响葡萄酒的质量的，然后在研究结果中论证是否确实能用酿酒葡萄和葡萄酒的理化指标来评价葡萄酒的质量。

二、问题分析1)分析两组评酒员对葡萄酒的评价有无显著性差异，是为了便于从整体分析两组评判员打分是否具有差异性。

本文将每组10个评酒员看成一个整体，将每个人对葡萄酒样品的评分进行平均，反映出某一组评酒员对某葡萄酒样品的的评价情况。

可列出一个关于红酒的2行27列的矩阵和一个关于白酒的2行28列的矩阵。

用SAS的分别对这两个矩阵进行方差分析，并进行F检验和t检验。

2)对酿酒葡萄进行分级，首先建立酿酒葡萄理化指标和葡萄酒外观、香气、口感之间的关系。

由于葡萄的指标很多，并且还包含二级指标，首先将二级指标剔除，保留一级指标，然后对一级指标进行主成分分析，提取主要成分，以综合指标表示，然后对得到的主要的主成分进行聚类，结合每种葡萄对应的葡萄酒的打分，对葡萄进行分级。

3)考虑到酿酒葡萄与葡萄酒的理化指标数量大，是多维对多维变量的分析，本文采用典型相关分析，找出各自的线形组合的典型变量。

从而找出典型相关变量与哪几种因素有较大关联，最后做出酿酒葡萄和葡萄酒理化指标之间的联系。

4)为了分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响，本文考虑以葡萄酒的打分为因变量，以葡萄和葡萄酒的理化指标为自变量，用逐步回归的方法，来选取变量，最后得到回归方程，利用回归方程拟合葡萄酒打分，最后做残差论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。

三、基本假设1. 评酒员的打分结果相互独立，是独立实验。

2. 假设评酒员均无主观情感色彩，严格遵守葡萄酒评判标准。

3. 葡萄酒的质量不受环境变化等因素的影响。

4. 各项理化指标标准，数据统计无误。

5. 评酒员的评分基本呈正态分布。

6. 葡萄的数据测测定基本没有误差四、符号说明i：第i个评酒员j：第j种红葡萄酒样品k：第k组评酒员R：第一组第j个红葡萄酒样品的评分均值1jR：第二组第j个红葡萄酒样品的评分均值2jw：第一组第j个白葡萄酒样品的评分均值1jw：第二组第j个白葡萄酒样品的评分均值.2j五、模型建立与求解5.1 两组评酒员评价的结果有无显著性差异分析5.1.1 建立模型对于i =1...10，j =1...28.k=1,2令ijk x 为第j 种红葡萄酒样品，第k 组第i 个评酒员的总评分。

ijk y 为第j 种白葡萄酒样品，第k 组第i 个评酒员的总评分。

将两组评酒员对某一样品红葡萄酒和白葡萄酒的评分进行平均，可得：10111110i j ij i R x ===∑10221110i j ij i w y ===∑10111110i j ij i w y ===∑ 10221110i j ij i R x ===∑其中1j R 表示第一组第j 个红葡萄酒样品的评分均值.2j R 表示第二组第j 个红葡萄酒样品的评分均值. 1j w 表示第一组第j 个白葡萄酒样品的评分均值. 2j w 表示第二组第j 个白葡萄酒样品的评分均值.得到两组评酒员对红白葡萄酒打分，见表1：由于红葡萄酒的评价分析与白葡萄酒的评价分析基本一致，因此我们只描述红葡萄酒的模型。

为了分析两组评酒员打分是否有差异，采用T 检验，取统计量)11(2)1()1(212122221121n n n n S n S n R R T +-+-+-=-故拒绝域为：122(2)T t n n α=≥+-当T 122(2)t n n α≥+-时可判断两样本之间有显著性差异，反之可判断无显著性差异。

5.1.2 模型求解利用SAS 工具对以上两个矩阵表一数据进行方差分析得到以下表格：表3 红葡萄酒的显著性差异分析表3说明对于红葡萄酒，两组评酒的打分差异明显，因为最后t 检验统计量以8.13%的概率拒绝原等方差假设，说明两种体是异方差的，所以采用非参数检验，在附录中利用SAS 软件做非参数检验数据，更充分的说明了两种体是异方差的。

表4 白葡萄酒的T 检验分析由表4,5知道，对于白葡萄酒打分，两组变量方差相等的F 检验值为2.09，概率值r ()P F 为0.0603，大于0.05，所以两组方差相等的假设是合理的。

由此，我们采用适应于两组方差相等时的t 值，即采用标记为Equal 一行的t 值和概率值。

由输出知r P >∣t ∣=0.0513,大于0.05，因此两组白葡萄酒评价结果均值不存在显著性差异，在实际问题中，该值较小，认为还是有差异的。

由于红白葡萄酒均值是显著性差异的，为判断哪一组评价结果更可信，对两组两钟葡萄酒的评分方差进行比较，见表6：由表6可以看出：第一组红（白）酒的方差绝大部分要比第二组的方差大，方差表示均值的离散程度，由此说明第二组红（白）葡萄酒的评价比第一组更可信。

5.2 根据酿酒葡萄的理化指标对酿酒葡萄进行分级 5.2.1 建立模型由于二级指标构成一级指标，因此一级指标可以总整体上反映二级指标，故将酿酒葡萄理化指标中的二级指标剔除，提取出一级指标，对一级指标进行主成分分析。

同样，白葡萄的建模过程与红葡萄类似，我们就以白葡萄模型进行说明。

令ij z 为第i 组酿酒葡萄中的第j 个一级指标量，于是可作酿酒葡萄理化指标的矩阵，⎪⎪⎪⎪⎪⎭⎫⎝⎛mn m m n n z z z z z z z z z 212222111211对原始数据进行标准化处理∑∑==---=ni j ij ni ijij ij z z n z n z z 121')(111 )...2,1......3,2,1(m j n i ==得到标准化矩阵⎪⎪⎪⎪⎪⎭⎫⎝⎛=mn m m n n z z z z z z z z z Z '2'1'2'22'21'1'12'11'计算样本相关系数矩阵。

⎪⎪⎪⎪⎪⎭⎫⎝⎛=nn n n n n r r r r r r r r r R 212222111211经标准化处理后的数据的相关系数为:∑=-=nt tj ti ij z z n r 111 )....3,2,1,(n j i = 求相关系数矩阵R 的特征值)21,(n λλλ 和相应的特征矩阵A ⎪⎪⎪⎪⎪⎭⎫⎝⎛=nn n n n n a a a a a a a a a212222111211. 由主成分分析可以得到n 个主成分，我们根据各个主成分累计贡献率的大小选取前k 个主成分，其中贡献率为∑=pi ii1λλ贡献率越大，说明该主成分所包含的原始变量的信息越强。

主成分个数k 的选取，主要根据主成分的累积贡献率来决定，我们取累计贡献率为80%为基准，即累计贡献率达到80%以上，我们就认为所选取的前K 个主成分能够基本包含原始信息。

根据标准化的原始数据，按照各个样品，分别代入主成分表达式，就可以得到各主成分下的各个样品的新数据，即为主成分得分。

具体形式可如下。

111212122212k k n n nk C C C C C C C C C ⎛⎫⎪ ⎪⎪⎪⎝⎭标准化矩阵Z 与特征矩阵A 的前k 列相乘得到以降维以后的可以反映总体指标的矩阵M 即'''1112111121'''2122221222'''1212k n k n n n nk m m mn a a a z z z a a a z z z M a a a z z z ⎛⎫⎛⎫ ⎪ ⎪ ⎪ ⎪= ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭对此M 矩阵进行聚类分析，将酿酒葡萄样品分为N 类，我对这N 类葡萄按照其相对应葡萄酒评分进行等级划分，其对应的葡萄酒评分均值大小与该类酿酒葡萄的等级高低呈正比。