主成分分析的计算步骤
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
葡萄酒的评价
摘要
本文通过聘请一批有资历的评酒员对葡萄酒的质量进行评价,从而得出不同组别、不同样品葡萄酒的质量。然后分析酿酒葡萄与葡萄酒质量的理化指标对葡萄质量的影响,以及它们之间的联系。
对于问题1,我们采用了单因素方差分析和t检验对评判两组评酒员的评价结果进行了显著性检验。
对于问题2,我们首先对酿酒葡萄的理化指标进行主成分分析,得出各个样品的综合得分;然后,根据附表1中品酒员对各个样品的综合评分对葡萄酒进行模糊综合评判处理,得出各葡萄酒样品质量的模糊评判分数;再据有关资料提供的酿酒葡萄与葡萄酒的权重系数进行综合处理,得出酿酒葡萄的分级情况为:
对于问题3,我们先采用灰色关联度分析得出了酿酒葡萄理化指标X1与葡萄酒的理化指标(X2)的关联度,比较了各理化指标的关联程度大小;然后再采用一元多项式回归得出X1与X2的具体函数关系为:
对于问题4,我们先用残差分析剔除了一些异常数据后,再对有关数据进行处理,逐个分析了酿酒葡萄对葡萄洒质量、葡萄酒对葡萄洒质量的单因素影响,再采用多元线性回归得出了酿酒葡萄、葡萄酒的理化指标对葡萄酒质量的综合影响。我们得出:
单因素影响:
综合因素影响:
关键词:t检验、主成分分析、Matlab编程、灰色关联度分析、
一、问题重述
1.1、问题背景:葡萄酒是一种健康饮料,口味独特,酒精含量又低,深受大家的欢迎。
然而确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。因此,确定酿酒葡萄和葡萄酒的质量之间的关系是非常必要的。
1.2需要解决的问题:
1. 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?
2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?
二、问题分析
题目要求根据葡萄酒和酿酒葡萄检测的理化指标来反映葡萄酒和葡萄的质量。2.1问题一的分析:
问题一要求我们根据附件1中两组评酒员的评价结果,判断哪一个更为可信。首先,本文采用了Excel统计原理求出每一个组每一个样品的总平均分,然后用单因素方差分析不同组别的同类葡萄,得出F比,然后进行比较得出两组评酒员的评价结果有无显著性差别。然后,用t检验进一步证明。根据上面所得出的数据
求出均值差的置信水平为0.95的置信区间。然后,根据置信水平,评判哪一组结果更可信。
2.2问题二的分析:
对问题二,对问题2要求我们根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进行分级。本文采用了主成分分析法,根据附件2葡萄和葡萄酒的理化指标表,选取一级指标,有多次测量数据则取其平均值。运用Matlab编程,计算得到主成分的个数,以及主成分的得分,再对它们求和得出每一个样品的综合得分。接着,运用Excel统计原理求出每种葡萄酒样品的质量的总平均分,根据统计原理得出它们权重关系。然后求出每个样品在两种因素下的总得分,再根据得分情况对酿酒葡萄分级。
2.3问题三的分析:
对问题三,采用主成分分析法求出葡萄酒的理化指标的主成分得分。然后,求出每个样品的总得分。采用灰色关联度分析酿酒葡萄与葡萄酒的理化指标的关联度。最后,采用一元多项式回归求出两者的具体函数关系,并得出置信区间。2.4问题四的分析:
对问题四,采用一元线性分析分别得出酿酒葡萄和葡萄酒的理化指标与葡萄酒质量的函数关系。然后,采用多元线性分析得出酿酒葡萄和葡萄酒的理化指标与葡萄酒质量的函数关系,期间采用了残差分析,剔除不可置信点。
三、模型假设
1.假设二级指标对一级指标的影响不大;
2.
四、符号说明
1. p:指标变量的个数;
2.r ij:(i,j=1,2,…,p):为原变量的xi与xj之间的相关系数;
3.R:实对称矩阵;
4.i z :主成分),,2,1(p i =;
5.
i λ:特征值;
6.i e :特征向量;
7.ij l :主成分载荷;
8.U :因素集; 9.V :评语集;
10.A :权重集; 11.I :单位矩阵;
五、模型的建立与求解
(一)对于问题一:分析附件1中两组评酒员的评价结果的显著性差异,判断哪组更可信。
首先用采用excell 统计学原理求出每一组每个样品的总得分。然后采
用单因素试验的方差分析分析两组评酒员的评价结果有无显著差异。再采用t 检验进一步验证。根据得出的数据求均值差的置信水平为0.95的置信区间。 第一种方法:采用方差分析
一般地为了考虑因素A 是否对试验指标有影响,我们在因素
的不同水平A 1、
A 2,…,A r 下进行试验,如果在每一水平A i 下,进行了n i 次观察,从而得到n i 个数据
,把因素每一水平下的试验指标看成一个随
机变量,则这n i 个数据就是的一个容量为n i 的样本
的值。现在我们要研究的是这r 个总
体是否具有相同的分布,或r 个样本
(
)是否来自同一个总体。
检验假设(α=0.05);
0H :10987654321μμμμμμμμμμ=========,
1H :10987654321μμμμμμμμμμ不全相等,
通过计算因素平法和A S 、误差平法和E S 、总和T S 、自由度。再通过matlab 可以得到均方、F 比的值,从而可以确定有无显著的差异,其得出的表格及图像
方差来源 平法和 自由度 均方 F 比 因素
误差 A S
E S
S-1
n-s A S =
1
-s S A
F =
E
A
S S 总和
T S
n-1
E S =
s
n S E
-