2012国赛A题优秀论文
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
葡萄酒的评价模型
摘要
本文主要解决葡萄酒的评价问题,运用多种数理统计方法通过MATLAB和SPSS软件对可能影响葡萄酒质量的因素进行统计分析,初步得出对葡萄酒的理化指标评价和主观评价具有差异性。
对于问题一中的显著性差异分析,针对两组评酒员对于每一种酒的评分,本文用
α=),结果显示两组评酒员对红葡萄酒和白葡萄酒的评分MATLAB进行t检验(0.05
都具有显著性差异。对于可信度的问题,我们用EXCEL进行方差与置信区间的综合分析,得出对红、白葡萄酒的评价结果第二组可信度均较高。
问题二,首先用相关性分析计算出各个理化指标之间以及各理化指标与葡萄酒质量间的Pearson相关系数r,然后选取和葡萄酒质量相关程度较大(0.2
r>)的理化指标进行聚类分析,依照指标的不同情况可将其分别分为3、4、5类,得出在每种分类情况下的分类方案。最后,我们计算每种分类方案下各类酿酒葡萄质量得分的平均值,分值越高则级别越高,确定了最终的分级方案。
问题三,我们先对酿酒葡萄的理化指标进行主成分分析,利用降维技术找出能代表酿酒葡萄的主要理化指标,然后再将得出的主要理化指标与葡萄酒的理化指标进行相关性分析,根据相关系数确定二者理化指标间的关系。结果表明,葡萄酒的理化指标除了由相对应的酿酒葡萄的理化指标决定外,还可由其它相关性大的理化指标决定。
最后,对问题四建立多元线性回归分析模型,对第一问中计算出了红、白葡萄酒和葡萄的样本相关系数进行比较,发现用葡萄的理化指标衡量葡萄酒的质量是不全面的,芳香物质可能会影响酒的香气从而影响酒的整体质量。因此在第二小问中,先根据葡萄酒中芳香物质的化学成分将其分类(醛、烃、醇、酯、酸、酮以及其他含氧有机物),再利用多元线性回归模型计算出其样本相关系数,说明芳香物质通过酒的香气来影响酒的品质,从而说明了理化指标分析和主观评分在葡萄酒质量分析中的差异性。
关键词:t检验相关性分析聚类分析主成分分析多元线性回归
一、问题重述
葡萄酒是世界公认的对人体有益的健康酒精饮品,其生产方式方便, 经济, 且风味极佳. 因而越来越受到广大市民的青睐,同时葡萄酒的质量以及等级划分也越来越受到人们的关注。
葡萄酒化学成分复杂,葡萄酒的质量是各种化学成分的综合反映。确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。
葡萄酒的质量与酿酒葡萄的好坏直接相关。葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量,它们是对酿酒葡萄与葡萄酒进行分级的重要依据。
现已知某一年份一些葡萄酒的评价结果,以及该年份这些葡萄酒的和酿酒葡萄的成分数据。本文将建立数学模型讨论以下问题:
问题一:根据附件所给两组评酒员对葡萄酒各项指标的不同评分数据,分析两组评价结
果有无显著性差异,如果差异显著,确定哪一组结果可信度更高。
问题二:根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。 问题三:酿酒葡萄的理化指标与葡萄酒的理化指标密切相关,分析二者间的联系。 问题四:分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和
葡萄酒的理化指标来评价葡萄酒的质量。
二、模型的基本假设
1、 两组评酒员对葡萄酒的评分服从正态分布,且针对每个葡萄酒样品,两组评酒员评分正态总体的方差相等。
2、 附录所给酿酒葡萄与葡萄酒理化指标的数据均准确,没有错误。
3、 附录中的理化指标为酿酒葡萄与葡萄酒的所有理化指标。
4、 葡萄和葡萄酒的理化指标1x ,2x ......n x 与葡萄酒的质量Y 为线性相关。
5、 红酒的质量仅由评酒师的主观评分决定,与其他因素无关。
三、符号说明
α 显著性水平; 1-α
置信度;
2212,S S
两组葡萄酒所得总分的样本方差;
j r 酿酒葡萄的第j 种理化指标与葡萄酒质量间的相关系数; ij d
第i 种与第j 种酿酒葡萄的样本距离; m
原指标的个数;
k x 原指标的观测值(k =1,2,3…,m );
*k x
k x 标准化后的数(k =1,2,3…,m ); k s
k x 的标准差(k =1,2,3…,m )。
四、模型建立及求解
4.1 问题一
4.1.1 问题分析
对于两组评价结果的显著性差异问题,因为每个评酒员对葡萄酒的质量的评价是由其对该葡萄酒各项指标所评总分决定的,为将问题简化,我们首先计算出各评酒员给出的每一个葡萄酒样品各项指标的总分并进行比较,并由此判定两组评价结果的差异性及可信程度。
易知两组评酒员对葡萄酒样品的评分都服从正态分布且是相互独立的,由于均是对相同的葡萄酒进行评价,我们认为两正态总体的方差相等,问题转化为对两个独立正态总体下样本均值的比较,本文采用t 检验法检验具有相同方差的两正态分布均值差的假设。
要确定哪一组的评价结果更可信,我们将复杂问题简单化,考虑通过比较两组分数样本的方差,方差大小反应数据的集中程度,方差越小,样本数据分布越集中越稳定,各数据更接近均值,代表结果的可信度更高。同时,可分别算出两组平均分的置信区间,比较各组落在区间内分数的个数,从而对分析结果进行检验。 4.1.2 模型建立 (一)显著性差异分析[1]
22122212121012121022212(,)(,),,,,...(,),,...(,),,,,t N N X X X N Y Y Y N X Y S S μσμσμμσμσμσ检验法:
设两组评酒员对葡萄酒样品的评分分别服从正态分布和,根据假设1,两总体方差相等,均未知。是来自正态总体的样本,是来自正态总体的样本,且两样本独立。分别记它们的样本均值为方差为现在要检验问题:
012112: , : H H μμμμ=≠
0H 为零假设,1H 为备择假设,显著性水平为α。
检验统计量为:
X Y T =