您好,欢迎访问三七文档
当前位置:首页 > 高等教育 > 理学 > 2012国赛A题优秀论文
1葡萄酒的评价模型摘要本文主要解决葡萄酒的评价问题,运用多种数理统计方法通过MATLAB和SPSS软件对可能影响葡萄酒质量的因素进行统计分析,初步得出对葡萄酒的理化指标评价和主观评价具有差异性。对于问题一中的显著性差异分析,针对两组评酒员对于每一种酒的评分,本文用MATLAB进行t检验(0.05),结果显示两组评酒员对红葡萄酒和白葡萄酒的评分都具有显著性差异。对于可信度的问题,我们用EXCEL进行方差与置信区间的综合分析,得出对红、白葡萄酒的评价结果第二组可信度均较高。问题二,首先用相关性分析计算出各个理化指标之间以及各理化指标与葡萄酒质量间的Pearson相关系数r,然后选取和葡萄酒质量相关程度较大(0.2r)的理化指标进行聚类分析,依照指标的不同情况可将其分别分为3、4、5类,得出在每种分类情况下的分类方案。最后,我们计算每种分类方案下各类酿酒葡萄质量得分的平均值,分值越高则级别越高,确定了最终的分级方案。问题三,我们先对酿酒葡萄的理化指标进行主成分分析,利用降维技术找出能代表酿酒葡萄的主要理化指标,然后再将得出的主要理化指标与葡萄酒的理化指标进行相关性分析,根据相关系数确定二者理化指标间的关系。结果表明,葡萄酒的理化指标除了由相对应的酿酒葡萄的理化指标决定外,还可由其它相关性大的理化指标决定。最后,对问题四建立多元线性回归分析模型,对第一问中计算出了红、白葡萄酒和葡萄的样本相关系数进行比较,发现用葡萄的理化指标衡量葡萄酒的质量是不全面的,芳香物质可能会影响酒的香气从而影响酒的整体质量。因此在第二小问中,先根据葡萄酒中芳香物质的化学成分将其分类(醛、烃、醇、酯、酸、酮以及其他含氧有机物),再利用多元线性回归模型计算出其样本相关系数,说明芳香物质通过酒的香气来影响酒的品质,从而说明了理化指标分析和主观评分在葡萄酒质量分析中的差异性。关键词:t检验相关性分析聚类分析主成分分析多元线性回归2一、问题重述葡萄酒是世界公认的对人体有益的健康酒精饮品,其生产方式方便,经济,且风味极佳.因而越来越受到广大市民的青睐,同时葡萄酒的质量以及等级划分也越来越受到人们的关注。葡萄酒化学成分复杂,葡萄酒的质量是各种化学成分的综合反映。确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。葡萄酒的质量与酿酒葡萄的好坏直接相关。葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量,它们是对酿酒葡萄与葡萄酒进行分级的重要依据。现已知某一年份一些葡萄酒的评价结果,以及该年份这些葡萄酒的和酿酒葡萄的成分数据。本文将建立数学模型讨论以下问题:问题一:根据附件所给两组评酒员对葡萄酒各项指标的不同评分数据,分析两组评价结果有无显著性差异,如果差异显著,确定哪一组结果可信度更高。问题二:根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。问题三:酿酒葡萄的理化指标与葡萄酒的理化指标密切相关,分析二者间的联系。问题四:分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。二、模型的基本假设1、两组评酒员对葡萄酒的评分服从正态分布,且针对每个葡萄酒样品,两组评酒员评分正态总体的方差相等。2、附录所给酿酒葡萄与葡萄酒理化指标的数据均准确,没有错误。3、附录中的理化指标为酿酒葡萄与葡萄酒的所有理化指标。4、葡萄和葡萄酒的理化指标1x,2x......nx与葡萄酒的质量Y为线性相关。5、红酒的质量仅由评酒师的主观评分决定,与其他因素无关。三、符号说明显著性水平;1-置信度;2212,SS两组葡萄酒所得总分的样本方差;jr酿酒葡萄的第j种理化指标与葡萄酒质量间的相关系数;ijd第i种与第j种酿酒葡萄的样本距离;m原指标的个数;3kx原指标的观测值(k=1,2,3…,m);*kxkx标准化后的数(k=1,2,3…,m);kskx的标准差(k=1,2,3…,m)。四、模型建立及求解4.1问题一4.1.1问题分析对于两组评价结果的显著性差异问题,因为每个评酒员对葡萄酒的质量的评价是由其对该葡萄酒各项指标所评总分决定的,为将问题简化,我们首先计算出各评酒员给出的每一个葡萄酒样品各项指标的总分并进行比较,并由此判定两组评价结果的差异性及可信程度。易知两组评酒员对葡萄酒样品的评分都服从正态分布且是相互独立的,由于均是对相同的葡萄酒进行评价,我们认为两正态总体的方差相等,问题转化为对两个独立正态总体下样本均值的比较,本文采用t检验法检验具有相同方差的两正态分布均值差的假设。要确定哪一组的评价结果更可信,我们将复杂问题简单化,考虑通过比较两组分数样本的方差,方差大小反应数据的集中程度,方差越小,样本数据分布越集中越稳定,各数据更接近均值,代表结果的可信度更高。同时,可分别算出两组平均分的置信区间,比较各组落在区间内分数的个数,从而对分析结果进行检验。4.1.2模型建立(一)显著性差异分析[1]22122212121012121022212(,)(,),,,,...(,),,...(,),,,,tNNXXXNYYYNXYSS检验法:设两组评酒员对葡萄酒样品的评分分别服从正态分布和,根据假设1,两总体方差相等,均未知。是来自正态总体的样本,是来自正态总体的样本,且两样本独立。分别记它们的样本均值为方差为现在要检验问题:012112:,:HH0H为零假设,1H为备择假设,显著性水平为。检验统计量为:11wXYTSmn4其中22(1)(1)=1XYwmSnSSmn2tmn当两个总体的均值差异不明显时,该统计量应服从自由度为的分布。由此分别对两组评酒员对红葡萄酒与白葡萄酒的评价结果进行均值差假设的检验。(二)可信度比较2212,SS两组数据样本方差分别为:221122211=()11()1niiniiSXXnSYYn因为各组均有10为评酒员进行评分,故n=10。定义变量R:221222120,=1,SSRSS22121,,niiSSRn分别计算出每一个葡萄酒样品的,得到的值也就是在个样品中第二组比第一组评分可信度的更高的样品个数,从而比较两组数据可信度。4.1.3模型求解(一)t检验结果:首先,根据所给数据算出每位评酒员对各红葡萄酒样品的总评分,见表4-1(详见附件1):表4-1:各红葡萄酒样品所得各项指标总分12345678910平均值1第一组5166495477617261746262.7第二组6871805253767173706768.12第一组7181867491808379857380.3第二组75767671687483737371743第一组8085897669897383847680.4第二组8269807863757277747674.64第一组5264656658827663837768.6第二组7579737260777373607071.25第一组7474726284636884817173.3第二组5759686667646463655963.2……………………………...评酒员分数酒品526第一组7380716178717276797773.8第二组686783647374777863737227第一组7164727169718273736973第二组7077636480767367857571.5由此得出两个正态总体的样本,比如,对红葡萄酒样品1,两组样本分别为:第一组:51664954776172617462第二组:68718052537671737067下面用MATLAB的统计工具箱在=0.05水平上进行两个样本的t检验(程序见附录一)。用h的值反映结果的差异性,其中=0h,表示不能拒绝零假设,即两组评价结果无显著差异;=1h,表示评价结果有显著差异。所得结果见下表:表4-2:对红葡萄酒评价的显著性差异分析结果酒样品h显著性水平1-均值差的95%置信区间100.2128[-14.1832,3.3832]21\\300.0504[-0.0121,11.6121]400.5096[-10.7187,5.5187]51\\600.0526[-0.0740,11.8740]700.1458[-2.3673,14.7673]800.0726[-0.6401,13.2401]900.1899[-1.7892,8.3892]1000.948[-14.2677,13.3949]111\\121\\131\\1400.8712[-4.7098,5.5098]1500.065[-14.4844,0.4844]161\\1700.141[1.7493,11.3493]1800.0951[-12.0594,1.0594]191\\2000.287[-2.5609,8.1609]2100.2243[-3.2804,13.0804]2200.0556[-0.1493,11.3493]231\\241\\2500.7648[-5.9157,7.9157]2600.5133[-3.8703,7.4703]2700.5785[-4.0695,7.0695]6对于样品1,=0h,表示两组评价结果没有显著差异;显著性水平1-=0.2128,表示在100次试验中,约有21次t统计量大于或等于均值差;均值差的95%置信区间为[-14.1832,3.3832]。由表可知,对于编号2、5、11、12、13、16、19、23、24这9个红葡萄酒样品,=1h,也就是说,在27个红葡萄酒样品中,两组评酒员对其中9个样品的评价结果都有显著差异,所以对红葡萄酒两组评酒员的评价结果有显著性差异。同理,对于白葡萄酒,首先根据所给数据算出个评酒员对每个葡萄酒样品的总评分,见表4-3(详见附件1):表4-3:各白葡萄酒样品所得各项指标总分12345678910平均值1第一组8580886176938380957982第二组8478827579848169757277.92第一组7847865479918568738174.2第二组7976778577798059767075.83第一组8567897578758679907980.3第二组8574718779798045837375.64第一组7577806577838878858679.4第二组8478748369828466777276.95第一组8447776079627474797471第二组8379798077878273849181.5……………………………...27第一组5840796759556674737764.8第二组727984797683776379787728第一组6675896988878576889081.3第二组7582818178847971768979.6用MATLAB的统计工具箱在=0.05水平上进行两个样本的t检验,结果见下表:表4-4:对白葡萄酒评价的显著性差异分析结果酒样品h显著性水平1-均值差的95%置信区间100.2483[-3.1200,11.3200]200.7527[-12.1074,8.9074]300.3004[-4.5602,13.9602]400.4073[-3.6901,8.6901]500.0151[-18.7103,-2.2897]600.0714[-17.6122,0.8122]700.2624[-2.6920,9.2920]800.8482[-10.6353,8.8353]900.11[-16.8729,1.8729]1000.3149[-16.6780,5.6780]1100.8631[-9.9140,11.7140]评酒员分数酒品71200.0888[-19.7265,1.5265]131\\1400.1744[-12.6779,2.4779]1500.1807[-15.0521,3.0521]171
本文标题:2012国赛A题优秀论文
链接地址:https://www.777doc.com/doc-6710529 .html