您好,欢迎访问三七文档
2012201220122012高教社杯全国大学生数学建模竞赛承诺书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。我们参赛选择的题号是(从A/B/C/D中选择一项填写):A我们的参赛报名号为(如果赛区设置报名号的话):所属学校(请填写完整的全名):参赛队员(打印并签名):1.麻思达2.潘博渊3.李蕾指导教师或指导教师组负责人(打印并签名):日期:年月日赛区评阅编号(由赛区组委会评阅前进行编号):2012201220122012高教社杯全国大学生数学建模竞赛编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):1葡萄酒的评价摘要葡萄酒的质量评价问题是研究葡萄酒的一个重要领域,业界一直在尝试用葡萄的理化指标或者葡萄酒的理化指标定量评价葡萄酒的质量。本文根据葡萄酒的质量、酿酒葡萄的理化指标等数据,对葡萄酒评价模型系统的建立进行了研究,并运用Matlab、SPSS等软件进行了求解。对于问题一,我们首先对数据进行筛选,去除异常数据,对残缺数据进行适当补充。然后运用2χ检验对数据进行正态分布检验,建立了配对样本t检验模型对数据进行处理,通过Matlab软件的求解,得出结果,发现两组评酒员对两种酒的评价有显著差异。再由其中的标准差进行合理推论,得出第二组评酒员的评价结果更有说服力。对于问题二,我们根据酿酒葡萄的理化指标和葡萄酒的质量对葡萄进行了分级。首先对酿酒葡萄的理化指标进行标准化处理,应用主成分分析法得出了主成分的主要构成。又基于主成分综合评分将葡萄的等级划分为五级,最终得出酿酒葡萄的分级标准。对于第三问,首先通过线性回归检验筛选出与葡萄酒理化指标拟合最为紧密的酿酒葡萄理化指标,再计算每组之间的相关系数,通过典型相关分析得出每组之间的强度关系。最后对得出的相关系数进行分析,得出酿酒葡萄与葡萄酒的理化指标之间的联系。问题四,因为问题三已经得出了酿酒葡萄与葡萄酒理化指标具有显著的线性关系的结论,因此本问中以葡萄酒质量为因变量葡萄酒理化指标的典型相关变量为自变量进行多元线性回归,回归结果如下:123456789132.2382.0925.0581.0640.0043.0499.0375.1805.0515.70vvvvvvvvvQ×−×+×+×−×−×+×−×−×−=该回归模型能较好的通过显著性检验,因此得出结论:酿酒葡萄与葡萄酒的理化指标能较好的反映葡萄酒的质量。关键词:2χ检验配对样本t检验主成分分析法线性回归检验典型相关分析2一、问题重述1.1问题的背景确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。题目分别给出了某一年份一些葡萄酒的评价结果,和该年份这些葡萄酒的和酿酒葡萄的成分数据。1.2问题的提出请尝试建立数学模型讨论下列问题:1.分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?2.根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。3.分析酿酒葡萄与葡萄酒的理化指标之间的联系。4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?二、问题分析2.1问题一的分析问题一需要分析两组评酒员的评价结果有无显著性差异,一般用t检验的方法求解比较适合。通过对数据进行处理,得出两组评酒员对各种酒的打分分数服从正态分布,即满足双总体t检验的条件,因此采用双t检验法检验两组评酒员的评价结果差异是否显著。对两组葡萄酒评价总分进行数据处理,从而得到标准差、显著性概率等指标,再通过逐对比较法得出其差异性。然后由比较标准差的方法来确定哪组更可靠。2.2问题二的分析第二问要求根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进行分级。首先对酿酒葡萄的理化指标进行分析,由于理化指标过多,数据量较大,我们采用主成分分析法对其进行处理,得出影响葡萄理化指标的几个主要成分,通过对主成分综合评分对酿酒葡萄进行分类。由于酿酒葡萄的理化指标必然从一定程度上反映其酿造的葡萄酒的质量,因此根据分类中各酿酒葡萄对应的葡萄酒的质量可以确定该类酿酒葡萄的等级。2.3问题三的分析第三问要求寻找酿酒葡萄与葡萄酒理化指标间的关系,但酿酒葡萄的理化指标较多,而且这些指标并非都与葡萄酒理化指标有关,又考虑到酿酒葡萄和葡萄3酒的理化指标可能是多个之间相互关联,因此选用典型相关分析找出酿酒葡萄与葡萄酒理化指标的典型相关变量进而来寻找它们之间的关系。2.4问题四的分析本问题要求分析酿酒葡萄以及葡萄酒的理化指标能否反应葡萄酒的质量,可以以葡萄酒的质量为因变量,以酿酒葡萄和葡萄酒的理化指标为自变量进行多元线性回归,如果在回归模型能通过显著性检查,则说明该理化指标能较好的反映葡萄酒的质量。三、模型假设1、实际问题中,葡萄的质量受各种自然及人为因素影响,本题中仅仅考虑酿酒葡萄和葡萄酒的理化指标以及葡萄酒的芳香物质对葡萄酒质量的影响;2、假设两组评酒员是随机分配的;3、假设评酒员对每种葡萄酒的评价结果是大致符合正态分布的;4、假设酿酒葡萄与葡萄酒中的芳香物质主要成分是:低醇、酯类、苯等,其余成份忽略;四、定义与符号说明4.1符号说明符号符号说明m样本数n评酒员序数*px缺失值iiYX,第i个样本tT检验统计量R红葡萄酒W白葡萄酒Q葡萄酒的质量ix酿酒葡萄的理化指标iy葡萄酒的理化指标4iG酿酒葡萄的主成分i评价对象j指标编号ω葡萄酒指标的极重向量Z每种葡萄酒质量的总得分五、模型的建立与求解5.1问题一的模型建立与求解双总体t检验是检验两个样本平均数与其各自所代表的总体的差异是否显著。由于本题中涉及到不同的评价员对同一种酒类的评价,属于相关样本,因此适合用配对样本t检验法检验评价结果的显著性差。5.1.1数据处理经过对数据的查找,我们发现部分原始数据存在异常,另外有些类型数据存在缺失,在此我们将其正常化处理。(1111)缺失数据的处理对于数据中存在的缺失现象,本文采用均值替换法对这种缺失数据进行处理。均值替换法就是将该项目剔除异常数据后取整剩余数据的平均值来替换异常或缺失数据的方法,即:)10,,2,1(9110,1*L=⎥⎦⎤⎢⎣⎡=∑≠=pxxpkkkp其中,*px为缺失值。由于不同品酒师对同一样本相同项目的打分值差别不大,所以认为采用均值替换法来处理缺失数据是可行的。以“酒样品20”色调数据为例进行修补,得到修正后的数据如下表所示。表1111红葡萄酒样品20202020色调数据修补品酒员1号2号3号4号5号6号7号8号9号10号修补前664—668668修补后6646668668注:表中“—”代表数据缺失(2222)异常数据的修正原始数据中,有的数据明显比两侧的数据过大或过小,显然是不合理数据。例如,第一组白葡萄酒品尝评分的数据中,可能由于手工输入的误差,品酒员7对样品3持久性评分的数据相对于相邻各品酒员的评分发生了明显的突变现象。这种数据异常有可能对数据挖掘的结果产生不利影响。5表2222第一组白葡萄酒品尝评分样本3333持久性数值异常品酒员1号2号3号4号5号6号7号8号9号10号持久性75756777567对于类似的异常数据采取“先剔除,后替换”的策略,对异常数据进行修正。5.1.2模型准备T检验的基本理论[4]:设121,,,nXXXL是来自总体),(211σµN的一组样本,221,,,nYYYL是来自总体),(222σµN的一组样本,两组样本互相独立。令111YXD−=,222YXD−=,L,nnnYXD−=,则nDDD,,,21L相互独立。又由于nDDD,,,21L是由同一因素引起的,可认为它们服从同一分布,今假设),(~2DDNDσµ,这就是说nDDD,,,21L构成正态总体),(2DDNσµ的一个样本,其中2,DDσµ未知。我们基于这一样本假设:0:0=DHµ,0:1≠DHµ;分别记样本nDDD,,,21L的样本均值和样本方差的观察值为2,dsd,在显著性水平为α条件下检验问题的拒绝域:)1(2−≥=ntnsdtDα。5.1.3正态性检验2χ检验分布是在总体X的分布未知时,根据来自总体的样本,检验关于总体分布的假设的一种检验方法。使用2χ检验对总体分布进行检验时,我们先提出原假设:)(:0xFXH的分布函数为总体然后根据样本的经验分布和所假设的理论分布之间的吻合程度来决定是否接受原假设。这种检验通常称作拟合优度检验,它是一种非参数检验。分布拟合的2χ检验的基本原理和步骤如下:将总体X的取值范围分成k个互不重迭的小区间,记作kAAA,,,21L。6把落入第i个小区间iA的样本值的个数记作if,称为实测频数。所有实测频数之和kfff+++L21等于样本容量n。根据所假设的理论分布,可以算出总体X的值落入每个iA的概率ip,于是inp就是落入iA的样本值的理论频数。皮尔逊引进如下统计量表示经验分布与理论分布之间的差异:2χ统计量∑=−=rkkkknpnpn122)(χ用上述原理检验是否服从分布:⎩⎨⎧假设接受总体为正态分布的临界值统计量假设拒绝总体为正态分布的临界值统计量22χχ运行结果证明两组对葡萄酒的评价都能很好的符合正态分布,可以得出正态分布曲线如下图所示:图1111第一组评酒员对红葡萄酒的检验结果图图2222第二组评酒员对红葡萄酒的检验结果图7图3333第一组评酒员对白葡萄酒的检验结果图图4444第二组评酒员对白葡萄酒的检验结果图85.1.4问题一的配对样本t检验法模型以上的分析表明,两组评酒员对葡萄酒评价的结果可以采用配对样本t检验,以这两组中每一种红葡萄酒的样品进行配对,在显著水平05.0=α条件下进行检验,假设0:0=DHµ,0:1≠DHµ;构造t统计量:)1(~−=ntnsdtD拒绝域为:)1(2−≥=ntnsdtDα。由Matlab软件运行该模型,得到配对t检验结果如下表所示:表3333配对样本检验结果成对差分t自由度均值标准差差分的95%下限置信区间上限红R1—R22.5407415.3718830.41574.66582.4557626白W1—W2-2.271435.503861-4.4056-0.1373-2.1838279由表三的统计数据得知,无论红葡萄酒、干白葡萄酒经配对数据T检验,双侧显著性水平均小于0.05。可以认为这两组评酒员对红葡萄酒评价的结果有显著差异,对干白葡萄酒评价的结果也有显著差异;5.1.5可信度的判断计算两组评酒员打分的标准差平均值,得到红酒的标准差平均值:7.46279111====σ,5.62008612====σ;白酒的标准差平均值:10.9645321====σ,7.14045922====σ。明显第二组的平均标准差小于第一组的平均标准差,说明第二组评酒员的波动性更小,即第二组评酒员的结果更可信。5.2问题二的模型与解答5.2.1主成分分析法由于酿酒葡萄和葡萄酒的理化指标中包含成分较多,为找到这些成分中的潜在联系及相关影响因素,可先用主成分分分析法对其进行筛选,找出具有主要影响的几个主成分,各个主成分中包含原来的几种理化指标,再研究酿酒葡萄理化指标与葡萄酒
本文标题:葡萄酒的评价问题
链接地址:https://www.777doc.com/doc-6348077 .html