您好,欢迎访问三七文档
当前位置:首页 > 高等教育 > 理学 > 数学建模统计建模论文
历年数模竞赛试题的统计分析摘要全国大学生数学建模竞赛作为大学生热门赛事,其试题难度趋势及建模方法是直接关系到比赛好坏。本文也是围绕该问题,利用主成分统计方法及历年赛题相关文献建立一系列数学模型对历年赛题进行综合评价预测和重要性建模方法排序,最后由模型的求解结果提出建设性意见。对于问题一:本文利用主成分分析方法建立了综合评价预测模型,在实际基础上对影响赛题难易度的因素设置合理的值,再利用第一主成分对历年赛题进行综合评价,评价结果为,2010年的赛题最难,其次是2015年,在此基础上建立主成分回归方程,对2016年赛题难易程度的预测,结果为该年的获奖率较高,难度不大。对于问题二:本文在综合评价预测模型基础上建立了重要性排序模型。通过对历年的赛题解题方法进行统计分析,建立评价函数,最后得到建模方法的重要性排序。建模中所用方法最多、最重要的是运筹规划,次之是网络优化和数值运算。对于问题三,我们在问题一和问题二的求解结果的基础上提出短期建议应提高运筹规划,网络优化和数值运算的掌握与应用,并在长期建议中提出提高阅读能力,拓宽知识面和学习计算机新型算法等建议。该模型思路方法清晰,适合对数模竞赛题进行统计分析。关键字:主成分分析;评价;预测;排序1介绍1.1背景自80年代开始,我国的数学建模教学和数学建模竞赛日益蓬勃地发展起来。到如今,全国数学建模竞赛已成为全国大学生及研究生的重要赛事,且竞赛成绩也成为了衡量一个高等学府实力的一个标准。数学建模竞赛有利于推进高校学生的综合素质教育,还有利于建立高校学生把实际问题和数学方法联立的思想方法。正因为如此,提前的科学性教学以及对历年赛题的分析也变得尤为重要。1.2问题重述全国大学生数学建模竞赛题型众多,对于建模竞赛试题题型及难度趋势的把握,关系到赛前准备工作的落实及比赛成绩的好坏。但是将每个题目都做一遍显然不可能,一种思路是对题目的特点进行分析,作出判断,用于指导赛前的各项准备工作。请根据历年的全国题目(必选)和有关高校的选拔题目(自选)的特点(例如数据、方法、规模等),建立模型进行分析,解决以下问题:1、对建模题目的难度趋势进行综合评价和预测。2、根据这些题目常用的建模方法作统计分析,对常用建模方法的重要性进行排序。3、对建模培训的内容、方式等方面给出建议报告。1.3问题分析针对以上问题,进行如下分析:对于问题一:本问题主要是解决对建模题目的难度进行综合评价,并对建模题目进行预测。首先我们通过查阅文献,对历届的赛题进行难易度分析,选取了针对数模竞赛问题的难易度影响因素,并且根据每一个因素取值不同特点,可将其分为连续变量、分类变量、等级变量,并给出了变量范围。通过主成分分析的方法,对历届的赛题的难易度进行综合评价,然后建立主成分回归方程对2016年建模题目难度进行预测。对于问题二:本问题主要对历代建模题目的题目方法统计,然后对建模方法的重要性进行排列。我们通过查阅文献,对历年的赛题解题方法进行统计分析,然后在问题一模型的基础上,建立评价函数,对建模使用方法的重要性进行排序。最后,对重要的建模的方法进行分析。对于问题三:本问题是在前两问题求解的基础上如何有效地进行建模培训和学习提出建设性意见。利用问题一的历年赛题难度评价结果和问题二的重要性建模方法结果,针对因素分析提出学习内容方面建议,针对使用方法分析提出重点学习使用方法建议。1.4问题假设1.假设影响数模问题的难度趋势因素不完全相关。2.由于各个因素影响数模问题的难度趋势是有差异的,假设随机因素服从2(0,)N。1.5符号解释ijx,ijy:第i组样本数据中第j个变量的值X:样本阵Y:X做标准化后的标准化矩阵jx:矩阵X中第j的均值ja:矩阵X中第j的标准差R:标准化的矩阵Y的样本相关系数阵jF,jQ:第j个主成分YQ:评价函数ic:第i个指标的权重A:重要性综合评价2模型建立与求解2.1综合评价预测模型2.1.1模型的建立由假设1,影响数模问题的难度趋势因素不完全相关,利用统计中主成分思想来筛选因素是有意义的,主成分的基本思想是利用线性代数中的正交变换将一组相关变量生成新的不相关的新的变量,然后对新的变量进行降维处理,以高精度形成低维系统[1]。通过查阅相关文献[2],制定了影响数学建模题目难易程度的因素,具体见表1,而且我们根据每一个因素取值不同特点,可将其分为连续变量、分类变量、等级变量,并给出了变量范围。表1数学建模题目难易程度的因素影响因素变量性质变量范围易.........难题目阅读量连续变量150500n150........500条件的利用情况分类变量0,10..........1考查知识点的多少等级变量15n1..........5数学过程的复杂性等级变量15n1..........5数据收集的难易程度等级变量15n1..........5问题的开放性分类变量0,10..........1情景特征的建模难度等级变量15n1..........5问题的可思考性分类变量0,10..........1问题情景的新颖性等级变量15n1..........5问题的表达方式分类变量0,10..........1分布设问情况等级变量15n1..........5计算机算法的容易度分类变量0,10..........1由表1得,设影响因素构成的向量为1212(,,,)xxx。则样本阵为:11121121222212TnTnTnnnnnxxxxxxxxXxxxx(1)其中,ijx表示第i组样本数据中第j个变量的值。对X做标准化变换得标准化矩阵Y为11121121222212TnTnTnnnnnyyyyyyyyYyyyy(2)其中,ijjijjxxya,jx,ja代表矩阵X中第j的均值与标准差。计算标准化的矩阵Y的样本相关系数阵R1TYYRn(3)计算相关系数矩阵R的特征值0nRI(4)解得n个特征值120n,取前m个主成分jF(1,2jm),需要由下式确定:110.8mjjnjj(5)其中(5)式也成为累计贡献率,它的意义是前m个主成分综合原始变量所含信息的能力。在假设2的基础上得到主成分回归方程,此方程可以对未来赛题的难易程度作出预测,方程为:1122nnfxxx(1,2,12n)(6)2.1.2模型的求解通过查阅2009年至2015年全国大学生数学建模赛题分析的相关文献[3],我们由此为依据得到影响题目难易程度的具体变量值,查阅浙江赛区2009年至2015荣获全国一等奖的比率作为衡量题目难易程度的指标,比率越高,题目越简单,具体见表2。表2数模赛题难易程度的具体变量值及获奖率年份2009201020112012201320142015题目阅读量500195387457483302189条件的利用情况1010001考查知识点的多少4544455数学过程的复杂性4534555数据收集的难易程度4423454问题的开放性1101011情景特征的建模难度2323445问题的可思考性0100101问题情景的新颖性3523534问题的表达方式0100001分布设问情况4534444计算机算法的容易度1011111获奖率0.0365850.0529220.0435130.0514590.0526720.0508330.044715由(1)—(5)式,通过SAS编程计算,得到表3的结果表3影响因素的相关参数特征值累计贡献率16.288477490.52421.77314750.671831.567829990.802541.457217330.923950.601554080.97460.311773611由于前三个主成分的累计贡献率已经达到0.8,因此3m,具体主成分见表4,表4影响因素的样本主成分主成分1主成分2主成分3x1-0.2939360.44339-0.051158x2-0.163226-0.4922590.041319x30.329157-0.2635660.259519x40.3599830.2696710.135596x50.2726260.2787890.412325x60.190478-0.1882150.480923x70.264010.1417760.220633x80.3009560.045613-0.404933x90.3199790.271372-0.345077x100.314979-0.405917-0.170298x110.337370.105441-0.071855x12-0.2504540.1844950.37782由于第一主成分的特征值最大,我们选取第一主成分对赛题难易程度排序,结果见表5。表5赛题难易程度排序名次年份12010220153201442013520126200972011由(6)式由SAS软件求得主成分回归方程如下:将表2的结果代入回归方程得到各年获奖率的理论值,具体见表6。表6各年的获奖率实际值与理论值年份实际值理论值相对误差20090.0365850.0446832070.22135320520100.0529220.0517317320.02249098720110.0435130.0410197290.05729945120120.0514590.046703920.09240521620130.0526720.0541448380.02796244720140.0508330.0476260810.06308734520150.0447150.0467833050.046255283将表6结果利用Matlab画出图像,得到图1。图1各年的获奖率实际值与理论值图像大数据近年来是许多学者研究的方向[4],我们以此为背景利用主成分回归方程对2016年赛题的难易程度进行预测,具体结果见表7。表72016年赛题的难易程度预测年份2016题目阅读量300条件的利用情况1考查知识点的多少4123456789101112.0000047480.0023848960.0007970.001094120.0005070.0013732330.0003469810.0016632640.0011664360.0005910370.0012250.03459206310.000836938xxxxxxxxxxxfx数学过程的复杂性4数据收集的难易程度4问题的开放性0情景特征的建模难度5问题的可思考性1问题情景的新颖性5问题的表达方式0分布设问情况4计算机算法的容易度1获奖率0.0501439192.1.3结果分析由主成分分析综合评价结果表5发现,2010年的赛题最难,其次是2015年,这是因为这两年考察知识点、数学过程的复杂性等级较高,而且问题具有一定的开放性、新颖性,建模难度比较大,这些都是和实际情况相符合。由表6和图1结果不难发现,主成分回归方程用来预测的相对误差较小,理论值和实际值的曲线非常接近,说明主成分回归方程用来预测较为合理,利用此方程来预测2016年赛题的难度趋势,由表7得知,该年的获奖率较高,说明试题大家普遍都能做,难度不大。2.2重要性排序模型2.2.1模型的建立我们选取综合评价预测模型的相关方法,即主成分分析方法,建立评价函数,最后对各个数模方法的重要性进行排序。同样,设影响因素构成的向量为12(,,,)nyyy。根据实际数据调查[3],对历年数模问题的方法进行统计,具体见表2,0表示没有用到该方法,1表示用到了该方法。表1对公共安全因素评判打分年份1w2wLw方法1y11y11y1Ly2y21y22y2Lyny1ny2nynLy则样本阵为:11121121222212TnTnTnnnnnyyyyyyyyYyyyy(7)其中,ijy表示第i组样本数据中第j个变量的值。对Y做标准化变
本文标题:数学建模统计建模论文
链接地址:https://www.777doc.com/doc-5900348 .html