您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 基于回归模型的奥运会奖牌预测分析
登峰杯初赛作品基于回归模型的奥运会奖牌预测分析学校:广东省惠州市第一中学班级:高二(20)姓名:张梓扬参赛编号:440500027基于回归模型的奥运会奖牌预测分析摘要每四年一届的奥运盛会牵动着全世界人民的心弦。各个国家获得的奥运会奖牌总数也直接反应该国的体育建设水平与人民的精神文明程度。本文根据相关网站(国家统计局、联合国相关机构、国际奥委会等)提供的数据,采用一元线性模型,以奥运奖牌历史成绩为样本对未来成绩的影响因素进行分析。同时,针对不同国家的GDP、国内人口和社会制度建立多元非线性模型,对下一届奥运会奖牌榜进行了预测,对影响奥运会的因素如国内生产总值,人口数量,历史成绩,社会制度进行了分析。关键词奥运奖牌预测;多元线性回归;网络爬虫1.引言奥林匹克运动会,是由国际奥林匹克委员会主办的每隔4年举行一届的国际性运动会。通过对奥运奖牌榜的观察,我们不难发现以下问题:(1)为何某些经济发达国家或人口基数较大的国家总能保持在排行榜前列?(2)为什么中国今年来奖牌数稳定攀升?有哪些因素决定着榜单的排名?而如今信息行业已进入大数据时代,对数据的挖掘与特征分析成为人们应对海量信息的重要工具与手段。各国奥运会的奖牌数也和各个国家的综合国力,人口总数息息相关,也代表着一个国家公民的整体精神水平。基于该背景,本文旨在利用网络爬虫工具对历届奥运会奖牌榜进行抓取,获得历史数据以及其他的综合因素并进行研究,以便对结果进行准确的预测。关于奥运会奖牌榜影响因素的研究,全球范围内已经有部分学者进行了尝试。比如:国外方面,Suen运用“结构-行为-绩效(SCP)”研究范式,对1992年夏季奥运会的奖牌分布进行了实证研究,发现人口数量、收入水平及政治体制是其中的重要因素。Johnson和Ali以战后夏季奥运会奖牌分布为研究对象,发现奥运会奖牌分布存在不可忽视的东道主效应:通过主办奥运会,在该国能激发人们对体育的热情,而运动员们的国家集体荣誉感也使得举办国往往能取得更多的奖牌.他们同时亦发现人口规模和人均GDP与奥运会奖牌数显著正相关[1]。Bernard和Busse对1960-1996年期间夏季奥运会奖牌榜的分析亦得到类似结论,而且他们还发现社会主义国家有着更好的奥运会表现。Hoffmann等以悉尼奥运会奖牌分布为样本,发现虽然传统的经济与政治因素很重要,但许多固有国家或地区特征,如地理、人口与文化因素,对奥运会奖牌分布同样存在重要影响。Hoffmann等对东盟国家在悉尼奥运会上成绩不佳的原因进行研究,发现除其他因素以外,相对GNP、东道主效应、政治体制、气候及相对人口规模等因素综合决定了东盟国家在奥运会上的表现。2.数据来源本次研究选取数据源来自中国奥委会官方网站,人口数据来自UnitedNationsPopulationDivisionDepartmentofEconomicandSocialAffairs]6[,中国GDP来源:中华人民共和国国家统计局]7[,世界各国GDP来源:NationalAccountsMainAggregatesDatabase]8[.通过利用Python语言编写的爬虫程序获取数据并将其以xml格式的源文件呈现,导入Excel进行进一步分析。为了保证数据的准确性与代表性,便于对结果进行精确研究,本次研究选取了历届奥运会奖牌榜前十名的国家进行讨论。(medals_raw_data.xml可在附件中查看)3.问题求解3.1利用历史成绩进行预测统计学中常用的两种方法为:1.时间序列预测法。包括:简单序时平均数法、加权序时平均数法、移动平均法、加权移动平均法、趋势预测法、指数平滑法、季节性趋势预测法、市场寿命周期预测法等。2.统计回归。包括:一元线性回归、多元线性回归、多元非线性回归,正交多项回归、差值回归等。此处选用统计回归的方法进行研究。以中国从1984年至2012年的奥运奖牌获得数(如表1-4所示)作为纵坐标,年份为横坐标构建直角坐标系并绘制散点图,构建回归模型(1),利用SPSS软件求出趋势线及其方程]3[(如图1-1,表1-1)。同时计算R^2的值。R^2越接近1,说明模型的拟合效果越好。参见表1-1.在表1-2“Anova”中,满足F检验,Sig.为0.001,小于0.005,说明具有显著性。在表1-3中可得出,回归方程为:奖牌数=年份*2.366-4668.036(图1-1)表1-1历史成绩预测模型汇总b模型RR方调整R方标准估计的误差更改统计量R方更改F更改df1df2Sig.F更改1.926a.857.83310.24550.85735.83916.001a.预测变量:(常量),Years。b.因变量:China表1-2历史成绩预测模型的Anova表平方和df均方FSig.回归3762.05413762.05435.839.001a残差629.8216104.970总计4391.8757表1-3历史成绩预测模型系数a非标准化系数标准系数tSig.B标准误差(常量)-4668.036789.675-5.911.001Years2.366.395.9265.987.001利用所给出的回归方程进行预测,2016年中国奖牌数预测值:101.82.而真实值为:70.说明该线性回归模型(1)偏差较大,考虑重新构建模型。对中国的历史成绩构建非线性模型(2),方程为:101072165565263500070234E+x-E++x-x.+x.y=-选用该非线性模型绘制散点图可得如下图像(如图1-2),此时,2016年中国队夺得奖牌数预测值为72,实际值为70,预测值较准确,R^2=0.8802大于模型(1)中的R^2=0.857.说明模型(2)的拟合效果较模型(1)好。故选用模型(2)。其他国家的数据也依次类推,分别构建模型(1)与模型(2)(前者为线性模型,后者为非线性模型)进行分析。得到的汇总表格如表1-5所示。表1-4各国1984-2012奖牌获得总计Country19841988199219962000200420082012China32.0028.0054.0050.0059.0063.00100.0089.00UnitedStates174.0094.00108.00101.0097.00103.00110.00104.00UnitedKingdom37.0024.0020.0015.0028.0030.0047.0065.00RepublicofKorea19.0033.0029.0027.0028.0030.0031.0028.00Australia24.0014.0027.0041.0058.0049.0046.0035.00Germany59.00102.0082.0065.0057.0048.0041.0044.00France28.0016.0029.0037.0038.0033.0040.0034.00Italy32.0014.0019.0035.0034.0032.0028.0028.00Japan32.0014.0022.0014.0018.0037.0025.0038.00数据来自:国家统计局和中国奥运会官方网站图1-2中国1984-2012奥运会奖牌数散点/趋势图表1-52016年巴西里约奥运会各国奖牌实际值/预测值比较国家实际值预测值1预测值2R^2中国70102720.8802美国1211411290.8775英国6754900.9742日本4133320.8734韩国2131260.3313澳大利亚2954320.6616德国4234440.8417意大利2832290.1164注释:预测值2基于改进的模型(2),对于预测结果的小数部分进行“四舍五入”处理取整。R^2基于改进的模型(2)计算得出。综上所述,按照历史成绩估计,所选取分析的几个国家的排名应该依次为:美国,中国,英国,德国,日本,澳大利亚,意大利,韩国。与实际排名相符合。但纵观数据可以发现历史成绩并不是十分稳定,模型(1)中部分Sig值会大于0.05,即无统计学意义。重新构建一元多项式回归模型(即模型2)并进行误差修正后才能较为准确地预测。但由于参数过多,模型(2)可能会发生过拟合问题,需要对多次项指数进行调整以解决问题。此外,在针对某些国家(如意大利,澳大利亚,韩国等)进行建模与预测时,即使选用了最优的模型,也无法得到较好的拟合效果。因此,历史成绩仅能作为预测未来数据的一方面因素,不能完全依赖其进行预测。3.2利用国家综合因素进行预测从综合实力的角度考虑进行数学建模,推测如下。一个国家的国内生产总值越高,可以假设该国家有更多的资金去培养优秀的运动员,即能获得更多的奖牌。其次,一个国家的人口数越多,则会有更大的产生优秀运动员的可能性。综上,做出模型假设:一个国家的GDP与人口数量对该国家所获得奖牌数目有影响。建立数学模型:*c*b+xy=a+x21,其中,x1为国内生产总值,b为GDP对奖牌数目的影响系数,x2为人口数目,c为人口对奖牌数目的影响系数,a为随机误差。以澳大利亚为例,所建立的多元模型数据汇总如下:表2-2问题2针对澳大利亚奖牌模型Anovab平方和df均方FSig.回归1187.2452593.62310.019.018a残差296.255559.251总计1483.5007a.预测变量:(常量),Popult_AU,GDP_AU。b.因变量:Medals_AU表2-3问题2针对澳大利亚奖牌模型系数a非标准化系数标准系数tSig.B标准误差试用版(常量)-198.91454.385-3.658.015GDP_AU-6.206E-11.000-2.011-3.497.017Popult_AU.014.0032.4454.250.008a.因变量:Medals_AU表2-4问题2针对澳大利亚奖牌模型残差统计量a极小值极大值均值标准偏差N预测值13.676352.680236.750013.023308残差-9.6727110.32367.000006.505558标准预测值-1.7721.223.0001.0008标准残差-1.2571.341.000.8458a.因变量:Medals_AU在Anova表单(表2-2)中可以看到Sig值=0.0180.05,该模型具有显著性。各个系数Sig值分别为0.015,0.017,0.008均小于0.05,说明系数通过显著性检验。模型汇总(表2-1)中R值等于0.895,说明有89.5%的预测可以用该模型来解释,拟合效果良好。绘制出其散点图(如图2-1)可见奖牌与人口数,GDP基本呈现正相关关系。其余国家同理建立不同的模型,得到如下汇总表格(如表2-5所示)表2-5各国综合国力与奖牌数的综合分析国家实际值预测值R^2中国美国英国日本韩国澳大利亚德国意大利70621211086757413521372932424528210.84610.51890.79890.79910.60670.80030.63140.5352注:预测值基于问题二中所构建的多元非线性模型,利用“四舍五入”原则对数据进行取整处理。模型分析:在构建该多元非线性模型过程中,在某些国家的数据中会出现曲线拟合度较低的情况。究其原因,可以认为是奥运会奖牌数是由除了GDP与人口数量之外的更多因素决定的。这些其他因素中包括了不可控制与预料的随机因素,比如裁判员的判断,气候因素,甚至是主办国的地理位置对其他国家运动员所造成的影响都有在随机地影响着整体结果。但不可否认的是,GDP与人口数量的确在绝大多数国家的模型中呈现出正相关的关系。3.3其他可能的影响因素在前两个模型的构建中,我们不难发现,单纯地考虑某个国家的综合实力或者是历史成绩都会有些许误差。纵观历史数据,可以做出如下推测。1、社会的稳定程度对奥运成绩的好坏有一定影响。在1992年美国发生洛杉矶暴动之后,在1996年美国亚特兰大奥运会上的奖牌数目有所下跌。而在2004-2008的雅典以及北京奥运会中,从9·11事件中恢复后的美国将奖牌数由2000年时的9
本文标题:基于回归模型的奥运会奖牌预测分析
链接地址:https://www.777doc.com/doc-4962516 .html