您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 医学试题/课件 > 重庆大学研究生数理统计大作业
数理统计1NBA球员科比单场总得分与上场时间的线性回归分析摘要篮球运动中,球员的上场时间与球员的场上得分的数学关系将影响到教练对每位球员上场时间的把握,若能得到某位球员的上场时间与场上得分的数据关系,将能更好的把握该名球员的场上时间分配。本次作业将针对现役NBA球员中影响力最大的球员科比布莱恩特进行研究,对其2012-2013年赛季常规赛的每场得分与出场时间进行线性回归,得到得分与出场时间的一元线性回归直线,并对显著性进行评估和进行区间预测。正文一、问题描述随着2002年姚明加入NBA,越来越多的中国人开始关注篮球这一项体育运动,并使得篮球运动大范围的普及开来,尤其是青年学生。本着学以致用的原则,希望将所学理论知识与现实生活与个人兴趣相结合,若能通过建立相应的数理统计模型来做相应的分析,并且从另外一个角度解析篮球,并用以指导篮球这一项运动的更好发展,这也将是一项不同寻常的探索。篮球运动中,得分是取胜的决定因素,若要赢得比赛,必须将得分超出对手,而影响一位球员的得分的因素是多样的,例如:情绪,状态,体力,伤病,上场时间,防守队员等诸多因素,而上场时间作为最直接最关键的因素,其对球员总得分的影响方式有着重要的研究意义。倘若知道了其分布规律,则可从数量上掌握得分与上场时间复杂关系的大趋势,就可以利用这种趋势研究球员效率最优化与上场时间的控制问题。因此,本文针对湖人当家球星科比布莱恩特在2012-2013年赛季常规赛的每场得分与上场时间进行线性回归分析,并对显著性进行评估,以巩固所学知识,并发现自己的不足。二、数据描述抽出科比布莱恩特2012-2013年常规赛所有82场的数据记录(原始数据见附录),剔除掉其中没有上场的部分数据,得到有参考实用价值的数据如表2.1所示:数理统计2编号1234567891011121314上场时间(分钟)4548414743474836384238123836得分(分)344730252423193031362103111编号1516171819202122232425262728上场时间(分钟)4044423939323938363328393637得分(分)19414230343329384016920428编号2930313233343536373839404142上场时间(分钟)3830373739393439353942434337得分2027211817171421142916262231编号4344454647484950515253545556上场时间(分钟)2835394142444231444444434044得分(分)2328272029383627403434303430编号5758596061626364656667686970上场时间(分钟)4441434434353937443337393935得分(分)3142343529393414401930382522编号7172737475767778798081828384上场时间(分钟)3838343337324338353328292519得分(分)3128202729154030222122311810表2.12012-2013赛季球员科比布莱恩特的上场时间与得分记录以上数据由腾讯篮球中心提供,特此说明。三、模型建立(1)假设条件假定球员每场的发挥均为独立同分布事件,(2)模型构建以上场时间为自变量Xi,单场得分为应变量Yi,建立正态线性模型式:012,1,2,,;0,,,,,iiiiiiiYxinN且相互独立其中β0、β1为模型参数。(3)模型求解由数据记录资料:1122,,,,,,nnxyxyxy用最小二乘法求得回归方程:01yx,其中011121,()niiiniixxyyyxxx数理统计3若x0表示x某个固定的值,则相应的2001~,YNx由于01,与22211,(),2niiiYYn是由历史数据得出,因此2001,,,Y相互独立。容易证得:01202011~,xxxxxNxnl,同时可推出0100Yx服从正态分布,并能求得:01000EYx,012020011xxxxDYxnl即:01202001~0,1xxxxYxNnl,由于i与01均相互独立,故2与0100Yx相互独立,又2222~2nn故有:010020~211xxYxTtnxxnl。因此,给定一个X0,再给出一个置信水平1-α,就可以求出相对应Y0的预测区间:0011220001201211[21,21]xxxxxxxxxtnxtnnlnl当样本n比较大时,由于20121212,11xxxxtnunl,数理统计4于是Y的置信水平为1-α的预测区间近似为:001212,yuyu四、计算机设计方法与实现(1)回归方程求解数据如表2.1所示,事先去掉因伤病导致的缺席的数据点,经过观察分析,数据近似服从线性分布,求解的详细过程见附表1,由数据计算得:22211()2998.286nnxxiiiilxxxnx22211()6316.952nnyyiiiilyyyny1()()2444.286nxyiiilxxyy根据最小二乘法原理得:100.81523.6717回归方程为:3.67170.8512yx样本点与回归直线的关系如图4.1所示:图4.1数理统计5(2)显著性检验提出统计假设:H0:01,H1:01采用r检验法:2444.2860.56166316.9522998.286xyyyxxlrll取显著水平05.0,0.05(2)(82)0.217rnr则有0.05rr>(82),因此拒绝原假设,接收科比布莱恩特2012-2013赛季单场总得分与上场时间存在显著的线性关系。(3)区间预测以Yo的区间预测为例:由以上计算同时可求出:211()7.26192niiiYYn由于:010020~211xxYxTtnxxnlYo的置信度为1-α的置信区间为:0011220001201211[21,21]xxxxxxxxxtnxtnnlnl由t分布表,我们可以预测球员科比布莱恩特在相应的上场时间Xi里其单场得分Yi的置信度为1-α的置信区间。例:当Xi=40,置信水平1-α=1-0.05=0.95时:查表:由线性内插法得到0.975821.993t数理统计6计算得:2204037.85711111.0228842998.286xxxxnl3.67170.8512401.9937.26191.022830.376314.8029因此当Xi=40时,参数Yi置信度为0.95的置信区间为:15.5739,45.1792即当球员科比布莱恩特上场时间为40分钟时,其单场总得分落在区间15.5739,45.1792的概率为95%。五、模型结果分析基于以上的结果可知,对于湖人队球员科比布莱恩特,其单场总得分与其上场时间有显著的线性关系,可以认为能通过改变其上场时间从而以线性的关系改变其单场总得分。六、结语以上方法得出的结果与真实值相比有一定偏差,但由于样本数量较大,因此数据结果也有较大的可信度,当样本数量增加时,用来预测的数据也更多,这样预测的可靠性会增强。通过以上将所学知识应用于实践的过程,更好的让我理解了学以致用的学习过程,只要我们留心观察,数学模型则无处不在。理论联系实际,学以致用,才是我们学习这门课程的最终目的。参考资料:[1]杨虎,刘琼荪,钟波.应用数理统计.北京:高等教育出版社.2004数理统计7附录原始数据(来自腾讯篮球数据中心):比赛首发时间投篮3分罚球后篮板前篮板总篮板助攻抢断盖帽失误犯规得分82-103马刺否00-00-00-000000000089-120马刺否00-00-00-000000000091-102马刺否00-00-00-000000000079-91马刺否00-00-00-000000000099-95火箭否00-00-00-000000000091-86马刺否00-00-00-0000000000118-116勇士是459月21日4月8日12月16日5054005334113-106开拓者是4814-271月5日18-188085341447104-96黄蜂是419月18日2月7日10月11日516651523095-109快船是476月19日1月5日12月14日6171000432586-84灰熊是4310月23日0-54月4日5059104324101-81小牛是478月18日0-37月8日1011111424323103-98国王是485月18日0-49月11日81914201219103-113雄鹿是366月17日0-318-202023006230120-117森林狼是3812月21日3月7日4月6日3037116431103-109勇士是4211月27日2月10日12月16日7183000136100-103奇才是388月18日1月2日4月7日3141120632176-99太阳否00-00-00-0000000000113-102国否00-00-00-0000000000数理统计8王99-93步行者是120-40-10-010120011092-96老鹰是3811-332月8日7月8日6175205131106-97魔术是364月14日2月6日1月2日617820311190-81公牛是407月16日1月4日4月6日6179202219118-116猛龙是4411月22日5月10日14-1651612209041108-102黄蜂是4214-213月7日11月14日70712016042105-122雷霆是398月19日3月7日11月12日213200233099-98老鹰是3913-272月5日6月8日5164205134116-94森林狼是3213-224月8日3月7日4155203133108-119掘金是3912月23日0-15月6日6069004329103-99小牛是3813-214月5日8月10日111127015238111-107开拓者是3615-231月3日9月9日5274205140113-99凯尔特人是335月15日0-46月7日3147003516143-138东部明星是284月9日0-31月2日224822129101-125快船是397月13日0-06月6日2351100622091-85太阳是361月8日0-42月2日41591181497-107热火是3711月19日0-06月8日5169104228100-93山猫是386月15日0-28月8日707801302095-116凯尔特人是309月15日0-19月9日437000422792-83篮网是379月24日0-23月3日7184415121数理统计998-97活塞是378月20日0-32月3日3035203018111-100森林狼是394月13日1月4日8月10日10212800421786-9
本文标题:重庆大学研究生数理统计大作业
链接地址:https://www.777doc.com/doc-7295548 .html