您好,欢迎访问三七文档
1.数据分析模型怎样表述、解读、分析、发现规律?现实生活中的数据:数量繁多、杂乱无章.•找出有代表性的数值或者利用图形表述,分析、解释相关的实际现象.•利用统计方法通过大量数据探索、发现研究对象的数量规律.(本书提高篇第7章)1.1薪金到底是多少1.2评选举重总冠军1.3估计出租车的总数1.4解读CPI1.5NBA赛程的分析与评价——全国大学生数学建模竞赛2008年D题1.数据分析模型1.1薪金到底是多少日常生活中遇到的数据:•一个班的考试成绩及按成绩的排名•一个年级全部男同学的身高•超市中各个品牌牙膏一个月的销量•公司里每位职工一个月的薪金用几个数简明地表示一组数据整体的大小.n个数据的代表数平均数~n个数据的算术平均值.n个数据的代表数中位数~n个数据从小到大(或从大到小)排序位于正中的数.若n为偶数,取位于正中的2个数的平均值.众数~n个数据中出现次数最多的那个(或几个)数.3个代表数反映一组数据整体大小的不同侧面.某公司100位职工的月薪/千元月薪402520151086543人数126812171824102薪金到底是多少平均数:8.6千元.中位数:6千元(第50、51人都是6000元).众数:5千元(5千元的人数最多).公司高层对外宣传.工会干部为职工争取福利.税务部门调查个人所得税的起征点.3个代表数的特点平均数~平等利用每一数据的信息,反映数据整体大小;有方便的计算公式,应用最广.受少数特大或特小数据影响,会失去代表性.中位数~只取决于按大小排列的位置,不受特大或特小数据影响,能反映数据的中等水平.未充分利用信息;数据量大时计算较繁.众数~常作为选择“最多”,“最佳”的依据.未充分利用信息;“并列第一”时无法做唯一抉择.如何选用代表数与10年前同龄男生身高作对比,估计增长量.•数据:某高三年级全部男同学的身高.定制校服尺寸的参考.•数据:生产小组15个工人每人一天生产零件的数目与其他小组比较,作为评选先进的参考.制定标准日产量,使多数人能超产.平均数众数平均数中位数•数据:班上20名学生一次考试成绩:15人80分,2人90分,1人10分,1人15分,小李75分.如何选用代表数与其他班级或本班以前成绩对比.小李衡量自己的标准.其他代表数平均分74分中位数80分高于平均分!倒数第3名!跳水比赛的评分标准7位裁判的分数去掉一个最高分和一个最低分,剩下5个分数的总和乘以动作难度系数,为最后得分.中位数和平均数的结合哪种解读更有道理某股份制公司50名职工和5位股东近3年的利润分配年份职工薪金总额/万元股东分红总额/万元201130010020124001502013500200职工薪金股东分红500400300200100201120122013a.总额/万元职工薪金股东分红200150100201120122013b.增长率/%职工薪金股东分红40302010201120122013c.人均/(万元/人)公司老板:职工薪金比股东分红增长得更多、更快,可谓有福同享.哪种解读更有道理工会负责人:2013年职工薪金增长到167%,股东分红增长到200%,应更顾及职工利益.职工:与股东人均分红相比,职工人均薪金增长得太慢,呼吁大幅度增加职工的薪金.职工薪金股东分红500400300200100201120122013a.总额/万元职工薪金股东分红200150100201120122013b.增长率/%职工薪金股东分红40302010201120122013c.人均/(万元/人)哪种解读更有道理职工薪金股东分红500400300200100201120122013a.总额/万元职工薪金股东分红200150100201120122013b.增长率/%职工薪金均值股东分红均值40302010201120122013c.均值/(万元/人)k=0,1,2(2011,2012,2013)xk~职工薪金总额,yk~股东分红总额xk斜率大于yk斜率yk/y0斜率大于xk/x0斜率斜率相差5倍职工薪金增长快股东分红增长快股东人均分红增长快•数值随时间的变化可以用绝对增长或相对增长表示,二者说明同一问题的不同侧面.小结与评注•同样的一组数据可以有不同的表述和解读办法,取决于要说明什么问题,达到什么目的.•3个常用的代表数:平均数、中位数和众数,具有各自的特点和用法.举重1.2评选举重总冠军依靠运动员全身力量完成的体育项目按照运动员体重划分级别进行比赛.赛艇拳击摔跤每个级别都有一个冠军.能评选出一个“总冠军”吗?……56kg,62kg,69kg,77kg,85kg,94kg,105kg,105kg以上.1.2评选举重总冠军男子举重比赛按运动员体重(上限)分为8个级别:问题每个级别设3个项目:抓举、挺举、总成绩.每个级别、每个项目都产生一个冠军.同一项目(如抓举)的8个冠军中怎样选出“总冠军”?不同级别冠军成绩按体重“折合”到某个标准级别,比较折合成绩,选出最高的作为总冠军.1.2评选举重总冠军问题分析比赛产生各级别冠军成绩的实际值建立体重与举重成绩的数学模型计算各级别冠军举重成绩的理论值计算实际值与理论值的比值构造一个简单、合适的指标作为折合成绩各级别冠军折合成绩最高的为总冠军数据收集利用举重比赛的世界纪录建立数学模型.62kg级抓举153kg石智勇(中国)2002.6.28世界大学生举重锦标赛挺举182kg乐茂盛(中国)2002.10.2第14届亚洲运动会总成绩327kg金恩国(朝鲜)2012.7.31伦敦第30届奥运会69kg级抓举165kg马尔科夫(保加利亚)2000.9.20悉尼第27届奥运会挺举198kg廖辉(中国)2013.10.232013年世界举重锦标赛总成绩358kg廖辉(中国)2013.10.232013年世界举重锦标赛级别项目纪录纪录保持者日期比赛名称•多年积累下来的世界记录与某一次比赛成绩相比,更能避免偶然性.•不同级别成绩的差别基本上由运动员体重决定.不掌握创造记录的运动员的实际体重.因为体重越大、举得越重,比赛时运动员体重都会调整到非常接近各级别的上限.105kg以上级未设上限,只在其余7个级别中选总冠军.数据收集利用举重比赛的世界纪录建立数学模型.用每个级别的上限代表运动员的实际体重.世界记录与体重数据的散点图数据分析大致呈线性关系大级别成绩的增加变慢线性关系有所改进幂函数(幂次小于1)可能更合适556065707580859095100105110100150200250300350400450x抓举+挺举*总成绩世界记录体重普通坐标1.71.751.81.851.91.9522.12.22.32.42.52.62.7x抓举+挺举*总成绩世界记录体重对数坐标建立举重总成绩y与运动员体重w的数学模型模型建立模型1线性模型最小二乘法编程计算k=2.7039-60k430/160=2.69估算线性模型-60-40-20020406080100120050100150200250300350400450wyyw430160模型2幂函数模型运动生理学确定幂函数的幂次举重总成绩y与运动员体重w的模型s~肌肉截面积l~身体尺寸最小二乘法编程计算k=20.4711幂函数模型14151617181920212223300320340360380400420440w2/3yyw2/3模型3幂函数改进模型举重总成绩y与运动员体重w的模型最小二乘法•举重过程中力量的损失及身体尺寸的变化.50名顶尖运动员成绩的统计分析幂函数改进模型非肌肉部分举重总成绩y与运动员体重w的模型5060708090100110300350400450线性模型5060708090100110250300350400450500幂函数模型5060708090100110250300350400450幂函数改进模型级别总成绩纪录线性模型幂函数模型幂函数改进模型56kg级305kg313.6486(-2.76%)299.6405(1.79%)298.2689(2.26%)62kg级327kg329.8718(-0.87%)320.6784(1.97%)324.3317(0.82%)69kg级358kg348.7988(2.64%)344.3827(3.95%)350.2363(2.22%)77kg级379kg370.4298(2.58%)370.5121(2.56%)375.7952(1.12%)两个幂函数模型比线性模型改进不大.1.71%2.32%1.47%总平均误差评选总冠军wi(i=1,2,…,7)~从轻到重7个级别的体重(上限)线性模型幂函数模型幂函数改进模型各级别冠军的理论成绩yi~一次比赛中各级别冠军的实际成绩级别i冠军在评选总冠军中实力以线性模型为例评选总冠军任取级别i=4(w4=77kg级)为标准使z4=y4与实力成正比的指标按7个级别冠军的折合成绩排名,第一者为总冠军.~将体重折合成77kg级后级别i冠军的实际成绩.折合成绩模型中系数k随世界纪录的刷新而改变.评选总冠军折合成绩线性模型幂函数模型幂函数改进模型评选2008年北京奥运会男子举重比赛总冠军级别冠军获得者总成绩折合成绩及名次线性模型幂函数模型幂函数改进模型56kg级龙清泉(中)292kg344.8621(7)361.0644(5)367.8969(4)62kg级张湘祥(中)319kg358.2213(6)368.5729(3)369.6175(3)69kg级廖辉(中)348kg369.5814(2)374.4039(1)373.3957(1)77kg级史才秀(韩)366kg366.0000(3)366.0000(4)366.0000(6)85kg级陆永(中)394kg372.2621(1)368.8735(2)371.7543(2)94kg级伊利亚(哈)406kg361.1818(5)355.4413(6)362.5143(7)105kg级阿拉姆诺夫(白)436kg362.0121(4)354.5581(7)367.7366(5)69kg级廖辉(中)348kg369.5814(2)374.4039(1)373.3957(1)•3个模型中都只有一个以因子形式出现的系数k,可以在构造折合成绩时消去,便于评选总冠军.小结与评注•举重成绩与体重关系的数学模型是评选总冠军方法的基础.•通过世界纪录数据观察和机理分析分别建立线性模型、幂函数模型和幂函数改进模型.1.3估计出租车的总数一些人喜欢记驶过身旁的汽车牌号.两难境地的决策与朋友打赌的“骰子”共识:出现任何号码汽车的机会相同.随意记下驶过的10辆出租车牌号:0421,0128,0702,0410,0598,0674,0712,0529,0867,0312估计这座城市出租车的总数.出租车牌号从某一个数字0101按顺序发放.1.3估计出租车的总数问题分析0x0x1x2x3x4x5x6x7x8x9x10x10个号码从小到大重新排列.[x0,x]区间内全部整数值~总体x1,x2,…,x10~总体的一个样本根据样本和x0对总体的x作出估计.起始号码(已知)终止号码(未知)出租车总数为x-x0+1起始号码x0平移为0001模型建立总体~全部号码{0001,0002,…,x}样本~总体中的n个号码从小到大排列x1,x2,…,xn建立由x1,x2,…,xn估计x的模型基本假定:每个xi取自总体中任一号码的概率相等.x~出租车总数1.3估计出租车的总数模型1平均值模型模型建立总数是样本均值的2倍模型2中位数模型x0=1x1x2x3……xn-1xnxx1-1x-xn假定:样本的最小值与最大值在总体中对称.模型3两端间隔对称模型x1-1=x-xn模型4平均间隔模型把起始号码和样本排成数列:1,x1,x2,…,xn,相邻两数有n个间隔:x11,x2x11,…,xnxn-11n个间隔的平均值作为xn与x间隔的估计模型5区间均分模型将总体区间[1,x]平均分成n份.每个小区间长度假定:样本中每个xi都位于小区间的中点.xxn应是小区间长度的一半计算
本文标题:第一章数据分析模型
链接地址:https://www.777doc.com/doc-3418732 .html