您好,欢迎访问三七文档
当前位置:首页 > 高等教育 > 理学 > 重庆工商大学数学模型与数学实验课件第13讲 数据的统计与分析
大学数学实验ExperimentsinMathematics实验10数据的统计与分析《数学建模与数学实验》---李焕荣数据的统计与分析的两类方法第一类:一般意义的统计(普查)对生产的全部1000件产品逐一检验,发现18件次品对全区居民逐一调查,得到月平均支出为828元结果分析:次品率:1.8%;月平均支出为828元优点:结果完全确定,可信缺点:调查、收集的数据量可能很大,经费投入大,有些产品不允许全部检验,如灯泡、电器的寿命等缺点:结果是随机的,是否可信?第二类:数理统计(抽查)全部产品中随机抽取100件,发现2件次品随机调查了200位居民,得到月平均支出为788元结果分析:次品率:2%;月平均支出788元优点:调查、收集的数据量小,经费投入小,适合不允许全部检验的产品,如灯泡、电器的寿命等任务:怎样用它来估计整体的状况(全部产品的次品率,全体居民的月平均支出)数据的统计与分析基本内容2.数据的整理和描述3.随机变量的概率分布及数字特征1.实例及其分析4.用随机模拟计算数值积分5.实例的建模和求解1.实例及其分析实例1:报童的利润报童每天从发行商处购进报纸零售,晚上将没有卖掉的报纸退回。如果每份报纸的购进价为a,每份报纸的零售价为b,每份报纸的退回价(发行商返回报童的钱)为c,且满足b≥a≥c。每天报纸的需求量是随机的。为了获得最大的利润,该报童每天应购进多少份报纸?假定a=0.8元,b=1元,c=0.75元,为报童提供最佳决策。需求量100—120—140—160—180—200—220—240—260—280—天数3913223235201582159天报纸需求量的情况分析:每天报纸的需求量随机,报童每天的利润也是随机的。只能以长期售报过程中每天的平均利润最大为目标,确定最佳决策。数学模型近似:决策变量:报童每天购进报纸的份数n可以通过历史数据得到每天需求量为r的天数所占的百分比,记做f(r),如需要200份所占的百分比为35/159=22%平均利润:V(n)nrnrrfnabrfrncarabnV)(])[()()])(()[()(10实例1:报童的利润(续)实例2:路灯更换策略管理部门:不亮灯泡,折合计时进行罚款。路政部门:路灯维护条件:需要专用云梯车进行线路检测和更换灯泡向相应的管理部门提出电力使用和道路管制申请向雇用的各类人员支付报酬等更换策略:整批更换路政部门的问题:多长时间进行一次灯泡的全部更换,换早了,很多灯泡还没有坏;换晚了,要承受太多的罚款。2.数据的整理和描述数据的收集和样本的概念数据的整理、频数表和直方图统计量MATLAB命令数据的收集某银行为使顾客感到亲切以吸引更多的资金,计划对柜台的高度进行调整。银行随机选了50名顾客进行调查,测量每个顾客感觉舒适时的柜台高度,表2为得到的数据。银行怎样依据它确定柜台高度呢?50顾客感觉舒适高度(单位:厘米)1001101369710410095120119991261131151089311610212212112211811711410611011912711912511910595117109140121122131108120115112130116119134124128115110基本概念总体--研究对象的全体。如所有顾客感觉舒适的高度个体--总体中一个基本单位。如一位顾客的舒适高度样本--若干个体的集合。如50位顾客的舒适高度样本容量--样本中个体数。如50顾客群体的舒适高度~随机变量X,概率分布F(x)n位顾客的舒适高度{xi,i=1,…n}(样本)~相互独立的、分布均为F(x)的一组随机变量。样本:随机取值的一组数据;一组相互独立的、同分布的随机变量。样本——统计研究的主要对象数据的整理比较直观,比较清晰的结论21—50岁的中青年患者大约占总发病人数的3/4,提醒民众中青年是易感人群。年龄10岁以下11-20岁21-30岁31-40岁41-50岁51岁以上总数人数241456773823323371897比例1.27%7.64%35.69%20.14%17.50%17.77%100%北京地区SARS患者的统计数据(截至2003年5月5日)频数表和直方图将数据的取值范围划分为若干个区间,统计这组数据在每个区间中出现的次数,称为频数,得到一个频数表。柜台高度频数表中点95.35100.05104.75109.45114.15118.85123.55128.25132.95137.65频数44368125422推测出总体的某些简单性质。如表6表明选择柜台高度在107.10至125.90的有31人,占总人数的62%,柜台高度设计在这个范围内,会得到大多数顾客的满意。直方图(histogram),或频数分布图9095100105110115120125130135140024681012柜台高度直方图统计量平均值(mean,简称样本均值)定义为频数表和直方图给出某个范围的状况,无法直接给出具体值,如例1关于确定柜台高度的问题niixnx1126.115x可作为设计柜台高度的参考值两个班的一次考试成绩序号12345678910111213141516甲班92888592957984878865937388879480乙班84838285828182908478758378858479序号17181920212223242526272829303132甲班69868878796888875593798590539981乙班857390778182828086837778现象:甲班的平均值:82.75分,乙班的平均值:81.75分结论:大致表明甲班的平均成绩稍高于乙班现象:甲班中90分以上的有7人,但有2人不及格,分数比较分散。乙班全在73分到90分之间,分数相对集中40608010002468101214406080100024681012141618为了描述数据的这种分散程度(统计上称为变异),统计上引入标准差的概念。样本x=(x1,x2,,xn)的标准差(Standarddeviation)为:2/121])(11[xxnsnii甲班的标准差为10.98分,乙班的标准差为3.98分,表明甲班成绩的分散程度远大于乙班。统计量:由样本加工出来的、集中反映样本数量特征的函数。三类统计量:表示位置的,表示变异程度的,表示分布形状的。3131)(1xxnsgnii4142)(1xxnsgnii偏度(skewness):分布对称性峰度(kurtosis):分布形状表示位置的还有:中位数(median):将数据由小到大排序后处于中间位置的那个数值。当样本容量n为奇数时,中位数唯一确定;当n为偶数时,定义为中间两个数的平均值。表示变异程度的还有:极差(range):x1,x2,,xn的最大值与最小值之差。方差(variance):标准差的平方s2。表示分布形状的:MATLAB数据描述的常用命令命令名称输入输出注意事项[n,y]=hist(x,k)频数表x:原始数据行向量k:等分区间数n:频数行向量y:区间中点行向量[n,y]=hist(x)中k取缺省值10hist(x,k)直方图同上直方图同上mean(x)均值x:原始数据行向量median(x)中位数同上中位数range(x)极差同上极差std(x)标准差同上标准差sstd(x,1):(3)式中n-1改成nvar(x)方差同上方差s2var(x,1):同上skewness(x)偏度同上偏度g1kurtosis(x)峰度同上峰度g2求银行柜台高度的频数表、直方图及均值等统计量:X=[100110136971041009512011999...%输入表2数据,...为延续符号12611311510893116102122121122...118117114106110119127119125119...10595117109140121122131108120...115112130116119134124128115110];[N,Y]=hist(X),%频数表hist(X),%直方图x1=mean(X),x2=median(X)%各个统计量x3=range(X),x4=std(X)x5=skewness(X),x6=kurtosis(X)示例输出图和下列结果:N=44368125422Y=95.3500100.0500104.7500109.4500114.1500118.8500123.5500128.2500132.9500137.6500x1=115.2600,x2=116.5000x3=47,x4=10.9690x5=-0.0971,x6=2.62163.随机变量的概率分布及数字特征频率与概率概率密度与分布函数期望和方差常用的概率分布MATLAB命令频率与概率在保证抽取样本的随机性和独立性,当样本容量无限增大时,频率会趋向一个确定值,这个值称为随机变量X落入区间(a,b]的概率(Probability),记作频率:样本数据在一个确定区间(a,b]的频数k与样本容量n的比值nkbXaf)()(bXaP90951001051101151201251301351400.24p(x)概率密度与分布函数dxxpbXaPba)()(概率密度函数(Probabilitydensityfunction,简称概率密度):0)(xp1)(dxxp概率分布函数(Cumulativedistributionfunction,简称分布函数)xdxxpxXPxF)()()(1)(,0)(FF)()(}{aFbFbXaPdxdFxp)(对于连续随机变量期望和方差随机变量X的期望就是平均值的意思,记作EX或dxxxpEX)(dxxpEXxDX)()(2ExExnxEnii11nDxDxnxDnii121常用的概率分布均匀分布(Uniformdistribution):X~U(a,b)其他。,0],,[,1)(baxabxp12)(,22abDXbaEX指数分布(Exponentialdistribution):X~Exp()其他,00,1)(xexpx2,DXEX-1012345600.10.20.30.40.5U(0,2)U(1,5)图5均匀分布概率密度函数图形024681000.10.20.30.40.5Exp(2)Exp(4)正态分布(Normdistribution):)2)(exp(21)(22xxp2,DXEX-6-4-2024600.10.20.30.4N(0,1)N(0,22)),(~2NX2分布(Chisquare):niiXY12)(~2nY,n称自由度0510152000.050.10.150.2Chi2(5)Chi2(10)定义:服从标准正态分布的随机变量nXXX,,21其中相互独立、)(~ntTn为自由度t分布(Student分布)-6-4-2024600.10.20.30.4t(2)t(20)nYXT/)1,0(~NX)(~2nY其中,X,Y相互独立定义:F分布:),(~21nnFF),(21nn称自由度00.511.522.5300.20.40.60.81F(10,5)F(10,50)21//nYnXF)(~12nX)(~22nY相互独立定义:一次实验只有两种结果:成功和失败,记成功的概率为p,q=1-p,n次独立实验中成功的次数是随机变量XnkqpknkXPknk,,1,0,)(npqDXnpEX,当二项分布的n,np(常数)时,2,1,0,!)(kekkXPkDXEX,二项分布(Binomialdistribution)X~B(n,p)泊松分布(
本文标题:重庆工商大学数学模型与数学实验课件第13讲 数据的统计与分析
链接地址:https://www.777doc.com/doc-10667347 .html