您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业文化 > 实验二-数据描述与分析
1实验二数据描述与分析一、填空题1、统计数据分布的特征,可以从三个方面进行测度和描述:一是分布的__集中趋势__,反映所有数据向其中心值靠拢或聚集的程度;二是分布的__离散程度__,反映各数据远离其中心值的趋势;三是分布的__偏度与峰度__,反映数据分布的形状。2、在一组数据分布中,当算术平均数大于中位数大于众数时属于__右偏__分布;当算术平均数小于中位数小于众数时属于__左偏__分布。3、___方差___是各变量值与其均值离差平方的平均数,是测度数值型数据_离散程度_最主要的方法。4、偏态是对分布偏斜方向__和___程度___的测度;而峰度则是指分布集中趋势尖峭程度__的形状。二、判断题1、根据组距式数列计算得到的算术平均数只能是一个近似值。()2、众数的大小只取决于众数组相邻组次数的多少。()3、若已知甲数列的标准差小于乙数列,则可断言:甲数列算术平均数的代表性好于乙数列。()4、如果数据的分布没有明显的集中趋势或最高峰点,众数也可能不存在。()5、离散系数最适合于不同性质或不同水平数列算术平均数代表性的比较。()6、当偏态系数α=0时,表明数据分布属于对称分布。()7、当峰度系数β=0时,表明数据分布属于正态分布。()三、单项选择题1、由组距式数列确定众数时,如果众数组相邻两组的次数相等,则(B)A.众数为零B.众数组的组中值就是众数C.众数不能确定D.众数组的组限就是众数2、受极端数值影响最小的集中趋势值是(B)A.算术平均数B.众数和中位数C.几何平均数D.调和平均数3、标准差系数抽象了(D)A.总体单位数多少的影响B.算术平均数高低的影响C.总体指标数值大小的影响D.标志变异程度的影响4、某公司2003年管理人员年均收入35000元,生产人员为25000元;2004年各类人员年均收入水平不变,但管理人员增加15%,生产人员增加25%,则两类人员平均的年收入2004年比2003年(C)A.提高B.下降C.持平D.无法判断5、离散程度测度值中,由总体中最大变量值和最小变量值之差决定的是(D)A.方差B.标准差C.平均差D.极差6、分配数列各组变量值都减少一半,每组次数加1倍,中位数(C)A.减少一半B.增加1倍C.增加2倍D.不变7、离散程度的测度值愈大,则(A)2A.反映变量值愈分散,算术平均数代表性愈差B.反映变量值愈集中,算术平均数代表性愈差C.反映变量值愈分散,算术平均数代表性愈好D.反映变量值愈集中,算术平均数代表性愈好8、甲数列的算术平均数为100,标准差为12.8;乙数列的算术平均数为14.5,标准差为3.7,故(B)A.两数列算术平均数的代表性相同B.乙数列算术平均数的代表性好于甲数列C.甲数列算术平均数的代表性好于乙数列D.两数列算术平均数的代表性无法比较四、计算题1949-1990年我国洪涝灾害统计数据如下表所示,请解决以下问题:(1)计算各项指标的平均值、标准差、变异系数、偏度与峰度;(2)各项指标是否服从正态分布?若服从正态分布,计算概率为1%时的受灾面积、受灾人口及直接经济损失。解:(1)已知均值:niixnx11标准差:21)(11niixxns变异系数:(%)100xsCV偏度:31)()2)(1(niisxxnnng3峰度:)3)(1()1(3)()3)(2)(1()1(214nnnsxxnnnnnnii为了使计算变得准确快捷,在此采用MATLAB仿真计算,程序如下:%输入数据于矩阵AA=[928.22006190300;65619282028.87;41760112614.71279.4105923339.56;74181210897.38;1613393720930052540713061.56;14382576326801.7;808.2787045708.41428113214692;48184525746;101668258179.59887186726172.85;981150153865.8;14072757629755.21493156131458.73;55968323751.14;251107968286.03170.8957514286.03;224.343728232.32;463.18125223293.5531330517424.71;39961815312.09;408160821804624174614378.77;640198835974.6;68212081000000420258926163.63;910187260604.77;285213026155.93676219154798.1;915410690339.39;8624560335319.38364499120239.5;12165294221760.3;1069015301419.731294470282;915.53321703600;868.62105246253.31194.933522803387.8;1132.80233000;1180.476111591968];M=mean(A)%M表示各指标数据均值D=std(A)%D表示各指标标准差V=D./M%V表示各指标变异系数PD=skewness(A,0)%PD表示各指标偏度FD=kurtosis(A,0)-3%FD表示各指标峰度计算结果如下:M=1.0e+05*0.00780.01861.8814D=1.0e+05*0.00390.01593.2462V=0.49480.85381.7254PD=0.37081.62962.7461FD=-0.71793.22098.4567计算结果M、D表明:42年来受灾面积统计数据的平均数是780,受灾人口统计数据的平均数是1860,直接经济损失统计数据的平均数是18814;受灾面积数据的标准差是390,受灾人口数据的标准差是1590,直接经济损失数据的标准差是32462。对每项指标作散点QQ图,判断是否服从正态分布,程序如下:subplot(2,2,1);normplot(A(:,1))subplot(2,2,2);normplot(A(:,2))subplot(2,2,3);normplot(A(:,3))结果如图所示:4500100015000.010.020.050.100.250.500.750.900.950.980.99DataProbabilityNormalProbabilityPlot02000400060000.010.020.050.100.250.500.750.900.950.980.99DataProbabilityNormalProbabilityPlot051015x1050.010.020.050.100.250.500.750.900.950.980.99DataProbabilityNormalProbabilityPlot实验分析:从结果可以看出,受灾面积可以认为符合正态分布,但还需要进一步检验,受灾人口和直接经济损失肯定不符合正态分布。下面使用Lilliefors检验对上面结果进行检验,程序如下:[h1,p1,lstat1,cv1]=lillietest(A(:,1))[h2,p2,lstat2,cv2]=lillietest(A(:,2))[h3,p3,lstat3,cv3]=lillietest(A(:,3))实验结果:h1=0p1=0.5000lstat1=0.0900cv1=0.1354h2=1p2=0.0016lstat2=0.1790cv2=0.1354h3=1p3=1.0000e-03lstat3=0.2869cv3=0.1354显然可知,通过检验发现,当显著水平为0.05时,受灾面积无法拒绝服从正态分布,其他两项指标不服从正态分布。下面,对服从正态分布的受灾面积计算概率为1%时的受灾面积,程序如下:area=norminv(0.01,M(1),D(1))结果为:area=1676.5即概率为1%时的受灾面积是1676.5。
本文标题:实验二-数据描述与分析
链接地址:https://www.777doc.com/doc-4637593 .html