您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 4. 数据描述性分析
河北工程大学数学系第一章数据描述性分析数据描述性分析研究背景研究方案研究成果研总结数据分析研究的对象是数据,它们是个观测值:如果这个观测值就是所要研究对象的全体,那么数据分析的任务就是提取数据中包含的有用的信息。如果数据是从总体中抽出的样本,就要分析推断样本中包含的总体的信息。n,,,,21nxxxn均值、方差等数字特征研究背景研究方案研究成果研总结n•一元数据的数字特征主要是以下几种。设个观测值为其中称为样本容量。1均值:即是的平均数:均值表示数据的集中位置。n,,,,21nxxx,,,,21nxxxniixnx11均值、方差等数字特征研究背景研总结•方差、标准差与变异系数方差是描述数据取值分散性的一个度量,其量纲是数据量纲的平方。标准差niixxns122)(11niixxnss122)(11均值、方差等数字特征研究背景研总结变异系数:刻画数据相对分散性的度量CV=校正平方和CSS=未校平方和USS=(%)100xsniixx12)(niix12均值、方差等数字特征研究背景研总结3偏度与峰度偏度与峰度是刻画数据的偏态、尾重程度的度量。它们与数据的矩有关。数据的矩分为原点矩与中心矩。k阶原点矩k阶中心矩nikikxnv111)(1ikikxxnnu均值、方差等数字特征研究背景研总结偏度其中s是标准差。偏度是刻画数据对称性的指标。关于均值对成的数据其偏度为0,右侧更分散的数据偏度为正,左侧更分散的数据偏度为负。3321331)2)(1()()2)(1(snnunxxsnnngnii偏度研究背景研总结频数频数频数偏向左0对称=0偏向右0均值、方差等数字特征研究背景研总结峰度当数据的总体分布为正态分布时,峰度近似为0;当分布较正态分布的尾部更为分散时,峰度为正,否则峰度为负。当峰度为正时,两侧极端数据较多;当峰度为负时,两侧极端数据较少。222442441(1)(1)(1)(1)()33(1)(2)(3)(2)(3)(1)(2)(3)(2)(3)niinnunnnngxxnnnsnnnnnsnn总体的数据特征研究背景研总结•设观测数据是由总体X中取出的样本,总体的分布函数是F。当X为离散分布时,总体的分布可由概率分布列刻画:总体为连续分布时,总体的分布可由概率密度刻画。连续分布中最重要的是正态分布,它的概率密度及分布函数分别为,iixXPp.,2,1i总体的数据特征研究背景研总结具有正态分布的总体成为正态总体。222)(exp21)(xx()()xxtdt总体的数据特征研究背景研总结•与样本数字特征对应的是总体的数字特征总体均值总体方差总体标准差总体变异系数)(xE)(2XVar)(XVar总体的数据特征研究背景研总结总体原点矩(k阶)总体中心矩(k阶)总体偏度总体峰度)(kkXEkkxE)(331G3442G总体的数据特征研究背景研总结偏度为正的概率密度偏度为负的概率密度f(x)f(x)xx总体的数据特征研究背景研总结总体峰度是以同方差的正态分布为标准,比较总体分布尾部分散性的指标。细尾,峰度为负正态分布,总体峰度为0粗尾,峰度为正总体数字特征和样本数字特征研究背景研总结根据统计学的结果,样本数字特征是相应的总体数字特征的矩估计。当总体数字特征存在时,相应的样本数字特征是总体数字特征的相合估计,从而当n较大时,有x22ssCVkkvkku11gG22gG总体数字特征和样本数字特征研究背景研总结•当观测数据是所要研究对象的全体时,数据的分布即总体分布,我们认为取得每一个观测数据是等可能性的,即为;总体分布是离散均匀分布:对这种情况,数据数字特征即总体数字特征--让数据本身说话。12,,,nxxxixn1nxXPi1.,,2,1niMEANS过程研究背景研总结PROCMEANS选择项(options)VAR变量名表;指定需求计算的数值变量及次序BY变量名表;按其取值形成多个观测组,然后计算对应的描述性统计量(要求对By变量已排序)CLASS变量名表;与By类似,但不要求事前排序,结果以单表形式输出FREQ变量名表;输入数据系频数表资料时才使用OUTPUTOUT=SAS数据集统计量关键词=变量名表;SAS中可以计算的描述性统计量部分关键字及其含义研究背景研总结关键字所代表的含义n有效数据记录数nmiss缺失数据记录数mean均值std标准差var方差median中位数mode众数CV变异系数max最大值SAS中可以计算的描述性统计量部分关键字及其含义研究背景研总结关键字所代表的含义min最小值css校正的离均差平方和uss未校正的离均差平方和skew偏度kurt峰度clm可信限(上下界值)lclm可信限下侧界值uclm可信限上侧界值qrange四分位数间距例研究背景研总结从19个杆塔上的普通盘形绝缘子测得该层电导率的数据如下:9.898.006.406.175.397.279.0810.4011.208.756.4511.9010.309.589.247.756.208.958.33计算均值、方差、标准差、变异系数、偏度、峰度。s例研究背景研总结例研究背景研总结例研究背景研总结例研究背景研总结通过计算,得=8.487,=3.046,=1.845,CV=21.745,=0.035,=-0.852,的绝对值比较小,可以认为是来自正态总体的数据。xs1g2g1g2g2s例研究背景研总结•某厂的某种悬式绝缘子机电破坏负荷试验数据(单位:吨)分组表示如表,计算这批分组数据的均值、方差、标准差、变异系数、偏度、峰度。组段组中值组频数5.5~6.05.7546.0~6.56.2536.5~7.06.75157.0~7.57.25427.5~8.07.75498.0~8.58.25788.5~9.08.75509.0~9.59.25319.5~10.09.755例研究背景研总结例研究背景研总结例研究背景研总结某克山区病测得11例克山病患者与13名健康人的血磷值(nmol/L)如表,试求两组的平均血磷值和标准差。患者组0.841.051.201.201.391.531.671.801.872.072.11健康组0.540.640.640.750.760.811.161.201.341.351.481.581.87例研究背景研总结SAS程序为datap9;dog=1to2;inputn;doi=1ton;inputx@@;output;end;end;Cards;110.841.051.201.201.391.531.671.801.872.072.11130.540.640.640.750.760.811.161.201.341.351.481.581.87;procmeans;varx;byg;run;例研究背景研总结ProcUNIVARIATE研究背景研总结•统计程序univariate与统计程序means的功能大同小异,都可以计算数值变量的描述性统计值•但UNIVARIATE能够对变量的分配情形提供更多的信息:指出一个变量上的极端值;计算四分位数;绘制分配图;产生次数分配表;检定资料是否呈现常态分配;产生统计值输出文件,以供稍后的分析。univariate过程的一般格式研总结procunivariate选项列表;by变量名称(分组变量);class变量名称(分组变量);freq变量名称(数值变量,用以表示相应记录出现的频数)weight变量名称(数值变量,用以表示相应记录的权重系数)histogram变量名称/选项列表outputout=数据集名统计量关键字=自定义变量名var变量名称(待分析的数值变量);run;univariate过程的一般格式研总结•在一个Univariate过程中,output指令可以多次使用,但是其他六道指令只能出现一次;•这六道指令可以按任何顺序出现。procunivariate选项列表•Data=输入资料文件名称若省略此选项,SAS会找出在本程序之前最后形成的资料文件,并对它进行分析;•Noprint若只要产生统计值的输出文件,而不想印出报表,可用此选项来抑制报表的产生;•Plot产生三种图形:茎叶图或平行条状图、箱线图、常态概率图;procunivariate选项列表FREQ产生一个次数分配表,这个表包括变量值的出现次数、百分比及累积百分比;NORMAL检定输入资料是否呈现常态分配,并且输出其检定的结果;PCDLDEF={1/2/3/4/5}此选项来决定计算百分位数的方法,默认值为4;VARDEF指令VAR变量名称串1列举需要进行描述性统计分析的变量名称;2若省略此指令,将对输入文件中所有数值变量进行分析;3若选用output指令,则不可省略var指令。指令BY变量名称;UNIVARIATE程序依据此指令所列举的变量,将文件分成几个小文件,然后就每个小文件,分别执行分析,选用此指令时,文件内的数据必须先按照BY变量串的值做由大到小的重新排列,这个步骤也可借由PROCSORT达成。指令FREQ变量名称:这个变量必须是输入文件中的一个数值变量,其值代表观察体重复出现的次数。若此变量的值含小数,则取其整数部分。若其值小于1,则此观察体将被剔除在计算过程之外。中位数、分位数、三均值与极差•均值、方差、标准差等数字特征是总体相应特征值的一种矩估计,更适合于来自正态分布的数据的分析。若总体的分布未知,或者数据严重偏态,有若干异常值(极端值),上述分析数据的方法不甚合适,而应计算中位数、分位数、三均值、极差等数据数字特征,计算上述特征需要用到次序统计量。次序统计量中位数与极差•中位数的计算公式是中位数是描述数据中心位置的数字特征。大体上比中位数大或小的数据个数为整个数据个数的一半。中位数与极差对于对称分布的数据,均值与中位数较接近;对于偏态分布的数据,均值与中位数不同。中位数的另一个显著特点是不受异常值(特大或特小)的影响,具有稳健性,因此它是数据分析中相当重要的统计量。极差的计算公式是它是描述数据分散性的数字特征。数据越分散,极差越大。例•考虑下列样本:53113178写出次序计量,并求中位数、极差。分位数•对和容量为的样本它的分位数是10pn,,,,21nxxxp分位数分位数又称为第100百分数。大体上整个样本的100%的观测值不超过分位数.0.5分位数(第50百分位数)就是中位数M。在实际应用中,0.75分位数与0.25分位数(第75百分位与第25百分位数)比较重要,它们分别称为上、下四分位数,并简记为下列分位数也在实际应用中经常用到:,,,,,pppp5.0M,75.03MQ25.01MQ0.99M95.0M90.0M10.0M05.0M01.0M例•考虑下列样本:53113178计算上面数据的,,及,,,,,.99.0M95.0M90.0M10.0M05.0M01.0M3Q1Q例30.75np=0.75*7=5.25Q(51)(6)8Mxx10.25(11)(2)3;QMxx以此类推,我们可以得到其他的结果:0.990.950.900.100.050.0111,11,11,1,1,1.MMMMMM均值与中位数M皆是描述数据集中位置的数字特征。计算时,用了样本的全部信息,而M仅用了数据分布中的部分信息。因此,在正常情况下,用比用M描述数据的集中位置为优。然而,当存在异常值时,缺乏稳健性,而M具有很强的稳健性。考虑到要充分利用样本信息,又要具有较强的稳健性,可以用三均值作为数据集中位置的数字特征。三均值的计算公式是:xx12,,,nxxxxx例从19个杆塔上的普通盘形绝缘子测得该层电导率的数据如下:9.898.006.406.175.397.279.0810.4011.208.756.4511.9
本文标题:4. 数据描述性分析
链接地址:https://www.777doc.com/doc-3509864 .html