您好,欢迎访问三七文档
第一节精彩的数据整理人:曹阳1.1无处不在的数据•数据,无处不在的数据信息经历了从匮乏到过剩的过程。肯尼斯·库克耶(KennethCukier)说,这既带来了许多好处,也很让人头疼。•我们的每一天的生活都离不开数据•我们生活在一个信息爆炸的时代,谁掌握了数据和数据的分析能力谁就掌握了时代的脉搏。1.2数据的分类•1.数据的类型(一)定性数据(也称品质数据):是说明事物的品质特征,是不能用数值表示的,其结果通常为类别,这类数据是由定类尺度和定序尺度计量形成的。(二)定量数据(也数称量数据):说明的是现象的数量特征,是能够用数值来表现的,这类数据是由定距尺度和定比尺度计量形成的。•2.按计量尺度分类•定类数据:只能归于某一类别的非数字型数据。•定序数据:只能归于某一有序类别的非数字型数据。•定距数据:不仅能将事物分为不同类型并进行排序,而且能指出类别之间的差距是多少。•定比数据:与定距尺度属于同一层次,其计量的结果也表示为数值。•3.按时间状况分类•截面数据:在相同或近似相同时间点上收集的数据。•时间序列数据:在不同时间上收集到的数据。•面板数据•例如我国2003年农业,建筑业,交运邮电,批零餐饮的产值分别是17090,8170,6720,9030亿元,这组数据就是截面数据。•描述多指标对象在同一状态下的•例如我国1999年到2003年的GDP分别是80580,88250,95730,103930,116250亿元,这组数据是时间序列数据。•描述对象在不同状态(特别是时间)下的数据。试着找一组时间序列数据和面板数据?SPSS数据文件(一)数据文件的打开和保存(二)数据文件的建立1.定义变量2.输入数据(第1章数据集)3.导入外部文件excel文件txt文本文件1.3数据的预处理•(一)排序•数据排序就是将数据按一定的顺序进行排列,为研究者对数据进行数据纠错、归类、分组等提供依据。画直方图,求中位数,经验分布函数等,都需要对数据先排序。一般按从小到大排序。•最小值记为:•最大值记为:(1)min{}ixx(n)max{}ixx•(二)标准化•数据标准化主要功能就是消除变量间的量纲关系,从而使数据具有可比性,可以举个简单的例子,一个百分制的变量与一个5分值的变量在一起怎么比较?只有通过数据标准化,都把它们标准到同一个标准时才具有可比性,一般标准化采用的是Z标准化,即均值为0,方差为1,当然也有其他标准化,比如0--1标准化等等,可根据自己的研究目的进行选择。•(三)数据变换•为使数据反映的规律更清晰,使计算简单或减少误差等目的常需对原样本值变换,•对数变换反映投资回报率。•线性变换•中心化变换•标准化变换12,,,nxxx1lnlniiiyxxiiyxxiixxys1.4常用统计指标•描述集中趋势的特征数•描述离散趋势的特征数•描述偏度和峰度的特征数•计量资料(定量资料、数值变量资料)•总体:有限或无限个(定量)变量值•样本:从总体随机抽取的n个变量值:•n为样本例数(样本大小、样本含量)12,,,nXXX1.描述集中趋势的特征数(平均指标)•总称为平均数(average)反映了资料的集中趋势(centraltendency)。常用的有:1.算术均数(arithmeticmean),简称均数(mean)2.众数(mode)3.中位数(median)1.平均数(mean)•符号:n个样本计算公式:•3.中位数(median)•意义:中位数是将一批数据从小至大排列后位次居中的数据值,反映一批观察值在位次上的平均水平。•适用条件:适合各种类型的资料。尤其适合于①大样本偏态分布的资料;②资料有不确定数值;③资料分布不明等。12nXXXXXnn12,,,nXXX2.描述离散趋势的特征数(变异(variation)指标)•反映数据的离散度(Dispersion)。即个体观察值的变异程度。常用的指标有:1.极差(Range)(全距)2.百分位数与四分位数间距PercentileandQuartilerange3.方差Variance4.标准差StandardDeviation5.变异系数CoefficientofVariation1.极差(Range)(全距)•符号:R•意义:反映全部变量值的变动范围。•优点:简便,如说明传染病、食物中毒的最长、最短潜伏期等。•缺点:1.只利用了两个极端值•2.n大,R也会大•3.不稳定•适用范围:任何计量资料;是参考变异指标maxminRXX例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数5个计数盘,得结果如下(万/mm3)盘编号甲乙丙•1440480490•2460490495•3500500500•4540510505•5560520510合计250025002500均数500500500甲乙丙420440460480500520540560580•12040202.百分位数与四分位数间距•百分位数:数据从小到大排列;在百分尺度下,所占百分比对应的值。记为。•四分位间距:0%20%40%60%80%100%07525QPPxP3.方差•方差(variance)也称均方差(meansquaredeviation),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。NXXlSSXxx∑∑∑222)-()-()squareofsum(0)-(总体方差离均差平方和离均差和11)(2222∑nnXXnXXS=样本方差4.标准差(StandardDeviation)标准差是各个标志值与其算术平均数的离差平方的算术平均数的平方根,因此又称“均方差”。标准差的平方称为方差•标准差的计算方法•(1)简单平均式•(2)加权平均式nxx2)(ffxx2)(5.变异系数变异系数养殖场一批牛的平均重量:500斤标准差5斤养殖场一批鸡的平均重量:5斤标准差2斤问:哪一个均值的代表性更好?%100xV3.描述偏度和峰度的特征数•偏度•偏度(skewness)是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。••频数分布有正态分布和偏态分布之分。正态分布是指多数频数集中在中央位置,两端的频数分布大致对称。•偏态分布是指频数分布不对称,集中位置偏向一侧。若集中位置偏向数值小的一侧,称为正偏态分布;集中位置偏向数值大的一侧,称为负偏态分布。3()(1)(2)inxxSKnn•偏态的含义如果众数在左边,算术平均数在右边,即极端数值在右边,次数分布曲线向右延伸,则称为右向(正向)偏态。如果众数在右边,算术平均数在左边,即极端数值在左边,次数分布曲线向左延伸,称为左向(负向)偏态。MoxMox三种平均指标受非对称分布的影响程度不同Mox负偏态分布(左)<me<mox(对称分布)x=me=moxMo正偏态分布(右)xmo<me<x•峰度•峰度(Kurtosis)是描述某变量所有取值分布形态陡缓程度的统计量。它是和正态分布相比较的。Kurtosis=0与正态分布的陡缓程度相同。Kurtosis0比正态分布的高峰更加陡峭——尖顶峰Kurtosis0比正态分布的高峰来得平缓——平顶峰计算公式:414()(1)niixxn这堂课我们学了哪些知识?Thankyou!Email:heqijiayou@163.comTel:13578969808
本文标题:第一节b精彩的数据
链接地址:https://www.777doc.com/doc-2116780 .html