您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 旅游娱乐 > stata中变量描述分析和作图..
第三讲描述性分析与画图•进行描述性统计分析的目的:•对数据进行描述性分析的目的是熟悉和了解数据的基本统计特征,把握数据的总体分布形态,进而决定如何对数据作进一步处理,进而回答所要研究的问题。本章主要内容6.1.频数分布6.2.条件频数分布6.3.频数分布的常见错误分析及解决方法6.4.变量的中央趋势和离散趋势6.5.描述数值型数据统计量的其它方法6.6.画图数据描述的方法•获得数据的目的是为了描述和分析数据,回答研究问题•数据分析的第一步是描述变量的基本特征。只有在熟悉数据的基本特征和变量分布的基础上,才能决定如何对数据作进一步处理•描述性统计通过一系列的程序帮助组织、归纳、总结样本的基本特征。常见的方法包括–频数分布、百分比、分位数、均值和标准差、中数、众数、最大值和最小值等单变量分析(univariateanalysis)。考察变量的属性分布–二元或多元交叉表、二元相关关系分析–图形描述性分析的菜单窗口该内容是statistics菜单下的首个选项:Statistics–Summaries,tables&tests6.1.频数分布频数、比例(proportion)、百分比(percentage)和比率(ratio)等描述性统计方法适用于所有类型数据,包括定性、定序、定距和定比数据。频数与频数分布•频数也称次数,即分布在各个类别中的数据个数•频数分布就是对样本中变量的不同属性出现次数的描述–假如一个班60%的同学是女生,40%的同学是男生,则60%和40%是女生和男生的分布情况–2000年人口普查显示,中国7%的人群年龄在65岁及以上,则7%是当时老年人口在总人口中所占的比例菜单窗口•在Stata的窗口菜单下,有多种描述数据频数分布特征的选项,每一选项都具有一定独特的功能,但有些功能是相通的窗口路径相应的基本命令功能Tableofsummarystatistics(table).table计算展示多种统计量Tableofsummarystatistics(tabstat).tabstat计算展示多种统计量One/two-waytableofsummarystatistics.tabulate…,sum(…)提供均值和标准误One-waytables.tabulate…,subpop(…)单变量的频数分布Multipleone-waytables.tab1多个变量的频数分布Two-waytableswithmeasureofass..tab两个变量的交叉表Allpossibletwo-waytabulations.tab2多个变量的交叉表Tablecalculator.tabi利用指定的数值计算单变量频数分布.tab[变量名]①②①:.tab也可写为tabulation,是获得频数分布的基本命令②:需要输出频数分布的变量名称•该命令不对频数分布作任何定义,只提供单个变量的频数分布.tabgirl–该命令告诉Stata,给变量girl生成一张频数分布表girlin|2004,0=boy|---1=girl|Freq.PercentCum.------------+-----------------------------------0|1,24853.7053.701|1,07646.30100.00------------+-----------------------------------Total|2,324100.00•输出结果显示,该数据一共有2324个观察值•变量girl有两个取值:0代表男孩,1代表女孩•样本中有1248个男孩,占53.7%;女孩为1075,占46.3%多变量频数分布.tab1[变量a变量b变量c]①②①:同时获得多个变量频数分布的基本命令②:需要输出频数分布的变量名称•与tab或tabulate不同的是,.tab1可接多个变量.tabgirlurban–该命令告诉Stata,给变量girl和urban各自生成一张频数分布表6.2.条件频数分布条件频数分布也称交叉频数表为或列联表,同时生成两个变量之间关系的频数分布,属于相关分析中的一种.基本命令•.tab提供、且只能提供双变量的交叉分析,生成二者之间的交叉频数分布,相当于命令tabulate–若其令后面仅有一个变量,则Stata输出该变量的频数分布–若多于两个变量,则会出现错误提示•Stata的默认方法是,tab后面的第一个变量被当成行变量,第二个变量被当成列变量•.tab2也提供双变量的交叉分析表•.tab和tab2的主要区别在于,前者仅可以用于两个变量的交互分析(tab后面最多只能有两个变量);tab2可同时生成多个两两变量之间的交互频数分布表例1.tabgirlenroll,chi2columnrowmissnokey①②③④⑤①:提供两个变量关系的卡方②:提供列变量的百分比③:提供行变量的百分比④:提供缺失变量的比例⑤:压缩单元格内容的提示girl|schoolenrollment0=boy|1=enrolled---0=not---1=girl|01.|Total-----------+---------------------------------+----------0|96735294|1,125|8.5365.3326.13|100.00|59.6351.9156.11|53.55-----------+---------------------------------+----------1|65681230|976|6.6669.7723.57|100.00|40.3748.0943.89|46.45-----------+---------------------------------+----------Total|1611,416524|2,101|7.6667.4024.94|100.00|100.00100.00100.00|100.00Pearsonchi2(2)=5.3049Pr=0.0706.3.频数分布的常见错误之一•toomanyvariablesspecified–导致I类错误的原因在于,混淆了tab,tab1,tab2的用法–.tab可用于生成单个变量的频数分布,其后只能接一个变量;.tab也可用来描述两个变量的交叉分布,其后面只能接两个变量–tab1后面可以接多个变量,但只能分别生成单个变量的频数分布,而不能生成交叉表–tab2则可以生成多个双变量的交叉表–因此,若使用下列命令,则会遇到这类错误.taburbanyrschenrolltoomanyvariablesspecifiedr(103);6.3.频数分布的常见错误之二•toomanyvalues•导致这类错误的原因在于,在试图生成两个变量的交叉表时,每个变量都包含太多的取值。比如:.tabageweight.toomanyvalues(变量的取值太多)•这里,变量age和weight均为连续变量,且都有很多的取值,尤其是weight•若需要生成二者之间的交叉表,可以限制其中一个或两个变量的取值,或者将它们转换为分类变量6.4.变量的中央趋势和离散趋势集中趋势:众数•数据分布的一种表现形式。频数最多的组段代表了中心位置(平均水平),从两侧到中心,频数分布逐渐增加•描述集中趋势的方式包括:众数、均值、中位数•众数(mode):最常出现的观察值或属性–如果在全班30个学生中,20个18岁的学生、5个19岁、5个20岁,则18是众数–众数适用于所有类型数据,但主要用于测度分类数据的集中趋势–一个数据可以有两个或多个众数,故众数具有不唯一性的特点集中趋势:算术均值(mean,average)•加总多个观察值,除以总观察量得到的数值•适用于正态分布或者近似正态分布;•均数受特大值和特小值的影响,会偏大或偏小,故对偏态分布的资料,均数的代表性差,不适合描述偏态分布的集中趋势;•全域(总体)均数称为µ;样本均数称为x集中趋势:中位数(median)•将一组数值从小到大排列后,位于中间的数值;•若5个人的年龄分别为1,3,6,8,32,则中位数为6(均值为10);•中位数度量方式适用于偏态分布数据。中位数不受两端特大值和特小值的影响,只和位置居中的观察值有关;•对于正态分布,理论上中位数等于均数;离散趋势:极差或者全距(range,R)•数据分布的另一种表现形式。从中心到两侧,频数分布逐渐减少。反映了数据的离散程度或变异程度;•描述离散趋势的方法包括:级差、方差、标准差;•极差或者全距(range,R):表示变量取值中的最大值和最小值之差。适合所有分布类型的数据;R=最大值-最小值–计算简单,但不能反映所有变量值的变异程度,易受最大值和最小值的影响,不稳定离散趋势:方差(variance)•方差(variance):表示一组变量取值的平均离散程度。方差越大,离散或者变异程度越大。适合描述近似正态分布资料的离散趋势。离散趋势:标准差(standarddeviation)•方差的开方,和均数的单位一致,也是数据波动性的一种度量,即是对围绕均值的离散趋势的测量•标准差和方差是实际中应用最广的测量离散程度的统计量•如果一个变量具有正态分布,则均值–68%的数值将会位于离平均值加减一个标准差的范围内;–95%的个案将会位于加减两个标准差的范围内;–99.9%的个案将会位于加减三个标准差的范围内•标准差越小,数据的分布就越围绕均值聚集;标准差越大散,数据的分布就越分散。离散趋势:标准差(II)•适合描述近似正态分布资料的离散趋势•方差或标准差都是根据全部数据计算的,反映了每个数据与其均值相比平均相差的数值,因此能准确地反映数据的离散程度•计算公式:离散趋势:自由度•为什么样本标准差的分母是n-1呢•自由度:一组数据中可以自由取值的个数。当样本的个数为n时,若样本均值确定后,必有一个数据不能自由取值。因此,只有n-1个数据可以自由取值;•假如样本有3个数值,x=4,y=8,z=18,则均值=10。当均值=10确定后,x,y,z中只有两个数可以自由取值;•在抽样估计中,当用样本方差去估计总体方差时,样本方差是总体方差的无偏估计量。正态分布与偏态分布02468Percent0123456789101112131415161718agein20040246810Percent050100150children'sweightin20040246810Percent050100150200children'sheightin2004正态分布(normaldistribution)•一个变量的集中位置居中,左右两侧频数基本对称的分布–从形态上看,正态曲线两头低、中间高、左右对称•正态分布是一条单峰、对称呈钟形的曲线,其对称轴为x=μ,并在x=μ时取最大值。从x=μ点开始,曲线向正负两个方向递减延伸,不断逼近x轴,但永不与x轴相交,因此说曲线在正负两个方向都是以x轴为渐近线的•其性质如下:函数方程中μ为位置参数;σ为形状参数–若σ不变,函数曲线形状不变。μ变大时,曲线位置向右移;μ变小时,曲线位置向左移–若μ不变,函数曲线位置不变。σ变大时,曲线形状变得越来越胖、矮;σ变小时,曲线形状变得越来越瘦、高正态分布.histogramyrschifyrsch=13,percentstart(0)width(1)normal05101520Percent051015RECODEofa11(A11)偏态分布•数据的集中位置偏向一侧,频数分布不对称。偏态分布有两种表现形式•正偏态分布:集中位置偏向数值小的一侧或者左侧,有较长的右尾部•负偏态分布:集中位置偏向数值大的一侧或者右侧,有较长的左尾部0246810Percent050100150200HeightofChildren0246810Percent050100150WeightofChildren.histogramweight,percentstart(0)normalysize(4.5)xsize(2.5).his
本文标题:stata中变量描述分析和作图..
链接地址:https://www.777doc.com/doc-3570398 .html