您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业文化 > SAS软件应用之统计图
第25章统计图学习目标了解统计图的特点;熟悉统计图绘制的一般原则;掌握根据数据特征选择统计图的方法;掌握各种统计图的意义以及绘制统计图的SAS程序。概述统计图是用点、线、面、体来形象地表达数量资料的1种方式,常用的统计图有条图(棒图)、圆图(饼图)、统计地图、线图、直方图、散点图等。统计图的种类很多,应根据资料的类型和目的选用合适的统计图。定性资料可选用的统计图有条图、圆图、统计地图等;定量资料可选用的统计图有直方图(或多边图)、普通线图、半对数线图、散点图等。不同的统计图,以不同的方式或姿态来形象化地表达资料。因此,掌握各种统计图的特征,有助于正确选用统计图。统计图制作的一般原则根据资料性质和分析目的正确选用适当的统计图。例如分析比较独立的、不连续的、无数量关系的多个组或多个类别的统计量宜选用直条图,分析某指标随时间或其它连续变量变化而变化的趋势宜选用线图,描述某变量的频数分别宜选用直方图,描述或比较不同事物内部构成时用圆图或百分条图等。统计图制作的一般原则统计图必须有标题、概括统计图资料的时间、地点和主要内容。统计图的标题在图的下方。统计图一般有横轴和纵轴,并分别用横标目说明横轴和纵轴代表的指标和单位。一般将两轴的相交点即原点处定为0。统计图用不同线条和颜色表达不同事物和对象的统计量,需要附图加以说明。直条图直条图用来表示各相互独立的统计指标的数量大小。通常,纵轴表达数量,横轴表达分组标志。用绝对数或相对数均可表达数量,其数量大小用图中各长条的高度来反映。直条图用相同宽度的直条长短表示相互独立的某统计指标值的大小。直条图按照是横放还是竖放分卧式和立式两种,按对象的分组是单层次和两层次分单式和复式两种。直条图直条图的直条尺度必须从0开始,各直条的宽度相等,间隔一般与直条等宽或为其一半。直条排列的顺序可按指标值大小排列,也可按分组的自然顺序排列。GCHART过程步SAS系统中采用GCHART过程步绘制直条图。GCHART过程步的语法格式如下:PROCGCHART[DATA=数据集名[选项]];HBAR变量名列/[选项];VBAR变量名列/[选项];BLOCK变量名列/[选项];PIE变量名列/[选项];STAR变量名列/[选项];AXISn[选项];BY变量名列;RUN;GCHART过程步HBAR选择项指令系统绘制立式直条图。VBAR选择项指令系统绘制水平直条图。BLOCK选择项指令系统绘制三维直方图。PIE选择项指令系统绘制饼图。STAR选择项指令系统绘制星状图。AXISn选择项控制坐标轴的形状和颜色。BY选择项指令系统按该变量取值分层绘制,要求数据集已按该变量排序。GCHART过程步MISSING指定绘图时要将变量的缺失值也包括在内。TYPE=做图类型关键字,指定要做图的类型,即图中条块代表的含义:缺省值是频数(FREQ);如果指定了选择项SUMVAR,则缺省值为总和(SUM)。可选的关键字有:FREQ要求按指定变量的频数做图。PERCENT要求按在横轴刻度表示范围内出现的频数占总数的百分比做图。CFREQ,按累计频数做图。CPERCENT,按累计百分比做图。GCHART过程步SUM只能与SUMVAR选项同时使用,要求图中的每一条代表:变量在横轴表示的取值范围内时,SUMVAR指定变量的总和。MEAN只能与SUMVAR选项同时使用,要求图中的每一条代表:变量在横轴表示的取值范围内时,SUMVAR指定变量的均数。SUMVAR=求和变量,指定使用TYPE=SUM或MEAN时,用于求总和、均值的变量。GCHART过程步LEVAL=n,如果绘图变量是连续变量,用该选项产生有N个组段的图形。GROUP=分组变量,要求产生以分组变量的值分组的并排图。SUBGROUP=亚组变量,要求每个图形内部再按亚组变量的值分块。CAXIS=颜色,指定坐标轴的颜色。CTEXT=颜色,指定坐标轴文本的颜色。百分条图和圆图圆图用来表示事物内部的构成情况。必须用相对数,且各项之和为100%,图中各扇形面积表示数量的大小,将360度圆心角看成100%,把每一部分所占的百分数折算成圆心角的度数,根据圆心角的度数就可画出代表各部分数量大小的扇形来。百分条图是以矩形总长度作为100%,将其分割成不同长度的段来表示各构成的比例。圆图和百分条图适合描述分类变量的各类别所占的构成比。FREQUENCYofgenderF18M12线图线图也称折线图,是用线段的升降来表示数值的变化,适合于描述某统计量随另一连续性数值变量变化而变化的趋势。它分为普通线图和半对数线图。普通线图,资料中包含着2个计量指标,放在横轴上的计量指标通常是时间,放在纵轴上的计量指标通常是某种率。画图时,纵、横轴上的尺度一律用算术尺度。它适合于表达1个或多个事物或现象随着时间的推移,数量的增减幅度。GPLOT过程步SAS系统中采用GPLOT过程步绘制线图。GPLOT过程步的语法格式如下:PROCGPLOT[DATA=数据集名[选项]];PLOT纵坐标变量*横坐标变量/[选项];PLOT2纵坐标变量*横坐标变量/[选项];SYMBOLn[选项];BY变量名列;RUN;GPLOT过程步PLOT2选择项指令系统在原图基础上重叠绘制第二幅散点图。SYMBOLn选择项定义符号、添加趋势线、定义点和线的颜色。BY选择项指令系统按该变量取值分层绘制,要求数据集已按该变量排序UNIFORM要求用BY语句分组打印的散点图的坐标刻度相同,便于比较。VTOH=数值,指定纵横坐标的比例。OVERLAY,同一语句做的图重叠在同一个坐标系中显示。GPLOT过程步HAXIS=数值,定义横坐标的刻度。VAXIS=数值,定义纵坐标的刻度。CAXIS=颜色,定义坐标轴的颜色。CTEXT=颜色,定义坐标轴文本的颜色。I=连线方式:JOIN用直线连接;SPLINE用光滑的曲线连接;NEEDLE向横坐标画垂线;RL添加回归直线。WIDTH=宽度,定义数据点和连线的宽度。COLOR=颜色,定义数据点和连线的颜色。半对数线图半对数线图是一种基本的统计图形,特别适宜作不同指标变化速度的比较,它与普通线图(习惯简称线图)一样均可通过线段的上升或下降来表示一个指标随另一指标(常为时间)变化而变化的情况。两者的区别在于普通线图的横、纵坐标均为算术尺度,在某两个不同的时间段上,如果终点相对于起点的“绝对改变量”相同,将在图形上表现为相同的增幅(或减幅),直观呈现的是数量变化的态势;半对数线图半对数线图的横坐标仍为算术尺度(如时间),纵坐标指示的观察指标(常为研究的指标,如发病率、病死率等)则实施了对数转换——即对数尺度,在某两个不同时间段上,如果终点相对于起点的“相对改变量”相同,将在半对数线图上表现为相同的增幅(或减幅),所以半对数线图适用于呈现事物发展变化的速度。半对数线图故两种图形从不同的角度反映被观察指标的变化情况,但二者的意义和适用场合区别甚大,使用时要根据具体情况正确选用。如果研究者一概应用普通线图来反映动态数据的变化情况,则可能导致无法正确呈现资料所蕴涵的信息。半对数线图当研究两组或多组数据的变化情况时,普通线图用来说明研究指标的波动态势,半对数线图用来说明研究指标的变化速度。以两个观察指标A和B变化速度的比较为例,在某一时间段当指标A发生10→100的变化、指标B发生100→1000的变化时,“绝对增长量”分别是90和900,相差较远;“相对增长量”却都是10倍于起点水平。半对数线图显然,变化速度的比较所注重的正是“相对增长量”,因此,普通线图不能对指标A、B的变化速度相等(均为10倍)这一事实给予正确呈现。正确的做法应该是纵坐标采用对数尺度(与线性尺度的横坐标构成所谓的“半对数线图”),则前述设定的时间段上的指标A变化量△A=lg100-lg10=1,指标B变化量△B=lg1000-lg100=1,提示指标A与B的发展变化速度相等。箱图箱线图是由一组数据的5个特征值绘制而成的,它由一个箱子和两条线段组成。5个特征值依次是最大值、上四分位数、中位数、下四分位数和最小值。通过箱线图,可以反映出数据分布的特征。箱线图一般有单批数据箱线图和多批数据箱线图两种。在SAS系统中通过UNIVARAITE过程步就可以绘制箱线图。散点图散点图表示两种事物变量的相关性和趋势。医学上常用于观察两种生理指标之间的动态变化关系,或临床上两项检测结果之间的量变关系。资料中包含着2个计量指标,如果2变量之间有自变量与因变量之分时,通常把自变量放在横轴上,把因变量放在纵轴上。将成对的数据(X,Y)在直角坐标系中用圆点表示出来,就称为散点图。它可以形象地反映出在专业上有一定联系的2个连续变量之间的变化趋势,可借助它帮助判断是否值得进行直线相关和回归分析或拟合何种类型的曲线方程。直方图数值型数据表现为数字,在整理时通常进行数据分组。分组是根据统计研究的需要,将数据按照某种标准分成不同的组别。直方图是用矩形的宽度和高度来表示频数分布的图形。用横轴表示数据分组,纵轴表示频数或频率。直方图直方图是以直方面积描述各组频数的多少,面积的总和相当于各组频数之和,适合表示数值变量的频数分布。直方图的横轴尺度是数值变量值,纵轴是频数。注意如各组组距不等时,要折合成等距后再绘图。即将频数除以组距得到单位组距的频数作为直方的高度,组距为直方的宽度。SAS系统中通过CAPABILITY过程步绘制直方图。统计地图统计地图用来表示事物的数量在地域上的情况。如反映疾病的地区分布情况。统计地图用不同的颜色和花纹表示统计量的值在地理分布上的变化,适宜描述研究指标的地理分布。统计地图先绘制按行政区域或地理特征分区的地图,然后按各区域统计指标值分别标记不同颜色或花纹,并加以图例说明不同颜色或花纹的意义。注意颜色或花纹的选择最好与统计量数值增减的趋势一致。利用SAS的GMAP可以在地图上制作二维或三维的统计图,直观地显示地区性的差异。本章小节统计图的种类很多,应根据资料的类型和目的选用合适的统计图。定性资料可选用的统计图有条图、圆图、统计地图等;定量资料可选用的统计图有直方图(或多边图)、普通线图、半对数线图、散点图等。不同的统计图,以不同的方式或姿态来形象化地表达资料。因此,掌握各种统计图的特征,有助于正确选用统计图。本章小节直条图用来表示各相互独立的统计指标的数量大小。通常,纵轴表达数量,横轴表达分组标志。用绝对数或相对数均可表达数量,其数量大小用图中各长条的高度来反映。SAS系统中采用GCHART过程步绘制直条图。圆图用来表示事物内部的构成情况。必须用相对数,且各项之和为100%,图中各扇形面积表示数量的大小,将360度圆心角看成100%,把每一部分所占的百分数折算成圆心角的度数,根据圆心角的度数就可画出代表各部分数量大小的扇形来。SAS系统中采用GCHART过程步绘制圆图。本章小节线图也称折线图,是用线段的升降来表示数值的变化,适合于描述某统计量随另一连续性数值变量变化而变化的趋势。它分为普通线图和半对数线图。普通线图适合于表达1个或多个事物或现象随着时间的推移,数量的增减幅度。SAS系统中采用GPLOT过程步绘制线图。半对数线图是一种基本的统计图形,特别适宜作不同指标变化速度的比较,适用于呈现事物发展变化的速度。SAS系统中也是采用GPLOT过程步绘制半对数线图。本章小节箱线图是由一组数据的5个特征值绘制而成的,它由一个箱子和两条线段组成。5个特征值依次是最大值、上四分位数、中位数、下四分位数和最小值。通过箱线图,可以反映出数据分布的特征。在SAS系统中通过UNIVARAITE过程步就可以绘制箱线图。SAS系统中需要通过BOXPLOT过程步完成多选数据箱线图比较。本章小节散点图表示两种事物变量的相关性和趋势。医学上常用于观察两种生理指标之间的动态变化关系,或临床上两项检测结果之间的量变关系。
本文标题:SAS软件应用之统计图
链接地址:https://www.777doc.com/doc-3151282 .html