您好,欢迎访问三七文档
浙江大学医学院流行病与卫生统计学教研室沈毅统计描述浙江大学医学院流行病与卫生统计学教研室沈毅在数据收集、整理完毕后,进行深入统计分析之前,首要的工作就是去了解这个数据的整体情况,随后考虑作深入的推断。用少量数字(描述指标)概括大量原始数字,对数据进行描述的统计方法即为描述性统计分析。统计描述连续变量的统计描述分类变量的统计描述浙江大学医学院流行病与卫生统计学教研室沈毅集中趋势的描述指标算术均数:适合单峰和基本对称的分布中位数:适用于任意分布类型截尾均数:数据中有极端值,用截尾均数更好几何均数:适用于原始数据分布不对称,但经过对数转换后呈对称分布的资料众数(Mode):样本数据中出现频次最大的那个数字调和均数(H):较少使用,观察值x倒数之均数的倒数,常用于完成的工作量相等而所用时间不同,求平均速度的情况浙江大学医学院流行病与卫生统计学教研室沈毅全距大体了解数据的分布范围,用于预备性检查方差和标准差适用于正态分布百分位数如中位数(P50)、四分位数(P25、P50、P75)四分位间距即P75-P25,适用于任意分布类型,不受极端值影响变异系数(CV)S/,适用于测量尺度相差太大或数据量纲不同时,比较两组数据离散程度的大小x离散趋势的描述指标浙江大学医学院流行病与卫生统计学教研室沈毅SPSS的许多模块均可完成统计描述的任务,除各种用于统计推断的过程会附带进行相关的统计描述外,SPSS还专门提供了几个用于连续变量统计描述的过程,均集中于Analyze-DescriptiveStatistics子菜单中。Frequencies过程Descriptives过程Explore过程Ratio过程浙江大学医学院流行病与卫生统计学教研室沈毅Frequencies:产生原始数据的频数表,并能计算各种百分数,并可绘制频数图,如连续型变量的直方图,或分类变量的饼图或条图。下面以demo.sav为例,对人群的年龄数据(age)进行描述。Frequencies过程浙江大学医学院流行病与卫生统计学教研室沈毅若无变量标签,则列表框中只显示变量名对话框中,从左边变量列表中选择要分析的变量,放入右边的Variables(变量)列表中至少一个变量选入后,OK按钮才可使用Frequencies过程变量标签变量名浙江大学医学院流行病与卫生统计学教研室沈毅鼠标右键单击变量,可以获得更多变量信息选择下拉按钮,显示所有定义的值标签Frequencies过程浙江大学医学院流行病与卫生统计学教研室沈毅:表示该变量为数值型变量:表示该变量为字符型变量,且右下角的表示短字符,即变量长度=8位Frequencies过程浙江大学医学院流行病与卫生统计学教研室沈毅Statistics:设定要分析的统计量分位数值集中趋势离散趋势分布指标若数据为组中值,将其选中本例选择四分位数和5%、95%分位数Frequencies过程浙江大学医学院流行病与卫生统计学教研室沈毅本例选中绘制直方图图表类型:箱式图、饼图、直方图等Frequencies过程Charts:设定要绘制的统计图浙江大学医学院流行病与卫生统计学教研室沈毅Format:在SPSS对话框中,用于设定结果文件中的数据格式,通常默认即可。数据排序方式多变量分析时的显示方式设定组别超过n组时不显示表格Frequencies过程浙江大学医学院流行病与卫生统计学教研室沈毅通过大纲视图可以快速定位各项结果例如:点击大纲视图上的Histogram,则可快速定位至age的频数直方图Frequencies过程浙江大学医学院流行病与卫生统计学教研室沈毅分析结果(1)统计量人群年龄无缺失值,四分位数为33岁、41岁、51岁,即人群中有1/4小于33岁,1/2小于41岁,1/4大于51岁。另外,90%的人在24~64岁之间。Frequencies过程浙江大学医学院流行病与卫生统计学教研室沈毅Frequencies过程分析结果(2)频数表Frequency:频数Percent:百分比=当前频数/总数(包括缺失值)ValidPercent:有效百分比=当前频数/有效总数(不包括缺失值)CumulativePercent:累积百分比=累积频数/有效总数(不包括缺失值)浙江大学医学院流行病与卫生统计学教研室沈毅Frequencies过程分析结果(3)频数直方图浙江大学医学院流行病与卫生统计学教研室沈毅Descriptive:一般性统计描述,相对于Frequencies,它不能绘制统计图,所能计算的统计量也较少,适用于对服从正态分布的连续型变量进行描绘。同样以demo.sav为例,对人群的年龄数据(age)进行描述。Descriptives过程浙江大学医学院流行病与卫生统计学教研室沈毅单击中间的箭头,可以实现变量从一张表移入另一张表,现将变量age移入右边variable列表中Descriptives过程浙江大学医学院流行病与卫生统计学教研室沈毅Options:设定要分析的统计量及数据的显示顺序本例选择:均数、标准差、最大值、最小值、峰度系数、偏度系数等Descriptives过程浙江大学医学院流行病与卫生统计学教研室沈毅人群年龄的最小值为18岁,最大值为77岁,均数42.06岁,标准差12.29岁,偏度系数0.299,峰度系数-0.602,基本近似正态。Descriptives过程分析结果描述性统计量浙江大学医学院流行病与卫生统计学教研室沈毅Explore:对连续型资料分布不清楚时的探索性分析,可以分类别进行描述(Frequencies和Descriptives不行),计算多种描述统计量,给出各种统计图,进行简单参数估计。以demo.sav为例,对男女性(gender)的年龄(age)分别进行描述。Explore过程浙江大学医学院流行病与卫生统计学教研室沈毅要进行分析的应变量:age分类变量:genderExplore过程浙江大学医学院流行病与卫生统计学教研室沈毅点估计中的稳健估计:M估计极端值百分位数一般描述默认情况下,选择的是Descriptives,本例选择默认Explore过程浙江大学医学院流行病与卫生统计学教研室沈毅箱式图用于正态性检验的Q-Q图茎叶图直方图Levene’s方差齐性检验选项Explore过程浙江大学医学院流行病与卫生统计学教研室沈毅缺失值的设置,一般默认即可Explore过程浙江大学医学院流行病与卫生统计学教研室沈毅CaseProcessingSummary3179100.0%0.0%3179100.0%3221100.0%0.0%3221100.0%GenderFemaleMaleAgeinyearsNPercentNPercentNPercentValidMissingTotalCases本例无缺失值,有效人数女性3179人,男性3221人Explore过程分析结果(1)缺失值报告浙江大学医学院流行病与卫生统计学教研室沈毅现仅对女性的分析结果依次解释,查看详情Explore过程分析结果(2)统计量浙江大学医学院流行病与卫生统计学教研室沈毅集中趋势指标、离散趋势指标分布特征指标、参数估计Explore过程分析结果浙江大学医学院流行病与卫生统计学教研室沈毅集中趋势指标:3179名女性的平均年龄为41.74岁(Mean),去掉两侧各5%的极端值后,截尾均数为41.45岁(5%TrimmedMean),中位数41.00岁(Median),本例上述三指标值基本相同,可推测数据应当是对称分布的。Explore过程离散趋势指标:年龄的方差为142.988岁2(Variance),其平方根即标准差为11.958岁(Std.Deviation)。全部女性中最小的18岁(Minimum),最大的76岁(Maximum)。两者之差即全距58岁(Range),中间一半女性的年龄差即四分位数间距17岁(InterquartileRange)。浙江大学医学院流行病与卫生统计学教研室沈毅分布特征指标:表明数据偏离正态分布程度的偏度系数(Skewness)为0.327,峰度系数(Kurtosis)为-0.534。偏度系数大于0为正偏态,峰度系数小于0表明峰比正态低,本例偏度和峰度系数均接近0,因此认为近似正态分布。参数估计:均数(Mean)的标准误(Std.Error)为0.212岁,相应的总体均数95%可信区间(95%ConfidenceIntervalforMean)为41.32~42.15岁,表明有95%的可能性认为该区间包含了总体均数。Explore过程浙江大学医学院流行病与卫生统计学教研室沈毅Explore过程分析结果(3)茎叶图浙江大学医学院流行病与卫生统计学教研室沈毅Explore过程分析结果(4)箱式图最小值:18岁最大值:76岁四分位间距:17岁浙江大学医学院流行病与卫生统计学教研室沈毅Ratio:功能较特殊,用于对两个连续性变量计算相对比指标,它可以计算一系列非常专业的相对比描述指标,相对而言使用面较窄,在此不详述。Ratio过程浙江大学医学院流行病与卫生统计学教研室沈毅SPSS的许多分析过程均可完成统计描述的任务,还专门提供了用于分类变量统计描述的过程,均集中于Analyze-DescriptiveStatistics子菜单中。Frequencies过程Crosstabs过程浙江大学医学院流行病与卫生统计学教研室沈毅Frequencies:主要针对分类输出频数表,从而得到频数、百分数、累计百分比,给出原始频数表,众数,条图,饼图等。以demo.sav为例,分别对人群的教育水平(ed)、职业满意度(jobsat)进行描述。Frequencies过程浙江大学医学院流行病与卫生统计学教研室沈毅6400人的教育水平和职业满意度的数据都是完整的,无缺失值。Frequencies过程分析结果(1)缺失值报告浙江大学医学院流行病与卫生统计学教研室沈毅Frequencies过程分析结果(2)频数表浙江大学医学院流行病与卫生统计学教研室沈毅Crosstabs:用于输出交叉列联表,以demo.sav为例,描述人群的婚姻情况marital(0、1)、退休状况retire(0、1)的交叉频数分布Crosstabs过程浙江大学医学院流行病与卫生统计学教研室沈毅用于分类变量统计推断时的参数设定,此例暂不使用Crosstabs过程行变量:ed列变量:jubocat浙江大学医学院流行病与卫生统计学教研室沈毅Cells:在SPSS对话框中,对于单元格要显示的参数进行设定合计百分位数残差非整权重设置Crosstabs过程浙江大学医学院流行病与卫生统计学教研室沈毅6400人的婚姻状况和退休状况的数据都是完整的,无缺失值。Crosstabs过程分析结果(1)缺失值报告浙江大学医学院流行病与卫生统计学教研室沈毅婚姻状况(行)和退休状况(列)的交叉表Crosstabs过程分析结果(2)交叉表行百分比列百分比
本文标题:03、统计描述
链接地址:https://www.777doc.com/doc-3822818 .html