您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 上机操作第二讲20121024统计图形的绘制2单样本t检验单样本频率假设检验
1研究生《生物统计学》课程上机内容第二讲:统计图形的绘制(II)、t检验(I)、单样本频率假设检验本讲主要练习:1、SPSS常见统计图形绘制(II):箱图(Boxplot)、误差条图(ErrorBar)、散点图(Dot)、直方图(Histogram)2、t检验:单样本平均数t检验、3、单样本频率假设检验一、常用统计图在SPSS主菜单Graphs下选择相应的图形选项。6、箱图Boxplot利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据,可以粗略地看出数据是否具有有对称性,分布的分散程度等信息。可用来观察分布类型、分布特征、比较多组数据的分布、发现极端值。点击[Graphs]=[Boxplot],打开[Boxplot]对话框。箱图可选的图示Simple(简单箱图)、和Cluster(复合箱图)两类,模式有Summariesforgroupsofcases(观察值分类描述模式,每一线条代表一类观测值)和Summariesofseparatevariables(变量描述模式,每一线条代表一个变量)两类。以观察值分类描述模式的复合箱图为例。打开数据文件“儿童体检数据.sav”,创建儿童各年龄组按性别绘制的身高箱图。操作:1)在[Boxplot]对话框中,选择“Cluster”和“Summariesforgroupsofcases”,Define,打开对话框;2)将“年龄”导入“CategoryAxis”(分类轴)文本框内;将“性别”导入“DefineClustersby”文本框,将“身高”导入“Variable”文本框;3)OK,执行绘制复合箱图的操作,输出图形。箱图如何看?①每个“箱”代表50%观测,矩形盒两端端边的位置分别对应数据的上下四分位数(Q1和Q3,即箱顶部的25%和箱底部25%的期望值),矩形盒内中位线表示中位数的位置;②在Q3+1.5IQR(四分位距)和Q1-1.5IQR处画两条与中位线一样的线段,为异常值截断点,称其为内限,处于内限以外位置的点表示的数据都是异常值;③在内限以外,又在Q3+3IQR和Q1-3IQR(外限)以内的数据,称为温和的异常值(用“〇”表示),在外限以外的为极端的异常值(或称“极端值”,用“*”表示);④从矩形盒两端向外各画一2条线段直到不是异常值的最远点,表示该批数据正常值的分布区间点。箱图的优点:正态分布判断异常值的标准是以算数平均值和标准差为基础,异常值本身对平均数和标准差具有较大影响,这样产生的异常值个数不会多于总数的0.7%;而箱图判断异常值的标准以四分位数和四分位距为基础,多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不能对这个标准施加影响,在识别异常值的结果比较客观,在识别异常值方面具有一定优越性。使用箱图可以检查数据错误,如果出现“O”或“*”,则需核对原始数据或计分记录表,以保证数据没有错误。问:从该图能读出什么信息?尝试做一下“体重”、的箱图,如何解读其结果?7、误差条图:ErrorBar用于描述数据总体离差点击[Graphs]=[ErrorBar],打开[ErrorBar]对话框。可选的图示Simple(简单误差条图)、和Clustered(复合误差条图)两类,模式有Summariesforgroupsofcases(观察值分类描述模式)和Summariesofseparatevariables(变量描述模式)两类。以观察值分类描述模式的复合误差条图为例。打开数据文件“被访者信息.sav”,绘制不同教育程度人员按性别的收入复合误差条图。操作:1)在[ErrorBar]对话框中,选择“Cluster”和“Summariesforgroupsofcases”,Define,打开对话框;2)将“教育程度”导入“CategoryAxis”(分类轴)文本框内;将“性别”导入“DefineClustersby”文本框,将“收入”导入“Variable”文本框;3)选择图形标题“不同教育程度人员按性别的收入复合误差条图”,Continue返回主菜单;4)OK,执行绘制复合误差条图的操作,输出图形,表示不同教育程度的被访者在置信度95%的收入置信区间的误差条图。问:从该图能读出什么信息?8、散点/圆点图Scatter/Dot点击[Graphs]=[Scatter/Dot],打开[Scatter/Dot]对话框。SPSS提供的散点图有4种:SimpleScatterplot(简单散点图)、OverlayScatterplot(重叠散点图)、ScatterplotMatrix(散点图矩阵)、3-DScatterplot(三维散点图),加上圆点图一共五种。以简单散点图为例。打开数据文件“儿童体检数据.sav”,要求绘制5周岁儿童的身高和体重简单散点图。注:该文件有5-7岁共96个观测值,其中5岁儿童为17人。因题目要求仅绘制5周岁儿童的相关数据,因此首先要将5岁儿童的观测值提取出来,可通过[Data]=[Selectcases]来实现。在打开的“Selectcases”对话框中,在“Select”下选择“Ifconditionissatisfied”,然后单击[If]按钮3进入子对话框,在函数输入文本框中输入“年龄=5”,continue返回,OK运行,在“儿童体检数据.sav”中生成一个新的变量“filter_$”,即选择了5周岁儿童的个案进行操作。操作:1)[Data]=[Selectcases]筛选5周岁儿童的观测值个案;2)[Graphs]=[Scatter/Dot],在[Scatter/Dot]对话框中选择“SimpleScatter”,Define,打开对话框;3)将“体重”导入“YAxis”(Y轴)文本框,将“身高”导入“XAxis”(X轴)文本框;将“性别”导入“SetMarkersby”(设置标记)文本框,用对应的颜色区分对应变量不同取值所对应的标记;4)选择图形标题,“5周岁儿童的身高和体重简单散点图”,Continue返回主菜单;5)OK,执行绘制简单散点图的操作,输出图形。绘图tip:对生成的图形可以进行编辑,例如把空心圈变实心圈,双击生成的图形,弹出“ChartEditer”(图形编辑界面),在需要修改地方点击鼠标右键,在右键快捷菜单选择“PropertiesWindow”(属性窗口),可对图形做各种类型的编辑,看看都能修改什么?若有时间,不妨一试。问:从该图能读出什么信息?9、直方图Histogram点击[Graphs]=[Histogram],打开[Histogram]对话框。打开数据文件“儿童体检数据.sav”,要求绘制儿童身高的直方图。注:因上例中对5周岁儿童的观察值进行了筛选,现要对5-7周岁共96人的身高做直方图,需在数据文件中将变量“filter_$”删除。操作:1)[Graphs]=[Histogram],在[Histogram]对话框中,将“身高”导入“Varible”文本框,并选中“Displaynormalcurve”(显示正态分布曲线);2)选择图形标题,“5-7周岁儿童的身高直方图”,Continue返回;5)OK,输出图形。问:从该图能读出什么信息?二、t检验SPSS提供了计算指定变量的综合描述统计量的过程和对均值进行比较检验的过程:(1)用于计算变量的综合统计量的Means过程[Analyze]=[CompareMeans]=[Means](2)用于单独样本的t检验过程[Analyze]=[CompareMeans]=[One-SampleTTest]4(3)用于独立样本的t检验过程[Analyze]=[CompareMeans]=[Independent-SamplesTTest]用于检验是否两个不相关的样本来自具有相同均值的总体。(4)用于配对样本的t检验过程[Analyze]=[CompareMeans]=[Paired-SamplesTTest]用于检验两个相关的样本是否来自具有相同均值的总体。(一)SPSS单样本t检验:例题:已知玉米单交种群单105的平均穗重μ0=300g。喷洒植物生长促进剂后,随机抽取9个果穗,其穗重为:308、305、311、298、315、300、321、294、320g。问喷药后与喷药前的果穗重差异是否显著?SPSS操作:(1)建立数据文件,定义变量“穗重”,输入数据;(2)[Analyze]=[CompareMeans]=[One-SampleTTest],弹出对话框,将“穗重”导入“TestVariable”框中,在“TestValue”中输入300;(3)OK,将结果输出到Output;(4)结果分析:输出两个表1)样本统计数据One-SampleStatisticsNMeanStd.DeviationStd.ErrorMean穗重9308.009.6183.2062)单样本t检验结果One-SampleTestTestValue=300tdfSig.(2-tailed)MeanDifference95%ConfidenceIntervaloftheDifferenceLowerUpper穗重2.4958.0378.000.6115.39分析output输出的各项内容的含义:t:将x、s、带入公式计算而得。df=n-1Sig.(2-tailed):当t=2.495时,按双尾检验其发生概率p=0.037MeanDifference:308-300=8表示与平均数的差值95%ConfidenceIntervaloftheDifference:总体均值的95%置信区间,(300+0.61,300+15.39)0xtsn5t检验的结果:∵p=0.0370.05∴拒绝H0:μ=300,接受HA:μ≠300,即喷药后与喷药前的果穗重差异显著;的95%置信区间为(300.61,315.39),此区间不包含300。“假设检验”与“区间估计”是两种描述总体参数的殊途同归的方法,结果是不相冲突的。注:输出的p=0.037为双尾检验的概率,本题询问“喷药后与喷药前的果穗重差异是否显著”,其H0:μ=300HA:μ≠300可做双尾检验;若问“喷药是否能显著提高玉米果穗重?”,则应作单侧检验(上侧检验),即HA:μ300,发生的概率值应为p=0.037/2=0.01852、自行练习:(1)某鱼塘水中的含氧量,多年平均为4.5mg/L,现在该鱼塘设10个点采集水样,测定水中含氧量分别为:4.33,4.62,3.89,4.14,4.78,4.64,4.52,4.55,4.48,4.26mg/L,试检验该次抽样测定的水中含氧量与多年平均值有无显著差别。(2)今测得14只60日龄的雄鼠在X射线照射前后体重减少的数值如下(g):2.2,1.2,0.5,1.8,1.0,2.4,0.9,1.0,0.5,0.6,3.2,0.3,0.1,0.4,问X射线照射后是否使小鼠体重明显减少?三、单样本频率假设检验:二项分布检验/百分数假设检验用于对给定样本数据检验其总体是否服从概率为指定数值的二项分布。[Analyze]=[NonparametricTests](非参数检验)=[Binominal](二项分布)数据存放有两种方式:一种是定义一个变量存放所有的样本值,重复的样本值作为不同的个案保存,如下面的案例“二项分布检验硬币.sav”;另一种是定义两个变量,一个存放不同的样本值,另一个存放该样本值的相应频数,但这时应将频数变量指定为加权变量,如下面的案例“二项分布检验蜜蜂.sav”1、案例:某人做抛掷硬币实验,检验硬币正面出现的概率是否为1/2。抛掷60次,出现正面记为1,出现反面记为0,记录结果如下表,检验硬币正反面出现的次数是否服从于概率为0.5的二项分布?110010010001101110000100100110001
本文标题:上机操作第二讲20121024统计图形的绘制2单样本t检验单样本频率假设检验
链接地址:https://www.777doc.com/doc-2809441 .html