您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 医学试题/课件 > 《管理统计学》马庆国著-部分1
第二章数据与数据获取§2.1总体、个体、特征与数据一、一些基本概念1、总体(母体)(PopulationorUniverse)所研究对象的全体。2、个体(IndividualorCase)或成分(Elements)组成总体的个体。3、指标或变量(Variable)表征个体特征(信息)的量。4、指标值(变量值)或数据(Data)对个体特征的具体描述(可以是数字或文字),或者说有关个体的具体信息。二、数据类型一种分类:定量型数据、定性型数据重量家庭人口月收入地板数量性别电话号码宗教信仰人格类型等等变量尺度类型:1、刻度级(Scale)数据(比例尺度和间隔尺度)变量只能用数子表示。(个体本身具有,不是人为制定的数值)2、序次级(Ordinal)数据变量可以用数字,也可以用字母表示。(人为设定的数值)3、名义级(Nominal)数据变量可以用数字,也可以用字母表示。(人为设定的数值)不同测度级别的数据的特征:不同测度级别的数据,应用范围不同。等级越高,应用范围越广泛;等级越低,应用范围越受限。一般来说,等级高的数据兼有等级低的数据功能;而等级低的数据不能兼有等级高的数据功能。名义级数据,通常是样本分类(分组)的依据。4、观察数据与实验数据观察数据:在获得数据过程中,不对被调查对象数据产生的条件施加任何控制所得到的数据。观察数据通常是众多因素共同作用的结果。实验数据:在获得数据过程中,对数据产生的条件实施了控制而得到的数据。观察数据通常是单一因素作用的结果。注:我们所用的数据一般以观察数据为主.三、获取数据的调查方法与问卷设计1、方法有:(1)普查(Census)(2)部分调查(抽样)(Sampling)与样本(Sample)2、抽样调查的意义:(1)成本低;(2)省时间;3、抽样方法:(1)非随机抽样(也称判断性抽样)(2)随机抽样(也称概率抽样)(简单随机抽样,即每个个体被抽取的机会(概率)均等)。两种典型的非概率抽样方法--方便抽样自愿抽样方便抽样:样本观察值很容易获得自愿抽样:只有自愿做出回答的观察值才被包括在样本中例如:一名教师想从本校1600名学生当中抽取一个样本,他决定面试下周一早上进入教室的前100名学生。4、常用的综合方法(1)分层(分类)抽样:按照总体中个体的某特征,把总体中的个体分为若干群(类),然后对各个群体内的个体进行简单随机抽样。分层抽样要求层之间的差异大于层内部的个体的差异。(2)整群抽样:将总体中的各个个体,按照某一标志量,分为若干群,然后以群为单位,对群进行(简单)随机抽样然后,对抽出来的个体进行调查)。整群抽样要求群体之间具有相似的特征。(3)等距抽样:按照某一标志量,把总体中的个体排序,然后按照一定间隔抽取个体。(4)多阶段抽样:即分几个阶段来进行抽样,一般在大规模调查时采用.问题分析:1、对1000瓶香水进行检验–某个商人收到一批瓶装的科隆香水(重量单位:盎司)货物。这批货物在运输时分成50箱,每箱有20瓶香水。从中随机抽取5箱货物进行检验,于是可以得到100瓶香水的平均含量。属于何种抽样方法?2、一名教师想从本校1600名学生当中抽取一个样本,他现在手里有一份名单,上面列出了这1600名学生的身份证号码。教师先随机从名单的前16学生当中抽取一个身份证号码,然后每隔16学生抽取一个身份证号码,直至获得所需要的样本。属于何种抽样方法?四、获得数据的实验方法实验方法:是指为了获得特定数据,通过对参与者类型的恰当限定、对数据产生条件的恰当限定、对数据产生过程的合理设计,而获得数据的方法。有4个要点:(1)目的:为了获得特定数据。(2)手段之一:恰当限定数据产生条件(3)手段之二:恰当限定参与者类型(4)手段之三:合理设计数据的产生过程如:进行化妆品调查、食品口闻调查.5、成本约束下的调查按照给定的成本来决定如何调查方法,调查规模等.第三章样本数据特征的初步分析一、整理样本数据信息在被操纵或处理后并没有超出其原有的格式原始数据--两种整理原始数据的基本方法数据阵列频数分布2、整理数据--数据阵列保留了数据的原值,并按数值的升序或降序显示数据。易观察到:数据集中包含最大观察值和最小观察值确认在某个数据集中哪些数组具有相同的值很容易发现各个值之间的差异3、样本数据结构的基本特征:频次与频率一、一些基本概念1、频次(频数)在有限的样本数据集合中,同样的数据值(样本值)出现的次数称为该样本值出现的频次。2、频率该样本值出现的频次/该数据集合的数据总数。常用表示方法:(1)表;(2)饼图;(3)条形图;二、样本数据集合的基本特征的延伸:累积频率当样本数据的测度在顺次级以上时,把样本值小于等于某个样本数据xi的频率值累加起来,就得到“小于等于xi”的累积频率。注:名义级的样本数据集合,不存在累积频率问题。表示法同上。整理数据--频数分布将数据值分成几组显示各组中有多少数值很容易发现数据的图形特点无法保留原始数据的值频数分布定义某个变量所有可能值的集合显示了变量的图形特点分布当数据集为小型时,数据之间的变化特点很容易观察出来随着数据集变为中型或大型,变量的特性一般表现得越来越不明显定义频数分布的类别频数分布频数每一组包含的观察值数目组组限每一组的上限和下限组宽上限和下限之间的间距如何将数据转换成表格?哪些重要或必要的信息应当包括在内?确定“组数”和“组宽”频数分布一般包括与每组有关的频数、累积频数、相对频数和相对累积频数频数分布频数分布累积频数相对频数相对累积频数显示每组范围内或其下有多少观察值相对频数描述每组范围内观察值所占的百分比,即每组的频数除以观察值的总数目显示每组范围内或其下观察值所占的百分比对于定性变量而言--常常根据变量结果的种类来选择组例如,为了研究本班100名学生的性别--频数累积频数男性6060女性40100100频数分布对于定量变量而言--选择“组数”和“组宽”是主要问题频数分布应当遵循哪些基本原则来确定组--1.各个组之间必须是“相互排斥”的2.各个组必须将“所有数据均包括在内”3.组数K的经验法则2Kn,此处n代表观察值的总数目4.各组之间的宽度最好相等,但这并不是必要条件。当组宽相等时,WnW最小观察值最大观察值频数分布5.应当尽量避免开口组6.组宽最好是整数例如,为了研究某班100名学生的身高--我们确定将整个数据分成5组,每组宽度相等,W=10厘米身高(厘米)频数累积频数相对频数相对累积频数140–150660.060.06150–16023290.230.29160–17036650.360.65170–18028930.280.93180–19071000.071.001001.00频数分布1.一张整理有序的表格可以使数据中隐藏的信息清楚地表现出来2.有助于采用图形方式来汇总数据数据集表格不具有唯一性频数分布频数分布以下数据表示一个当地咖啡馆进行的30笔交易举例146415347524816719254857696241463527726448517764515026428338频数分布首先--确定“组数”和“组宽”样本大小n=3025=32305组最小观察值=14,最大观察值=83最好采用“整数”W=15组数组宽8.1351483频数分布组别频数累积频数相对频数相对累积频数10–2544133.03040.13325–4064+6=10200.03060.33340–55810+8=18267.03080.60055–70725233.03070.83370–85530167.03051.000301.000茎叶图形数据必须按照升序排列为了构造图形,我们将数值的第一个数字作为茎茎叶排列使我们可以通过图形来了解数据的分布茎叶图形例如,我们想将12个数据转换成一张茎叶图形:4.43.64.43.77.63.93.63.53.04.53.82.22|23|05667894|4455|6|7|6茎叶图形用直观方式显示定量变量三种最常使用的图形类型--直方图频数多边形分布曲线在构造图形之前,需要用频数分布来显示数据用直观方式显示定量变量--直方图应当将数据转换成频数分布表水平轴代表变量的数值,核对符号代表每一组的中点垂直轴代表计数频数或百分比频数每个条形图的高度与每一组的频数或百分比相对应每个条形图的宽度与每一组的宽度相对应用直观方式显示定量变量--直方图例如,我们在本单元中想通过绘制直方图来表示100名学生的身高分布身高185.0175.0165.0155.0145.0计数频数403020100用直观方式显示定量变量--频数多边形身高190.0180.0170.0160.0150.0计数频数403020100200.0140.0用线段将各组中点和频数(或相对频数)的交叉点连接起来,就可以得到频数多边形图形身高.190.0180.0170.0160.0150.0累积计数频数806040200140.0100用直观方式显示定量--分布曲线图形显示了每一组的累积频数或相对累积频数它可以用“小于”或“大于”来表示定性变量常常用非数值刻度来测量对这些变量可以进行分类可以采用两种最为常见的图形来描述定性变量的分布饼图条形图用直观方式显示定性变量饼图的圆圈代表了所有观察值的集合根据定性变量的类型数目将饼图分成几个部分饼图每一部分的大小与每一类型的相对频数成正比用直观方式显示定性变量--饼图例如,我们可以用饼图来描述某班100名学生的性别分布状况男性60%女性40%用直观方式显示定性变量--饼图对于定性变量而言,条形图表示每一类型的百分比或计数频数每个条形图的高度代表每一类型的百分比或比例条形图的宽度没有意义,所有类型的宽度均相同用直观方式显示定性变量--条形图例如,我们用条形图来显示某班100名学生的性别分布状况020406080男性女性用直观方式显示定性变量--条形图SPSS统计软件给我们的工作带来了方便饼图:图形饼图对各组情形进行总结条形图:图形条形图对各组情形进行总结SPSS统计软件给我们的工作带来了方便直方图:图形直方图选择关心的变量茎叶图形:分析描述统计学寻找选择绘图选项集中趋势测度--未分组数据定义所有观察值的平均值均值所有观察值中位于最中心位置的那个值中位数出现最频繁的数据值众数均值--总体均值N总体大小总体中所有观察值之和Nx样本均值n样本大小样本中所有观察值之和nxx集中趋势测度--未分组数据Kim测验的平均成绩等于在此我们可以看到,在汇总Kim的测验成绩时,均值并不能发挥很好的作用。在大多数情况下,Kim的测验成绩低于30分,她只在一次测验中意外地获得了98的高分,因此她的平均成绩被提高到35分。355261925987集中趋势测度--未分组数据Kim是一名中等学校的学生,她上星期进行了5次测验,成绩分别如下7,98,25,19,和26均值对极值表现得非常敏感如果数据中存在极值(或者说数据分布有所偏斜),那么均值就不能很好地测度集中趋势集中趋势测度--未分组数据中位数(Md)--1.将n个观察值按升序或降序排列2.如果观察值个数是奇数,则中位数就是位于最中心位置的那个观察值,即数据集中的第个观察值3.如果观察值个数是偶数,则中位数就是位于正中心两个观察值的平均值,即数据集中的第个和第个观察值的平均值集中趋势测度--未分组数据thn)21(thn)2(thn)12(举例:有6名工人组成一个样本,请找出他们每周工资的中位数151179163142180195按升序重新排列每周的工资142151163179180195最中心位置的两个数值求这两个数值的平均数中位数=集中趋势测度--未分组数据1712179163Kim的5次测验成绩又如何呢?Kim成绩的中位数为25看来中位数能更好地测度Kim测验成绩的中心位置--中位数不受“极值”的影响集中趋势测度--未分组数据
本文标题:《管理统计学》马庆国著-部分1
链接地址:https://www.777doc.com/doc-3938681 .html