您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 第九章统计分析(社会调查统计)
第九章统计分析——单变量描述分析•统计分析的内容包括两个方面:描述统计与推论统计。描述统计是对已经初步整理的数据资料加工概括,并用统计量对资料进行叙述的一种方法。他主要包括集中趋势、离散程度的分析。推论统计是在随机抽样调查的基础上,根据样本资料推论总体的一种方法。他主要包括参数估计和假设检验。1.集中趋势分析•集中趋势分析指的使用一个典型值来反映一组数据的一般水平,别的数值围绕在它的周围.•最常见的集中量数有平均数(也称为均值),众数和中位数三种.(1)平均数(mean)•平均数数是指总体各单位数值之和除以总体单位数目所得之商统计分析中习惯以X来表示.其计算公式如下∑Xn•例:•某班10名学生的年龄分别为20、21、19、19、19、20、20、21、22、18、20岁,求他们的平均年龄。(2)众数(m0)•总体中出现次数最多的标志值是众数。•例:•7名工人日产量(件)为4、5、6、6、6、7、8。•众数是6。(3)中位数(Md)把一组数据按值的大小顺序排列起来,处于中央位置的那个数值就叫中位数.它的含义是整个数据中有一半数值在她之上,另一半数值在它之下.公式为:Md=(n+1)÷21、标志值的个数是奇数例:7名工人生产某种产品,日产量(件)分别为4、6、6、8、9、12、14。位于中间位置的第四名工人的日产量8件为中位数。•2、标志值的个数是偶数.•上例增加为8名工人,日产量为4、6、6、8、9、12、13、14。中位数位置在第四和第五名中间,取这两者的平均数为中位数。3、离散趋势分析•离散趋势分析指用一个特别的数值来反映一组数据相互之间的差异程度。•最常见的离散量数有全距(极差)、异众比率、四分位差、标准差、离散系数.}{}{iixMinimumxMaximumR(1)全距(极差)(Range)•全距指一组数据的最大值与最小值之差.•全距(极差)越大,在一定程度上说明这组数据的离散程度越大,集中量数的代表性越低。•计算公式:例:5名学生的成绩为50、69、76、88、97则R=97-50=47(2)异众比率VariationRatio•异众比率指一组数据中非众数的次数相对于总体全部单位的比率。异众比率越小,说明众数的代表性越好,反之,异众比率越大,则说明众数的代表性越差。•公式如下:••其中n是全部个案总数,是众数出现的频数,二者之差就是非众数的频数。这个公式所要求出的,是在全部的个案中有多少是偏离众数。不属于众数的个案所占的比率愈大,就表示众数的代表性愈小,以之作估计或预测时所犯的错误也就愈大。•ofmnfnVRmo•例:假设甲校有学生550名,其中父亲职业最多的是农民,有288人;乙校有学生480名,其中父亲职业最多的也是农民,有295人。则:•甲校VR=550-288/550=0.476•乙校VR=480-295/480=0.385•甲、乙两校学生的父亲职业,众数都是农民,但离异程度不同。甲校有47.6%的个案不是农民,而乙校只有38.5%不是农民。因此,根据异众比率,甲校的离异幅度大于乙校。也就是说,在两校作估计或预测时,虽然应用同一个众数,但在甲校所犯的错误会大于乙校。(3)四分位差InterquartileRange•先将一组数据按大小排列顺序,然后将其4等分,去掉序列中最高的1/4和最低的1/4,仅就中间的一半数值来测定序列的全距。•Q1的位置(第一个四分位点)=(n+1)/4•Q3的位置(第三个四分位点)=3(n+1)/4•Q=Q3—Q1•例:调查11位同学的年龄如下:17岁、18岁、18岁、19岁、19岁、20岁、20岁、21岁、21岁、22岁、。•首先,求出Q1和Q3的位置:•Q1的位置===3•Q3的位置===9•其次,从数序中找出Q1=18,Q3=21•则四分位差Q=Q3—Q1=21—18=3411141n4)1(3n4)111(3(4)标准差StandardDeviation•标准差是各数值与其均值之差的平方和除以总体数的平方根。它是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。nXXs2)(•例1:在调查甲地的十个乡的卫生情况时,发现每个乡的卫生户比率如下:818141481512171219•则•标准差是3.6。•换言之,平均每乡有13.7%是卫生户,而反映各乡差异的标准差数值是3.6。在这里要解释的是,标准差数值在相互比较中更能突出其意义。例如,在调查乙乡的卫生户比率时,假定均值是18.5,标准差是1.7,对比之下,乙地各乡的差异程度小于甲地。818141913.710x222(813.7)(1813.7)(1913.7)10s•例2:某校三个系各选5名同学,参加智力竞赛,他们的成绩如下:•中文系:7879808182•数学系:6572808895•英语系:35788998100•无论从团体总分来看,还是从平均分来看,这三个系代表队的成绩都是相同的。那么,均值到底对哪一个代表队的代表性高呢?用前面的公式可得:•中文系=1.414•数学系=10.8•英语系=23.8•由此证明,平均成绩对中文系代表队的代表性最大,对英语系的代表性最小。(5)离散系数CoefficientofVariation•离散系数:标准差与平均数的比值,用百分比表示.•离散系数越大,说明总体内部数值之间的差异越大;反之则越小。•公式:%100XsCV•例:一项调查得到下列结果,某市人均月平均收入为92元,标准差为17元,人均住房面积7.5平方米,标准差为1.8平方米。试比较该市人均收入和人均住房情况哪一个差异程度比较大。•[解]人均收入的离散系数为•CV=17/92×100%=18.5%•人均住房面积的离散系数为•CV=1.8/7.5×100%=24%
本文标题:第九章统计分析(社会调查统计)
链接地址:https://www.777doc.com/doc-2184601 .html