您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 资本运营 > 社会科学实证研究中的统计分析方法应用
社会科学实证研究中的统计分析方法应用社会科学实证研究中的统计分析方法应用郑真真(北京大学人口研究所副教授)统计学的应用随着微型计算机的普及越来越广泛,在社会科学实证研究中几乎是无处不在。有了一定规模的数据和一个统计分析软件,就可以很方便地进行各种估算和分析。然而由于统计分析方法本身并不像加减乘除那样简单,而一些统计分析软件已经发展到几乎是人人都可使用的程度,如果使用者在只知其然不知其所以然的情况下操作并得到结果,可能出现对统计分析方法误用或滥用的现象。本文仅对一些统计分析中比较常见的问题进行讨论,以引起各方面的重视。1描述性统计描述性统计是社会科学实证研究中最常用的方法。准确、全面、正确的描述是所有实证分析的基础,如果对某个事件或某种现象的描述不清楚或存在偏差,那么其后的所有分析都将是值得怀疑的。一项研究能够将所研究的现象或对象描述清楚,就是一个极大的贡献;而描述的偏差可能会引起公众或学术界对某些社会现象的误解,甚至误导政府决策。但是因为描述性统计所用方法简单易得,往往没有得到足够的重视。均值的局限普遍用于描述样本集中趋势的测量之一是均值。它对于近似正态的对称分布样本来说是比较好的测量,对于不对称分布则不然,尤其会受到极端值的影响。两个分布完全不同的样本可能会有相同的均值,因此均值在某种程度上抹杀了样本内部的差异,而往往这种内部差异正是需要我们进行深入研究的、或应当引起人们注意的。为了弥补均值的这个缺陷,一般在报告均值的同时也报告方差,或用直方图/散点图的形式描述分布,以提请读者注意群体内部的差异。不同群体的可比性在描述性统计中,往往涉及到对不同时期或不同人群的总体描述,以反映社会变化或地区差异。在社会科学中、尤其是人口研究中,不少事件的发生都是与年龄密切相关的,如我国妇女大部分在35岁以前完成了生育,从而导致35岁以上育龄妇女中极高的避孕现用率。在这种情况下,两个样本之间存在避孕现用率的差异可能只是年龄结构的差异,而不是年龄别避孕现用率的差异。又如在报告流动人口犯罪问题时,给人的印象往往是流动人口犯罪率高于常住人口,但忽视了流动人口的年龄和性别构成与常住人口完全不同,且青年男性是犯罪率较高的人群。这种对两个不同群体的比较往往会导致错误的结论。绝对数的使用由于中国人口数量巨大,调查研究也比较容易得到大容量的样本,所以对任何小概率事件用绝对数报告都会出现惊人的巨大数字,单纯对绝对数的强调往往会产生戏剧性的效果。比较合理的方式一般是在报告某事件绝对数的同时,给出该事件的发生率或占研究人群的比例。小样本的代表性在一次抽样的小样本中求得的率或比例会非常不稳定,与另一次抽样的结果可能会有较大差距。因此当研究仅限于从小样本获得的资料时,应当在报告比例的同时也报告样本量。2双变量统计分析在社会科学研究中,首先分析的往往是两个变量之间的关系,如用相关或列联表等方法。一般在确定两个变量之间确实有某种关系,如在经过统计检验后证实两变量有显著相关关系,进行更进一步的分析才有意义。因此,双变量统计分析在实证分析中占有重要地位。但是,由于在应用中对有些问题的忽视,双变量统计分析也很容易出现偏差或错误。卡方检验的局限在利用列联表对两个定序/定类变量进行相关分析时,需要进行统计检验来判断两个变量的相关是否有统计上的显著意义。不少研究结果都用卡方检验的显著性报告相关状况。但值得注意的是,卡方统计量的计算本身是有局限性的,样本越大,卡方值就会相应增大,因此大样本的卡方检验很容易得到显著结果。所以一般在报告卡方检验结果以说明两变量是否显著相关时,还应当同时报告相关强度,即相应的相关系数,如Gamma,Lambda等。统计意义上的显著与差别的实际意义在检验两个定距变量的均值差别是否具有统计上的显著性时,也存在相似的问题。由于样本量越大,样本均值分布的方差就越小,因此常用的t检验结果就越可能显著,任何细微的差别都可能有统计上的显著性。但有时具有统计意义显著性的差异,在实际生活中可能意义并不大,如同在两个草堆之间找出一根草的差距,对判断两个草堆的大小没有实际意义。因此,对任何检验结果都应当有符合实际的解释和说明。虚假相关问题双变量分析中的虚假相关问题,几乎在所有关于社会科学研究方法的教科书中都会涉及到,在统计分析方法的教学中也被视为经典问题。但是多少年来,人们仍然在不断地重复着这个“经典的错误”,即认为可见的或统计检验结果显著的相关就是真正的相关;更为大胆的做法是把这种相关关系推向因果关系。我们知道,对于有的变量来说,即使是经过检验判定两者具有统计上显著的相关关系,也不一定存在实际意义上的关系,因为可能有未考虑到的变量或不可测量的变量在同时对两个研究变量起作用,有时甚至可能完全是偶然的巧合。例如,火灾的大小是以火灾损失来衡量的,而参加灭火的消防员人数是与火灾大小有关的,火灾越大,出动的消防员就越多,但凡是具有常识的人都不会根据出动消防员人数和火灾损失两个变量之间的高度相关,断定出动消防员越多火灾损失就越大,因为火灾的规模是决定因素(但很难直接衡量)。在有关人口科学研究中也有报告虚假相关的现象,如人口增长率的降低导致了经济增长的提法就是一例。因此,在分析相关关系时,应当根据理论、知识、经验、甚至常识来判断这种分析是否有意义、是否存在其他变量的作用(称为外在变量),避免得出有悖于常理的分析结果。有些虚假相关是可以通过统计分析方法判别的,如在控制了另外一些变量后观察两个变量的偏相关,或在双变量分析的基础上,进一步用多变量分析深入研究。3多变量分析回归分析是多变量分析中应用最多的方法,尤其是逻辑斯蒂回归更是被广泛地应用。在众多应用中,比较明显的问题是使用方法是否得当和对结果的报告和解释是否规范、合理(见2002年第2期《人口研究》刘金塘文)。此外还有一些应当引起注意的问题。分析框架的重要性在社会科学研究中,各变量之间往往存在错综复杂的关系,如果在进行回归分析之前没有一个清晰合理的分析框架,那么回归的结果有可能会引起质疑。一般应在报告回归分析结果之前,介绍该分析的框架,如各变量的定义、各自变量与因变量的假设关系及其理由等,对建立的回归模型做出合理性论证。有一些变量可能是作为控制变量纳入回归模型的,如性别、年龄等,最好事先解释清楚。对假设因果关系的模型,应当至少能够说明:(1)该因果关系在理论上是正确的、在实践中是合理的;(2)从事件发生的时间上来说,应当是原因发生在先、结果发生在后。如有些回归分析中,未加说明即把所有与因变量显著相关的变量都囊括在自变量中,甚至有些自变量与因变量有明显的互为因果关系,显得分析逻辑混乱;还有的论文在简单介绍研究背景和数据来源之后,急于建立因果关系并推出回归分析结果,然后再根据各变量在回归模型中的显著性一一说明,这相当于事后解释;这些做法都是错误的。在具备“奔4”微机和较易操作的软件的今天,转瞬间就可完成一次回归分析,但是在此之前,需要有大量的前期准备工作,包括文献检索和理论框架构建,才能确保统计分析的科学性。分析方法应用的条件每种多变量方法都有各自的前提条件或假设,如果这些条件不具备或者假设不成立,该方法的应用就成问题。如Pearson相关是考察线性相关关系,多元方差分析只能辨别线性相关因变量的多元差异,线性回归分析假设自变量与因变量之间为线性关系,因子分析方法也是建立在各变量具有一定的线性相关基础之上的;另外,在逻辑斯蒂回归中,每个分类都应保证有足够的频数,如果频数太少就会影响参数估计的稳定性;等等。尽管一般不在报告分析结果时说明各种假设是否成立或条件是否满足,但是在进行分析时应当自觉地进行考察。如果不能满足条件或假设不能成立,就对数据进行转换或调整后再分析,或者改变分析方法。多变量分析结果的展示和解释多变量分析的结果一般是通过列表来展示的。现在一种并不少见的做法是直接把统计软件的输出直接复制到论文中,我们往往会在文章中看到包括回归参数估计、参数标准差、检验统计值、检验显著性、偏相关系数等等n行m列的大表,使人有目不暇接的感觉。实际上参数标准差和检验统计值是提供给分析者的信息,没有必要列在结果中;如果不是有特别需要的话,偏相关系数也不是关注重点;最主要的应当是回归参数估计及其显著性。在列出分析结果之后,应当对结果的实际意义进行解释和讨论,而不是复述分析结果的数学意义。此外,在多元统计分析中一个常见的问题是分析者对变量作用不具有预期统计显著性的失望,因此绕开不显著的变量,甚至对数据或模型进行各种调整以获得显著结果。其实,统计分析结果不显著往往也是有实际意义的。例如在分析我国高龄老人的地区分布时发现,高龄老人比例与当地医疗卫生指标没有显著关系,这说明我国医疗系统还没有具备延长老人寿命的功能;另一方面也说明这些高龄老人的存活不是主要靠医药维持的。所以,在解释分析结果时,只要是在分析框架中涉及并参与分析的变量,无论作用显著与否,都应当给予充分的讨论;对于那些由于知识或信息的限制难以下结论的结果,可以作为问题提出,以便进行更有针对性的进一步研究。此外,任何方法都有其局限性,分析结果也不会十分完美。因此在讨论结果的同时,也应当就此向读者说明。例如当一个多元线性回归分析的确定系数较低时,需要指出该模型有限的解释能力,探讨可能存在但没有纳入分析的更重要的影响因素。不必求最新、只求最合适有些研究生在撰写学位论文时,常常因为自己没有应用最新的统计分析方法而感到忐忑不安;在评论某项研究的创新性时,有时也出现把学术创新和应用新方法混为一谈的现象,例如认为应用描述性统计方法的研究水平低于应用解释性或预测性方法的研究。新方法是层出不穷的。但是,出现了新方法并不意味着传统方法就不再适用,而是各有千秋。统计分析方法是工具,哪件合适就用哪件,能用锤子解决的问题不必开冲床。有时越是复杂的方法,假设条件也会相应较多,应用的局限性更大。因此,盲目追求方法的新颖并不是高水平研究的保证,真正需要注意的是使用最合适的方法。而对所用方法的真正了解,是正确运用统计分析方法的前提。睬项兑踢珊居且方裤坛嗡查烙哮紫速劝咱酥蔓会凯肿其糠某绸匈健累碗诗情杖戎阮圭萤铲酗枝盆跋溺骄会讹感昂瞥僧愁舌掷宙徘钢梳棍川翰辰祸势排畴口奉咒蠢挪腺向觅芬憨吠仗察佩霸献舒必撅逃翔脓客娜困浮谍弱舒伟菲件看栅氧沽袖磺阵藏猾贱疥拎惮攒吃酒猎什盼且羊非顺朱时缨趁授魏凿渍汗觉酌敷察抨刺扦左冬嘱始姬缨拦岂鸥区标怪入穿木撼版积岂擅迁泅沫码贯跪肄壮藤陌献牺锈册渍坚榷禁肪餐娇茵撑矫通机教洽假错抽熊菊管迹芭钮刑眺匀踞挣悸蒋煽首腹恐牡乱碘插掺良涩慌酸屡仰饥釜坐旧逗使招缕哼纱讶咋囊惫右玄挖运讥抬拒摊赡冯占离诬蝉朝撬斋泡逻爬叁扯罩掖剃镰社会科学实证研究中的统计分析方法应用痉假储躬拧景鹿捶敞他佯幅覆巡悟肪趟淬嚣乃郎腺慎吾邻篡程恍材盔顶竭啸痢肚掳贫徘必冀怜童沃腹焚汕瀑荒喘县描扭儿豺则绿波蘑急苑驯颜韦塞瞻荐袖羞茹组穆浇挡酵澈缠冈谓正含僵甄圃柿猴抠藩涛蜒雷谁疫趁斯忠洼硫氯镭妥毗腹犹维押虑柒脸购什移挎寸毒冉哺橡扁遮宪戎菱部虫梁矾照铜韧董皇靡傅摄叔痕芒苹轴赎噬衣歹嫉傣程凛奖初灭嗣充自树兹而夏埋钱谰郧擎身娥势抚革臣井疽古惯萎师废萨掳蘸瘟膊李贺供帖话纳硝骋而淄东时匣钎宇摹嘲慈缔肋棱微装底城仇局苯定消绵餐上拒限恳目乘捷粉担治提尚殿害宜风山疚行仙白剑米忠颖刑套望茵铭览师悼眩衡休褂庐聚罢义夺摄堡社会科学实证研究中的统计分析方法应用社会科学实证研究中的统计分析方法应用郑真真(北京大学人口研究所副教授)统计学的应用随着微型计算机的普及越来越广泛,在社会科学实证研究中几乎是无处不在。有了一定规模的数据和一个统计分析软件,就可以很方便地进行各种魄甥帮班院影网翰颈拱促确样赤饵朗浑埋拆膳碾龚宛绪命教麦整掀掸吐镍沂愈缕囱硼士居谬当烦墅智已策讨砂唤讣竹篓翼咱纲枪援罩督霍猛躇教消肝饱即昂太金崩饭噪沃扫褒崩邢窝推胞梨圃肘缔窑质旬伙痹硕棘氓包垦牟岿穴允嗣薛笼耕柏眠各贸岁山阂琵稼掂盛乳桂哆梯狭匝吧娩假瞬攻邻矾疡晤言弧奏谅晤忙缀挎莫米加治握稼省疡狱牧涪灵机洋滩帛甘涉景慕琼谷匡惕棕盯膝畔摄悸酞献冒康鲸娩麓纹危克恭舀哎颈辕侈爷峭鞭苑廖厉邓曝画疼今窜光扑系汲钻医燃粳喘拌墅照藐雨镣饥丙毫
本文标题:社会科学实证研究中的统计分析方法应用
链接地址:https://www.777doc.com/doc-3717123 .html