您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 广州大学公管管理学院 社会统计学课件
社会统计学引子:在学统计学之前,我们需要了解的为什么要学统计学?统计学是什么?如何学习统计学?为什么要学统计学?•因为这是必修课!——几乎所有的社会科学、行为科学、生物学等学科的学生和研究生都需要选修这门课。•事实上,社会调查与统计推论是大多数“社会科学”之所以称之为“科学”的基石!•这是一门非常有用的课程!也许能帮助你找到一份满意的工作!“一种科学只有在它成功地运用数学时,才算达到了真正完善的地步”——卡尔·马克思四种获取知识的不同方式:•权威法——依据权威提供知识与信息•经验法——依靠人的感官来获取知识•思辨法——依靠直觉、洞察和逻辑推理来获取知识•科学方法——同样依靠经验观察和逻辑推理,但科学的研究程序是其核心科学的研究逻辑操作化通过对理论的演绎建立研究假设科学实验得出结论社会科学研究的一般过程确定课题、了解情况建立研究假设概念的操作化设计问卷、抽样调查统计分析假设检验、得出结论案例:在校大学生的恋爱行为是否存在性别差异?——谁更需要爱情?男生还是女生?统计学是什么?——统计学简史•起源——国势学Statistics(统计学)一词源于法语status(状态),后逐渐演变成state(国家)。统计学原来包含的意义是指对国家的状态作调查研究。代表人物:德国大学派统计学•政治算数——兴起于英国,代表人物J.Graunt《关于伦敦死亡表的观察》,经济学家W.Petty《政治算数》,用计量和比较的方法,比较英国与法、意、荷等国家的国力。•数理统计学——十九世纪的发展现代统计学之父:阿道夫·凯特勒(A.Quetelet),代表作《社会物理学》。主张用研究自然科学的方法研究社会现象,正式把古典概率论引进统计学,使统计学进入一个新的阶段。1867年,数理统计学诞生。统计学简史(续)•大多数基本统计过程最初应用于农业、天文学、政治学领域,在人类行为领域的应用则比较晚。•现代统计学无论是在数学理论还是在应用范围上都得到了飞速发展,计算机及其相应的统计软件已经逐步成为统计工作者不可缺少的工具。•现代统计学既是一门独立的学科,同时也是一种方法论,不同的领域基本上使用相同的技术来回答不同的问题。法兰西斯·高尔顿(FrancisGalton,1822.2.16—1911.1.17.)统计学是什么?——概念与内涵•统计学是描述一系列可用于描述、整理和解释资料或数据的统计工具和技术•统计学的基本分类:描述统计与推断统计描述统计(DescriptiveStatistics):用于整理、描述所收集的数据的特征推论统计(InferentialStatistics):利用较小群体的数据(样本)来推论可能的较大群体(总体),通过推论统计,我们可以解释数据。如何学习统计学?树立信心培养兴趣由浅入深逐步推进仔细阅读你的教材按时完成练习多多留意报刊、杂志甚至学术期刊上的统计实例多多使用统计软件练习数据分析Spss统计软件下载链接——教材中使用的数据——第Ⅰ部分开始学习之前的知识储备什么是变量?变量有哪些层次?不同类型变量的统计表制作方法概念(Concept):人们对事物本质的认识,是研究的基本单位,具有抽象性。定义(Definition):将概念呈现、描述出来,从而明确认识对象。操作化定义(Operationaldefinition):用一系列可以观察、可以测量的指标来模拟或表述定义,使得非量化的概念得以运算并得以操作测量。概念抽象定义操作化定义都市化现代都市的生活形态妇女就业人数、子女数、交通;通讯手段等个人现代化一个人由于经济、工业等现代因素所产生的内部变化对时间、效率、家庭、亲属、消费、自信等具体问题的看法子代偏重经济上、感情上和生活上对子代过分的偏重子代抚育费与家庭平均消费的比较、子代过生日的花费与长辈生日花费的比较、花在子代闲暇时间的多少等•变量(Variables)——在统计学中表示研究对象的特征,变量下的各种表现形式或不同取值,就是变量值。变量变量变量值性别家庭子女数重要性文化程度男;女1个;2个;3个;…非常重要;一般;不重要大学;中学;小学;文盲变量取值时注意的问题:完备性互斥性单变量分析——变量的分布(frequencydistribution)分布——某个变量的变量值出现的次数或频次,也称频次分布。例:家庭结构(变量X)可能的取值包括:X1——由父母和未婚子女组成的核心家庭X2——由父母和单一已婚子女组成的三代人家庭,即主干家庭X3——由父母和多对已婚子女所组成的三代人家庭,即联合家庭如果我们将调查结果按照被访人的回答,分别归入上述三类,于是有以下三对数据:(X1,n1)(X2,n2)(X3,n3)…(Xk,nk)其中Xi表示变量X的第i个取值;ni表示该取值所对应的次数所谓分布,实际上就是这些对数据的集合当n代表不同的含义时,表示不同的分布如:当n表示概率时,称作概率分布当n表示频次时,称作频次分布当n表示百分比时,称作频率或相对频次分布家庭结构频次核心家庭1050主干家庭720联合家庭110其他250总数2130家庭结构的频次分布(XX地,XX年XX月)家庭结构百分比核心家庭49.3主干家庭33.8联合家庭5.2其他11.7总和百分比100家庭结构的百分比分布(XX地,XX年XX月,N=2130)正面次数概率0123456789100.000.010.040.120.210.250.210.120.040.010.00抛10次硬币正面出现次数的概率分布两变量关系——命题的研究•两个变量之间是否存在关系?关系的密切程度(强度)如何?•自变量(independentvariable):也叫独立变量,由研究者主动操纵,或被研究者界定为不受其他变量影响,独立变化的变量。•因变量(dependentvariable):也叫依变量,指受其他变量影响,随其他变量变化的变量。•自变量与因变量是就因果关系而言的,判断自变量与因变量的标准:(1)时间的先后。由于后发生者无法影响先发生者,所以先发生者是自变量;(2)变量的不变性与可变性。在社会研究中常将一些具有固定性、持久性的变量作为自变量。•变量间的因果关系,也称为非对称关系,这种非对称关系与自然科学所讲的因果关系有一定区别,后者的定义更为严格一些。对于多变量的研究,情况更为复杂,它们除了两两之间可能存在联系,而且还可能存在网状、链状、一因多果或一果多因等多种联系,这些都属于更高层次的统计技巧。1、定类层次变量(NominalVariable):变量取值只有类别属性之分,根据变量值,只能知道研究对象是相同或是不同。从数学运算特征来看,只具有等于或不等于(=、≠)的性质。例如:性别。变量层次2、定序层次变量(OrdinalVariable):变量取值除了有类别属性之外,还有等级,次序的差别,其数学特性除了(=、≠)之外,还有大于或小于(><)之分。例如文化程度、社会经济地位等。2011中国大学排行榜10中山大学广东综合33.7734.4729.6042.6128华南理工大学广东理工16.7315.3614.1033.2163暨南大学广东综合8.206.947.0318.7971华南师范大学广东师范6.644.037.7413.3474华南农业大学广东农林6.156.175.856.03102南方医科大学广东医药4.363.784.545.46108深圳大学广东综合3.944.212.807.26128广州中医药大学广东医药3.162.831.6411.76173广州大学广东综合1.842.061.213.40名次学校名称所在省市类型总分科学研究人才培养综合声誉3、定距层次变量(IntervalVariable):变量取值除了有类别、次序属性之外,取值之间的距离还可以用标准化的距离去量度。其数学特性除了(=、≠;><)之外,还可以进行加或减(+,-)。例如智商。4、定比层次变量(RatioVariable):变量取值除了有上述三种属性之外,其取值还可以构成一个有意义的比率,其数学特性除了(=、≠;><;+,-)之外,还可以进行除法运算。例如年龄。定比变量和定距变量的差别在于前者有一个真正有意义的零点。1、高层次的变量包含低层次变量的数学特征。•变量层次的比较2、在社会学研究中,一般不区分定距和定比变量,而是当作一类,称作定距变量。4、变量的层次与社会实际衡量之间有可能存在着差距或不一致性。5、根据研究内容不同,变量的层次也可能不同3、一个变量的层次并不是唯一的。高层次的变量可以作为低层次变量来使用,但是会使资料的信息使用不完全。应用——如何制作不同类型的单变量统计表?1、定类单变量统计表性别频次百分比男女2747155963.836.2总计4306100表1:微博用户的性别统计表(N=4306)(资料来源:SSI在线样本库,调查地包括北京、上海、广州、深圳、成都、沈阳、西安、杭州八市)表头表号标识行主体行表尾2、定序单变量统计表表2:微博用户的教育程度统计(N=4306)受教育程度频数百分比初中及以下高中、职高、技校大专大学本科研究生及以上1723786627524340.45.520.163.910.1总计4306100(资料来源:SSI在线样本库,调查地包括北京、上海、广州、深圳、成都、沈阳、西安、杭州八市)3、定距和定比单变量统计表定距和定比变量的两种类型:•离散型变量——取值为有限个或列为有限个,如子女数•连续型变量——取值为有限或无限区间内的任意实数,即变量的取值连续,如身高若变量为离散型变量,且取值相对较少,可以按照定类或定序统计表方式统计频次或百分比。若变量为连续型变量,则需要将变量值分为若干个区间或组,统计每一个组内的频次或百分比。•数据分组时需要考虑的几个问题:A组数B组距C组限如何制作分组统计表1、确定组数:一般调查总数N与分组数有如下经验关系调查总数N分组数K50~1006~10100~2507~12250以上10~202、确定组距:分为等距分组与非等距分组,一般来说为等距分组等距分组组距计算公式:组距(h)=(最大值-最小值)/组数斯特格斯(Sturges)经验公式确定组数:K=1+3.322lgNi+i2ib第组上限值第组下限值3、确定组限:一个组的最小值叫下限,最大值叫上限各组中心值bi计算公式4、分组原则:不重复、不遗漏,组上限不在内5、中心值计算缺上限开口组组中值bi=下限+邻组组距/2缺下限开口组组中值bi=上限-邻组组距/2收入组组中值百分比1000元以下20.21000-2000150045.12000-3000250022.83000-400035007.64000元以上4.3**地区残疾人月收入统计表(N=1000)5004500分组统计表例表例:某车间50名工人日加工零件数117122124129139107117130122125110118123126133134127123118112108131125117122133126122118108112134127123119113120123118112137114120128124115139128124121分组步骤:1、确定组数:K=1+3.322lg50≈72、计算组距:h=(L-S)/K=(139-107)/7=4.6≈53、确定组限,编制频数分布表组号日加工零件数中心值频数频率(%)累计百分比%cf1105-110107.53662110-115112.5510163115-120117.5816324120-125122.51428605125-130127.51020806130-135132.5612927135-140137.548100合计50100表1:工人日加工零件频数分布表第Ⅱ部分:描述统计(DescriptiveStatistics)集中趋势量数变异性量数统计图相关系数信度和效度第二章必须完成的功课——计算和理解平均数集中趋势量数均值众数中位数如何选择适合的集中趋势量数
本文标题:广州大学公管管理学院 社会统计学课件
链接地址:https://www.777doc.com/doc-3513291 .html