您好,欢迎访问三七文档
第一章数据与统计学第一节统计数据与统计学1.统计学是一门收集、整理、显示和分析统计数据的科学,目的是探索数据的内在数量规律性。2.研究过程:提出问题解释数据(结果说明)分析数据(研究数据)整理数据(处理数据)收集数据(取得数据)解决问题第二节统计学的产生与发展3.古典统计学阶段(17世纪中叶~19世纪初):(1)国势学派:使用记述、对比的方法研究国家基本国情;(2)政治算术学派:使用数字、图表等统计方法,研究英国、法国、荷兰三国的国情、国力;(3)概率论学派:研究随机现象近代统计学阶段(19世纪初~20世纪初)现代统计学阶段(20世纪初至今)第三节统计学的分科4.从统计教育的角度,统计学可以分为描述统计和推断统计、理论统计和应用统计5.描述统计是指用图形、表格和概括性的数字对数据进行描述的统计方法。描述统计学是研究数据收集、整理和描述的统计学分支。6.描述统计学的内容:(1)整理数据;(2)收集数据;(3)展示数据;(4)描述性分析。7.描述统计学的目的:(1)描述数据的基本特征;(2)找出数据的基本规律。8.描述统计学的研究对象:确定性现象。9.推断统计是根据样本信息对总体进行估计、假设检验、预测或其他推断的统计方法。10.推断统计学的内容:(1)参数估计;(2)假设检验。11.推断统计学的目的:对总体的基本特征做出推断。12.推断统计学的研究对象:不确定性现象。13.理论统计是研究统计学的一般理论,是研究统计方法的数学原理。应用统计是研究统计学在各领域的具体应用。第四节数据的种类与来源14.数据的种类按性质可以分为(1)定位数据,如坐标数据;(2)定性数据,如表示事物属性的数据(城镇、河流、道路等);(3)定量数据,如面积,体积,重量,速度等;(4)定时数据,如年,月、日等。15.数据的种类按表现形式可分为(1)结构型数据,如各种数字、测量数据及其解释;(2)非结构型数据,如网络日志、音频、视频、图片和地理信息等。16.第一手数据(直接数据):统计数据来源于直接组织的调查、观察或科学试验,第二手数据(间接数据):统计数据来源于已有的数据。17.统计调查是按照预定的统计任务,运用科学的统计调查方法,有计划有组织地向客观实际搜集资料的全过程。18.统计调查包括(1)普查,普查是为了某一特定目的,专门组织的的一次性全面调查。通常是一次性或周期性的,非经常一般需要规定统一的标准调查时间数据的规范化程度较高应用范围比较狭窄。(2)抽样调查,抽样调查是从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法。特点:经济性、时效性、适应面广、准确性高。(最重要的调查方法)(3)统计报表,统计报表是按国家统一规定的表式,统一的指标项目,统一的报送时间,自下而上逐级定期提供基本统计资料的调查方法。(4)重点调查,重点调查是在所要调查的总体中选择一部分重点单位进行调查。重点单位是着眼于现象量的方面,尽管这些单位在全部单位中只占一部分,但是它们的某一主要标志的标志总量在总体标志总量中有绝大比重。(不带主观因素)(5)典型调查,典型调查是指有意识地选取若干具有代表性的单位进行调查和研究,借以认识事物发展变化的规律。典型调查包括①解剖麻雀:总体内部个体间差异很小;②划类选典:总体内部个体间差异较大。(虽然抽样调查、重点调查、典型调查都属于非全面调查,但是只有抽样调查可以用来推断总体的数量特征。重点调查和典型调查所得资料只能形成对总体的定性认识,不能上升为总体的定量结果。)(6)科学试验,在自然科学和工程的研究领域,通常是通过科学试验的方法获得研究的统计数据。(7)网络获取等。19.间接数据的获取渠道:(1)统计部门和政府部门公布的有关资料,如各类统计年鉴;(2)各类专业期刊、报纸、书籍所提供的资料;(3)各种会议(博览会、展销会、交易会等)及专业性、学术性研讨会上交流的有关资料;(4)从互联网或图书馆查阅到的相关资料。20.文件检索:(1)系统检索,选取合适的数据库和检索的关键词;(2)追溯检索,ScienceCitationIndex;(3)浏览检索,根据平时的积累。第五节统计数据的质量21.统计调查阶段是统计研究的第一步,在这一阶段中,统计数据的误差从不同的角度分类,可以分为非抽样误差与抽样误差。22.抽样误差是指利用样本推断总体时产生的误差。影响抽样误差大小的因素:(1)样本容量的大小;(2)总体的变异性。抽样误差可以计算和控制。23.非抽样误差是指由于调查过程中有关环节的失误造成的。从理论上来说,非抽样误差是可以避免的。控制方法:(1)对调查员进行挑选;(2)对调查员进行培训;(3)对调查过程进行控制;(4)对调查结果进行检验、评估。第六节统计学的基本概念24.总体:是指所研究的所有个体(基本单位)的集合。总体中的每个个体称为总体单位。总体单位的特点:大量性,同质性和异质性。25.样本:是指从总体中抽取的一部分元素的集合。构成样本的元素的数目称为样本容量。26.标志(变量):说明总体单位属性和特征的名称。标志包括(1)品质标志:说明总体单位质的特征;(2)数量标志:说明总体单位量的特征。27.指标:综合反应总体数量特征的概念和数值,具有可量性和综合性。指标包括(1)理论指标:指标名称、核算方法、计量单位;(2)实践指标:时间、空间、数值。常用指标:总量指标、平均指标和相对指标。例如:2014年我国国内生产总值568845亿元(总量指标),按可比价格计算,比上年增长7.7%(相对指标)。全年全国粮食总产量达到60194万吨(总量指标),比上年增加1236万吨(总量指标),增长2.1%(相对指标)。全年城镇居民人均总收入29547元(总量指标)。其中,城镇居民人均可支配收入26955元(总量指标),比上年名义增长9.7%(相对指标),扣除价格因素实际增长7.0%(相对指标)。全年农村居民人均纯收入8896元(总量指标),比上年名义增长12.4%(相对指标),扣除价格因素实际增长9.3%(相对指标)。2013年全国居民收入基尼系数为0.473(相对指标)。第二章统计数据的描述第〇节数据的预处理1.数据的审核包括逻辑审核和计算检查,目的:保证数据的完整性和准确性第一节统计数据的整理2.统计调查阶段是统计研究的第一步,它是根据统计研究的需要,将数据按照某个属性分成不同的组别。在分组时,如果按照性别、质量等定性指标分组,称为品质标志分组;如果按照数量或数值等定量指标分组,称为数量标志分组。(品质标志分组)(数量标志分组)单变量值分组适用于品质标志分组及数量标志分组中变量值较少时。3.次数分配(组距分组)是指将数据按其分组标志进行分组。4.次数分配的特点:(1)将变量值的一个区间作为一组;(2)适合于连续变量;(3)适合于变量值较多的情况;(4)需要遵循“不重不漏”的原则(上组限不在该组内);(5)可采用等距分组,也可采用不等距分组。5.组距分组的思路:(1)先确定组数,再确定组距;(2)先确定组距,再确定组数。不管怎么分组,都是组数越多,组距越少。例:666974767880828488896.与组距分组有关的几个概念:(1)下限(lowlimit):一个组的最小值;(2)上限(upperlimit):一个组的最大值;(3)组距(classwidth):上限与下限之差;(4)组中值:下限与上限之间的中点值(组中值=(上限+下限)/2).7.累计频数(shuÒ):(1)向上累积频数(以下累计):变量值由小到大排列,表示某个变量值的位置,或者小于等于某个变量值的个数;(2)向下累计频数(以上累计):变量值由大到小排列,表示某个变量值的位置,或者大于等于某个变量值的个数。8次数分配直方图:用矩形的宽度和高度来表示频数分布的图形。在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图。9.折线图(频数多边形图)是指在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉。具体做法:(1)第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴;(2)折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的。10.次数分布曲线:当观察次数逐渐增多,组距越小组数越多时,所画出来的折线就会越光滑,逐渐形成一条光滑的曲线,即次数分配曲线。常见的有四种曲线,即正态分布曲线,偏态曲线,J形曲线和U形曲线。(1)正态分布曲线也称为钟形曲线,,是客观事物数量特征表现最多的一种次数分布曲线,如人的身高、体重、智商,电子管中的热噪声、电流、电压,纤维长度。细沙强度,钢的含碳量,农作物产量,橡胶的抗张力。一个地区多年的降雨量等。所有的试验、测量和观测误差都服从正态分布;(2)偏态分布曲线根据尾巴拖向哪一方分为正偏(右偏)和负偏(左偏)两种分布曲线。例如人均收入分配的曲线就是右偏分布曲线;(3)J形曲线包括正J形曲线和反J形曲线。例如供给曲线(正J形曲线)和需求曲线(反J形曲线);(4)U形曲线又称为死亡率曲线、产品故障率曲线或浴盆曲线,人和动物的死亡率近似服从U形曲线分布。产品的故障和报损情况也有类似的分布规律。11.20世纪初意大利经济学家基尼(G.Gini)根据洛伦茨曲线给出了衡量收入分配平均程度的指标正态分布曲线右偏分布曲线左偏分布曲线正J型分布曲线反J型分布曲线U形曲线A表示实际收入曲线与绝对平均线之间的面积B表示实际收入曲线与绝对不平均线之间的面积如果A=0,则基尼系数=0,表示收入绝对平均如果B=0,则基尼系数=1,表示收入绝对不平均基尼系数在0和1之间取值一般认为,基尼系数若小于0.2,表明分配平均;基尼系数在0.2至0.4之间是比较适当的,即一个社会既有效率又没有造成极大的分配不公;基尼系数在0.4被认为是收入分配不公平的警戒线,超过了0.4应该采取措施缩小这一差距。第二节分布集中趋势的测度12.众数是指一组数据中出现次数最多的数据。特点:(1)适合于数据较多时使用;(2)不受极端值的影响;(3)一组数据可能没有众数或有几个众数;(4)主要用于分类数据,也可用于顺序数据和数值型数据。应用:市场中价格的确定。13.中位数是排序后位于中间位置的的是数据。若总数据个数为奇数,则中位数=21中间数;若总数据个数为偶数,则中位数=221中间数中间数。特点:(1)不受极端值影响;(2)主要用于顺序数据,也可用数值型数据,但不能用于分类数据14.中位数是将统计分布从中间分为面积(即数据个数)相等的两部分,与中位数性质相似的还有四分位数、十分位数和百分位数。四分位数是指将数据分布4等分的三个数值,其中中间的四分位数就是中位数。十分位数和百分位数分别是将是数据十等分和一百等分的数值。15.均值是数据集中趋势的主要测度值。包括(1)算数平均值:设一组数据为:xxxn,,,21,则算数平均值=x=nxxxn21(总体算数平均值和样本平均值求法一样);(2)设一组数据为:xxxn,,,21,相应的频数为:fffn,,,21,AB累积的收入或财富百分比累积的人口百分比洛伦兹曲线绝对平均线则加权平均值=ffffxfxfxnnn212111,加权平均值的变形公式:加权平均值niiniiniiniiifxffxf1111==wxinii1(变量值,权重)性质:(1)各变量值与均值的离差之和等于零()0xx;(2)各变量值与均值的离差平方和最小,(3)几何平均值:nniinnaaaaG121。适用特点:(1)变量值以相对数的形式出现;(2)变量值相乘有意义。应用:(1)计算平均发展速度;(2)平均收益率;(3)流水线的产品合格率。例题:某产品要经过生产流水线连续作业的四道工序才能完成。某月份各工序产品的合格率分别为98%、95%、95%、97%,计算整个流水线产品合格率?498%95%95%97%96.24%某银行为鼓励用户长期存款,
本文标题:统计学第一二章
链接地址:https://www.777doc.com/doc-2138674 .html