您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 统计学原理贾俊平期末考试重点
统计学期末(单选、10个填空、5个判断、三个计算、一道论述)第一章导论1、统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。分析数据:分为描述统计方法和推断统计方法两种方法。描述统计:研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。推断统计:是研究如何利用样本数据来推断总体特征的统计方法。推断统计内容包含参数估计和假设检验2、统计数据的类型:(1)按照采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据与数值型数据。注意:分类数据和顺序数据都是表现事物的品质特征,通常是用文字来表述的,其结果均表现为类别,因此可以通称为定性数据或品质数据(qualitativedata)。数值型数据说明的是现象的数量特征,通常用数值来表现,因此可以统称为定量数据或数量数据(quantitativedata)。(2)按照统计数据的收集方法,可以将统计数据分为观测数据和实验数据。(3)按照被描述的现象与时间的关系,可以将统计数据分为截面数据、时间序列数据(和面板数据panaldata)。3、抽样独立性问题:总体区分为有限总体和无限总体,目的是为了判别在抽样中每次抽取是否独立(类似抽小球是否放回的问题)。在统计推断中,通常是针对无限总体的,因而通常把总体看做随机变量(randomvariable)。统计上的总体通常是一组观测数据,而不是一群人或者一些物品的简单集合。4、统计指标按其所反映的数量特点和作用不同,分为数量指标、质量指标。样本(sample)是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量(samplesize)。抽样的目的是根据样本提供的信息推断总体的特征。5、总体参数(parameter)是用来描述总体特征的概括性数字度量,是研究者想要了解的某种特征值。样本统计量(statistic)是用来描述样本特征的概括性数字度量,是根据样本数量计算出来的一个量。126、变量(variable)是说明现象某种特征的概念,特点是从一次观察到下一次观察会呈现出差别或变化。例如:受教育程度,植株高度,年收入,宗教信仰,产品等级等都是变量。变量可以分为分类变量、顺序变量和数值型变量。数值型变量根据取值不同,可以分为离散变量(只能取可数值的变量,只能取有限个值,取值都是以整位数断开,如:产品产量、各位候选人得票数,企业数量等。)和连续变量(可以在一个或多个区间取任何值的变量,取值是连续不断的,不可一一列举,如:植株高度,毕业生年收入,温度,零件尺寸误差等。)。变量也可以分为随机变量和非随机变量(抽取方法随机性不同),经验变量(empiricalvariable)和理论变量(theoreticalvariable)。经验变量描述的是周围环境中可以观察到的事物,理论变量则是统计学家采用数学方法构造出来的一些变量,比如z统计量、t统计量、χ2统计量、F统计量等都是理论变量。第二章数据的搜集本章小结1、数据的来源:直接来源与间接来源2、调查数据:概率抽样(简单随机抽样,分层抽样,系统抽样,整群抽样,多阶段抽样)和非概率抽样(方便抽样,判断抽样,自愿样本,滚雪球抽样,配额抽样),搜集数据的方法(自填式,面访式,电话式)的抽样方式和特点3、实验数据:实验组和对照组,大量观察法4、数据的误差:抽样误差和非抽样误差(抽样框误差,回答误差,无回答误差,调查员误差,测量误差),误差的控制5、参数估计和假设检验所依据的主要是简单随机样本3第三章数据整理与显示1、直方图和条形图的区别:直方图用面积表示数据,条形图用高度表示数据;直方图主要展示数值型数据,具有连续性;条形图主要展示分类数据,分开排列。帕累托图:按照各类别数据出现的频数多少排序后绘制的条形图。2、累积频数和累积频率(顺序数据统计量)累积频数(cumulativefrequencies):各类别频数或组的频数逐级累加起来得到的频数。频数累积方法有两种:向上累积(顺序数据从开始到最后,数值数据从小到大)和向下累积。累积频率(cumulativepercentages)或累计百分比:各有序类别或组的百分比逐级累加起来,也有向上累积和向下累积之分。3、数据分组有2种方法:单变量值分组和组距分组单变量值分组:把每一个变量作为一组,只适合离散变量,且在变量值较少的情况下使用。组距分组:全部变量划分为若干个区间,将一个区间的变量值作为一组。A.适用于连续变量或变量值较多的情况B.一组的最小值称为下限(lowerlimit),一个组的最大值称为上限(upperlimit)。上限与下限的差称为组距,每组的中点值称为组中值(=(上限+下限)/2)。为了解决不重问题,习惯上规定“上组限不在内”,即a≤x<b。首组假定下限=该组上限-邻组组距末组假定上限=该组下限+邻组组距首组组中值的确定:如,2000以下,2000—3000,3000—4000,则为,2000-(3000-2000/24、分类数据的图示:条形图、帕累托图、饼图、环形图。顺序数据的图示:除了上述外还有可以绘制累积频数分布或频率图。数值型数据的展示:a.分组数据:直方图b.未分组数据:茎叶图和箱线图c.时间序列数据:线图d.多变量数据的图示:散点图、气泡图和雷达图第四章数据的概括性度量1、数据的分布特征可以从三个方面进行概括性测度和描述:(1)集中趋势;(2)离散程度;(3)峰态和偏态42、集中趋势的度量:众数,用M0表示,一组数据可能没有众数,也可能有两个或多个众数中位数,不能用于分类数据,中位数只有一个(偶数时取平均)中位数四分位数百分位数:是有P%的数据项小于或等于第P百分位数的值;有(100-P)%的数据项大于或等于这个值。求第P百分位数的值1)、由小到大排序。2)、计算P百分位数所在的位置i=(p%)n,n是总项数。3)、若i不是整数,将之向上取整,得到的整数即是第P百分位数所在的位置,相对应的数即是第P百分位数;(后面样本量n的确定也是向上取整的圆整法则)若i是整数,则第P百分位数是第i项与第i+1项数据的算术平均数。平均数:适用于数值型数据,不适用与分类数据和顺序数据。几何平均数:主要用于计算平均比率,平均增长率。如计算股票的平均收益率调和平均数:平均数、中位数、众数的比较:平均数包含的信息最丰富,代表性最好。当数列不是偏态分布的时候,平均数是集中趋势的最佳选择。但平均数要受数列中离群值的影响。中位数的适用范围比平均数宽,而且不受离群值的影响。当数列的分布是偏态时,中位5数是最有用的集中趋势代表值,因为它位于平均数和众数之间。众数的适用范围比平均数和中位数都宽,也不受离群值的影响。而且,在图上它很容易被观察到。但由于众数提供的信息很少,因此它是用途最小的集中趋势代表值。3、离散程度的度量(1)分类数据。异众比率(variationratio)是指非众数组的频数占总频数的比例,用Vr表示。计算公式为:(2)顺序数据。四分位差(quartiledeviation)也称为内距或四分间距(inter-quartilerange),上四分位数与下四分位数之差,用Qd表示:Qd=QU–QL。反映了中间50%数据的离散程度,其数值越小,说明数据越集中,反之说明数据越分散。(3)数值型数据极差(range)是一组数据的最大值与最小值之差,也称全距,用R表示。计算公式:R=max(xi)-min(xi)平均差(meandeviation)也称平均绝对离差(meanabsolutedeviation),是各变量值与其平均数离差绝对值的平均数,用Md表示,计算公式:方差和标准差样本方差和标准差的计算公式总体方差和标准差的计算公式(4)相对位置的度量1)标准分数(standardscore)是变量值与其平均数的离差除以标准差后的值,也称标准化值或者z分数。给出了一组数据中各个数值的相对位置。比如:某个数值的标准分数为-1.5,则该数值低于平均数1.5倍的标准差。2)经验法则:当一组数据对称分布时,约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内3)切比雪夫不等式(Chebyshev’sinequality)至少有(1-1/k2)的数据落在平均数加减k个标准差之内。其中k是大于1的任意值,但不一定是整数。(k2表示k方)对于k=2,3,4,切比雪夫不等式的含义是:至少有75%的数据落在平均数加减2个标准差的范围之内至少有89%的数据落在平均数加减3个标准差的范围之内至少有94%的数据落在平均数加减4个标准差的范围之内(4)离散系数(coefficientofvariation)也称变异系数,是一组数据标准差与其相应的均值之比。计算公式:4、偏态与峰态偏态是对数据分布对称性(偏斜程度)的测度,统计量是偏态系数(coefficientofskewness),记做SK.(如偏态系数为0.4表示轻微又偏)偏态系数=0为对称分布;偏态系数0为右偏分布;偏态系数0为左偏分布;峰态是对数据分布平峰或尖峰程度的测度,统计量是峰态系数(coefficientofkurtosis),记做CK。峰态系数0为尖峰分布,数据分布更集中峰态系数0为扁平分布,数据分布更分散;峰态系数=0正态分布第六章统计量及其抽样分布1、统计量是样本的一个函数,不依赖于总体未知参数。例如:样本均值、样本比例、样本方差等都是统计量,而[Xi-E(X)]/D(X)就不是统计量,因为E(X)、D(X)都是依赖于总体分布的未知参数。(即只要和总体有关的参数都不是统计量)2、英国统计学家费希尔曾把抽样分布、参数估计和假设检验看做统计推断的三个中心内容。3、抽样分布是样本统计量的分布而不是总体或样本的分布。4、卡方分布、t分布和F分布被称为统计的三大分布。5、卡方分布(1)卡方分布的概率密度函数曲线是一个不对称的右偏分布,随着自由度增大,趋近于对称6顺分7(2)卡方分布的期望、方差:当n→+∞时,卡方分布的极限分布是正态分布。6、t分布(主要用于小样本问题)与正态分布相对来说更加平坦和分散。当n≥30时,t分布与标准正态分布非常相似。7、F分布。无8、当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值也服从正态分布,的数学期望为μ,方差为σ2/n。即~N(μ,σ2/n)中心极限定理:从均值为,方差为2的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值x(ba)的抽样分布近似服从均值为μ、方差为σ2/n的正态分布8、两个样本均值之差的抽样分布第七章参数估计1、置信水平(confidencelevel):将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平,也称为置信度或置信系数。(1-α)置信区间(confidenceinterval):由样本统计量所构造的总体参数的估计区间称为置信区间。表述:在多次抽样中有95%的样本得到的区间包含总体参数的真值。用该方法构造的区间称为置信水平为95%的置信区间。使用一个较大的置信水平(99%)会得到一个比较宽的置信区间,而使用一个较大的样本(n30)则会得到一个较准确(较窄)的区间。显著性水平:原假设为真时,拒绝原假设的最大概率,被称为抽样分布的拒绝域。(α)2、估计量的三大评价标准:无偏性、有效性、一致性3、总体参数的区间估计双侧检验zα/2的值置信水平90%,1.645置信水平95%,1.96单侧检验置信水平90%,1.282置信水平95%,1.6458两个总体参数的区间估计(除匹配样本外,其余了解分布类型即可)两个总体均值之差的估计,匹配大样本匹配小样本4、样本量n的确定(非整数时圆整法则,同百分位数i的确定)估计总体均值时样本量n:估计总体比例时样本量E均为希望达到的估计误差,做题时题目会给第八章假设检验1、双侧检验:I统计量I临界值,拒绝H0左侧检验:统计量-临界值,拒绝H0右侧检验:统计量临界值,拒绝H02、什么是P值?(P-value)P值就是当原假设为真时
本文标题:统计学原理贾俊平期末考试重点
链接地址:https://www.777doc.com/doc-1537906 .html