您好,欢迎访问三七文档
第一章绪论统计三层涵义:统计活动、统计数据和统计学。统计学:是一门收集、整理、归纳、分析统计数据的科学,其目的是探索数据内在的数量和规律性。统计学发展过程:创立于17C至18C古典统计学(国势学/政治算数学-威廉配第)-近代统计学(统计学之父凯特勒,将概率论和统计学结合)-现代统计学统计学研究对象:客观事物的数量特征和数量关系。研究对象四大特点:数量性/总体性/具体性/变异性。两种统计研究方法:(描述统计和推断统计)1.按分析方法不同:描述统计和推断统计.///A.描述统计:用图形、表格和概括性的数字对数据进行描述的统计方法。主要内容包括:数据搜集、加工处理、显示、概括与分析.///B.推断统计:根据样本信息对总体进行参数估计、假设检验、预测或其他推断的统计方法。///C.描述统计与推断统计的关系:二者是统计方法的两个组成部分,描述统计是统计学的基础,推断统计是现代统计学的主要内容.2.按研究角度不同:理论统计和应用统计总体与样本:1.总体:是由客观存在的、具有某种共同性质的许多个别单位构成的全体。两特点:同质性/大量性。总体单位:○1组成总体的每个单位○2资料的原始承担者—资料最初取得来源2.样本:从总体中随机抽取若干单位构成的集合。四特点:取自总体内部/不唯一性/代表性/客观性变量与标志1.变量:总体中个体单位所具有的特征或特性。1、变量:可变的数量标志//2、变量值:变量的数量表现化。按其变量值是否具有连续性:○1连续变量—小数和整数///○2离散变量—整数//按性质:确定性变量/随机性变量2.标志:说明总体各单位的属性和特征名称。按反映单位的特征分类:品质标志—文字/数量标志—数字(变量)。按各单位的表现是否相同分类:可变标志/不变标志参数与统计量1.参数:描述总体特征的概括性数字度量,是总体的某种特征值。希腊字母:如总体均值()/标准差()/总体比例()2.统计量:描述样本特性的概括性数字度量根据样本数据计算出来的一些量是样本的函数。小写英文表示如样本均值(x)、样本标准差(s)、样本比例(p)等第二章数据的收集和整理四种计量尺度:定类(列名)尺度=≠/定序(顺序)尺度></定距(间隔)尺度+-/定比(比率)尺度×÷(由低到高,由粗略到精确)数据三种类型:静态(横截面)数据/动态(时间序列)数据/平行数据(动静态结合)数据的三种表现形式:绝对数/相对数/平均数统计数据的来源:两种途径--次级数据(第二手数据).原始数据(第一手数据)1.间来.2.直接来源.科学实验或统计调查。统计调查分为:A普查:为某一特定目的,专门组织的一次性全面调查.B.抽查:通过随机样本对总体数量规律性进行推断的方法.五特点:客观/经济/时效性强/适应面广/准确性高统计调查的方案设计(六步骤):1确定调查目的/2确定调查对象和单位/3设计调查项目和调查表/4确定调查时间/5调查方法的选择/6统计调查的组织实施数据搜集的五种组织方式:1.普查(特定目的,全面调查)///2.抽样调查(随机,抽一部分,反映总体特征)///3.重点调查(非随机,抽一部分,大致反映总体特征)////4.典型调查(非随机,抽特殊的,不反映总体特征)////5.统计报表我国目前形成了以定期普查为基础,经常性抽查为主体,以重点调查和统计报表为辅助的资料搜集模式.数据搜集的四种基本方法:直接观察法/访问法/报告法/问卷法统计整理的两个核心:统计数据的分组和编制频数分布表.统计数据的分组是统计整理的第一步。品质标志分组:按事物性质和属性划分//数量标志分组.按数量特征次数分配/分布数列/频数分布:在统计分组的基础上,将总体的所有单位按一定标志分组整理,并按一定顺序排列形成总体单位在各组的分布.分布数列由两个基本要素构成:组/单位数(即次数或频数).各组次数与总次数之比称频率或比重.根据分组标志的特征不同划分为:品质数列和变量数列.组距式变量数列(频数分布表)编制方法:1.全距R=最大变量值-最小变量值2.组数n=1+3.322lgN(N表示变量个数)3.组距i=R/n=上限-下限(组距是各组中最大变量值和最小变量值之差)4.组限(限定各组组距的数值)5.组中值=(上限+下限)/2(组中值是上限到下限之间的中点数值)6.累计频数(分布在各组的单位数如人数)和累计频率(各组次数与总次数之比为频率如人数比重).向上累计频数(频率)是变量值小的组向大的组依次累计第三章数据特征的度量众数、中位数和均值的关系:众数是分布最高峰所在的位置。中位数从面积上将分布分成两等份。均值由于受极端值的影响,故将均值拉向偏向极端值的右方。已分组数据均值:x̅≈∑xifiki=1∑fiki=1方差:𝐬𝟐(𝛅𝟐)=∑(xi−x̅̅̅)2ni=1N离散系数:V=σx̅̅̅数据的分布特征:可从数据的集中程度/数据的离散程度/数据分布的峰度和偏度三个方面度量和描述.数据集中程度的度量:反映的是数据一般水平的代表值或者数据分布的中心值。(测度方法有:简单or加权算数平均数/调和(倒数)平均数/几何平均数G/众数M0/中位数Me)其中各种平均数是计算的平均数中位数和众数是位置平均数不易受极端值的影响.众数/中位数/均值的特点和关系:1.众数:不受极端值影响/具有不惟一性/数据分布偏斜程度较大时应用2.中位数:不受极端值影响/数据分布偏斜程度较大时应用3.均值:易受极端值影响/数学性质优良/数据对称分布或接近对称分布时应用4.关系:左偏分布对称分布右偏分布数据离散程度的度量:反映的则是分布离散和差异程度(测度方法有:极差R/内距(四分位差)/方差𝛅𝟐标准差𝛅/离散系数)。第四章统计指数同度量因素:指媒介因素,使若干由于度量单位不同不能直接相加的指标,过渡到可以加总和比较而使用的媒介因素.作用:将不同度量的现象转化为同度量的现象,编制数量指标指数时,同度量因素所属时期固定在基期水平上;编制质量指标指数时,同度量因素所属时期固定在报告期水平上。指数的作用:1.综合反映事物的变动方向与变动程度///2.对复杂的社会经济现象进行因素分析//3可以研究事物在长时间内的变化趋势综合指数和平均指数:1.综合指数:编制基本方法为”先综合后对比”,包括帕氏指数和拉氏指数2.平均指数:编制基本方法为”先对比后平均”包括算术平均指数和调和平均指数3.二者都是总指数的基本形式之一,用来反映复杂现象总变动//都与基期和报告期相关,分为质量因素和数量因素随机变量的概率分布:1、离散型随机变量的概率分布:可以用图形或公式来描述随机变量的可能取值及其所对应的概率课例举。2、连续型随机变量的概率密度:不可举例,只可以取某一区间第五章抽样与抽样分布抽样调查:按照一定的规则从总体中取出一部分单元组成一个样本,并收集样本的数据资料的过程,简称为抽样.根据抽样的原则不同,抽样方法有随机抽样和非随机抽样两种。随机抽样分类:(根据抽样规则不同,抽样可以分为随机抽样和非随机抽样)1、简单随机抽样(可重复亦可不重复):在从总体中抽取n个单位为样本,也称纯随机抽样。特点:最符合随机原则,但在实际操作中存在局限性///2、分层/分类抽样(可重复亦可不重复):在抽样之前先将总体的单位划分为若干层,然后从各个层中抽取一定数量的单位组成一个样本。若σ较大,分层比简单误差小。///3、系统抽样/等距抽样/机械抽样(不重复抽样):在抽样中先将总体个单位按某种顺序排列,并按某种规则确定一个随机起点,然后,每隔一定的间隔抽取一个单位,直至抽取n个单位形成一个样本。///4、整群抽样:先将总体划分成若干群,然后再以群作为调查单位从中抽取部分群,进而对抽中的各个群中所包含的所有个体单位进行调查或观察。重复抽样与不重复抽样.(有放回和无放回的简单随机抽样)重复:从总体中抽取一个单位并加以计量后,把这个单位放回到总体中再抽取第二个单位,直到抽取n个单位为止.不重复:一个单位被抽中后不再放回总体,然后再从所剩下的单位中抽取第二个单位,直到抽出n个单位为止。抽样分布:由样本n个观察值计算的统计量的概率分布。样本统计量:是根据样本资料计算出来的,值随着样本的不同而变化,是一个关于样本的随机变量.三种分布的概念:1.总体分布:总体中各元素的观察值所形成的分布;分布通常是未知的;可以假定它服从某种分布。2.样本分布:一个样本中各观察值的分布,也称经验分布.当样本容量n逐渐增大时,样本分布逐渐接近总体的分布3.抽样分布:是由来自某总体样本的n个观测值计算的统计量的概率分布,是一种理论分布。三个抽样分布:1.样本均值的抽样分布:由独立同分布中心极限定理,如果n充分大,当重复抽样时,样本均值x̅服从均值为μ,方差为σ2的正态分布.当n≥30时,样本均值的抽样分布可以看做正态分布.2.样本比率的抽样分布:如果从总体中简单随机抽样则每次抽中的单元具有性质A的概率为π。从总体中抽取一个容量为n的简单随机样本,则该样本中具有性质A的单元的个数随机变量X服从参数为(n,π)的二项分布,即X~B(n,π)。由伯努利中心极限定理,当n充分大时,随机变量X近似服从均值为nπ,方差为nπ(1-π)的正态分布3.样本方差的抽样分布:由卡方分布的定义,对来自正态总体的简单随机样本,统计量χ2=(n-1)s2/σ2服从自由度为n-1的卡方分布.第六章参数估计参数估计:利用样本所获得的一些数量特征(样本统计量)来估计总体参数.分为点估计和区间估计.点估计:用样本估计量θ̂的值直接作为总体参数θ的估计值区间估计:在点估计的基础上,给出总体参数估计的一个范围。估计与估计量:1.估计:是根据样本统计量的观测值来确定参数值2.估计量:是利用样本统计量来估计总体参数.评价估计的优良性:需要集合估计量的性质来评判.性质包括:无偏性/有效性/一致性置信区间:由样本统计量所构造的总体参数的估计区间称为置信区间置信水平:将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比率称为置信水平.在同样的置信水平下,抽样比较越大,给出的置信区间宽度越小.95%的置信水平是指:用同样的方法构造的总体参数的多个区间中,包含总体参数的比例为95%.影响样本容量大小的因素有:总体方差,可靠程度,允许误差第七章假设检验假设检验:是先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立的过程.分为两类:参数检验和非参数检验.逻辑上运用反证法,统计上依据小概率原理假设检验的基本概念:小概率原理/原假设与备择假设/单侧检验与双侧检验/两类错误与显著性水平/拒绝域和接受域假设检验中的两种假设:1.原假设:是研究者想收集证据予以反对的假设,也称为零假设,在线性条件下无相关关系即相关系数计算结果为零。用H0表示。只存在符号=≤≥)2.备择假设:是研究者想收集证据予以支持的假设,也称为研究假设,用H1表示。只存在符号≠)假设检验的原理:小概率原理.即在一次试验中,一个几乎不可能发生的事件发生的概率.在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设.小概率由研究者事先确定.在进行假设检验的时候,人们总是视问题的要求,规定一个小概率的参考值,然后把事件发生的概率与进行比较。建立假设:1、在一项假设检验中,原假设和备择假设必有一个成立,而且只有一个成立。2、在建立假设时,通常是确定备择假设,然后再确定原假设。备择假设是人们所关心的,是想予以支持或证实的。3、在假设检验中,等号总是放在原假设上。4、在面对某一实际问题时,由于不同的研究者有不同的研究目的,即使对同一问题也可能提出截然相反的原假设和备择假设。5、假设检验的目的主要是收集证据来拒绝原假设。两类错误与显著性水平:1.当原假设为真时拒绝原假设,所犯的错误称为第I类错误,又被称为弃真错误。第I类错误的概率被称为显著性水平,通常为𝛂。2.当原假设为假时没有拒绝原假设,所犯的错误被称为第II类错误,又称为取伪错误。犯第II类错误的概率通常记为β。假
本文标题:统计学填空简答
链接地址:https://www.777doc.com/doc-2064530 .html