您好,欢迎访问三七文档
第一章1.统计学的概念统计学是一门收集、整理、显示和分析统计数据的科学,其目的是探索数据内在的数量规律性。2.统计学的分类:描述统计和推断统计描述统计:是用图形、表格和概括性的数字对数据进行描述的统计方法。推断统计:是根据样本信息对总体进行估计、假设检验、预测或其他推断的统计方法。3.统计数据误差的分类:非抽样误差和抽样误差非抽样误差:是由于调查过程中各有关环节工作失误造成的。是可以避免的抽样误差:是利用样本推断总体时产生的误差。是不可避免的,但可以计量和控制。4.①总体:所研究的全部个体(数据)的集合,是唯一的,确定的,其中的每一个个体也称为元素(总体单位)。总体容量N分为有限总体和无限总体②样本:从总体中抽取的一部分元素的集合构成样本的元素的数目称为样本容量或样本量n③变量:是总体中个体单位所具有的特征或特性变量的具体表现称为变量值,即数据④变量可以分为分类变量(categoricalvariable):说明事物类别的名称.如性别(男,女)特点:只能用文字表示,无大小,平行排列顺序变量(rankvariable):说明事物有序类别的名称。如产品等级。特点:只能用文字表示,有大小,可排序数值型变量(metricvariable):说明事物数字特征的名称。如:成绩、年龄、产量。特点:可用数字表示。分类变量和顺序变量属于定性变量数值型变量属于定量变量第二章5.①统计数据的分组:是将预处理过的数据按照某种特征或标准分成不同的组别。分组的作用:突出了组间差异,而掩盖了组内差异②按定性指标分组-------品质标志分组按定量指标分组-------数量标志分组③数量标志分组--编制次数分布表单变量值分组:指每个组值只用一个具体的变量值表现的数列编制条件:变量是离散变量,变量的不同取值个数较少。同时具备组距分组:指每个组的变量值用一个区间来表现编制条件:变量是连续变量;或:总体单位数较多,变量不同取值个数也较多的离散变量。等距分组:变量值变动区间的长度相等异距分组:变量值变动区间的长度不完全相等2.组限:指每组两端表示各组界限的变量值,各组的最小值为下限,最大值为上限注意:对于离散变量,相邻组组限可以间断,也可重叠;对于连续变量,相邻组组限必须重叠组距:每组变量值变动区间的长度,为上下限之差组中值:每组变量取值范围的中点数值3.图形图①条形图-----用于显示分类变量和顺序变量的次数分布②饼图--------用于显示内部结构③直方图-----用于显示数值型变量的次数分布④茎叶图-----用于显示数值型变量的次数分布及具体构成4.①众数:指总体中出现次数最多的变量值,用表示,它不受极端数值的影响,用来说明总体中大多数单位所达到的一般水平。组距分组众数的确定:L表示众数所在组的下组限,表示众数组次数与前一组次数之差,表示众数组次数与后一组次数之差,i表示众数组的组距②中位数:将总体各单位标志值按大小顺序排列后,处于数列中间位置的标志值,用表示。它不受极端数值的影响,在总体标志值差异很大时,具有较强的代表性。未分组的数据组距分组数据L表示中位数所在组的下组限,表示中位数所在组一下各组的累积次数,表示中位数所在组的次数,i表示中位数所在组的组距。中位数的数学性质:各变量值与中位数的离差绝对值之和最小,即应用:主要用于定序数据,也可用数值型数据,但不能用于定类数据5.均值的计算(前提:数据呈对称分布)①算术平均数未分组的数据:加权均值------数据已分组--------决定平均数的变动范围-------起到权衡轻重的作用②调和平均数:调和平均数,是各数据倒数的(简单)算术平均数的倒数加权调和平均数=乘以注意:平均数=标志总量/单位数如果知道分子,用加权调和平均数;如果知道分母,用加权算术平均数③几何平均数:是N项变量值连乘积的开N次方根应用:用于计算现象的平均比率或平均速度应用的前提条件:各个比率或速度的连乘积等于总比率或总速度;相乘的各个比率或速度不为零或负值④切尾均值:去掉大小两端的若干数值后计算中间数据的均值⑤中位数、众数、均值三者的关系6.离散程度①极差:指所研究的数据中,最大值与最小值之差(一般应用于对称、单峰、大样本)优点:计算方法简单、易懂;缺点:1、极差易受极端值的影响;2、由于极差只利用了数据两端的信息,没有反映中间数据的分散状况,因而不能准确描述数据的分散程度。②四分位差—内距内距=上四分位数-下四分位数特点:反映了中间50%数据的离散程度,不受极端值的影响,可用于衡量中位数的代表性(内距越小,中位数的代表性越强)③标准差与方差(前提:均值相等)④离散系数(均值不等)由于离散系数消除了数据本身和计量单位的影响,因此可以用它进行不同数据组的比较。离散系数小的总体,其平均数的代表性大;反之,亦然。7.偏态的测定偏态:平均数与标准差相同的数据组,其频数分配(分布)也可能不同,如果频数分布是对称的,则称为对称分布,否则为偏态分布。测定偏态的方法主要有两种:(1)算术平均数与众数比较法,(2)动差法。(1)算术平均数与众数比较法完全对称分布:算术平均数、中位数、众数重合非对称分布:三者相互分离偏态的绝对数:偏态=算术平均数-众数偏态的相对数或者(2)动差法动差又称矩,可用来说明数据频数分布的特征。一般地,取数据中的a点为中心点,所有数据与a之差的k次方的平均数:称为数据X关于a的k阶动差(k阶矩)。当a=0时,即数据以原点为中心,上式称为原点k阶动差(矩)当Xa时,数据以算术平均数为中心,上式称为中心k阶动差(矩)。统计学中常以中心3阶动差(矩)来测度分布的偏态。偏态系数:sk=0时,为对称分布;sk0时,为正偏(右偏)分布;sk0时,为负偏(左偏)分布。1阶原点动差--------平均数2阶中心动差--------方差3阶中心动差---------偏态系数4阶中心动差--------峰度峰度就是频数分布曲线顶端的尖峭程度。峰度系数为0时,恰为正态分布当峰度系数0时,为平顶分布曲线;当峰度系数0时,为尖顶分布曲线;当峰度系数接近于-1.2时,则频数分布曲线趋向于一条水平线;当峰度系数小于-1.2时,为U型曲线。8.箱线图:是由一组数据的最大值、最小值、中位数和两个四分位数5个特征值绘制而成的。9.简述众数、中位数和均值的特点和应用场合①众数不受极端值影响具有不惟一性数据分布偏斜程度较大时应用②中位数不受极端值影响数据分布偏斜程度较大时应用③均值易受极端值影响数学性质优良数据对称分布或接近对称分布时应用第三章1.常用的抽样方法①简单随机抽样(纯随机抽样)对总体单位逐一编号,然后按随机原则直接从总体中抽出若干单位构成样本仅适用于规模不大、内部各单位标志值差异较小的总体是最简单、最基本、最符合随机原则,但同时也是抽样误差最大的抽样组织形式②分层抽样将总体全部单位分类,形成若干个类型组,然后从各类型中分别抽取样本单位组成样本。抽样误差最小。(先分层,再抽样,层与层差异大,层内差异小)③系统抽样(机械抽样或等距抽样)将总体单位按某一标志排序,而后按一定的间隔抽取样本单位。按无关标志排队,其抽样效果相当于简单随机抽样;按有关标志排队,其抽样效果相当于分层抽样。④整群抽样(集团抽样)(先分群,后抽样,群与群差异小,群内差异大)将总体全部单位分为若干“群”,然后随机抽取一部分“群”,被抽中群体的所有单位构成样本简单、方便,能节省人力、物力、财力和时间,但其样本代表性可能较差第四章1.参数估计研究的主要问题①遵循随机原则从总体中抽取样本②用样本统计量推断总体参数③给出估计的精度,置信水平④确定样本容量精度与置信度的关系:精度越高,置信度越低;反之,精度越低,置信度越高。2.总体均值的区间估计书128页3.总体比率的区间估计书131页4.样本量的确定书141页第五章1.假设检验:事先对总体参数或分布形式作出某种假设,然后利用样本信息来判断原假设是否成立2.两类错误第一类错误(弃真错误)原假设为真时拒绝原假设第一类错误的概率为被称为显著性水平第二类错误(取伪错误)原假设为假时接受原假设第二类错误的概率为3.如何决策第一种双侧检验:|统计量|临界值,拒绝H0左侧检验:统计量-临界值,拒绝H0,右侧检验:统计量临界值,拒绝H0第二种若p值,拒绝H04.总体均值的假设检验书157页5.总体比率的假设检验书164页第六章1.方差分析:是检验多个总体均值是否相等的统计方法。它是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。第七章1.相关系数的4个特点r的取值范围是[-1,1]r=0,不存在线性相关关系相关-1r0,为负相关,0r1,为正相关r=1,为完全正相关,r=-1,为完全负正相关2.回归分析与相关分析的联系理论和方法具有一致性;无相关就无回归,相关程度越高,回归越好;相关系数和回归系数方向一致,可以互相推算。区别:相关分析中x与y对等,回归分析中x与y要确定自变量和因变量;相关分析中x、y均为随机变量,回归分析中只有y为随机变量;相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。3.回归分析书227页4.拟合优度的度量①SST=SSR+SSE②判定系数SSTSSRr2反映回归直线的拟合程度取值范围在[0,1]之间r21,说明回归方程拟合的越好;r20,说明回归方程拟合的越差判定系数等于相关系数的平方,即r2=(r)25.回归系数显著性的t检验书233页6.一元线性回归方程:Xyˆˆˆ7.书241页第八章1.时间序列:按时间顺序记录并排列的数据序列2.①时间序列的构成因素:长期趋势、季节变动、循环变动、不规则变动长期趋势:现象在一段相当长的时期内所表现的沿着某一方向的持续发展变化。季节变动:客观现象因受自然因素或社会因素的影响,而形成的在一年内有规则的周期性变动。循环变动:现象以若干年为周期所呈现出的波浪起伏形态的有规律的变动不规则变动:是一种无规律可循的变动,包括严格的随机变动和不规则的突发性影响很大的变动两种类型②时间序列构成因素的组合模型加法模型:Y=T+S+C+I乘法模型:Y=T·S·C·I3.移动平均法书263页4.测定长期趋势的直线方程:btayˆtbyattnyttynb22)(5.分析序列的数据特征:如果序列各项数据的K次差大致为一个常数,一般来说,可考虑配合K次曲线;若序列的环比发展速度大体为一个常数,或序列的对数一次差大体为一个常数,可考虑配合指数曲线。第九章1.指数:是解决多种不能直接相加的事物动态对比的分析工具2.指数体系与因素分析书305页3.居民消费价格指数货币购买力指数14.货币购买力指数居民平均收入指数或居民消费价格指数居民平均收入指数居民实际收入指数
本文标题:统计学复习相关资料
链接地址:https://www.777doc.com/doc-2064538 .html