您好,欢迎访问三七文档
当前位置:首页 > 高等教育 > 统计学 > 概率统计知识点全面总结
Mister.D版权所有,仿盗必究。1知识点总结:统计与概率I统计1.三大抽样(1)基本定义:①总体:在统计中,所有考查对象的全体叫做全体.②个体:在所有考查对象中的每一个考查对象都叫做个体.③样本:从总体中抽取的一部分个体叫做总体的样本.④样本容量:样本中个体的数目叫做样本容量.(2)抽样方法:①简单随机抽样:逐个不放回、等可能性、有限性。=======★适用于总体较少★抽签法:整体编号(1~N)放入不透明的容器中搅拌均匀逐个抽取n次,即可得样本容量为n的样本。随机数表法:整体编号(等位数,如001、111不能是1、111)从0~9中随机取一行一列然后初方向随机(上、下、左、右)重复,超过范围则忽略不计直至取得以n为样本容量的样本。②系统抽样:容量大.等距,等可能。=======★适用于总体多★用随机方法编号,若N无法被整除,则剔除后再分组,nNk。再用简单随机抽样法来抽取一个个体,设为l,则编号为l,k+l,2k+l……(n-1)k,抽出容量为n的样本。(每组编号相同)。③分层抽样:总体差异明显.按所占比例抽取.等可能.=======★适用于由差异明显的几部分构成的总体★总体有几个差异明显的部分构成,经总体分成几个部分,然后按照所占比例进行抽样.抽样比为:k=nN抽样比=样本容量总体个数=各层样本容量各层个体数量3.总体分布的估计:(1)一表二图:①频率分布表——数据详实②频率分布直方图——分布直观③频率分布折线图——便于观察总体分布趋势★注:总体分布的密度曲线与横轴围成的面积为1。(2)茎叶图:①茎叶图适用于数据较少的情况,从中便于看出数据的分布,以及中位数.众位数等。②个位数为叶,十位数为茎,右侧数据按照从小到大书写,相同的数据重复写。Mister.D版权所有,仿盗必究。24.样本分析(1)在频率直方图中计算众数.平均数.中位数众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。(最多的那个)--忽视其他数据中位数在频率分布直方图中,中位数左边和右边的直方图的面积应该相等。(最中间的,若偶取平均)--对极端值不敏感平均数频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和。--可靠性低在频率分布直方图中,纵轴表示频率组距,数据落在各小组内的频率用各小矩形的面积表示.各小矩形的面积总和等于1.频数样本容量=频率,此关系式的变形为频数频率=样本容量,也可变形为样本容量×频率=频数。(2)平均数的求法:题目类型有离散型和连续型两种情况①算数平均数:niinxnnxxxx1211...②加权平均数:niiinnpxpxpxpxx12211...方差:s2=1n[(x1-x)2+(x2-x)2+…+(xn-x)2]标准差:s=1n[(x1-x)2+(x2-x)2+…+(xn-x)2]★注:特别地,对于连续型的随机变量在分好组后,其i21x,...,x,x应该取每一组的组中值近似的表示★注:方差与标准差越小,说明样本数据越稳定。平均数反映数据总体水平;方差与标准差反映数据的稳定水平。5.线性回归方程①变量之间的两类关系:函数关系(确定性关系)与相关关系(非确定性关系);②制作散点图,判断线性相关关系;③线性回归方程:(最小二乘法)注:其中nxxxxxn321,nyyyyyn321,),(yx称为样本点的中心(回归方程必过此点).当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.6.独立性检验(1)2×2列联表:假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表为:相关系数r=极差(全距)样本中最大值与最小值的差值PS:加权平均数对一些数据的重要程度作出安排,在每个数据中根据它的重要的程度进行取值.按百分比算(其中i21p,...,p,p为i21x,...,x,x对应的频率)相关指数(R2)残差:ei=yi-yi即真实值-预报值残差平方和R2越大,分母是定值,也可看分子。则残差平方和越小,模型拟合效果越好。在线性回归模型中,R2表示解释变量对预报变量的变化的贡献率。R2越接近1,表示回归效果越好.︿是估计,如(yi)—是平均,如(yi)yi则是真实值.Mister.D版权所有,仿盗必究。3y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+dK2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)(其中n=a+b+c+d为样本容量).(2)用K2的大小可以决定是否拒绝原来的统计假设H0,若K2值较大,就拒绝H0,即拒绝事件A与B无关.(3)当K2≥2.706时,则有90%以上的把握说事件A与B有关;当K2≥3.841时,则有95%以上的把握说事件A与B有关;当K2≥6.635时,则有99%以上的把握说事件A与B有关.II概率1.事件必然事件:在条件S下一定会发生的事件,叫作相对于条件S的必然事件(P=1)不可能事件:在条件S下,一定不会发生的事件,叫作相对于条件S的不可能事件(P=0)确定事件:必然事件与不可能事件统称为相对于条件S的确定事件,简称确定事件随机事件:在条件S下,可能发生也可能不发生的事件,叫作相对于条件S的随机事件[P∈(0,1)]2.事件的关系Mister.D版权所有,仿盗必究。43.概率模型(1)古典概型(有限、等可能)的概率公式.P(A)=mn=事件A中所含的基本事件数试验的基本事件总数.(2)几何概型(无限,等可能)的概率公式.P(A)=构成事件A的区域长度(面积或体积)试验的全部结果所构成的区域长度(面积或体积).(3)条件概率.在A发生的条件下B发生的概率:P(B|A)=P(AB)P(A).(4)相互独立事件同时发生的概率.若A,B相互独立,则P(AB)=P(A)·P(B).(5)若事件A,B互斥,则P(A∪B)=P(A)+P(B),P(A)=1-P(A).4.独立重复试验与二项分布若事件A在一次试验发生的概率是p,则它在n次独独立立重重复复试试验验中恰恰好好发发生生kk次次的概率为:Pn(k)=Cknpk(1-p)n-k,k=0,1,2,…,n.用X表示事件A在n次独立重复试验中发生的次数,则X服从二二项项分分布布,即X~B(n,p)且P(X=k)=Cknpk(1-p)n-k.5.超几何分布在含有M件次品的N件产品中,任取n件,其中恰有X件次品,则P(X=k)=CCCknkMNMnN,k=0,1,2,…,m,其中m=min{M,n},且n≤N,M≤N,n,M,N∈N*,此时称随机变量X服从超几何分布.超几何分布的模型是不放回抽样,超几何分布中的参数是M,N,n.6.离散型随机变量的均值、方差(1)离散型随机变量ξ(读作:可系)的分布列为:ξx1x2x3…xi…nPp1p2p3…pi…pn离散型随机变量ξ的分布列具有两个性质:①pi≥0;②p1+p2+…+pi+…+pn=1(i=1,2,3,…,n).(2)E(ξ)=x1p1+x2p2+…+xipi+…+xnpn为随机变量ξ的数学期望或均值.D(ξ)=(x1-E(ξ))2·p1+(x2-E(ξ))2·p2+…+(xi-E(ξ))2·pi+…+(xn-E(ξ))2·pn叫做随机变量ξ的方差.符号概率论集合论A⊆B事件B包含事件A集合B包含集合AA=B事件A与事件B相等集合A与集合B相等A∪B或A+B,A∩B事件A与事件B的并,事件A与事件B的交集合A与集合B的并,集合A与集合B的交A∩B=⌀事件A与事件B互斥集合A与集合B的交为空集A∩B=⌀A∪B=Ω事件A与事件B对立集合A与集合B互为补集且没有交集P(A)是事件A不发生的概率Mister.D版权所有,仿盗必究。5(3)数学期望、方差的性质.①E(aξ+b)=aE(ξ)+b,D(aξ+b)=a2D(ξ).②X服从二项分布,即X~B(n,p),则E(X)=np,D(X)=np(1-p).③X服从两点分布,则E(X)=p,D(X)=p(1-p).7.正态分布总体密度曲线:频率分布直方图无限接近于一条光滑曲线(如P1下方)22()2,1(),(,)2xxexμ是均值,x=μ对称轴,σ(σ0)是标准差,σ2是方差。一般地,如果对于任何实数ab,随机变量X满足,()()baPaXBxdx,则称X的分布为正态分布.正态分布完全由参数和(读作:习个么儿)确定,因此正态分布常记作),(2N.如果随机变量X服从正态分布,则记为X~),(2N正态分布具有:两头低、中间高、左右对称的特点,在X轴上方且与X轴不相交,关于x=μ对称,x=μ为最高点。σ越大,曲线越“矮胖”,总体分布越分散;σ越小.曲线越“瘦高”,总体分布越集中。3原则:6826.0)(XP9544.0)22(XP9974)33(XP通常认为服从正态分布),(2N的随机变量X只取)3,3(之间的值,并简称之为3原则
本文标题:概率统计知识点全面总结
链接地址:https://www.777doc.com/doc-4815794 .html