您好,欢迎访问三七文档
第一章概率与统计基础1.1概率基础1.1.1概率定义1.σ代数设Ω是一个集合,如果Ω的子集构成的族F满足下述条件(1)Ω∈F;(2)如果A∈F,则A=Ω-A∈F;(3)如果Ai∈F,i=1,2,…,n,则∪1niAi∈F那么称F是σ代数。2.事件域设Ω是随机试验可能结果(样本点)的集合(样本空间),一些样本点的集合称为随机事件,如果所有事件构成一个σ代数,则称该σ代数为事件域,记为F。3.概率设P是定义在事件域F上的一个集合函数,如果(1)对于任意的A∈F,P(A)≥0;(2)P(Ω)=1;(3)如果Ai∈F,i=1,2,…,n,且两两不相容,则P(∪1niAi)=∑1niP(Ai)则称P是概率,并称(Ω,F,P)为概率空间。1.1.2随机变量与分布函数1.随机变量设ξ(ω)是定义于概率空间(Ω,F,P)上的单值实函数,如果对于实直线上的任何波雷尔集B,有{ω:ξ(ω)∈B}∈F,则称ξ是概率空间(Ω,F,P)上的随机变量。2.分布函数设ξ是概率空间(Ω,F,P)上的随机变量,函数F(x)=P{ξ(ω)x},-∞x∞被称为随机变量ξ的分布函数,或者,累积分布函数。3.概率密度函数对于连续随机变量ξ,如果存在可积函数f(x),使得F(x)=xftdt则称f(x)是随机变量ξ的概率密度函数。4.正态分布如果随机变量ξ的概率密度函数是22212xufxe则随机变量ξ服从正态分布,记为,ξ~N(u,σ2)如果随机变量ξ服从正态分布N(u,σ2),即,ξ~N(u,σ2),则随机变量u服从标准正态分布N(0,1).5.对数正态分布如果随机变量ξ的对数ln(ξ)服从正态分布N(u,σ2),即,ln(ξ)~N(u,σ2),则称随机变量ξ服从对数正态分布记为,ξ~lnN(u,σ2).例如,Pt是金融资产在t时刻的市场价格,1111ttttttPPPRPP是金融资产在t时刻的简单市场收益率;11ttttrlnRlnPlnP是连续复利收益率,或对数收益率。于是,如果假设连续复利收益率服从正态分布,则价格比11tttPRP服从对数正态分布。常见分布(1)卡方分布如果随机变量ξ是n个相互独立的标准正态随机变量的平方和,则随机变量ξ服从卡方分布,记为,ξ~χ2(n),n被称为自由度。(2)F分布如果随机变量ξ1和ξ2分别是自由度为n1和n2的卡方随机变量,则称随机变量1122nn服从F分布,记为,ξ~F(n1,n2).(3)t分布如果ζ~N(0,1),ξ~χ2(n),则称随机变量tn服从t分布,记为,t~t(n).1.1.3矩在难以获得随机变量分布的情况下,为了了解随机变量分布情况,一般用随机变量的数字特征来对该随机变量进行分析。矩是随机变量最常用的数字特征。设X是随机变量,对于任何正整数k,k阶原点矩:mk=E(Xk)k阶中心矩:ck=E[(X-E(X))k]矩的统计意义:均值:μ=E(X)1阶原点矩随机变量取值的平均水平方差:σ2=Var(X)=E[(X-μ)2]2阶中心矩随机变量取值偏离均值的平均水平偏度:S=E[(X-μ)3/σ3]3阶矩随机变量分布是否对称,S0左偏,S0右偏峰度:K=E[(X-μ)4/σ4]4阶矩随机变量分布的峰尾特征,K3高峰厚尾,K3扁峰分布。1.1.4条件概率和分布1条件概率设(Ω,F,P)是概率空间,B∈F,P(B)0,那么对于任何事件A∈F,记P(A|B)=ABBPP并称P(A|B)为在事件B发生的条件下事件A发生的条件概率。2.条件分布(1)离散情况如果已知X=x,Y=y的条件概率定义为P(Y=y|X=x)=,PY=yX=xPX=x(2)连续情况P(Y|X)=,PYXPX3.条件矩(1)条件期望在离散情况下,E(Y|X=x)=,yPY=yX=xPX=x在连续情况下,E(Y|X=x)=yfx,ydyfx,ydy显然,条件期望是随机变量,并且,EX[E(Y|X=x)]=E(X)(2)条件方差Var(Y|X=x)=E[(Y-E(Y|X=x))2|X=x]由定义,Var(Y|X)=E(Y2|X)-E(Y|X)2两边对X求期望E[Var(Y|X)]=E[E(Y2|X)-E(Y|X)2]E[Var(Y|X)]=E(Y2)–E[E(Y|X)2](1)又因为,E[E(Y|X)]=E(Y)Var[E(Y|X)]=E{(E(Y|X)–E[E(Y|X)])2}=E[E(Y|X)2]–(E(Y))2(2)(1)+(2)得E[Var(Y|X)]+Var[E(Y|X)]=E(Y2)–(E(Y))2=Var(Y)即,Var(Y)=E[Var(Y|X)]+Var[E(Y|X)]条件期望的两个性质(1)Et(Xt+2)=Et[Et+1(Xt+2)](迭代预期)(2)Et(YtXt+1)=Yt[Et(Xt+1)]4.新息如果Xt=Et-1(Xt)+εt,则称εt是Xt的新息,它是Xt中在t-1期不能预测的“干扰”。并且,Et-1(εt)=0;Cov(Xt-1,εt)=01.1.5极限定理1.随机变量序列的几种收敛(1)概率收敛(convergenceinprobability)对于随机变量序列{Xn},如果存在随机变量X,使得对任意的ε0,:0nnlimPXX则称随机变量序列{Xn}依概率收敛于随机变量X,记为,XnpX,或者,plimn→∞Xn=X.(2)分布收敛(convergenceindistribution)设F和Fn分别是随机变量X和Xn的分布函数,对于所有的z∈R,如果F在z处连续,并且nnlimFzFz则称随机变量序列{Xn}依分布收敛于随机变量X,记为,XndX,或者,FndF.(3)几乎处处收敛或有概率1收敛(almostsureconvergence)对于随机变量序列{Xn},如果:1nnPlimXX则称随机变量序列{Xn}有概率1收敛于随机变量X,记为,Xna.s.X.(4)均方收敛(meansquareconvergence)如果,20nnlimEXX则称随机变量序列{Xn}均方收敛于随机变量X,记为,Xnm.s.X.(5)各种收敛的关系有概率1收敛依概率收敛依分布收敛均方收敛2.大数定理大数定理研究n趋于无穷时,随机变量序列{Xn}的样本均值nX的渐近行为。当样本均值nX依概率收敛时,称为弱大数定理;如果样本均值nX以概率1收敛时,称为强大数定理。Khinchine大数定理(Khinchine’sSLLNI):设{Xn}是独立同分布的随机变量序列,iEX,则11np.niiXXnKhinchine大数定理说明:样本均值是对总体均值最好的近似。3.中心极限定理大数定理研究了n趋于无穷时,随机变量序列{Xn}的样本均值nX的收敛性质。中心极限定理则讨论n趋于无穷时,随机变量序列{Xn}样本均值nX的分布。Lindeberg-Levy中心极限定理(LLCLT):设{Xn}是独立同分布的随机变量序列,如果iEX,2iVarX,则1101nindiXnXN,n或者20dnnXN,显然,与Komolgorov大数定理SLLNI相比,尽管有i.i.d.的假设,但是,Lindeberg-Levy中心极限定理仍然要求二阶矩存在。1.2假设检验假设检验的原理:在一次随机试验中小概率事件发生即可作出拒绝原假设的统计推断,概率反证法。1.2.1假设检验的步骤(1)确定零假设和备择假设注意:①零假设和备择假设相互独立;②选择零假设的原则:如果零假设是错误的,造成的损失是可以接受的;例如,在诊断病人是否患有癌症时,零假设应该是“病人患有癌症”;备择假设是“病人没有患癌症”。因为,如果病人没有患癌症,而且,错误地推断为零假设“病人患有癌症”,则造成的损失仅仅为“病人花费一些金钱”。但是,如果零假设是“病人没有患癌症”,则错误地推断零假设造成的损失就不仅仅是“金钱”,而是“病人的生命”。③零假设是不容易被推翻的,即,零假设成立的事件是小概率事件;(2)构造统计量构造统计量,并在零假设成立的情况下,确定它的分布。(3)选择置信水平α,例如,1%,5%,或10%(4)统计推断,即,对于一次随机试验的具体样本,在选择的置信水平下,依据上述统计量的分布推断是否拒绝零假设。如果一次随机试验小概率事件发生,则拒绝零假设;否则,接受零假设。1.2.2假设检验的错误由于假设检验是应用小概率推断原理进行推理的,所以,假设检验可能犯两类错误第I类错误:在零假设正确的情况下,而拒绝零假设的错误。第II类错误:在零假设错误的情况下,而接受零假设的错误。显然,在各种情况下,假设检验犯第I类错误和第II类错误的概率如下表所示。假设检验犯错误的概率零假设正确零假设错误拒绝零假设α(犯第I类错误的概率,size)1-β(检验的功效,power)接受零假设1-αβ(犯第II类错误的概率)检验功效:在零假设错误时,检验拒绝零假设的概率1-β.功效曲线:在零假设的各种错误情况下,检验功效的曲线。例如,如果数据的生成过程是1tttyy,t~i.i.d.N(0,1),ρ=1零假设是ρ=1,备择假设是ρ1当ρ∈01,时,零假设错误,这时,各种ρ值所对应检验功效的曲线,就是该检验的功效曲线。良好的假设检验应该是犯第I类错误的概率α,并且,在零假设错误的情况下,具有较高的检验功效。1.3描述性统计在研究随机问题时,如果已知随机变量的分布,人们就可以应用概率论的知识掌握该随机变量的变化规律。但是,实际问题并不是这样。一般只能获得随机变量的样本数据,而未知它的总体信息。这时,必须运用统计学的知识估计随机变量的数字特征和分布性质。描述性统计就是基于随机变量的样本数据估计它的总体数字特征的统计学方法。设{xi}是随机变量X的n个样本观测值,则描述性统计量如下表所示样本数据的描述性统计量描述性统计量表达式估计的数字特征统计意义样本均值11niiXxn随机变量X的期望E(X)样本数据的平均水平样本方差22111()niisxXn随机变量X的方差Var(X)偏离样本均值的程度样本标准差2111()niisxXn样本偏度3111()niixXSns随机变量X的偏度样本数据的对称性样本峰度4111()niixXKns随机变量X的峰度样本数据的峰尾特征1.4正态分布检验在许多情况下,需要利用随机变量的样本数据对其未知分布进行假设检验,检验其分布是否为已知的常见分布。因为最常用的分布是正态分布,所以,常常检验样本数据是否服从正态分布,即,正态分布检验。正态分布检验有两类,一类是基于分布数字特征的检验,如JB检验;另一类是基于经验分布的非参数检验,如KS检验。1.4.1JB检验JB检验的思想是推断样本数据的样本偏度和样本峰度是否分别等于正态分布的偏度0和峰度3。为此,Jarque-Bera构造的检验统计量是:JB=22364nKS显然,如果样本数据来源于正态总体,JB统计量应该接近于0;否则,样本数据的总体就不服从正态分布。并且,Jarque-Bera证明,在零假设H0:样本数据的总体服从正态分布下,JB统计量服从χ2(2)分布。因此,JB检验的步骤:(1)根据样本数据计算样本偏度S和样本峰度K,并计算JB统计量;(2)对于给定的显著性水平α,例如,1%,5%,或10%,查χ2(2)分布的临界值22;(3)如果JB22(20052599..),则拒绝零假设H0,即,样本数据的总体不服从正态分布;否则,接受零假设H0,即,样本数据的总体服从正态分布。1.4.2KS检验1.经验分布函数设{xi}是随机变量X的n
本文标题:第一章-基础知识
链接地址:https://www.777doc.com/doc-6739536 .html