您好,欢迎访问三七文档
-1-第0章预备知识§0.1随机变量的概率分布和数字特征用以描述随机变量的概率分布的工具有分布函数、概率密度函数和分布列.这些知识都已在概率论中学过了.本课程中,我们把离散随机变量的分布列也叫做概率质量函数,分布函数也叫做累积分布函数.随机变量的特征数:数学期望,方差或标准差,两个随机变量的协方差和相关系数是大家熟悉的.在数理统计中还会用到其他特征数.我们谈到各种特征数时都假定他们是存在的.1.矩k阶原点矩:)(kkXEk阶中心矩:kkEXXE)(2.变异系数:)()()(XEXVarXC,其中X是取正值的随机变量。3.分位数、中位数设随机变量X的分布函数为x)F(.给定)1,0(p,称满足pxFp)(的数px为X的p下分位数.称满足pxFp)~(1的数px~为X的p上分位数.本课程中均使用下分位数,并把下分位数简称为分位数.易见分位数完全取于X的分布,故分位数常叫做某某分布的分位数,比如标准正态的分位数,标准正态分布的分位数记为U,即U满足)(U,由标准正态的对称性可和1UU.按以上分位数的定义,可能会出现出分位数不唯一或不存在的情况,这时分位数的定义需作技术处理,但我们常用的分布的分位数是存在的且是唯一的.50.p的p分位数叫做中位数.50.2p的p分位数叫做第一四分位数;50.7p的p分位数叫做第三四分位数;中位数也称为第二四分位数.4.偏度系数、峰度系数.偏度系数:233)]([)(XVarEXXES它实际上X的标准化随机变量)(XVarEXX的3阶矩,即3][)X(VarEXXES偏度系数描述分布偏离对称性程度的一个特征数.当X的概率密度函数关于其期望对称时,偏度0S.当偏度系数0S时,该分布称为偏态分布,偏态分布常有不对称的两个尾部,重尾在右侧时必导致0S,故称为右偏分布;重尾在左侧时必导致0S,-2-故称为左偏分布.峰度系数:3)]([)(24XVarEXXEk易见3][4)X(VarEXXEk峰度系数描述分布尖峭程度或尾部粗细的一个特征数.当X服从正态分布时,其峰度0k.而当0k时,表示该随机变量的标准化随机变量的分布比标准正态分布更尖峭和(或)尾部更粗(厚).比如金融数据中的对数收益率的峰度很大,常说对数收益率具有“尖峰厚尾性”.偏度和峰度都是描述分布形状的特征数.它们的设置都是以正态分布为基准.对于正态分布,其偏度和峰度都是零.5.多维随机变量的期望与方差设),,,(21nXXXX为n维随机变量,X的期望是一个n维实向量),,,(21nEXEXEXEX.X的协方差矩阵是一个n阶对称矩阵nnjiXXCov)),((.X的协方差矩阵也称为X的方差,记为)(XVar,即]))([()(EXXEXXEXVar容易证明随机向量的协方差矩阵是半正定的。关于随机向量的期望、方差有以下运算性质。设A为nm的实矩阵,),,(1mbbb为m维实向量,),,,(21nXXXX为n维随机变量.令bAXY,则Y为m维随机变量,其期望和方差分别为bEXAEYAXAVarYVar)()(下面介绍求随机变量函数的期望、方差的近似方法,这种方法常称为方法.在很多应用中,仅仅知道随机变量X的前两阶矩(也许是利用样本数据得到的估计),完整的概率分布并不知道.而我们可能对X的函数)(XgY的前两阶矩感兴趣(这里函数g是已知函数).当g是线性函数时,由X的期望、方差可以得到Y的期望、方差.而在g不是线性函数时我们无法计算出Y的期望、方差,此时我们希望能近似地计算Y的期望、方差.利用泰勒公式))(()()(XXXXggXg于是我们得-3-)())((XYgXgE222)]([))((XXYgXgVar当然,这种近似计算是否合适以及近似的精度如何是需要条件的,在此我们不去讨论了.这种近似方法可推广至多个随机变量的函数的情形.§0.2常用分布族在概率论中,我们已经学过一些常用分布:两点分布)p,B(1,二项分布)p,n(B,泊松分布)(P,均匀分布)b,a(U,指数分布)xp(E,一维正态分布),(N2.此处不去重复了。本节我们先简单地介绍一下多维正态分布,然后介绍数理统计中常用的其他一些分布:超几何分布族,几何分布族,负二项分布族,伽马分布族,贝塔分布族,以及由正态分布导出的三大分布:2分布,t分布,F分布.1.多维正态分布.若n维随机向量),,(1nXXX的特征函数为tttiet21)(其中),,(1nttt,),,(1n为n维实向量,为n阶半正定矩阵,则称),,(1nXXX服从n维正态分布.记为),,(1nXXX~),(N.关于正态分布有如下讨论.(1)这里并没有要求满秩,若满秩,则称为非奇异正态分布;若不满秩,则称为奇异正态分布.(2)若),,(1nXXX~),(N,则)(,)(XVarXE.(3)若),,(1nXXX~),(N,则nXX,,1相互独立的充要条件是它们两两不相关,即为对角阵.(4)若),,(1nXXX~),(N,设AXaY,则Y~),(AAAaN.特别地X的任意边缘分布都是正态分布.(5)),,(1nXXX~),(N对nnRaaa),,(1,且0a,有Xa~),(aaaN.2.超几何分布族考虑概率模型:某个总体由N个元素组成,其中有M个元素属于某一类(记为A类),从这个总体中不放回地任取n个元素,取出的n元素中属于A类元素的个数记为X,那么X的-4-概率质量函数为nNxnM-NxMCCC)xX(P)x(p我们称这种分布为超几何分布,记为X~)N,M,n(h.关于超几何分布有以下讨论:(1)若X~)N,M,n(h,则NnMXE,NMNNMnNnN)X(Var1,(2)如果把“不放回”改为“放回”,则X~p),nB(,其中NMp.(3)当Nn时,超几何分布近似于二项分布.3.多项分布族多项分布是很重要的离散分布,当一个总体按某种属性分成有限类时就会涉及这个分布.它产生于以下的n次独立重复试验模型.1.每次试验可能的结果有r种:rAAA,,,21,并且1,,,2,1,)(1riiiipripAP.2.上述试验独立地重复n次,所得结果可用某些iA组成的长为n的序列表示.3.在上述n次独立重复试验中,以iX表示结果iA出现的次数(ri,,1),则r维向量),,(1rXX的概率质量函数(即分布列)为),,(),,(111rrrnXnXPnnprnrnrppnnn111!!!,nnrii1,0in.这种分布称为r项分布,记为),,,(1rppnM.当2r时,它就是二项分布.关于多项分布有以下讨论:(1)多项分布的边际分布仍是多项分布.(2)由于11111,rrrrpppXXnX,因此下面分布也称为r项分布),,(),,(111111rrrnXnXPnnp1111)1()!(!!111111riirnnriinrnriipppnnnn,nnrii11,诸0in.4.Gamma分布族若随机变量X的概率密度函数为-5-0)(),;(1xexxfx,其中,为两个正参数,称为形状参数,称为尺度参数,则称X服从参数为,的Gamma分布,记为X~),(Ga.Gamma分布族常记为}0,0:),({Ga.注:(1)101dxexx)(,)21(,!)1(),()1(nn.(2).设密度函数具有形式)(1xf(0),其中)(xf为一已知密度函数,参数称为尺度参数(又叫刻度参数),若X具有概率密度)(1xf,则XY就具有已知的密度)(xf.关于Gamma分布族有如下讨论.(1)固定尺度参数时,改变将导致密度曲线形状的改变,当1时,密度)(xp是严减函数;当21时,密度)(xp先上凸,后下凸,)(xp呈单峰状态(在1x处取得峰值);当2时,密度)(xp先下凸,后上凸,最后下凸,)(xp呈单峰状态(在1x处取得峰值).(2)Gamma变量X的k阶矩为)()()2)(1()(kkkkkkXE证明:01)()(dxexXExkk,令xt,则)()()(1)()(0101ktkkxkkkdtetdxexXE,它的期望、方差分别为2)(,)(XDXE.(3).若iX~),(iGa,ni,,2,1,且诸iX相互独立,则niiX1~),1niiGa(,这个性质称为Gamma分布的可加性,这里应强调(1)各个Gamma分布的尺度参数相同,(2)诸iX相互独立.(4).Gamma分布族中的两个子族.在Gamma分布中取1便得指数分布,记为)(Exp,即)(),1(ExpGa.-6-在Gamma分布中取2n,21便得自由度为n的2分布,记为)(2n,即)()21,2(2nnGa,其中自由度n为任意正数,但在实用中自由度n通常为正整数.2分布后面还会讨论.5.Beta分布族若随机变量X的概率密度函数为11)1()()()(),;(baxxbababaxp,1x0则称X服从参数为b,a的Beta分布,记为X~),(baBe.其中ba,是两个正参数。Beta分布族记为}0,0:),({babaBe.注:记)0,0()1((),(1011badxxxbaBba(称此以ba,为自变量的函数为Beta函数),并且有)()()(),(bababaB.关于Beta分布族有如下讨论.(1)参数ba,的变化将导致密度曲线形状的变化.1,1ba时,)(xp呈单峰状态,在21baax处达到最大值;1,1ba时,)(xp呈U形,在baax21处达到最小值,21ba时的Beta分布称为反正弦分布;1ba时的Beta分布就是)(1,0上的均匀分布,即)1,0()1,1(UBe;1,1ba,)(xp是严减函数;1,1ba,)(xp是严增函数.(2).Beta变量X的k阶矩为)()()()()()2)(1()2)(1()(kbaabakabakbakbaakakaXEk证明:),()()()()1()()()()(1011bkaBbabadxxxbabaXEbkak,结合)()()(),(kbabkabkaB,便可得结论.它的期望、方差分别为-7-)1()()(,)(2babaabXDbaaXE.下面讨论由正态分布导出的三大分布:2分布,t分布,F分布.这三大分布会出现在许多统计问题中.1.2分布若Z~),(N10,则2ZU的概率密度函数为)u(fueu212121,0u.可见,2ZU~)21,21(Ga.由Gamma分布的可加性立即可得若nZ,,Z,Z21dii~),(N10,则niiZU12~)21,2nGa(,那么U的概率密度函数为0)2(21);(1122u,eunnufu2nn称这种分布为自由度为n的2分布,记为U~)2n(.关于2分布有如下讨论:(1)若U~)2n(,则n)U(E,n)U(Var2.(2)若U~)12n(,V~)22n(,且U与V相互独立,则VU~)212nn(.(3))n(2分布的
本文标题:数理统计第零章
链接地址:https://www.777doc.com/doc-2335685 .html