您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 广告经营 > 中科院 高等数理统计 第一章
1第一章预备知识1.1样本空间与样本分布族随机实验:受偶然性因素影响,结果不确定。样本:通过观察或实验而得到的数据。注:虽然实际中,样本表现为一批已知数据,但它是受到随机影响的数据,从概率论的角度而言,样本是一随机变量,表现为已知数据的具体样本则是随机变量的观测值。样本分布:样本为随机变量,其概率分布称为样本分布。样本空间:所有可能的随机实验结果,即包含一切可能的样本值。通常用Ω表示。事件:样本空间Ω的子集。称事件A发生,若真实结果wA∈。若一个事件不包含任何实验结果,则称空集,记为φ。数理统计研究的问题中,样本分布不是完全已知的,一般含有未知的参数θ,且假定属于某个参数空间Θ(可以是抽象的集合)。这样就构成样本分布族。数理统计的基本任务是通过实验来收集获取随机变量取值,利用观测到的样本数据对未知的参数θ进行估计或做出某种判断。如何获取数据的阶段,涉及到抽样调查与实验设计等统计分支。有了数据之后,通过数据分析来做出某种判断阶段称为统计推断,一般包括参数估计、假设检验与置信区间(区域),此即为本课程所要讲的内容。1.2测度与积分测度是一维、二维或三维欧式空间中集合的长度、面积或体积概念的推广。定义1.2.1:设全集为X,A为其一些子集构成的集合,称A为σ-域,若:1)∈XA;2)A∈A,则cA∈A;3)对至多可数集列{}nA⊂A,则nnA∈UA。此时称二元组(,)XA为可测空间(measurablespace),A中的元素(集合)称为可测集。2定义1.2.2:设可测空间(,)XA,定义在A上取值非负的函数μ称为测度(measure),若对任意可数两两不交集列{}nA⊂A,()nnnnAAμμ⎛⎞=⎜⎟⎝⎠∑U(称为σ-可加性)。此时三元组(,,)μXA称为测度空间(measurespace)。如果X能被可数个有有限测度的nA所覆盖,则称μ为σ-有限的。例1.2.1:(计数测度)(countingmeasure)设X可数点集,A为其所有子集的全体。A∀∈A,()Aμ为A中点的个数。例1.2.2:(Lebesgue测度)设X为n维欧式空间nR,A是包含所有形如{}1(,,):,1niiiAxxaxbin=≤≤L的开“矩形”的最小σ-域,称为Borel域,记为()nRB。存在唯一的定义()nRB上的测度μ且在A上满足1()()niiiAbaμ==−∏,称为Lebesgue测度。测度完备化:将测度扩张成所有测度为零的集合的子集的测度也为零,称为测度完备化。本讲义所涉及的所有测度都是σ-有限的且经过完备化。给定一个测度空间(,,)μXA,定义于X取值为R上的函数称为可测函数若对直线上的任Borel集B,1{()}()xfxBfB−∈=∈A。对于可测的示性函数(indicator)1,()0,AxAIxotherwise∈⎧=⎨⎩,定义()()()AIxdxAμμ=∫。对于示性函数的线性和,称为简单函数,其关于测度μ的积分为相应的示性函数各自积分的线性和。从而对于一般可测函数()fx,由于可以写成简单函数的极限,其关于测度μ的积分定义为简单函数关于测度μ的积分的极限,记为()()fxdxμ∫,或者简记为fdμ∫。可测空间(,)XA有两个测度,Pμ。称测度P关于测度μ绝对连续,即A∀∈A,()0()0APAμ=⇒=,记为Pμ。此时也称为P受控于μ。Radon-Nikodym定理:若Pμ,则dPdμ存在(a.s.μ)。记dPfdμ=称为P关于μ的导数,且有()AAPAfIdfdμμ=⋅=∫∫,A∀∈A。注:a.s.的含义是指并不是处处成立,但不成立的地方是一个测度为0的集合。3定义1.2.3:(概率空间)一个测度空间(,,)PΩA,若满足()1PΩ=,则称为概率空间,P称为概率测度。A中的元素A∈A称为事件,()PA称为事件A的概率。对于(,,)PΩA上的可测函数X(对直线上的任意Borel集B,1()XB−∈A)称为随机变量。特别取(,]Bx=−∞,则():()()()PwXwxPXxFx≤=≤=称为随机变量X的累积分布函数(cumulativedistributionfunction,cdf),简称分布函数。由于随机变量X的分布函数与概率测度P对应,也称P为(随机变量X)概率分布。例1.2.3:事件A的示性函数()AIw关于测度P的积分()AIdPPA=∫即为事件A的概率。随机变量X(即为可测函数)关于测度P的积分XdPEX=∫,即为通常数学期望。若存在测度μ使得Pμ,则称dPfdμ=为随机变量X(关于测度μ)的概率密度。1.3统计模型与统计量设概率空间为(,,)PθΩA,其中概率测度Pθ是一族概率测度{}:Pθθ∈Θ的某个未知成员。样本X为概率空间上的随机变量。数理统计的一个基本任务是利用观测到的样本数据对未知的参数θ进行统计推断。因此,样本空间Ω连同赋予其上的样本分布族(,,)PθΩA,θ∈Θ构成一个统计问题的基本要素,它的确定或指定,给予问题一个确定的统计模型。注:对于概率测度族,Pθθ∈Θ都对应一个分布族,Fθθ∈Θ,故等价地可用(,,)FθΩA,θ∈Θ表示统计模型。单个样本的分布,也称为总体分布。{},Fθθ=∈ΘF也称为样本分布族。样本分布族F按其结构复杂性一般可以划分以下几类:1.参数族F中的分布形式已知,但包含若干未知参数,此时{},Fθθ=∈ΘF,rRΘ⊂为参数空间,r称为统计模型的维数。例1.3.1:正态分布族2(,)Nμσ,参数空间{}22(,),0TθμσμσΘ==−∞∞∞。42.非参数族F中的分布不能通过有限个未知参数去刻划,此时可看成Θ=F。例1.3.2:F为一切一维对称分布;或者F为一切期望、方差有限的一维分布。3.半参数(semi-parametric)族(或部分参数族)此名称产生较晚,约在上世纪80年代,用一个模型来说明。例1.3.3:考虑一个以X(p维变量)和T(一维变量)为协变量,Y(一维变量)为响应变量的均值回归模型(,)()TEYXxTtxgtαβ===++,其中1,pαβ×未知,函数g定义在某区间上满足一定条件的未知函数。对此模型我们既关注,αβ的估计问题,又关注g的估计问题,因此兼有参数与非参数的特点。事实上也可看成参数空间12Θ=Θ×Θ,其中1rRΘ⊂,2Θ无限维。对于一个统计模型(,,)FθΩA,θ∈Θ,给定参数θ也就确定了Fθ。但可能存在12θθ≠,但12FFθθ=。为避免此种情形,我们一般要求参数是可识别的(identifiable)。定义1.3.1:统计模型(,,)FθΩA,θ∈Θ称为参数可识别的,若1212FFθθθθ=⇒=。注:除非特别指明,本讲义所指的统计模型假定都是可识别的。给定一个统计模型(,,)FθΩA,θ∈Θ,若T为样本空间Ω到其值域空间(通常为欧式空间)上的不依赖于θ的映射,则称T为统计量(statistics)。注:常见的是欧式空间rR,此时统计量T为可测空间(,)ΩA到rR上的不依赖于θ的可测映射(即对rR上的任Borel集B,1{()}()xTxBTB−∈=∈A)。例1.3.4:设()1,TnXXX=L,1()/niiTXXXn===∑为统计量;设(1)(2)()nXXX≤≤≤L为12,nXXXL的排序()(1)(2)()(),,TnTXXXX=L称为次序统计量(orderstatistics)。5例1.3.5:对于一个统计模型(,,)PθΩA,θ∈Θ,若Pθμ,此时密度()fxθ存在。对每一样本X,有一分布密度()fxθ,称()()XLfXθθ=为X的似然函数(likelihoodfunction)。此时令()XTXL=,则T也是统计量,即似然函数为统计量。但此时T的值域空间不再是欧式空间了,而是一个函数空间。定义1.3.2:统计量()TTX=称为对θ是辅助统计量(ancillarystatistics),若其分布与θ无关。即对θ∀,T有同样的分布。例1.3.6:设12,,nXXXL..~(,)iidUμθμθ−+,0θ。定义统计量()(1)nnRXX=−称为样本极差,其密度为21(1)()1,02(2)2nnRnnnxxfxxθθθ−−−⎛⎞=−≤≤⎜⎟⎝⎠.故nR对μ来说是辅助的。z辅助统计量不含θ的信息z统计量若含θ的有用信息,其分布应与θ有关;z直觉上,当分布与θ的相关程度增加时,所含θ的有用信息也将增加。例1.3.7:设12,,nXXXL..~(0,)iidUθ,0θ。定义两个统计量1(1)TX=,(2)()nTX=。其密度分别为11(,)1,0.nTnxfxxθθθθ−⎛⎞=−≤≤⎜⎟⎝⎠21(,),0.nTnxfxxθθθθ−⎛⎞=≤≤⎜⎟⎝⎠1T,2T对θ都不是辅助的。当n增加时(n→∞),1T的密度集中在0附近,而2T的密度集中在θ附近,表明2T比1T(对θ)含有更多的信息。61.4指数分布族(Exponentialfamilies)与群族(Groupfamilies)称分布族,kFRθθ∈Θ⊂为k参数指数分布族若其联合密度(相对于测度μ)有形式1()()exp()()()kiiifxhxcTxdθθθ=⎡⎤=−⎢⎥⎣⎦∑,其中x为1q×向量,()hx为非负可测函数。例1.4.1:Binomialdistribution(,)Bnθ为单参数指数族分布,其密度函数为{}(,)(1),0,1,xnxnfxxnxθθθ−⎛⎞=−∈⎜⎟⎝⎠L例1.4.2:Gammadistribution(,)Gammaαλ为双参数指数族分布,其密度函数为1(,,),0.()xfxxexααλλαλα−−=Γ对于概率空间(,,)PΩA,集合{}()0xAxPA∀∈为包含的开矩形,A称为概率测度P的支撑(support)(开“矩形”定义见例1.2.2)。对一族概率测度{},Pθθ=∈ΘP,若存在一个集合A∈A是每一个Pθ的支撑,则称P有共同的支撑A。例1.4.3:设X为概率空间(,,)PΩA上的随机变量,则可见若点x为其支撑,则意味着对0ε∀,()0PxXxεε−+。若随机变量X有密度()fx。则若()0fx,显然x属于其支撑;反之亦然。因此对于有密度情形,所谓支撑即为有正密度的点集全体。可见对于指数分布族来说,由于{}()0xfxθ与θ无关,因此其分布族{},Pθθ=∈ΘP有共同的支撑。注:有共同支撑的分布族也不一定是指数分布族。例1.4.4:Uniformdistribution(0,)Uθ,其密度1(,),0fxxθθθ=≤≤.由于其支撑依赖于θ,因此不是指数分布族。常常为方便,将指数分布族重新设置参数,令(),1,2,.iiwcikθ==L,将密度写成标准形式(canonicalform)1()()exp()().kwiiifxhxwTxdw=⎡⎤=−⎢⎥⎣⎦∑7注:标准形式并不唯一。()wfx为密度⇔10()exp()()kiiihxwTxdxμ=⎡⎤∞⎢⎥⎣⎦∑∫。满足这种情形的点w的全体Ω称为自然参数空间(naturalparameterspace),w称为自然参数。此时1()log()exp()()kiiidwhxwTxdxμ=⎡⎤=⎢⎥⎣⎦∑∫。定理1.4.1:1)自然参数空间Ω是kR中的凸集;2)对任何可积函数g和任何Ω的内点w(若存在),则积分1()()()exp()()kiiiGwgxhxwTxdxμ=⎡⎤=⎢⎥⎣⎦∑∫在w处有任意阶偏导数且这些导数可以通过积分号下求导来计算;特别若将w看成复数wiαβ=+,则()Gw在区域{},wwiαβα=+∈Ω内解析,有任意阶偏导数且这些导数可以通过积分号下求导来计算。以下非特别说明,指数分布族指的是canonicalform。例1.4.5:对指数分布族有()iidwETw∂=∂,2()(,)ijijdwCovTTww∂=∂∂。例1.4.6:(Stein恒等式)设X的密度具有指数分布形式,其支撑为(,)−∞∞,设g满足()EgX′∞的任可微函数,则1()()()()()kiiihXEwTXgXEgXhX=′⎡⎤′′+=−⎢⎥⎣⎦∑。一个
本文标题:中科院 高等数理统计 第一章
链接地址:https://www.777doc.com/doc-1907952 .html