您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 其它文档 > 非参数统计知识点总结
ioDyr12*5(选择)+2*5(名解)+6*5(简答)+10*3(计算)+5*4(推导)名解(2*5)1.渐近相对效率(P15)针对零假设只取一个值的假设检验问题,在零假设的一个邻域内,固定势,令备择假设逼近零假设,将两个统计量的样本量比值的极限定义为渐进相对效率。具体而言,对假设检验问题𝐻0:𝜃=𝜃0↔𝐻1:𝜃≠𝜃0取备择假设序列𝜃𝑖(𝑖=1,2,…),𝜃𝑖≠𝜃0,且lim𝑖→∞𝜃𝑖=𝜃0。在固定势1−𝛽之下,我们考虑两个检验统计量𝑉𝑛𝑖和𝑇𝑚𝑖。其中𝑉𝑛𝑖和𝑇𝑚𝑖分别是备择为𝜃𝑖所对应的两个检验统计量序列,𝑛𝑖和𝑚𝑖是两个统计量分别对应的样本量。势函数满足:lim𝑖→∞𝑔𝑉𝑛𝑖(𝜃0)=lim𝑖→∞𝑔𝑇𝑚𝑖(𝜃0)=𝛼,𝛼lim𝑖→∞𝑔𝑉𝑛𝑖(𝜃𝑖)=lim𝑖→∞𝑔𝑇𝑚𝑖(𝜃𝑖)=1−𝛽1.如果极限𝑒𝑉𝑇=lim𝑖→∞𝑚𝑖𝑛𝑖存在,且独立于𝜃𝑖,𝛼和𝛽,则称𝑒𝑉𝑇是𝑉相对于𝑇的渐进相对效率,简记为𝐴𝑅𝐸(𝐴,𝑇)。2.顺序统计量(P18)假设总体𝑋有容量为𝑛的样本𝑋1,𝑋2,…,𝑋𝑛,将𝑋1,𝑋2,…,𝑋𝑛按从小到大排序后产生统计量𝑋(1)≤𝑋(2)≤⋯≤𝑋(𝑛)则称统计量{𝑋(1),𝑋(2),…,𝑋(𝑛)}为顺序统计量。3.秩次设样本𝑋1,𝑋2,…,𝑋𝑛是取自总体𝑋的简单随机抽样,𝑋1,𝑋2,…,𝑋𝑛中不超过𝑋𝑖的数据个数,即𝑅𝑖=∑𝐼𝑛𝑗=1(𝑋𝑗≤𝑋𝑖)称𝑅𝑖为𝑋𝑖的秩,𝑋𝑖是第𝑅𝑖个顺序统计量,𝑋(𝑅𝑖)=𝑋𝑖。【相关知识点】秩统计量令𝑅=(𝑅1,…,𝑅𝑛),𝑅是由样本产生的统计量,称为秩统计量。4.秩和以秩次代表原始数据后,所得某些秩次之和,即按某种顺序排列的序号之和,称为秩和。ioDyr25.核设𝑋1,𝑋2,…,𝑋𝑛取自分布族ℱ={𝐹(𝜃),𝜃∈Θ},如果待估参数𝜃存在样本量为𝑘的无偏估计量ℎ(𝑋1,𝑋2,…,𝑋𝑘),𝑘𝑛,即满足𝐸ℎ(𝑋1,𝑋2,…,𝑋𝑘)=𝜃,∀𝜃∈Θ使上式成立的最小样本量为𝑘,则称参数𝜃是𝑘的可估参数。此时ℎ(𝑋1,𝑋2,…,𝑋𝑘)称为参数𝜃的核。6.𝑼统计量(P24)设𝑋1,𝑋2,…,𝑋𝑛取自分布族ℱ={𝐹(𝜃),𝜃∈Θ}的样本,可估参数𝜃存在样本量为𝑘的无偏估计量ℎ(𝑋1,𝑋2,…,𝑋𝑘),𝜃有对称核ℎ∗(𝑋1,𝑋2,…,𝑋𝑘),则参数𝜃的𝑈统计量如下定义:𝑈(𝑋1,𝑋2,…,𝑋𝑛)=1(𝑛𝑘)∑ℎ∗(𝑋𝑖1,𝑋𝑖2,…,𝑋𝑖𝑘)(𝑖1,𝑖2,…,𝑖𝑘)其中,表示对{1,2,…,𝑛}中所有可能的𝑘个数的组合求和。7.对称中心(P53)连续分布𝐹(𝑥)关于𝜃对称,如果∀𝑥∈𝑅,𝐹(𝜃−𝑥)=𝑃(𝑋𝜃−𝑥)=𝑃(𝑋𝜃+𝑥)=1−𝐹(𝜃+𝑥),此时称𝜃是分布的对称中心。8.位置参数和尺度参数检验(P90)假定两独立样本𝑋1,𝑋2,…,𝑋𝑚i.i.d.~𝐹1(𝑥−𝜇1𝜎1),𝑌1,𝑌2,…,𝑌𝑛i.i.d.~𝐹2(𝑥−𝜇2𝜎2)而且𝑋1,𝑋2,…,𝑋𝑚,𝑌1,𝑌2,…,𝑌𝑛相互独立,其中𝜇1,𝜇2是位置参数,𝜎1,𝜎2是尺度参数,有关𝜇1和𝜇2的估计和检验问题称为两样本的位置参数问题;有关和𝜎1和𝜎2的估计和检验问题称为两样本的尺度参数问题。9.核函数(核密度估计中P214支持向量机的核方法中P275)核密度估计中假设数据𝑥1,𝑥2,…,𝑥𝑛取自连续分布𝑝(𝑥),定义核密度估计𝑝̂𝑛(𝑥)=1𝑛ℎ∑𝐾(𝑥−𝑥𝑖ℎ)𝑛𝑖=1其中𝐾(⋅)为核函数。核函数有如下要求:𝐾(𝑥)≥0,∫𝐾(𝑥)𝑑𝑥=1不同核函数表达了根据距离分配各个样本点对密度贡献的不同情况。∑(𝑖1,𝑖2,…,𝑖𝑘)ioDyr3支持向量机的核方法中核函数是解决非线性可分问题的一种想法。它的基本思想是引入基函数,将样本空间映射到高维,低维线性不可分的情况在高维上可能得到解决。假设将𝒙𝒊映射到高维𝒉(𝒙𝒊),则有:ℒ𝐷=∑𝛼𝑖−12∑∑𝛼′𝛼𝑦𝑖𝑦𝑖′〈𝒉(𝒙𝒊),𝒉(𝒙𝒊′)〉解函数可以重写为𝑓(𝒙)=𝒉(𝒙)𝑻𝜷+𝛽0=∑𝛼𝑖〈𝒉(𝒙𝒊),𝒉(𝒙𝒊′)〉𝑛𝑖=1+𝛽0定义核函数为𝐾(𝒙,𝒙′)=〈𝒉(𝒙𝒊),𝒉(𝒙𝒊′)〉10.𝒌近邻估计与𝑲近邻回归𝒌近邻估计在核密度估计方法的基础上,让体积成为样本的函数,不硬性规定窗函数为全体样本个数的某个函数,而是固定贡献的样本点数,以𝒙为中心,令体积扩张,直到包含进𝑘𝑛个样本点为止,其中𝑘𝑛是关于𝑛的某一个特定函数。被吸收到领域中的样本就称为点𝒙的𝑘𝑛最近邻。用停止时的体积定义估计点的密度如下:𝑝̂𝑛(𝒙)=𝑘𝑛𝑛𝑉𝑛如果在点𝒙附近的概率密度比较大,则这个体积会较小;如果在点𝒙附近的概率密度比较小,则这个体积会比较大。𝒌近邻回归与𝐾近邻估计的思想类似,其基本思想是用距离待估计点最近的𝑘个样本点处𝑦𝑖的值来估计当前点的取值,并确定权值。令1𝑘𝑛,记𝐼𝑥,𝑘={𝑖:𝑋𝑖是离𝑥最近的𝑘个观测值之一}.非参数回归模型的𝑘近邻估计为𝑚̂𝑛(𝑥,𝑘)=∑𝜔𝑖(𝑥,𝑘)𝑌𝑖𝑛𝑖=1其中𝜔𝑖(𝑥,𝑘)={1𝑘,𝑖∈𝐼𝑥,𝑘0,𝑖∉𝐼𝑥,𝑘𝑘近邻核估计结合了𝑘近邻估计与核密度估计,进行了改进。11.支持向量和支持向量机支持向量:支持或支撑平面上把两类类别划分开来的超平面的向量点;机:一个算法。支持向量机:寻找稳健分类模型的代表性技术,主要搜索具有最大边距的最佳超平面。ioDyr4简答(6*5)1.非参数检验的优缺点优点:①非参数统计方法对总体的假定相对较少,效率高,结果具有较好的稳定性,即不会由于总体分布与数据之间不一致导致发生大的结论性错误。②非参数统计可以处理所有类型的数据,具有广泛的适用性。③非参数思想容易理解,计算容易。缺点:①对适宜用参数方法的资料,若用非参数处理,常损失部分信息,降低效率。②有些问题的计算仍显繁冗,比如样本量较大时的手算。③有些界值表不易得到。2.Wilcoxon、Mann、Whitney、Hoeffding和Pitman的相关贡献(P4)Wilcoxon提出了两样本秩和检验;Mann和Whitney将结果推广到两组样本量不等的一般情况。Pitman回答了非参数统计方法相对于参数统计方法的相对效率问题。Hoeffding首次提出𝑈统计量这一概念,并讨论了它的渐近正态性。3.非参数统计发展历史(P4)①1945年,Wilcoxon提出两样本秩和检验;1947年,Mann和Whitney将结果推广到两组样本量不等的一般情况。②1948年,Pitman回答了非参数统计方法相对于参数统计方法的相对效率的问题。③20世纪60年代中后期,Cox和Ferguson最早将非参数方法应用于生存分析。④20世纪70-80年代,非参数方法借助计算机技术和大量计算获得更稳健的估计和预测。⑤20世纪90年代,有关非参数统计的研究和应用主要集中在非参数回归和非参数密度估计领域。⑥20世纪90年代后,算法建模思想飞速发展,成为非参数统计的新宠儿。4.Glivenko-Cantelli定理及其和大数据的关系(P11)Glivenko-Cantelli定理sup𝑥|𝐹𝑛̂(𝑥)−𝐹(𝑥)|𝑎.𝑠.→0。当𝑥取上确界时,𝐹𝑛̂(𝑥)与𝐹(𝑥)差的绝对值几乎确定为0,Glivenko-Cantelli定理是大数据约等于总体的理论基础。5.𝑼统计量的构造流程及其统计学性质(P24)𝑈统计量的构造过程:核→对称核→𝑈统计量。+3定义其中,核要求无偏,且样本量最小;对称核在核的基础上要求对称。统计学性质:+4定理①𝑈统计量是无偏的(定理1.4);②𝑈统计量均方收敛到𝜃,𝑈统计量是𝜃的相合估计(定理1.5);③𝑈统计量的极限分布是正态分布(定理1.6)。ioDyr5【相关知识点】核(Kernel)设𝑋1,𝑋2,…,𝑋𝑛取自分布族ℱ={𝐹(𝜃),𝜃∈Θ},如果待估参数𝜃存在样本量为𝑘的无偏估计量ℎ(𝑋1,𝑋2,…,𝑋𝑘),𝑘𝑛,即满足𝐸ℎ(𝑋1,𝑋2,…,𝑋𝑘)=𝜃,∀𝜃∈Θ使上式成立的最小样本量为𝑘,则称参数𝜃是𝑘的可估参数。此时ℎ(𝑋1,𝑋2,…,𝑋𝑘)称为参数𝜃的核。对称核一般,还要求核有对称的形式,也就是说:对∀(1,2,…,𝑘)的任何一个排列(𝑖1,𝑖2,…,𝑖𝑘),有ℎ(𝑋1,𝑋2,…,𝑋𝑘)=ℎ(𝑋𝑖1,𝑋𝑖2,…,𝑋𝑖𝑘)。如果核本身不对称,可以构造对称的核函数:ℎ∗(𝑋1,𝑋2,…,𝑋𝑘)=1𝑘!∑ℎ(𝑋𝑖1,𝑋𝑖2,…,𝑋𝑖𝑘)(𝑖1,𝑖2,…,𝑖𝑘)其中,是对(1,2,…,𝑘)的任意排列(𝑖1,𝑖2,…,𝑖𝑘)共计𝑘!个算式求和。𝑼统计量设𝑋1,𝑋2,…,𝑋𝑛取自分布族ℱ={𝐹(𝜃),𝜃∈Θ}的样本,可估参数𝜃存在样本量为𝑘的无偏估计量ℎ(𝑋1,𝑋2,…,𝑋𝑘),𝜃有对称核ℎ∗(𝑋1,𝑋2,…,𝑋𝑘),则参数𝜃的U统计量如下定义:𝑈(𝑋1,𝑋2,…,𝑋𝑛)=1(𝑛𝑘)∑ℎ∗(𝑋𝑖1,𝑋𝑖2,…,𝑋𝑖𝑘)(𝑖1,𝑖2,…,𝑖𝑘)其中,表示对{1,2,…,𝑛}中所有可能的𝑘个数的组合求和。定理1.4设𝑋1,𝑋2,…,𝑋𝑛是取自分布ℱ={𝐹(𝜃),𝜃∈Θ}的简单随机样本,𝜃是𝑘可估参数,𝑈(𝑋1,𝑋2,…,𝑋𝑛)是𝜃的𝑈统计量,它的核是ℎ(𝑋1,𝑋2,…,𝑋𝑘),有𝐸[𝑈(𝑋1,𝑋2,…,𝑋𝑛)]=𝜃,var[𝑈(𝑋1,𝑋2,…,𝑋𝑛)]=1(𝑛𝑘)∑(𝑘𝑖)(𝑛−𝑘𝑘−𝑖)𝜁𝑖𝑘𝑖=1.其中𝜁𝑖=cov[ℎ(𝑋1,𝑋2,…,𝑋𝑖,𝑋𝑖+1,…,𝑋𝑘),ℎ(𝑋1,𝑋2,…,𝑋𝑖,𝑋𝑘+1,…,𝑋2𝑘−𝑖)],特别的𝜁0=0,𝜁𝑘=var{𝑋1,𝑋2,…,𝑋𝑘}.定理1.5设𝑋1,𝑋2,…,𝑋𝑛是取自分布ℱ={𝐹(𝜃),𝜃∈Θ}的简单随机样本,𝜃是𝑘可估参数,𝑈(𝑋1,𝑋2,…,𝑋𝑛)是𝜃的𝑈统计量,它的核是ℎ(𝑋1,𝑋2,…,𝑋𝑘),有𝐸[ℎ(𝑋1,𝑋2,…,𝑋𝑘)]2∞,则lim𝑛→∞𝑛𝑘2var[𝑈(𝑋1,𝑋2,…,𝑋𝑛)]=𝜁1.其中𝜁1=cov[ℎ(𝑋1,𝑋2,…,𝑋𝑘),ℎ(𝑋1,𝑋𝑘+1,…,𝑋2𝑘−𝑖)]0.∑(𝑖1,𝑖2,…,𝑖𝑘)∑(𝑖1,𝑖2,…,𝑖𝑘)ioDyr6定理1.8(Hoeffding定理)设𝑋1,𝑋2,…,𝑋𝑛是取自分布ℱ={𝐹(𝜃),𝜃∈Θ}的简单随机样本,𝜃是𝑘可估参数,𝑈(𝑋1,𝑋2,…,𝑋𝑛)是𝜃的𝑈统计量,它的核是ℎ(𝑋1,𝑋2,…,𝑋𝑘),有𝐸[ℎ(𝑋1,𝑋2,…,𝑋𝑘)]2∞,当𝜁1=cov[ℎ(𝑋1,𝑋2,…,𝑋𝑘),ℎ(𝑋1,𝑋𝑘+1,…,𝑋2𝑘−𝑖)]0时
本文标题:非参数统计知识点总结
链接地址:https://www.777doc.com/doc-5395549 .html