您好,欢迎访问三七文档
统计分析读书笔记阅读书籍:《R语言与统计分析》、《统计学》1.概述统计分析分为统计描述和统计推断两部分。2.描述性分析标准差(StandardDeviation)是样本数据方差的平方根,它衡量的是样本数据的离散程度;标准误是样本均值的标准差,衡量的是样本均值的离散程度。标准误(英文:StandardError),也称标准误差,即样本均数的标准差(英文:StandardDeviation),是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度。2.1描述统计量统计量计算公式含义均值中位数百分位数方差数据取值分散性的一个度量样本方差样本标准差标准误s√n样本均值的标准差,描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度极差偏度系数(Skewness)刻画数据的对称性指标。关于均值对称时为0,右侧更分散时为正;左侧更分散时为负峰度系数(kurtosis)数据的总体分布为正态分布时,接近0;系数为正时,两侧极端数据较多;系数为负时,极端数据较少。2.2离散随机变量随机变量Y是一个定义在样本空间上的数值函数,样本空间中的每个事件都被指派一个Y值。离散随机变量Y是一个仅能取可数个值的变量。离散随机变量Y的概率分布是给出Y的每个可能取值Y=y以及相应概率p(y)的表、图或公式。伯努利(Bernoulli)概率分布/二项概率分布:Y=n次试验中S的次数(每次试验的两个可能结果:S和F)泊松分布Y=单位时间、面积或体积内稀有事件S发生的次数。p(y)=λye−λy!(y=0,1,2…)随机变量P(y)μσ2*m(t)离散(一般)P(y)E(Y)=∑yp(y)E(Y2)−μ2伯努利Bernoullip(y)=pyq1−y其中q=1−p,y=0,1ppq二项binomialp(y)=(ny)pyqn−y其中q=1−p,y=0,1,…,nnpnpq超几何p(y)=(ry)(N−rn−y)(Nn)nrNr(N−r)n(N−n)N2(N−1)泊松p(y)=λye−λy!y=1,2,…λ=给定的单位时间、面积或体积内事件的平均数λλ几何p(y)=p(1−p)y−1y=1,2,…1p1−pP2负二项p(y)=(y−1r−1)pr(1−p)y−ry=r,r+1,…rpr(1−p)P2多项p(y1,y2..yk)=n!y1!y2!…yk!(p1)y1(p2)y2…(pk)yknpinpi(1−pi)负二项分布:表示直至观测到第r次成功时试验(时间单位)的次数。如直到一个设备失效的时间长度;一个顾客排队等候直到得到服务的时间长度。几何:对于r=1的特殊情况2.3连续随机变量连续随机变量Y1.在区间(-∞,+∞)上的随机变量Y取不可数无穷多个值。2.累积分布函数F(y)是连续的3.Y等于任意特定值的概率为0.密度函数f(y)=dF(y)dy?f(y)与p(y)的关系正态概率分布。密度函数为:f(y)=1σ√2πe−(y−μ)2(2σ2)⁄Γ型概率分布:是关于寿命长度(如计算机的使用寿命)或等待时间的连续随机变量模型;两种特殊类型,卡方随机变量和指数随机变量正态性检验:QQ图Shaprio-Wilk检验:shaprio.test()卡方(Chi-Square)概率分布威布尔概率分布是表示失效时间的连续随机变量模型β型概率分布是落在区间(0,1)上连续随机变量模型。贝塔(Beta,β)分布,be(α,β),均匀分布2.4二元概率分布及抽样分布统计量的抽样分布:统计量的概率分布中心极限定理:如果n个观察值Y1,Y2,…,Yn的随机样本来自有限均值μ和方差σ2的总体,那么当n充分大时,样本均值Y̅的抽样分布可由正态密度函数近似。设Y1,Y2,⋯,Yn来自于有限均值μ和有限标准差σ的总体n个观测值的随机样本。那么Y̅的抽样分布的均值和标准差,记为μy̅和σy̅,分别是:μy̅=μ,σy̅=σ√n⁄卡方密度函数:如果n个观察值Y1,Y2,…,Yn的随机样本来自有限均值μ和方差σ2的正态分布,那么χ2=(n−1)S2σ2(S2:样本方差)的抽样分布式自由度为ν=(n−1)的卡方密度函数学生氏T分布设Z是标准正态随机变量,χ2是自由度为ν的卡方随机变量,如果Z与χ2独立,那么称T=Z√χ2υ⁄是自由度为ν的学生氏T分布。F分布如果χ12和χ22是自由度为υ1和υ2的卡方随机变量,若χ12和χ22是独立的,则称F=χ12υ1⁄χ22υ2⁄为分子自由度为υ1,分母自由度为υ2的F分布。2.5相关分析《统计建模与R语言(上册)》3.4Pearson相关性检验(原假设:不相关)当(X,Y)T是二元正态总体,且ρ(X,Y)=0,则统计量𝐭=rxy√n−2√1−rxy2~t(n−2)cov()–协方差矩阵cor()–相关矩阵Kendall秩相关系数:非参数相关分析偏相关分析:3.参数估计参数估计:在很多实际问题中,总体的分布类型已知但它包含一个或多个参数,总体的分布完全由所含的参数决定,这样就需要对参数作出估计。推断总体参数有两种方法:估计未知参数值或对参数的假设值进行决策。参数估计有两类:点估计;区间估计。无偏:E(̂)=最小方差无偏估计:3.1估计方法矩估计法:用样本矩去估计总体矩矩估计̂1,̂2等可以通过前m阶样本矩等于m阶总体矩来求等E(Y)=1n∑yiE(Y2)=1n∑yi2极大似然法:随机选取离散随机变量Y的n个观察值y1,y2,…,yn,如果概率分布p(y)是单个参数θ的函数,那么观测到Y的这n个独立值的概率是p(y1,y2,…,yn)=p(y1)p(y2)…p(yn),称样本值的联合概率为样本的似然函数L,并建议使L达到最大的值为θ的估计值。3.2单正态总体参数(均值、方差)的估计一个置信区间的置信系数等于在抽样前随机区间包含被估参数的概率如:1-α总体均值u的大样本(1-α)100%置信区间:y̅±zα2⁄σy̅=y̅±zα2⁄(σ√n)≈y̅±zα2⁄(s√n)σ为抽样总体的标准差,n是样本大小,s是样本标准差。N大于30假设:没有,中心极限定理保证无论抽样总体服从什么分布,y̅均近似正态。总体均值u的小样本(1-α)100%置信区间:y̅±tα2⁄(s√n)T为自由度为n-1的学生氏T分布。假设抽样总体近似服从正态分布R函数:t.test()总体方差的估计:设y1,y2,…yn是来自均值为u、方差为σ2的正态分布随机样本,χ2=(n−1)s2σ2是具有自由度为(n-1)的卡方分布。置信区间为:((n−1)s2χα2⁄2,(n−1)s2χ1−α2⁄2)3.3两正态总体参数(均值、方差)的估计两均值差:T检验设方差未知且相等:检验统计量:T=(x̅−y̅)−(μ1−μ2)√(1n1+1n2)s2~t(n1+n2−2)其中:s2=(n1−1)s12+(n2−1)s22(n1−1)+(n2−1)方差比:F检验(方差齐性检验)原假设:方差相等,或大于等于一方,或小于等于一方χ12=(n1−1)s12σ12,χ22=(n2−1)s22σ22S1与S2相互独立,F=s12σ12⁄s22σ22⁄~F(n1−1,n2−1)假定:被抽样样本的两个总体有近似正态的相对频率分布;随机样本是独立地从两个总体中抽取的。3.4单总体比率p的区间估计二项分布中成功比率p(即总体中具有某种特征的元素比率)的估计方法样本比率p̂=yn⁄,当n较大时,p̂近似正态分布E(p̂)=p,V(p̂)=p(1−p)n总体比率p的大样本(1-α)100%置信区间p̂±Zα2⁄σp≈p̂±Zα2⁄√p̂(1−p̂)n假定:样本容量n必须充分大。R语言:prop.test()3.5两总体比率差p1-p2的区间估计R语言:prop.test()3.6样本容量的确定精度要求:置信度1-α,允许均值的最大绝对误差d4.参数的假设检验先对总体的某个未知参数或总体的分布形式作某种假设,然后由抽取的样本提供的信息,构造合适的统计量,对所提供的假设进行检验,以做出统计判断是接受假设还是拒绝假设,这类统计推断问题称为假设检验问题,前者称为参数假设检验,后者称为非参数假设检验。归纳得到假设检验的主要步骤:1)提出原假设H0与备择假设H1;2)选择检验统计量W并确定其分布;3)在给定的显著性水平下,确定H0关于统计量W的拒绝域;4)算出样本点对应的检验统计量的值;5)判断:若统计量的值落在拒绝域内,则拒绝H0,否则接受H0.在一个假设检验问题中,拒绝原假设H0的最小显著性水平称为检验的p值.――观测到检验统计量一个值至少如从样本数据计算的统计量值那样与原假设矛盾,且支持备择假设的概率。4.1单正态总体参数(均值、方差)的检验均值的假设检验:Z检验,t检验方差的假设检验:χ2检验χ2=(n−1)s2σ24.2两正态总体参数(均值、方差)的检验均值的比较:t检验大样本检验统计量:Z检验假定:样本容量足够大,两个样本都是从目标总体中独立、随机地选取的。小样本检验统计量:t检验设方差相等,在u1,u2相等的原假设下检验统计量:T=(x̅−y̅)−(μ1−μ2)√(1n1+1n2)s2~t(n1+n2−2)假定:抽取样本的两个总体有近似正态的相对频率分布;两个总体的方差相等;随机样本是独立地取自两个总体。R语言:t.test(x,y,var.equal=TRUE);当方差齐性不满足时,var.equal=FALSE例子:可燃气体和电力能源,哪种能以较低的成本产生出更多的有用能量。(基于两种方法的投入产出比数据)原假设:u1=u2方差的比较:F检验R语言:var.test()4.3成对数据的t检验对一般情况下的两样本均值检验还没有完全解决.所谓成对数据,是指两个样本的样本容量相等,且两个样本之间除均值之外没有另的差异。大样本:Z检验小样本:t检验T=̅−σ√n⁄≈̅−√n⁄T分布的自由度为(n-1),d̅和s表示差的样本均值和标准差。假定:差的总体相对频率分布是近似正态的;配对差是从差的总体中随机选取的。当正态性假定严重违反时,t检验可能导致错误的推断。这种情况下,采用非参数Wilcoxon检验。R语言:t.test(x,y,paired=TRUE)4.4检验总体比率总体比率假设的大样本检验:检验统计量:Z=p̂−p√p(1−p)n⁄假定:样本容量n足够大以保证近似正态性。np,n(1-p)4R语言:prop.test()例:某产品的优质品率一直保持在40%,近期技监部门抽查了12件产品,其中优质品为5件,问在α=0.05水平上能否认为其优质品率仍保持在40%?binom.test(c(7,5),p=0.4)4.5检验两个总体比率的差(p1-p2)假设的大样本检验:独立样本/Z检验P1-p20P1-p2=0假定:样本容量足够大以保证p̂1,p̂2近似正态性检验统计量:p1,p2相等的情况下:Z=p̂1−p̂2√(n1+n2)p̂(1−p̂)n1n2~N(0,1)其中p̂=n1p̂1n2p̂2n1n2R语言:prop.test()有电脑没有电脑男女1)男、女生家中拥有电脑的比例是否一致?2)有没有电脑跟性别是否有关系?5.非参数的假设检验许多非参数技术适用于分析不服从正态分布的数据;尽量从数据本身来获取所需要的信息。非参数检验着重于总体概率分布的位置,而不是总体参数,如均值。不假定总体分布的具体形式,尽量从数据(或样本)本身来获得所需信息的统计方法称为非参数方法。5.1检验单个总体的位置符号检验(位置检验),专门用于检验任一连续总体中位数的假设;与均值一样,中位数是分布中心或位置的度量。注:从一个肯定是非正态总体抽取一个小样本时,T检验是无效的。中位数的符号检验:对于充分大的n,均值为u=np,σ=√np(1−p)的正态分布可以用来近似二项分布(n次中,每次概率为p,最后结果为k的概率,k=1,2,…n)。检验统计量:Z=S−E(S)√V(S)=S−0.5n0.5√nR语言:借助于binom.testWilcoxon符号秩检验:大样本(n=25)检验统计量:Z=T+−(1)√n(n1)(2n1)2⁄R语言:
本文标题:统计分析读书笔记
链接地址:https://www.777doc.com/doc-2138302 .html