您好,欢迎访问三七文档
I.一般线性模型简介(GeneralizedLinearModels或GLM)一般线性模型GLMs是将回归方程扩展到非常态分布或非线性的样本的一种统计方法。●一般线性模型GLMs的三个要素■随机要素(randomcomponent):假设被指定为应变量Y的随机变量是属于某一种特定的概率分布型态。■系统要素(systematiccomponent):在方程式的右侧设定一组解释变量,属于线性的预测变量:01122XXXkk....■连结函数(linkfunction):设定随机要素与系统要素之间的统计关系,也就是将μ=E(Y)透过方程式连结到解释变量上。●一般线性模型GLMs的某些特殊型态■最小二乘法OLS模型随机要素:常态分布与固定标准误的连续变量系统要素:01122XXXkk...连结函数:g(μ)=μ■logit模型随机要素:Y=1or0,呈二项分布(binomialdistribution).系统要素:01122XXXkk...连结函数:g(μ)=log[μ/(1-μ)][logit]■泊松回归模型(PoissonRegression)随机要素:泊松分布(Poissondistribution)下的次数频率(countfrequency)系统要素:01122XXXkk...连结函数:g(μ)=log(μ)在列联表(contingencytables)里的数据也是次数频率,因此,Loglinear模型在一般线性模型GLMs的架构下,实际上是泊松回归的一种。总之,一般线性模型GLMs提供了一种包含了大多数连续与离散变量重要模型的统整模式。●最大可能性(似然)估计(MaximumLikelihoodEstimation或MLE)此一估计所得的参数值与所观察到的数值最为一致:也就是说,运用最大似然法所估计出的参数发生的概率,将比其它的数字发生的概率更大。2步骤一:决定一个说明未知参数概率的函数(似然函数likelihoodfunction)。步骤二:找出此一未知参数的观察值,使得此一似然函数达到最大值。例子:运用二项公式(binomialformula)来计算十个被观察对象当中出现四位女性的概率。女性在总体当中出现的实际概率是½.因此可得:Psnp(|,.).(.)41050510541046现在假设我们不知道总体当中的女性所占比例(π),但是我们的十个观察值当中确实有四位女性,我们由这个样本当中得到总体最可能的π值为何?最大可能性估计MLE,就是推估一个总体的参数值,来使得观察值最可能发生。上述的似然函数就是:L410461()数学上,我们希望找出的是参数值p来达到这个似然函数L的最大值,此时p即是π的估计值。在大样本的条件下,最大可能性的估计值会具有下列三个良好的统计性质:i)最有效率(变异的极小化minimumvariance)ii)当样本数增加时,其统计偏误会不断缩小。iii)其分配型态渐近于随机抽样分布。当总体属于随机分布时,对总体平均值的最大可能性估计即是样本的平均值,在满足此一条件下,最小二乘法OLS估计正等于是最大可能性估计MLE(PowersandXieAppendixB)。II.二分法(Binary)Logit模型1.发生比Odds与发生比率OddsRatio(Agrestip.268-270):在处理二分法的变量时,发生比Odds就等于某事件发生的概率除以未发生的概率。oddspp1此处的p是指事件发生的概率,(1-p)就是事件不发生或失败的概率。因此,我们也可以用发生比Odds倒算出概率:3poddsodds1发生比Odds与概率Probability之间的关系概率Probability发生比Odds.10.11.25.33.501.00.753.00.909.00发生比率(Oddsratio)是用来估计不同群体之间事件发生概率的相对比例。同一个事件的概率,用发生比之间的关系来表达就是:pppp112211/()/()让我们参考实际的例子:1996年全国统计数据中有6090个有效样本,依据性别与党员资格来划分,可以得到下列的次数分配表:.tabpartysexcurrent|party|sexofrespondentmember?|MaleFemale|Total-----------+----------------------+----------Yes|547162|709No|2,5412,840|5,381-----------+----------------------+----------Total|3,0883,002|6,090男性成为党员的发生比是多少?女性成为党员的发生比是多少?男性对女性成为党员的发生比率又是多少?.tabnsize14partysizeof|placeof|residence|currentpartymember?at14|YesNo|Total-----------+----------------------+----------Village|3883,697|4,085Township|51352|403Countys|73292|3654County-l|42219|261District|70433|503Province|52254|306Beijing,|32131|163-----------+----------------------+----------Total|7085,378|6,086对那些十四岁时仍居住在农村的人来说,成为党员的发生率是多少?对那些十四岁时居住在乡镇的人来说,成为党员的发生率是多少?对那些十四岁时居住在直辖市的人来说,成为党员的发生率是多少?当然,我们也可以由此表格计算出任何两个群体之间的发生比率。发生比率OddsRatioθ有一些良好的统计性质:●与表格对角数字相乘之后的比率相等。●无论是从行或是列来计算结果都相等。●可以转换为负值之外的任何数值。●当θ=1就表示第一行与第二行的发生率相等。●当θ1就表示第一行的发生率大于第二行的发生率。●当θ1就表示第一行的发生率小于第二行的发生率。发生比率可广泛运用于logit模型与loglinear模型。2.二分Logit回归法(BinaryLogisticRegression)我们社会科学界经常面对一些二元范畴的应变量,这是因为很多社会现象都是以二分的方式来测量与描述,比如投票行为、出勤与缺席、已婚或未婚等,而非以连续变量的方式来测量与描述的。我们曾经提到虚拟变量(variabledummy)的概念,当一个应变量被分为k个类型的结果时,可以被转换成(k-1)个虚拟变量。从最简单的情况开始,我们假设一个变量只能分为两个范畴(事件发生[y=1]或是未发生[y=0]).举个实际的例子,我们想解释在中国为何有些人能够加入共产党,我们有个叫“rparty”的虚拟变量以及其它的解释变量,包括年龄、性别与父亲的党员资格。.tabrpartyrparty|Freq.PercentCum.------------+-----------------------------------0|5,38188.3688.361|70911.64100.00------------+-----------------------------------Total|6,090100.00要建立一个二元应变量的模型,我们可以将该方程式用机率模型表达为:E(Y|X)=β0+β1X1+β2X2我们该如何设定与估计上述的模型呢?5首先,我们可以使用线性机率模型(linearprobabilitymodel)也就是OLS来估计,但是线性机率模型有下列问题:a)函数型态上的错误:10XP(y=1)LinearProbabilityModelsb)其结果容易受到X或Y值的边际分布数值所影响.c)超出范围的预测值-机率小于0或大于1(Y0orY1)。d)异方差性(Heteroskedasticity)可能导致无效率的估计值、偏误的标准误与错误的统计检验结果。PP(1-P)=VAR(Y).1.09.3.21.5.25.7.21.9.09确实,异方差性(Heteroskedasticity)与超范围的预测值可以运用最小二乘法OLS以外的线性模型来解决。然而,错误的函数型态与对边际分布数值的敏感性是线性模型的致命伤。所以我们必须引进非线性(NONLINEAR)模型!要对付二元的机率分布型态,我们可以运用的其中一种非线性模型就是logistic(logit)模型:6PYXXeeeXXX(|)()111110.2.4.6.81p1/p2-4-2024xp1p2()exp(..)exp(..)xxox0406514065()exp(..)exp(..)xxox0406514065Logistic方程式的基本性质:a.在β0的条件下:当X+∞,π(x)1当X-∞,π(x)0在β0的条件下:当X+∞,π(x)0当X-∞,π(x)1因此0π(x)1b.曲线的斜率:部分微分的结果在线性模型中斜率会成为常数:PYXx(|),在logistic模型中斜率视X与β的条件而定:7(|)()[()]*(|)[(|)]YXxXXPyXPyX1111因此,π(X)[1-π(X)]在π=0.5的时候会达到极大值,也就是说,当p=0.5的时候,机率密度函数的斜率最高。logistic函数也可以转换成发生率:1-π(X)=1/[1+eα+βx]发生率Oddsπ(X)/[1-π(X)]=eα+βx=eαeβx因此,X每增加一个单位,就会让发生率增加eβ倍(MULTIPLIEStheoddsbyeβ)。c.发生率对数“LogOdds”log{π(X)/[1-π(X)]}=α+βX所以,将概率转换到发生率对数(logodds)之后,方程式的两侧都成了X的线性模型:“LinearLogitEquation”。III估计与解释1.估计:最大可能性方法MaximumLikelihoodMethodL=Pr(Y1,Y2,…Yn)=Pr()yiin1Lpppppiyiiiininiiyiyi()()()111111logloglog()Lypppiiiiniin1111也就是,loglog()Lxyeiiiinxinii1118理论上,MLE所计算出的βi可以使上述的函数极大化;应用上,STATA可以直接为我们计算出来。2.我们常见两类的logit模型实际上是一样的,只是数据本身因为方类方法而有所不同:a.个体纪录(UnitRecord)或“个人”logit模型b.群体数据或表格模型(tabularmodel)a.个体纪录(UnitRecord)或“个人”logit模型在n(i=1…n)个观察个体(“individuals”)当中,我们观察到应变量Yi属于(0,1)这种二项结果,以及自变量Xi,这两类数据都来自原始的数据纪录:.listrpartynsize14agefpartysex+-----------------------------------------+|rpartynsize14agefpartysex||-----------------------------------------|1.|1Village47NoFema|2.|1Village54NoMale|3.|1Beijing,45YesMale|4.|0Village47NoMale|5.|1Village44NoMale||-----------------------------------------|6.|0Village40NoMale|7.|1Village49NoMal
本文标题:类别数据分析第三讲
链接地址:https://www.777doc.com/doc-2177744 .html