您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 人事档案/员工关系 > 基于因子分析的logistic违约概率测算模型研究ahre
彭建刚,屠海波,何婧湖南大学金融学院,金融管理研究中心,湖南长沙(410079)E-mail:pengjiangang@hotmail.com摘要:本文针对一般Logistic违约率模型中原始数据信息的丢失、多重共线性以及没有考虑时间因素等问题,提出了基于因子分析的logistic违约概率测算模型。通过引入因子分析和对指标作时间加权化处理等方法改进了一般logistic违约概率测算模型,然后利用中国上市公司数据展开实证研究。基于因子分析的logistic违约概率测算模型不仅考虑了时间因素,能够解决数据丢失和多重共线性,克服了Cramer问题,而且测算的准确度也较高。关键词:违约概率,因子分析,Logistic模型中图分类号:F832.21文献标识码:A1.引言美国金融市场近期遭受重创,次级抵押贷款危机已蔓延至全球金融市场。次贷危机起因于对信用风险没有引起足够的重视,在商业银行信用风险管理中,违约概率的测算居于重要地位。违约概率是指借款人在未来一定时期内不能按合同要求偿还银行贷款本息或履行相关义务的可能性(概率),即信用风险的概率测算。对借款人进行违约概率的测算,己经被列为巴塞尔新资本协议内部评级法的关键内容,是现代商业银行信用风险管理的重要环节。巴塞尔新资本协议要求[1],采用内部评级法的银行必须对处于风险暴露中的每一借款人进行评级,并估计其违约概率。研究现代商业银行的信用风险管理,不能不关注违约概率测算问题。20世纪八十年代以来,logistic回归分析法逐步取代了传统的判别分析法。作为量化企业信用风险的一种主流方法,logistic回归方法不仅灵活简便,而且它的许多前提假设比较符合经济现实和金融数据的分布规律,譬如它不要求模型变量间具有线性相关关系,不要求变量服从协方差矩阵相等和残差服从正态分布等,这使得模型的分析结果比较客观。大量实证研究表明,Logistic模型估计结果与实际数据的拟合度较高,适用性较强[2]。于立勇(2008)[3]等在结合我国国有商业银行实际数据的基础上通过Logistic回归模型构建了违约概率的测算模型,实证结果表明,模型可以作为较为理想的违约概率预测工具。昀近对logistic回归方法改进的研究主要有Laitinen(2000)[4]探索了泰勒级数展开在logistic回归方法预测企业违约分析中的应用。石晓军(2007)[5]则针对一般logistic回归方法存在的难以通过Hosmer-Lememshow拟合优度检验的Cramer问题,提出了边界logistic方法。由于用来解释违约概率的信用变量具有高相关性和高维性等特点,使得在运用logistic回归分析进行企业违约风险预测研究时会影响logistic分析的过程和结果,导致大部分原始数据信息的丢失以及估计方程中出现共线性的函数关系。而且我国正在处于经济转型时期,经济发展不够稳定。如果忽视时间因素对违约概率的影响,那么就会造成在经济景气的时期,商业银行会低估企业违约的概率,从而使得银行面临巨大的信用风险;而在经济萧条阶段又会高估企业违约的概率,从而使得银行可能失去优质客户。本文正是针对这些问题提出了基于因子分析的logistic违约概率测算模型,昀后用ROC分析检验了不同模型测算违约概率的1本文得到国家自然科学基金项目(编号:70673021)的资助。-1-精度。2.基于因子分析的Logistic模型的基本框架2.1考虑了时间因素的Logistic模型的基本原理首先利用Logistic模型进行违约概率测算研究的有Ohlson(1980)[6]、Zavgren(1985)[7]等。Logistic回归分析是一种非线性分类的统计方法,也适用于因变量中存在定性指标的问题,而且Logistic模型的建立方法---极大似然估计法有很好的统计特性。在Logistic模型中,违约概率的测算被看作一个虚拟变量问题。所谓虚拟变量指的是一种取值为0或1的变量。在经济模型中,一些变量比如季节、民族、某项政策等都可能成为影响某个因变量的重要因素。这些变量所反映的并不是数量,而是某种性质或属性。为了研究方便,我们人为构造出一种特殊变量,即虚拟变量来把这些变量定量化,规定当该变量值取1时,表示存在某种性质或属性,取0时则表示不存在。Logistic模型假设因变量发生的概率与其各影响因素间呈现如下的非线性关系,01122(....)1()1nnXXXXeββββ−+++Π=+(1)其中表示解释变量,12(,,)TnXXXX=⋅⋅⋅012(,,,)Tnβββββ=⋅⋅⋅是对于违约发生与否的解释变量的系数,0β是指常数项,()XΠ=1表示企业违约,()XΠ=0表示企业不违约。由于企业的各种指标会随着时间变化而变化,如果仅仅考虑昀近一年的指标,那么可能由于企业的经济周期或者偶然原因造成财务指标失真,昀终使得违约概率测算的不准确。为了解决这一问题,本文提出了基于时间加权的logistic违约概率测算模型。为了综合考虑t年财务指标,我们用iX表示该周期的综合指标,itX表示指标i第t年的数值,那么令12i11(1)(2).......1(1)/2(1)/2TitiTiTiTtitXTXTXTXXXTTTT−−=+−+−++==++∑(2)再把iX代入(1)中就可以得到基于时间加权的logistic违约概率测算模型:0111((/((1)/2))1()1nTitittXttXeββ==−−+Π=∑∑+)(3)Logistic与一般多元线性回归模型不同之处在于:(1)Logistic回归模型中因变量y是二分类的,而不是连续的,其误差的分布不再是正态分布而是二项分布,且所有的分析均建立在二项分布的基础上。(2)也正是基于上述原因,Logistic回归系数的估计不再用昀小二乘法,而要用极大似然法。系数及模型检验也不是t检验和F检验,而要用似然比检验和Wald检验等。在二项Logistic模型,似然函数等于11()()[1()]jjnzzjjjlXXβππ−==Π−1,2.....jn=(4)为了求解能够使()lβ达到昀大化的β,需要对()lβ分别求β,0β的微分,得到n+1-2-个似然方程式,并令其等于0。由于logistic回归分析中变量间的关系是非线性的,因此一般使用迭代算法来估计解释变量的系数β和常数项0β。2.2一般logistic回归的缺陷分析由于用来解释违约概率的信用变量具有高相关性和高维性等特点,使得在运用logistic回归分析进行企业违约风险预测研究时会影响logistic分析的过程和结果,导致大部分原始数据信息的丢失以及估计方程中出现共线性的函数关系。具体来说,logistic回归分析要求模型解释变量之间不能具有线性的函数关系,否则共线性的问题就会导致方程中变量系数标准差的增大。从而使得模型估计系数可靠性大幅度下降,昀终利用模型测算违约概率的准确性不理想。另一方面,在模型包括众多解释变量的情况下,logistic回归分析的目标之一是得到预测违约概率的“节约模型”方程,这个方程需要满足(1)包括尽可能少的解释变量;(2)具有昀优的度量结果(3)尽可能多地考虑原始数据的信息;(4)具有经济学意义上的说服力等条件。常用的选择方法有正向逐步选择法、反向逐步选择法、混合逐步选择法。以上三种方法主要在设计程序上的算法不同,处理结果一般是一致的。这类方法的缺点主要在于其完全依赖统计方法,缺乏经济学基础;此外,还导致了大部分解释变量被剔除掉了,这使得估计方程是不完整的。为了解决logistic回归所存在的共线性和原始数据丢失等问题,本文在先采用时间加权方法的基础上,再用因子分析的方法对数据行进分析,昀后运用logistic回归分析的构建模型。2.3因子分析基本原理在许多研究中,为了全面系统分析问题,都尽可能完整地搜集信息,对每个研究对象往往需测量很多变量(或称指标),人们自然希望用较少的新变量代替原来较多的旧变量,而这些新变量尽可能反映旧变量的信息。因子分析正是满足这一要求的处理多变量的方法。由于它们能浓缩信息,使指标降维,简化指标结构,使分析问题简单、直观、有效,故被广泛地应用于医学、心理学、经济学等领域。为了尽可能精确的测算违约概率,人们一般会尽量地收集贷款的信息。如一般对公贷款除了企业自身3年的财务报表,还需要企业管理层、行业、地区等大量的信息,转化为指标的话一般有上百个之多。而这些指标很多是高度相关的,如果直接使用这些指标的话,不仅增大了建模的难度,也可能受一些无关的指标干扰。另外,各个指标之间的数量级差别很大,容易造成数量级较小的重要变量被低估甚至忽略。而因子分析则能在解决这些问题的同时,尽可能多的保留原始变量的信息。因子分析的步骤包括:因子模型的构建、因子负载矩阵求解、因子旋转和因子得分的求解。因子分析的一般模型:设x为1p×随机向量,其均值为μ,协差阵为{}ijσ∑=,我们称x为有个因子的模型,若kx能表为:xfuμ=+Λ+(5)式中:是未知常数阵,Λpk×f:1k×和u:1p×为随机向量。f称为公共因子,u叫做特殊因子,叫因子负载矩阵。Λ-3-因子负载矩阵一般可由主因子法求解得到。当我们一旦获得了公共因子和因子负载以后,我们应该反过来考察每一个样本,可以通过巴特莱特估计、贝叶斯估计估计等方法得到因子得分。在进行违约概率测算的过程中,本文采用巴特莱特统计估计的方法,从众多反映风险财务指标中计算出包含充分指标信息的公共因子,这些公共因子比原始财务指标具有更优的统计特征,运用原始变量的组合值即因子得分作为反映信用风险的变量作进一步研究。2.4基于因子分析的logistic回归模型的优点把由因子分析得到的向量f=12(,,.....)nZZZ作为logistic模型的新的解释变量代替,即可以得到新的测算违约概率的模型。这个模型与一般的logistic模型相比在保留logistic模型原有优势的同时,主要有以下几个优点:(1).模型通过对数据标准化的处理,消除了变量间在数量级上或量纲的不同而产生的影响,每个变量的均值都为0,方差为1。(2)因子的指标之间由于互不相关,这样在logistic回归分析中,避免出现常见的多重共线性,大大增加了logistic回归分析中系数的可靠性。(3)在保留尽可能多的信息的前提下,使得logistic回归分析中的变量大大减少,从而在不影响违约概率测算精度的情况下显得“节约”。(4)相对于logistic回归分析完全依赖统计方法的变量选择,因子分析可以更好的考虑变量的经济学意义,从而使得模型更有实用价值。本文用基于因子分析的logistic回归分析对我国上市公司的财务及资本市场数据建立违约概率测算模型,并用ROC(受验者工作特征线)的检验理论来检验模型的表现能力。3.我国上市公司的实证分析3.1数据的选取和说明模型样本包括在深沪上市公司(包括A股和B股)共计1629家,考虑到了行业的特性,剔除了金融、保险公司22家,样本包括非ST公司1446家和161家ST公司,收集了样本公司2004-2007的财务数据和资本市场数据(均来自国泰君安数据库)。在去掉相关性明显很强的指标和共线性指标(即某个指标可以由其他指标线性表出)后。本文考虑了获利能力、流动性、现金流量、资产负债、资本市场等五大类22个指标。这22个指标在已有的研究中证明对违约概率的研究是有用的。本文对违约企业的定义,采用传统的分析方法,即视ST股(上市公司因财务状况异常而被“特殊处理”)为违约的借款企业,非ST股为不违约借款企业。在已有的研究中,获利能力比是首要的指标。本文使用的获利能力比例包括总资产净利润率、营业毛利率、营业净利润率、资产报酬率、投入资本回报率。总资产净利润率(ROA)是指净利润对总资产的比,它给投资者描述了一个公司的投资资金如何有
本文标题:基于因子分析的logistic违约概率测算模型研究ahre
链接地址:https://www.777doc.com/doc-1002775 .html