您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 公司方案 > 自组织数据挖掘的理论和方法及其在经济系统复杂性研
1绪论复杂性科学是在20世纪80年代中期兴起的,主要研究复杂性和复杂系统的一门科学。它目前虽然还处于萌芽状态,但已被有些科学家誉为“21世纪的科学”[1]。近年来,国内外许多学者都致力于对复杂系统的研究。经济系统作为一个典型的复杂巨系统,其复杂性研究是复杂性科学研究中的一个重要领域。经济系统的复杂性研究是当前我国经济管理和决策中的重要课题之一。由于宏观经济系统本身具有复杂性和时变性的双重特性,而我国又正处在计划经济向社会主义市场经济的转轨过程中,比起其它的经济系统就更显复杂性和不确定性。加入世界贸易组织后,我国的经济系统已经成为一个与世界经济大系统紧密相关的复杂开放巨系统。与我国传统的封闭式计划经济系统相比,需要科学工作者运用复杂系统的科学研究方法来解决实际中提出的新的复杂问题。经济系统的复杂性研究着重于揭示经济对象构成的原因及其深化的历程,并尽可能准确地预测其未来的发展。只要利用科学方法揭示我国复杂经济系统的演化规律,并采用切实可行的对策,制定出科学的中长期规划,就可以避免重大的决策失误。所以,经济系统的复杂性研究对于我国的国民经济健康发展具有十分重要的意义。研究经济系统是个有相当难度的课题。经济是一个演化的复杂系统,其中包含了上千个变量和参量,它们之间相互联系、相互作用,构成了一幅非线性的图象,这是一个高维的系统。再加之经济信息的不完备性和不确定性,以及经济过程中人的参与,使得关于经济系统的运行规律、运行机制及构成原因,经济学家从来没有形成统一的理论,而是各种学派并存,仁者见仁,智者见智。例如,经济学界关于我国近年来通货紧缩的成因就有三种不同观点。其一是供需失衡论,强调通货紧缩是由实体经济因素所致,包括生产过剩论和有效需求不足论。其二是货币紧缩论,认为通货紧缩是一种货币现象,是由紧缩性货币政策导致。其三是债务紧缩论,认为通货紧缩是由债务收缩引起的总需求下降而导致的。哪种成因观点是正确的,是其中之一,还是各种观点的综合?经济系统的复杂性研究是现实而重要的问题。四川大学硕士学位论文2传统的理论方法一般不适用于研究复杂经济系统,对复杂经济系统的描述或建模相应地需要有非传统的语言和工具。目前在经济系统的复杂性研究中,国内外学者的研究工作可分为两类:其一是对经济系统复杂性的特点和规律的研究;其二是使用新的理论和方法去研究复杂经济系统。在经济系统复杂性的特点和规律的研究中,桑塔费研究所(SFI)的工作最为出色:SFI的Arthur在关于空间和技术锁定中的报酬递增率和路径依赖的论文中指出经济是一个极其复杂的自组织的系统,不同的经济领域要受不同的规律支配[2][3]。进一步论述了他本人早就提出的“拥有者获得”思想和报酬递增率,从而向新古典经济学所描述的经济是和谐、稳定和均衡的,遵从负反馈或报酬递减率的观点发出了强有力的挑战。方福康[4]指出经济是一个演化的复杂系统,具有自适应、自组织、自学习的特点。王浣尘[5]阐述了社会经济系统的十项内在本质特性,分析了螺旋式演进的特征、相锁、停振与传导,讨论了改革中的旋进策略,并提出系统复杂性具有客观性和相对性的两重特性。朱民[6]则阐述了现代金融理论的失败和金融系统的复杂性。为数众多的学者使用新的理论和方法应用于复杂经济系统的研究。从使用的理论与方法看,主要有混沌与分形理论(包括孤子理论、分岔理论、R&S分析法、相空间重构技术、混沌控制理论等)[7~10]、细胞自动机、人工生命理论[11]、经济物理学(Econophysics)方法、离散选择理论、自组织临界理论(“沙堆模型”)、神经网络方法、模糊方法、粗糙集理论等等。布鲁塞尔的PeterAllen和斯图加特的Wolfgang进行了复杂性理论在经济学中的应用研究[12],在其建立的城乡模型中,特别强调众多相互作用者的收益同时增加和减少的空间影响环境。以混沌等为代表的复杂性科学理论,对待自然界和经济社会现象有着与传统科学不同的思想和研究方法,为经济系统的复杂性研究提供了新的理论框架。在国外,Gordon和Greenspan[13]指出了经济系统中混沌与分形现象的揭示对预测的影响意义,分析了经济复杂系统产生伪信息(falseinformation)导致相关性分析失败的机制,并以技术扩散过程为例作了说明。Joseph[14]提倡应用混沌理论研究“后现代主义的预测技术”(postmodernismforecast&futuring),并将混沌理论中的复杂性增长、分叉、混沌等概念与经济、技术的预测进行了联系。在国内,杨培才等[15]提出根据混沌吸引子的分形维数并利用计量经济学构建经四川大学硕士学位论文3济系统方程,从而根据序参量变化实现经济预测的思路。徐寅峰、汪应洛[16]分析了混沌理论对经济预测的影响,指出如果经济系统是混沌的,那么短期预测具有一定的准确性而长期预测往往不具有说服力。张世英等[17]认为,社会经济系统本质上是非线性的,采用非线性预测,应用混沌经济学、一般非线性变结构模型等将是解决现有预测困难的有效途径。从目前的研究现状看,大多局限于应用混沌理论的某些概念作定性的分析与具体方法的开发及应用,理论上的深度、体系上的广度均有待拓展。在用计量经济学模型对经济系统进行研究时,一般都先假定系统服从某种或某几种经济理论,并建立相应的计量经济学模型,通过这些模型来描述经济系统的行为。计量经济学理论的核心是“从简单到一般”的建模原则。当研究对象确定后,根据已有的经济理论分析其中的因果关系,选择尽可能少的原因变量来解释结果变量,用随机方程描述该因果关系,对模型参数进行估计和检验,检验的主要标准是模型对样本数据的拟合优度,如果达不到标准,则增加原因变量,最后得到一个一般的模型。这种建模理论的主要问题是,同一个研究对象、同一组历史数据,不同的研究者根据他对研究对象行为理论的不同理解,可以建立不同的模型。模型方法成为验证理论的工具,而且是一种廉价的工具,谁使用就为谁服务,失去了公正性[18]。同时,这种研究复杂经济系统的方法还存在以下的几点不足:①分析结果受经济理论的影响。如果经济理论本身对研究的系统不适合时,建模结果自然是不可信的。尤其我国正处于经济变革时期,已有的经济理论并不一定就能很好地描述这种变动的系统行为。②经济系统中可获取的数据样本具有变量很多,而样本很少的特点。这对于以最小二乘法为算法基础的计量经济学模型来说,无疑是一个难以逾越的障碍。这迫使计量经济学模型在很窄的范围内选取输入变量,更不用说考虑滞后变量。这会造成数据中可能有用的信息的丢失,从而影响模型的效果。③使用计量经济学模型进行经济预测时,必须首先确定自变量的未来值,再代入建立的模型中得到预测值。这就需要对自变量的未来值事先作出估计,难免带有主观性。目前,人工神经网络(ANN)在理论和应用方面取得了许多突破性进展,尤其是在吸取人脑和动物中神经网络的工作特点方面倍受瞩目,然而用于经济系统复杂性研究仍存在一些问题[19]:①ANN难以解释结果的实际意义,特别是四川大学硕士学位论文4它无法回答“why”和“how”等问题,它从数据中提取出的信息仍隐含在网络结构中。②ANN没有一种系统地构造网络结构的方法,其结构由建模者通过试探性的反复实验来确定。由于没有一个标准的步骤来指导ANN模型的开发工作,与统计模型相比,它常需花更多的时间用于训练计算。③在样本数据存在噪声时,ANN模型常发生“过拟合”现象。可以认为,钱学森先生于1990年提出的从定性到定量的综合集成的方法[20]是迄今为止最值得重视的研究复杂经济系统的方法。这一方法的实质是将科学理论、经验知识和专家判断相结合,提出经验性的假设,再用经验数据和资料以及模型对其确实性进行检测,经过定量计算及反复对比,最后形成结论。这是研究复杂系统的有效手段[21]。然而,从定性到定量的综合集成方法不是一门具体技术,而是一种研究问题的思想。这种思想、方法和策略要通过具体技术来实现。今天,在复杂性科学研究中已有不少的新方法、新工具[21~23],但是,我们要指出,自组织数据挖掘的理论和方法是复杂系统的从定性到定量综合集成方法的有效实现技术。乌克兰科学院A.G.Ivakhnenko院士于1967年首次提出的成组数据处理方法(GMDH)[24]经过30多年的发展已经形成了一族自组织算法,随着计算机的飞速发展,自组织算法广泛地应用于数据挖掘和知识发现中,从而形成了自组织数据挖掘方法。这类算法应用自组织原理,能最大程度地限制人在数据挖掘中的主观性,已经成为研究复杂系统模拟预测的有效工具[25~27]。自组织数据挖掘方法中使用的是自组织算法,其最重要的代表就是GMDH算法,它是归纳算法思想在复杂系统的数学建模中的实现技术。其最大特点就是数据分组和内外准则的使用[24]。如今GMDH在许多领域都得到了应用,这些领域包括数据挖掘和知识发现,系统预测和系统建模,最优化和模式识别问题等。归纳的GMDH算法为自动地探询数据中隐含的相互关系,选择模型和网络的最优结构以及增加已有算法的精度提供了唯一可能的途径。这种自组织的途径与通常作为建模原则的演绎方法完全不同,它具有归纳的特征。在A.G.Ivakhnenko提出GMDH以后,通过1972年前苏联的R.shankar和日本、波兰的一些科学家进行的研究,他们的共同结论是:GMDH是解决人工智能问题的最好方法,这些问题包括结构辨识,随机过程的短期和长期预测以及四川大学硕士学位论文5复杂系统中的模式识别等。采用严格数学证明的GMDH理论表明回归分析能被描述为GMDH的特殊例子。1968年,乌克兰基辅的自动控制研究所的联合控制系统(CCS)小组开始了GMDH的研究。随着上个世纪90年代以来计算机技术的飞速发展,使得该方法在复杂系统中的建模、分析与运用成为可能。美国、德国、俄罗斯、乌克兰、中国、日本等国家的众多学者投入到自组织数据挖掘理论与方法的研究中,并已开发出多种算法的应用软件。如今,在复杂系统的模拟、预测、模式识别、样本聚类等诸多方面,自组织数据挖掘方法已经成为辅助人们进行系统分析和决策的一项强有力的工具[24][28~33]。文献[25]详细地介绍了自组织数据挖掘的基本方法和一些最新成果,并给出了大量的实例。现在已经有19部不同的GMDH专著在10个国家出版发行。以下是其主要的发展阶段:(1)1968年-1971年。该阶段的特征为:对于结构辨识、模式识别和短期预测的问题,运用单一的“正则化准则”,并使用多项式、逻辑网络、Zadeh模糊集和Bayes概率公式等作为参考函数。但没有提出关于噪声免疫性的问题。(2)1972年-1975年。该阶段解决了对具有不完全信息基础的噪声数据的建模问题。提出了多准则的选取和附加先验信息的利用。这些先验信息可以使模型具有对数据噪声的免疫性。接着,通过运用广义通信理论中著名的shennon定理使之得以进一步的改进。(3)1976年-1979年。该时期主要研究多层GMDH算法的收敛性问题。研究结果表明一些多层算法具有“多层误差”——类似于控制系统中的统计误差。1977年,提出了基于多层GMDH算法的客观系统分析(OSA)方法。该方法证明通过对准则集合进行的筛选,允许选出唯一最优的关于系统对象的方程系统,从而展示了复杂对象元素构成中主要的输入输出变量。(4)1980年-1988年。这一时期接受了许多重要的理论结果。一个清楚的事实是:完全的物理模型不能用于长期预测。研究证明,由GMDH产生的非物理模型对于拟合与预测问题比回归分析所建立的物理模型具有更精确的结果。同时,两阶段算法也被提出来。(5)1989年至今。这个阶段,开发和研究出了许多针对模糊对象建模的非参数算法和统计学习多项式。目前的工作主要是进一步发展这些算法,并在诸四川大学硕士学位论文6多领域进行实施与应用,大量工作主要集中在经济系统中。同时,两层——多层的神经元网络,开创了解决人工神经元网络(人脑的模型)的自组织问题的新方法。比如在乌克兰,一个重要的工作是用归纳算法进行乌克兰宏观经济的当期预测。国内学者也积极地开展了自组织数据挖掘理论与方法的研究及
本文标题:自组织数据挖掘的理论和方法及其在经济系统复杂性研
链接地址:https://www.777doc.com/doc-866193 .html