您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 数据处理与数据建模方法.
西南交通大学数学建模2009.82实际中大量信息或海量信息对应着大量的数据或海量数据,从这些数据中寻求所需要的问题答案--数据建模问题。通过实际对象过去或当前的相关信息,主要研究两个方面问题:(1)分析研究实际对象所处的状态和特征等,依此做出评价和决策;(2)分析预测实际对象未来的变化状况和趋势等,为科学决策提供依据。数据处理与数据建模方法3数据处理与数据建模方法1.一般数据建模问题的提出2.数据处理的一般方法3.数据建模的综合评价方法4.数据建模的动态加权方法5.数据建模的综合排序方法6.数据建模的预测方法4•实际对象都客观存在一些相关的数据信息;•如何综合利用这些相关信息给出综合评价结果、制定决策方案,或预测未来?•这类问题都归结为信息综合利用与评价问题。一般问题:什么是综合评价与综合评价问题呢?一、一般数据建模问题的提出5依据相关信息对被评价的对象所进行的客观、公正、合理的全面评价。如果把被评价对象视为系统,则综合评价问题:在若干个(同类)系统中,如何确定哪个系统的运行(或发展)状况好,哪个状况差?即哪个优,哪个劣?一类多属性(或多指标)的综合评价问题。综合评价:一、一般数据建模问题的提出6综合评价是科学、合理决策的前提。综合评价的基础是信息的综合利用。综合评价的过程是数据建模的过程。数据建模的基础是数据的标准化处理。一、一般数据建模问题的提出如何构成一个综合评价问题呢?7综合评价问题的五个要素:一、一般数据建模问题的提出(1)被评价对象综合评价问题中所研究的对象,或称为系统。在一个问题中被评价对象是属于同一类的,且个数要大于1。假设一个综合评价问题中有n个被评价对象(或系统),分别记为12,,,(1)nSSSn。8(2)评价指标它是反映被评价对象(系统)的运行状况的基本要素。通常问题都有多项指标构成,每一项指标都是从不同的侧面刻画系统所具有某种特征大小的一个度量。所有的评价指标一起称为综合评价的指标体系。原则:系统性、科学性、可比性、可测性和独立性。综合评价问题的五个要素设系统有m个评价指标(属性)12,,,(1)mxxxm,即评价指标向量12(,,,)Tmxxxx。9综合评价问题的五个要素如果用jw来表示评价指标(1,2,,)jxjm的权重系数,则0(1,2,,)jwjm,且11mjjw。(3)权重系数针对每一综合评价问题不同的评价目的,各评价指标之间的相对重要性是不同的。权重系数:用来刻画评价指标之间相对重要性的大小。10综合评价问题的五个要素(4)综合评价模型通过建立合适的综合评价数学模型将多个评价指标综合成为一个整体的综合评价指标,即得到相应的综合评价结果。假设n个被评价对象的m个数据指标向量12(,,,)Tmxxxx,权重向量为12(,,,)Tmw,则构造综合评价函数(,)yfwx。11综合评价问题的五个要素(5)评价者评价者是直接参与评价的人,可以是某一个人,也可以是一个团体。对于评价目的选择、评价指标体系确定、权重系数的确定和评价模型的建立都与评价者有关。12确定指标初始值计算综合评价指标对nsss,,,21进行综合评价排序或分类?明任确务明目确的确定评价指标规范化指标mxxx,,,21指预标处的理权重系数m确系定数权综合评价指标),(wxfy选价择模评型依指标nyyy,,,21对nsss,,,21排序或分类综合评价过程的流程13二、数据处理的一般方法1.数据类型的一致化处理方法极大型:期望取值越大越好;极小型:期望取值越小越好;中间型:期望取值既不要太大,也不要太小为好,即取适当的中间值为最好;区间型:期望取值最好是落在某一个确定的区间内为最好。一般问题的数据指标12,,,(1)mxxxm可能有“极大型”、“极小型”、“中间型”和“区间型”指标。什么是一致化处理?为什么要一致化?14二、数据处理的一般方法1.数据类型的一致化处理方法(1)极小型:对某个极小型数据指标x,则令1(0)xxx,或xMx,即可将x极大化。(2)中间型:对某个中间型数据指标x,则令2()1,()22()1,()2xmmxMmMmxMxMmxMMm即可将中间型数据指标x极大化。15二、数据处理的一般方法1.数据类型的一致化处理方法(3)区间型:对某个区间型数据指标x,则令1,1,1,axxacxaxbxbxbc其中[,]ab为x的最佳稳定区间,max{,}camMb,M和m分别为x可能取值的最大值和最小值。即可将x极大化。162.数据指标的无量纲化处理方法在实际数据指标12,,,(1)mxxxm之间,往往存在着不可公度性,直接应用是困难的,会出现“大数吃小数”的错误、从而导致结果的不合理。常用方法:标准差法、极值差法和功效系数法等。二、数据处理的一般方法假设m个数据指标12,,,mxxx,不妨设已做了类型的一致化,并有n组样本观测值(1,2,,;1,2,,)ijxinjm。17二、数据处理的一般方法2.数据指标的无量纲化处理方法令ijjijjxxxs(1,2,,;1,2,,)injm,其中1221111,[()](1,2,,)nnjijjijjiixxsxxjmnn。(1)标准差方法显然(1,2,,;1,2,,)ijxinjm的均值和均方差分别为0和1,即[0,1]ijx是无量纲的,称之为ijx的标准观测值。18二、数据处理的一般方法2.数据指标的无量纲化处理方法(2)极值差方法令ijjijjjxmxMm(1,2,,;1,2,,)injm,其中11max{},min{}(1,2,,)jijjijininMxmxjm。则[0,1]ijx是无量纲的标准观测值。19二、数据处理的一般方法2.数据指标的无量纲化处理方法(3)功效系数方法令ijjijjjxmxcdMm(1,2,,;1,2,,)injm,其中,cd均为确定的常数。c表示“平移量”,d表示“旋转量”,即表示“放大”或“缩小”倍数。则[,]ijxccd。譬如若取60,40cd,则[60,100]ijx。20二、数据处理的一般方法3.定性指标的量化处理方法在社会实践中,很多问题都涉及到定性因素(指标)的定量处理问题。诸如:教学质量、科研水平、工作政绩、人员素质、各种满意度、信誉、态度、意识、观念、能力等因素有关的政治、社会、人文等领域的问题。如何对有关问题给出定量分析呢?21按国家的评价标准,评价因素一般分为五个等级,如A,B,C,D,E。如何将其量化?若A-,B+,C-,D+等又如何合理量化?简单地对应数字分量化方法是不科学的!根据实际问题,构造模糊隶属函数的量化方法是一种可行有效的方法。二、数据处理的一般方法3.定性指标的量化处理方法22假设有多个评价人对某项因素评价为A,B,C,D,E共5个等级:{v1,v2,v3,v4,v5}。譬如:评价人对某事件“满意度”的评价可分为{很满意,满意,较满意,不太满意,很不满意}将其5个等级依次对应为5,4,3,2,1。为取连续量化,取偏大型柯西分布和对数函数作为隶属函数:二、数据处理的一般方法53,ln31,])(1[)(12xbxaxxxf其中ba,,,为待定常数.23二、数据处理的一般方法3.定性指标的量化处理方法当“很满意”时,则隶属度为1,即1)5(f;当“较满意”时,则隶属度为8.0,即8.0)3(f;当“很不满意”时,则隶属度为0.01,即01.0)1(f.计算得,3915.0,8942.0,1086.1a3699.0b。则53,3699.0ln3915.031,)8942.0(1086.11)(12xxxxxf24二、数据处理的一般方法3.定性指标的量化处理方法根据这个规律,对于任何一个评价值,都可以给出一个合适的量化值。根据实际情况也可构造其他的隶属函数。53,3699.0ln3915.031,)8942.0(1086.11)(12xxxxxf25三、数据建模的综合评价方法适用条件:各评价指标之间相互独立。对不完全独立的情况,其结果将导致各指标间信息的重复,使评价结果不能客观地反映实际。1.线性加权综合法用线性加权函数1mjjjywx作为综合评价模型,对n个系统进行综合评价。主要特点:(1)各评价指标间作用得到线性补偿;(2)权重系数的对评价结果的影响明显。262.非线性加权综合法用非线性函数mjwjjxy1作为综合评价模型,对n个系统进行综合评价。其中jw为权系数,且要求1jx。适用条件:各指标间有较强关联性。三、数据建模的综合评价方法主要特点:(1)突出了各指标值的一致性,即平衡评价指标值较小的指标影响的作用;(2)权重系数大小的影响不是特别明显,而对指标值的大小差异相对较敏感。27三、数据建模的综合评价方法3.逼近理想点(TOPSIS)方法首先设定系统指标的一个理想(样本)点),,,(**2*1mxxx,然后对于每一个被评价对象与理想点进行比较。基于这种思想的综合评价方法称为逼近理想点的排序方法(Thetechniquefororderpreferencebysimilaritytoidealsolution,简称为TOPSIS)。如果某一个被评价对象指标),,,(21imiixxx在某种意义下与理想点),,,(**2*1mxxx最接近,则认为被评价对象),,,(21imiixxx就是最好的。28三、数据建模的综合评价方法4.其他综合评价法因子分析聚类分析模糊评价层次分析法等29四、数据建模的动态加权方法1.动态加权问题的一般提法设有n个被评价对象(或系统)12,,,(1)nSSSn,每个系统都有m属性(或评价指标)12,,,(1)mxxxm。对每一个ix都可分为K个等级12,,,Kppp(1)K。而对每一个kp都包含一个()()[,)iikkab,且()()iikkab(1,2,,;1,2,,)imkK,即当()()[,)iiikkxab时,则ix属于第k类kp(1)kK。问题:如何对n个系统做出综合评价呢?30四、数据建模的动态加权方法2005年中国大学生数学建模竞赛的A题:“长江水质的评价和预测”问题的第一部份给出了17个观测站(城市)的最近28个月的实际检测指标数据,包括反映水质污染程度的最主要的四项指标:溶解氧(DO)、高锰酸盐指数(CODMn)、氨氮(NH3-N)和PH值,要求综合这四种污染指标的28个月的检测数据对17个城市的水质情况做出综合评价。表(1):《地表水环境质量标准》(GB3838—2002)中4个主要项目标准限值单位:mg/L指标Ⅰ类Ⅱ类Ⅲ类Ⅳ类Ⅴ类劣Ⅴ类溶解氧(DO)[7.5,∞)[6,7.5)[5,6)[3,5)[2,3)[0,2]高锰酸盐指数(CODMn)(0,2](2,4](4,6](6,10](10,15](15,∞)氨氮(NH3-N)(0,0.15](0.15,0.5](0.5,1](1,1.5](1.5,2](2,∞)PH值(无量纲)[6,9]31四、数据建模的动态加权方法根据国标(GB3838—2002)的规定,关于地表水的水质可分为Ⅰ类、Ⅱ类、Ⅲ类、Ⅳ类、Ⅴ类、劣Ⅴ类共六个类别,每一个类别对每一项指标都有相应的标准值(区间),只要有一项指标达到高类别的标准就算是高类别的水质,所以实际中不同类别的水质有很大的差别,而且同一类别的水在污染物的含量上也有一定的差别。在对17个城市的水质做综合评价时,要充分考虑这些指标值不同类别水的“质的差异”和同类别水的“量的差异”,在此简称为“质差”和“量差”。因此,这是一个较复杂的多因素多属性的综合评价问题。32四、数据建模的动态加权方法针对长江水质的综合评价这一问题,采用动态加权综合评价方法来解决。假设1
本文标题:数据处理与数据建模方法.
链接地址:https://www.777doc.com/doc-2332323 .html