您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 多维标度法在重点城市空气质量状况的应用研究
多维标度法在城市空气质量状况中的应用摘要:随着我国社会经济和现代工业地不断发展,城市环境问题日趋严重,尤其是城市环境空气污染已经成为人们倍加关注的环境问题之一。为了有效地治理城市环境空气污染,必须对城市环境质量做出科学的评价。这对客观认识城市大气污染现状,预测其发展趋势,并有效的进行大气污染控制具有重要意义。本文从2013年重点城市空气质量状况的数据出发,利用多维标度法的分析方法合理地将研究对象在低维空间中给出标度或位置,以便全面而又直观地再现原始各研究对象之间的关系,同时在此基础上也可按对象点之间距离的远近实现对样品的分类。关键词重点城市空气质量多维标度距离引言在实际中我们会经常遇到这样的问题,给你一组城市,你总能从地图上测出任何一对城市之间的距离。但若给你若干城市的距离,你能否确定这些城市之间的相对位置呢?假定你知道只是哪两个城市最近,哪两个城市次近等等,你是否还能确定它们之间的相对位置呢?假定通过调查了解了10种饮料产品在消费者心中的相似程度,你能否确定这些产品在消费者心理空间中的相对位置呢?在实际中我们常常会遇到类似这样的问题。多维标度法(MultidimensionalScaling)就是解决这类问题的一种方法,它是一种在低维空间展示“距离”数据结构的多元数据分析技术,简称MDS。多维标度法(MDS)是著名计量心理学家谢泼德(Shephard)和克鲁斯克(Kruskal)分别于1962年和1964年发展起来的一种计量心理学技术。现在已经广泛应用于心理学、市场调查、社会学、物理学、政治科学以及生物学等领域的数据分析方法。1.理论基础1.1定义广义的MDS可以将聚类分析和对应分析(CorrespondenceAnalysis)也包括进来。根据它所利用的信息来看,多维标度法可以分为两大类:一类称为非度量的MDS(nonmetricMDS);另一类为量度的MDS(metricMDS)。前者使用了研究对象间距离(或相似度)的排序信息,而后者用的是实际上的数量指标。1.2多维标度法的原理和计算步骤在聚类分析中,对于给定坐标的一组点群,我们很容易计算它们两两之间的距离或相似系数(如同火车站的里程表或运价表)。多维标度法可以说是上述问题的逆问题,即给定样品两两之间的距离或相似度的排序,反求各样品点的坐标。1.3多维标度法的基本思想用r维空间(r待定)中的点分别表示各样品,使得各样品间距离的次序能完全反映原始输入的相似次序(两样品间的距离越短,则越相似)。通常,要通过两步来完成。首先构造一个r维坐标空间,并用该空间中的点分别表示各样品,此时点间的距离未必和原始输入次序相同,通常把这一步称为构造初步图形结构。其次是逐步修改初步图形结构,以得到一个新图形结构,使得在新结构中,各样品的点间距离次序和原始输入次序尽量一致。2.实施步骤同具它的多元统计分析方法一样,对所研究的问题做出准确的界定、仍然是我们进行多维标度分析的首要好处,由于其中将应用各种类型的数据,我们就必须决定一种获得救据的适宜方式。并选择用于数据分析的具体过程。另外,还要确定空间的维数。通常,维数多,包含的信息量就大,而维数少,更为方便数据分析。因此,需要确定既能包含大部分重要信息,又方便数据分析的较为适当的维败。在确定了空间的维数以后,需要准确命名那些构筑空间的坐标轴,并对整个空间结构做出解释,最后一步的工作是砰估所用方法的可靠性和有效性。2.1界定问题课题的界定与通过多维标度法希望达到的日的和选定的品牌密切相关。为此。必须首先天以明确。围绕需要解决的问题,我们才能分析与之相关的因素指标(或变量),如果是研究消费者对某产品各个知名品牌的感觉或伯好,就要选择能够描述这一特征的一系列变量指标。另外,在一个构筑好的多维空间中,一般需要同时研究至少8个品牌,这样才能得到一个较好的空间图。但是,一旦超过25个品牌,就会导致调查对象的疲倦,从而影陶调研结果。品牌及相关指标或变量的选择,往往基于调研问题、相关理论,以及研究人员的判断力等。2.2获取数据从调查对象那里得到的数据可能与感觉或偏好相关,感觉数据有直接数据和推断数据之分,直接数据源于相似性判断,而推断数据则源于对相关属性的评估。在收集直接的感觉数据时,要求调查对象判别不同品牌相似与否。我们可采用李塞图七点标尺或其它度量进行配对品牌评估,这些数据被称为相似性判别数据。也可以采用其它方法,比如要求调查对象将所有的品牌配对按相似性强弱由大到小排序。再比如,要求调查对象对所有品牌与固定对照品牌(基础品牌)进行相似性排序,每个品牌可轮流做为基础品牌。收集的就是一些直接的感觉数据;收集推断数据则源于调查对象对相关屑性的评估,我们应用语义差异标尺或李亮图七点标尺度量属性后对品烽进行评估。由于消费者对心目中理想品牌的感觉往往涉及一系列品牌属性或变量。因此,调查对象需要对这些属性做出评估。如果我们能够获得属性评估值,就可依据亲疏性度量值(如欧氏距离)对每对品牌的近似程度做出推断。比较这两种数据收集方法,第一种方法的优点是调研人员不必确定一系列属性,调查对象用他们自己的标淮做品牌或项目的相似性判断,故结果较为真实和客观。其缺点是评估过程有时会导致调查对象下意识地忽视某种指标对品牌评估的影响,比如,被评估的若干汽车品牌都在同一价格水平上,则价格就不会成为一种重要的因素;这种方法的另一局限性还表现在很难命名空间固上的坐标铀(维)。第二种方法是以品牌属性为基础的推断性方法,这种方法具备两个优点。其一,由于我们是依据态度或其它相关指标的评估值将调查对象分类,所以较容易区分有相同感觉的调查对象3其二,我们能够较方便地命名坐标轴。其缺点是调研人员必须找出所有的属性,这是一项很复杂、很艰难的工作。而空间图恰恰就是依靠这些不同的屑性构筑的。在市场调研中,第一种方法通常比第二种方法更常用,我们建议读者在实践中交互使用这两种方法。比如,可以首先采用较直接的相似性判断获得空间图,然后进行属性评估,以帮助我们解释感觉图中的坐标轴。同样图,然后进行属性评估,以帮助我们解释感觉图中的坐标轴。同样的过程也可以用于伯好数据的分析。2.3选择多维标度过程在具体选择多维标度过程时,要考察感觉或偏好信息的性质,而且输人数据的性质是一个决定性因素。多维标度过程分为非度量型多维标度过程和度量型多维标度过程。非度量多维标度过程输入的数据最顺序型的,但是,其输出的结果却是区闻以上型的。与之相对照,度量型多维标度过程输入的数据是定距以上型的,且输出的数据也是定距以上型的,因此,它的输入和输出数据间相关性较强。经验证明,这两种方法的结果基本相似。影响多维标度过程选择的另一因素,涉及分折过程是在单一个体水平进行还是在集合水平进行。在单一个。体水平进行分历时,需要对每个调查对象分别做数据分析、结果造成每个调研对象都拥有各自的空间团。从长远的角度看,这种方法还是有用的。然而,营销策略的制定需要对细分市场或集合进行分析。在集合水平进行分析时,需要假设每个个体用相同的交间轴(指标)评价品牌,当然,权重可以不同。2.4确定维数多维标度法的目的,是以空间图的方式用最少的维数去最挂地拟合输出数据。这里,拟合度被定义为相关系数的平方。然两,空间图的拟合度随着维数的增加而提高。因此,必须找出拆中的办法。一个多维标度的拟合度通常用紧缩值衡量,紧缩值是。—种拟合劣质度量。紧缩值高,说明拟合性差。以下是常用维数确定方法:(1)前期知识,调研理论或以往的调研经验和结论将有助于确定维数;(2)空间图的解释能力,一般来说,要想解释三维以上的空间图是很困难的。(3)转拆标准,考察紧缩值对维数曲折线图,如下图所示,当合适的维数出现时、往往伴随有一个转折或很急的转弯,而超过这点时,增加维数通常不会提高拟合度。观察紧缩值图发现,在三维处出现折点,形成了凹状图案,故应选择的维数是3。在选择维数时还应考虑易操作性。一般来说,二维平面图较之多维空间图简单得多。最后,那些擅长统计学方法的专业人员、也可采用统计方法确定维数。2.5命名坐标轴并解释空间图对坐标轴的命名主要依赖调研人员的经验和主观判断,下面的方法将有助于您的工作。尽管得到了直接的相似性判断值,如果可能,还应对提供的品牌屑性进行评估。应用统计中的回归方法,这些屑性向量可被嵌入空间图中(如下图所示),然后,我们可以综合考察那些最接近坐标轴的属性,以实现对坐标轴的命名或标注。在获得了直接相似性或编好数据后,我们还可以进一步询问调查对象在进行相似性评估时依赖的主观评估标推,这些标淮也应在命名坐标袖时予以参考。如果可能,可以向调查对象展示空间图,然后,请他们来命名空间图上的坐标铀。最后,如果我们了解品牌的自然属性,如充电电池充电后的最长使用时间答,这也可作为解幂空间图坐标轴。2.6评估有效性和可靠性同其它多元分析方法一样,对采用多维标度法获得的结果也要进行可靠性和有效性评估。一般采用以下方法进行评估。首先,可计算拟合优度2R,即相关系数的平方。2R值越大,说明多维标度过程对数据的拟合程度越好。一般地,当2R大于或等于0.6时,被认为是可接受的。另外,紧缩值也能反映多维标度法的拟合优度。2R是拟合良好程度的度量,而紧缩值是拟合劣质程度的度量,两个度量的角度完全相反,但目的相同。紧缩值随多维标度过程以及被分析资料的不同而变化。如果在集合水平上进行分析,原始数据应分成两组或两组以上。我们对每一组分别应用多维标度法,然后,对各组结果进行比较。3.实例应用为了分析重点城市的空气质量状况,我们从国家统计局统计年鉴中下载了2013年的相关数据,其中有51个地区和7个变量,如下图(部分数据):表1重点城市空气质量状况数据(2013)城市二氧化硫年平均浓度(μg/m3)二氧化氮年平均浓度(ug/m3)可吸入颗粒物(PM10)年平均浓度(μg/m3)一氧化碳日均值第95百分位浓度(mg/m3)臭氧(O3)日最大8小时第90百分位浓度(μg/m3)细颗粒物(PM2.5)年平均浓度(μg/m3)空气质量达到及好于二级的天数(天)北京26561083.418889167天津59541503.715196145石家庄105683055.717315449太原80431573.414881162呼和浩特56401464.110457213沈阳90431293.213978215长春44441302.112773230哈尔滨44561192.27281239我们使用多维标度法对这些城市和变量进行分析,多维标度法可以通过SPSS软件中的MultimensionalScaling来实现。进入spss软件后,使AnalysisScaleMultidimensionalScaling(ALSCAL),进入多维标度对话框。由于输入的是原始变量,样本间的距离阵要通过原始变量来计算,所以选择Creatdistancefromdata。点击Measure选择间隔尺度(interval),样本间的欧氏距离,并且将变量标准化(transformvalues的standardize选项中选择ZScores)。距离矩阵(createdistancematrix)选择样本间的(betweencases)。继续点击Model,选项中测量水平(levelofmeasurement)选择间隔尺度(interval),标度模型(scalingmodel)选择欧氏距离、二维模型。最后在Options的Display中,可以选择需要输出的结果,这里我们全选。首先,我们得到标准化变量的距离阵:表2标准化变量的距离阵表2结果是样本之间的距离阵,这里采用的是欧氏距离,距离阵为欧式距离阵,由于输出结果较多,只截取部分图片。之后得到迭代过程和距离阵的古典解,表3迭代过程和距离阵的古典解表3中是统计量Stress和RSQ的具体解释和计算过程。RSQ即决定系数,表示总变异中能够被空间距离解释的比例。Stress是压力指数。这里的Stress值为0.09141,RSQ的值是0.97211,已经非常接近1.所以重点城市的距离的多维标度模型拟合的效果是相当好的。
本文标题:多维标度法在重点城市空气质量状况的应用研究
链接地址:https://www.777doc.com/doc-5497871 .html