您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据结构与算法 > 数学建模海洋表面温度建模分析
海洋表面温度观测数据建模分析摘要本文针对海洋表面温度观测数据进行分析,使用聚类分析的方法,分别采用K-means、Birch方法建立数学模型,使用Python和MATLAB语言及其工具包进行编程,在合理的假设下,确定了各个海区众多观测点的具体集群数目,并且对某一海区同一类观察点给定数据通过插值拟合的方式,建立反映温度变化规律的数学模型,同时依据建立的模型对该区域的海洋表面温度的温度变化特点进行了分析说明。针对问题一:结合聚类分析的理论和方法,分别采用K-means、Birch方法建立数学模型,使用Python和MATLAB语言及其工具包进行编程,在合理的假设下,确定了各个海区众多观测点的具体集群数目。针对问题二:由问题一的对于杭州湾的聚类分析,我们对杭州湾同一类观察点给定数据通过插值拟合的方式得出了呈周期性变化的函数表达式。杭州湾气温随季节变化最为明显,杭州湾周边大型城市较多,例如上海、杭州、宁波等,距离陆地较近,受到热岛效应及全球变暖及陆地季节变化等影响出现了四季分明的温度变化趋势,而东海和南海距离陆地较远,海域面积较广,其年温差最小且海洋表面温度保持在20以上,证实了海洋表面的自我温控能力,台湾海峡地处大陆与台湾之间,海洋表面温度同样四季分明,温差接近与杭州湾,这一变化趋势来源于其二者之间的独特的地理位置。故以杭州湾为例,结合其周边新一线城市杭州近年来的GDP以及碳排放量等重要数据,对海洋表面温度变化规律及影响因素进行探究。针对问题三:根据前面的问题二的模型分析,四大海域的海水表面温度在逐渐升高,近年来海域沿海周边大型工业城市GDP急速增长,工业污染程度逐年猛增,二氧化碳的排放量飞速增长,这些都是引起海洋表面温度变化的关键因素。同时我们通过灰色关联分析法,对海洋表面温度变化与GDP之间的关系进行分析。结合以上几点分析了温度变化趋势对现代人们生活和社会发展带来的巨大影响。同时为了应对全球海洋表面温度的变化对人们生产生活出现的不良影响,我们提出几点应对措施。关键词:观测点聚类分析K-meansBirch一、问题重述1.1研究背景:海洋表面温度是海洋物理性质中的最基本要素之一。海洋水团的划分、海水不同层次的锋面结构、海流的性质判别等都离不开海水温度这一要素。海洋表面温度是认识和了解上层海洋生物地球物理化学过程和海气相互作用的一把钥匙。掌握水温的分布变化规律对巩固国防、推动国民经济发展有着重要的意义。近些年来温室效应加剧,海平面上升也加剧,作为全球重要环境问题的海平面变化,已经越来越成为海洋科学家和气象学家共同关注的热点问题。海洋表面温度变化能够从分体现环境的变化情况,海洋表面污染的增多和全球的环境的污染以及二氧化碳的排放致使气温的升高,都会引起海洋表面温度的升高,同时海洋温度同时又有四季的周期变化的特点,本题给出了东海、杭州湾、南海、台湾海峡四个海区的温度10年间的日观测数据,通过数据建模回答以下问题。1.2研究问题:问题一:通过每个海区的观测的观测数据,对观测点进行聚类分析。问题二:对同一类观察点对于给定数据建立反映温度变化规律的数学模型,依据建立的模型对该区域的海洋表面温度的变化特点进行说明(比如季节,温度的变化趋势)。问题三:综合几个海区的情况对全球海洋表面温度变化特点进行描述,评估其变化趋势对人类的生活影响,同时为了不出现不良影响,人类的生活应该如何改变。二、模型假设假设一:题目中所提供的东海、杭州湾、南海、台湾海峡四个海区的温度10年间的日观测数据具有真实可靠性。假设二:四个海区中的列数据表示不同的观测点假设三:四个海区中的行数据表示从第一年到第十年每日数据假设四:四个海区中十年数据每月按30天计算三、各海域观测点聚类模型建立与求解3.1、聚类分析原理及其分类介绍:3.1.1、聚类分析概念及其原理:聚类分析是研究“物以类聚”的一种方法。聚类分析又称为群分析,是指依据研究对象的个体特征,对其进行分类的方法。分类在经济、管理、社会学、医学等领域,都有广泛的应用。聚类分析是一种建立分类的多元统计分析方法,他能够将一批样本(或变量)数据根据其诸多特征,按照性质上的亲疏关系在没有先验知识的情况下进行分类,产生多个分类结果。各分类内部个体特征之间具有相似性,不同分类之间个体特征的差异性较大。3.1.2、聚类分析的分类:聚类分析就是根据事物本身的特性,按照一定的类定义准则,对研究的事物进行归类。以分类对象的标准,我们可以把聚类分为变量聚类和观测聚类。观测聚类:观测聚类又称为样本聚类,是指根据被研究对象的总体特征对其进行聚类。根据观测聚类定义,在对事物进行分类时,应该全面考虑描述观测对象的所有特征。变量聚类:在实际问题中,反映同一事物特征的变量有很多,根据所研究问题的重点,通常可以选择某些具有代表性的变量进行研究。也就是说,对描述观测事物的变量进行归类,使得每一类都代表观测事物某一方面的特征,这就是变量聚类。3.2聚类方法对比介绍表1四种聚类方法对比方法名称K-均值DBSCANGaussianmixturesBirch参数团簇数目邻域大小很多分支因子,阈值,可选的全局聚类器可扩展性非常大的n_samples,中的n_clusters,MiniBatch代码非常大的n_samples,中等n_clusters不可扩展大的n_samples,大的n_clusters用例通用的即使群集大小、平面几何、没有太多的集群非平面几何,不均匀的簇大小平面几何,好为密度估计大型数据集几何点之间的距离最近的点之间的距离马氏距离到中心点之间的欧几里得距离3.2.1、K-mean聚类方法K-means聚类也称快速聚类,是由MacQueen于1967年提出的,它将数据看成K维空间上的点,以距离作为测试个体“亲疏程度”的指标,并通过牺牲多个解为代价换得高的执行效率。欧式距离(Euclideandistance)指两个个体的K个变量值之差的平方和的平方根,其数学定义为:d=√∑(𝑥𝑖−𝑦𝑖)2𝑛𝑖=1公式中,是个体x的第i个变量的变量值,是个体y的第i个变量的变量值。3.2.2、Birch聚类方法Birch(BalancedIterativeReducingandClusteringUsingHierarchies)算法全称是:利用层次方法的平衡迭代规约和聚类。BIRCH算法是1996年由TianZhang提出来的。首先,BIRCH是一种聚类算法,它最大的特点是能利用有限的内存资源完成对大数据集的高质量的聚类,同时通过单遍扫描数据集能最小化I/O代价。Birch算法特点:(1)BIRCH试图利用可用的资源来生成最好的聚类结果,给定有限的主存,一个重要的考虑是最小化I/O时间。(2)BIRCH采用了一种多阶段聚类技术:数据集的单边扫描产生了一个基本的聚类,一或多遍的额外扫描可以进一步改进聚类质量。(3)BIRCH是一种增量的聚类方法,因为它对每一个数据点的聚类的决策都是基于当前已经处理过的数据点,而不是基于全局的数据点。(4)如果簇不是球形的,BIRCH不能很好的工作,因为它用了半径或直径的概念来控制聚类的边界。考虑对于一个n个d维的数据对象集{}。其中i=1,2……n,该聚类簇的中心C和半径R定义为:NxCNii12112)||||(NCxRNii其中R为一个聚类簇中的所有数据对象到聚类中心对象的平均距离。3.2.3、轮廓系数:轮廓系数(SilhouetteCoefficient)结合了聚类的凝聚度(Cohesion)和分离度(Separation),用于评估聚类的效果。该值处于-1~1之间,值越大,表示聚类效果越好。具体计算方法如下:1、对于第I个元素x_i,计算x_i与其同一个簇内的所有其他元素距离的平均值,记作a_i,用于量化簇内的凝聚度。2、选取x_i外的一个簇b,计算x_i与b中所有点的平均距离,遍历所有其他簇,找到最近的这个平均距离,记作b_i,用于量化簇之间分离度。3、对于元素x_i,轮廓系数s_i=(b_i–a_i)/max(a_i,b_i)4、计算所有x的轮廓系数,求出平均值即为当前聚类的整体轮廓系数从上面的公式,不难发现若s_i小于0,说明x_i与其簇内元素的平均距离小于最近的其他簇,表示聚类效果不好。如果a_i趋于0,或者b_i足够大,那么s_i趋近与1,说明聚类效果比较好。3.2.4、K值选取:在本题中,k一般不会设置很大。故可以通过枚举,令k从2到一个固定值,本题中取最大为8,在每个k值上重复运行数次,并计算当前k的轮廓系数,最后选取轮廓系数最大的值所对应的k作为最终的集群数目。3.3、Birch聚类方法对各个海区观测点聚类结论与分析3.3.1、东海观测点聚类分析:图3.1东海观测点Birch聚类结果分析东海观测点Birch聚类结果分析如图3.1所示。从图中可以分析得出,东海的样本观测点数,随着所给定K值的增加,轮廓系数也在变化,值越大,表示聚类效果越好,因此当K=3时,得到最大轮廓系数0.688,故最终东海的集群数目应为3。3.3.2、杭州湾观测点聚类分析:图3.2杭州湾观测点Birch聚类结果分析杭州湾观测点Birch聚类结果分析如图3.2所示。从图中可以分析得出,杭州湾的样本观测点数,随着所给定K值的增加,轮廓系数也在变化,值越大,表示聚类效果越好,因此当K=3时,得到最大轮廓系数0.413,故最终杭州湾的集群数目应为3。3.3.3南海观测点聚类分析:图3.3南海观测点Birch聚类结果分析南海观测点Birch聚类结果分析如图3.3所示。从图中可以分析得出,南海的样本观测点数,随着所给定K值的增加,轮廓系数也在变化,值越大,表示聚类效果越好,因此当K=3时,得到最大轮廓系数0.520,故最终南海的集群数目应为3。3.3.4台湾海峡观测点聚类分析:图3.4台湾海峡观测点Birch聚类结果分析台湾海峡观测点Birch聚类结果分析如图3.4所示。从图中可以分析得出,台湾海峡的样本观测点数,随着所给定K值的增加,轮廓系数也在变化,值越大,表示聚类效果越好,因此当K=2时,得到最大轮廓系数0.566,故最终台湾海峡的集群数目应为2。3.4、K-均值方法对各个海区观测点聚类结论与分析3.4.1东海观测点聚类分析:图3.5东海观测点K-means聚类结果分析东海观测点K-means聚类结果分析如图3.5所示。从图中可以分析得出,东海的样本观测点数,随着所给定K值的增加,轮廓系数也在变化,值越大,表示聚类效果越好,因此当K=3时,得到最大轮廓系数0.672,故最终东海的集群数目应为3。3.4.2杭州湾观测点聚类分析:图3.6杭州湾观测点K-means聚类结果分析杭州湾观测点K-means聚类结果分析如图3.6所示。从图中可以分析得出,杭州湾的样本观测点数,随着所给定K值的增加,轮廓系数也在变化,值越大,表示聚类效果越好,因此当K=3时,得到最大轮廓系数0.453,故最终杭州湾的集群数目应为3。3.4.3南海观测点聚类分析:图3.7南海观测点K-means聚类结果分析南海观测点K-means聚类结果分析如图3.7所示。从图中可以分析得出,杭州湾的样本观测点数,随着所给定K值的增加,轮廓系数也在变化,值越大,表示聚类效果越好,因此当K=3时,得到最大轮廓系数0.505,故最终南海的集群数目应为3。3.4.4台湾海峡观测点聚类分析:图3.8台湾海峡观测点K-means聚类结果分析台湾海峡观测点K-means聚类结果分析如图3.8所示。从图中可以分析得出,杭州湾的样本观测点数,随着所给定K值的增加,轮廓系数也在变化,值越大,表示聚类效果越好,因此当K=5时,得到最大轮廓系数0.588,故最终台湾海峡的集群数目应为5。四、同类观测点温度变化规律模型建立与求解4.1同一类观察点数据模型的建立与分析:4.1.1杭州湾观察点数据模型建立由问题一的K-means聚类方法和Birch聚类方法对比分析可知,杭州湾集群数目应为3。采用K-means方法分析,将第三类观测点数据从原始10年数据中导出,K—means聚类方法时K=3
本文标题:数学建模海洋表面温度建模分析
链接地址:https://www.777doc.com/doc-1449422 .html