您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 环境统计学第五章系统聚类分析
环境统计学授课教师:林红军授课时间:2010学年第二学期(EnvironmentalStatistics)环境科学系办公地点:校8幢123室,17幢616室E-mail:hjlin@zjnu.cn,linhonjun@163.comCell:15958459856,679856绪论多元线性概率统计一元线性环境统计学基本概念基本原理常用的统计学术语随机事件概率数学特征概率分布统计推断回归模型最小二乘法显著性检验回归模型最小二乘法SPSS求解显著性检验环境应用第5章环境系统聚类分析聚类分析概述聚类要素的数据处理距离的计算系统聚类分析的常用方法SPSS计算方法环境应用环境系统聚类分析什么是聚类俗话说:“物以类聚,人以群分。”什么是聚类聚类(Clustering)就是将数据分组成为多个类(Cluster)。在同一个类内对象之间具有较高的相似度,不同类之间的对象差别较大。什么是聚类早在孩提时代,人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗,动物和植物,男人和女人。环境中如水质分类,污染类型,处理方法聚类分析无处不在在商业上聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征。在生物上聚类分析被用来动植物分类和对基因进行分类,获取对种群固有结构的认识在地理上聚类能够帮助在地球中被观察的数据库商趋于的相似性在保险行业上聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组在电子商务上聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面,通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,可以更好的帮助电子商务的用户了解自己的客户,向客户提供更合适的服务。聚类分析无处不在在环境上环境问题如何归类和分析已成为环境科学的一项重要课题。根据确定的标准对环境问题进行分级、分类,需要用到聚类分析。•根据对象间的相关程度进行类别的聚合。•在进行聚类分析之前,这些类别是隐蔽的,能分为多少种类别事先也是不知道的。聚类分析的基本思想聚类分析的原则是同一类中的个体有较大的相似性,不同类中的个差异很大。聚类分析的基本思想样本聚类-Q型变量聚类-R型儿童生长发育研究中,形态学为主指标归为一类,机能为主指标归为另一类聚类分析又分为样本聚类和变量聚类解剖学上根据骨骼大小形状,以确定样本是人是猿,性别、年龄等常用的统计量有距离系数和相似系数距离系数相似系数聚类分析原理介绍相似性Similar的度量(统计学角度)距离Q型聚类(主要讨论)主要用于对样本分类常用的距离有(只适用于具有间隔尺度变量的聚类):•明考夫斯基距离(包括:绝对距离、欧式距离、切比雪夫距离)•兰氏距离•马氏距离•斜交空间距离•此不详述,有兴趣可参考《应用多元分析》(第二版)王学民相似系数R型聚类用于对变量分类,可以用变量之间的相似系数的变形如1-rij定义距离这里不详细介绍这种聚类度量方法在聚类分析中,聚类要素的选择是十分重要的,它直接影响分类结果的准确性和可靠性。因此当分类要素的对象确定之后,在进行聚类分析之前,首先要对聚类要素进行数据处理。二、聚类要素的数据处理CODNH4+-NTP色度pH金属离子Cl-1000-10000mg/L1-40mg/L0-5mg/L100-500度5-910-200mg/L20-300mg/L总和标准差标准差标准化极大值标准化极差标准化数据处理方法例1以长江流域水环境数据为例,1993年1月份6个站点水环境监测指标实测值如下表所示。表11993年1月份各站点水环境监测指标实测值(单位:mg/L)各站点指标溶解氧高锰酸钾指数BOD5NH3-N挥发酚攀枝花10.00.82.00.100.003高场10.51.31.80.160.002津市10.41.91.20.160.003长沙8.82.31.10.720.002中山桥13.03.52.90.300.019宣城13.42.32.40.020.005聚类要素的数据处理方法①总和标准化。分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即这种标准化方法所得到的新数据满足),,2,1;,,2,1(1njmixxxmiijijijmiijnjx1),,2,1(1各站点指标溶解氧高锰酸钾指数BOD5NH3-N挥发酚攀枝花10.00.82.00.100.003高场10.51.31.80.160.002津市10.41.91.20.160.003长沙8.82.31.10.720.002中山桥13.03.52.90.300.019宣城13.42.32.40.020.005各站点指标溶解氧高锰酸钾指数BOD5NH3-N挥发酚攀枝花高场津市长沙中山桥宣城10.00.15130.06610.17540.06850.08820.15890.10740.15790.10960.05880.15730.15700.10530.10960.08820.13310.19010.09650.49320.05880.19670.28930.25440.20550.55880.20270.19010.21050.01370.14710.151366.1总和标准化②标准差标准化,即由这种标准化方法所得到的新数据,各要素的平均值为0,标准差为1,即有),,2,1;,,2,1(njmisxxxjjijij1)(101121mijijjmiijjxxmsxmx各站点指标溶解氧高锰酸钾指数BOD5NH3-N挥发酚攀枝花10.00.82.00.100.003高场10.51.31.80.160.002津市10.41.91.20.160.003长沙8.82.31.10.720.002中山桥13.03.52.90.300.019宣城13.42.32.40.020.005各站点指标溶解氧高锰酸钾指数BOD5NH3-N挥发酚攀枝花高场津市长沙中山桥宣城10.0-0.6186-1.42590.1581-0.6257-0.4411-0.3144-0.8400-0.1581-0.3637-0.6065-0.3752-0.1368-1.1068-0.3637-0.4411-1.34870.3320-1.26492.0814-0.60651.20671.73841.58110.24762.20531.45010.33200.7906-0.9750-0.1103-1.0211.02平均值标准差1.644-0.6186=标准差标准化③极大值标准化,即经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1。),,2,1;,,2,1(}{maxnjmixxxijiijij各站点指标溶解氧高锰酸钾指数BOD5NH3-N挥发酚攀枝花10.00.82.00.100.003高场10.51.31.80.160.002津市10.41.91.20.160.003长沙8.82.31.10.720.002中山桥13.03.52.90.300.019宣城13.42.32.40.020.005各站点指标溶解氧高锰酸钾指数BOD5NH3-N挥发酚攀枝花高场津市长沙中山桥宣城10.00.74630.22860.68970.13890.15790.78360.37140.62070.22220.10530.77610.54290.41380.22220.15790.65670.65710.37931.00000.10530.97011.00001.00000.41671.00001.00000.65710.82760.02780.26320.746313.4选出最大值极大值标准化④极差的标准化,即经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间。),,2,1;,,2,1(minmaxminnjmixxxxxijiijiijiijij各站点指标溶解氧高锰酸钾指数BOD5NH3-N挥发酚攀枝花10.00.82.00.100.003高场10.51.31.80.160.002津市10.41.91.20.160.003长沙8.82.31.10.720.002中山桥13.03.52.90.300.019宣城13.42.32.40.020.005各站点指标溶解氧高锰酸钾指数BOD5NH3-N挥发酚攀枝花高场津市长沙中山桥宣城0.26090.00000.50000.11430.05880.36960.1852-0.61110.20000.00000.34780.4074-0.66670.20000.05880.00000.5556-5.72221.00000.00000.91301.00001.61110.40001.00001.00000.55560.27780.00000.17650.26094.6极差的标准化相减1.2距离的示意图样品1样品2样品n三、距离的计算常见的距离有①绝对值距离②欧氏距离③明科夫斯基距离),,2,1,(1mjixxdnijkikij),,2,1,()(12mjixxdnkjkikij),,2,1,(11mjixxdpnkpjkikij④切比雪夫距离。当明科夫斯基距时,有),,2,1,(maxmjixxdjkikkij(3.4.8)p例1以长江流域水环境数据为例,1993年1月份6个站点水环境监测指标实测值如下表所示。表11993年1月份各站点水环境监测指标实测值(单位:mg/L)各站点指标溶解氧高锰酸钾指数BOD5NH3-N挥发酚攀枝花10.00.82.00.100.003高场10.51.31.80.160.002津市10.41.91.20.160.003长沙8.82.31.10.720.002中山桥13.03.52.90.300.019宣城13.42.32.40.020.005各站点指标溶解氧高锰酸钾指数BOD5NH3-N挥发酚攀枝花高场津市长沙中山桥宣城-0.6186-1.42590.1581-0.6257-0.4411-0.3144-0.8400-0.1581-0.3637-0.6065-0.3752-0.1368-1.1068-0.3637-0.4411-1.34870.3320-1.26492.0814-0.60651.20671.73841.58110.24762.20531.45010.33200.7906-0.9750-0.1103绝对值距离),,2,1,(1mjixxdnijkikij0.30420.58600.31620.26200.16541.6338欧式距离),,2,1,()(12mjixxdnkjkikij0.09250.34340.10000.06860.02740.7949各站点指标溶解氧高锰酸钾指数BOD5NH3-N挥发酚攀枝花高场津市长沙中山桥宣城-0.6186-1.42590.1581-0.6257-0.4411-0.3144-0.8400-0.1581-0.3637-0.6065-0.3752-0.1368-1.1068-0.3637-0.4411-1.34870.3320-1.26492.0814-0.60651.20671.73841.58110.24762.20531.45010.33200.7906-0.9750-0.1103绝对值距离1.63380000.09783.54067.81335.59925.41393.50000.04532.114026.92616.99322.90000.02108.47582.57834.60000.08780.10594.30000.06338.10000.0)(661ijdD最短距离法直接聚类法最远距离法聚类分析三方法1、直接聚类法原理先把各个分类对象单独视为一类,然后根据距离最小的原则,依次选出一对
本文标题:环境统计学第五章系统聚类分析
链接地址:https://www.777doc.com/doc-6571497 .html