您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 交通运输 > 【清华】04-环境数据分析方法-2-727907714
环境数据处理与数学模型环境数据分析方法董欣环境系统分析教研所2015年3月4日01020304基本概念数据处理与展示描述性统计二总体的假设检验05060708回归分析主成分分析聚类分析时间序列分析数据挖掘/大数据介绍(邀请讲座,待定)数据清洗定类/定序变量的处理与展示定距/定比变量的处理与展示多元变量的处理与展示数据清洗重复数据的处理•重复数据查找:开始条件格式突出显示单元格规则重复值•重复数据删除:数据数据工具删除重复项缺失数据的处理•缺失值定位:开始编辑定位条件空值•缺失值处理:直接剔除;用样本的平均值代替缺失值;用统计模型计算的值代替;保留缺失值的记录,在相应的分析中做必要的排除定类数据的处理与展示频数/频率(Frequency):落在某一特定类别中的个体个数/个数占总体的比例展示:频数/频率表、条形图/直线图、饼状图类别频数大一80大二30大三10大四5各年级参加暑期社会实践人数的频数定序数据的处理与展示频数/频率、频数/频率分布累积频数(CumulativeFrequencies):将各有序了类别的频数逐级累加起来得到的频数累积频率:将各有序类别的频率逐级累加展示:累积频率/频数表、累积频率/频数图、Pareto图2013年我国地表水水质状况Pareto图定序数据的处理与展示累积频率图铅浓度(mg/L)累积频率(%)2.002.923.964.985.9206.9527.9688.9849.99210.99811.9100横轴:铅浓度纵轴:铅浓度低于横轴上给定浓度时的天数百分比(累积频率)定序数据的处理与展示累积频率图铅浓度(mg/L)累积频率(%)2.002.923.964.985.9206.9527.9688.9849.99210.99811.9100205.9第P个百分点:跟纵轴上P%相对应的横轴上的数值例如:5.9mg/L对应第20个百分点,有80%的天数,排放超过了5.9mg/L定距/定比数据的处理与展示基于分组的•根据需求,将原始数据按照某种标准划分成不同组别•通常用组中值作为该组数据的代表值•一般要求所选取的各组间距是等宽的,使得频数大小具有较好的可比性•如果分组个数太少,会丢失很多信息;如果分组个数太多,会保留过多细节,对原始数据表达形式的改进不大•合理选取分组的边界值,边界值不重叠,避免在把观测值分配到各组时产生含糊不清的问题定距/定比数据的处理与展示展示:直方图(Histogram)•用矩形的宽度和高度(即面积)来表示频数分布图组数据的代表值•用于连续变量,长方形间没有间隙•代表频数/频率的是长方形的面积,不能误认为是长方形的高度•长方形高度的真正含义:代表频数/频率密度(FrequencyDensity)即:沿着横轴每一个单位长度对应的频数/频率铅浓度频数2.0~2.913.0~3.924.0~4.915.0~5.966.0~6.9167.0~7.988.0~8.989.0~9.9410.0~10.9311.0~11.91监测到某工厂排放污水中铅的浓度(mg/L):2.5,3.4,3.8,4.8,5.1,5.1,5.4,5.7,5,8,5.6,6.0,6.2,6.1,6.5,6.7,6.9,6.8,6.5,6.0,6.1,6.2,6.3,6.5,6.8,6.9,6.0,7.1,7.2,7.3,7.7,7.8,7.9,7.5,7.6,8.1,8.2,8.3,8.7,8.8,8.9,8.5,8.6,9.2,9.4,9.6,9.8,10.2,10.4,10.5,11.523456789101112铅浓度(mg/L)第一个长方形的底边是从1.95到2.95,第二个是从2.95到3.95,……铅浓度频数2.0~2.913.0~3.924.0~4.915.0~5.966.0~6.9167.0~7.988.0~8.989.0~9.9410.0~10.9311.0~11.91铅浓度频数2.0~2.913.0~3.924.0~4.915.0~5.966.0~6.9167.0~7.988.0~8.989.0~9.9410.0~11.9489101112面积相同定距/定比数据的处理与展示直方图与条形图/直线图的区别•条形图横轴是分开的,展示分类数据•直方图横轴是连续的,展示数值数据•条形图/直线图的高度表示各类数据的频数大小,条形图的宽度是固定的,没有数值意义,只是表示类别•直方图用面积表示各类数据的频数大小,高度代表每一类的频数密度,宽度表示各类的组距,均有意义定距/定比数据的处理与展示基于不分组的:茎叶图(StemandLeafPlot)•描述数据的分布形状和离散程度•树茎高度通常不超过[10*lgn]•与直方图比,茎叶图既能给出数据的分布情况,又能给出每一个原始数值,保留了数据信息树茎树叶25348485114678600011223555788997123567898123567899246810245115监测到某工厂排放污水中铅的浓度(mg/L):2.5,3.4,3.8,4.8,5.1,5.1,5.4,5.7,5,8,5.6,6.0,6.2,6.1,6.5,6.7,6.9,6.8,6.5,6.0,6.1,6.2,6.3,6.5,6.8,6.9,6.0,7.1,7.2,7.3,7.7,7.8,7.9,7.5,7.6,8.1,8.2,8.3,8.7,8.8,8.9,8.5,8.6,9.2,9.4,9.6,9.8,10.2,10.4,10.5,11.5定距/定比数据的处理与展示基于不分组的:箱式图(BoxPlot)•由一组数据的最大值、最小值、中位数和两个四分位数绘制而成•反应数据的分布多元变量的处理与展示数据清洗方法与单变量类似•重复数据处理•缺失数据处理多元数据的图形展示•立体图•气泡图•雷达图多元变量的处理与展示多元数据的图形展示多元变量的处理与展示多元数据的图形展示mg/LC1C2C3C4C5上游0.341.1365715中游2.178.020837743下游1.132.02691303031030040050(1)上游污染物排放量不多(2)5种污染物的主要污染源是在中游;(3)C3在下游肯定有污染排放要想控制此河流的污染,首先是对中游的污染源进行控制,其次是下游。集中趋势的度量离散程度的度量偏态与峰态的度量集中趋势的度量集中趋势(Centraltendency)也称中心趋势指一组数据向某一中心值靠拢或聚集的倾向反映了一组数据中心点的位置•定位测量低测量等级数据的集中趋势测度值适用于高测量等级的数据,反之,不亦然•选用哪一个测度值来反映数据的集中趋势,要根据数据的类型和特点集中趋势的度量众数(Mode)•一组数据中出现次数最多的变量值•主要用于定类/名义级变量,也适用于更高级别的变量•是一个位置代表值,不受数据中极端值的影响•对应频数分布的最高点数值众数众数无众数众数集中趋势的度量中位数(Median)•一组数据排序后处于中间位置上的变量值•中位数将全部数据等分为两部分,一部分比中位数大,一部分比中位数小•主要用于定序变量,也适用于更高级别的变量50%below50%upMedian设n个数据为:X1,X2,X3,…,Xn从小到大排列为:X(1)≤X(2)≤···≤X(n)当n为奇数时,Median=X((n+1)/2)当n为偶数时,Median==[X(n/2)+X(n/2+1)]/2集中趋势的度量分位数•与中位数类似,将全部数据等分的份数不同•四分位数(Quartile),十分位数(Decile),百分位数(Percentile)•将数据按从小到大的顺序排列,依次位于25%,50%和75%位置上的值为四分位数25%25%25%25%上四分位数下四分位数中位数集中趋势的度量分位数•与中位数类似,将全部数据等分的份数不同•四分位数(Quartile),十分位数(Decile),百分位数(Percentile)•将数据按从小到大的顺序排列,依次位于25%,50%和75%位置上的值为四分位数•当四分位数的位置不在某一个数值上,可根据四分位数的位置,按比例进行四分位数位置两侧数值插值获得660,750,780,850,960,1080,1250,1500,1630,2000四分位数位置:(9+1)/4=2.5(9+1)*3/4=7.5上四分位数:第2,3个数值之间0.5处位置上,(750+780)/2=815下四分位数:第7,8个数值之间0.5处位置上,(1500+1630)/1565集中趋势的度量平均数(Mean)•适用于区间级与比率级变量,不适用于定类与定序变量•一组数据的均衡点,易受极端值的影响•一组数据的重心所在111111niikiiikiiixxnxfxnxfmn样本数据的个数个体xi的频数样本中不同个体的个数样本分组的组数第i个分组的组中值第i个分组的频数集中趋势的度量众数、中位数和平均数的关系对称分布平均数=中位数=众数左偏分布平均数中位数众数右偏分布众数中位数平均数众数:一组数据分布的峰值,一种位置代表值,不受极端值影响,用于定类数据的集中趋势度量中位数:一组中间位置的代表值,不受极端值影响,用于定序数据的集中趋势度量平均数:受极端值影响,用于定距和定比数据的集中趋势度量,如果数据偏斜程度较大时,选择众数和中位数较好离散程度的度量反映数据远离其中心值的程度,也称离中趋势集中趋势对一组数据的代表程度取决于该组数据的离散水平•离散程度越大,集中趋势的测度值对该组数据的代表性就越差,反之,则代表性越好低测量等级数据的离散程度测度值适用于高测量等级的数据,反之,不亦然•选用哪一个测度值来反映数据的离散趋势,要根据数据的类型和特点离散程度的度量异众比率(Variationratio)•非众数组的频数占总频数的比率•主要用于衡量众数对一组数据的代表程度,异众比率越大,众数的代表性越差•主要用于定类数据,也可以用于更高测量级别的数据检出污染物频数S115S211S39S46S59合计50501570%50rV异众比率高,用S1反映水体的污染,代表性不是很好离散程度的度量四分位差(Interquartilerange)•上四分位数与下四分位数之差•反映了中间50%数据的离散程度,数值越小,说明中间的数据越集中•不受极值影响•由于中位数处于数据的中间位置,因此四分位差的大小在一定程度上说明了中位数对一组数据的代表程度•主要用于定序数据,也可以用于更高测量级别的数据,但不适合分类数据离散程度的度量极差(Range)•一组数据的最大值与最小值之差•容易受极端值的影响•只利用了一组数据两端的信息,不能反映出中间数据的分散状况平均差(Meandeviation)•各数据与其平均数差的绝对值的平均数•平均差以平均数为中心,反映了每个数据与平均数的平均差异程度•反映一组数据的离散状况,越大,离散程度越大max()min()iiRxx1||niidxMnx离散程度的度量方差(Variance)和标准差(Standarddeviation)•方差:各变量值与其平均数差的平方的平均数•标准差:方差的平方根•根据总体数据计算的,称为总体方差或总体标准差/n•根据样本数据计算的,称为样本方差或样本标准差/n-1221221221111niikiiikiiixxnfxxnfmxn221221221111111niikiiikiiiSxxnSfxxnSfmxn离散程度的度量当一组数据对称分布时:•约有68%的数据在平均数加减1个标准差的范围之内•约有95%的数据在平均数加减2个标准差的范围之内•约有99%的数据在平均数加减3个标准差的范围之内•3个标准差之外的数据统计上称之为异常值或离群点(Outlier)当一组数据不是对称分布时:•
本文标题:【清华】04-环境数据分析方法-2-727907714
链接地址:https://www.777doc.com/doc-6090863 .html