您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业文化 > 统计学原理及方法2环境数理统计
数理统计在环境科学中的应用(环境统计学)第二章统计学术语与统计描述主讲:张浩&杨晓英2012.09统计描述表现形式•直方图Histogram•偏度Skewness•峰度Kurtosis•离群值/异常值outlier•平均值95%置信限95%confidenceintervalforMean今天主要内容•1数据的集中分布趋势与离散趋势•2抽样分布数据的形态分布•3标准正态曲线概率累积图是如何绘制的?•4几种常用的正态分布检验方法直接由原始数据求中位数M例:某地空气污染监测8个采样点SO2浓度值(mg/m3)如下,求取中位数.0.420.310.20.20.180.170.10.03121222nnnnMxnxxM+⎛⎞⎜⎟⎝⎠⎛⎞⎛⎞+⎜⎟⎜⎟⎝⎠⎝⎠=+=当观察个数为奇数时当观察个数为奇数时例:根据某市大气监测SO2平均浓度计算P15,P65及P95.361sum100.03616325-47598.33553300-32597.53525275-30096.13476250-27594.53417225-25092.53349200-22590.032517175-20085.330830150-17577.027845125-15064.523363100-12547.11706475-10029.41066750-7510.8393925-50累计频率%累计频数天数fSO2浓度(ppm)由频数表计算中位数M和百分数Px2:;:;:;::LMMLinMLffLifnfL⎛⎞=+-⎜⎟⎝⎠∑∑中位数所在组段的下限中位数所在组段的组距中位数所在组段的频数总频数的各组段累计频数100::;:;:;:;::xLxxxxxxxLinxPLffPxLPiPfPxPnfL⎛⎞=+-⎜⎟⎝⎠∑∑第百分位数所在组段的下限所在组段的组距所在组段的频数所求的秩次总频数的各组段累计频数0246810121416182025-5050-7575-100100-125125-150150-175175-200200-225225-250250-275275-300300-325325-475组距%平均数\中位数与百分位数应用注意事项•中位数常用于描述偏态分布资料的集中趋势,既适用于分布末端无确定数据的资料,也适用于频数分布类型不明/未知的资料的描述;•对于正态分布资料,中位数,(算术)平均值,众数在理论上等同的;•对于对数正态分布资料,适宜用几何平均值描述其集中趋势;•百分位数(Percentile)常用于描述观察值在特定百分位置上的水平和分布特征,有较好的稳定性;但对于样本含量/容量过小的情况比较敏感,特别是靠近两端的百分位数不够稳定.0.00%2.00%4.00%6.00%8.00%10.00%12.00%14.00%16.00%18.00%20.00%25-5050-7575-100100-125125-150150-175175-200200-225225-250250-275275-300300-325325-475偏态分布曲线的判别与主要特征正偏态分布曲线FrequencyindaysMean=27.769Median=17Mode=6SO2平均浓度•极差/变距RangeRange=maximum-minimum•四分位数Quartile实质上为百分位数的简单划分.QL(Q1):下四分位数,QL=P25Median(Q2)QU(Q3):上四分位数,QU=P75四分位间距Quintilerange10N=VAR000016050403020100如何识别异常值概率密度函数分布类型•二项式分布BinomialDistribution•正态分布NormalDistribution•韦伯尔分布WeibullDistribution•对数正态分布LognormalDistribution•指数分布ExponentialDistributionVar1=48*50*normal(x,284.6667,63.7827)50100150200250300350400450024681012141618概率密度ΔxObservationnumber连续型随机变量的概率分布•对于任何一个随机变量X,它可能落在某一区间(x,x+Δx)内的概率为P(xXx+Δx),当Δx→0时,随机变量X在点x处的概率密度函数(densityfunction)为:()0()limxPxXxxfxx→+Δ=Δ正态分布概率密度函数3210-1-2-30.40.30.20.10.0XDensityDistributionPlotNormal,Mean=0,StDev=1对数正态分布概率密度函数8765432100.70.60.50.40.30.20.10.0XDensityDistributionPlotLognormal,Loc=0,Scale=1,Thresh=0均匀分布概率密度函数1.00.80.60.40.20.01.00.80.60.40.20.0XDensityDistributionPlotUniform,Lower=0,Upper=16543210-1-2-30.40.30.20.10.0XDensityDistributionPlotLargestExtremeValue,Loc=0,Scale=1最大极值分布概率密度函数3210-1-2-3-4-5-60.40.30.20.10.0XDensityDistributionPlotSmallestExtremeValue,Loc=0,Scale=1最小极值分布概率密度函数Logistic分布概率密度函数7.55.02.50.0-2.5-5.00.250.200.150.100.050.00XDensityDistributionPlotLogistic,Loc=0,Scale=1正态分布的概率密度函数22()21(),2,0xfxexmssps--=-∞+∞正态分布的概率累积函数•对于任何正态分布,落在任意区间(a,b)的随机变量x,则x的概率为22()21()()2xbbaaPaxbfxdxedxmssp--==∫∫•x的概率累积分布函数为22()21()2xxx-xxfzdxedxmssp-∞-∞=∫∫F()=P(X)=标准正态分布正态分布概率密度曲线22()21()2xxemsjsp--=误差分布概率密度曲线N~(μ,σ2)位置参数形状参数/精度参数221()2uxuxemsjsp--==N~(0,1)为什么要进行标准正态分布转化?,.,iixumsmsms-=正态分布概率累积分布曲线取决于和,理论上不同的分析体系都有其对应的和,对每一个体系进行概率运算是非常繁杂的工作通过转换可避免上述问题.标准正态分布的概率密度函数•对于标准正态分布,规定μu=0,σu=1,,xums-=设则22221(),21()2uuxx-fueuxxfxdxedxpsp--∞-∞=-∞+∞=∫∫F()=P(X)=对于标准正态分布的概率密度函数,如何得到以下两个关键参数?u=02us=1具体推导过程u=1niiun=∑1()niixnms=-=∑()nnnmms-=0=2us=21()niiuun=-∑221(2)niiuuuun=-+=∑21iniun==∑212()niixnms=-=∑22ss=1=标准正态分布的概率累积分布函数•对于落于任意区间(a,b)的累积分布函数为221()()2uuuPUuedup--∞Φ==∫()Paxb≤≤()abPummss--=≤≤2212buaedumsmsp---=∫22221122bauueduedummsspp-----∞-∞=-∫∫()()bammffss--=-00.050.10.150.20.250.30.350.4-4-3-2-101234U任一Ui对应的概率密度上侧分位数P(x=α)下侧分位数P(x=α)00.10.20.30.40.50.60.70.80.91-4-3-2-101234任一Ui对应的概率累积值标准正态分布的累积概率(查附表)Accumulativeprobabilityofstandardnormaldistributioncurve0%10%20%30%40%50%60%70%80%90%100%-4-3-2-1012340%10%20%30%40%50%60%70%80%90%100%-4-3-2-10123499.87%397.72%284.13%150%015.87%-12.28%-20.13%-3累积概率U3σ(3s)规则•对于符合正态分布的样本数据,通常有99.7%的数据落于mean±3s之间.•如果只进行有限次数的测定,则落在mean±3s之外的数据基本可以视为异常值(outlier)而舍去.环境噪声监测值73647459746077517852687067726473607454787973757072696764615556656269677270757379566265676971727475817169726874667562578071686973667463758258717073687466766384587476877173667068635970687068716771677364•Resultsfor:环境噪声测量值.MTWN=100•DescriptiveStatistics:噪声值•VariableMeanSES.D.C.V.Median•噪声值68.9900.6916.91410.0270.000•VariableSkewness•噪声值-0.31异常值检测示例删除异常值之后的情况再次剔除异常值之后的情况常用正态分布检验方法•偏度-峰度检验法•正态概率纸法•Q-Q图•X2检验法•柯尔莫哥洛夫检验法•夏皮罗-威尔克检验法•维斯捷利乌斯置信带检验法偏度-峰度检验法•直方图Histogram•偏度Skewness•峰度/峭度Kurtosis121=2gggSkewnessgKurtosisss=柯尔莫哥洛夫检验法原理:假设样本值符合正态分布,通过检验总体分布理论累积积分函数值F(xi)与样本经验分布累积积分函数值Fn(xi)是否相近来判断原先假设是否成立.如果理论假设值与样本经验分布累积值不一致,则可以拒绝原假设.检验步骤•1计算总体分布理论累积分布函数值F(xi):•2计算样本经验分布累积函数值Fn(xi):•3计算F(xi)与Fn(xi)的绝对偏差值Dn()()iiixxFxus⎛⎞-=Φ=Φ⎜⎟⎝⎠()inixFxn≤=样本中的测定值个数1max()(),()()nniiniiDFxFxFxFx-=⎡--⎤⎣⎦•若DnDα,n,则p=0.05,接受原假设;否则拒绝原假设显著性水平α和样本容量n均已确定情况下对应的临界值Xi必须事先按照由小到大进行排序柯尔莫哥洛夫检验法示例•某地土样中铅含量测定值如右表所示,请用柯尔莫哥洛夫检验法检验数据是否符合正态分布.12.01416.81513.11317.01217.51115.11018.6914.4814.879.366.3515.8412.5311.428.11铅含量μg/ml编号Mean=13.513SD=3.605柯尔莫哥洛夫检验结果D0.05,15=0.220(criticalvalue)对数正态分布如果待研究的总体中被测组分的含量变动范围很大,或者被测组分的分布很不均匀时,如岩矿中痕量组分、土壤中某些重金属的背景值以及气溶胶体积浓度等,测定值有时并不遵从正态分布,但它们的对数值遵从正态分布,称为对数正态分布。-2.7490.064-3.0370.048-3.3520.035-3.6500.026-3.7720.023-3.9120.02-3.9630.019-4.0170.018-4.2000.015-4.7110.009-4.8280.008-4.9620.007-6.2150.002Ln(Hg)Hg背景值
本文标题:统计学原理及方法2环境数理统计
链接地址:https://www.777doc.com/doc-922598 .html