您好,欢迎访问三七文档
数据统计及分析相关及回归分析数据分布特征软件应用2数据分布特征集中趋势离中趋势偏态及峰态Excel应用36912调和平均数3算术平均数•简单算术平均数•加权平均数算术平均数的性质:数据分布集中趋势位置平均数4•众数一组数据中出现次数最多的变量值•中位数居于数列中间位置的变量值(若有偶数个变量,则取中间两个变量的平均值)几何平均数•对于未分组数据•对于分组数据适于计算平均比率或平均发展速度数据分布集中趋势5集中趋势众数、中位数和算术平均数的关系•正偏态(右偏态)分布:众数最小,中位数居中,算术平均数最大•负偏态(左偏态)分布:众数最大,中位数居中,算术平均数最小对称左偏右偏0.50.40.30.20.10偏态分布图数据分布集中趋势•集中趋势指一组数据向其中心靠拢的倾向,测度集中趋势就是寻找数据一般水平的代表值或中心值。•算术平均数,调和平均数,几何平均数,位置平均数(众数,中位数)6全距离中趋势•离中趋势考察变量间的差异状况•全距,异众比率,四分位差,平均差,方差与标准差数据分布离中趋势•R=最大值-最小值异众比率•指非众数的频数占总频数的比率7总体方差和标准差平均差•各个变量值与其算术平均数离差的绝对值的平均数数据分布离中趋势样本方差和标准差8为什么样本方差是除以n-1而不是n呢?自由度无偏估计首先,用真正的(Xi-μ)^2来看,方差本应该是与μ的差,而不是样本均值的差,增加一个数,就多一个(Xi-μ)^2,这n个数据与μ是无关的,就该是n个这相加后除n。也就是自由度是n。但是,用样本均值来减,从这来看X1+X2+...+Xn=nX,这个地方也就是说n个数据与X相关,这就少了一个自由度,从而,用(Xi-X)^2计算时,会少了一个原本(Xi-μ)^2。故除n-1。另外,这里涉及到一个无偏估计的概念,是随机变量,同样也是随机变量,其中是对X总体的一个估计,如果的期望分别等于的话,就说这种估计是无偏的。通过计算可证明数据分布离中趋势9偏态•偏态是指数据分布的不对称性。•皮尔逊测度法:利用算术平均数与众数的关系来测度偏斜程度的一种方法0,右偏;0,左偏;=0,呈对称分布。•中心矩法:用标准差的三次方除以三阶中心矩计算偏态系数的一种方法数据分布形状三阶中心矩10峰度•峰度:以正态分布曲线为标准,是反映分布曲线顶峰尖锐程度的特征值•峰度系数:数据分布形状当=0时,分布曲线为正态曲线;当0时,分布曲线为高峰曲线,表明变量值的差异程度小,平均数的代表性好;当0时,分布曲线为低峰曲线,表明变量值的差异程度大,平均数的代表性差。11正态分布则随机变量X服从均值为μ、方差为σ2的正态分布,记为X~N(μ,σ2)如果连续性随机变量X的密度函数为:标准正态分布μ=0,σ2=1σ=0.5σ=2σ=1f(x)正态分布由C.F.Gauss作为描述误差相对频数分布的模型而提出,故称高斯分布或误差分布3σ法则设X~N(0,1),则P(|X|≤1)=0.6872;P(|X|≤2)=0.9545;P(|X|≤3)=0.9973抽样分布12Excel应用SKEW(n1,n2,……)0对称,正值右偏,负值左偏平均数AVERAGE(n1,n2,……)切尾均值去掉指定比率的较大较小数值,然后计算算术平均数TRIMMEAN(array,percent)中位数MEDIAM(n1,n2,……)偏态系数FREQUENCY(data_array,bins_array)公示必须以数组形式输入,ctrl+shift+enter频数MODE(n1,n2,……)众数KURT(n1,n2,……)0正态,正值尖峰,负值平峰峰度系数STDEVP(n1,n2,……)标准差VARP(n1,n2,……)总体方差数据分特征13Excel应用——FREQUENCY数据分特征含义:以一列垂直数据返回某个区域中数据的频率分布。语法:FREQUENCY(data_array,bins_array)Data_array为一数组或对一组数值的引用,即需要被分析的数据。Bins_array为间隔的数组或对间隔的引用,即断点。用法:1.选中比断点数多1的格数的空白区域,输入公式,如右上图所示;2.按下Ctrl+Shift+Enter即可。示例:如右下图所示,A列为要分析的数据(未完全显示),B列为断点,C列为结果。C列中4表示A列≤1的数据个数,11表示≤3且1的数据个数,9表示≤5且3的数据个数,5表示5的数据个数。14数据拟合相关回归软件应用15171915世间万事万物总是或多或少存在着不同程度的联系从数据分析角度看,这些相关大致可分为:函数关系,统计关系。统计关系所表现的关系无法用一个确定的函数公式描述,具有普遍性与不确定性。用怎样的方式测度事物间的统计关系,如何通过简单、直观的指标反映统计关系的强弱程度等,是我们值得关注与思考的问题。相关分析及回归分析相关关系单相关复相关偏相关完全相关不完全相关不相关线性相关非线性相关正相关负相关相关关系虚假相关真实相关按变量多少划分按相关程度划分按相关形式划分按相关方向划分按相关性质划分•相关表和相关图(散点图)•相关系数相关关系的测度16相关系数只能用来测度数据间的线性关系,并且会收到数据中异常值的影响,应用中应结合散点图进行分析r=1,表示x与y之间完全正相关,对应点在一条直线上;r=-1,表示x与y之间完全负相关,对应点也在一条直线上;r0,此种情况很少,表示变量间不存在任何相关关系。相关分析及回归分析Excel中,CORREL和PEARSON两个函数可计算相关系数。17相关分析与回归分析相关关系与函数关系•函数关系:变量之间存在的严格确定的依存关系•相关关系:变量之间客观存在的非严格确定的依存关系相关分析及回归分析•相关分析:研究变量之间相关的方向和相关的程度•回归分析:研究变量之间相互关系的具体形式18非线性回归一元线性回归•回归模型的基本形式:y=0+1x+•参数0和1的最小二乘估计:相关分析及回归分析•见Matlab回归分析的主要任务就是根据样本数据建立能够近似反映真实总体回归模型的样本回归模型。一般总是希望y的估计值^y从整体来看尽可能接近其实际观测值yi,即残差ei越小越好。•创建散点图•右键任意一个散点,选择添加趋势线Excel应用——简单数据拟合19相关分析及回归分析20利用cftool一元拟合MATLAB中一个强大的曲线拟合工具箱(CurveFittingToolbox)在MATLAB命令窗口运行cftool打开曲线拟合主界面可实现以下功能:1.导入数据;2.数据预处理,如数据筛选和平滑处理;3.数据拟合;4.生成相关结果,如置信区间等;5.数据后处理,如插值、积分等。使用方法参考附件1.21利用cftool一元拟合1.cftool(xdata,ydata);2.cftool(xdata,ydata,w);3.HeadData=xlsread(‘K:\实测\2010夏实测数据\数据\温湿度校准\绝对湿度\饱和水蒸汽压.xlsx’);HeadData=sortrows(HeadData,1);x=HeadData(:,1);y=HeadData(:,2);cftool%xdata为自变量观测值向量%ydata为因变量观测值向量%w为权重向量%从Excel文件中读取数据%为作图需要,将HeadData按第1列从小到大排序%提取第1列数据%提取第2列数据1.导入数据的三种方式22利用cftool一元拟合1.在“CurvingFittingTool”中点击“data”“XData”后选择x,“YData”中选择y点击“Createdataset”点击“Close”2.在“CurvingFittingTool”中点击“Fitting”在新打开的FitEditor(如右图所示)中点击“Newfit”3.在“Typeoffit”中选择拟合公式的类型,一般选择“Polynomial”(多项式函数)”nthdegreepolynomial”指多项式的最高次,在尽可能拟合的情况下选择较小值,一般5、6即可点击“Apply”在“Results”中可看到拟合公式,在“CurvingFittingTool”中可看到相应的拟合曲线,通过观察曲线拟合程度,重复步骤3,调整拟合方式,以达最优。另外,“CurvingFittingTool”中的“Exclude”“Plotting””Analysis”分别用于数据筛选、绘图控制、后处理,详见附件。2.数据拟合方法23统计学的主要内容通过降维技术把多个变量化为少数几个主成分的多元统计法参数估计与假设检验根据样本推断总体的分布类型及参数性质数据拟合用一个近似函数来表达变量间的关系一元线性回归分析一元非线性回归分析多重回归分析聚类分析根据数据特征将对象按一定规则分成若干类判别分析对未知类别的样品进行归类主成分分析为某一类别寻找公共因子因子分析24多变量分析主成分分析因子分析软件应用151719见minitab等相关书籍25参考数目背景资料的说明《统计学》C8231北京大学出版社《基于EXCEL的统计应用》C81997中国人民大学出版社《Excel在经济与数理统计中的应用》C81921中国电力出版社《MATLAB统计分析与应用:40个案例分析》C81981北京航空航天大学出版社《统计建模与R软件》C81957清华大学出版社《基于MINITAB的现代实用统计》C81968中国人民大学出版社与上一统计段比较,例如2005年7月份与2005年6月份相比较,叫环比。与历史同时期比较,例如2005年7月份与2004年7月份相比,叫同比。定基比是报告期水平与某一固定时期水平之比,表明这种现象在较长时期内总的发展速度。
本文标题:统计学&数据拟合
链接地址:https://www.777doc.com/doc-3204003 .html