您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业文化 > 基于R语言的数据分析方法
基于R语言的描述性统计分析方法对于数据的基本特征,要分析数据的集中位置,分散程度,数据分布。1.1位置的度量位置的度量指的是用来描述定量资料的集中趋势的统计量,常用的有均值、众数,中位数,百分位数等。(1)均值均值(mean)是数据的平均是,其定义为11niixxn,用于描述数据的平均位置。(2)中位数中位数(median)定义为数据排序位于中间位置的值,即122,11,22nenxmnxxnn为奇数为偶数中位数用于描述数据中心位置的数字特征。对于对称分布的数据,均值和中位数比较接近;对于偏态分布的数据,均值与中位数不同。中位数的又一显著特点是不受异常值的影响,具有稳健性。(3)百分位数百分位数(percentile)是中位数的推广,将数据从小到大的排序后,对于01p,则它的p分位数定义为:,其中[]np表示np的整数部分。1.2分散程度的度量表示数据分散程度的特征量有方差、标准差、极差、四分位极差、变异系数和标准误差。(1)方差、标准差、变异系数方差是描述数值取值分散性的一个度量,样本方差是相对于均值的偏差平方和的平均,记为2s,即([]1)()(1),1,2nppnpnpxnpmxxnp不是整数是整数22111niisxxn,其中x是样本的均值。样本方差的平方成为样本标准差,记为s,即22111niissxxn,变异系数是刻画数据相对分散的一种度量,记为CV,CV100(%)sx,它是一个无量纲的量,用百分数表示。与分散程度有关的统计量有下列数字特征:样本校正平方和:21CSSniixx,样本未校正平方和21USSniix.在R软件中,利用函数var()以及sd()求样本方差和样本准差。(2)极差与标准误差样本极差(记为R),计算公式为:()(1)max()min()nRxxxx,样本极差是描述样本分散性的数字特征,当数据越分散,其极差越大。样本上、下四分位数之差成为四分位差(或半极差)记为1R,即131RQQ它是度量样本分散性的重要数字特征,特别对于具有异常值的数据,他作为分散性具有稳健性,因此它在稳健性数据分析中具有重要作用。样本标准误差(记为ms),定义为211(1)nmiissxxnnn1.3分布形状的度量(1)偏度系数样本的偏度系数(记为1g)的计算公式为2331331(1)(2)(1)(2)niinngxxnnsnns,其中s为标准差,3为样本的3阶中心距,即3311niixxn。偏度系数是刻画数据的对称性指标,关于均值对称的数据其偏度系数为0,右侧更分散的数据偏度系数为正,左侧更分散的数据偏度系数为负。(2)峰度系数样本的峰度系数(记为2g),计算公式为242412244(1)(1)3(1)(2)(3)(2)(3)(1)(1)3(1)(2)(3)(2)(3)niinnngxxnnnsnnnnnnnnsnn,其中s为标准差,4为样本的3阶中心距,即4411niixxn。当数据的总体分布为正态分布时,峰度系数近似为0,;当分布为正态分布的尾部更分散时,峰度系数为正;否则为负。当峰度系数为正时,两侧极端数据较多,当峰度系数为负时,两侧极端数据较少。1.4代码实现下面编写一个描述性统计的函数,程序名为data_outline.R,以方便计算样本的各种描述性统计量。主函数:data_outline.Rdata_outline-function(x){n-length(x)m-mean(x)v-var(x)#方差s-sd(x)#标准差me-median(x)#中位数dataquan-quantile(x,probs=seq(0,1,0.25),na.rm=FALSE)#seq用于确定是分位数的概率cv-100*s/m#变异系数css-sum((x-m)^2)#样本校正平方和uss-sum(x^2)#样本未校正平方和R-max(x)-min(x)#样本极差R1-quantile(x,3/4)-quantile(x,1/4)#四分位差sm-s/sqrt(n)#标准极差g1-n/((n-1)*(n-2))*sum((x-m)^3)/s^3#偏度系数#峰度系数g2-((n*(n+1))/((n-1)*(n-2)*(n-3))*sum((x-m)^4)/s^4-(3*(n-1)^2)/((n-2)*(n-3)))data.frame(N=n,Mean=m,Var=v,std=s,Median=me,std_mean=sm,CV=cv,CSS=css,USS=uss,R=R,R1=R1,Skewness=g1,Kurtosis=g2,row.names=1)}调用函数data_outline.R#加载数据load(D:/RStudio/R_code/homework_analysis_stastic/RABE5.RData)write.csv(P088,file=lode_data.csv)data-read.csv(lode_data.csv,header=TRUE)data01-data[,8]#根据编写的函数进行求解source(data_outline.R)data_outline(t(data01))1.4结果分析利用R软件,对51名职工的销售额进行统计分析,其结果见表2。从表2可看出,51名职工的销售额的平均值为121.5412,反映了销售额取值的平均水平。该批职工的销售额中位数为119,反映了销售额的中心位置。样本方差、样本标准差、变异系数分别为1028.509,32.07037,26.38643%,反映了职工销售额的分散程度和变异程度。极差和标准误分别为200.2,4.490751,反映了职工销售额的分散性程度。样本的偏度系数为2.28209,说明职工销售额右侧更加分散,峰度系数为7.906113,说明样本两侧极端数据较多。表1Sales数据描述性统计分析结果N均值中位数方差标准差CSSUSS51121.54121191028.50932.0703751425.44804810.6变异系数极差四分位差标准误偏度系数峰度系数26.38643200.219.24.4907512.282097.906113
本文标题:基于R语言的数据分析方法
链接地址:https://www.777doc.com/doc-7266087 .html