基于R语言的数据分析方法

基于R语言的描述性统计分析方法对于数据的基本特征，要分析数据的集中位置，分散程度，数据分布。1.1位置的度量位置的度量指的是用来描述定量资料的集中趋势的统计量，常用的有均值、众数，中位数，百分位数等。（1）均值均值(mean)是数据的平均是，其定义为11niixxn，用于描述数据的平均位置。（2）中位数中位数（median）定义为数据排序位于中间位置的值，即122,11,22nenxmnxxnn为奇数为偶数中位数用于描述数据中心位置的数字特征。对于对称分布的数据，均值和中位数比较接近；对于偏态分布的数据，均值与中位数不同。中位数的又一显著特点是不受异常值的影响，具有稳健性。（3）百分位数百分位数（percentile）是中位数的推广，将数据从小到大的排序后，对于01p，则它的p分位数定义为：,其中[]np表示np的整数部分。1.2分散程度的度量表示数据分散程度的特征量有方差、标准差、极差、四分位极差、变异系数和标准误差。（1）方差、标准差、变异系数方差是描述数值取值分散性的一个度量，样本方差是相对于均值的偏差平方和的平均，记为2s，即([]1)()(1),1,2nppnpnpxnpmxxnp不是整数是整数22111niisxxn，其中x是样本的均值。样本方差的平方成为样本标准差，记为s，即22111niissxxn，变异系数是刻画数据相对分散的一种度量，记为CV,CV100(%)sx,它是一个无量纲的量，用百分数表示。与分散程度有关的统计量有下列数字特征：样本校正平方和：21CSSniixx，样本未校正平方和21USSniix.在R软件中，利用函数var()以及sd()求样本方差和样本准差。（2）极差与标准误差样本极差（记为R），计算公式为：()(1)max()min()nRxxxx，样本极差是描述样本分散性的数字特征，当数据越分散，其极差越大。样本上、下四分位数之差成为四分位差（或半极差）记为1R，即131RQQ它是度量样本分散性的重要数字特征，特别对于具有异常值的数据，他作为分散性具有稳健性，因此它在稳健性数据分析中具有重要作用。样本标准误差（记为ms），定义为211(1)nmiissxxnnn1.3分布形状的度量（1）偏度系数样本的偏度系数（记为1g）的计算公式为2331331(1)(2)(1)(2)niinngxxnnsnns，其中s为标准差，3为样本的3阶中心距，即3311niixxn。偏度系数是刻画数据的对称性指标，关于均值对称的数据其偏度系数为0，右侧更分散的数据偏度系数为正，左侧更分散的数据偏度系数为负。（2）峰度系数样本的峰度系数（记为2g），计算公式为242412244(1)(1)3(1)(2)(3)(2)(3)(1)(1)3(1)(2)(3)(2)(3)niinnngxxnnnsnnnnnnnnsnn，其中s为标准差，4为样本的3阶中心距，即4411niixxn。当数据的总体分布为正态分布时，峰度系数近似为0,；当分布为正态分布的尾部更分散时，峰度系数为正；否则为负。当峰度系数为正时，两侧极端数据较多，当峰度系数为负时，两侧极端数据较少。1.4代码实现下面编写一个描述性统计的函数，程序名为data_outline.R，以方便计算样本的各种描述性统计量。主函数：data_outline.Rdata_outline-function(x){n-length(x)m-mean(x)v-var(x)#方差s-sd(x)#标准差me-median(x)#中位数dataquan-quantile(x,probs=seq(0,1,0.25),na.rm=FALSE)#seq用于确定是分位数的概率cv-100*s/m#变异系数css-sum((x-m)^2)#样本校正平方和uss-sum(x^2)#样本未校正平方和R-max(x)-min(x)#样本极差R1-quantile(x,3/4)-quantile(x,1/4)#四分位差sm-s/sqrt(n)#标准极差g1-n/((n-1)*(n-2))*sum((x-m)^3)/s^3#偏度系数#峰度系数g2-((n*(n+1))/((n-1)*(n-2)*(n-3))*sum((x-m)^4)/s^4-(3*(n-1)^2)/((n-2)*(n-3)))data.frame(N=n,Mean=m,Var=v,std=s,Median=me,std_mean=sm,CV=cv,CSS=css,USS=uss,R=R,R1=R1,Skewness=g1,Kurtosis=g2,row.names=1)}调用函数data_outline.R#加载数据load(D:/RStudio/R_code/homework_analysis_stastic/RABE5.RData)write.csv(P088,file=lode_data.csv)data-read.csv(lode_data.csv,header=TRUE)data01-data[,8]#根据编写的函数进行求解source(data_outline.R)data_outline(t(data01))1.4结果分析利用R软件，对51名职工的销售额进行统计分析，其结果见表2。从表2可看出，51名职工的销售额的平均值为121.5412，反映了销售额取值的平均水平。该批职工的销售额中位数为119，反映了销售额的中心位置。样本方差、样本标准差、变异系数分别为1028.509，32.07037，26.38643%，反映了职工销售额的分散程度和变异程度。极差和标准误分别为200.2，4.490751，反映了职工销售额的分散性程度。样本的偏度系数为2.28209，说明职工销售额右侧更加分散，峰度系数为7.906113，说明样本两侧极端数据较多。表1Sales数据描述性统计分析结果N均值中位数方差标准差CSSUSS51121.54121191028.50932.0703751425.44804810.6变异系数极差四分位差标准误偏度系数峰度系数26.38643200.219.24.4907512.282097.906113

基于R语言的数据分析方法

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

石油化工的一些词汇解释

人生策划之人生成功的秘诀

瑞安市人民医院医疗安全管理办法

南京新湖仙林翠谷项目春季房展会执行方案-50PPT

体系管理科科长岗位说明书

政府与非营利组织会计3-4

第九章第一、二节流动资产货币资金和应收款

中国石油健康安全环境管理体系

媒介术语与基础

禁毒教育主题班会教案

相关文档

相关搜索

基于R语言的数据分析方法

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

石油化工的一些词汇解释

人生策划之人生成功的秘诀

瑞安市人民医院医疗安全管理办法

南京新湖仙林翠谷项目春季房展会执行方案-50PPT

体系管理科科长岗位说明书

政府与非营利组织会计3-4

第九章 第一、二节 流动资产货币资金和应收款

中国石油健康安全环境管理体系

媒介术语与基础

禁毒教育主题班会教案

相关文档

相关搜索

第九章第一、二节流动资产货币资金和应收款