您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 能源与动力工程 > 统计模拟与R论文设计
统计模拟与R姓名:黄星飞学号:2012306202401院系:经管土管学院专业班级信管1201班日期:2013年5月20日R软件在非参数统计教学中应用的若干优点摘要:R软件是一种免费、开源的软件,它在统计分析、绘图等各领域中得到了广泛的应用,《非参数统计》是统计学中的一门介绍各种常用非参数统计方法的课程。本文首先介绍R软件的特点,然后结合作者自身教学实际,介绍它在《非参数统计》课程教学中应用R软件的几个优点。关键词:R软件;非参数统计;开源非参数统计主要介绍一些常用的不受总体分布约束的统计方法。它是统计学专业的--fl重要的专业必修课,应用性较强。这门课程在理论教学的同时。还要抓好实践教学。应该让学生能够利用计算机软件实现相关的非参数统计的方法。因而需要选用一种适合的统计软件。经过多个方面的考虑,最终本人选用了R软件作为教学软件.结果证明教学效果也比较好。下面结合R软件的部分性质与《非参数统计》课程的特点,介绍将R软件应用于非参数统计教学中的几点优点。1.R软件是一个完全免费的统计软件由于某些学校是一个处于偏远山区较为落后的高校.财力有限.没有能力购买如SPSS、SAS这些大型统计软件的正版。为r顺利开展一些统计学专业的课程教学,教师往往使用盗版的SPSS等软件。这样。有悖于国家对知识产权保护的政策。给国外人士留下中国人喜欢使用盗版的口实。并且盗版统计软件的可靠性也备受质疑,美国很多权威杂志就规定:凡是使用盗版统计软件所得列的数据分析结果的町信性将不被接受。受到商用统计软件价格过高的影响.出现了完全免费的统计分析软件一R软件。由于统计功能也很全面,逐渐为世界各地统计学家和统计专业师生所接受,目前该软件的用户增长速度很快。结合实际条件和教学需求,R软件是一个很自然的选择。2.R软件是一个开源的统计软件当然,免费并不意味着R软件统计功能少。在无人维护的情况下.失去发展潜力。它的资源和代码是公开的,意味着所有使用它的人都成为了维护人员,当有一种新的统计方法出现时,很快就会有用户编制相应的R程序,通过网络供全世界的其他用户使用。若经使用后发现问题,提出修改意见,其他用户可修lF相应的统计方法和R程序,最终得到最优的统计方法。与R软件相比,利用SPSS等软件添加一些新的统计方法,往往需要较长的时间周期。R软件的开源性也是选其作为《非参数统计》课程教学软件的一个重要因素。本课程涉及非参数统计方面的很多方法。也能利用SPSS、SAS软件来实现,但存在程序的不透明性。用户输入数据.一旦选择采用某种非参数统计的方法.马1-.就会出结果.这对于初学者来说不是问题,他们往往只要求得到结果即町.但对统计专业的人.却很难弄清楚这些非参数统计的方法是如何操作的.进一步地.若再实际应用中遇到类似的问题.需要对这些非参数统计的方法加以小的改进.来得到更准确的结果.利用SPSS等软件就很难做到。通过R软件.初学者可直接下载他人已经做好的R程序包.来实现大多数的统计方法.统计工作者也町以根据实际问题来编写适当的R程序.从而在R软件中分析数据,得到合理的结果。在《非参数统计》教学中,教师应鼓励学生在学习了某种非参数统计的方法后.参看R软件中该方法的R程序.来加深对此统计方法的理解。,由于资源共享.R软件中关于各统计方法的程序也是最多的.这也是将它应用'f非参数统计教学的优势.我们可以在多种非参数统计方法中.选择一种与实际数据的最适合的方法.进而得到最合理的结果,例如.对于非参数统计中完全区组设计的Friedman秩和检验、小样本时的精确P值和大样本时的近似P值这两个问题。都可以在R软件中寻找到相应程序计算出来.而在SAs中就只能计算近似P值,近似P值显然不太适合小样本情况。3.R软件的操作、输出方式适合课程教学从软件的操作方式考虑,R软件是一种程序语言,每步操作都需要输入命令行,这可能对初学者不太友好。但对于统计专业的人士来说,只需要对编程有一点了解。再加上具备一定的统计基础知识,编写R程序就会和写数学公式一样简单。而且若能熟练使用R软件,那么对于常用的统计方法、知识也应该是了然于胸了。在实践教学中,应要求学生能运用R软件编写简明的程序去求解教材中的实际问题,锻炼学生的动手能力,加深对知识的理解。从软件的输出方式考虑,一般统计软件往往会直接展示数据分析的所有结果,占用了大量空间,很难从中找到真正需要的结果,而R软件将会将这些结果存在在一个对象“object”里。在分析、执行结束后也不显示任何结果,那么,我们可通过一些命令,只显示需要的结果。我们可以很好的利用这一特点,如在非参数的统计中,让人感到困惑的是:现存有很多口r供选择的非参数检验方法,一个实际的非参数假设检验问题到底选用哪一种检验方法最好?当然,这是要根据实际情况来进行具体分析。譬如,町以比较各种非参数统计方法在这个实际的检验问题的数据下的P值,一般来说。对于不正确的零假设,在样本量相同时,效率商的检验往往给出较小的P值。因此.我们感兴趣只是利用各种非参数统计的方法分析相同的数据后,得到的对应的P值的大小,其它的结果无需显示。在R软件中就可以通过命令达到这个目的。例如,对于几种正态性检验方法。如K—S(Marsaglia)、K—S(Lilliefors)、Pearson卡方检验、Shapiro—Francia、Shapiro—Wilk。比较它们在进行正性检验时的效率,可采用方法:进行200次模拟。每次模拟分别产生出标准正态N(0,1)分布,参数为l的指数分布,Gamnm(1,2)分布,区间(1,2)均匀分布,t(1)分布,zz(1)分布和F(1,2)分布的30个随机数,并用这些检验方法进行零假设为正态分布的检验,只要求检验结果输出P值。对不同分布作出的模拟结果进行的各种检验的P值作出均值,以进行比较,利用R软件计算后得到的P值结果下表。检验N(1,O)Exp(1)г(1,2)U(1,2)t(1)X2(1)F(1,2)K—S(Marsaglia)0.9480.8020.7860.9480.5720.6850.454K—S(Lilliefors)0.5350.0570.0570.3240.0110.0042.54e-04Shapiro-Francia0.5110.0190.0110.2570.0040.0011.61e-05Shapiro-Wilk0.5170.0130.0070.1520.0070.0005.82e-06可以看出,当随机数产生于正态总体时,如所预期的,所有检验的P值都大于或接近0.5,不能拒绝零假设:当随机数产生于非正态分布的其他分布时,这时应该拒绝零假设。有些检验方法就表现的不太理想。总的来说,对于正态性检验,Shapiro—Wilk检验效率最好.而K—S检验和Pearson检验效率较低。因此.在处理实际问题时如需要检验正态性。应该避免使用K—s检验和Pearson检验.而应使用Shapiro—Wilk检验。在这个例子中,R软件的使用就是很必要的,可以使得我们能迅速得到每种检验方法在对应数据下的P值,而省去了其它所有不需要的检验分析结果。当然,在使用R软件教学的过程中,学牛还是存在一些问题,如基础差、不会编程的学生初学时会感觉较难;R软件中的函数较多。若缺乏相关的详细资料,学生很难自行通过查询掌握等。但是,从综合角度考虑,在非参数统计教学中使用R软件的优点更多,值得广大从事统计教学的教师参考借鉴、推广到其他一些统计专业课程的教学中,从而挖掘出R软件更多的用途。参考文献:[1]吴喜之,赵博娟.非参数统计.中国统计出版社,2009年11月.[2]闰朝晖.R软件在多元统计分析教学中的应用研究.科技创新导报,2011:157-158.
本文标题:统计模拟与R论文设计
链接地址:https://www.777doc.com/doc-5496588 .html