您好,欢迎访问三七文档
SAS统计软件在化学教育上的应用摘要综合报道了世界上优秀统计软件SAS系统的特点,。在简述操作及编程入门至四环的基础上,例举了两个典型的化学教育研究中使用SAS系统进行数据分析的实例,旨在打通化学工作者在使用计算机高级语言编程中的障碍,以推广SAS系统在化学教育和科研中的应用。关键词:SAS系统数据分析化学教育主成分分析统计软件随着计算机应用和网络的发展,进入新世纪,人类迎来了信息时代。数据采掘和信息融合(DataMiningandDataFusion)已成为当今信息科学一个新的热点。化学这门以实验为基础的既古老又年轻的科学,恰恰又是一门信息量极大的科学。化学科学和化学教育在其漫长的发展历史中积存了浩如烟海的各种数据。因此,如何进行数据采掘亦或数据分析就成为现代化学工作者面临的一个重要任务。本文将要介绍的世界优秀统计软件SAS系统(StatisticalAnalysisSystem),在其数据采掘亦或数据分析方面具有卓越的功能,尤其是在极为重要的多元数据分析方面,比目前较为流行的MATLAB软件中的统计函数工具箱要丰富的多。它完全可以帮助化学工作者完成教育和科研中需要完成的复杂数据分析任务。考虑到当前化学工作者计算机应用现状,该软件在化学界应用至今仍较少,结合笔者近年来在化学教育和科研工作中使用SAS软件的经验和体会撰写本文,旨在推荐这一软件,推广SAS系统在化学教育上的应用,提高化学工作者计算机水平。1SAS系统操作入门1.1显示管理系统在windows环境下启动SAS系统后,就进入SAS显示管理系统。主要包括3个窗口。程序编辑(PROGRAMEDITOR,简称PRG)窗口、记录(LOG)窗口和输出(OUTPUT)窗口。启动SAS后,只显示前两个窗口,只有在系统运行某个程序过程,输出窗口才显示出来。程序窗口用于编辑SAS程序。当程序编好提交执行(单击工具行run图标即可)后,LOG窗口显示出执行的语句和执行中获得的信息,包括程序执行完成情况、变量的个数、CPU运行的时间等。若程序有错,则指出错误的地方及错误信息,并用红色字体显示。在OUTPUT窗口则显示SAS程序执行所输出的结果。1.2SAS系统操作使用特点SAS系统操作使用最大的特点就是十分简单。在视窗界面下,输入几个简单语句就可以完成其它搞基语言如QBASIC、FORTRAN、C语言需要几十甚至上百个语句才能完成的复杂的数据分析过程。这是因为几个函数语句命令就可完成复杂的运算任务。2SAS编程入门SAS程序由两个程序步组成。一个是建立数据集,用以讲数据输入到SAS系统,这一程序步称之为数据步(DATA步)。另一个是调用各种事先已编好的置于SAS程序库中的程序(称SAS过程),处理和分析数据集中的数据,这一程序步称之为过程步(PROC步)。2.1SAS程序数据步(DATA步)在SAS程序窗口下,直接输入数据,即可方便地建立一个SAS数据集。其基本语句形式是:DATAname;INPUTvariables;CARDS;dataline;RUN;DATAname语句的功能是指明将要建立的数据集的名称(name),可以使不超过8个字符的字符串,但第一个字符必须是英文字母。INPUTvariables语句的功能是指明数据集中变量的名称。与其它高级语言一样,变量可以是数值型变量,也可以是非数值型变量,但要在变量名称后空一格并写上,“$”号以指明为非数值型变量。CARDS语句的功能是表示后面将具体给出数据,数据输入完毕,一定要另起一行打入分号“;”,表示数据输入结束。RUN语句表示数据步(DATA步)语句结束(若下面还有PROC步,RUN语句可以省略)。2.2SAS程序过程步(PROC步)在SAS程序窗口下,编辑过程步(PROC步)的基本语句形式是:PROCSAS过程名[选择项];VARvariables;OUTPUTOUT=SASdatasetkeyword=name……;RUN;PROCSAS过程名[选择项]语句的功能是指定所需要调用的SAS过程及通过选项指明设计的统计量名称。SAS系统用于数据分析处理的过程涉及所有的统计方法,计八大类44个SAS过程。VARvariables语句的功能是定义分析变量。OUTPUTOUT语句的功能是将过程结果输出到新的数据集中,作为数据处理的输入。3SAS系统在化学教育数据分析中的应用举例例1某理工专业班(51)期末的普通化学考试成绩如下:436676884867768949687790516878925369798355587094577180976072816262728263738263748364748465748565758687.试对全班成绩作描述性统计分析(包括平均分、标准差、方差、变异系数、偏度和峰度)SAS程序如下:dataexma1;inputx@@;cards;436676884867768949687790……8687;Procunivariateplotnormal;Run;程序说明:如果数据中每一行有多于二组观测值,可在“INPUTvariables”后加“@@”,表明指针不换行依次读入各组观测值。procunivariate过程表示计算描述性统计量,程序运行结果:Mean(平均分):72.157;StdDeviation(标准偏差);12.724;g1(Skewness,偏度):-0.2254;S2(Variance,方差):161.895;CV(Coeffvariation,变异系数):17.634;g2(Kurtosis,峰度):-0.490.结果解释:偏度是度量数据分布是否偏向某一侧的统计指标。对于正态分布,因对称分布,g1=0.本例g1(Skewness,偏度):-0.54,等于负值,且数值不大(g2也不大),说明基本符合正态分布,但向左微偏。因此总的分析来看,本次普通化学考试质量较高,能反映了学生的实际成绩。例2用主成分分析方法考察研究学生普通化学学习与高等数学、普通物理学习情况的相互关系。有代表性地挑选某年级10名学生,其某阶段数学(x1)、物理(x2)、化学(x3)成绩已知(见程序中的数据集)。SAS程序如下:Dataexma2;Inputx1x2x3@@;Cards;655958587469817783867780747876878289817181806965787474696668;Procprincompcov;VarX1-X3Run;程序说明:procprincompcov语句表示从协方差矩阵出发作主成分分析。这里因为个变的度量单位(即分数)一致。否则应从相关矩阵出发作主成分分析。程序运行结果:均值向量:x=(75.972.774.3)特征值、主成分累计贡献率及正交化特征向量:Prin1prin2prin3X10.612843-0.7666470.191509X20.4222030.5225390.740742X30.6679580.373103-0.643915λ1=180.7910130.81970.8197λ2=33.2005510.15050.9702λ2=6.5751030.02981.0000结果解释:由程序运行结果可知,前两个主成分已包括原始变量总信息量的97%,因此取前两个主成分即可:y1=0.612843x1+0.422203x2+0.667958x3y2=—0.766647x1+0.522539x2+0.373103x3第一主成分y1是学生的数学(x1)、物理(x2)和化学(x3)三门课程的加权和,其中化学和数学的权重相近,且都比物理的权重大。当一名学生y1较大,可以推断他的三门课程基本上平行发展,因此这个主成分是学生综合能力亦或智力因子的反映,数学学习的好坏影响化学成绩。第二主成分y2的表达式中数学前的系数为负数,物理、化学前的系数均为正数。当一个学生的y2值较大,意味着物理、化学成绩较高,而数学成绩却不高,考虑到物理、化学成绩中实验内容部分成绩比重高达35%一40%,因此这个主成分是学生实验动手能力亦或实践能力因子的反映。可见通过主成分分析,在尽量减少原始数据中信息损失的前提下,用少数几个主成分可以把隐含在变量之间的关系揭示出来,并合理解释原始变量之间的相关性,是一种应用十分广泛的多元数据分析方法。其实不仅对化学教育研究,现有大部分化学计量学算法SAS系统也能实现,化学工作者完全可以通过学习掌握这一数据分析工具。参考文献:[1]范金城,梅长林.数据分析[M].北京:科学出版社,2002.352—384.[2]高惠璇实用统计方法与SAS系统[M].北京:北京大学出版社.2001.33l一36l[3]肖厚贞.庾名槐.XIAOHou-zhen.YUMing-huaiSAS在物理化学实验数据处理中的应用[期刊论文]-实验室研究与探索2009,28(5)[4]张波.林君.邵明武.李惕川.ZhangBo.LinJun.ShaoMingwu.LiTichuanSAS软件在多组分同时分析中的应用[期刊论文]-北京工业大学学报2000,26(4)[5]王志强SAS软件及其在数理统计上的应用[期刊论文]-技术与市场2011(6)
本文标题:SAS论文
链接地址:https://www.777doc.com/doc-5080663 .html