您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 85数据处理分析方法综述
1西华大学毕业论文第一章绪论马克思主义哲学告诉我们,世间一切事物都具有质和量两种规定性。质是事物的内在规定性,它是一切事物区别于其他事物的依据,质与事物是“直接同一”的,而且这种内在的质,又可“表现于外”,即在与其他事物的关联中表现出各种各样的“属性或特征”。量是事物所固有的、反映事物存在与发展的量方面特性的规定性(例如规模、程度、水平、速度、关系、结构比例、效率等)。这种量方面的规定性虽是客观存在地,但它与事物不具有“直接同一性”,即同一事物的量允许在一定范围内变动,而其“质”不会改变。由于事物的质与量统一于一定的“度”中,人类对事物的认识必须首先获得一定的质的认识,然后在此基础上,需要进一步去考察量,以求得对事物的“质”有更清晰、更准确的把握。这是认识的深化与精细化。只要我们对事物的量的规定性尚未达到精确程度之前,对质的认识都只能说是粗略的、不彻底的。我们认为,教育技术学研究资料统计处理的存在意义是通过对教育现象总体进行量的研究,以“量的规定性”去认识“质的规定性”。数据分析的方法很多,包括回归分析,方差分析,主成分分析,典型相关分析,判别分析,聚类分析等。数据分析需要处理大量的数据,进行复杂的运算,因此计算机和现代统计软件但是用似乎上必不可少的。MATLAB是用来处理数据分析中需要处理的大量数据的。MATLAB是美国MATHWORKS公司自20世纪80年代中期推出的数学软件,优秀的数值计算能力和卓越的数据可视化能力使其很快在数学软件中脱颖而出。到目前为止,其昀高版本7.1版已经推出。随着版本的不断升级,它在数值计算及符号计算功能上得到了进一步完善。MATLAB已经发展成为多学科、多种工作平台的功能强大的大型软件。MATLAB的主要特点是:有高性能数值计算的高级算法,特别适合矩阵代数领域;有大量事先定义的数学函数,并且有很强的用户自定义函数的能力;有强大的绘图功能以及具有教育、科学和艺术学的图解和可视化的二维、三维图;基于HTML的完整的帮助功能;适合个人应用的强有力的面向矩阵(向量)的高级程序设计语言;与其它语言编写的程序结合和输入输出格式化数据的能力;有在多个应用领域解决难题的工具箱。1.1研究背景在科学研究活动中,要得出定量的结论,必须运用数学语言。马克思指出:“一种科学只有在成功地运用数学时,才算达到了真正完善的地步”。学研究的计量化过程,经历过三个主要发展阶段,即从精确数学到随机数学,到现代的模糊数学。教育技术学研究资料统计处理技术,有机地结合了统计方法2西华大学毕业论文和统计软件及其在教育技术学研究中的应用。过去,有人将统计方法(尤其是高级统计方法)称为统计处理技术,但我们认为统计处理技术应当包括实现统计方法的数值计算和绘制图表的统计软件,以及使用这些统计软件的操作指令或操作步骤。统计处理能为教育技术学研究提供了大量的数据与资料,这还体现在数据的准确性、完整性与系统性上。通常我们利用统计处理技术,去除原始数据中的无效信息,在分析统计结果的基础上,确定关于某个研究问题的一般属性和特殊属性,从而去证实或证伪一个假设。1.2研究意义信息时代的工作中,我们大都要使用通用的或专门的软件分析数据。软件的大量应用有着深厚的数学理论背景。在理论研究中,大量的数据有着不同数据分析方法。数据分析就是分析和处理楚剧的理论与方法,从中获得有用的信息。从这个意义上讲,数据分析不存在固定的解决方法,分析和目的和分析的方法不同,会从同一数据中发觉出各种有用的信息。1.3目前常用的数据处理方法简述数据处理方法的理论:频率直方图、茎叶图、五数概括图、箱线图的含义和绘制方法;主成分分析方法;方差分析法;回归分析法;参数和非参数估计方法等。本文中运用图形和数据运算的方法对复杂的数据进行处理,如预处理中的频率直方图、茎叶图、五数概括图等,以及数据分析方法中的方差分析法;回归分析法等。1.4本文主要工作统计方法,是研究简缩数据并描述这些数据的统计方法。用数据处理方法的理论:频率直方图、茎叶图、五数概括图、箱线图的含义和绘制方法;主成分分析方法;方差分析法;回归分析法;参数和非参数估计方法等将搜集来的大量数据资料,加以整理、归纳和分组,简缩成易于处理和便于理解的形式,并计算所得数据的各种统计量,如平均数、标准差、以及描述有关事物或现象的分布情况、波动范围和相关程度等,以揭示其特点和规律。西华大学毕业论文第二章常用数据处理方法理论简介2.1主成分分析法主成分分析试图在力保数据信息丢失昀少的原则下,对这种多变量的截面数据表进行昀佳综合简化,也就是说,对高维变量空间进行降维处理。在力求数据信息丢失昀少的原则下,对高维的变量空间降维,即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。这些综合指标就称为主成分。假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为123,,......pxxxx,主成分分析就是要把这p个指标的问题,转变为讨论p个指标的线性组合的问题,而这些新的指标123,,......KFFFF(k≤p),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合iF。11112121212122221122ppppppppppFuXuXuXFuXuXuXFuXuXuX=+++=+++=+++满足如下的条件:222121iipiuuu+++=主成分之间相互独立,即无重叠的信息。即012ijCovFFijijp=≠=(,),,,,,,主成分的方差依次递减,重要性依次递减,即12()()pVarFVarFVarF≥≥≥()2.1.1第一主成分设X的协方差阵为3西华大学毕业论文2112122122212pppppσσσσσσσσσ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦xΣ###由于Σx为非负定的对称阵,则有利用线性代数的知识可得,必存在正交阵U,使得100pλλ⎡⎤⎢⎥′=⎢⎥⎢⎥⎣⎦XUΣU%其中λ1,λ2,…,λp为Σx的特征根,不妨假设λ1≥λ2≥…λ≥p。而U恰好是由特征根相对应的特征向量所组成的正交阵。111212122212(,,)ppppppuuuuuuuuu⎡⎤⎢⎥⎢⎥==⎢⎥⎢⎥⎢⎥⎣⎦1pUuu###()12iipiuuu′=iU,,,1,2,,iP=设有P维正交向量()111211,,,paaa′=a11111FaXaXpp′=++=aX121111()pVFλλλ⎡⎤⎢⎥⎢⎥′′=Σ=⎢⎥⎢⎥⎢⎥⎣⎦aaaUUa%1′⎤⎥⎥⎥⎥⎥⎦12pλλλ⎡⎤⎡′⎢⎥⎢⎢⎥⎢′⎡⎤⎢⎥⎢′=⎢⎥⎣⎦⎢⎥⎢⎢⎥⎢′⎣⎦⎣u1u2au,u,,ua12p11up%#2()1piiiλ∑′==au1piiiiλ∑′′==auua11piiiλ=′′=∑auua211()piiλ=′≤∑au1λ′′=aUUa1λ′=aa1λ=4西华大学毕业论文当且仅当时,即1au=111111ppFuXuX=++时,有昀大的方差1λ。因为Var()=Σx=λ11F1u1u2.1.2第二主成分222222211()()ppiiiiiiiVFuuλλ==′′′=Σ==∑∑uuuuuu′222()piiλ=′≤∑2uu221piiiλ=′′=∑2uuuu2λ′′=22uUUu222λ′=uu2λ=所以如果取线性变换:21212222ppFuXuXuX=+++则2λ的方差次大。我们进行主成分分析的目的之一是希望用尽可能少的主成分123,,......KFFFF(k≤p)代替原来的P个指标。到底应该选择多少个主成分,在实际工作中,主成分个数的多少取决于能够反映原来变量80%以上的信息量为依据,即当累积贡献率≥80%时的主成分的个数就足够了。昀常见的情况是主成分为2到3个。2.1.3主成分分析的步骤X的协方差通常是未知的,样品有的()12(12)llplxxxl′==lX,,,,,,n11ˆ()()1nxilijllppxxxxn=j×⎛⎞Σ=−−⎜⎟−⎝⎠∑第一步:由X的协方差阵Σx,求出其特征根,即解方程0λ−=ΣI,可得特征根120pλλλ≥≥≥≥。第二步:求出分别所对应的特征向量()12iipiuuu′=iU,,,第三步:计算累积贡献率,给出恰当的主成分个数。12()Fikkp′==≤iiUX,,,,第四步:计算所选出的k个主成分的得分。将原始数据的中心化值:()*1122iipipxxxxxx′=−=−−−iiXXX,,,代入前k个主成分的表达式,分别计算出各单位k个主成分的得分,并按得分值的大小排队。2.2方差分析法为了分析研究对象总体的特征,不必对总体中每一个单位都进行研究。而是通过抽样方法,按照随机性原则,从全部对象中,只抽取部分单位(样本组)加以研究,对于每组样本,首先应对其基本特征参数进行计算,以给出整体特征的5西华大学毕业论文统计描述。并根据统计数据,对总体对象作出具有一定可靠程度的估计和推测。常用的特征参数包括:2.2.1集中量数(1)算术平均数,用表示,设123,,......nxxxx为各次观察的结果,则有:1231,,......ninxxxxxxnn==∑上式中,x表示平均值(1,2......)ixin=表示每个样品值,n表示样品数。(2)中数,是指一组按大小顺序排列起来的量数中的中间点的数,又称中位数,用Median来表示。(3)众数,是指一列数中出现次数昀多的数值,常用M表示。2.2.2差异量数差异量数是表示量数之间的差异程度的一些统计量的总称,它是用以表示一群量数的离散情况或离中趋势。集中量数在量尺上是一个点,表示各量数所在的位置。差异量数在量尺上是一段距离,表示一个量数与另一个量数或中心点之间的距离。只有知道了差异量数的大小,才能了解集中量数的代表性如何。差异量数愈大,集中量数的代表性愈小;差异量数愈小,则集中量数的代表性愈大。在统计分析中经常应用的是标准差,它是与平均数的差数的平方和的平均数的算术平方根。22()iixxdsnn−==∑∑上式中,s为标准差iidx=−x,为每个样品的值与平均值的离差,上述公式计算步骤如下:(1)先求出各数据与平均分的离差iidxx=−;(2)求各个离差的平方和2id∑;(3)将2id∑除以n再开方,即得标准差。2.2.3.标准分数6西华大学毕业论文标准分数,又称Z分数。是以标准差为单位表示一个分数在团体分数中所处的位置标准分数的计算公式:xxzs−=公式中x代表原始值x代表平均值,S代表标准差。次数分布又称次数分配。是指总体或样本按随机变量(数据)大小次序在出现频率上的排列。一般采用次数分布表、次数分布直方图或次数分布曲线来表示。2.3回归分析法所谓回归分析法,是在掌握大量观察数据的基础上,建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。通常线性回归分析法是昀基本的分析方法,遇到非线性回归问题可以借助数学手段化为线性回归问题处理。回归分析是研究一个随机变量与一个(或多个)普通变量之间的相互关系的统计方法.它的主要方法是:建立有相关关系的变量之间的数学表达式即经验公式或回归方程;由相关性检验判断所建立的回归方程是否有效;利用所确定的回归方程进行预测和控制.2.3.1回归方程的求法在取得两个变量的实验数据之后,若在普通直角坐标纸上标出各个数据点,如果各点的分布近似于一条直线,则可考虑采用线性回归法求其表达式。设给定个实验点1122(,),(,)...(,)nnxyxyxy,其离散点图如图3-1所示。于是可以利用一条直线来代表它们之间的关系yabx=+式(3-1)y—由回归式算出的值,称回归值,和b—回归系数a式中7西华大学毕业论文
本文标题:85数据处理分析方法综述
链接地址:https://www.777doc.com/doc-6289468 .html