您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 聚类分析、对应分析、因子分析、主成分分析spss操作入门
亲疏程度的判定距离:将每一个样本看作p维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类;相似系数:性质越接近的变量或样本,它们的相似系数越接近于1或一l,而彼此无关的变量或样本它们的相似系数则越接近于0,相似的为一类,不相似的为不同类;聚类方法不同:系统聚类:又称为层次聚类(hierarchicalcluster),聚类过程是按照一定层次进行的;K均值聚类(K-meansCluster);聚类对象不同时的聚类类型:样本之间的聚类:即Q型聚类分析,常用距离来测度样本之间的亲疏程度;变量之间的聚类:即R型聚类分析,常用相似系数来测度变量之间的亲疏程度;基本思想:根据所研究的样本或变量在观测数据上表现的不同亲疏程度,采用不同的聚类方法将亲疏程度较大的样本/变量聚合为一类,把另外一些亲疏程度较大的样本/变量聚合为一类,直到把所有的样本/变量都聚合完毕,形成一个由小到大的分类系统。1聚类主要步骤选择变量数据处理聚类计算聚类统计量•和聚类分析的目的密切相关;•反映要分类变量的特征;•不同研究对象上的值有明显的差异;•变量之间不能高度相关;•为消除各指标量纲的影响,需对原始数据进行必要的变换处理;•聚类统计量是根据变换以后的数据计算得到的一个新数据;•用于表明各样本或变量间的关系密切程度;•常用的统计量有距离和相似系数两大类;•选择聚类的方法;•确定形成的类数;结果的解释和证实•结果的解释是希望对各个类的特征进行准确的描述;•给每类起一个合适的名称;•通常的做法是计算各类在各聚类变量上的均值,对均值进行比较;2系统聚类例1:利用2001年全国31个省市自治区各类小康和现代化指数的数据,对地区进行聚类分析。数据中所含指数:综合指数、社会结构指数、经济与技术发展指数、人口素质指数、生活质量指数、法制与治安指数;采用聚类方法:系统聚类K均值聚类3系统聚类Agglomerationschedule:输出聚类过程表Proximitymatrix:输出个体之间的距离矩阵ClusterMembership中None表示不输出样本所属类,Singlesolution表示当分成n类时各样本所属类,Rangeofsolutions表示当分成m-n类时各样本属性所属类参与系统聚类的变量选到Variables(s)中字符型变量作为标记变量选到LableCasesby中Cluster中确定聚类类型,是Q型聚类还是R型聚类Display中Stastics表示输出聚类分析相关统计量Plots表示输出聚类分析相关图形43聚类输出结果534参与聚类的个体或小类个体或小类距离计算的是个体还是小类本次结果将在第几步出现6系统聚类Dendrogram:聚类树形图Icicle:冰柱图,其中Allclusters表示输出分析中每个阶段的冰柱图,Specifiedrangeofclusters表示输出某个阶段的冰柱图,none表示不输出冰柱图Orientation冰柱图的表现形式,Vertical表示纵向显示,Hhorizontal表示横向显示聚类输出结果7系统聚类ClusterMethod:计算个体与小类、小类与小类之间距离的方法Measure:不同变量类型的个体距离计算方式Interval适用连续型定距变量,Counts适用计数型变量,Binary适用于二值变量TransformValues中的Standardize指的是消除量纲的方法,再下面表示对针对Q还是R型聚类8系统聚类9Clustermethod:NearestNeighbor:最短距离法••••以两类中距离最近的两个个体之间的距离作为类间距离。••••••••以两类中距离最远的两个个体之间的距离作为类间距离。••••••FurtherNeighbor:最长距离法Between-grouplinkage:组间平均连接法将两类个体合并为一类后,以合并后类中所有个体之间的平均距离作为类间距离。6)(654321ddddddd••••Within-grouplinkage:组内平均连接法以两类个体两两之间距离的平均数作为类间距离。9)(9321ddddd••11,xy22,xyCentroidclustering:重心法以两类变量均值(重心)之间的距离作为类间距离。均值点之间的距离dMedianclustering:中位数法以两类变量中位数之间的距离作为类间距离Ward’smethod:离差平方和法先将n个个体各自成一类,然后每次减少一类,随着类与类的不断聚合,类内的离差平方和必然不断增大,选择使离差平方和增加最小的两类合并,直到所有的个体归为一类为止。系统聚类此操作可将聚类分析的结果以变量的形式保存到数据编辑窗口10345聚类输出结果11K均值聚类12K均值聚类NumberofClusters:输入聚类数目,小于样本数ClustersCenters:自行指定初始类中心点,一般默认Method中Iterateandclassify聚类分析每一步都重新确定类中心点,Classifyonly聚类分析中类中心点始终为初始类中心点默认就行Clustersmembership:保存个体所属类的类号Distancefromclusterscenter:保存个体距各自类中心点的距离13K均值聚类Statistics中InitialClusterscenters表示输出初始类中心点,ANOVAtable表示以聚类分析产生的类为控制变量,以k个变量为观测变量进行单因素方差分析,并输出各个变量的方差分析表,Clustersinformationforeachcase表示样本分类信息及距所属类中心点的距离MissingValues中存在缺失值时Excluedcaseslistwise表示将含有缺失值的记录删除,Excluedcaseslistwise表示将配对状态下将含有缺失值的数据删除,其他计算不受影响1415聚类输出结果初始类中心情况中心点偏移情况最终类中心情况最终类成员情况基本介绍:一种数据简化的技术;将原有变量中的信息重叠部分提取并综合成因子,实现减少变量个数的目的;提取出来的因子能够反映原来众多变量的主要信息;原始的变量是可观测的显在变量,而提取因子是不可观测的潜在变量;基本思想:把每个研究变量分解为几个影响因素变量;将每个原始变量分解成两部分因素,一部分是由所有变量共同具有的少数几个公共因子组成的,另一部分是每个变量独自具有的因素,即特殊因子;因子分析特点:因子个数远远小于原有变量的个数;因子能够反映原有变量的绝大部分信息;因子之间线性关系不显著;因子具有命名解释性;1617观测变量间有较强的相关性;若变量之间无相关性或相关性较小的,则不会有公共因子;根据因子方差的大小:只取方差大于1(或特征值大于1)的那些因子;按照因子方差累积贡献率大于80%的原则;坐标变换使每个原始变量在尽可能少的因子之间有密切的关系;这样因子的实际意义更容易解释;可以在许多分析中使用这些因子;如:多指标综合评价、做聚类分析的变量、做回归分析中的解释变量等;前提条件因子提取因子命名可解释性计算因子得分主要步骤18软件操作例2:已知2003年沪、深两市48家上市公司的13个财务指标数据。19软件操作Statistics:Univariatedescriptives—基本描述统计量,Initialsolution—因子分析的初始解CorrelationMatrix:Coefficients—相关系数矩阵,Significancelevels—相关系数检验的概率P值,Determinant—变量相关系数矩阵的行列式值,Inverse—相关系数矩阵的逆矩阵,Reproduced—再生相关阵,Anti-image:反映像相关矩阵,KMOandBartlett’s—巴特利特球度检验和KMO检验Variables:参与因子分析的变量SelectionVariable:条件变量,设置Value值后,只有满足相应条件的样本数据才参与因子分析20输出结果此操作目的在于检验原始变量之间是否存在一定线性关系,若线性关系不显著,则不适合做因子分析当采用“特征根大于1”的方法提取因子时,所有变量的共同度过均较高,各变量的丢失信息较少,效果理想。21输出结果此操作目的在于检验原始变量之间是否存在一定线性关系,若线性关系不显著,则不适合做因子分析看correlation矩阵,若对角线上元素的值较接近1,其他大多数元素的绝对值均较小,说明变量之间相关性较强,适合做因子分析。KMO度量标准:0.9以上表示非常适合;0.8~0.9表示适合;0.7~0.8表示一般;0.6~0.7表示不太适合;0.5以下表示极不适合。巴特利特球度检验:概率p值小于指定显著性水平,则适合作因子分析;反之不适合作因子分析。22软件操作Method:提取因子的方法Analyze:提取因子依据,Correlationmatrix(相关系数矩阵)和Covariancematrix(协方差阵)Extract:确定因子数目,BasedonEigenvalue(特征根值)或Fixednumberoffactors(指定数目)Display:Unrotatedfactorsolutions—输出旋转前的因子方差贡献表和旋转前的因子载荷阵。Screeplot:碎石图23输出结果因子编号特征根值方差贡献率累积方差贡献率InitialEigenvalue中13个因子解释了原有变量的总方差ExtractionSumsofSquaredLoadings表示的是按照“特征根大于1”原则选取的因子RotationSumsofSquaredLoadings表示旋转后最终因子情况,因子的方差重新分布,但影响原有变量的共同度没有变Method:因子旋转的方法,Varimax—方差最大法,Quartimax—四次方最大法,Equamax—等量最大法,Display:输出与因子旋转相关的信息,Rotatedsolution—旋转后的因子载荷矩阵,Loadingplot(s)—旋转后的因子载荷散点图24软件操作25输出结果获利因子变现因子运营因子成长因子旋转后的因子载荷矩阵旋转前的因子载荷矩阵因子分析模型举例:成本费用利润率=0.848*F1+0.214*F2+0.235*F3+0.254*F4;主营业务利润率=0.845*F1+0.157*F2+0.255*F3+0.069*F4;26软件操作Scores为计算因子的方法Saveasvariables:将因子得分保存在SPSS变量中,method表示计算因子得分的方法,Regression—回归法Displayfactorscorecoefficientmatix:输出因子得分系数矩阵27输出结果因子得分函数:F1=-0.069*Z(流动比率)-0.042*Z(速动比率)-0.115*Z(总资产周转率)+……+0.172*Z(总资产利润率)……F4=-0.013*Z(流动比率)-0.041*Z(速动比率)-0.085*Z(总资产周转率)+……-0.028*Z(总资产利润率)注:所有变量数值均为标准化之后的28输出结果综合得分函数:F=(32.032%*FAC1_1+21.282%*FAC2_1+18.893%*FAC3_1+17.443%*FAC4_1)/89.651%29软件操作MissingValues:缺失值的处理方法CoefficientDisplayFormat:因子载荷矩阵的输出方式,Sortedbysize—以第一因子得分的降序输出因子载荷矩阵,Suppresssmallcoefficients—通过输入数值,只输出大于该值的因子载荷序号股票代码因子分析综合得分排序序号股票代码因子分析综合得分排序18800.0223256
本文标题:聚类分析、对应分析、因子分析、主成分分析spss操作入门
链接地址:https://www.777doc.com/doc-4204631 .html