应用多元统计分析实验报告

多元统计分析实验报告学院名称理学院专业班级应用统计学14-2学生姓名张艳雪学号201411081051第一章多元正态分布1.1从某企业全部职工中随机抽取一容量为6的样本，该样本中个职工的目前工资、受教育年限、初始工资和工作经验资料如下表所示：职工编号目前工资（美元）受教育年限（年）初始工资（美元）工作经验（月）12345657000420021450219004500028350151612815827000187501200013200021000120001443638119013826设职工总体的以上变量服从多元正态分布，根据样本资料利用SPSS软件求出均值向量和协方差矩阵的最大似然估计。注1：最大似然估计公式为：11ˆniinμXX，11ˆ()()niiinΣXXXX；一．SPSS操作步骤：第一步：利用spss建立数据集第二步：分析--描述统计--描述计算样本均值向量第三步：分析--相关--双变量计算样本协方差阵与样本相关系数二．输出结果：描述性统计量均值标准差N目前工资29650.0018763.4756受教育年限12.333.6156初始工资37125.0046827.2766工作经验152.50129.2106相关性目前工资受教育年限初始工资工作经验目前工资Pearson相关性1.184-.126.042显著性（双侧）.727.812.937平方与叉积的和1760340000.00062500.000-553387500.000510000.000协方差352068000.00012500.000-110677500.000102000.000N6666受教育年限Pearson相关性.1841-.510-.077显著性（双侧）.727.302.885平方与叉积的和62500.00065.333-431250.000-179.000协方差12500.00013.067-86250.000-35.800N6666初始工资Pearson相关性-.126-.5101.114显著性（双侧）.812.302.829平方与叉积的和-553387500.000-431250.00010963968750.0003455625.000协方差-110677500.000-86250.0002192793750.000691125.000N6666工作经验Pearson相关性.042-.077.1141显著性（双侧）.937.885.829平方与叉积的和510000.000-179.0003455625.00083475.500协方差102000.000-35.800691125.00016695.100N6666三．实验结果分析：样本均值为50.1523712533.1229650样本的协方差1.16695691125351020006911252192793750862501106775003586250067.131250010200011067750012500352068000如此就可以按照极大似然估计方程：11ˆniinμXX，11ˆ()()niiinΣXXXX得出均值向量与协方差向量的最大似然估计结果。第三章聚类分析3.1下表是15个上市公司2001年的一些主要财务指标，使用系统聚类法和K－均值法利用SPSS软件分别对这些公司进行聚类，并对结果进行比较分析。公司编号净资产收益率每股净利润总资产周转率资产负债率流动负债比率每股净资产净利润增长率总资产增长率111.090.210.0596.9870.531.86-44.0481.99211.960.590.7451.7890.734.957.0216.11300.030.03181.99100-2.98103.3321.18411.580.130.1746.0792.181.146.55-56.325-6.19-0.090.0343.382.241.52-1713.5-3.366100.470.4868.4864.7-11.560.85710.490.110.3582.9899.871.02100.2330.32811.12-1.690.12132.14100-0.66-4454.39-62.7593.410.040.267.8698.511.25-11.25-11.43101.160.010.5443.71001.03-87.18-7.411130.220.160.487.3694.880.53729.41-9.97128.190.220.3830.311002.73-12.31-2.771395.79-5.20.5252.3499.34-5.42-9816.52-46.821416.550.350.9372.3184.052.14115.95123.4115-24.18-1.160.7956.2697.84.81-533.89-27.74一、实验原理:1.系统聚类的基本思想是：首先，每个样品（或变量）先聚成一类，然后，选择距离公式计算类与类之间的距离，把距离相近的样品（或变量）先聚成类，距离相远的后聚成类，该过程一直进行下去，每个样品（或变量）总能聚到合适的类中，最后，所有的样品（或变量）聚成一类。打开SPSS软件，在数据窗口依次定义变量，并输入以上数据。2.K-均值聚类法:K-均值法和系统聚类法一样，都是以距离的远近亲疏为标准进行聚类的，但是两者的不同之处也是明显的：系统聚类对不同的类数产生一系列的聚类结果，而K—均值法只能产生指定类数的聚类结果。具体类数的确定，离不开实践经验的积累；有时也可以借助系统聚类法以一部分样品为对象进行聚类，其结果作为K—均值法确定类数的参考。二．SPSS操作步骤：（一）系统聚类基本操作步骤如下：1.点击分析——分类——系统聚类，进入系统聚类对话框。2.将净资产收益率、每股净利润、总资产周转率、资产负债率、流动负债比率、每股净资产、净利润增长率、总资产增长率8个变量选入变量框中，将公司编号选入标注个案框中。输出框中保持默认选项，选中统计量和图。3.统计量部分保持默认选项，点击继续按钮；点击绘制按钮，进入系统聚类-绘制对话框，选中树状图，其他部分保持默认，点击继续按钮；点击方法按钮，进入聚类分析-方法对话框，转换值框中标准化选择Z得分，其他部分保持默认选项，点击继续按钮；保存部分保持默认选项，点击继续按钮。4.最后点击确定按钮，得系统聚类结果。（二）K-均值法基本操作步骤如下：1.点击分析——分类——K-均值聚类，进入K-均值聚类对话框。2.将净资产收益率、每股净利润、总资产周转率、资产负债率、流动负债比率、每股净资产、净利润增长率、总资产增长率8个变量选入变量框中，将公司编号选入标注个案框中。根据系统聚类的结果，聚类数改为3，其他部分保持默认选项。3.迭代部分保持默认选项，点击继续按钮；点击保存按钮，选中聚类成员、与聚类中心的距离，点击继续按钮；选项部分中保持默认选项，点击继续。4.最后点击确定按钮，得K-均值聚类结果。三．输出结果：系统聚类法：表1案例处理汇总a,b案例有效缺失总计N百分比N百分比N百分比12100.00.012100.0a.平方Euclidean距离已使用b.平均联结（组之间）表2聚类表阶群集组合系数首次出现阶群集下一阶群集1群集2群集1群集2169363.2800022261189.69701332121492.5322044243976.32830552107995.87440767149315.36000871213588.43405881728034.8797699111530499.9898010101820618287.32690111111391730894.8611000K均值法：表3初始聚类中心聚类123净资产收益率95.7911.1230.22每股净利润-5.20-1.69.16总资产周转率.50.12.40资产负债率252.34132.1487.36流动负债率99.34100.0094.88每股净资产-5.42-.66.53净利润增长率-9816.52-4454.39729.41总资产增长率-46.82-62.75-9.97表4迭代历史记录a迭代聚类中心内的更改1231.000.000834.1342.000.000.000a.由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为.000。当前迭代为2。初始中心间的最小距离为5184.300。表5最终聚类中心聚类123净资产收益率95.7911.126.48每股净利润-5.20-1.69.08总资产周转率.50.12.39资产负债率252.34132.1471.48流动负债率99.34100.0092.06每股净资产-5.42-.661.90净利润增长率-9816.52-4454.39-103.94总资产增长率-46.82-62.7511.91表6每个聚类中的案例数聚类11.00021.000313.000有效15.000缺失.000四，实验结果分析：(一)系统聚类法：表2聚类表是对每一阶段聚类结果的反应。图1冰状图，图2树状图，是反应样品聚类情况的图，从图中可以由分类个数得到分类情况。如果选择分为2类，分类结果为：13号公司单独一类，1-12号公司为一类；如果选择分为3类，分类结果为：{13}、{1、14}、{2、3、4、5、6、7、8、9、10、11、12、15}。由表中数据可以发现，13号公司资产负债率最高，净利润增长率最低，1号和14号公司的主要财务指标都比较好，可以认为系统聚类根据经营情况对公司进行分类的。（二）K均值法：表3出始聚类中心，表示最初种类的重心，也就是种子点。表5最终聚类中心，表示K-均值聚类之后各类的重心，可以看到，1类资产负债率高，净利润增长率低，3类各项指标值都比较好。由数据集输出结果知分类结果为：1类{13}、2类{8}、3类{1、2、3、4、5、6、7、9、10、11、12、14、15}。与系统聚类的结果不完全相同，K-均值聚类将8号公司单独作为一类。由数据表可以发现8号公司资产负债率较高，净利润增长率较低，与其他公司之间有较大差别，单独分为一类也比较符合实际。3.2下表是2003年我国省会城市和计划单列市的主要经济指标：人均GDP1x（元）、人均工业产值2x（元）、客运总量3x（万人）、货运总量4x（万吨）、地方财政预算内收入5x（亿元）、固定资产投资总额6x（亿元）、在岗职工占总人口的比例7x（％）、在岗职工人均工资额8x（元）、城乡居民年底储蓄余额9x（亿元）。试利用SPSS软件进行系统聚类分析，并比较何种方法与人们观察到的实际情况较接近。城市1x2x3x4x5x6x7x8x9x北京31886331683052030671593200037.8253126441天津264334373235073467920593418.8186481825石家庄15134131591184310008494169.5123061044太原15752158312975152483319722.812679660呼和浩特1899111257350841552118213.514116255沈阳23268154466612146368155714.8149611423大连2914527615110012108111140714.7175601310长春18630210456999108924629412.513870831哈尔滨148257561645895187642317.7124511154上海4658677083721263861899227421.0273056055南京2754743853167901480513679415.4221901134杭州3266749823213491681515071711.8246671466宁波32543479042493813797

应用多元统计分析实验报告

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

电力电缆规范汇编

高碳钢盘条氧化皮的组织与机械剥壳性能研究

消防规章制度

第2章 IT项目启动

郑州康桥华城国际STREET MALL招商执行案-55DOC

行政管理整改建议(1)

学校精神文明建设领导小组及工作制度

XX微型消防站岗位职责

土壤速效磷测定

2019年转正思想汇报范文【三篇】

相关文档

相关搜索