您好,欢迎访问三七文档
1经济统计分析方法保险系孙佳美副教授本讲义用于《经济统计分析方法》实验课程2统计科学即统计学,是一门研究收集数据、表现数据、分析数据、解释数据,从而认识数量规律的方法论科学。3一位资深的海外统计学家说:统计就和柴、米、油、盐、酱、醋、茶一样,存在的时候并不是很突出,一旦不见了,人生就是黑白的了。4“没有统计,其它科学可以存在,但是很渺小”一个医生说:“医学若无统计就不是科学”5台湾辅仁大学一教授说“统计即生活,统计即人生”一留美学者说“统计是20世纪人类昀伟大的发现之一”6(三)统计研究的特点1.数量性统计总是用数字作为语言来表述事实。2.总体性研究大量个别事物构成的现象整体的数据7课程简介多元统计分析简称多元分析,是统计学的一个重要分支,也是近三、四十年迅速发展的一个分支。随着电子计算机的普及和软件的发展,信息储存手段以及数据信息的成倍增长,多元分析的方法已广泛应用于自然科学和社会科学的各个领域。国内国外实际应用中卓有成效的成果,已证明了多元分析方法是处理多维数据不可缺少的重要工具,并日益显示出无比的魅力。多元分析在工业、农业、医学、经济学、教育学、体育科学、生态学、地质学、社会学、考古学、环境保护、军事科学、甚至文学中都有广泛应用,足见其应用的深度和广度。8课程简介第一章绪论§1.1什么是多元统计分析§1.2多元分析解决那些类型的实际问题案例1:起名为“波澜”恰当吗?案例2:企业信用评估?案例3:后40回出自谁的手笔?9课程简介第二章多元数据图的表示法主要内容:轮廓图、雷达图、调和曲线图、星座图、盒形图、直方图、正态P-P图、Q-Q图第三章聚类分析聚类分析、距离和相似系数、八种系统聚类分析方法、系统聚类的基本性质第四章判别分析主要内容:距离判别法、费歇(Fisher)判别法、逐步辨别、贝叶斯(Bayes)判别法10课程简介第五章主成分分析主要内容:主成分分析的基本思想、主成分分析的数学模型及几何解释、主成分分析的推导及数学解释、计算实例第六章因子分析主要内容:因子分析的基本思想、因子分析的数学模型、因子载荷阵的估计方法和因子旋转、因子得分、计算实例第七章对应分析主要内容:对应分析的基本思想、对应分析方法的原理、计算实例11课程简介第八章相关分析和回归分析主要内容:相关分析概念及其基本思想、实例;线性回归、曲线回归的模型、统计检验、操作步骤、例子。第九章Logistc回归分析主要内容:Logistc回归分析的基本思想、Logistc回归分析的原理、计算实例12教材及主要参考书授课教材:于秀林,任雪松编著.多元统计分析,中国统计出版社,1999年8月主要参考书:1.卢文岱主编.SPSSforWindows统计分析(第3版),电子工业出版社,2007年4月2.吴喜之编著.统计学:从数据到结论,中国统计出版社,2006年10月3.薛薇编著.SPSS统计分析方法及应用,电子工业出版社,2004年9月4.王淑芬.应用统计学,北京大学出版社,中国林业出版社,2007年5.何晓群编著.多元统计分析,中国人民大学出版社,2007年4月13多元统计分析案例案例1:起名为“波澜”恰当吗案例2:客户信用程度评估案例3:后40回出自谁的手笔14中美纯水有限公司欲为其新推出的一种纯水产品起一个合适的名字,为此专门委托了当地的策划咨询公司,取了一个名字“波澜”。一个好的名字至少应该满足两个条件:(1)会使消费者联想到正确的产品“纯水”;(2)会使消费者产生与正确产品密切相关的联想,如“纯净”、“清爽”等。后来中美纯水有限公司委托调查统计研究所,进行了一次全面的市场研究,在调查中还包括简单的名称测试。1516调查的代码和含义如下:代码含义代码含义代码含义Name1玉泉Product1雪糕Feel1清爽Name2雪源Product2纯水Feel2甘甜Name3春溪Product3碳酸饮料Feel3欢快Name4期望Product4果汁饮料Feel4纯净Name5波澜Product5保健食品Feel5安闲Name6天山绿Product6空调Feel6个性Name7中美纯Product7洗衣机Feel7兴奋Name8雪浪花Product8毛毯Feel8高档1718由直观图可以看出,“波澜”(Name5)与“洗衣机”(Product7)产品相联系,引起的感觉是“兴奋”,因此“波澜”不是合适的纯净水品牌名称。中美纯水公司的产品是“纯水”(Product2),他们如果想要使该名称给人们一种“纯净”(Feel4)的感觉,那么“中美纯”(Name7)将是昀好的商品名称。如果想要使该名称给人们一种“清爽”(Feel1)的感觉,那么“玉泉”(Name1)将是昀好的商品名称。中美纯水公司接受了调查统计研究所的建议,没有用“波澜”这个名称,而用了“中美纯”作为品牌的名称。实践证明,它的确是一个成功的品牌名称。NEXT19HISTORICALDATA:LoanRepaymentProbabilityLoanYrsatYrsatYrsatYrsatRecordMonthlyMonthlyHomePresentPreviousPresentPreviousNo.ofNumberIncomeExpensesOwner?JobJobAddressAddressDepend.Output1300015000286253285042513325251331000300000.10.30.10.3414900022501845325540001000135321463500250000.50.50.521172200120016314138450035000821015291200100000.50.510.5311080080000.115131117500300011031034512300010001205151015132500700110515535143000260016134221570003700110410144163000280001234311745001500164493420TEST:BraincelAdviceOutput1300015000286253285042513325251331000300000.10.30.10.3414900022501845325540001000135321463500250000.50.50.521172200120016314138450035000821015291200100000.50.510.5311080080000.115131117500300011031034512300010001205151015132500700110515535143000260016134221570003700110410144163000280001234311745001500164493421PREDICTION:YrsatYrsatYrsatYrsatMonthlyMonthlyHomePresentPreviousPresentPreviousNo.ofBraincelIncomeExpensesOwner?JobJobAddressAddressDepend.AdviceNew:250015000323411.0460221NEXT22第二章多元数据图表示法23本章主要内容主要内容:掌握多元数据的图表示法轮廓图、雷达图、调和曲线图、星座图、盒形图、直方图、正态P-P图、Q-Q图做图工具:EXCEL、SPSS24轮廓图125轮廓图2-例题26轮廓图327雷达图128雷达图229雷达图330调和曲线图131调和曲线图232调和曲线图333调和曲线图434星座图135星座图236星座图337星座图438星座图539星座图640星座图741星座图842盒形图盒形图也叫箱图,箱图是按分组变量值并列显示,箱图的结构如下:矩形框为箱图主体,箱的上边线与下边线之差称为箱长,也称为”内四分位限“(国内——些统计书中称为“百分位差”),它包含了变量约50%的数值,系统以默认的红色显示,箱体矩形框上、中、下3条平行线依次表示变量的75%、50%、25%分位数。触须线,即中间的竖线。它向上触及和向下触及的两条横线分别表示变量本体的昀大值和昀小值。本体由除去奇异值和极端值以外的变量值组成,也称为本体值。Outlier(奇异值),位于箱本体上下用圆圈标记的点,指从箱的上下边沿算起,对应的变量值超过箱长的1.5倍的那些值。由于选定的标识变量为Name,所以奇异值旁边标注姓名。Extreme(极端值),系统默认用“*”标记。它们指从箱的上下边沿算起,其对应的变量值超过路长的3倍以上的那些点。生成箱图的SPSS操作:Graphs—Boxptots命令即可43直方图注意:纵坐标为频率/组距横坐标长度为组距44正态概率分布图Normalp-pplotsNormalq-qplots注:有关图的作法可参考:郝黎仁等编著.SPSS实用统计分析(第十三章的相关内容),北京:中国水利水电出版仕,200245第三章聚类分析ClusteringAnalysis46本章主要内容聚类分析的概念距离和相似系数八种系统聚类分析方法系统聚类的基本性质快速聚类聚类分析应注意的问题47例对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行分类。24242422222622161828Z27292322232923222329Y22241416202621111828X10987654321应聘者§1什么是聚类分析484950我们直观地来看,这个分类是否合理?计算4号和6号得分的离差平方和:(21-20)2+(23-23)2+(22-22)2=1计算1号和2号得分的离差平方和:(28-18)2+(29-23)2+(28-18)2=236计算1号和3号得分的离差平方和为482,由此可见一般,分类可能是合理的,欧氏距离很大的应聘者没有被聚在一起。由此,我们的问题是如何来选择样品间相似的测度指标,如何将有相似性的类连接起来?51聚类分析根据一批样品的许多观测指标,按照一定的数学公式具体地计算一些样品或一些参数(指标)的相似程度,把相似的样品或指标归为一类,把不相似的归为一类。例如对上市公司的经营业绩进行分类;据经济信息和市场行情,客观地对不同商品、不同用户及时地进行分类。又例如当我们对企业的经济效益进行评价时,建立了一个由多个指标组成的指标体系,由于信息的重叠,一些指标之间存在很强的相关性,所以需要将相似的指标聚为一类,从而达到简化指标体系的目的。52思考:样本点之间按什么刻画相似程度思考:样本点和小类之间按什么刻画相似程度思考:小类与小类之间按什么来刻画相似程度53一、变量测量尺度的类型为了将样本进行分类,就需要研究样品之间的关系;而为了将变量进行分类,就需要研究变量之间的关系。但无论是样品之间的关系,还是变量之间的关系,都是用变量来描述的,变量的类型不同,描述方法也就不同。通常,变量按照测量它们的尺度不同,可以分为三类。(1)间隔尺度。指标度量时用数量来表示,其数值由测量或计数、统计得到,如长度、重量、收入、支出等。一般来说,计数得到的数量是离散数量,测量得到的数量是连续数量。在间隔尺度中如果存在绝对零点,又称比例尺度。§2相似系数和距离54(2)顺序尺度。指标度量时没有明确的数量表示,只有次序关系,或虽用数量表示,但相邻两数值之间的差距并不相等,它只表示一个有序状态序列。如评价酒的味道,分成好、中、次三等,三等有次序关系,但没有数量表示。(3)名义尺度。指标度量时既没有数量表示也没有次序关系,只有一些特性状态,如眼睛的颜色,化学中催化剂的种类等。在名义尺度中只取两种特性状态的变量是很重要的,如电路的开和关,天气的有雨和无雨,人口性别的男和女,医疗诊断中的“十”和“一”,市场交易中的买和卖
本文标题:经济统计分析方法
链接地址:https://www.777doc.com/doc-1164321 .html