您好,欢迎访问三七文档
1多元统计分析方法原理与应用多元统计分析方法原理与应用MultivariateAnalysisMultivariateAnalysis中国人民大学财金学院中国人民大学财金学院戴稳胜戴稳胜2我们的研究工作是什么我们的研究工作是什么??为什么需要量化研究及研究时注意的几点事为什么需要量化研究及研究时注意的几点事项项什么是多元统计分析(什么是多元统计分析(MVA)MVA)??为什么我们需要它为什么我们需要它??通常的分析技术通常的分析技术MVAMVA详细介绍及案例详细介绍及案例::相关分析(相关分析(CorrespondenceanalysisCorrespondenceanalysis))回归回归//多元回归分析(多元回归分析(Regression/MultipleRegression/Multipleregressionregression主成份主成份//因子分析(因子分析(FactoranalysisFactoranalysis))聚类分析(聚类分析(Clusteranalysis/segmentation)Clusteranalysis/segmentation)……3研究工作是什么研究工作是什么??它只是它只是??::数据分析?数据分析?现状描述?现状描述?制作图表制作图表??撰写报告撰写报告??提供解决方案提供解决方案探索世界真相探索世界真相特征或我们所传送的意识...4当我们进行分析时当我们进行分析时有简单性的一面有简单性的一面..........例如:基本的分析(定性的描述、变量关联表)例如:基本的分析(定性的描述、变量关联表)另外也有复杂性的一面另外也有复杂性的一面........大量附加的分析大量附加的分析运用许多的分析技术运用许多的分析技术然而我们需要看到然而我们需要看到““复杂性问题背后的简单复杂性问题背后的简单表述表述””使复杂问题简单化使复杂问题简单化为了达到这一目的,你不得不研究复杂问题为了达到这一目的,你不得不研究复杂问题然后去提炼出使人容易明白的信息然后去提炼出使人容易明白的信息5数据阐述)一般认知不一定确实。)真实的资料才能提供正确的信息。¾美國黑人vs.美國白人之比例白人認為23.8%vs.49.9%(average)人口調查局(CensusBureau):11.8%vs.74%¾高校教师收入极高,成为个税监督的重点对象¾公务员灰色收入很高,工资基本不用…6数据胜过了轶闻)轶闻是那些令人印象深刻的事件,多数是些特例,可能导致误导。研究资料才能提供正确的结论。)电缆线与白血病¾传闻:听说电缆线产生的电磁场会诱发白血病。¾研究:五百万美元历经五年的研究表明:暴露在电缆线产生的电磁场跟白血病根本没有关系[E.W.Campion,“Editorial:powerlines,cancerandfear,”NewEnglandJournalofMedicine,337,No.1(1997).]¾传闻:手机磁场诱发脑部病变是真的吗?7统计:让数据说话--泰坦尼克号02004006008001000120014001600SD生死人数0200400600800100012001400160018002000男性女性男女人数05001000150020002500成人小孩成人与孩子01002003004005006007008009001000一等二等三等船员不同舱等8发生了什么?一等舱二等舱三等舱C舱存活203118178219死亡122167528673总数325285706892存活比62.541.425.224.69当天的情形如何?男性女性总数存活374344718死亡13641261490总数17384702208存活比21.573.232.5大人小孩总数存活66157718死亡1438521490总数20991092208存活比31.552.332.5似乎真的是妇孺优先!10生存树状图(多元分类树)11统计的作用:处理变异描述变异)数据不可能一成不变¾个体差异(比如身高、体重等)¾测量误差)统计帮助我们处理变异(variation)。12结论的不确定性(Uncertainty))今日降雨概率30%......)技术分析是否能帮助炒股?)信用模型的应用,能否降低银行贷款坏帐概率?¾风险降低率的95%置信区间为17%~34%。¾…)统计给了人们一种以讨论并把握不确定性的语言13量化研究流程业务理解数据采集与准备建模应用评估活动采集处理应用数据信息知识决策知识发现数据挖掘商务智能数据仓库数据管理价值链14如果你不能量化某些事情,那么你就不能理解它;如果你不能理解它,那么你就不能控制它;如果你不能控制它,那么你就不能改进它。15量化分析的几大目标及对应手段量化分析的几大目标及对应手段把握概况--探索性数据分析、把握概况--探索性数据分析、OLAPOLAP了解差异--假设检验、方差分析了解差异--假设检验、方差分析分类、聚类--判别、类神经网络、决策分类、聚类--判别、类神经网络、决策树等树等了解相关--相关、关联规则了解相关--相关、关联规则原因探索及目标控制--回归、因子原因探索及目标控制--回归、因子结构探索--结构探索--SEMSEM、、HLMHLM、、VARVAR、、VECMVECM把握趋势--时序分析把握趋势--时序分析16量化分析目标一量化分析目标一————了解概况了解概况数字化描述数字化描述均值、中位数、众数均值、中位数、众数极差、方差、标准差、离散系数极差、方差、标准差、离散系数频数、频率频数、频率17量化分析目标一量化分析目标一————了解概况了解概况多角度描述多角度描述————OLAPOLAP为什么要多角度?当心统计陷井为什么要多角度?当心统计陷井表面资料不一定可信表面资料不一定可信品牌满意率例品牌满意率例地区拥挤程度与无洗手间房屋比例间的相关地区拥挤程度与无洗手间房屋比例间的相关18品牌满意率品牌满意率比较两品牌的满意人数比例:比较两品牌的满意人数比例:满意满意不满意不满意不满意率不满意率品牌品牌AA3274327450150113.3%13.3%品牌品牌BB6438643878778710.9%10.9%似乎品牌B的顾客比品牌A的顾客要满意些。19实际情况如何呢?实际情况如何呢?品牌品牌AA品牌品牌BB满意满意不满意不满意满意满意不满意不满意天津天津4974976262694694117117上海上海221221121248404840415415南京南京21221220203833836565广州广州503503102102320320129129北京北京184118413053052012016161合计合计3274327450150164386438787787200.1110.0520.0860.1690.1420.1440.0790.1450.2870.23300.050.10.150.20.250.30.35天津上海南京广州北京品牌A品牌B几乎每个城市里,品牌B的不满意率都高于品牌A!21地区拥挤与无洗手间房子比例间地区拥挤与无洗手间房子比例间的相关的相关研究英国哈尔研究英国哈尔(Hull)(Hull)市各地区房屋状况,市各地区房屋状况,发现数据显示各地区拥挤程度发现数据显示各地区拥挤程度((xx))与没有洗与没有洗手间的房子比例手间的房子比例((yy))间的相关系数很低间的相关系数很低(0.08)(0.08),但按常理觉得应该比较高。,但按常理觉得应该比较高。按地区内公寓比例的高低将地区分成两群按地区内公寓比例的高低将地区分成两群后,发现在各群内的相关系数极高后,发现在各群内的相关系数极高((分别为分别为0.850.85及及0.91)0.91)。。22地区房屋状况研究地区房屋状况研究r=0.08r=0.85r=0.9123量化分析目标二:了解差异量化分析目标二:了解差异假设检验:一因素两水平或两因素假设检验:一因素两水平或两因素方差分析:一因素多水平或多因素至交叉方差分析:一因素多水平或多因素至交叉24量化分析目标三:分类与聚类量化分析目标三:分类与聚类比如客户区隔、市场细分比如客户区隔、市场细分LogistLogist回归、判别、聚类回归、判别、聚类类神经网络、决策树类神经网络、决策树25量化分析目标四:把握相关量化分析目标四:把握相关相关系数:定类与定量数据的相关测量相关系数:定类与定量数据的相关测量关联规则:实质是一些条件概率关联规则:实质是一些条件概率26问题:相关系数可靠吗?问题:相关系数可靠吗?某通信公司推出某项业务后,试图发现通话时长和人数之间的关系。。。Time:用户月通话时长Count:该时长的人数相关系数:-0.23没关系?Correlations(Spreadsheet1)Markedcorrelationsaresignificantatp.050N=19(Casewisedeletionofmissingdata)VariableTimeCountTime1.00-0.2327真相与结论:真相与结论:真相是。。。Time和Count是2次关系相关系数只能度量线性关系结论是。。。该项业务对通话时长极端客户吸引力很大,对普通客户不感冒Correlations(Spreadsheet110v*89c)TimeCount28量化分析目标五:因素与目标量化分析目标五:因素与目标回归--预测与控制回归--预测与控制因子分析因子分析计量:因果检验计量:因果检验有关联未必有因果:有关联未必有因果:一致性研究一致性研究因果时间序列因果时间序列剂量与反映:昀好是实验设计剂量与反映:昀好是实验设计29量化分析目标六:结构探索量化分析目标六:结构探索结构方程模型结构方程模型SEMSEM:顾客满意度指数模型:顾客满意度指数模型多层线性模型多层线性模型HLMHLM经济结构:经济结构:VARVAR,,VECMVECM30量化分析目标七:把握趋势量化分析目标七:把握趋势时间序列时间序列31什么是多元统计分析什么是多元统计分析??单一问题分析单一问题分析((univariateunivariateanalysis)analysis)例如频率例如频率分布通常作为数据的第一步的描述分析分布通常作为数据的第一步的描述分析关联表关联表((bivariatebivariateanalysis)analysis)总是作为主要的总是作为主要的分析手段而被市场研究者反复分析手段而被市场研究者反复使用使用把一个问题或变量与另一个关联交叉作表把一个问题或变量与另一个关联交叉作表((例如对受访者背景变量:性别、年龄等例如对受访者背景变量:性别、年龄等))无论哪个行业,包括金融业无论哪个行业,包括金融业如果同时分析的变量超过二个就被称为如果同时分析的变量超过二个就被称为多元统计分析多元统计分析32我们通常使用的多元分析技术我们通常使用的多元分析技术……......相关性分析相关性分析多元回归多元回归主成分分析主成分分析因子分析因子分析聚类分析聚类分析//市场细分市场细分判别分析判别分析etc.etc.etc.etc.etc.etc.33多元统计分析技术多元统计分析技术一个研究者可能不了解所有的分析技术细节一个研究者可能不了解所有的分析技术细节但是他们应该能够正确地选择适当的方法但是他们应该能够正确地选择适当的方法使用多元技术,你不必知道详细的数学公式使用多元技术,你不必知道详细的数学公式--但是你应但是你应当明白它的原理当明白它的原理多元分析并不是魔术棒,不需要我们开动脑筋就能解多元分析并不是魔术棒,不需要我们开动脑筋就能解决问题决问题-
本文标题:多元统计分析方法
链接地址:https://www.777doc.com/doc-6692350 .html