您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > 数学建模培训ppt.
About统计建模与数据分析阮敬ruanjing@msn.com首都经济贸易大学统计学院StatisticsDept.,CapitalUniversityofEconomics&Business什么是统计•收集、分析、解释、展示数据。它提供方法来基于数据做预测•它应用于自然科学和社会科学中的各种领域,以及人文科学、政府及商务•统计方法能用来概括或描述各种数据,称为描述统计(descriptivestatistics)•对于数据中的模式可能会以某种方式根据观测值中的随机性和不确定性来建模,然后根据所建立的模型来对被研究的过程或总体做出推断,称为推断统计(Inferentialstatistics),也称为预测统计(predictivestatistics)CopyrightbyRUANJing©首都经济贸易大学No.1统计的对象•数据•如果不会处理微观数据,那么……•你无法了解各个上报数据单位的运作•你不可能了解经济的具体运行情况•你不可能知道看到/得到的数据的真伪•你根本无法做领导希望知道,但又不知道如何得到的信息•你在市场上找不到满意的工作•说明你不是真正学统计的——吴喜之CopyrightbyRUANJing©首都经济贸易大学No.2什么是统计建模•统计建模是以计算机统计分析软件为工具,利用各种统计分析方法对批量数据建立统计模型和探索处理的过程,用于揭示数据背后的因素,诠释社会经济现象,或对经济和社会发展作出预测或判断。•题目一般来源于社会、经济和管理科学等方面经过适当简化加工的实际问题,不要求参赛者预先掌握深入的专门知识,只需要学过统计专业的基本内容,较为熟练地掌握统计分析方法,并且具备一定的统计工作经验。题目有较大的灵活性供参赛者发挥其创造能力。CopyrightbyRUANJing©首都经济贸易大学No.3统计建模要求•参赛者应根据题目要求,完成一篇包括模型的假设、建立和求解、计算方法的设计及计算机实现、结果的分析和检验、模型的改进等方面的论文(即答卷)。•大赛评奖以假设的合理性、建模的创造性、结果的正确性和文字表述的清晰程度为主要标准。•统计建模实际上是一个从数据到结论的过程。CopyrightbyRUANJing©首都经济贸易大学No.4统计建模例子CopyrightbyRUANJing©首都经济贸易大学No.5统计建模的特点•从分析实际问题入手;•具有较强的理论背景;•往往附带一定的假设;•多种统计方法的结合;•从数据到结论的思路;•统计结论的不确定性。CopyrightbyRUANJing©首都经济贸易大学No.6统计建模的数据分析思路CopyrightbyRUANJing©首都经济贸易大学No.72.数据采集1.规划3.数据访问数据分析5.报告6.部署7.4.数据管理和数据准备数据处理的一般流程CopyrightbyRUANJing©首都经济贸易大学No.8数据编码数据录入数据导入数据整理单项多值开放数据分析图表、报表结果判断清洗调整变量定义缺失值处理统计建模与数据分析的具体步骤•明确问题:统计建模强调问题导向,因此,首先要明确需要求解的问题。•收集信息:在明确问题的基础上,根据题目的要求,从可用的数据库中收集和整理出各种必要的信息。•模型假设:利用统计分析方法,对问题做出必要的、合理的假设,使问题的主要特征凸现出来,忽略问题的次要方面。•模型构建:根据所做的假设以及事物之间的联系,构造各种量之间的关系,把问题转化为统计分析问题,注意要尽量采用适当的统计分析模型及方法。•模型求解:利用构建的模型进行计算,并得到与问题有关的一些信息。如果必要,可对问题作出进一步的简化或提出进一步的假设。•模型分析:对所得到的信息进行分析,形成判断,特别要注意当数据变化时所得结果是否稳定。•结果检验:分析所得结果的实际意义,与实际情况进行比较,看是否符合实际,如果不够理想,应该修改、补充假设,或重新建模。•撰写论文:在上述基础上形成论文,论文应包括问题的阐述、假设的叙述、模型构建的过程、模型求解结果、主要结论以及对结论的评价。CopyrightbyRUANJing©首都经济贸易大学No.9论文(报告)的构成•(一)标题、摘要部分题目——写出较确切的题目摘要——200-300字,包括模型的主要特点、建模方法和主要结果。•(二)主体部分1.问题提出,问题分析。2.模型建立:(1)提出假设条件,明确概念,引进参数;(2)模型构建;(3)模型求解。3.计算方法设计和计算机实现。4.主要的结论或发现。5.结果分析与检验。6.讨论——模型的优缺点,结果的意义。7.参考文献。•(三)附录部分计算程序,框图。各种求解演算过程,计算中间结果。各种图形、表格。CopyrightbyRUANJing©首都经济贸易大学No.10统计建模的常见分析方法及其应用工具•数据的类型与整理;•模型的假定;•常见数据类型及其分析方法。CopyrightbyRUANJing©首都经济贸易大学No.11数据的类型•规范形式:–列为变量(字段):如单位名、ID、类别、净资产、投入、债务、利润……–行为观测值(记录):某个单位的变量值•不规范的形式:需要进一步数据预处理–抽样或普查表、图像、档案文字、网络数据等–必须变成规范形式储藏于计算机中CopyrightbyRUANJing©首都经济贸易大学No.12数据的类型•定量变量(数量变量,区间变量,指标)–产值,利润,收入,年龄,资产等等•定性变量(名义变量,分类变量,维度)–性别,种族,区域,公司类型,型号•定序变量–分数A,B…,级别,疾病(早期…)CopyrightbyRUANJing©首都经济贸易大学No.13数据的角色•用于回归和分类:(区分自变量和因变量)–自变量(预测变量,协变量,解释变量)–因变量(响应变量,被解释变量)–互为自变量和因变量(如路径模型)•用于其它目的(不区分自变量和因变量)–聚类,因子分析等等CopyrightbyRUANJing©首都经济贸易大学No.14数据的整理•无效数据点:缺失或异常值•无效记录(即无效观测):–冗余记录–所有有效字段均为缺失值或异常值–重要字段缺失或异常–质量差的记录:各字段的取值呈现矛盾•无效字段(即无效变量):–所有记录取值均相同:如“限额以上标志”–质量差的字段:缺失比例较大,如有效率小于50%CopyrightbyRUANJing©首都经济贸易大学No.15数据的整理•数据不一定都是原始的(最好不用)–某些变量是其它变量的计算结果–某些变量是百分比或人均XXX–某些变量是另外变量的部分•要看数据之间的逻辑关系是否正确•数据是否胡编、造假或关系有矛盾CopyrightbyRUANJing©首都经济贸易大学No.16数据整理的依据•根据需要–你绝对不是为整理数据而整理,一定有目的,知道哪些有意义•利用探索性数据分析的方法决定需要的变量–画图、相关分析、列联表分析等等CopyrightbyRUANJing©首都经济贸易大学No.17数据的作用•描述数据各个变量本身的关系•预测未来•这都需要建立模型–经典的用数学公式表达的模型–现代的用算法/程序表达的模型•都需要用计算机统计软件处理•不会用软件,就不要搞统计•用什么软件–所有用得上的都用(实际上很容易)–在用中学软件最快CopyrightbyRUANJing©首都经济贸易大学No.18模型的假定CopyrightbyRUANJing©首都经济贸易大学No.19我们想要知道的是数据结论数据所满足的真实模型但实际上可能知道的是模型的假定•为什么对经典模型需要各种假定–在验证模型的时候拟合时,需要通过概率论(p值)确定拟合好坏,必须假定分布–这些假定无法证明正确,但可以通过各种方法找问题,找不着就实行–发射火箭只能够说没有发现问题,无人敢说没有问题CopyrightbyRUANJing©首都经济贸易大学No.20模型的假定•现代算法模型不用假定–不用概率的p值–用训练数据集建模–用测试数据集检验–得到的百分比较p值更能说服(无论是懂统计的还是不懂统计的)人CopyrightbyRUANJing©首都经济贸易大学No.21数据与建模方法•横截面数据(大体上同时的,每个对象只观测一次)•时间序列(经典的只有一个变量)•面板数据(多层模型,多水平模型)•满意度,量表数据(PLS,结构方程模型)•离散、计数(列联表、微观计量模型)CopyrightbyRUANJing©首都经济贸易大学No.22横截面数据及常用模型•因变量为数量(自变量可以是分类或数量的):–各种回归(线性,非线性),注意对变量的变换以克服非正态性所造成的问题;F,t检验等;用p值判断拟合(R,SPSS,SAS)–数据挖掘•分位数回归(R)•注意回归模型的经典假定CopyrightbyRUANJing©首都经济贸易大学No.23横截面数据及常用模型•如果是二分类(自变量可以是定性或定量):–离散因变量模型,如Logistic回归,probit回归(R,SPSS,SAS)–判别分析(自变量必需是定量的)(R,SPSS,SAS)–神经网络,决策树(R,SAS,Climentine),adaboost,bagging,RandomForests,SVM等等•如果因变量有多个水平–判别分析(自变量必需是定量的)(R,SPSS,SAS)–神经网络,决策树(R,SAS,Climentine),adaboost,bagging,RandomForests,SVM等等CopyrightbyRUANJing©首都经济贸易大学No.24横截面数据及常用模型•因变量为计数/频数(列联表)–多项分布对数线性模型–Poisson对数线性模型(事故,疾病等)(R,SAS,SPSS)–作为调查得到的各种定性变量,欲了解它们之间的关系:关联规则分析(数据挖掘软件)(R,SAS,Climentine)CopyrightbyRUANJing©首都经济贸易大学No.25面板数据与混合模型•一般用R,SAS,SPSS,Eviews,STATA–要把固定部分和随机部分标出来–每个对象(一定要有ID)有多个观测•也可有生存分析的内容•也有GLM(generalizedlinearmodel)CopyrightbyRUANJing©首都经济贸易大学No.26时间序列建模•三个(四个)部分–趋势–周期–随机误差–循环(没有周期)•描述:分解(把三个部分分解),利用各种方法(指数平滑等)•描述和预测:ARIMA模型(条件及优缺点!)•注意必需是孤立系统(即没有其它因素影响)CopyrightbyRUANJing©首都经济贸易大学No.27多变量数据的分析•经典多元统计方法–主成分分析/因子分析(相关的变量中找出代表,即这些变量的一两个线性组合),目的是降维–聚类分析(快速聚类/K-means聚类,分层聚类要求数量变量;两步聚类(SPSS)可以允许分类变量)–判别分析(因变量分类,自变量数量)–对应分析(描述性的,描述分类变量的)–典型相关分析(研究两组变量相关的情况)•各种软件均可CopyrightbyRUANJing©首都经济贸易大学No.28常用统计软件介绍•SAS系统是由众多模块组成的系统。其中BaseSAS模块是SAS系统的核心。其它各模块均在BaseSAS提供的环境中运行。•用户可选择需要的模块与BaseSAS一起构成一个用户化的SAS系统。•SAS系统既可以采用菜单式操作方式,也可以采用交互式编程操作。CopyrightbyRUANJing©首都经济贸易大学No.29CopyrightbyRUANJing•MATLAB是MATrixLABoratory的缩写,早期主要用于现代控制中复杂的矩阵、向量的各种运算。由于MATLAB提供了强大的矩阵处理和绘图功能,很多专家因此在自己擅长的领域用它编写了许多专门的MATLAB工具包,如控制系统工具包;系统辨识工具包;信号处理工具包;鲁棒控制工具包;最优化工具包等等。•由于MATLAB功能的不断扩展,所以现在的MATLAB已不仅仅局限与现
本文标题:数学建模培训ppt.
链接地址:https://www.777doc.com/doc-2331388 .html