您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 第1讲Stata的学习背景与学习意义
1统计分析方法与Stata应用(2015年春季学期)第一讲Stata的学习背景与学习意义一、Stata是什么?“Stata”并非数个单词的缩写(因此其正确拼写为Stata而非STATA),而是由“statistics”和“data”合成的一个新词,Stata公司的员工都将其读做“Stay-ta”。从这个小小的趣闻中,可以看出Stata在问世之初(1985年)的主要功能在于统计分析和数据处理。经历了三十余年的发展,Stata已经升级到第13.1版(表1),在不断强化上述功能的同时,Stata在矩阵运算、绘图、编程等方面的功能也在不断加强。表1Stata发展历程版本发布日期版本发布日期13.1Oct-137Dec-0013Jun-136Jan-9912.1Jan-125Sep-9612Jul-114Jan-9511.2Mar-113.1Aug-9311.1Jun-103Mar-9211Jul-092.1Aug-9010.1Aug-082.05Apr-8910Jun-072Jun-889.2Apr-061.5Feb-879.1Sep-051.4May-869Apr-051.3Aug-858.2Oct-031.2May-858.1Jul-031.1Feb-858Jan-031Jan-85资料来源:擅长数据处理、面板数据分析、时间序列分析、生存分析,以及调查数据分析,但其它方面的功能也并不逊色(表2)。表2Stata的功能一览2数据处理和绘图DatamanagementGraphics统计分析和检验BasicstatisticsNonparametricmethodsExactstatisticsANOVA/MANOVA其它检验方法和函数回归分析LinearmodelsGLMMLEGMMMultilevelmixedmodelsPaneldataProbit/Logit/CountTimeseries多变量模型(多元统计)抽样和模拟分析MultivariatemethodsClusteranalysisResamplingandsimulation调查分析和生存分析SurveymethodsSurvivalanalysisEpidemiologists编程ProgramminglanguageMataUser-writtencommands二、为什么要学习Stata1.时代发展的需要:大数据时代的兴起(1)什么是大数据?传统的统计分析常常希望数据多多益善。也就是说,数据越多,分析越深入,所得的结论就越全面。从字面含义上理解似乎指的是数量庞大信息量巨大的数据。大数据常常被描述成已经大到无法用传统的数据处理工具进行管理和分析的极大的数据集。超大的数据量只是大数据概念的一个部分。大数据涉及结构化数据、非结构化数据和半结构化数据这三类数据。①结构化数据通常指的是传统数据库中的数据,利用结构化查询语言(StructuredQueryLanguage,简称SQL)来存取数据以及查询、更新和管理数据库系统。②非结构化数据一般无法直接进行商业智能分析,这是由于非结构化数据无法直接存储到数据库表中,也无法被程序直接使用。二进制图片文件就是非结构3化数据的一个典型例子。③半结构化数据介于结构化数据和非结构化数据之间。半结构化数据不具有严格的结构因而不同于结构化数据。半结构化数据也不同于非结构化数据,它使用标签和各种标识区分不同的元素,并利用层级结构来定义数据。(2)理解大数据的概念需要把握4个维度,统称为4V特征。①海量性(Volume)。大数据都是数量巨大的数据。很多企业都拥有海量数据,数据量很容易就积累到TB(1012字节)级,甚至跃升至PB(1015字节)级。②多样性(Variety)。大数据冲破结构化数据的局限,不仅包括结构化数据,还覆盖了如文本、音频、视频、点击流、日志文件等各种类型的非结构化数据。③精确性(Veracity)。数据量多不见得都是好事,庞杂的数据可能会导致对收集到的信息的误读或统计误差,因此信息的纯度对价值发掘至关重要。④时效性(Velocity)。大数据对时效性要求很高,企业必须能够在短时间内高速、流畅地处理源源不断产生或流入企业的海量实时数据,方能最大化地显现出大数据的商业价值。与此同时,大数据还应被归档存储,以备不时之需。(3)在大数据的范畴下,包含如下方面。①传统商业智能(TraditionalBusinessIntelligence,BI)。传统的商业智能对来自数据库、应用程序和其他可访问数据源提供的详细商业数据进行深度分析,通过运用基于事实的决策支持系统,给用户提供可操作性的建议,辅助企业用户做出更好的商业决策。②数据挖掘(DataMining,DM)。数据挖掘是人们对数据进行多角度的分析并从中提炼有价值的信息的过程。数据挖掘的对象通常是静态数据和归档数据。③统计应用(StatisticalApplication)。统计应用通常是基于统计学原理利用算法来处理数据,一般用于民意调查、人口普查以及其他统计数据集。为了更好地估计、测试或预测分析,可以使用统计软件分析收集到的样本观测值来推断总体特征。调查问卷和实验报告这类经验数据都是用于数据分析的主要数据来源。④预测分析(PredictiveAnalysis)。预测分析是统计应用的一个分支,人们基于从各个数据库得到的发展趋势及其他相关信息,分析数据集进行预测。预测分析在金融和科学领域显得尤为重要,因为加入对外部影响因素的分析,更容易形成高质量的预测结论。预测分析的一个主要目标是为业务流程、市场销售和生产制4造等规避风险并寻求机遇。(4)大数据的商业价值正在得到越来越多的实现和证明。对大数据商业价值的渴求,促使组织机构利用企业内部和外部数据“仓库”中的数据来揭示发展规律、进行数据统计、获取竞争情报,协助他们部署下一步战略。据IBM公司称,全球每天产生2.5亿亿(2.5×1018)字节的数据,当今世界90%的数据都是近两年产生的。这些数据来源广泛,有的来自收集气候信息的传感器,有的来自社交媒体网站,还有的是网络上传的数字照片和视频、电子商务交易记录,甚至是手机GPS信号等。大数据的价值及其重要性已经在一些领域得到了证明。美国国家海洋和大气管理局(NOAA)、美国国家航空航天局(NASA)、部分制药公司和许多能源公司正在把大数据技术运用于日常工作并从海量的数据中提取价值。美国国家海洋和大气管理局运用大数据的方法助力气候、生态系统、天气和商业研究,美国国家航空航天局则使用大数据从事航空航天等研究。在大数据的帮助下,制药公司和能源公司已经在药物测试和地理分析方面得到了实际的效益。《纽约时报》利用大数据工具进行文本分析和Web挖掘;迪士尼公司则分析了旗下所有店铺、主题公园和网站的数据,试图发现数据间的关联性,进而理解用户行为。2.自身进步的需要两个政策背景:一个是国家要加大职业技术教育,另一个是取消文理分科。一个教育背景:人大、北大等名校都开设Stata课。结论:文科生要加强技术方法的学习。3.为什么选择Stata5由图可知,SAS比Stata使用更广泛。好了,下面是一张预测图6三、如何学习Stata?1.三门基础课微积分、线性代数、概率论与数理统计,缺一不可。基础有多重要?有一句广告词:It'sonlyaboutFundamentals.你只需做好基本功。基础打好了,学习统计、计量,真的势如破竹;如果基础不行,想要有多难,就有多难。1.1微积分。推荐教材:同济六版《高等数学》,国内相关的参考资料非常丰富,内容详略基本得当,也比较流行。想比较有深度的,可以看史济怀、常庚哲的《数学分析》(高等教育出版社,2012)。1.2线性代数。1.3概率论与数理统计。1.4基础课程的系列教材,如果能找到视频,就更好了。比如吉林大学陈殿友的《线性代数》、《高等数学》,麻省理工的GilbertStrang的线性代数,中科大的缪柏其《概率论与数理统计》,中科大史济怀或复旦陈纪修的《数学分析》,都是极好的。不过要真看完你就研究生毕业了(如果你是两年制的研究生)。另外,我7觉得有些考研的数学视频也是不错。个人觉得Strang的线代超赞,但适合先经历一次国内教材和教授方式的“洗脑”,你就觉得老外讲得真心好!没有比较的话,你会发现线代永远是那么的抽象。2Stata图书1.《应用STATA做统计分析(更新至STATA10.0版)》(劳伦斯·汉密尔顿著,郭志刚等译,重庆大学出版社,2011)。2.《社会统计分析与数据处理技术:STATA软件的应用》(杨菊华,中国人民大学出版社,2008)我个人觉得是最适合入门的教材。3.《数据管理与模型分析:STATA软件应用》(杨菊华,中国人民大学出版社,2012)。4.陈强-《高级计量经济学及Stata应用第二版》5.人大陈传波stata十八讲6.现代医学统计方法与Stata应用_第二版(陈峰)(1)网络资源值得一提的有如下几个:Stata官方网站。Stata公司提供的Webresources,涵盖了大量相关网络资源;其FAQ则提供了各种常见问题的解答;Statalist则是一个类似于人大经济论坛的免费的讨论区。加入Statalist的方法很简单,你只需要发送邮件至,邮件内容无需任何称谓,只需写上“subscribeStatalist”的字样即可。接到确认信息后,你便成为一名Statalist的成员了。当然,即使不加入,你仍然可以浏览,但不能提问。majordomo@hsphsun2.harvard.eduStatawebsite:://(大量网络教程链接)Statajournal:::8::::Statalist@hsphsun2.harvard.eduStatabookstore::(加州大学洛杉矶分校)提供的网络教程。该网站提供的DataManagement、Graphics、Regression、LogisticRegression、MultilevelModeling、SurveyDataAnalysis等模块都非常出色;其WebBooks、TextbookExamples模块则非常细致地呈现了几十本非常流行的统计和计量教材的Stata实例;对于LaTeX感兴趣的朋友,则可以通过StataToolsforLaTeX模块获得诸多有用的信息;在Graphexamples模块中,则列举了四十余种图形的绘制方法;最后,在ClassesandSeminars模块中,你可以在线观看数十个Stata教学视频。DataManagementGraphicsANOVARegressionLogistic(andCategorical)RegressionCountMo
本文标题:第1讲Stata的学习背景与学习意义
链接地址:https://www.777doc.com/doc-2154413 .html