您好,欢迎访问三七文档
数据分析定义:是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。目的:把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出所研究对象的内在规律,帮助管理者进行判断和决策。作用:现状分析、原因分析和预测分析步骤:明确分析目的与框架、数据收集、数据处理、数据分析、数据展现和撰写报告等6个阶段。1、明确分析目的与框架一个分析项目,你的数据对象是谁?分析目的是什么?要解决什么业务问题?目的明确之后,就可以梳理分析思路整理分析框架。不同的项目对数据的要求,使用的分析手段是不一样的。所以这些是进行数据分析的方向和前提。2、数据收集数据收集是按照确定的数据分析目的和框架内容,有目的的收集、整合相关数据的一个过程,它是数据分析的一个基础。3、数据处理数据处理是指对收集到的数据进行加工、整理,以便开展数据分析,它是数据分析前必不可少的阶段。这个过程是数据分析整个过程中最占据时间的,也在一定程度上取决于数据仓库的搭建和数据质量的保证。数据处理主要包括数据清洗、数据转化、数据提取和数据计算等处理方法。4、数据分析数据分析是指通过分析手段、方法和技巧对处理过好的数据进行探索、分析,提取有价值的信息,从中发现因果关系、内部联系和业务规律。这个阶段就要涉及到工具和方法的使用。其一要熟悉常规数据分析方法,如方差、回归、因子、聚类、分类、时间序列等,这些我在学校可以学习。其二是熟悉数据分析工具,Excel最常见,还有专业的分析软件,如数据分析工具SPSS/SAS/R/Matlab等,便于进行一些专业的统计分析、数据建模等。5、数据展现一般情况下,数据分析的结果都是通过图、表的方式来呈现,借助数据展现手段,能更直观的让数据分析师表述想要呈现的信息、观点和建议。常用的图表包括饼图、折线图、柱形图/条形图、散点图、雷达图等、金字塔图、矩阵图、漏斗图、帕雷托图等。6、撰写报告最后阶段,就是撰写数据分析报告,这是对整个数据分析成果的一个呈现。通过分析报告,把数据分析的目的、过程、结果及方案完整呈现出来,以供商业目的提供参考。一份好的数据分析报告,首先需要有一个好的分析框架,并且图文并茂,层次明晰,能够让阅读者一目了然。另外,数据分析报告需要有明确的结论、建议和解决方案,不仅仅是找出问题,后者是更重要的,否则称不上好的分析,同时也失去了报告的意义。数据挖掘(DataMining)数据挖掘是知识发现(KDD)的一个关键步骤。一般是指从数据库的海量数据中通过算法揭示出隐含的、先前未知的并有潜在价值的信息的过程。它是一种决策支持过程,主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等。数据挖掘的定义分为技术上的定义和商业定义:1.技术上的定义及含义数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。2.商业角度的定义按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。数据挖掘任务有两类:一:描述性挖掘任务:刻画数据库中数据的一般特性;二:预测性挖掘任务:在当前数据的基础上进行推断,以进行预测。数据挖掘常用的方法:利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘。1、分类分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。2、回归分析回归分析方法反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。3、聚类聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。4、关联规则关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。在客户关系管理中,通过对企业的客户数据库里的大量数据进行挖掘,可以从大量的记录中发现有趣的关联关系,找出影响市场营销效果的关键因素,为产品定位、定价与定制客户群,客户寻求、细分与保持,市场营销与推销,营销风险评估和诈骗预测等决策支持提供参考依据。5、特征特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。如营销人员通过对客户流失因素的特征提取,可以得到导致客户流失的一系列原因和主要特征,利用这些特征可以有效地预防客户的流失。6、变化和偏差分析偏差包括很大一类潜在有趣的知识,如分类中的反常实例,模式的例外,观察结果对期望的偏差等,其目的是寻找观察结果与参照量之间有意义的差别。在企业危机管理及其预警中,管理者更感兴趣的是那些意外规则。意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。7、Web页挖掘随着Internet的迅速发展及Web的全球普及,使得Web上的信息量无比丰富,通过对Web的挖掘,可以利用Web的海量数据进行分析,收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息,集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息,并根据分析结果找出企业管理过程中出现的各种问题和可能引起危机的先兆,对这些信息进行分析和处理,以便识别、分析、评价和管理危机。数据挖掘的功能:1、自动预测趋势和行为2、关联分析数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。3、聚类4、概念描述概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。5、偏差检测数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。数据挖掘常用技术:人工神经网络、决策树、遗传算法、近邻算法、规则推导数据挖掘过程图:机器学习:首先明确“学习”的含义:学习是系统积累经验以改善其自身性能的过程。机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。机器学习涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。机器学习可以分成下面几种类别:1、监督式学习从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练集中的目标是由人标注的。常见的监督学习算法包括回归分析和统计分类。2、无监督式学习与监督学习相比,训练集没有人为标注的结果。常见的无监督学习算法有聚类。3、半监督学习介于监督学习与无监督学习之间。4、增强学习通过观察来学习做成如何的动作。每个动作都会对环境有所影响,学习对象根据观察到的周围环境的反馈来做出判断。市场调研定义:是指运用科学的方法,有目的地、系统地搜集、记录、整理有关市场营销信息和和资料,分析市场情况,了解市场的现状及其发展趋势,为市场预测和营销决策提供客观的、正确的资料。市场调研的重要环节主要在二个方面:信息收集和调研分析,信息收集是为调研分析提供数据;调研分析是对信息数据的剖析并写出调研报告。市场调研工作的基本过程包括:明确调查目标、设计调查方案、制定调查工作计划、组织实地调查、调查资料的整理和分析、撰写调查报告。常见的市场调查:消费者调查:针对特定的消费者做观察与研究,有目的的分析他们的购买行为消费心理演变等。市场观察:针对特定的产业区域做对照性的分析,从经济,科技等有组织的角度来做研究。产品调查:针对某一性质的相同产品研究其发展历史,设计,生产等相关因素。广告研究:针对特定的广告做其促销效果的分析与整理。市场调查的手法:定性市场研究:从受访者的数字回答中去分析,不针对整个人口、也不会做大型的统计。常见的例子有:焦点族群、深度访谈、专案进行等。定量市场研究:采用假说的形式,使用任意采样、并从样品数来推断结果,这种手法经常用在人口普查、经济力调查等大型的研究。常见的例子有:大型问卷、咨询表系统等。观察技术:由研究员观察社会现象,并自行设定十字做法,就是水平式比较(通常是指时间性的比较)、与垂直式的比较(与同时间不同社会或不同现象比较)实验技术:由研究员创造一个半人工的环境测试使用者。这个半人工的环境能够控制这些研究员想要对照的影响因子,例子包括了购买实验室、试销会场。数据仓库数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库是一个过程而不是一个项目;是一个环境,而不是一件产品。数据仓库提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或不能得到。数据仓库技术是为了有效的把操作形数据集成到统一的环境中以提供决策型数据访问的各种技术和模块的总称。所做的一切都是为了让用户更快更方便查询所需要的信息,提供决策支持。数据仓库的特点:1、面向主题操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。2、集成的数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。3、相对稳定的数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。4、反映历史变化数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。数据仓库的组成1、数据仓库数据库数据仓库的数据库是整个数据仓库环境的核心,是数据存放的地方和提供对数据检索的支持。相对于操纵型数据库来说其突出的特点是对海量数据的支持和快速的检索技术。2、数据抽取工具数据抽取工具把数据从各种各样的存储方式中拿出来,进
本文标题:数据分析
链接地址:https://www.777doc.com/doc-5494064 .html