您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据结构与算法 > 数据分析&挖掘入门知识分享(可发布版)
数据分析&数据挖掘入门知识分享by作者:马松从事数据分析8年以上,涉及零售、互联网、移动互联网、物联网,目前就职于国内家电龙头企业智慧家电部门任职大数据分析组长。部分图片原文出处未知如有问题可联系QQ:3951736292017/02/17目录前言一、热身篇1.啤酒+尿布=数据挖掘入门2.回归分析—矮个子的福音3.二战时期的两个经典案例二、概要篇1.大数据、数据分析、数据挖掘的区别2.常见企业数据分析部门职责3.常见企业数据分析部门架构4.数据分析相关工作能力要求5.数据分析&挖掘知识点概括三、流程篇1.常见企业经营流程2.数据分析流程3.数据挖掘流程四、基础篇1.常见统计学指标2.手工报表自动化五、算法篇1.常见数据分析方法2.常见机器学习算法六、展示篇1.图表设计概要2.图表展示七、工具篇1.工具能力矩阵2.excel3.sql4.ppt/word/pdf5.spss/spssmodeler6.python7.HDFS/hadoop/hive/spark八、示例篇1.一个QQ群消息数据分析全流程展示2.生产型企业数据分析例案3.服务型企业数据分析例案4.贸易型企业数据分析例案后记3前言免责声明以下分享内容带有强烈的主观意识限于知识边界过窄不接受任何形式的PK挑战部分图片、观点来源于网络资源尽量标明出处,如有遗漏不负法律责任本PPT尽量一年更新一次如有励志从事数据分析的小伙伴可持续关注以上皆为胡说八道为了秀一下PPT动画效果4前言多网融合互联网移动互联网手机通讯网电视网物联网人类在经历了工业革命、电气革命后迅速的步入信息化革命的时代,各类生产数据、行为数据的产生已经渗透到当今每一个行业,每一个业务职能领域,甚至每一个人,这些数据成为了当前重要的生产因素,企业的数据分析能力将成为每一个企业的核心竞争力。单看互联网截止到2012年,数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。每一天,全世界会上传超过5亿张图片,每分钟就有20小时时长的视频被分享。然而,即使是人们每天创造的全部信息——包括语音通话、电子邮件和信息在内的各种通信,以及上传的全部图片、视频与音乐,其信息量也无法匹及每一天所创造出的关于人们自身的数字信息量。目录前言一、热身篇1.啤酒+尿布=数据挖掘入门2.回归分析—矮个子的福音3.二战时期的两个经典案例二、概要篇1.大数据、数据分析、数据挖掘的区别2.常见企业数据分析部门职责3.常见企业数据分析部门架构4.数据分析相关工作能力要求5.数据分析&挖掘知识点概括三、流程篇1.常见企业经营流程2.数据分析流程3.数据挖掘流程四、基础篇1.常见统计学指标2.手工报表自动化五、算法篇1.常见数据分析方法2.常见机器学习算法六、展示篇1.图表设计概要2.图表展示七、工具篇1.工具能力矩阵2.excel3.sql4.ppt/word/pdf5.spss/spssmodeler6.python7.HDFS/hadoop/hive/spark八、示例篇1.一个QQ群消息数据分析全流程展示2.生产型企业数据分析例案3.服务型企业数据分析例案4.贸易型企业数据分析例案后记6一、热身篇:1.啤酒+尿布=数据挖掘入门有一本专门讲超市数据分析的书就叫《啤酒与尿布》值得仔细看看。传说中沃尔玛在进行购物篮分析的时候发现了没有多大关系的啤酒和尿布一起被购买的几率很大,于是进一步分析发现年轻的父亲在给小孩买尿布的同时会给自己买几罐啤酒。于是他们把两件商品摆放在一起销售,从而提高了两者的销量。当然现在网传沃尔玛自己否定了有这么做过。小知识客单价:购物小票的总消费金额客流量:超市一天的购物小票总数平均客单价=总销售额/客流量近年来国内超市的客流量呈下降趋势,客单价呈上涨趋势,和经济发展用户购买习惯变更有一定关系。7一、热身篇:2.回归分析—矮个子的福音回归这种现象最早由英国生物统计学家高尔顿在研究父母亲和子女的遗传特性时所发现的一种有趣的现象:身高这种遗传特性表现出“高个子父母,其子代身高也高于平均身高;但不见得比其父母更高,到一定程度后会往平均身高方向发生‘回归’”。这种效应被称为“趋中回归”。现在的回归分析则多半指源于高尔顿工作的那样一整套建立变量间数量关系模型的方法和程序。回归分析最早是19世纪末期高尔顿(SirFrancisGalton)所发展。高尔顿是生物统计学派的奠基人,他的表哥达尔文的巨著《物种起源》问世以后,触动他用统计方法研究智力进化问题,统计学上的“相关”和“回归”的概念也是高尔顿第一次使用的。1855年,他发表了一篇“遗传的身高向平均数方向的回归”文章,分析儿童身高与父母身高之间的关系,发现父母的身高可以预测子女的身高,当父母越高或越矮时,子女的身高会比一般儿童高或矮,他将儿子与父母身高的这种现象拟合出一种线形关系。但是有趣的是:通过观察他注意到,尽管这是一种拟合较好的线形关系,但仍然存在例外现象:矮个的人的儿子比其父要高,身材较高的父母所生子女的身高将回降到人的平均身高。换句话说,当父母身高走向极端(或者非常高,或者非常矮)的人的子女,子女的身高不会象父母身高那样极端化,其身高要比父母们的身高更接近平均身高。高尔顿选用“回归”一词,把这一现象叫做“向平均数方向的回归”(regressiontowardmediocrity)。而关于父辈身高与子代身高的具体关系是如何的,高尔顿和他的学生K·Pearson观察了1078对夫妇,以每对夫妇的平均身高作为自变量,取他们的一个成年儿子的身高作为因变量,结果发现两者近乎一条直线,其回归直线方程为:y^=33.73+0.516x,这种趋势及回归方程表明父母身高每增加一个单位时,其成年儿子的身高平均增加0.516个单位。这样当然极端值就会向中心靠拢。8一、热身篇:3.二战时期的两个经典案例二战后期,美军对德国和日本法西斯展开了大规模战略轰炸,每天都有成千架轰炸机呼啸而去,返回时往往损失惨重。美国空军对此十分头疼:如果要降低损失,就要往飞机上焊防弹钢板;但如果整个飞机都焊上钢板,速度航程载弹量什么都要受影响。怎么办?空军请来数学家亚伯拉罕。沃尔德。沃尔德的方法十分简单。他把统计表发给地勤技师,让他们把飞机上弹洞的位置报上来,然后自己铺开一张大白纸,画出飞机的轮廓,再把那些小窟窿一个个添上去。画完之后大家一看,飞机浑身上下都是窟窿,只有飞行员座舱和尾翼两个地方几乎是空白。沃尔德告诉大家:从数学家的眼光来看,这张图明显不符合概率分布的规律,而明显违反规律的地方往往就是问题的关键。飞行员们一看就明白了:如果座舱中弹,飞行员就完了;尾翼中弹,飞机失去平衡就要坠落——这两处中弹,轰炸机多半就回不来了,难怪统计数据是一片空白。因此,结论很简单:只需要给这两个部位焊上钢板就行了。一战时期,英法的海上运输受到德军U艇的袭击,损失惨重,后来经过数学家的运用概率分析后发现,舰队与敌人潜艇可能相遇,也可能不相遇,是一个随机事件,具有一定的规律。一定数量的舰(如100只)编队规模越小,编次就越多,(如每次20只,就要5个编次);编次越多,与敌人相遇的概率就越大。如5个同学放学都各自回家,老师要找一个同学的话,随便去哪家都行。但如果5个同学都在其中一家的话,老师就要找几家才能找到,一次就找到的概率只有20%。英国海军接受了数学家的建议后,命令舰队在指定海域集合,再集体通过危险海域,然后各自驶向预定的港口。结果,使原来被击沉25%的概率降低到1%,大大减少了损失,保证了物资的及时供应。。9二、概要篇:1.大数据、数据分析、数据挖掘的区别目录前言一、热身篇1.啤酒+尿布=数据挖掘入门2.回归分析—矮个子的福音3.二战时期的两个经典案例二、概要篇1.大数据、数据分析、数据挖掘的区别2.常见企业数据分析部门职责3.常见企业数据分析部门架构4.数据分析相关工作能力要求5.数据分析&挖掘知识点概括三、流程篇1.常见企业经营流程2.数据分析流程3.数据挖掘流程四、基础篇1.常见统计学指标2.手工报表自动化五、算法篇1.常见数据分析方法2.常见机器学习算法六、展示篇1.图表设计概要2.图表展示七、工具篇1.工具能力矩阵2.excel3.sql4.ppt/word/pdf5.spss/spssmodeler6.python7.HDFS/hadoop/hive/spark八、示例篇1.一个QQ群消息数据分析全流程展示2.生产型企业数据分析例案3.服务型企业数据分析例案4.贸易型企业数据分析例案后记11二、概要篇:1.大数据、数据分析、数据挖掘的区别统计分析:运用统计方法及与分析对象有关的知识,从定量与定性的结合上进行的研究活动。模式识别:通过计算机用数学技术方法来研究模式的自动处理和判读,环境与客体统称为“模式”。神经计算:从信息科学的角度来研究如何加速神经网络模仿和延伸人脑的高级精神活动,如联想、记忆、推理、思维及意识等智能行为。数据挖掘:从大量的数据中通过算法搜索隐藏于其中信息的过程。知识发现:是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。机器学习:是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。人工智能:人工智能是对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。数据库:按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。12二、概要篇:1.大数据、数据分析、数据挖掘的区别触觉:行走、拿东西、避免伤害嗅觉:觅食、危险判断味觉:有机物摄入13二、概要篇:1.大数据、数据分析、数据挖掘的区别据科学家研究:人脑的CPU主频是320GHZ人脑存储大概10^15GB人工智能还有很长的路要走14二、概要篇:2.常见企业数据分析部门责任15二、概要篇:2.常见企业数据分析部门架构16二、概要篇:2.常见企业数据分析部门架构-建议人员配置17二、概要篇:3.数据相关工作能力要求18二、概要篇:4.数据分析&挖掘知识点概括目录前言一、热身篇1.啤酒+尿布=数据挖掘入门2.回归分析—矮个子的福音3.二战时期的两个经典案例二、概要篇1.大数据、数据分析、数据挖掘的区别2.常见企业数据分析部门职责3.常见企业数据分析部门架构4.数据分析相关工作能力要求5.数据分析&挖掘知识点概括三、流程篇1.常见企业经营流程2.数据分析流程3.数据挖掘流程四、基础篇1.常见统计学指标2.手工报表自动化五、算法篇1.常见数据分析方法2.常见机器学习算法六、展示篇1.图表设计概要2.图表展示七、工具篇1.工具能力矩阵2.excel3.sql4.ppt/word/pdf5.spss/spssmodeler6.python7.HDFS/hadoop/hive/spark八、示例篇1.一个QQ群消息数据分析全流程展示2.生产型企业数据分析例案3.服务型企业数据分析例案4.贸易型企业数据分析例案后记20三、流程篇:1.常见企业经营流程21三、流程篇:1.常见企业经营流程22三、流程篇:1.常见企业经营流程23三、流程篇:2.数据分析流程24三、流程篇:3.数据挖掘流程目录前言一、热
本文标题:数据分析&挖掘入门知识分享(可发布版)
链接地址:https://www.777doc.com/doc-3981862 .html