您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据结构与算法 > 第一讲数据挖掘与数据分析
1《趣味数学》课程单元教学设计(教案)—数据挖掘与数据分析一、教案头本次课标题数据挖掘与数据分析授课教师朱调娟授课班级上课时间2学时上课地点1-501教学目标能力(技能)目标知识目标通过四个实例,初步了解数据挖掘与数据分析技术的概念以及应用。数据挖掘与数据分析技术的概念以及应用。能力训练任务及案例教学重点教学准备课件-2-二、数据挖掘与数据分析教学设计步骤教学内容教学方法教学手段学生活动时间分配告知(教学内容、目的)简述本单元教学内容:1、利用大数据后,农夫山泉会发生管理变革吗?2、大数据可以给阿迪达斯带来利润吗?3、中国能制作出类《纸牌屋》的电视剧吗?4、网易数据工程师可以当“媒婆”?简述本单元教学目的:初步了解数据挖掘与数据分析技术的概念以及应用。讲授启导用多媒体教学听课3引入(项目)数据挖掘(DataMining)旨在从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(DataFusion)以及决策支持等。讲授用多媒体教学听课7任务1、农夫山泉用大数据卖矿泉水1.问题怎样摆放水堆更能促进销售?什么年龄的消费者在水堆前停留更久,他们一次购买的量多大?气温的变化让购买行为发生了哪些改变?竞争对手的新包装对销售产生了怎样的影响?“大自然的搬运工”,如何控制物流成本?2.数据业务员每天拍摄10张照片:水怎么摆放、位置有什么变化、高度如何……15个点,下班之前150张照片就被传回了杭州总部(10M)10000个业务员,这样每天的数据就是100G,每月为3TB运输环境数据场景:高速公路的收费、道路等级、天气、配送中心辐射半径、季节性变化、不同市场的售价、不同渠道的费用、各地的人力成本、甚至突发性的需求(比如某城市召开一次大型运动会)。3.大数据获取解决三个顽症:首先是解决生产和销售的不平衡,准确获知该产多少,送多少;其次,让400家办事处、30个配送中心能够纳入到体系中来,形成一个动态网状结构,而非简单的树状结构;最后,让退货、残次等问题与生产基地能够实时连接起来。4.结论可以做到实时计算结果,不可能的事情变为可能;决策者们依靠数据来验证以往的决策是否正确;对已出现的问题作出纠正,并预测未来。有了强大的数据分析能力做支持后,农夫山泉近年以30%-40%的年增长率,在饮用水方面快速超越了原先的三甲:娃哈哈、乐百氏和可口可乐。根据国家统计局公布的数据,饮用水领域的市场份额,讲授用多媒体教学听课20-3-农夫山泉、康师傅、娃哈哈、可口可乐的冰露,分别为34.8%、16.1%、14.3%、4.7%,农夫山泉几乎是另外三家之和。任务2:阿迪达斯的“黄金罗盘”在最初降价、打折等清库存的“应急措施”结束后,基于外部环境、消费者调研和门店销售数据的收集、分析,成为了将阿迪达斯和叶向阳们引向正轨的“黄金罗盘”。每天都会收集门店的销售数据,并将它们上传至阿迪达斯。收到数据后,阿迪达斯对数据做整合、分析,再用于指导经销商卖货。研究这些数据,让阿迪达斯和经销商们可以更准确了解当地消费者对商品颜色、款式、功能的偏好,同时知道什么价位的产品更容易被接受。1.对比过去,面对展厅里各式各样的产品,经销商很容易按个人偏好下订单。现在,阿迪达斯会用数据说话,帮助经销商选择最适合的产品。首先,从宏观上看,一、二线城市的消费者对品牌和时尚更为敏感,可以重点投放采用前沿科技的产品、运动经典系列的服装以及设计师合作产品系列。在低线城市,消费者更关注产品的价值与功能,诸如纯棉制品这样高性价比的产品,在这些市场会更受欢迎。其次,阿迪达斯会参照经销商的终端数据,给予更具体的产品订购建议。比如,阿迪达斯可能会告诉某低线市场的经销商,在其辖区,普通跑步鞋比添加了减震设备的跑鞋更好卖;至于颜色,比起红色,当地消费者更偏爱蓝色。一起商定卖哪些产品、什么产品又会热卖。这样,将来就不会再遇到库存问题。”2.挖掘大数据,让阿迪达斯有了许多有趣的发现。同在中国南部,那里部分城市受香港风尚影响非常大;而另一些地方,消费者更愿意追随韩国潮流。同为一线城市,北京和上海消费趋势不同,气候是主要的原因。高线城市消费者的消费品位和习惯更为成熟,当地消费者需要不同的服装以应对不同场合的需要,上班、吃饭、喝咖啡、去夜店,需要不同风格的多套衣服,但在低线城市,一位女性往往只要有应对上班、休闲、宴请的三种不同风格的服饰就可以。两相对比,高线城市,显然为阿迪达斯提供了更多细分市场的选择。实际上,对大数据的运用,也顺应了阿迪达斯大中华区战略转型的需要。库存危机后,阿迪达斯从“批发型”公司转为“零售驱动型”公司,它从过去只关注把产品卖给经销商,变成了将产品卖到终端消费者手中的有力推动者。而数据收集分析,恰恰能让其更好地帮助经销商提高售罄率。与经销商伙伴展开了更加紧密的合作,以统计到更为确切可靠的终端消费数据,有效帮助重新定义了产品供给组合,从而在适当的时机,将符合消费者口味的产品投放到相应的区域市场。一方面降低了他们的库存,另一方面增加了单店销售率。卖得更多,售罄率更高,也意味着更高的利润。讲授用多媒体教学听课20-4-任务3:中国能制作出类《纸牌屋》的电视剧吗?凭借一部片子咸鱼翻身,这样的桥段在当下热播美剧《纸牌屋》身上重演,反转剧主角是美国一家视频公司Netflix,它的武器则是大数据。首次进军原创剧就走红,Netflix不仅成为娱乐圈里的谈资,亦成为数据革命的代表。《纸牌屋》不仅是Netflix网站上有史以来观看量最高的剧集,也在美国及40多个国家大热。Netflix产品创新副总裁托德·耶林(ToddYelin)称,其表现甚至“比我们最大胆的梦想都要好”。事实是,美国“白宫甄嬛传”、导演大卫·芬奇(DavidFincher)和老戏骨凯文·史派西(KevinSpacey),这些噱头只是用以吸引眼球的皮毛。最抓人的是,Netflix根据数据技术推导出《纸牌屋》的关键要素,喜欢BBC剧、大卫·芬奇和凯文·史派西的用户存在交集,这是多么酷的一件事。中国的乐视网一直关注Netflix的发展路径。“值得研究的是Netflix如何从后端数据推导出前台生产。”乐视网副总裁何凤云说。这种做法与旧传统是背道而驰的,以美国著名的有线电视网络媒体公司HBO为例,它对导演强烈的个性抱以完全的信任,全权委任导演去制片、编剧、挑选演员。而在中国,几大视频网站在自制剧时都有自己的选片团队,由他们为观众选择与确定导演,挑选剧本。多年前,依赖于种种技术,Netflix对数据的记忆能力已经炉火纯青。当一位用户通过浏览器登录Netflix账号,Netflix后台技术将用户位置数据、设备数据悄悄地记录下来。这些记忆代码还包括用户收看过程中所做的收藏、推荐到社交网络等动作。在Netflix看来,暂停、回放、快进、停止等动作都是一个行为,每天用户在Netflix上将产生高达3000多万个行为,此外Netflix的订阅用户每天还会给出400万个评分,300万次搜索请求,询问剧集播放时间和设备。没错,这些都被Netflix转化成代码,当作内容生产的元素记录下来。其首席内容官泰德表示,所有这些数据意味着,Netflix公司已经拥有“可寻址的观众”。早年间,Netflix利用上述数据提供一项推荐引擎业务。比如说,数千万用户能在一个个性化网页上对影片做出1-5的评级,这些评级构成了一个巨大数据池,如今这个数据池容量已超过近百亿条。根据数据池,Netflix使用推荐算法来识别具有相似品味的观众,然后对这一群体做出相关内容的精准推荐。法国电影《不要告诉任何人》在美国的票房收入惨淡,只有600万美元。可Netflix的工程师并不相信这个数字,他们通过上述数据挖掘技术,找到了不易察觉的点击量,而这些才是被隐藏的事实。2011年时,Netflix决定播放《不要告诉任何人》。如Netflix预测的一样,这部电影在播放后立即在最受瞩目的节目中排到第四位。里德·哈斯廷斯决定用事实告诉资本市场,数据不是花架子,而是地道的生产力。Netflix利用数据挖掘能力计算出可以赢的办法,1亿美元买下一部早在1990年就播出的BBC电视剧《纸牌屋》的版权,请来导演大卫·芬奇(DavidFincher),并由老戏骨凯文·史派西(KevinSpacey)担当男主角。1亿美元买下的《纸牌屋》总共2季26集,计算下来单集成本约为400万美元,远远高于美国一般电视剧的单集制作成本——150万至200万美元,也只有《广告狂人》、《斯巴达克斯》这类热播美剧才能达到200万美元左右。算下来,对于Netflix而言,只有新增100万一讲授用多媒体教学听课20-5-年期合约付费用户才能收回上述成本。Netflix并非没有计算过豪赌的回报,这样做不仅可以带来新增用户,更为重要的是它为Netflix开拓了上游市场,走上了自制剧之路。在《纸牌屋》之后,还将有四部自制剧在2013年登陆Netflix。这意味着,Netflix可以逐步降低对版权费用日趋高涨的好莱坞剧的依赖。关键是如何制作自制剧?国内视频网站意识到数据的重要性,也积累了大量数据。比如乐视网通过分析用户收看时间,在今年推出午间自制剧场。“但真正细致到使用数据来决定导演、演员,中国还没有哪家公司敢说他们能做到这点。”何凤云说。此外,即便是有了数据,中国的流媒体公司还不敢像Netflix那样将宝押在一部剧上,因为中国的付费市场尚未成熟,目前还主要依赖广告盈利,无法完全将用户需求作为中心。除此以外,一位视频行业的人士指出,在中国基于用户数据做出分析的同时,还要考虑广电审核的要素,一些领域与题材类型都要稍微收拢,“不是没法依赖数据,而是不能完全依赖数据,我们选择数据时也一定要结合中国国情。”任务4:网易数据工程师可以当“媒婆”?2012年底,网易旗下全新婚恋交友网站“花田”上线。花田以免费沟通为卖点,主打一二线城市中高端市场。摒弃了传统婚恋网站的“人工红娘”,花田不提供任何人工服务,从推荐到搜索全由系统自动完成。而业内的龙头老大世纪佳缘(Nasdaq:DATE),也在换帅之后摩拳擦掌,试图用大数据的精准化运营,为在海量异性资料中疲于搜索的用户“指一条明路”。一年前婚恋网站最爱喊“实名制”。通过对用户身份证或手机号码进行验证,网站可获得用户真实姓名、年龄、性别、地区等身份证数据,对防止诈骗有一定作用。但如今各家都有,这种传统打法就过气了。毕竟有身份证的人,不一定是有身份的人。婚恋网站已将条条框框的硬指标罗列齐全,使人几乎怀疑进入的是淘宝人肉市场。当身高、体重、年龄、学历等等都一一框定,一看还有2000个姑娘(小伙)符合要求,是时候让理性回归感性了。而这感性,又是建立在理性的数据分析之上。花田界面清新简洁,采用类似微博的信息流展示形式。首页是异性用户最近更新的图片、内心独白和文字传情,展示其生活方式、个人品味等软性资料。系统会自动推荐那些相对活跃、最近有信息流更新的人,这就促使用户拿出更新微博的劲头来更新花田,为花田积累了大量可供分析的软性数据。从用户的“内心独白”中提取出现频率较高的关键词;再将这些关键词分类,如感性词汇或理性词汇;最后,通过文本分析、语义分析,从中挖掘出用户的性格是内向、外向、理想化还是现实派等等。花田团队在对海量软硬数据进行分析的基础上,总结出一些人物特征,建立出一定数量的人物模型。再分析具体用户,将其分门别类套入各种模型。这样,用户心仪其中某一个人,便可向其推荐这一类人。这种模型不仅是性格模型,还包括外貌模型。更令人感兴趣的是,如果花田能够跨产品平台,结合网易门户、邮箱、游戏等其它网易资源进行大数据分析,是否就能向用户推荐与自身阅读习惯、工作习惯、娱乐习惯都匹配的对象呢?真正的大数据必然是讲授用多媒体教学听课20-6-跨平台的,而这点别家很难做到。虽然少了王子配灰姑娘的浪漫童话,倒也实实在在为用户省去不少筛选麻烦。数据分析不只可用于精准推荐,还能识别婚恋网站最为人
本文标题:第一讲数据挖掘与数据分析
链接地址:https://www.777doc.com/doc-2207196 .html