您好,欢迎访问三七文档
浅谈大数据预测未来最好的方法,就是去创造未来。——PeterF.Drucker目录认识大数据大数据与数据挖掘分析大数据的未来123某披萨店的电话铃响了,客服人员拿起电话:客服:XXX披萨店,您好,请问有什么需要我为您服务?顾客:你好,我想要一份……客服:先生,烦请您先把您的会员卡号告诉我。顾客:16846146……客服:陈先生,您好!您是住在泉州路一号12楼1205室,您家电话是2642****,您公司电话是46666***,您的手机号是1391234****。请问您想用哪一个电话付费?顾客:你为什么知道我所有的电话?客服:陈先生,因为我们联机到CRM系统。顾客:我想要一个海鲜披萨……客服:陈先生,海鲜披萨不适合您。顾客:为什么?客服:根据您的医疗记录,你的血压和胆固醇都偏高。顾客:那你们有什么可以推荐的?客服:您可以试试我们的低脂健康披萨。有关大数据的一个笑话顾客:你怎么知道我会喜欢吃这种的?客服:您上星期一在中央图书馆借了一本《低脂健康食谱》。顾客:好。那我要一个家庭特大号比萨,要付多少钱?客服:99元,这个足够您一家六口吃了。但您母亲应该少吃,她上个月刚刚做了心脏搭桥手术,还处在恢复期。顾客:那可以刷卡吗?客服:陈先生,对不起。请您付现款,因为您的信用卡已经刷爆了,您现在还欠银行4807元,而且还不包括房贷利息。顾客:那我先去附近的提款机提款。客服:陈先生,根据您的记录,您已经超过今日提款限额。顾客:算了,你们直接把比萨送我家吧,家里有现金。你们多久会送到?客服:大约30分钟。如果您不想等,可以自己骑车来。顾客:为什么?客服:根据我们CRM全球定位系统的车辆行驶自动跟踪系统记录。您登记有一辆车号为SB-748的摩托车,而目前您正在解放路东段华联商场右侧骑着这辆摩托车。顾客当即晕倒。大数据应用的一个案例啤酒与尿布的故事在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这是一个发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。原来,美国的妇女们经常会嘱咐她们的丈夫下班以后要为孩子买尿布。而丈夫在买完尿布之后又要顺手买回自己爱喝的啤酒,因此啤酒和尿布在一起购买的机会还是很多的。大数据的概念可以用一句话概括:以场景化应用为根本,以云存储、云计算、Hadoop等先进技术为工具,以数据监测为基础,以关联预测为核心的企业数据化管理新模式。从技术层面来说:大数据指在云存储、云计算的前提下,运用Hadoop等技术对Exabyte/Zettabyte级别的非结构化数据进行实时处理与深度挖掘的运算模式;从应用层面来说:大数据注重对全量数据的分析处理,以关联预测为核心,以场景化应用为先导,侧重对客户行为的监控与洞察,通过数据挖掘分析,助力企业优化经营决策。大数据的定义大数据的几个关键问题(1/2)大数据的“4V特性”(大体量、多样性、时效性、精确性)决定了大数据的处理首先要解决以下几个关键问题:容量问题这里所说的“大容量”通常可达到PB级的数据规模,存储系统的扩展一定要简便,可以通过增加模块或磁盘柜来增加容量,甚至不需要停机。延迟问题“大数据”应用还存在实时性的问题。特别是涉及到与网上交易或者金融类相关的应用。有很多“大数据”应用环境需要较高的IOPS性能,比如HPC高性能计算。安全问题某些特殊行业的应用,比如金融数据、医疗信息以及政府情报等都有自己的安全标准和保密性需求。大数据的几个关键问题(2/2)成本问题对于那些正在使用大数据环境的企业来说,成本控制是关键的问题。想控制成本,就意味着我们要让每一台设备都实现更高的“效率”,同时还要减少那些昂贵的部件。数据的积累比如医疗信息、财务信息通常要保存7年,而有些使用大数据存储的用户却希望数据能够保存更长的时间,因为任何数据都是历史记录的一部分,而且数据的分析大都是基于时间段进行。灵活性大数据存储系统的基础设施规模通常都很大,因此必须经过仔细设计,才能保证存储系统的灵活性,使其能够随着应用分析软件一起扩容及扩展。认识大数据大数据与数据挖掘分析大数据的未来123大数据时代,数据挖掘是最为关键的工作。大数据的核心并非数据的体量,而是如何进行价值挖掘,大数据将改变传统的个人生活与商业模式。大数据其实就是一堆杂乱无章的数据,本身是无法产生任何作用的,如果想让其产生价值,就需要运用一些处理方法,而数据挖掘是处理这些海量数据的关键技术。数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识。大数据的方向应在数据分析及挖掘领域,多维数据分析应该会成为未来趋势。数据挖掘数据挖掘(DataMining),也称数据融合、模式识别,即从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、事先不知道的、但又有潜在价值的信息和知识的过程。这个定义包括以下几层含义:1)数据源必须是真实的、大量的、含噪声的;2)发现的是用户感兴趣的知识;3)发现的知识要可接受、可理解、可运用;4)并不要求发现放之四海皆准的知识,仅支持特定的发现问题。数据挖掘常用方法利用数据挖掘进行数据分析的常用方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等,分别从不同的角度对数据进行挖掘。“啤酒”和“尿布”两个看上去没有关系的商品放在一起进行销售、并获得了很好的销售收益,这种现象就是卖场中商品之间关联性,研究“啤酒与尿布”关联的方法就是关联规则分析法,又称“购物篮分析”。商品相关性分析是购物篮分析中最重要的部分,在数据分析行业,将购物篮的商品相关性分析称为“数据挖掘算法之王”。认识大数据大数据与数据挖掘分析大数据的未来123设想一数据服务如水即开即用Google、百度、亚马逊等巨头将建立起完善的大数据服务基础架构及商业化模式,从数据的存储、挖掘、管理、计算等方面提供一站式服务,将各行各业的数据孤岛打通互联。在用户与数据服务商之间是算法提供商,他们雇佣专业领域的精英人才与数据科学家,通过数据挖掘的方式,寻找事物间的联系,如基因集与疾病的对应关系,大气状况如何影响农作物收成,以及某一款酒类广告如何带动鲜花的销售。而用户(无论个人或组织)所需要做的便是像今天下载手机App一样,选择相应的数据服务端,付费,享受“N=All”的实时数据所带来的深刻洞察与行动指南。设想二大数据浪潮席卷全行业个人的生活数据将被实时采集上传,饮食、健康、出行、家居、医疗、购物、社交,大数据服务将被广泛运用并对用户生活质量产生革命性的提升,一切服务都将以个性化的方式为每一个“你”量身定制,为每一个行为提供基于历史数据与实时动态所产生的智能决策。在传统领域大数据同样将发挥巨大作用:帮助农业根据环境气候土壤作物状况进行超精细化耕作;在工业生产领域全盘把握供需平衡,挖掘创新增长点;交通领域实现智能辅助乃至无人驾驶,堵车与事故将成为历史;能源产业将实现精确预测及产量实时调控。大数据将成为国家间竞合关系的最高依据,同时也是最高机密,数据战争将成为战争的主要形式。设想三人工智能全面渗透人类生活从苹果的Siri到Google的机器翻译,再到百度的深度学习及“百度大脑”,商业与技术的频繁互动将极大提升人工智能的进化速度。机器将得以理解人类文字、语音、图像、动作甚至表情背后的微妙含义,并以大数据为支撑,为人类提供效率与个性兼备的决策与服务;想象一次旅行,人工智能分析你以往出行记录以及近期生活轨迹,结合对各大旅游景点、交通状况、天气预测等数据分析,提供给你最贴合心意的目的地,规划好线路的无人驾驶车辆依照行程将你送至景点,并根据你的行程及时调配车辆接送。所有的酒店、餐饮、服务都已经依照你的生活数据进行深度订制。认识大数据大数据与数据挖掘分析大数据的未来123运营商在大数据中做的相关工作在运营商的实践过程当中,我们对数据挖掘、数据处理、数据分析的实时性需求越来越迫切。大数据方面我们同时关注分析型的产品和交易型的产品。分析型产品目前主要基于Hadoop,在Hadoop这块我们目前结合自己需求做中国移动的分支BCHadoop,我们现在把BCHadoop也做了一个开源,在今年CCF的创业大赛上,我们中国移动出的这两道题基本上在中国移动BCHadoop上进行实现。另外我们在Hadoop基础之上做了做了一个数据仓库和一个数据挖掘系统,主要基于中国移动自己的经营需求做了分类规则等等的方法,在社区文本挖掘方面做了相关算法和工具,在搜索引擎方面也做了一些工作。
本文标题:科普版浅谈大数据
链接地址:https://www.777doc.com/doc-2269585 .html