您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据时代的挑战-gaozhijun
大数据时代世界的本质就是数据,大数据将开启一次重大的时代转型生活、工作与思维的大变革目录2.大数据的价值1.什么是大数据3.大数据的应用4.电信大数据解决思路5.大数据的学习我眼中的大数据大数据是由大量异构的数据组成的数据集合,它是可以采用合理的数学算法或工具从中找出有价值的信息,为人们带来利益的一门新兴学科。交易数据交互数据传感数据数据体量巨大(Volume)数据类型繁多(Variety)价值密度低(Value)处理速度快(Velocity)大数据定义百度百科:大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。维基百科:大数据是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的整合共享,交叉复用形成的智力资源和知识服务能力。大数据大数据时代的诞生的背景facebook社交网络…淘宝、ebuy电子商务…微博、Apps移动互联…21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据也迅速的产生、膨胀并变大。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。“大数据”的诞生:半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出了“大数据”这个概念。如今,这个概念几乎应用到了所有人类智力与发展的领域中。大数据诞生的背景:海量数据增长2009年:0.8ZB44倍的增长2020年:35.2Zettabytes传统企业数据(Traditionalenterprisedata)机器和传感器数据(Machine-generated/sensordata)社交数据(Socialdata)大数据的4V特点“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。VolumeVelocityValueVariety大数据的特征数据量巨大,具体多大量的数据才能算做大数据是没有统一标准,数据量越大越容易得出准确的预测结果(PB-EB-ZB-YB-NB-DB)。实效性高,比传统方式更快得到正确的结果,才真正的体现出大数据的价值。主要用于预测,目前的大数据领域主要工作方式是通过计算机的强大数据处理能力从海量的数据中找到人们依靠以往经验很难发现和理解的关联,通过对这些关联来进行预测,发现更多的有价值的信息。更关注相关性,即“结果是什么”,至于“为什么会这样”,大数据本身往往并不能给出答案。数据分析法非常复杂,依靠传统关系性数据库BI分析已经不是太适合了。大数据采用的相关关系分析方法更准确、更快,而且不容易受到偏见的影响。建立在相关关系分析法基础上的预测是大数据的核心大数据与传统数据库的区别一:结构化程度方面传统数据库保存的是结构化或者半结构化的数据,以二维表或者标准XML文件的方式存储数据,由于结构清晰,处理相对容易;大数据面向的是一切计算机可以存储的数据格式,包括互联网上的各种网页、图片、音频、视频,包括办公文档、报表,包括人们在搜索引擎中输入的关键词、在社交网络中的留言、喜好,也包括各种传感器自动收集的监控结果等等,显然不同格式的数据在处理起来时更加困难。二:异常数据的处理方面传统数据库通常把异常数据先剔除,应用在需要高精确度的领域,如银行对每个账户的管理上;大数据则允许异常数据存在,从大量数据中找出隐藏的关联关系,少量异常数据不会对总体结果产生影响。更多应用在预测方面。大数据是传统数据库学科的分支——在数据仓库与数据挖掘的基础上进一步发展起来的。但有两点比较主要的不同:大数据与其他新兴技术的联系大数据、物联网、云计算、移动通信等都是近年涌现出来的新兴概念,彼此之间不是孤立的,而是存在着内部联系大数据与云计算的关系商业模式驱动应用需求驱动云计算本身也是大数据的一种业务模式通过大数据的业务需求,为云计算的落地找到了实际应用云计算改变了IT,而大数据则改变了业务云计算是大数据的IT基础,大数据须有云计算作为基础架构,才能高效运行大数据不是云计算,是云计算的灵魂和升级方向大数据带来的思维方式的转变处理的对象往往是全部数据,而不是部分数据的采样不是随机样本,而是全部数据。在以往计算机存储和处理能力较弱的情况下,我们会先对数据进行采样,然后进行处理,采样的不合理会导致预测结果的偏差,在大数据时代,依靠强大的数据处理能力,处理全部的数据,实现提升预测的准确性。不再执迷于精确性不是精确性,而是混杂性。精确的、规范化的可以被处理的数据只占全部数据的5%,只有接受不精确性才能处理另外95%的数据,执迷于精确性是信息缺乏时代和模拟时代的产物。错误的数据是客观存在的,竭力避免它就失去了应有的客观性和公平性。大量案例表明,靠改进算法能够提高的有效性远不如增大数据量更有效。只有接受不精确性,我们才能打开一扇从未涉及的世界的窗户。关注事物相关性,而不是因果性不是因果关系,而是相关关系。预测依靠于事物的相关性。在人类进化过程中更专注于研究因果关系,但大数据进行预测更多是依靠相关关性,在大数据环境下,我们没必要知道现象背后的原因,知道“是什么”就够了,不必知道“为什么”。软件是大数据的引擎和推动剂和数据中心(DataCenter)一样,软件是大数据的驱动力软件改变世界!用户在线的每一次点击,每一次评论,每一个视频点播,就是大数据的典型来源。互联网企业之所以取得令人瞩目的成绩,其核心的本质就是对用户网络操作的大数据进行记录,通过分析,形成用户“行为指纹”,从而洞悉用户潜在的、真实的需求,形成预判,实现大数据的价值。如今,我们处在大数据时代,海量的数据正在源源不断的产生,如何挖掘数据的价值是我们面临的机遇,软件是真正推动大数据前进的引擎。大数据相关技术分析技术:•数据处理:自然语言处理技术•统计和分析:A/Btest;topN排行榜;地域占比;文本情感分析•数据挖掘:关联规则分析;分类;聚类•模型预测:预测模型;机器学习;建模仿真大数据技术:•数据采集:ETL工具•数据存取:关系数据库;NoSQL;SQL等•基础架构支持:云存储;分布式文件系统等•计算结果展现:云计算;标签云;关系图等存储•结构化数据:海量数据的查询、统计、更新等操作效率低•非结构化数据图片、视频、word、pdf、ppt等文件存储不利于检索、查询和存储•半结构化数据转换为结构化存储按照非结构化存储解决方案:•Hadoop(MapReduce技术)•流计算(twitter的storm和yahoo!的S4)大数据带来的机遇与风险大数据是一个新兴的学科领域,机遇与风险并存。依靠大数据可以为人类带来很多好处,可以发现以往不曾发现的关联,可以创造出更多的新价值,可以推动社会进步。但大数据在发展的过程中,也面临着诸多风险,例如如何保护个人的隐私?如何防止从大量错误的数据中得到错误的结论?诸多的风险也需要我们认真的思考。机遇大数据能够为人类带来新的理念、新的价值,推动社会的快速进步,能够让人类发现一些以往未曾发现的潜在关联。风险个人隐私如何保护数据垄断、独裁数据主宰一切应对人们应该建立完善的大数据法律体系。人类不能完全依赖于从数据中产生的结果,还要有自己的思考,妥善处理二者的关系。目录2.大数据的价值1.什么是大数据3.大数据的应用4.电信大数据解决思路5.大数据的学习如今我们正处在大数据时代Google、IBM、Amazon、Oracle、Microsoft、EMC等IT行业巨头已经在大数据产业链开始行动,从不同的角度挖掘大数据的价值。腾讯、百度、新浪、淘宝等国内知名互联网和电商公司也快速加入到大数据队伍中,对已经持有的大数据进行挖掘,以便改善自身的服务。大数据正在改变我们的生活以及我们理解世界的方式,而更多的改变正蓄势待发……。大数据的价值大数据不仅仅是“大”多大?PB级比大更重要的是数据的复杂性。如何发现大数据中的有价值的小数据,将是具有颠覆性的意义实际上,如果你有数据,不管你什么样的方式,如果不能很快去分析出来,你的数据永远只是一些数字而已,产生不了任何的商业价值。大数据的真正意义-就是如何让数据变的更有价值大数据在商业领域体现出的价值数据数据的掌控者。拥有或者可以收集大量数据的公司。海量的数据就是财富,可以考虑自己分析或者卖数据给其他公司。技术技术供应商或者分析公司。掌握了从海量数据中分析出有用信息的技能或者工具,但本身不一定拥有数据,但是他们技术能够挖掘数据出的价值。思维有创新思维的人或者公司。他们对大数据敏感,拥有如何挖掘数据新价值的独特想法。往往能够创立新型的商业模式或者公司,然后发展扩大或者出售给其他公司。大数据价值链的3大构成:数据、技术、思维大数据的价值微博为新浪带来巨大价值马云的判断来自于数据分析“2008年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再获得数据;而我们提前半年时间从询盘上推断出世界贸易发生变化了。”马云对未来的预测,是建立在对用户行文分析的基础上。通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值,综合各个维度的数据可建立用户行为模型。因为数据样本巨大,保证用户行为模型的准确性。因此在这个案例中,询盘数据的下降,自然导致买盘的下降。腾讯在天津投资建立亚洲最大的数据中心;百度也在投资建立大数据处理中心;新浪推出企业微博产品,提供精准的数据分析服务。大数据的价值雅虎提供静态的导航信息Google分析用户搜索信息,满足用户需求Facebook用户产生内容,创造需求。前瞻来看,随着互联网对网民的理解,网民对网络的反作用,互联网将变得越来越智能。它在满足你需求的同时,也在创造新的需求。前者的代表是Google,后者的典型则是Facebook。谷歌的盈利在于所有的软件应用都是在线的。用户在免费使用这些产品的同时,把个人的行为、喜好等信息也免费的送给了Google。因此Google的产品线越丰富,他对用户的理解就越深入,他的广告就越精准。广告的价值就越高。这是正向的循环,谷歌用好用的、免费的软件产品,换取对用户的理解;通过精准的广告,找到生财之道。颠覆了微软卖软件拷贝赚钱的模式。成为互联网的巨擘。互联网越来越智能Google精确掌握用户行为、获取需求大数据的价值大数据的价值不仅仅在精准营销的领域。通过用户行为分析实现精准营销是大数据的典型应用场景。但是大数据在各行各业特别是公共服务领域具有广阔的应用前景。气象军事消费行业金融服务食品安全医疗卫生交通环保电子商务大数据的科学价值和社会价值体现:一方面,对大数据的掌控程度可以转化为经济价值的来源。另一方面,大数据已经撼动了世界的方方面面,从商业科技到医疗、政府、教育、经济、人文以及社会的其他各个领域。在不久的将来,世界许多现在单纯依靠人类判断力的领域都会被计算机系统所改变甚至取代,亚马逊可以帮我们推荐想要的书,谷歌可以为关联网站排序,facebook知道我们的喜好,而LinkedIn可以猜出我们认识谁。当然,同样的技术也可以运用到疾病诊断、推荐治疗措施,甚至是识别潜在犯罪分子。最终,我们都将从大数据中获的更多的利益。大数据的价值-目标目录2.大数据的价值1.什么是大数据3.大数据的应用4.电信大数据解决思路5.大数据的学习哪些行业适合用大数据应用可能性电信政府(公共事业)交通金融医疗教育能源(电力/石油)•纵轴契合度:表示该用户的IT应用特点与大数据特性的契合程度;•横轴
本文标题:大数据时代的挑战-gaozhijun
链接地址:https://www.777doc.com/doc-2512048 .html