您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 大数据与数据挖掘 - 1 概述
大数据与数据挖掘数据分析概述基于关系型数据库的数据挖掘互联网行业大数据存储参考架构GoogleGFSFacebookHaystackAmazonDynamoGoogleBigTable课程安排基于Hadoop的大数据处理MapReduceHDFS基于Hadoop扩展包的大数据处理PigHIVEHbaseZooKeeperSqoop上午9:00-12:00下午2:00-5:00数据的演变各行各业都在经历这数据大爆炸的时代!–纽约证交所每天产生的交易数据达1TB–FaceBook网站每周上传约10亿张60TB照片–日内瓦的大型强子对撞机每年产生15PB数据个人数据的产生量更是前所未有的增长–自己拍摄的照片,录制的视频,电话,邮件等机器产生的数据比人多–物联网:货物上的RFID标签,车载GPS跟踪定位–智慧星球:遍布各处的摄像头,空气质量检测器传统数据库面临的挑战数据量飞速增长、市场竞争加剧和互联网业务的增长对对传统商务智能(BI)的建设模式提出了挑战:大数据处理的机遇2014年,大数据市场正处于井喷式发展阶段,未来五年全球大数据市场价值将高达几百亿美元,随着企业对大数据价值的认识和相关产品技术及应用模式的不断成熟,大数据相关产业和服务将获得长足发展。在2012到2013年,天津、重庆、上海、陕西、广东等省市已经率先投入大数据产业全区的建设工作,在产业布局上形成区域特色、网状覆盖,多省联动的大数据产业网。以贵州为例:2014年2月,贵州印发《关于加快大数据产业发展应用若干政策的意见》,明确从2014年起连续3年,省和贵阳市、贵安新区每年各安排不少于1亿元资金,用于支持大数据产业发展及应用。大数据国家战略2014成两会焦点。雷军在《关于加快实施大数据国家战略的建议》中提到“目前国家层面上没有制定切实有效的大数据战略。我们迫切需要从国家层面上制定大数据发展规划。”汪洋倡导学大数据雷军示范“小米”的大数据5、立法1、基础设施2、产业链3、人才4、技术大数据发展的五大关键要素大数据潜藏着巨大的“基础设施”商机啤酒与尿布——业务分析的经典案例数据中心容量规划——IT分析的经典场景IBMWatson——基于大数据的认知计算2011年2月16日,IBM计算机“沃森”(Watson)在美国热门的电视智力问答节目“危险边缘”(Jeopardy!)中战胜了两位人类冠军选手,最终勇夺冠军宝座!危险边缘(Jeopardy!)以其复杂、微妙的文字游戏而著称,自然语言数据在真实世界中所产生的各种问题,都能在其中有所体现。这也是对于高级认知系统的一次公开实验:这种系统不是简单地程序化运行,而是能通过训练进行自主学习。沃森有潜力去分析海量内容,包括新的研究成果、公开发表的报告、病患的治疗效果以及各类文章和探讨结论,以帮助医生有据可依地进行科学决策。目前它正在维朋(WellPoint)公司的一个试点项目中担当重任,该公司管理的医疗保健计划覆盖全美九分之一的人口。在纪念斯隆-凯特琳癌症中心,沃森正在被训练来辅助诊断和治疗肿瘤病例。对银行而言,沃森可以解读财务、法规、经济和社会数据等信息,引导其更好地做出投资决策和服务。目前,花旗银行正在尝试使用沃森的深度内容分析和学习能力,来帮助全面改善银行业务体验。大数据的人才需求:大数据方案≠HadoopHadoop无法应对实时数据处理场景ETL,数据分析App大数据应用实时流处理持续采集流数据近实时分析分析人物与时间相关批处理与分析大量不同的数据源,结构化、非结构化、关系型、内存等…传感器网页互动社会媒体批处理与分析近实时分析实时流处理实时性离线准实时/实时实时处理时间分钟到小时毫秒到秒持续不断数据量TB-PBGB-TB持续编程模型MapReduceQueriesDAG用户分析师/开发者分析师/开发者开发者成本中高高应用ETL/数据挖掘/预处理/…数据决策分析/……实时数据流近实时数据流批量数据流数据源SymphonyEGOMapReduceSOAGPFS-FPO大数据的人才需求:大数据方案≠HadoopMapReduce只能代表大数据计算的一部分类型硬件平台资源管理计算调度接口支持应用支持插件支持MPIDDTVB6/COMPlatform资源管理基础架构(EGO)金融交易、风险评估、定价基于策略、分布式、高可用运行时平台EXEs数据转换、统计、分析、商业智能历史数据查询与分析互联网内容分析应用中间件集成数据挖掘机器学习In-houseapplicationsInfoSphereDataStagePageRankingClickStreamTextAnalyticsIndexingData-awareSchedulingEGOWSAPIIT资源管理监控大数据调度(SymM-R)低延迟调度(Sym)批作业调度(LSF)工作流调度(PPM)10Map-ReduceHPC图像渲染云存储工业仿真流计算CPU/内存密集消重游戏风险分析IO密集企业环境需要更多的计算类型大数据的人才需求:大数据总体架构BI/报告BI/报告探索/可视化功能应用行业应用预测分析内容分析分析应用程序智慧分析平台系统管理应用程序开发可视化与发现加速器信息集成和治理优化的Hadoop系统流计算数据仓库大数据时代下的智慧分析平台•集成并管理不同种类、不同速率及不同流量的数据•将高级分析应用于信息并且不改变信息的原本的格式•将所有可用信息可视化,供即席分析使用•为新型分析应用程序建立开发环境•优化工作负载并安排进度•安全和治理大数据的人才培养:从云计算起源说起•2006年8月9日,Google首席执行官EricSchmidt在硅谷举办的搜索引擎大会(SearchEngineStrategiesConference&Expo)首次提出“云计算”(CloudComputing)的概念。•2007年10月,Google与IBM开始在包括卡内基梅隆大学、麻省理工学院、斯坦福大学、加州大学柏克莱分校及马里兰大学等世界名校在内的美国大学校园推广云计算的计划•这项计划的源动力在于希望能够降低分布式计算技术在学术研究方面的成本,并为这些大学提供相关的软硬件设备及技术支持。•硬件平台包括IBMPC、BladeCenter与Systemx服务器共计约1600个CPU,支持包括Linux、Xen、Hadoop等开放源代码平台的运行。•学生可以通过网络参与各种以大规模分布式计算为基础的研究计划。大数据的人才培养:理论结合实践•大数据相关的各个技术领域都需要人才:NOSQL,流计算,数据仓库等•对于高校而言,教学环境建议立足于开源软件,即节约教育成本,又可提升学生的动手能力,提升对原理的深入理解,避免知其然不知其所以然•实现功能(开发)与功能可用(运维)同等重要,避免出现重功能轻维护的观念•业务需求与技术实现同等重要,避免出现为了大数据而大数据或者闭门造车的情况•如果企业愿意提供资助,也可成立联合实验室进行教学在学习中前进在实践中领会通过项目实战不断提升自我用开放包容的心态去面对海量数据处理需求数据清洗,转换,加载(ETL)–提取格式有效的log–网页反链,广告清理–过滤恶意点击、下载、刷流量的行为–数据按时间段、用户地理位置分桶–……商务智能分析(BusinessAnalytics)–统计互联网关键词的趋势–广告展示次数、点击次数–网页点击统计–博客统计、音乐下载统计–商品浏览次数统计、广告-成功购买转化率–……数据挖掘(DataMining)–相关性分析•Facebook和人人网:好友推荐功能•商品推荐•广告投放–用户偏好分析预测–…StorageSystems–TraditionalFileSystem–Loose-coupledNetworkFileSystem–SharedStorageFileSystem–Object-basedStorageSystemBigDataStorageSystems–GoogleGFS–FacebookHaystack–AmazonDynamo–YahooPNUTS–GoogleBigTableCloudStorageService–AmazonSimpleStorageService–GoogleStorageforDevelopersAgendaStorageSystems:Implementedentirelyinsoftware,oramixofsoftwareandhardware.–Afilesystemisamethodofstoringandorganizingcomputerfilesandtheirdata.–Adatabasemanagementsystem(DBMS)consistsofsoftwarethatoperatesdatabases,providingstorage,access,security,backupandotherfacilities.–Key,valuestorage不同存储系统具有不同数据模型以及不同的读写策略StorageSystemsPermanentstorageandaccess–DataModalandQuery–StorageDevice–Metadata:SavingSystemStatePerformance–Latency,Throughput,Concurrency,CapacityConsistency–Strongconsistency(relationaldatabases)–Deltaconsistency(globalDRsolutions)–Eventualconsistency(somedistributedcomputingmodels)Scalability–Scalehorizontally(scaleout)–Scalevertically(scaleup)Availability–ReliabilityKeyIssuesofStorageSystemL1cachereference0.5nsL2cachereference7nsMainmemoryreference100nsCompress1KbyteswithZippy3,000nsSend2Kbytesover1Gbpsnetwork20,000nsRead1MBsequentiallyfrommemory250,000nsRoundtripwithinsamedatacenter500,000nsDiskseek10,000,000nsRead1MBsequentiallyfromdisk20,000,000nsSendpacketCA-Netherlands-CA150,000,000nsSomedataneedtoknow(2009)L1cachereference0.5ns(手上)L2cachereference7ns(身旁)Mainmemoryreference100ns(路对面)Compress1KbyteswithZippy3,000ns(白堤)Send2Kbytesover1Gbpsnetwork20,000ns(三潭印月)Read1MBsequentiallyfrommemory250,000ns(萧山机场)Roundtripwithinsamedatacenter500,000ns(绍兴)Diskseek10,000,000ns(长崎)Read1MBsequentiallyfromdisk20,000,000ns(大理)SendpacketCA-Netherlands-CA150,000,000ns(纽约)若CPU在断桥残雪且可以1ns飞行往返0.1米距离(注意!这是光在光纤中的传播速度!)TraditionalFileSystemSharedStorageFileSystemLoose-coupledNetworkFileSystemObject-basedStorageSystemBigDataStorageSystemsT
本文标题:大数据与数据挖掘 - 1 概述
链接地址:https://www.777doc.com/doc-5857532 .html