您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 微软大数据解决方案交流44
微软银行业大数据解决方案交流PresalesArchitect,微软服务部目录大数据分析挑战微软解决方案介绍大数据案例分享数据复杂度:多元性和速度TerabytesGigabytesMegabytesPetabytesBigDataWeb2.0ERP/CRM付款薪资货存联系人订单跟踪销售管道Web日志数字市场搜索市场网上推荐广告移动协作电子商务网页点击流Wikis/博客传感器/RFID/设备社交网络音频/视频日志文件空间&GPS坐标数据数据集市电子政务气候文本/图像未来数年数据量会呈现指数增长。根据麦肯锡全球研究院(MGI)估计,全球企业2010年在硬盘上存储了超过7ZB(1ZB等于10亿GB)的新数据,而消费者在PC和笔记本等设备上存储了超过6EB新数据。1ZB数据相当于美国国会图书馆中存储的数据的4000多倍。“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合”—维基百科8万亿GB2015全球信息量1s数据处理速度85%非结构化数据占比数据价值Volume数据体量大Variety数据类型多Velocity处理速度快Value•大数据的4V特点:Volume,Variety,Velocity,Value•传统DW系统不适用于大数据的分析•数据量过于庞大•绝大部分大数据是垃圾•大数据的多样化格式•时效性高•需要革新性的技术手段•海量数据“分而治之”------批量分布式并行计算Hadoop•海量数据“灵活多变”------实时分布式高吞吐高并发数据存取处理NoSQL•海量数据“实时响应”------大数据流计算模型5更高一层数据层面整合企业内外部6大数据改变数据分析思维过去,由于数据获取的困难程度,人们在分析数据时倾向于使用抽样数据,并通过不断改进抽样方法以提升样本的精确性,从而对整体数据进行推算,并竭力挖掘数据间的因果关系。但当前数据处理思维方式正逐步向全体性、混沌性以及相关性演变,以适应数据量的爆发式增长。10全体数据混杂数据精确数据抽样数据因果关系相关关系采样的目的在于用最少的数据得到最多的信息,但在样本分析过程中不可避免会有一部分信息丢失。在可以获得海量数据的情况下,对全体数据进行挖掘和分析可以获得更多信息。只有15%的数据是结构化且能适用于传统数据化的,接受不精确性能使更多的非结构化数据得到利用。建立在相关关系分析法上基础上的预测是大数据的核心。传统大数据7传统BI分析批处理大数据分析集群化事务关系型数据库数据仓库分析非结构化流式分析组织多种数据源(MapReduce)•结构化数据•数据规模一般为TB规模•集中式,为了分析进行大量数据移动,数据向计算靠近•批处理为主•结构化/非结构化混合分析的能力•数据规模从数十TB到PB级别•分布式,计算向数据靠近•支持流式分析811来源:ForresterResearch,2012年6月全球大数据在线调查集成大数据和数据仓库功能以增加运营效率需要利用多种类型数据扩展仓库基础架构•通过将很少使用的数据迁移到Hadoop来优化存储、维护和许可成本•通过智能处理流数据来降低存储成本•通过确定仓库中要填充的数据来改善仓库性能•深度分析所需要的结构化、非结构化和流数据源•低延迟要求(几小时,而非几周或几个月)•提供对数据的查询访问10流Internet级别传统数据仓库In-MotionAnalyticsDataAnalytics,DataOperations&ModelBuildingResultsInternetScaleDatabase&WarehouseAt-RestDataAnalyticsResultsUltraLowLatencyResults传统/关系型数据源非传统/非关系型数据源传统/关系型数据源非传统/非关系型数据源100111STREAMING11大数据技术是一系列技术的集合,是传统数据结构化数据与非结构化技术与数据的整合,并基于这些技术与数据进行综合的商业智能应用,包括数据分析与数据挖掘等。BI/报告BI/报告探索/可视化功能应用行业应用预测分析内容分析应用程序数据分析系统管理数据分析应用开发数据整合与治理Hadoop系统流计算数据仓库目录大数据分析挑战微软解决方案介绍大数据案例分享13深刻的数据洞察自助式服务|协作|移动化|实时/准实时非结构化数据100111多样的数据管理结构化数据流数据共享与治理挖掘与关联分析转换清洗丰富的数据加工14非结构化数据c.建立对非结构化数据进行SQL语法查询的支持,实现与结构化数据的集成关联(key)主分类关键词标签地名人名全国统一分类分词,倒排搜索共性、个性文本识别处理功能模块网页分类反向搜索关键词分析日志关联内容分词索引建立索引分析日志合并用户类别标签摘要结构化元信息网页信息分类数据获取语义分析数据解析数据获取结构化数据数据集市数据集市EDW结构化元数据Hadoopa.建立非结构化信息的标签、摘要、索引、日志、内容等b.提取结构化的元数据信息,如类别、标引、摘要等;实现与结构化数据的整合ODSSQL声誉度分析品牌分析服务质量分析竞争产品分析产品评价市场动态跟踪15EDWAPPSBizprocessERP,CRMDMDMDMETL数据源基础架构分析组件业务用户Structured:e.g.MM/DD/YYYYKnown,knownSemi-structured:e.g.weblogs,sensordataKnown,unknownUn-structured:e.g.text,video,audio,Unknown,unknownBusinessUsersMachinesDevices“TheInternetofThings”DataScientistsCollaboration&SocialEmail,blogs,documentsEveryoneIndexingengineAlgorithmsVisualizationAnalyticsDataSearchPresentationReportingAnalysisDataHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFS16InformationFlow–TraditionalBIInformationFlow–UnstructureddatatoBIInformationFlow–Semi-structureddatatoBIInformationFlow–Search常见架构+PBTB一体机MPPDWMPPDM传统的BI系统架构并非一无是处,同样值得我们学习借鉴++18MS大数据解决方案总体架构19微软大数据产品架构FastLoadSourceSystemsHistoricalData(BeyondActiveWindow)Summarize&LoadBigDataSources(Raw,Unstructured)Alerts,NotificationsData&ComputeIntensiveApplicationERPCRMLOBAPPSIntegrate/EnrichSQLServerStreamInsightSQLServerParallelDataWarehouseEnterpriseETLwithSSIS,DQS,MDSHadooponWindowsAzureHadooponWindowsServerSQLServerFTDWDataMartsSQLServerReportingServicesSQLServerAnalysisServerBusinessInsightsInteractiveReportsPerformanceScorecardsCrawlersBotsDevicesSensors20结构化数据MicrosoftSQLServer2012和SQLServerParallelDataWarehouse设备提供一种方法来管理结构化数据。流数据SQLServerStreamInsight组件实现了对新的数据格式的支持,其中包括流数据。非结构化数据部署在WindowsAzure和WindowsServer上的基于Hadoop的服务使您能够快速处理PB级的非结构化的数据。21大规模并行处理引擎MassivelyParallelProcessing(MPP)PDW作为SQLServer的横向扩展解决方案…MPP提供线性横向扩展能力•MassivelyParallelProcessing(MPP)大规模并行处理架构•横向扩展:按需添加硬件实现线性扩展•无共享架构最小(0TB)到最大(6PB)•从几个TB的小型数据仓库开始•扩展到6PB比SMPDW快10倍复杂作业计算线性扩展扩展灵活方便(Noforklift)聚沙成塔成长无限容量最大随需扩容PB宕机为零高枕无忧22Hadoop的典型应用场景•用户行为分析•跟踪用户在网站上的点击路径,分析其购买习惯•根据用户属性,猜测用户感兴趣的商品,定向推广•根据N度客户,发掘潜在的客户群体•日志存储、分析•日志分布在多台服务器,查找问题困难,跨系统应用日志分析、系统性能分析等•上传文件存储•各业务系统上传的文件、图片统一保存23MS与Hadoop•基于ApacheHadoop的WindowsServer和WindowsAzure,以及AD的支持•HDInsightServer•HDInsightService•HiveODBCDriver和Add-inforExcel•JavaScriptFrameworkforHadoop•SQLServerandSQLServerParallel数据WarehouseconnectionsforHadoop•Sharepoint,Powerpivot和Powerview作为前端展示24数据价值&访问频度MPP数据库结构化数据传统BI工具HDP半结构化和非结构化数据历史数据分析数据生命周期&数据规模•HDP在hadoop上增加了:集群管理能力,工作流,安全管理,并融入了数据分析,机器学习技术以及文本数据分析挖掘。•所有的这些增强都是为了更好的使得该方案能适用于复杂的,海量数据的分析。•HDP是对传统数据仓库的一种补充和延伸,整体构成一个更广义的海量数据仓库。HDP海量大数据仓库25Hive、Sqoop当前大数据分析面临的挑战Warehouse要求学习和掌握Map-Reduce技术需要IT人员将HDFS中的数据倒入数据仓库或集市中,才能用于后继的分析HDFS(Hadoop)HDFS(Hadoop)——大量新技术需要学习掌握、周期长、见效慢传统BIEDWConnectorforHadoopETL/ELT•Hadoop:成本低、扩展性好、数据加载快、并发处理强•EDW:SQL查询执行性能高,包括Ad-hoc、OLAP、报表等HiveODBCDriver26基于PolyBase的全方位数据整合能力•穿越结构化和非结构化数据的访问•数据库和Hadoop的混合分析支持•透明的应用访问SocialAppsSensor&RFIDMobileAppsWebApps非结构化数据结构化数据数据库文件系统HDFS混合动力引擎PolyBaseSQL关系型数据库•通过统一的查询,同时访问结构化和非结构化数据•沿用标准的SQL语句进行访问•Select,FromWhere低延迟可扩展流数据计算平台StreamInsight用于大数据领域实时高频数据分析处理一个处理流数据的低延迟平台毫秒级,甚至微妙级端到端的延迟一个可高度扩展的,用于实时分析的高性能平台通过横向增加硬件获得近线性的处理能力扩展高达125个节点扩展一个灵活的、动态的平台Streams应用灵活部署支持动态部署新的分析应用每秒数以百万计的事件微秒级延迟传统/非传统数据源实时决策强大分析算法交易TelcochurnpredictSmartGrid
本文标题:微软大数据解决方案交流44
链接地址:https://www.777doc.com/doc-29347 .html