您好,欢迎访问三七文档
如何分析大数据大数据无处不在大数据来自哪里?现在有300亿个RFID记(2005年时有13亿)全球有46亿台照相手机每天有超过3亿活跃用户每年售出数亿台支持GPS的设备每天有超过1亿条消息截至2011年末网络上有超过20亿人在2009年有7600万台智能仪表……至2014年将达到2亿台每天有超过25TB日志数据“数据是新型石油”未开采的石油,没有什么价值。加工及提炼后,将助力世界。“越来越多的企业使用大众媒体去分析公众对产品的反馈,例如Facebook或Twitter,也有使用网站资源试着“了解客户,是什么让他们选择他们想要的东西”负责IBM预测分析项目的迪阿德瓦说。“大数据已抵达Seton医疗保健家庭,幸运的是,通过使用这个分析工具,每年超过200万复杂病例的患者得到了帮助…”“上个月在瑞士达沃斯举行的世界经济论坛上,大数据是一个热点话题。在论坛的一份报告《大数据,大影响》中声明:数据已成为一类新的经济资产,就像货币或黄金一样.“公司被数据淹没了—从客户的习惯到供应链的效率。但是许多经理却不能理解这些数据的意义.”奥斯卡情感测量—一种工具,是由洛杉矶时报、IBM和南加州大学安创新实验室共同开发“…现在,沃森正投入到工作中,消化了数百万页的研究,结合最佳的临床实践和监测结果,以协助医生治疗癌症患者.”的—分析意见,“主要针对Twitter上共享的百万条奥斯卡奖项比赛的公共信息做出的分析”意.”数据是新型石.为了实现新的机遇,您需要超越传统的数据来源交易型和应用程序数据机器数据社交数据企业内容数量结构化生产能力速度半结构化数据提取种类高度非结构化精确性种类高度非结构化数量20202010大数据的特点–4个V综合分析覆盖面越来越宽的种类(Variety)应对日益增长的速度(Velocity)有效地处理日益增长的数量(Volume)50x35ZB世界上80%的数据是非结构化的300亿RFID传感器和计数器建立大数据来源的真三分之一商界领袖感到无法信任那些帮实性(Veracity)助他们做决策的信息IBM大数据平台通过大数据能力取得突破性进展分析任意大数据类型具有独特的功能取得突破性进展可视化和发现了解您客户的一切交易型/应用数据零延迟操作Hadoop机器数据在速度和规模上实现新产品创新数据仓库社交媒体数据即时的欺诈和风险流计算内容意识利用仪表化资产整合与治理文本分析IBM大数据战略:使分析离数据更近新型分析应用程序需要一个大数据平台集成并管理不同种类、不同速率及不同流量的数据将高级分析应用于信息并且不改变信息的原本的格式将所有可用信息可视化,供即席分析使用为新型分析应用程序建立开发环境优化工作负载并安排进度安全和治理用大数据平台内的产品帮助入口点加速分析型应用BI/报告探索性/可视性功能性APP行业APP预测分析内容BI分/析Reporting1–解锁大数据IBMDataExplorerIBM大数据平台系统管理应用开发可视化&发现2–分析原始数据3–简化您的数据仓库IBMDataWarehouseSolutions加速器InfoSphereBigInsightsHadoop系统Stream流计算数据仓库信息整合&治理5–分析流数据4–用Hadoop降低成本InfoSphereStreamsInfoSphereBigInsightsIBM大数据典型应用架构–通信行业分析为例实时计算和处理流数据结构化或非结构化Network流计算流计算•Realtimemetricsanalysisandmodeling•Adtargeting•Realtimenextbestoffer•Frauddetection非结构化ReportingandAnalytics原始分析与展现Web结构化网络分析/社交媒体分析•Sentimentanalysis•LocationbasedReportingSocialHandset非结构化增强分析可查询的存档结构化BandwidthAMPUNetworkmarketing•Behavioralanalysis•MicrocustomersegmentationandAnalyticsHadoop增强分析SalesContentNetworkServicesSubscribers通用分析与挖掘•Subscriberanalysis•Networkanalysis•Financialreporting•Customersegmentation•CampaignmanagementELT数据仓库PartnersCallCenterEmployeeLocationReportingandAnalyticsIBM大数据产品组件IBM大数据平台组件分析型应用BI/报告探索性/可视性功能性APP行业APP预测分析内容BI分/析Reporting1–解锁大数据IBMDataExplorerIBM大数据平台系统管理应用开发可视化&发现2–分析原始数据3–简化您的数据仓库IBMDataWarehouseSolutions加速器InfoSphereBigInsightsHadoop系统Stream流计算数据仓库信息整合&治理5–分析流数据4–用Hadoop降低成本InfoSphereStreamsInfoSphereBigInsights1–解锁大数据客户需求–理解现有的数据来源–公布数据在现有的内容管理和文件系统的新用途,而不是把数据复制到一个中央位置–从经整合的数据源搜索并浏览大数据价值陈述–更快的达到、运行、发现并检索相关的大数据–在新的以信息为中心的应用中使用大数据源客户案例–用一个360度的视角将员工与大数据源联系起来项目开端:IBMDataExplorer海量数据管理中异构数据源的集成RelationalDataFileSystemsContentManagementEmailCRM数据管理平台终端用户SupplyChainIntegratedPlatformSystemsManagementApplicationDevelopmentVisualization&DiscoveryERPRSSFeedsAcceleratorsHadoopSystemStreamComputingDataWarehouseCommentingRatingTaggingCloudOAsystemSharedFoldersSocialToolsExternalSourcesInformationIntegration&Governance26非结构化数据管理框架ResultsReportApplicationPublishSearchSearchApplicationPresentApplicationFederatedSourcesApplicationSDKUserProfilesWebResultsSubscriptionFeedssAuthentication/AuthorizationQuerytransformationPersonalizationDisplayTextAnalyticsThesauriClusteringOntologySupportSearchEngineSemanticProcessingEntityExtractionRelevancyMeta-DataFacetingBITaggingTaxonomyCollaboration数据连接和集成框架CM,RM,DM27©2012IBMCorporationRDBMSFeedsWeb2.0EmailWebCRM,ERPFileSystemsDataExploer的主要优势1.独特的索引技术位置索引vs.向量索引2.可扩展架构分布式实时性容错性3.高级分析能力分析的弹性和艺术性元数据管理4.整合的强大的兼容能力多种数据源内嵌接口API开发能力5.先进的应用框架快速部署新的应用DataExplorer功能组件分析能力示例图形导航功能搜索结果自动聚类自定义内容分类协作交互功能30©2012IBMCorporation2–分析原始数据客户需求–提取数据并原样导入到Hadoop,从中派生洞察力–在Hadoop中处理大量的多样数据–将洞察力与数据仓库结合起来–用Hadoop进行低成本的ad-hoc分析,用来测试新的假设价值陈述–从多种数据源组合获取新的视角–克服将非结构化数据源结构化所耗费的过高成本–通过引进新的数据类型或者驱动新的分析类型,来扩展数据仓库的价值–用基于不同数据组合的实验去修改数据仓库内的分析模型客户案例–金融服务监管机构——管理额外的数据类型并与现有的数据仓库整合项目开端:InfoSphereBigInsightBigInsightsEnterpriseEditionComponentsVisualization&DiscoveryConnectorsSystemsManagementNetezzaBigSheetsJDBCDevelopmentToolsEclipsePlug-insTextAnalyticsMapReduceJaqlHiveQueryWebAdminConsoleStreamsDB2AdvancedEnginesTextProcessingEngineandExtractorLibraryFlumeRIBM-LZOCompressionEnhancedSecurityFlexibleSchedulerJaqlZooKeeperOozieAdaptiveMapReduceWorkloadOptimizationIntegratedInstallerRuntimeMapReduceBigIndexPigLuceneHiveFileSystemHDFSDataStoreHBaseColumnStoreBigInsights企业版&PlatformSymphony可视化和发现连接器开发工具EclipsePlug-ins系统管理文本分析BigSheetsJaqlMapReduceWeb管理控制JDBC台Hive查询Netezza工作量优化增强型引擎文本处理引擎和DB2提取器文库StreamsIBM-L增强的安全性JZooKeeperOozie自适自适应应RZO压缩压缩MaMapRepReducduceeaql灵活的排灵活的排程程器器Flume继承的安装器IBMPlatformSymphonyAdvancedEdition运行环境BigIndexPigLuceneHive文件系统HDFS数据存储HBaseColumnStoreIBMPlatformSymphony替代了开源Hadoop中的原生工作和任务跟踪设施,采用了经优化的低延迟MapReduce实现方式,完全兼容开源Hapdoop以提供增强的容量IBM组件开源(IBM)SymphonyIBM大数据平台优势扩展了IBMInfoSphereBigInsights的能力BI/ReportingExploration/VisualizationFunctionalAppIndustryAppPredictiveAnalyticsContentAnalyticsAnalyticApplications•MapReduce和Hadoop都采用集群管理–排程工作、管理资源、失败恢复–平台长期擅任BigDataPlatformSystemsManagementApplicationDevelopmentVisualization&Discovery•PlatformSymphony提供诸多重要优势AcceleratorsDataWarehouseHadoopSystemStreamComputing改进的性能更高效的基础设施利用多种多样、并发的工作量动态的资源配置快速的工作量优先占用InformationIntegration&GovernanceAgile,multi-tenantsharedinfrastruc
本文标题:如何分析大数据
链接地址:https://www.777doc.com/doc-28887 .html