您好,欢迎访问三七文档
©2011IBMCorporationSmarterSystemsforaSmarterPlanetSystemX,IBMSTGIBM资深架构师何裕涛heyutao@cn.ibm.comIBM大数据解决方案IBMSystemandTechnologyGroup©2013IBMCorporationPage2IBMConfidential议程•大数据背景简介•大数据平台参考架构•推荐软件•推荐硬件•参考案例•解决方案优势分析IBMSystemandTechnologyGroup©2013IBMCorporationPage3IBMConfidential想象一下可以用哪些方式利用您的数据资源零售商可以减少80%的查询时间从而优化库存证券交易所将2PB数据的查询时间从26小时缩减到2分钟政府将声学分析从小时级降低到70毫秒基础设施建设通过几分钟内10PB的数据分析能力来避免停电电信网络数据流分析使硬件成本降低90%医院流数据分析为疾病检测争取到生死攸关的24小时今天,每个企业和组织都面临着大数据的挑战IBMSystemandTechnologyGroup©2013IBMCorporationPage4IBMConfidential大数据的特点综合分析覆盖面越来越宽的种类应对日益增长的速度有效地处理日益增长的数量建立大数据来源的真实性三分之一商界领袖感到无法信任那些帮助他们做决策的信息50x35ZB20202010300亿RFID传感器和计数器世界上80%的数据是非结构化的IBMSystemandTechnologyGroup©2013IBMCorporationPage5IBMConfidential大数据解决方案出现之前传统的计算模式数据源数据抽取数据仓库场景模型策略/计划平衡计分卡预测/预报绩效分析价值分析数据集市数据分析前端展示风险分析企业数据仓库数据仓库事实表ETL工具数据管理基于门户的Web页面固定报表多维分析即席查询数据集市MOLAPRelational立方体管理行业情报ERPHRSCMCRMStatistics外部数据财务预算数据员工状态设备状态客户信息分析报告ETL:抽取、转换和加载IBMSystemandTechnologyGroup©2013IBMCorporationPage6IBMConfidential数据源数据抽取数据仓库场景模型策略/计划平衡计分卡预测/预报绩效分析价值分析数据集市数据分析前端展示风险分析企业数据仓库数据仓库事实表ETL工具数据管理基于门户的Web页面固定报表多维分析即席查询数据集市MOLAPRelational立方体管理行业情报ERPHRSCMCRMStatistics外部数据财务预算数据员工状态设备状态客户信息分析报告ETL:抽取、转换和加载电商、微博、社交网站、平安城市等产生大量社交数据、日志、图片、视音频数据„.海量数据汇总、统计耗时太长,满足不了业务部门的时效性需求;传统计算模式遇到的困难某些业务部门需要实时数据分析,数据一边产生,一边进行分析,以应对市场压力数据产生速度快,数据量巨大,种类繁多,非结构化数据占了80%以上•越来越多的客户期望不再依赖价格高昂的大型专有设备,而是希望能通过大量x86服务器集群,以最符合经济效益的方式完成庞大的计算任务IBMSystemandTechnologyGroup©2013IBMCorporationPage7IBMConfidentialHadoopEcosystemIBMSystemandTechnologyGroup©2013IBMCorporationPage8IBMConfidentialHadoop并行计算模式HDFS—HadoopDistributedFileSystem。HDFS为了做到可靠性(reliability)创建了多份数据块(datablocks)的复制(replicas),并将它们放置在服务器群的计算节点中(computenodes),MapReduce就可以在它们所在的节点上处理这些数据了。MapReduceIBMSystemandTechnologyGroup©2013IBMCorporationPage9IBMConfidential议程•大数据背景简介•大数据平台参考架构•推荐软件•推荐硬件•参考案例•解决方案优势分析IBMSystemandTechnologyGroup©2013IBMCorporationPage10IBMConfidentialIBM大数据平台参考架构StreamsInternetScaleTraditionalWarehouseIn-MotionAnalyticsDataAnalytics,DataOperations&ModelBuildingResultsInternetScaleDatabase&WarehouseAt-RestDataAnalyticsResultsUltraLowLatencyResultsBigDataPlatfromMovingBeyondtheTraditionalWarehouseTraditional/RelationalDataSourcesNon-Traditional/Non-RelationalDataSourcesNon-Traditional/Non-RelationalDataSourcesTraditional/RelationalDataSourcesIBMSystemandTechnologyGroup©2013IBMCorporationPage11IBMConfidentialBigDataPlatformDataWarehouseEnterpriseIntegrationTraditionalSourcesNewSources大数据平台参考架构-与其他系统的集成关系IBMSystemandTechnologyGroup©2013IBMCorporationPage12IBMConfidential传统数据仓库和大数据平台的关系传统数据仓库大数据平台数据来源业务系统业务系统,互联网基础平台RDBMSHadoops访问语言SQL,XqueryJAQL,Pig,Hive操作对象主要是表格主要是文件数据结构化数据结构化数据或非结构化数据硬件企业级硬件商业硬件压缩复杂的数据压缩简单的文件压缩提供的应用报表,多维分析报表,文本分析,图像分析,语音分析实时处理能力支持需要扩展能支持能较好支持IBMSystemandTechnologyGroup©2013IBMCorporationPage13IBMConfidential大数据应用场景在速度和规模上实现新产品创新了解关于您客户的一切社会媒体–产品/品牌情感分析品牌战略市场分析射频识别跟踪和分析交易型分析创建基于产品/服务的视角社交媒体客户情绪分析推广优化市场细分客户利润率点击流分析CDR处理多渠道交互分析忠诚度项目分析客户流失预测零延迟操作智能电网/计量管理分配负荷预测销售报告库存和销售优化期权交易ICU患者监控疾病监测交通网络优化存储性能环境分析实验研究即时的风险和欺诈意识多通道监测网络安全欺诈建模和监测风险建模和管理监管报告利用仪表化资产网络分析资产管理以及可预见问题的解决网站分析IT日志分析IBMSystemandTechnologyGroup©2013IBMCorporationPage14IBMConfidential运营效率,客户满意度和生产质量分析大数据平台SNMP和系统日志流分析Internet规模分析网络交换机负载平衡器应用程序服务器数据服务器快照记录、HTTP日志应用程序日志数据库日志使用数据从多个来源收集非结构化数据并使用连接器将它们插入到存储库中。来源包括:数据库、CRM/ERP系统、应用程序服务器、邮件服务器、Web服务器、操作系统日志、路由器、交换机和防火墙搜索分析监控和报告传感器和器材跨行业应用:•IT管理、故障分析,和法规遵从性。•确定客户交易出错问题所在,提高客户满意度。•分析器材,传感器数据来优化生产,和改进质量IBMSystemandTechnologyGroup©2013IBMCorporationPage15IBMConfidential中高端客户交友圈分析•可供省、地市进行营销活动时,由分析人员根据各种条件,从竞争对手用户信息库中筛选出营销活动的目标用户。查询条件包括:–运营商–地域–入网时间–结算费用区间–呼入联通用户费用区间–联通用户呼出费用区间–漫游情况–联系联通用户的号码数量•构建选中高端客户的交友圈:–输入:电话/短信详单,高端客户号码列表–输出:为每个高端客户构建类似于右图的交友圈图•顶点尺寸:客户在交友圈内的重要程度(某种客户价值指标)•颜色:客户在交友圈中的位置•形状:区分内网和外网客户•……IBMSystemandTechnologyGroup©2013IBMCorporationPage16IBMConfidential金融行业大数据应用场景—摩根大通•已经开始使用Hadoop技术以满足日益增多的用途,包括诈骗检验、IT风险管理和自助服务•150PB在线存储数据、30,000个数据库和35亿个用户登录账号•Hadoop能够存储大量非结构化数据,允许公司收集和存储Web日志、交易数据和社交媒体数据•数据被汇集至一个通用平台,以方便以客户为中心的数据挖掘与数据分析工具的使用IBMSystemandTechnologyGroup©2013IBMCorporationPage17IBMConfidential金融行业大数据应用场景—花旗银行•分析数据包括–客户提供的信息(申请、表格等)–社交网络、公共网页得到客户的信用记录以及信用历史–和目标客户有类似行为模式的客户数据–金融以及经济数据•证券交易委员会文件•招股章程、过往贷款记录•新闻(以衡量公众意见以及信心)•Facebook在内的来自社交网络的数据(个人、家庭计划等)•应用–信用风险评估(贷款)–针对性营销–以客户为中心•客户统一视图(结构化和非结构化数据)•细分客户,按照客户行为进行分类•为客户提供质量一致的客户体验IBMSystemandTechnologyGroup©2013IBMCorporationPage18IBMConfidential问题:电信及银行业高速发展,使得高科技的犯罪案件也有增加趋势,如利用电信以及网络银行来进行诈骗。三十六个账户,单次诈骗两千两百万元人民币。合计400起案件中所涉及的诈欺金额竟然超过八千万人民币。解决方案&结果:•某省公安局不仅发现不同资料之间的关联性,并从大量视觉化的资料中,找出更强大的相关线索。包括在一大群通话纪录中辨识出特定的通讯群组;针对嫌犯相关的出入境资料以及航班纪录进行侦查;使用时间序列分析技术,由帐户黑名单中寻找潜在的规则与趋势;使用空间分析以及地理资讯系统来分析嫌犯的犯罪活动线索。•警方进行了更大规模的调查行动,针对金钱、内部与外部的网路作战计划进行了一系列的分析。在掌握IP位置、汇款帐户以及其他与案件相关的线索之后,更帮助了警方对此一案件了解的程度,进而顺利地逮捕了42位嫌犯、数台用以犯案的车辆,并查获1000张银行金融卡以及约两百万元人民币的赃款。公安大数据应用场景—电信诈骗案IBMSystemandTechnologyGroup©2013IBMCorporationPage19IBMConfidential公安业务人员BusinessServicesWebServicesBusinessProcessesApplications外部事件源Alerts/KPIs事件来源无正当职业大额资金存取三年内购置商品房独立的、非确定性、无序的各种事件捕获刑满释放5年以上频繁入住旅馆频繁乘坐航班来往重点地区“重点人群的高危事件!自动行为“启动后续管控流程公安大数据应用场景—重点人群分析WBERuntimeEvaluation
本文标题:大数据解决方案72
链接地址:https://www.777doc.com/doc-29905 .html