您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > Teradata大数据解决方案及案例介绍73
2013.7Teradata大数据解决方案及案例介绍2TeradataConfidential对大数据的认识应对大数据挑战的UDA架构Teradata的UDA架构方法全球典型案例介绍目录3TeradataConfidential大数据背景认知4TeradataConfidential通信行业数据具备典型大数据特点数据量巨大(Volume)海量信令信息(位置更新\开关机\网络质量)海量互联网行为数据(DPI\URL\社交媒体\关键词)海量话单信息(语音话单\短信话单\CDMA话单)M2M数据速度快(Velocity)产生速度快:互联网\信令数据秒级到毫秒级的生成记录交互速度快:业务上需要能够对数据实时访问和处理数据结构多样(Variety)文本信息:互联网网页、投诉文本、短信文本WAP日志\WEB日志用户行为内容客户语音\营业厅影像\票据等传统结构化数据分析复杂度(Complexity)大数据交互式分析移动互联网背景下的客户行为分析复杂结构数据的关联整合复杂负载类型的管理5得益于充裕的用户信息,运营商有望抓住大数据时代黄金机遇电信运营商是数字世界的基石,是经济社会不可或缺的重要环节,沉淀了丰富的大数据资产,具备“大数据运营商”的先天优势。运营商因失去用户界面控制权而陷入困境,大数据时代是否有望利用用户数据得到缓解?世界经济论坛将个人数据分为以下三类:•自生性数据:用户在自发产生的各种数据,如通讯录、邮件、照片等UGC;这些数据通常托管在服务提供商的服务器中。运营商在提供通信及互联网、云服务时会存储大量该类数据•观测性数据:记录用户可被观测的行为,如支付、浏览、LBS、交通违规记录、既往病史等;运营商网络系统和业务系统对用户上网行为、终端行为和网络行为不间断进行实时记录•推断性数据:根据前两类数据经过分析得出的推断,如各种信用评级、客户潜在价值等。运营商具有运用数据进行客户分析的传统,积累了大量分析资产(软件、模型和人员等)下一个战场:谁是用户信赖的数据整合者?通过算法和机器学习将自生性数据和观测性数据转化为蕴含个性化洞察的商业智能近期应用长期目标中期战略6电信运营商的再定位TELECOMINFOCOM“今天我们是网络运营商,未来我们可能是大数据运营商”--李正茂大数据平台构建平台转变思路网络运营商智能管道业务应用服务数据资源渠道资源租售数据模式租售信息模式数字媒体模式数据使能模式数据空间运营模式大数据技术提供商政府企业广告商供应商个人用户……开拓市场电商舆情政府SPCP更多行为数据外部数据产业数据扩大来源数据挖掘算法数据分析应用SI投资机构研究机构工程师学者发现价值信息运营商近期应用长期目标中期战略7大数据与移动“智能管道、开放平台、特色业务、友好界面”战略紧密相关智能管道开放平台特色业务底层/同质流量上层/异质流量流量可视化:识别用户/业务/场景服务差异化:按SLA区分,按QoS服务用户业务行为进行实时采集/分析/处理内部数据应用、开发、分析能力用户/用户群/集团客户,属性/位置/行为/关系/偏好外部数据整合能力信息分析、整合、交互能力新业务设计能力基于状态的如彩印业务/开机提醒等新服务提供能力定向营销推送/舆情监控/行业指数按需求信息服务Volume大数据量Complex复杂分析Variety复杂结构Velocity交互速度友好界面终端发展引导能力终端服务匹配能力新经营支撑能力近期应用长期目标中期战略8当前大数据典型应用场景近期应用长期目标中期战略市场营销基于社交网络、社交媒体、位置等信息的智能营销流量经营、存量经营、集客经营、终端营销数据外部化运用服务社会公共事务服务其他企业和行业科学决策360度视图情感交往圈网络优化产品服务个性化资费套餐差异化贴心服务定制化产品全程全网实时监控智能网络规划客户洞察数据驱动决策可视化决策战略情报分析TeradataConfidential9通信业务模式创新:AT&T和Telefonica案例•AT&T利用GPS数据进行B+O分析•将用户位置信息以$100M卖给星巴克•Telefonica的SmartSteps应用•将地理位置统计数据卖给零售商TeradataConfidential10西班牙电信于2012年10月宣布成立了运营商中的第一个基于大数据的全新业务部门“DynamicInsights”,并发布了第一个基于大数据的产品“SmartSteps”。SmartSteps可以为等方面提供基于通信用户数据的深度分析和洞察,提升整个社会的效率和生产力。社会管理社会服务社会生产通信用户政府、企业广告商、科研机构……运营商收益价值信息服务即需信息服务收益业务模式创新:西班牙电信的SmartSteps11TeradataConfidential对大数据的认识应对大数据挑战的UDA架构Teradata的UDA架构方法全球典型案例介绍目录12TeradataConfidential你的组织里是否已经开始向应对大数据挑战方面的技术进行投入了?教育业零售业交通业医疗护理业保险业能源/电力业银行业制造业政府不知道当前没有计划没有,但是2年内有计划是的通信/媒体业国内运营商状态13TeradataConfidential哪些数据源能最快的为业务带来价值已经存在的未被充分利用的“DarkData”来自于客户、供应商等更细节的数据社交媒体内容可以利用的商业数据可以利用的公共数据14TeradataConfidential大数据类型社交信息聊天日志信息文档邮件文本视频图片语音机器数据各行业对不同类型大数据的吸收使用速度是很不一样的你的组织里是否正在或者计划,在接下来的12个月内,在数据仓库中使用以下的数据或者信息?15TeradataConfidential贵组织更倾向于在什么平台上进行大数据管理和分析?企业级数据仓库企业级数据仓库之外的传统数据库(数据集市,ODS)为大数据分析设计的商业数据库分布式文件系统,如Hadoop基于云的分析平台普通文件系列其他16制造业能源/电力业数据管控方面(数据安全、隐私、所有权、质量)如何从“大数据”中获得价值数据获取、管理、分析所需要的技能关联整合多种数据源理解“大数据”内涵为“大数据”项目寻求赞助不知道教育业银行业保险业政府通信/媒体业零售业交通业医疗业面对“大数据”最大的挑战来自于?17影响贵组织从大数据获益的最大问题是?分析能力和技能管理&组织系统架构或基础设施投资,预算,ROI风险(安全,隐私)18TeradataConfidential中国移动“大数据”特征及需求数据特征处理特征使用特征1.数据单位存储价值不同高价值:CRM\BOSS的各类资料数据、账单、清单低价值:日志、网页中价值:高价值中长期数据和低价值收敛数据20%的结构化数据提供80%的价值。2.实时要求不同分钟、小时、日、周、月3.数据类型不同结构化、半结构化、非结构化1.调度模式不同批量任务、小批量任务、流式处理2.加工特征不同关联整合处理汇总,抛弃输入汇总,不抛弃输入关联+汇总更新,不保留历史1.使用角色不同业务人员:低操作能力IT分析师:中操作能力数据科学家:高技术能力2.使用方式不同消息型:向一线推送浏览型:决策层简单处理型:业务人员复杂处理探索型:分析师高级编程型:不直接使用型:机器处理Ad-hoc类使用成为趋势中国移动的数据越来越表现出差异化的特征,通过什么技术来解决“大数据”带来的挑战?19TeradataConfidential大数据处理主要关注的五项技术--高性能数据仓库最早出现在上世纪70年代,代表有Teradata,IBMDB2等。它们追求高性能、完全并行、高并发负载、高可靠性。其特点是sharednothing架构,实现海量数据完全并行处理。优点接口友好,支持度高,兼容性强性能高,完全并行处理动态负载管理高可靠性高并发可以非常复杂的查询且响应快缺点只能处理结构化数据构建在高性能平台上成本较高案例:AT&T,eBay,中国工商银行等产品:Teradata等储备:完成了高性能MPP数据仓库测试节点1节点2节点3…高效内部交换机制CPUMEMCPUMEMCPUMEMCPUMEM磁盘阵列磁盘阵列磁盘阵列磁盘阵列20TeradataConfidential大数据处理主要关注的五项技术--MPP数据库2004年以后出现了一些新型的MPPDB,例如GreenPlum、Vertica、AsterData等。它们借鉴云计算的成功,设计为部署在低成本的X86通用硬件上,通过副本的方式保证高可用。由于其MPP架构及SQL接口均为成熟技术,获得了大量厂商和工具的支持。优点接口友好,支持度高,兼容性强可以处理规模较大的查询构建在低成本硬件上,成本稍低缺点只能处理结构化数据高并发查询和操作困难可靠性和产品成熟度稍差节点1节点2节点3…本节点存储备份节点存储本节点存储备份节点存储本节点存储备份节点存储本节点存储备份节点存储以太网交换机CPUMEMCPUMEMCPUMEMCPUMEMMasterMaster案例:联通、LinkedIn产品:GP/Vertica/AsterData等储备:完成了新型数据仓库测试21TeradataConfidential大数据处理主要关注的五项技术--Hadoop/MapReduceHadoop,包括HDFS和其上的MR,被认为是解决大数据中必不可少的一项技术和产品。它能轻易实现各种批量数据处理,而且因为其设计的简化,能轻易分布到海量的X86服务器上,2000、3000节点的Hadoop场景是较为常见的。优点处理各种结构的数据灵活的处理方式,通过Java编写MR框架易于扩展、伸缩,达到3000节点以上(因其非对等节点模型设计)缺点(对原生解决方案而言)对灵活的查询的支持和响应速度流水线操作优化Map和Reduce大量数据交换问题案例:淘宝、支付宝、腾讯产品:BC-ETL/OC-ETL/SmartMiner储备:两期云计算ETL在经分中应用研究,目前在开展四省试点22TeradataConfidential大数据处理主要关注的五项技术--NoSQL随着互联网web2.0网站的兴起,传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问题,而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。优点为少量大并发数据写入和读出优化数据模式可以灵活变更可扩展性强缺点(对原生解决方案而言)与应用深度耦合,高度定制化,对应用要求较高不保证ACID没有严格数学基础支撑接口一般为私有第22页案例:亚马逊、LinkedIn产品:Hbase/MongoDB储备:云详单查询的试点23TeradataConfidential大数据处理主要关注的五项技术--Stream其他技术在处理时效性方面都无法达到实时或准实时的地步,但是在某些场景,比如算法交易、欺诈检测、实时营销等方面,需要从大量的信息中及时发现潜在模式,这种情况下,就要使用流处理的技术——Stream。优点基本内存处理,速度快可并行,可扩展编程方式灵活,可以处理复杂结构数据缺点不保证事务完整难以处理某些大数据类型,比如需要查表之类的案例:XX银行产品:Storm/S4储备:正在开展集中化经分流处理研究24TeradataConfidential结论:各项技术各有短长,需要配合使用大数据时代没有“必杀技”可以高效低成本的满足整个架构,各种技术相辅相成,优势互补。高性能数据仓库:高并发、高性能处理结构化数据,支撑高SLA需求MPP数据库:结构化、关联性分析、即席分析Hadoop:非结构化或批量简单汇总、非实时处理、数据挖掘NoSql:结构化或非结构化存储与实时查询流处理:实时数据处理过滤,规则匹配复杂多表关联非结构化数据响应实时性数据规模实时数据处理高可靠性低成本易于运维高性能数
本文标题:Teradata大数据解决方案及案例介绍73
链接地址:https://www.777doc.com/doc-24378 .html