您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 阿里巴巴大数据实践(1)
阿里巴巴大数据实践提纲•大数据的几个问题•本质、目标、核心、挑战•阿里巴巴大数据实践•大数据路径•典型应用示例提纲•大数据的几个问题•本质、目标、核心、挑战•阿里云的大数据实践•大数据路径•典型应用示例大数据的本质•大数据的本质在于数据都在线、可以共享大数据不仅仅在于大,欧洲对撞实验室做一次碰撞的数据产生的数据非常大今天的数据不是大,数据都在线成为互联网的特点大数据的本质•大数据的本质在于数据都在线、可以共享在线远远比“大”更反映本质,写在磁带、写在纸上的数据,远没有在线数据有价值淘宝数据:反映了商品属性、交易、仓储、物流等,对于做金融、物流、仓储和个性化制造带来巨大的变化大数据的本质•大数据的本质在于数据都在线、可以共享在线让数据收集变得很容易比如:美国总统选举预测历史上都是采用:盖洛普调查现在利用在twitter上分析每个人发的东西,都可以直接分析大数据的目标•大数据的目标在于做以前做不到的事情,而不在于改进现有业务数据真正了不起的地方,是靠小的成本,去产生有价值的东西今天的银行都不会说靠大数据做起来的公司。银行靠什么处理数据:IOE。处理数据产生的价值,可能都无法抹平处理数据的成本。大数据的目标•大数据的目标在于做以前做不到的事情,而不在于改进现有业务亚马逊通过访问数据分析做成了全球做好的推荐业务,这可以算是大数据的早期应用阿里金融做小贷的事情,恰恰是银行做不了的。银行做信用评级的成本极高,银行不做小的贷款。阿里金融每天贷10块钱,100块钱的人也很多大数据的核心•大数据的核心在于建立数据之间的整合和关联分析Google的搜索:一个关键字就能够把我们想得到的文档通过列表的形式给展示出来淘宝的销售、物流、仓储和制造大数据的挑战•大数据的挑战在于有了大数据,你能不能及时、正确的算出来•PB级的数据,流式数据和多种数据的融合需要在一定的时间内(小时、天等)完成,成本可控1.数千台集群、多个任务的同时分布处理2.流式计算和支持任意维度分析的即时计算3.分布式的大规模数据的存储提纲•大数据的几个问题•本质、目标、核心、挑战•阿里巴巴大数据实践•大数据路径•典型应用示例阿里巴巴大数据路径飞天:分布式云计算平台去IOE数据交换平台:DXP数据管理平台:DMP为什么要做飞天操作系统•集团内部业务需求–每天集团内部每天需要跑60万个任务,近300万次请求,无法购买到满足需求的平台–淘宝上有70万ISV,与阿里巴巴一起构成了一个大生态圈,需要云计算平台来助力生态圈的构建•成本因素–需要采用低成本PC级服务器•未来发展需求–我们自己希望成为一家数据公司,做数据最基本的需求就是要能够处理PB级的数据能力,否则很难有新的业务突破LinuxClusters飞天大规模分布式计算系统ACEECS/SLBOSSOTSRDSODPS地图、邮箱、搜索、CNZZ第三方服务与应用淘宝、天猫、支付宝、阿里金融、数据平台、云OS飞天云计算平台弹性计算存储与数据库大规模数据计算Stream飞天:将几千台PC构成一台“超级计算机”存储:一块100PB级别的硬盘•100个人从生到死每一秒钟的所听所见计算:一台10万核以上的机器•一个月的渲染作业只需5分钟完成多租户的运行环境•资源共享•安全隔离故障屏蔽,数据冗余•服务“永远”不中断•数据“永远”不丢失飞天的技术特色飞天的技术特色同一个平台支持离线和在线应用–搜索:240亿网页的离线处理,130亿网页的在线查询–邮箱:日处理邮件亿量级,日发送邮件千万量级,10毫秒级别访问延时规模:单集群5000台服务器,10-100KCPU核,10-100PB存储空间高可用系统架构:服务可用性达到99.9%以上所有数据持久保留3个复本,数据可靠性达到10个9以上更加灵活的离线作业框架,比MapReduce快30%100TB排序(TeraSort)时间30分钟–已知世界最好成绩:71分钟(Yahoo,2013年7月3日)聚石塔@双11聚石塔内天猫商家数2万家,累计处理天猫订单1400万单左右,约占天猫订单的23.86%数据推送漏单率为零,聚石塔本身0故障。订单下载效率比未入塔应用快3倍以上(按照服务商给出的对比)帮助最高单一商家处理订单数65万(南极人),日订单数过10万单的商家有12家。当天帮助商家成功阻挡24次异常攻击,事先帮助600商家做弹性升级,双11当天帮助5家线下商家(因为线下系统崩溃)紧急上聚石塔。聚石塔:电商云工作平台什么是IOE?小型机数据库存储服务器国内外大部分企业IT基础设施的标配我们为什么要去IOE?集中式的严重制约–IDC稳定性(一个服务器出现问题影响一大片)–跨灾切换(oracle切换慢,阿里受不了这样的速度)–快速扩容(IOE体系无法满足双11快速扩容的需求)技术面临失控,创新潜力受限–黑盒技术,只能依靠厂商解决问题,响应无法保证;另外,由于阿里并发强度全球范围罕见,厂商无法提供现成方案,都需要临时定制开发,响应更慢;–黑盒技术大大压制了工程师的聪明才智;专用设备规模化场景下诸多限制–专用机架/专用电源/无法满足快速扩容需要成本“去IOE”的技术难点通用服务器置换小型机要需要考虑多冗余,高扩容MySQL置换Oracle考虑异构数据同步,数据的无缝迁移通用服务器置换专有存储设备需要考虑数据一致性,高可靠问题对于庞大的通用服务器集群考虑规模运营的问题我们如何做到的?“海陆空“立体作战–IBM小型机通用PC服务器集群、弹性计算–Oracle数据库MySQL,OceanBase分布式数据库,RDS–EMC存储TFS小文件存储、Tair弹性缓存–业务逻辑适配分布式架构2013年5月17日,阿里巴巴最后一台小型机下线–成本大幅度降低,性能提升25倍–灵活可靠的自动化运维平台–工程师对核心技术的理解和掌握–输出”去IOE”技术,推动行业共同进步DXP平台数据交换平台商家淘宝信用天猫金融物流一淘聚划算阿里云CNZZ支付宝新浪微博友盟企业研究公司金融机构大学开发者DMP平台典型应用示例数据促进行业变革阿里金融近30万家企业超过1000万笔贷款累积发放贷款近900亿纯信用贷款全程无人工介入坏账率0.3%阿里巴巴+淘宝+支付宝的数据大规模数据处理能力阿里金融前端业务创新菜鸟物流建立下一代的基础设施--中国智能物流骨干网(CSN)通过实时计算、大规模数据处理以及数据挖掘等技术帮助物流公司•智能规划配送网点•优化配送路线•规划仓储建设•合并路线•预警爆仓等预计支撑日均300亿元网络零售额,并确保全国范围24小时内送达中国药品电子监管网350亿药品数据每天处理近7亿次读写关键业务处理平均延时从60分钟降到2.7秒全网用户行为+全网网页+淘宝数据分析CNZZ收集到全网用户1/3的访问网页行为日志,结合全网240亿网页和淘宝电商类别数据,综合分析得到互联网3亿用户的兴趣应用场景举例1.判断网站内容是否符合用户兴趣2.判断广告投放是否符合用户兴趣•通过对比某视频网站内用户访问资源的比例和全网用户访问视频资源的比例,发现:–全网视频用户63%看电视剧,而网站用户只有32%看电视剧–全网视频用户24%看电影,而网站用户有50%看电影判断网站内容是否符合用户兴趣-1类别某视频网站全网视频电视剧32%63%电影50%24%动漫8%14%综艺5%9%说明•该网站电视剧内容对用户的需求满足不够•该网站的电影内容对用户的需求满足较好用户比例对比表判断网站内容是否符合用户兴趣-2进一步,通过对比某视频网站热门电视剧排行和全网用户访问视频电视剧排行,发现:–全网热门视频在该视频网站中并没有得到展现排名某视频网站全网视频1笑傲江湖樱桃红2隋唐英雄第22条军规3终极一班2贤妻4隋唐演义乡村爱情变奏曲5楚汉传奇行尸走肉第三季热门电视剧排行榜说明•需要补充全网热门电视剧资源•需要调整运营的方向通过对比某网站用户的全网商业兴趣类目与该网站广告类目的分布,发现–用户的娱乐、IT、生活日用品等兴趣并没有相应的广告覆盖–投放的机动车广告,实际感兴趣的用户并不多判断广告投放是否符合用户兴趣类目用户兴趣分布广告投放分布娱乐24.31%游戏17.95%60%IT16.11%生活日用品7.95%教育3.87%体育2.33%机动车1.42%40%金融保险1.40%房地产1.19%食品饮料1.13%说明:•该网站有潜在的巨大广告市场未被发现•该网站需要多吸引对机动车感兴趣的用户,才能使这类广告的收益提升谢谢!
本文标题:阿里巴巴大数据实践(1)
链接地址:https://www.777doc.com/doc-7655245 .html