您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 亿级大数据实时分析之旅(PDF37页)
2016亿级大数据实时分析之旅演讲人:欧阳辰2016亿级大数据实时分析之旅欧阳辰2016.72016我是谁?欧阳辰15年的软件研发老兵高级开发经理/工程师开发主管架构师/主管广告平台,大数据10年!公众号:www.ouyangchen.com3年2016议程•大数据和价值•大数据分析工具分类•HBase的应用和改进•Druid的实时分析实践•其它工具的探索•小结2016大数据的故事:价值为美–大量,快速,多样,变化等–采样的数据价值明显降低–实时数据的价值为最大–大数据外表光鲜亮丽,内则无可奈何–大数据的变现之殇《大数据的8个小观点》2016小米的大数据技术框架数据采集数据存储数据管理数据分析算法可视化ScribeETLHDFSHBASEKafkaHueKerberosMapReduceSparkStromHiveImpala机器学习自然语言数据挖掘统计分析JavaScriptE-ChartsH5/AppZookeeperDruidESKUDU2016小米大数据应用•点击预估•人群画像•营销DMP•精准营销广告营销搜索和推荐互联网金融精细化运营防黄牛图片分析和处理2016小米大数据实时分析场景案例•JS•SDK•Server2Server数据处理•清洗去噪•反虚假数据数据建模•模型管理•模型优化数据分析•数据报告•数据预警•数据洞察数据可视化•热力图•切片聚合战略分析诊断型分析响应型分析商业报表竞品分析,趋势分析智能引擎,预测模型预测型分析行动建议2016大数据分析工具MOLAPDRUIDElasticSearchkylinPinotROLAPImpalaHiveSparkSQLMySQL开源方案商业方案2016如何选择数据分析工具2016小米数据统计分析平台-架构LVS/NGIXAnalyticsServerScribeLogHDFSKafkaStormMapReduceSparkHBaseMySQLESQueryServerRedisDRUIDFE-WEB运营洞察2016一些分析工具的技术和应用Pinot2016为什么青睐HBase?•天⽣为了⼤数据•改变Schema的时候平滑•扩容⽅便•成本考虑•Facebook等公司做出了很好的⽰范•⼀些重要的Feature•CheckAndPut•Increment原⼦性•RowKeyTTL•单RegionServer内的强⼀致•⾼I/O我们有三位HBaseCommitter!2016Hbase在小米的改进2016HBase在小米的改进2016HBase在小米2016如何从MySQL平滑迁移到HBASE?1.双写HBase和mysql2.迁移历史数据(使⽤用⽼老的时间戳)3.双读HBase和mysql,验证数据⼀一致性4.灰度返回HBase结果APPMySQLHBase2016实时数据分析之旅事件流Hadoop/MR分析洞察Hadoop/MRRDBMSKafkaStormRDBMS/NoSQLHadoop/MRNoSQL/HBaseKafkaDruid2016几种开源MOLAP分析工具的比较DRUIDPinotKYLIN使用场景实时处理分析实时处理分析OLAP分析引擎开发语言JAVAJAVAJAVA接口协议JSONJSONOLAP/JDBC发布时间201120152015SponsorMetaMarkets/YahooLinkedIneBay技术实时聚合实时聚合预处理,Cache2016DRUID特点•来自METAMarkets,应用在Yahoo,OneAPM,小米,阿里,Baidu•为分析而设计–为OLAP而生,它支持各种filter、aggregator和查询类型•交互式查询–低延迟数据,内部查询为毫秒级,•高可用性–集群设计,去中性化规模的扩大和缩小不会造成数据丢失。•可伸缩–现有的Druid部署每天处理数十亿事件和TB级数据。Druid被设计成PB级别。2016DRUID存储创建字典ID:JustinBieber0Ke$ha1存储:BitmapPage-[0,1,2]-[111000]Ke$ha-[3,4,5]-[000111]-聚合-Roll-up-倒排-RevertedIndex-Bitmap存储:压缩2016DRUIDArchitecture:*Pinot,PowerDrill,Dremel2016DRUID使用场景:广告实时统计分析架构图(非计费部分)FrontDoor点击/展现KafkaHDFSScribeDRUIDDataReplayDataViewer2016什么是Pinot•分布式的实时OLAP数据分析平台•用于LinkedIn内部,50个场景,250*3节点–“谁看了我的Profile”–“广告创建,跟踪”–“内部数据分析BI等”•功能–SQL-Like查询,不支持JOIN–支持多种数据源Kafka,Hadoop–自动数据过期等–不支持UDF(开发中)2016PinotComponentsArchitecture2016ApacheKYLIN:eBay开源的分析引擎•分布式分析引擎•提供大部分SQL查询•与BI工具集成,例如Tableau•完整的工具集合•管理界面•任务监控•增量更新2016结构图2016Kylin使用的场景:FastCubing场景一:API请求的分析:响应时间,错误类型等场景二:一些广告返回类型的分析查询延迟:秒级别支持EXCEL客户端的多维表2016ApacheKUDUHDFS:批处理,大数据高效,高延时HBASE:小吞吐,低延时HDFS:大吞吐,低延时(1msr/wSSD)来源于Cloudera场景:实时数据分析,数据报表,读写数据操作小米应用:服务质量监控,问题排查工具2016小米KUDU的实践KUDU之前的数据流•ETL:高延时•LOG无序计算•需要等待完整数据,才开始计算简化ETL流程访问性能优良DataSourceKAFKAStormKUDUIMPALA查询2016ElasticSearch•实时分布式搜索引擎和分析引擎•全文检索,结构化搜索和分析•核心引擎为Lucene,分布式产品一些应用:–Netflix:2000节点,多集群–Wiki百科:全文搜索并且高亮–StackOverflow:全文索引–GitHub:1300亿行代码–高盛:每天处理5TB数据,分析股票行情:搜索场景-将LOG进行索引,支持文本查询和计数-广告分析和查询2016数据可视化•Meteorite:–Saiku•Microsoft:–PowerBI–Excel•Baidu–eChart2016Don’tbeevil:用户隐私保护1890年,沃伦和布兰代斯提出隐私权(TherighttoPrivacy)2012年1月,欧盟增加遗忘全力,(RighttobeForgotten)2006年4月14日,欧盟《GeneralDataProtectionRegulation》•定义了数据控制者,处理者和数据主题(Subject)•保护儿童数据•禁止收集个人特别数据(政治观点,性取向等)•数据可以转移到其他控制者,可遗忘•设立数据保护官(DataProtectionOfficer,DPO)PII相关信息隐私数据属性标签公共信息兴趣,泛地域手机号,姓名等2016大数据实时分析的小结•没有业务应用的大数据都是耍流氓•技术选型没有想象中那么重要,实用和精通为妙•维度不够是一个永远的痛,无尽的伤•向保护你的眼睛一样保护用户的权利和隐私2016道阻且长,行则将至不忘初心,方得始终www.ouyangchen.com“互联居”广告架构,大数据和观察“致力于中国互联网广告技术的繁荣”!2016THANKYOU!
本文标题:亿级大数据实时分析之旅(PDF37页)
链接地址:https://www.777doc.com/doc-24595 .html