您好,欢迎访问三七文档
混合异构数据的清洗、存储、挖掘架构选型和设计策略@卢亿雷FromAdMasterjohnlya@163.com提纲Ø 混合异构数据特点 Ø 混合异构数据分类 Ø 混合异构处理流程 Ø AdMaster混合异构数据平台架构 Ø AdMaster数据处理流程 Ø AdMaster混合异构数据分析 Ø Q/A 混合异构数据特点Ø 不同的数据类型 Ø 不同的数据量级 Ø 不同的访问速度 Ø 不同的用户类型 Ø 不同的访问平台 Ø 不同的存储设备 Ø 。。。 混合异构数据分类在线数据离线数据数据内容短周期数据长周期(存档、归纳、计算结果)数据特性字段固定字段不固定数据结构高度结构化、复杂、适合操作计算结构简单使用频率非常高(热数据)一般(冷数据)数据访问量KB、MB级GB、TB、PB级响应时间纳秒、微秒、毫秒级秒、分钟、小时、天级数据采集Internet 非结构化数据结构化数据 数据预处理清洗 集成 转换 归约 原始数据数据存储提炼数据分析HDFS离线计算(MapReduce)PigHiveZookeeperOS(操作系统)在线计算(HBase)流式计算(Storm)实时计算(Spark)YARNMahoutFlume应用服务KafkaMQMySqlMongoDB数据展示搜索引擎展示广告社交媒体品牌官网电子商务品牌调研视频广告 AdMaster大数据管理平台 广告曝光数据网站数据调研数据电商数据社会化数据物流数据门店数据渠道数据广告点击数据AdMaster混合异构采集AdMaster混合异构数据平台架构MapReduce 分布式计算 Storm Open API 数据采集 Crawler Text Categorization Text Clustering Sentiment Analysis 数据挖掘 Front-end Application Service 应用服务 Data API Text Analysis API API 服务 Spark 数据可视化 JS/AS R ECharts Realtime Memory SSD Online Ext4 SATA Disk Online Ext4 SSD Online/Offline HDFS SATA Disk OfflineAdMaster混合异构数据平台存储架构MongoDBHBaseHDFSMysqlRedis Ext4 SATA Disk RabbitMQAdMaster数据采集华南 … 华东 Internet LVS 华北 LVS LVS LVS DNS 社会化数据采集Others…广告数据采集AdMaster数据采集Ø cat /proc/sys/net/ipv4/tcp_mem Ø cat /proc/net/sockstat Ø cat /proc/sys/net/ipv4/tcp_max_orphans Ø net.netfilter.nf_conntrack_max Ø net.netfilter.nf_conntrack_tcp_timeout_established AdMaster离线数据分析Pig输入拆分任务调度输出合并Pig算法1Pig算法NHadoopMapReduceStormMySQL• 每天新增 TB 级数据 • 每天对千亿条记录进行几百种维度的计算 Cascading内部算法1内部算法N计算模型Streaming非固定算法1非固定算法NRabbitMQRedisFieServerHBaseClientAdMaster离线数据分析Ø /sys/kernel/mm/redhat_transparent_hugepage/enabled Ø /sys/kernel/mm/redhat_transparent_hugepage/defrag Ø dfs.socket.timeout Ø dfs.datanode.max.xcievers Ø dfs.datanode.socket.write.timeout Ø dfs.namenode.handler.count AdMaster在线数据分析MysqlMongoDBHBaseKeyPartnersBuzzResourceOthers…ProductCoreModuleSocialCRMDataCenterAnalyticsReportClickDataTrackSystem Project SiteSystemAlgorithmServiceOnlineLearningService分词 情感分析 标签分类 NLP Lab NLPServiceDataCollectionServiceSocialPlatformAPIServiceBuzzArticleCrawlerServiceSocialAPIAPIRawDataProcessedDataTrackAPI人群管理 喜欢浏览品牌页面并喜欢看时政新闻每日多次浏览品牌官方首页并参与活动多次转发品牌官微;最近关注家电类,多关注家电类相关微博填写品牌调研问卷最近经常家电,多次关注家电竞拍活动页面浏览行为网站浏览行为社交网络行为调研问卷结果网上购买行为家电新闻冰箱男20-25岁NormalizationTagsNormalization年龄:(12,29)学历:(4,6)性别:1未知已知核心算法 支持向量机(SVM)• 判断用户男女性别• 判断用户年龄分段• 判断品牌投放是否安全?• 判断页面内容的主题分类• 判断用户分享内容的兴趣特征• 判断用户评论的感情倾向• 根据已有人群查找类似的潜在人群受众• 根据人群历史数据特征推断人群的学历及收入等属性• 依据广告历史数据预测新广告投放的CTR• 根据历史数据评估广告的综合投放效果• 预测用户在特定时期的兴趣强度• 预测用户在特定时期的购买意愿强度自然语言处理聚类分析回归分析时间序列分析隐私保护 PrivateZone客户所拥有。安全。需要的访问权限。AdMasterZoneAdMaster汇总数据。AdMaster合作伙伴的数据。目标:补充PrivateZone数据。SecureZoneAdMasterZone数据补充PrivateZone数据.SHA2不可逆加密保证数据安全Hadoop+Spark海量高速集群AdMasterPassport技术客户AdMaster数据第一方数据其他AdMaster数据合作伙伴数据从2个区加入所需要的数据AdMaster在线数据分析Ø Kafka & Tail Ø HBase & MongoDB Ø Storm & Rsync Ø Spark & Hana 配置信息 p 主题 (配色、品牌名、品牌logo) p 轮播信息 (Screens、Slides、标题) p 权限 (用户、用户组) 数据源 p Social数据源 p Site数据源 p Track数据源 用户请求 配置API 中转服务器API 前端渲染 数据源API AdMaster数据可视化示例 AdMaster数据可视化• 数据呈现方式• 展示层与数据层松耦合,多种数据源接入• 极高的可靠性和容错机制Q & A
本文标题:Admaster 高级技术总监卢亿雷《混合异构数据的清洗、存储、挖掘架构选型和设计策略》
链接地址:https://www.777doc.com/doc-4966183 .html