您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 金融资料 > 3张宁--移动大数据技术在互联网金融获客及经营中的应用38
移动大数据技术在互联网金融获客 及经营中的应用 互联网金融面对的? 什么是互联网金融互联网金融“宝宝”网上金融超市P2P互联网金融需要解决的问题问题产品销售线上平台流量案例分析诸多的功能,在客户的喜好和公司利润方面如何平衡? 诸多的投放渠道,如何选择,大咖一定高效吗? 诸多的页面,页面顺序与客户习惯的关系? 诸多的用户,在异常出现时如何在漫天吐槽前发现? 诸多的用户,如何精准找到金融产品的目标客户群? 解决方案 数据处理技术移动 数据大数据大数据技术以及架构 大数据处理技术大数据处理技术传统技术体系和缺陷u 大集群构建成本高昂u 多维交叉计算能力低效u 架构不灵活无法自定义指标u 数据二义性标实时指标和批指标不一致第一代大数据处理架构:大数据处理技术Ø 查询和多维交叉高效率(性能):需要多维交叉的数据通过bitmap技术进行存储和计算Ø 更好的业务扩展能力(高扩展性):系统架构采用以OLAP引擎为核心的设计思想,将数据统计分析的视角从离散的数字问题,转化成高度抽象的,基于维度+度量的模型结构。将业务指标转化成维度+度量的描述,更好的支持数据支持和业务指标计算能力。Ø 解决数据一致性问题(高最终一致性):系统将指标包含在OLAP引擎中,数据的出处将只有唯一的出口,确保数据的一致性。Ø 更快的异常处理能力和数据恢复能力(高效调度):数据的计算过程中,将中间数据以存储+转发的形式处理,每个处理单元都能快速恢复到某个时间点,以达到快速处理的目的。 新一代技术和架构的目标:大数据处理技术Bitmap的生成u ConciseSet 参考 新一代大数据处理技术架构• 统计分析系统/标签&人群洞察系统 统计分析系统介绍(经营) 统计分析系统ExternalDataBatchManagerCollector/SpliterDumpOLAP(counter/bitmap)ETLQueryEngineRaw DataResult DataFact DataTask/MetaDataTask/MetaDataTask/MetaDataTask/MetaDataReport/APIStorage(Hadoop/Mysql)统计分析系统• Collector • ETL框架 • Bitmap引擎(join) • Counter引擎(count、sum) 数据处理模块数据查询模块• QueryQngine(groovy) 统计分析系统数据处理总线统计分析系统元数据含义包含关系Domain定义元数据的业务域,例如Analytics1个域有多个Fact TableFact Table定义OLAP输入数据的Schema1个事实表有多个Column1个事实表有多个CubeColumn定义Fact Table的字段属性1个Column有多个ConstraintConstraint字段约束Cube定义数据立方体,由Metric和Dimension组成,是OLAP引擎的核心概念1个Cube拥有一个MetricMetric度量,在本系统中主要实现了count()、sum()、count(distinct())等多种度量能力1个Metric只能有一个处理引擎1个Metric可以有多种Dimension组合Dimension维度,表明在Fact Table的哪些Column上进行统计Engine引擎枚举变量。目前仅支持count、bitmap个引擎。元数据统计分析系统• ƒ(Dimension(s) , Metric (on Fact Table)) • ƒ定义了计算引擎,例如是counter引擎还是Bitmap引擎。• FactTable定义了输入数据。• Metric定义了哪个字段为度量。• Dimension(s)定义了哪些字段为维度。• 计算引擎根据以上的定义进行计算、存储。OLAP模型统计分析系统数据处理时序统计分析系统使用案例 自定义指标(页面访问) schemasequencenumber,pla4ormid,partnerid,developerid,devId,produc;d,sessionId,starme,dura;on,versionName,versionCode,sdkVersion,refpagename,pagename,adver;singID,appStoreID,cracked,mobile,pixel,osVersion,os,mapn_mcc,mapn_mnc,isp,ip,country,channel,jailbroken,language/schema collector data schema自定义指标(页面访问)ETL Fact Table字段名称类型约束developeridint productidint platformidint partneridint appversionstring50tduseridlong refpagenameidint pagenameidint durationint sessionidstring128starttimelong starttime_hourint 自定义指标(页面访问)计算引擎MetricMetricName字段引擎计算类型pagecountpagenameidcountercountdurationsumdurationcountersumpageusergrouptduseridbitmapgroupDimension Name字段1productid,platformid,refpagenameid,pagenameid,starttime_day2developerid,productid,platformid,pagenameid,starttime_day计算引擎Dimension自定义指标(页面访问)计算引擎CubeCube NameMetric NameDimension NamePage_refer_visitpagecount1Page_visitpagecount2Page_stay_duraFondurationsum2Page_visit_userpageusergroup2Cube表结构示例自定义指标(页面访问)查询指标(Hql)• 页面访问次数 Select count(metric_value )from Page_visit where starKme_day=20150401; • 页面停留时长 Select count(metric_value )from Page_stay_duraFon where starKme_day=20150401; • 页面访问人数 Select sum(metric_value )from Page_visit_user where starKme_day=20150401; 标签&人群洞察系统介绍(获客) ID映射统一ID设备IDCookie账号ID设备IDMacIDFAAndroidIDIMEI标签&人群洞察系统HDFSRedisMongoDB索索引引擎ETL(hive脚本)任度度服ID-Mapping服MYSQL算法引擎(spark程序)引擎引擎/元数据管理理服API表管理理服消息列列标签体系 营销活动数据第一方用户数据第三方兴趣数据潜在办卡 人群 潜在绑卡 人群 潜在安装 人群 潜在商品 购买人群 潜在活动 参与人群 潜在交叉 购买人群 持续优化人群洞察 人群洞察 Selectcount(*) fromuserwhereuser.兴趣 =‘爱电影’anduser.性别=‘男性’andanduser.地点‘北京’;兴趣=“爱电影”性别=“男性”地点=“北京”011001AND011001011111AND011001=Bitmap完成人群洞察结果标签关联度 标签关联度/人群预测 模型算法—LogisFc Regression 其中,X为特征向量(如标签集合)。在确定了各个特征的系数后,给定一个用户的特征向量,模型可以给出这个用户为正样本的概率是多少。而模型的训练过程就是使用训练数据确定最优的特征系数的过程。为了支持并行化计算,采用了随机梯度下降法。 模型的输入就是给定的包含正负样本数据的训练集,每个样本数据有一个特征向量。 模型训练完后,就能给出各个特征的系数,这个系数反映了特征对模型目标的关联程度。 做预测时,就可以使用这组特征系数,和模型的公式计算预测数据集合里的用户为正样本的概率,然后降序排序后取得需要的Top N个用户。标签关联度/人群预测 算法输入数据: d1: a1,a2,a3,a5d2: a2,a4,a5d3: a1,a4,a5d4: a3,a4,a5d5: a1,a2,a3,a5d6: a2,a3,a4,a5d7: a1,a2,a4d8: a2,a3,a5d9: a4,a5d10:a3,a5 模型算法—LogisFc Regression 数据闭环流程 多数据源整合和管理统一用户身份行为规则规签化智能分群人群洞察获新客定向营销跨界营销精准营销效果优化官网 / 微博 / @TalkingData 微信 / TalkingData 服务支持 / support@tendcloud.com Q&A
本文标题:3张宁--移动大数据技术在互联网金融获客及经营中的应用38
链接地址:https://www.777doc.com/doc-220695 .html