您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 交通运输 > 大数据分析技术与应用介绍―从传统统计到人工智能
为准备由提送大数据分析技术与应用介绍—从传统统计到人工智能为准备由HCR提送(慧辰资讯)主讲人马亮博士2020/2/25清华大学计算机系毕业,博士学位。长期面向大型企业海量数据/大数据环境下的分析挖掘与深度洞察服务。客户主要为世界/中国500强企业与国家部委。2011加入HCR,任CTO&首席数据科学家,负责公司大数据技术战略与相关深度应用服务HCR(慧辰资道)3核心业务通过大数据分析帮助企业洞察市场与消费者44了解市场构造更好的产品监测/倾听消费者目标消费者传达影响消费者的未来发现消费者特性HCRBusinessConsultingHCRConsumerInsightHCRChannelHCRCommunicationHCRInnovationHCRLoyalty围绕市场与经营过程,全面洞察企业与消费者行为2015年新三板上市2016年营收超过3亿2017中国大数据行业地图大数据研究咨询排名第一研究能力从消费者出发洞察,服务企业多业务场景DATAINSIGHTPLATFORM企业内部数据大数据小数据外部数据产品消费者发现分析解读预测预警反馈产品Product研发R&D销售Sales战略Strategy供应链Supply营销Marketing产品规划用户研究产品定位……产品研发市场趋势……渠道管理售后服务……路标规划品牌管理…………供应链管理市场沟通数字营销产品营销……服务Service……商业大数据分析基本要素6大数据的4V核心特征7数据体量巨大数据记录规模亿(亿-百亿-千亿)数据文件尺寸:百G-TB-PB-ZB数据来源/维度多样数据属性大大丰富1传统线下-线上2数据产生场景增加商业交易/位置/浏览/社交媒体/物联网….数据格式更加复杂结构化-半结构化/非结构化-音视频/富媒体属性维度扩展高处理/响应能力高速存储/查询/处理亿级规模秒级反应更高的分析能力实时计算/高维向量计算结果快速呈现更优化/易懂巨大的价值更大分析空间/维度新的研究分析方法意味insight/应用可能数据只有分析后才有价值!!VolumeVarietyVelocityValue商业大数据分析数据有哪些(以消费类市场为例)态度(基本认知..)目标消费者围绕企业服务生命期所产生的所有数据消费前决策行为线上搜索/浏览线下店面/对比消费行为线上购物线下店面交易消费者属性基本属性深层画像服务使用行为产品/服务的使用吐槽/评论企业经营过程公关/广告/渠道/客服….持续消费行为ARPU提升/流失..消费类业务分析数据结构化非结构化打通融合线上(行为/日志..)线下(终端/人工..)业务系统采集(CRM/客服..)网络/第三方(电商/社媒/第三方..)市场调研(问卷/访谈..)更多…主要分析方法论91总体/全局2相对变化3产生原因What(全局特征)Why(原因解析)自顶向下(总体-局部)传统经典方法论What(局部/个体)Forecast(未来)关联性/弱-强相关自下向上(个体-群体)1个体化2多弱-强3发现异常4未来预测5不关注原因全局的定性/定量结果找全局最优个性化分析(个人评估/征信/画像)新方法论分布/份额/排名/分组预测/推荐(推荐引擎/DSP/精准营销..)总体趋势统计学(分布/方差..)机器学习为代表的分析方法论不同应用场合和关注点真正分析是要发现以上因素不是简单统计统计性方法论擅长分布/主要原因往往CommonSense变化比分布更重要发现趋势有价值发现后面的原因更有意义新方法论擅长多个弱相关因素组成的强相关发现异常往往很有价值分清主要次要(降维)不同分析方法论的分析点不同3个最主要的分析点因果性相关性周期性ToC类消费业务分析核心目标分析人(消费者),投其所好不是分析物(商品/产品)分清因果性/相关性常错误导致很多结论统计-分析-洞察分析:变现变化/异常洞察:找出原因/预测未来数据分布假设/验证不能忽视数据规模大时更困难各方法论并不对立,结合实施才有最大效果11大数据&小数据整合研究分析进一步深入找准你的金主行业基于整合大数据找出原因企业业务/销售数据洞察结果新分析方法论传统分析方法论CRM/客服数据消费者行为数据/日志…互联网/社媒体整合的分析与洞察能力深入定性挖掘数据整合研究外部/第三方商业大数据分析场景典型实施过程12数据预处理建模探索验证/最终实现应用与优化相关数据源,做:整合预处理清洗关联基于整合的数据(大规模数据采用小规模抽样,如千万级,结合小数据分析),分析与算法人员,结合工具,进行建模挖掘,将模型初步固定将模型在更大数据规模上进行有效性验证,考虑过拟合/最优化参数问题验证良好的模型,最终代码实现(大规模数据的模型需人工算法实现)将模型模块投入业务应用通过应用反馈,持续的优化和提升模型分析体系设计基于分析场景,确定:研究分析方法,技术建模方法,所需数据要求商业大数据分析相关技术13核心技术理论统计-机器学习/NLP/Graph-深度学习14无监督/有监督机器学习(聚类/贝叶斯/SVM/随机森林…)OpenAccn’tAddNewProductDecreaseUsageTime预测/推荐(CF/UBR/IBR…)统计(多元回归/结构方程…)用户决策路径组合/交叉销售用户倾向性分析•商品个性化推荐•用户预期预测•用户细分•行为特性发现•预期行为分组深度学习(CNN/RNN…)•异常行为模式发现•行为模式识别•用户观点/兴趣挖掘•用户背景分析•产品特性挖掘•智能问答自然语言处理/文本挖掘(句法分析/LDA/多主题PLSA)•传播路径分析•KOL影响力分析•异常(如交易欺诈)检测Graph图/关系挖掘常用分析工具/技能与应用场景结构化数据非结构化数据NLP/图像/语音API基本统计ExcelVBA统计分析SPSSSASR可视化/快速TableAU挖掘/机器学习建模探索SPSSModeler/RapidMiner图分析Gephi图数据库Neo4J/Titan算法编程SparkMLibPythonJava百万级数据亿-百亿级数据千万级数据适合大企业/非技术背景的分析人员可视化/大数据支持/服务端发布其他API面向数据分析的大数据平台典型技术架构16文件系统分析工具统计分析SPSS/SAS/RHDFS(Hadoop)结构化数据Cassandra/MongoDB结构化数据PostGre/Mysql业务计算分布式计算SparkNLP处理API行业业务规则引擎机器学习SparkMLib在线统计/可视化(Sql查询/ECharts)非结构化数据全文检索ElasticSearch数据订阅KafkaETLKettle类Sql检索SparkSql/ESSql可视化分析TableAU数据挖掘SPSSModelerRapidMiner数据仓库GreenPlumLinuxExt4/NFS数据管理深度学习TensorFlow工具/语言(Java/Python)业务计算层(分布式)Spark/为主的分布式计算框架SparkSql检索/ESSql检索KETTLE+Kafka数据ETL与分发海量数据存储/管理文件存储:结构化/非结构化记录存储:百亿级硬件架构/网络分布式集群多层/深度分析建模分析支持传统统计学建模机器学习/非结构化建模基于深度学习的深度模型可视化/行为模式分析(专利)企业级内外数据整合百亿级数据小团队简单架构各种大数据相关技术/开源工具17海量/非结构化存储管理/检索分布式计算应用框架机器学习/自然语言处理/图挖掘统计查询/分析工具/BI/可视化人工智能/深度学习/VR….Caffe/MxnetMLib人工智能多年低潮后重新崛起181987-19971998-20052006-20142015深度学习知识图谱分布式计算GPU计算增强学习机器学习计算语言学神经元网络..基础脑科学理论理论体系建立与发展对未来过于乐观相关支撑远远跟不上进入低潮机器学习等理论产生受限于硬件/数据缓慢瓶颈理论与计算技术进化智能认知学习理论硬件计算/计算体系图像/语音识别图像/语音识别大数据人机问答系统机器人自动驾驶人机智弈AlphaGo自动驾驶机器智能(深蓝)自然语言处理再次突破与爆发(若干行业)语义理解机器翻译本轮AI技术的新特点19智能技术理论深度学习NN网络的演进版本DNN/RNN/LSTM/强化学习硬件计算架构提供高速处理的硬件支持GPU/谷歌TPU低计算力+多核心/类神经元细胞大数据提供必要的模型训练支持提升智能分析精度的重要推手+行业深入封闭环境有限规则更高效深入/稳定创造性高级/深度中级行业知识能力基本行业知识/规则AlphaGo战胜4段以下选手自动驾驶应对大多数路况,代替普通司机领域/行业能力金字塔Master新棋谱..医学图像分析代替初级医生大数据深度洞察应用案例20基于大数据与相关分析技术可以HCR21分析潜在客户购物决策路径/心理认知已有客户深度消费者用户画像倾听消费者及时发现产品/服务的问题结合位置大数据进行商圈研究/建店规划发现企业运营问题,优化运营能力结合AI,提升K12教育的教学分析能力应用1分析潜在客户购物决策路径/心理22传统方法调研+抽样+基本统计问卷调研/定性深访辅助数据(如上牌数据)低频高价值行业(汽车/房地产)了解潜客的心理与及时影响他们,最重要1消费者定位/消费者画像目标消费者在哪里,都是什么样2消费者购物决策路径买车决策模式/周期/流程/竞品车型选择…新的大数据方法行为数据+全量/连续+自然语言处理/统计所有用户买车前后的连续网络行为数据:浏览/比价行为/购买评价/使用反馈….自然语言处理:行业知识库抽取、语义特征抽取、LDA主题聚合….深层特性的标签更不易变化预测更准确/消费者接收度更高应用2通过消费者画像来认知已有客户的深入特性用户画像ProfileModeling大数据下识别消费者的主要方法常规模式互联网/技术企业/友商1关注直接兴趣(购物/浏览)2标签体系:以访问/购买商品的品类为基础的浅层/兴趣标签消费者深层特性1关注消费者/人为中心2全生活场景/行业专家知识模型抽象3标签体系:发掘用户深层特性/专业特性为基础的标签用户高频消费行为健怡可乐….XX牌木糖醇喜欢可乐喜欢木糖醇糖尿病高可能用户画像分析商品推荐预测可乐类产品/相似购买产品所有无糖食品/血糖仪/试纸..零售业英国TESCO(组合销售/新产品/库存)中国华润超市消费者画像要关注消费者的深层特性24消费者用户画像(标签化)ProfileModelingBehavior-BasedProfileModeling基于行为的消费者研究在消费者研究中已有20年的历史不是什么新东西消费者画像通过用户行为发现其深层特性/行为模式25深层特性能更准确描述人深层特性不易变化通过行为无意识体现,难以隐藏常规/兴趣购物偏好品类品牌浏览偏好类型电视剧/电影音乐偏好类型/歌手/歌星体育偏好足球/篮球…旅游偏好团/自助/穷游国内游/出国游….常规/属性性别婚姻状态星座年龄年龄段70/80/85/90/95/00初中/初三/高中/高三/大学/大三/大四…学历收入水平信仰健康情况家有病患疾患种类…社会/生活属性行业/职业职务/职级工程师/管理者…孩子状态无/孕期/婴儿(1-2)/幼儿(3-5)/小学…车辆使用情况学车/买车/有车/卖车房屋居住租房/自有房/还贷中手机(价位/品牌)移动运营商品牌网络(2g/3g/4g)流量特点(高/中/低)行为习惯常住城市作息时间交通方式日常开车/地铁/公交出行(火车/飞机/自驾)居住酒店类型经济型/中档/高级经济/理财特性股民/基民/银行/保险餐饮习惯自主烹饪/外卖/品牌网购特性品类(服装/化妆品..)方式(海淘…)……心理学/行为模式/性格【生活方式】作息规律爱打扮关注健康喜欢绿色食品……【个性】小清新文艺青年…爱尝新性格外向…爱炫耀特立独行……【价值观】崇尚自然勇于冒险关注性价比关注品质喜欢大牌……基本方法论(行为心理学/消费者研究)用户移动互联网行为当前日常行为重要场景可发现许多重要特性百亿级数据
本文标题:大数据分析技术与应用介绍―从传统统计到人工智能
链接地址:https://www.777doc.com/doc-4004533 .html