您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 基于大数据平台的用户行为分析系的设计与实现
分类号学号M201376133学校代码10487密级硕士学位论文基于大数据平台的用户行为分析系的设计与实现学位申请人:陈丹学科专业:软件工程指导教师:陈传波教授答辩日期:2016.01.06AThesisSubmittedinPartialFulfillmentoftheRequirementsfortheDegreefortheMasterofEngineeringTheDesignandImplementationofUserBehaviorAnalysisSystemBasedonBigDataPlatformCandidate:ChenDanMajor:SoftwareEngineeringSupervisor:Prof.ChenChuanboHuazhongUniversityofScienceandTechnologyWuhan430074,P.R.ChinaJanuary,2016独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密□,在年解密后适用本授权书。不保密□。(请在以上方框内打“√”)学位论文作者签名:指导教师签名:日期:年月日日期:年月日本论文属于I华中科技大学硕士学位论文摘要随着互联网应用和信息技术的飞速发展和普及,信息数据已经渗透到人们生活的中,数据的规模也呈井喷式的爆炸性增长。通过对海量的数据信息进行分析挖掘,可以提取出对企业有重要价值的用户行为信息,为企业带来巨大的商业价值。提出了hadoop大数据平台下的用户行为分析系统。输入法客户端SDK收集用户的日常日志信息,利用RSA加密算法将日志信息分段加密,到达一定数据量后进行压缩传回服务器。传回服务器的日志信息有两种大的类型,用户行为数据和用户输入数据。服务器对收集的日志信息进行分类解析,将解析结果存储到HDFS分布式文件系统。对存储在HDFS上的数据信息利用分布式编程框架mapreduce来分析处理,将处理后的数据信息存入hive数据仓库。统计分析时提取hive表中关键信息,及时了解用户的行为和需求,进行质量监控。通过用户行为数据可以进行常规的数据统计计算包括用户的新增、活跃、留存分析、渠道分析以及自定义事件和错误的分析等。通过对错误的分析统计可以进行crash收集和分析,及时监测输入法的使用情况,发现并解决错误从而提高输入法的稳定性。通过用户的输入数据可以对用户进行情感色彩走向的分析还可以进行更深层次的数据挖掘。对用户的隐私进行压缩和加密收集,充分利用分布式的处理能力,能在短时间内分析出最新的用户行为和信息。用户行为分析主要构成元素有输入法常规数据统计、输入法内容区元素受欢迎程度以及用户的长短期兴趣。利用收集到的一个月的用户信息进行分析,分析结果提供给产品和运营作数据支撑,从多方面、多维度对日志信息进行剖析,可以更加详细、清楚的了解用户的行为习惯,为输入法产品提供准确、全面、深入的数据观察。根据用户的行为分析,定位输入法发展方向,满足用户的多样化社交需求,提升用户对输入法的使用体验。关键词:大数据用户行为分析数据分析HadoopII华中科技大学硕士学位论文AbstractWiththerapiddevelopmentofinternetapplicationsandinformationtechnology,Informationdatahavebeeninfiltratedintoallsectorsandinallareasofpeople'slives.Theuserbehaviorinformationwhichhasimportantvaluetotheenterprisecanbeextractedthroughtheanalysisofmassivedataminingandbringinghugevaluetotheenterprise.TheuserbehavioranalysissystemofhadoopBigDataplatformisraised.InputMethodClientSDKcollecttheuser'sdailyloginformation,usingtheRSAencryptionalgorithmtoencrypttheloginformationandsendedbacktotheserver.Thetwotypesofloginformationreturnedbytheserverisuserbehaviordataanduserinputdata.TheservercollectstheloginformationtotheHDFSdistributedfilesystem.UsingMapReduceprogrammingframeworktodealwiththedatastoredontheHDFSandstoredresultstothehivedatawarehouse.Extractkeyinformationwhilewhileperformingstatisticalanalysis,knowingusers’behaviorsanddemandstimelyforqualitymonitoring.Theroutinedatastatistics,includingtheuser'sdailyadd,dailylive,user'sretentionanalysis,channelanalysis,customeventanderroranalysiscanbeanalysedfromuserbehaviordata.Throughtheanalysisoftheerrorstatisticscrashcanbecollectedandanalyzed,timelymonitoringoftheuseoftheinputmethod,findingandsolvingtheerrorandimproveingthestabilityoftheinputmethod.Theuser'sinputdatacanbeusedtoanalyzetheemotionalcoloroftheusercanalsocarryoutadeeperlevelofdatamining.Theuser’sprivacyiscompressedandencrypted.User’sBehaviorandinformationcanbeanalysedinashortperiodoftimewhiletakingfulladvantageofthedistributedprocession.Uer’sbehavioranalsysiswasconsistofinputroutinestatistics,shortandlongterminterst,interestlevelofcontentandtheuser'semotionaltrends.Usingthecollecteddataofamonthtoanalyzetheuser'sbehavior,providingtoproductsandoperationsforsupportingdata.Productorsunderstandtheuser’sbehaviormoreclearlywhileanalysingloginformation,providingaccurate,comprehensiveandin-depthobservationdataforinputmethod.Withthesupportofdatainanalysisofuserbehavior,productmanagercanpositionthedevelopmentdirectionoftheinputmethodmeetingthediversesocialneedsofusersandimprovingtheuserexperienceofusingthesoftware.Keywords:BigdataUserBehaviorAnalysisDataAnalysisHadoopIII华中科技大学硕士学位论文目录摘要................................................................................................................IAbstract...........................................................................................................II1绪论1.1研究背景................................................................................................(1)1.2研究目的和意义....................................................................................(1)1.3国内外相关研究情况............................................................................(2)1.4本文的主要研究内容............................................................................(3)2相关技术分析2.1Haoop简介............................................................................................(4)2.2HDFS分布式文件系统........................................................................(6)2.3MapReduce编程框架...........................................................................(7)2.4hive数据仓库......................................................................................(10)2.5本章小结..............................................................................................(11)3基于大数据平台的用户行为分析系统的设计3.1系统需求分析......................................................................................(12)3.2系统总体设计...........................................................
本文标题:基于大数据平台的用户行为分析系的设计与实现
链接地址:https://www.777doc.com/doc-7287565 .html