您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > BIG DATA及互联网行为分析方案
信息流:1.,收集URL;2.从Int网页分词、建立站点树;3.萃取出用户与行业、专业关系;4.收集搜索关键字,建立用户与行业及专业的关系;5.依据客户与各行业和专业的关系,提供给三类应用业务流与数据流-1URL搜索关键字流量经营各行业分析网络质量分析客户行为与行业、专业的关系网页搜索网站/消费网站社会各行业及专业关键词库Internet各网页站点树互联网用户13241234555业务流:1.用户输入或点击URL,访问网页;2.用户从网页获取到某行业及其下某专业的信息,并进行交互;3.用户在搜索网站/消费输入搜索关键字;4.用户访问搜索结果网站电信级BIGDATA开始被关注──处理面临挑战DataAnalytics,DataOperations&ModelBuildingDatabase&WarehouseAt-RestDataAnalyticsTraditional/RelationalDataSourcesNon-Traditional/Non-RelationalDataSourcesNon-Traditional/Non-RelationalDataSourcesTraditional/RelationalDataSourcesInternetScale传统数据仓库实时数据互联网非结构化数据市场、客户、产品分析等网络状态实时分析和监控客户洞察分析BillingCRMLocation10000CDRsNetworkDevicesInternetBlogs,e-Mail开始关注互联网日志数据和互联网站内容数据处理速度要求更快存储容量要求更高网络带宽要求更高传统数据仓库无法满足存储和处理的要求解决方案网络带宽要求更高处理速度要求更快存储容量要求更高传统以太网千兆升级到万兆传统以太网升级到Infiniband,单端口带宽最大可达到20Gbps采用集群计算并优化每点计算算法和效率采用Hadoop分布式文件系统容量可扩展到ZB级序号项目性能指标1用户数量(3000万)300000002文件采集时限(2分钟)1203文件处理时限(2分钟)1204文件入库时限(5分钟)3005每天日志量(3T)3*1024*10246采集需要网络带宽242.8MB/s7所需存储空间(全备份保存30天)150TMapReduceBigData技术落地──分布式文件管理系统及组件HIVEHBASEHadoop分布式文件系统(HDFS)基于分布式文件的关系数据库基于分布式文件的非结构化数据库大规模并行处理引擎MapReduce技术•有较强容错性•可在通用的机器上运行,降低总体成本•可扩展,能构建大规模应用关键技术--互联网信息萃取互联网信息萃取处理流程:关键技术点:网络爬虫:我们采用Heritrix框架的网络爬虫技术获取常规站点的网页内容分词和文本挖掘技术:采用最优算法进行文本分词,基于关键字排序算法进行网页分类非结构化存储hadoop结构化存储ODSHadoop分布式文件系统(HDFS)分布式文件系统优点:•有较强容错性•可在通用的机器上运行,降低总体成本•可扩展,能构建大规模应用基于分布式文件的关系数据库(HIVE)HIVE优点:•表定义是基于HDFS文件,不必复制数据•表查询采用与兼容的语句查询数据•自动调用分布式处理引擎,查询处理速度快2011/12/2716:35:11[debug]243385#0:*11LatnId=5512011/12/2716:35:11[debug]243385#0:*11avscFileName=3504.avsc2011/12/2716:35:11[debug]243385#0:*11svcName:DPRINTwillbecalled.2011/12/2716:35:11[debug]243385#0:*11BeginWrite:ret=12011/12/2716:35:11[debug]243385#0:*11simtpcallsuccess!---------------------------------------------------------------------------------log_time,log_level,thread_info,log_detail用语句定义表对应的文件,字段对应的位置,就将表与字段建立了关联查询时按数据库一样查询:Selectlog_time,log_detailfromlog_tablewherelog_level=‘error’网站内容news.sina.com要闻国内24个省份调整最低工资标准[我国明年将推进公务员聘任制坚持凡进必考]新疆警方击毙7名恐怖团伙成员详情披露国内多家银行否认春运火车票开售订票网站被指扣钱不出票湖北襄阳公务员酒驾撞人逃逸致4死获刑4年半陕西河北安徽等今日有大雾天气查询组图中海油注册成立海洋环境与生态保护基金会湖南考生起诉省地勘局拒录色盲考生索赔5万基于分布式文件的非结构化数据库(HBASE)HBASE优点:•基于列存储模式,节省存储空间•适合存放文本、网页等互联网内容。实例:计算各月总收入假如5000万用户号码,12个月,分布在10台机器上,在分布式处理模式下,1.2秒得到统计结果(201110,40.27)(201110,149)(201110,25.15)(201110,138.05)(201111,197.5)(201111,128.25)(201111,302.74)(201111,156.45)(201112,277.39)(201112,129)(201112,156.17)(201112,130)(201110,40.27,149,25.15,138.05)(201111,197.5,128.25,302.74,156.45)(201112,277.39,129,156.17,130)MapReduce(201110,352.47)(201111,784.94)(201112,692.56)某个DataNode下的数据:汇集所有DataNode的结果大规模并行处理引擎MapReduce技术...其他DataNodeMapRecude将复杂的统计任务拆分成各节点能独立处理的小任务,然后Master节点再将各节点的结果汇总得到最终统计结果。已完成访问日志清洗保存流程ETL完全监控化原始日志去不完整URL;去图片、广告筛选掉后台API调用URL规范URL保存到HADOOP中完全过滤掉噪声数据后续处理高效精准节省存储保存更久历史关联用户资料关联URL分类库客户行为特征库已建资源库──互联网URL分类库/手机应用分类库/影视资料库20111018102340-723938881|20111018102250-601149905|20111018102340|189xxxxxxxx|221.179.193.19|80|weibo.cn|=1285846970&gsid=3_5bc65ef7862f7c9a315084e6aa8204391a29bf2f0d4bbc5645|=1285846970&gsid=3_5bc65ef7862f7c9a315084e6aa8204391a29bf2f0d4bbc5645|200|text/vnd.wap.wml|wap浏览|550|19823|10114|14021|BREW-Applet/0x20068888(BREW/3.1.5.20;DeviceId:180027;Lang:zhcn)ucweb-squid|3|WAP2.0|GET|CTWAP12自我特征工作:找工作办公一族学习:自学高考高校学生中小学生家庭休闲娱乐:影视迷音乐迷曲艺迷K歌一族游戏迷博客达人购物:购房一族装修一族购车一族购手机团购达人网购达人理财:炒股基金保险信用卡族医疗保健:看病健身美容体育运动:足球篮球羽毛球高尔夫。。。商旅:公务旅行驴友。。。餐饮:美食一族生活:交友婚姻家政。。。社会特征位置:生活区工作区作息时间:朝九晚五昼伏夜出夜生活族交往圈:交际广泛交际狭小。。。消费能力:高消费小资一族精打细算。。。。。。商业区活跃。。。。。。电信消费特征天翼产品:语音高值语音沉默e家产品:语音不足语音过量带宽依赖宽带互联网:网迷超时上网大流量固话:语音高值语音沉默主叫活跃市话潜力长途潜力漫游潜力短信种子Itv潜力手机玩家异网手机用户市话潜力长途潜力增值业务:爱音乐潜力天翼视讯潜力通信助理潜力爱游戏潜力手机报潜力互联网URL分类库关联上网日志和客户资料──形成客户标签库+
本文标题:BIG DATA及互联网行为分析方案
链接地址:https://www.777doc.com/doc-5907163 .html