您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据应用--系统监控与日志分析35
大数据应用-系统监控与日志分析8/1/2019目录•网易有道简介•在线服务监控•离线日志分析8/1/2019有道的发起者是一群执着于搜索技术的年轻人,我们发现中文网络中的搜索还远未达到理想,所以希望通过我们现在和将来的努力,把设想中的服务一点点变成现实,分享给大家使用,让你更快一秒找到想要的好东西。关于有道8/1/2019有道产品•搜索类博客搜索地图搜索视频搜索购物搜索网页搜索图片搜索有道热闻音乐搜索8/1/2019有道产品•翻译类•其他产品有道翻译海量词典桌面词典有道阅读有道快贴有道影讯手机服务8/1/2019在线监控与离线分析8/1/2019设计原则•不影响正常服务–水表不能把水堵了•通用性–如果不够通用…8/1/20198/1/2019目录•有道产品简介•在线服务监控•离线日志分析8/1/2019在线服务监控•访问控制系统•性能监控系统•异常报警系统8/1/2019访问控制系统•主要目的:防止非用户抓取–冲击系统服务–影响访问统计–非法使用数据•挑战–灵活的控制规则–减小对产品服务的影响8/1/2019访问控制规则•过滤规则–Key:Header字段,parameter–Key:正则表达式–例子:•Ip=123\.45\..*,agent=“firefox.*”•频度控制–统计时间(span)–次数的阈值(threshold)–例子:•span:3600000threshold:10008/1/2019访问控制系统•总体结构–旁路统计–规则封禁•访问控制服务器–维护规则库–按规则进行统计–为产品生成封禁列表•产品服务端–转发请求–同步封禁列表–实施访问控制8/1/2019访问控制系统RequestCollectorWebUDPControllerSenderRuleSetsProductBansRequestFilterSynchronizerTCPRequestSenderProductBansRequestFilterSynchronizerUDPTCPBanRepositoryUSERUSER8/1/2019性能监控系统•功能:实时统计服务中的性能参数–如处理时间、吞吐率等•特点–通用性–集中的数据分析与存储–直观的展现方式8/1/2019性能监控的需求•通用性–各种产品不同的需求–自定的统计量–不同的编程语言•性能要求–减小对产品服务的影响–大数据量的分析与存储8/1/2019监控系统的设计•松耦合–通过日志文件交换数据–文本格式•自定义统计量–产品名,变量名,取值的三元组•大数据量–多分辨率压缩存储8/1/2019监控系统结构图ServiceLOGCollectorReceiverWebUIUDPUDPAnalyzerSenderServiceLOGCollectorSenderMulti-Resolution8/1/20198/1/20198/1/2019异常报警系统•功能–自动筛查日志中的Exception–发现问题自动发信报警•优点–通用性强–使用简单8/1/2019目录•有道产品简介•在线服务监控•离线日志分析8/1/2019离线日志统计•主要的目的–用户使用习惯–用户对产品的好感度–系统运行状态–市场推广情况8/1/2019日志收集•集中的日志服务器–产品的服务器是分布式的,需要统一分析–所有产品公用,降低运营复杂度•大数据量存储–服务器建立本地缓存–最终保存在分布式文件系统中–压缩存储•防止日志丢失–支持备份服务器–分布式文件系统保证可靠性8/1/2019日志收集系统Service1Log-ServerBackupDaemonSender...LocalDiskLog-Server(Backup)BackupDaemonLocalDiskService2SenderServiceNSender...DFSLogServersProducts8/1/2019日志分析•主要的挑战–超大数据量–运算时间的要求–组合统计•解决方法–分布式计算8/1/2019分布式分析程序LOGParserParserParserParserParserKey,CountKey,CountKey,CountKey,CountKey,CountSorterSorterSorterSortParseResult...DFS8/1/2019常规统计•访问量–时间–地域•用户–新用户:推广与传播的效果–老用户:真正使用这个产品•功能切换–页面切换–产品切换8/1/2019一些有意思的统计规律•周末与非周末–什么时候流量更大?8/1/2019周末与非周末•工具(网页搜索、海量词典)vs娱乐(视频搜索、音乐搜索)00.20.40.60.81THUFRISATSUNMONTUEWEDTHUFRISATSUNMONTUEWEDTHUFRISATSUNMONTUEWEDTHUFRISATSUNMONTUEWED海量词典视频搜索平时需要工具,周末需要娱乐8/1/2019一些有意思的统计规律•不同的时段访问有区别吗?•搜索和吃饭的关系?8/1/2019工具vs娱乐0%1%2%3%4%5%6%7%8%01234567891011121314151617181920212223海量词典视频搜索白天需要工具,晚上需要放松8/1/2019公网vs教育网0%1%2%3%4%5%6%7%8%9%01234567891011121314151617181920212223公网教育网白领和中小学生要早睡,大学生都是夜猫子8/1/2019更多的分析•《有道阅读的12个有趣的发现》–订阅博客范围,新老各有地盘–职业和阅读习惯–阅读真的变成快餐了–明星博客,各领风骚三两天–大部分人订阅不过10个,阅读不超20分钟–阅读还是很个人–…8/1/2019总结•在线服务监控–保证服务正常运行•离线日志分析–了解用户,改进产品
本文标题:大数据应用--系统监控与日志分析35
链接地址:https://www.777doc.com/doc-27001 .html