您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 基于Web日志分析的校园网受众分析
基于Web日志分析的校园网受众分析刘佐达清华大学网络中心目录背景介绍Web日志分析原理系统设计与实现实验结果及分析小结背景介绍数字化校园已经成为高等院校信息化建设的一个重要目标网络宣传阵地的竞争日趋激烈新的问题校园网宣传是否达到了预期的效果?用户在接收和使用校园网信息的时候具有什么样的特点?校园网信息的传播存在什么样的规律?Web日志分析原理Web日志记录了网站服务器接收、处理请求以及运行错误等各种原始信息Web服务模式主要有三个步骤服务请求,包含用户端的众多基本信息,如IP地址、浏览器类型、目标URL等。服务响应,Web服务器接收到请求后,按照用户要求运行相应的功能,并将信息返回给用户。如果出现错误,将返回错误代码。追加日志,服务器将对用户访问过程中的相关信息以追加的方式保存到日志文件中。Web日志分析原理(续)域(Field)描述(Description)日期(Date)请求页面的时间、日期和时区(Date,timeandtime-zoneofrequest)客户端IP(ClienIP)远程主机的IP或DNS入口(RemotehostIPorDNSentry)用户名(Username)远程登陆的用户名(Remoteloginnameoftheuser)字节(Byte)发送和接收的字节(Bytestransferred,sentorreceived)服务器信息(Server)包括服务器名称、IP和端口(Servername,IPaddressandport)请求(Request)URL查询(URLquery)状态(Status)返回HTTP状态标识(HTTPstatuscodereturnedtotheclient)服务名(Servicename)用户请求的服务名称(Requestedservicename)时间开销(Timecost)完成浏览所用的时间(Timetakenfortransactiontocomplete)协议及版本(Protocolandversion)传输用的协议及版本(Usedtransferprotocolanditsversion)用户代理(Useragent)服务提供者(Serviceprovider)Cookie标识号(CookieID)参考页(Reference)本页的上一页(Previouspage)Web日志分析原理(续)实验中采用的是NCSA公用格式,它是一种固定的ASCII格式,无法进行自定义。这种格式适用于网站,但不适用于FTP站点。NCSA日志实例:“66.249.65.144-anonymous[25/Feb/2007:04:02:35+0800]GET/dzzsread.php?id=2331HTTP/1.120011493”远程主机名远程日志名称用户名日期时间和时差66.249.65.144-Anonymous25/Feb/200704:02:35+0800请求/版本服务状态码发送的字节数ET/dzzsread.php?id=233120011493系统设计与实现输入与定制网络日志文件用户的特定需求日志预处理去除无关信息综合分析从特定信息数据库和IP数据库中抽取相关的数据,根据用户的定制进行综合分析,得到关于特定信息受众的IP分布数据统计输出根据用户的需求绘制图表,并通过显示接口反馈给用户系统设计与实现(续)实验数据集清华新闻网()是清华大学的重要信息发布中心清华大学计算中心提供清华新闻网的访问日志,作为实验数据,测试我们的系统分析功能用户地理位置分析访问特征分析用户地理位置分析将网络受众的地理位置分析分为校内、国内、国外三个类型用户地理位置分析——校内受众分析案例一新闻《比尔·盖茨与清华学子精彩对话》发布后两个月内访问者在清华大学校内的分布用户地理位置分析——国内受众分析案例二新闻《研招办进行2007年硕士研究生招生网上咨询活动》发布后三个月内的国内访问者分布用户地理位置分析——国外受众分析案例三新闻《研招办进行2007年硕士研究生招生网上咨询活动》发布后三个月内的国外访问者分布访问特征分析通过分析访问量的历史曲线,可以对校园网信息做以下分类:时效型信息持久型信息间歇型信息访问特征分析(续)——时效型信息特征发布后2~3天内访问量具有明显的峰起之后开始衰落多为娱乐新闻,容易引起轰动,但是却很难产生持久的影响力。案例四新闻《第十六届清华校园十佳歌手产生》访问特征分析(续)——持久型信息特征信息在发布后的很长一段时间内,其访问量在某一均值附近振荡没有明显的峰起或者低谷,具有较为持续的影响力通常政策性的信息具有类似特征案例五新闻《清华开展主题团日活动学习讨论“八荣八耻”》访问特征分析(续)——间歇型信息特征信息具有多个峰起,显示出信息传播中的周期性通常与事件本身的流程等具有相同的周期案例六新闻《研招办进行2007年硕士研究生招生网上咨询活动》小结针对目前数字化校园发展中一些亟待解决的问题,通过对Web日志的分析,设计了校园网受众的分析模型,并实现了可用系统。经过实验,证实了该模型的合理性和有效性,并根据访问量历史曲线的特征总结了校园网信息的三种基本类型。谢谢!
本文标题:基于Web日志分析的校园网受众分析
链接地址:https://www.777doc.com/doc-2572822 .html